Home
universidade técnica de lisboa instituto superior técnico - INESC-ID
Contents
1. Y Be Palayra Vogal T nica Ultima S laba Letra Palavra ce A deg do verso Figura 11 Esquematiza o de rima 33 O processo respons vel por automatizar a detec o da rima tem em conta apenas as ltimas palavras de cada verso e para estas palavras sinaliza a ltima vogal acentuada Pode se concluir em resumo que duas palavras rimam quando a partir da vogal t nica inclusive e com tudo o que se lhe segue as palavras t m igual sonoridade Tamb m surgiu a necessidade de limitar o mbito da defini o de rima e em termos de implementa o consideram se apenas rima consoante ou seja aquela em que existe uma correspond ncia total a partir da s laba t nica Todas as defini es apresentadas serviram de base para realizar a aquisi o dos poemas na medida em que permitem implementar um algoritmo que realiza a aquisi o dos poemas e identifica os conceitos estruturais e de rima dos poemas a classificar 3 9 Regras de Classifica o de Poemas Quando se constr i um poema necess rio ter em conta alguns factores que determinam diferentes tipos de poema existem poemas em que o n mero de versos que constituem as estrofes constante existem poemas em que o n mero de s labas de cada verso constante e existem poemas em que os versos que rimam entre si poder o apresentar se com diferentes configura es A Tabela 5 resume as d
2. MGP MID Figura 12 Arquitectura do Sistema LuCas Seguidamente apresenta se um resumo de cada m dulo bem como as suas respectivas fun es de interface Come ando pelos tr s m dulos que se apresentam na Figura 12 do lado esquerdo o M dulo de Interface do Sistema MIS respons vel pelas opera es de interface do sistema e o M dulo Identificador de Conceitos MIC e o M dulo Identificador de Regras MIR s o respons veis pela identifica o dos conceitos e regras da po tica portuguesa existentes nos poemas Estes m dulos partilham uma estrutura de dados comum interna do sistema onde o poema armazenado e a respectiva informa o adicional resultante do pr processamento do poema Quando realizada a classifica o dos poemas a informa o de classifica o adicionada na estrutura de dados interna Ara jo amp Mamede 2002 Tamb m a sugest o de palavras usa a informa o da estrutura de dados interna A op o de partilhar uma estrutura de dados pelos tr s m dulos adoptando se uma manipula o do tipo quadro preto melhora o desempenho do sistema pois evita ter de passar v rias vezes a mesma informa o entre os v rios m dulos Por outro lado esta utiliza o restringe a generalidade e independ ncia entre m dulos pois aumenta o acoplamento entre eles O MIS realiza as fun es de interface com o utilizador Estas opera es incluem editar poemas guardar
3. a 5 88075100000 a abadessa 0 01240277000 5 38470200000 a abadia 0 12448850000 5 47629800000 a abafar 0 04290840000 5 23826200000 a abaixo 0 00000000000 Figura 3 Grupos de Duas Palavras com Valor de Frequ ncia e Factor de backoff 17 E Frequ ncia Palavra1 Palavra Palavra3 Factor backoff cidade 0 08316695000 cinco 0 07574962000 2 66555000000 a a o a 3 25000700000 a a cinquenta 0 35222700000 am a classifica o 0 00000000000 3 37385500000 a a colocar 0 00000000000 See Figura 4 Grupos de Tr s Palavras com Valor de Frequ ncia e Factor de Backoff Frequ ncia Palavra Palavra Palavra3 Palavra4 2 57598900000 a a bola enquanto 2 48734000000 a a bola fernando 2 20488200000 a a bola Foi 2 02271700000 a a bola Fonte 2 50851900000 a a bola J Figura 5 Grupos de quatro palavras com valor de frequ ncia Se por exemplo se pretender calcular a frequ ncia de ocorr ncia da palavra abadessa pode se faz lo bastando para isso calcular 10 6 485709 3 268e 7 Esta forma de c lculo aplica se a todos os grupos de palavras existentes e a frequ ncia resultante est compreendida entre O e 1 Para os casos em que n o existe o grupo de palavras para o qual se pretende saber a frequ ncia usou se o processo de c lculo com base em backof
4. Tempos de Resposta 180 160 o 140 120 100 80 60 Resposta Tempo de Resposta s 20 o ae 0 50 100 150 200 250 N mero de palavras Figura 18 Gr fico dos Tempos de Resposta de Classifica o Como se pode observar na Figura 18 o tempo de resposta aumenta com o aumento do n mero de palavras que constituem o poema Este resultado j era esperado uma vez que quanto maior for o n mero de palavras mais tempo processamento necess rio para contabilizar o n mero de s labas dos versos a rima do poema e as regras de classifica o a aplicar ao poema A op o de partilhar uma estrutura de dados pelos tr s m dulos evita ter de andar a copiar a informa o pelos v rios m dulos o que provocaria um tempo de demora significativamente maior que o resultado obtido Por outro lado esta op o aumenta o acoplamento entre os m dulos restringindo a generalidade e independ ncia destes m dulos ficando esta implementa o comprometida com a estrutura de dados usada 5 3 Avalia o do Preditor de Palavras A primeira avalia o teve como objectivo verificar qual a diferen a de utilizar os grupos de 2 3 e 4 palavras dos modelos de l ngua descritos para sugest o de palavras finais dos versos sem 64 ter em conta as restri es estruturais de n mero de s labas e rima Como metodologia foram seguidos os seguintes passos 1 2 3 4
5. composta por uma nica s laba e corresponde a uma palavra aguda por ser acentuada na ltima s laba J a palavra Sabedoria composta por cinco s labas gramaticais acentuada na pen ltima s laba o que corresponde a uma palavra grave Na divis o sil bica a indica o da vogal acentuada que permite verificar se se trata de uma palavra aguda grave ou esdr xula bastando para isso contar o n mero de s labas que aparecem ap s a indica o de s laba t nica No caso da palavra Sabedoria podemos contar mais uma s laba ap s a indica o de s laba t nica No l xico estas palavras s o representadas com os caracteres com os respectivo acentos ou seja feita a convers o das letras mais os acentos que se obt m em letras com acentos Para depois ficar de acordo com o l xico necess rio a convers o de n a o para n o 3 6 Divis o em S labas M tricas As s labas m tricas s o as s labas contadas nos versos tal como s o apercebidas pelo ouvido Para realizar a divis o dos versos em s labas m tricas necess rio ter em conta o ritmo do verso que define o seu per odo r tmico 26 A principal diferen a em termos de contagem que as s labas m tricas apenas contabilizam o n mero de s labas at ltima s laba acentuada da palavra Existem ainda outros processos que alteram o n mero de s labas e que fazem aumentar ou diminuir o n mero de s labas m tricas Existem duas reg
6. admin culo ao poeta sem nunca ter a pretens o de substitu lo porque insubstitu vel a cria o do esp rito apenas auxiliar na busca da rima mais apropriada dispensando a fastidiosa consulta a dicion rios convencionais Pretor 2000 Esta aplica o um exemplo do funcionamento que foi descrito para os dicion rios de rima em formato electr nico na forma de aplica o independente A forma como s o realizadas as pesquisas das palavras com base nas ltimas letras das palavras O sistema apresentado nesta disserta o tamb m sugere as palavras finais dos versos sendo um dos crit rios de selec o a rima das palavras Esta funcionalidade equivalente utiliza o de um dicion rio de rimas anteriormente descrito No entanto a abordagem n o est baseada na termina o em termos de letras das palavras mas sim na sonoridade das palavras Assim quando se pretende obter palavras que rimam com uma determinada palavra dada obt m se as palavras que em termos sonoros s o semelhantes a essa palavra consonantes A diferen a da abordagem seguida baseada na sonoridade das palavras tem a vantagem de dada uma palavra eliminar as palavras com igual termina o em termos de letras mas que n o s o consonantes e juntar as palavras que t m termina es diferentes em termos de letras mas que s o consonantes Neste trabalho a forma como o utilizador indica a palavra para a qual pretende obter as palavras que rimam teve d
7. 5 6 Em primeiro lugar selecciona se a primeira estrofe e o primeiro verso Em segundo lugar remove se a ltima palavra do verso seleccionado Em terceiro lugar selecciona se caso exista a palavra anterior palavra removida PA Utilizando os grupos de 2 palavras ordenam se por ordem decrescente de frequ ncia de ocorr ncia todos os pares de palavras em que a primeira palavra do par seja igual a PA Para efeitos de registo apenas se guardam as primeiras 10 palavras do resultado Em quarto lugar seleccionam se caso existam as duas palavras anteriores palavra removida PA e PA2 Utilizando os grupos de 3 palavras ordenam se por ordem decrescente de frequ ncia de ocorr ncia todos os trios de palavras em que as primeiras duas palavras do trio sejam iguais a PA e PA2 Para efeitos de registo apenas se guardam as primeiras 10 palavras do resultado Em quinto lugar seleccionam se caso existam as tr s palavras anteriores palavra removida PAI PA2 e PAS Utilizando os grupos de 4 palavras ordenam se por ordem decrescente de frequ ncia de ocorr ncia todos os grupos de quatro palavras em que as primeiras tr s palavras do trio sejam iguais a PAI PA2 e PAS Para efeitos de registo apenas se guardam as primeiras 10 palavras do resultado Em sexto lugar selecciona se o pr ximo verso da estrofe e continua se no passo 2 Este processo de teste apresenta como resultado o conjunto das palavras que de acordo com o modelo t
8. o Leia baseada no sistema DIXI que foi o primeiro sistema de s ntese de fala a partir de texto desenvolvido de raiz para a l ngua portuguesa Oliveira 1996 A transcri o fon tica realizada quer por consulta de um dicion rio quer por um conjunto de regras No contexto deste trabalho n o se pretende gerar fala mas a utiliza o da transcri o fon tica para verifica o de rima o que permite identificar as palavras consoantes A indica o da vogal acentuada assinalada pelo s mbolo e todos os caracteres que aparecem ap s este caracter correspondem transcri o fon tica da termina o da palavra que comparada para efeitos de rima 24 Palavra Transcri o Fon tica Eu ew Nao n 6 w Tenho t 6Ju Vistas v iSt6S Largas l arg6S Sabedoria s6b dur i6 Tabela 3 Exemplo de transcri es fon ticas A Tabela 3 apresenta um conjunto de exemplos de transcri es fon ticas de palavras extra das de uma quadra Destacando um dos exemplos apresentados pode se verificar que a transcri o fon tica da palavra Nao corresponde a n 6 w Se se analisarem as termina es fon ticas das palavras Vistas e Largas para as comparar em termos de rima obt m se respectivamente as termina es fon ticas iSt6S e arg6S Como se pode verificar elas s o diferentes o que significa que as palavras n o rimam entre si 3 5 Divis o em
9. como s o exemplo o metro e a rima Das defini es de poema e poesia apresentadas conclui se que do ponto de vista estrutural um poema est organizado em estrofes Assim para as defini es ficarem completas necess rio definir estrofe Uma estrofe um conjunto de versos solid rios pelo ritmo e insepar veis pelo pensamento cita o de Amorim de Carvalho Tratado de Versifica o Portuguesa 1941 Mois s 1974 Embora um pouco filos fica esta defini o complementada pela seguinte defini o Por estrofe entende se cada uma das sec es que constituem um poema ou seja cada 30 agrupamento de versos rimados ou n o com unidade de conte do e de ritmo Mois s 1974 Conclui se que as estrofes correspondem aos grupos de linhas que constituem o poema Como as estrofes se organizam em versos torna se necess rio definir verso Se se tiver em conta a utiliza o mais antiga desta palavra Inicialmente significava em latim a volta que dava a charrua ao fim de cada sulco mas depois passou a aplicar se por extens o ao pr prio sulco finalmente por met fora ganhou o sentido de linha de escrita que finalmente se especializou no de linha de escrita em poesia composta por um n mero determinado de s labas Coelho 1987 Outra defini o mais resumida aponta que um verso a sucess o de s labas ou fonemas formando unidade r tmica e mel dica correspondente a uma linha do poema Cada ve
10. m maior probabilidade de ocorr ncia tendo em conta 1 2 ou 3 palavras anteriores para a ltima palavra de cada verso que constitui a estrofe em teste Os resultados obtidos foram divididos por grupos de palavras Para o grupo de 4 palavras na maioria dos casos n o existem conjuntos de 4 palavras que contenha as 3 primeiras palavras anteriores palavra a sugerir Nos casos em que existem resultados n o atingem as 10 hip teses Para os grupos de 3 palavras na maioria dos casos existem solu es com 10 hip teses em que cerca de metade poderiam ser palavras pass veis de ser usadas no verso Existem casos em que o resultado n o atinge as 10 hip teses e alguns em que n o existe nenhuma solu o Para os grupos de 2 palavras n o foi encontrado nenhum caso sem o total das 10 solu es No entanto o n mero de palavras que seriam poss veis de ser usadas tamb m cerca de metade como nos grupos de 3 palavras Neste caso quase sempre 65 existe uma hip tese mesmo que n o seja nas 10 primeiras em que a palavra que foi removida est contemplada Estes resultados permitem concluir que na sugest o de palavras os bigramas s o os grupos de palavras que permitem na maioria dos casos obter a palavra que se pretende sugerir A segunda avalia o teve como objectivo verificar qual a diferen a na sugest o de palavras quando se entra em conta com as restri es estruturais de n mero de s labas e de rima nos poem
11. vel de subjectividade a seguinte Considera se poema toda composi o liter ria de ndole po tica Mois s 1974 Das defini es analisadas a mais objectiva foi a de que o poema um organismo verbal que cont m suscita ou segrega poesia cita o de Octavio Paz El Arco y la Lira 1956 Mois s 1974 e que define poema com base na defini o de poesia Tamb m foram v rias as defini es de poesia que foram analisadas Foram escolhidas duas defini es de poesia sendo a primeira mais subjectiva e a segunda mais objectiva Como primeira defini o de poesia tem se a comunica o estabelecida com meras palavras de um conhecimento de ndole muito especial o conhecimento de um conte do ps quico 29 tal como ou seja de um conte do ps quico como um todo particular como s ntese intuitiva nica do conceptual sensorial afetivo cita o de Teoria de la Expressi n Po tica 4 ed 1969 Mois s 1974 A segunda defini o de poesia Se eu chamar prosa a um discurso m nimo ve culo mais econ mico do pensamento e chamar a b c a atributos particulares da linguagem in teis mas decorativos tais como o metro a rima ou o ritual das imagens toda a superf cie das palavras se encaixar na dupla equa o de M Jourdain Poesia Prosa a b c Prosa Poesia a b c Da resulta evidentemente que a Poesia sempre diferente da Prosa Mas tal diferen a n o de ess ncia
12. CONTAGEM DAS PALAVRAS COM IGUAL TERMINA O FON TICA esee 52 TABELA 10 CONTAGEM DAS PALAVRAS COM IGUAL N MERO DE S LABAS sssssesseeseeseeseeceeeeseeseeseeneeeseeaees 53 TABELA 11 CONTAGEM DAS PALAVRAS COM IGUAL CATEGORIA ccesseesseeseeeeeeseeeseeescensceeseeeeeneeeeeseenaeenes 54 TABELA 12 CLASSIFICA O DE QUADRAS POPULARES DE ANTONIO ALEIXO cccccsseseesseseeseceseeseeeeeseeseeaees 55 TABELA 13 DETALHE DE CLASSIFICA O DA PRIMEIRA QUADRA DE ANT NIO ALEIXO eee 56 TABELA 14 CLASSIFICA O DE UMA ESTROFE DOS LUS ADAS sese 56 TABELA 15 CLASSIFICA O DE ESTROFES REALIZADAS POR CRIAN AS essere enne 57 TABELA 16 SUGEST O DE PALAVRAS POR FREQU NCIA DE OCORR NCIA eee 58 TABELA 17 SUGEST O DE PALAVRAS POR FREQU NCIA DE OCORR NCIA DE PARES DE PALAVRAS 58 TABELA 18 SUGEST O DE PALAVRAS POR RIMA cessent entente neret enne nene ener enters 59 TABELA 19 SUGEST O DE PALAVRAS POR NUMERO DE SL ARA 59 TABELA 20 SUGEST O DE PALAVRAS POR RIMA E POR NUMERO DE S LABAS c ocoooccocconconcnnnonncononnconconnconcanonnno 59 TABELA 21 SUGEST O DE PALAVRAS POR RIMA E POR N MERO DE S LABAS COM PALAVRA ANTERIOR 59 TABELA 22 COMANDOS DO SISTEMA LUCAS cscsssessseesseesseeseceecssecscecseceneeuaecaeeuaeceaeeeaseeseeeseeceeeaeeesecsaeenss 62 TABELA 23 TEMPOS DE CLASSIFICACAD ii einsehen ih Corren
13. ESTADOS DO PROCESSO DE CLASSIFICA O essere 47 RA 14 DIAGRAMA DE ACTIVIDADE DE IDENTIFICA O DE VERSOS E ESTROFES eere 48 RA 15 DIAGRAMA DE ACTIVIDADE DE PREDI O DE PALAVRAS nennen enne nnns 49 RA 16 MODELO DE DADOS DO L XICO ccsccsssessseeseesseeeseccseceseceseccseceseccsscesscesscesesesssesesenseessenseenseceseeess 50 RA 17 INTERFACE DO SISTEMA LUCAS cesses nere nennen entente nete nn enne nnne enne nnn ens 61 RA 18 GR FICO DOS TEMPOS DE RESPOSTA DE CLASSIFICA O sees 64 xiii LISTA DE TABELAS TABELA 1 CONTAGEM DOS GRUPOS DE PALAVRAS DO MODELO DE LINGUA eere 16 TABELA 2 ALFABETO FON TICO PARA O DIALECTO PADR O DO PORTUGU S EUROPEU SAM PA 23 TABELA 3 EXEMPLO DE TRANSCRI ES FON TICAS noo non nnnnnconnn nro n nan rnn naar rr trennt nnn 25 TABELA 4 EXEMPLO DE DIVIS ES SIL BICAS ccscessesseeseeseeseesceseeseeesecsecseeesesseesecseceecaeesesseeseceasesesaeensenseeaees 26 TABELA 5 CLASSIFICA O DAS ESTROFES QUANTO AO N VERSOS nennen rennen nnns 34 TABELA 6 CLASSIFICA O DOS VERSOS QUANTO AO N S LABAS cccsssssssseeseeseeseeseceeeeseeseeseeseeeeeesesaeenseeseeaees 35 TABELA 7 CLASSIFICA O QUANTO POSI O RELATIVA DA RIMA E DOS VERSOS QUE ENLA A 37 TABELA 8 DISTRIBUI O DO N MERO DE TRANSCRI ES FON TICAS essere 51 TABELA 9
14. See ae EE 9 2 2 MODELOS FORMAIS DE LINGUA rea 10 2 3 MODELOS ESTAT STICOS DE LINGUA 2 0 cece ccc e cece cece eee ne cee messes 11 2 4 A FERRAMENTA CMUSLM 22 cece ccc cece cc eme emses ee eese een 14 2 5 MODELOS UrLtzApog crer e erre crer era esee een 15 2 6 EXEMPLOS DoOMopnptLoUrLtzao eese eese ehe enne 16 3 CONCEITOS DA PO TICA PORTUGUESA EENEG 21 SL INTRODU O adia sing EE 21 3 2 ACENTUA O DAS PALAVRAS coooccoccocconcconncnnccnnonnccnnonncc e E rne 21 3 3 TRANSCRI O FON TICA DAS PALAVRAS cccceceeeeceee eee emere 29 JA RIMA ss A EE 23 3 5 DIVIS O EM S LABAS OGRAMATICAIS II ehe 25 3 6 DIVIS O EM S LABAS M TRICAS c cece ceec cee e II eene 26 3 7 CATEGORIA MORFOL GICA DAS PALAVRAS ccseee Hee 28 3 8 CONCEITOS ESTRUTURAIS u EL Dein en eg 29 3 9 REGRAS DE CLASSIFICA O DE POEMAS o00ccccccccccncconcnnccnncnnncnn eenaeeneenas 34 STO TIPOS DE POEMAS unsre Inn DOS Aa ade as MDS TOM s 38 4 O SISTEMA LUCAS scccsssscasscacecciau ssncctetcaanckessbadsotaccceasbaecSuanadenccadeadsscesacaseieiadsiecesoacaeseaSosdecscensi eat 41 4 INTRODU O Ac 41 4 2 ARQUITECTURA DO SISTEMA 0ccccccccccncnncncnnnnnnnnnnnnnnnnr e ee emere 42 4 3 PROCESSOS DE COORDENA O erre e esse enr 47 4 4 ARQUITECTURA DA BASE DE DAposg es 50 4 5 EXEMPLOS DE CLASSIFICA O DE POEMAS ceccece cence mee eee 55 4 6 EXEMPLOS DE SUGEST O DE PALANRAS nano ns 57 5 IMPLEMENTA O DO SISTEMA LUCAS 0 0 cc
15. a sua utiliza o bastante simples As fun es mais comuns que s o disponibilizadas nos editores mais comuns est o relacionadas com a ortografia e com a gram tica Se se pretender fun es espec ficas para tipos concretos de textos liter rios como s o exemplo os textos po ticos j as ferramentas mais comuns podem n o implementar essas fun es Os textos liter rios podem ser divididos em textos em prosa e textos em verso As aplica es de edi o de texto permitem editar ambos os tipos de texto devido suas fun es serem gen ricas e permitirem ser aplicadas aos diferentes tipos de texto A poesia distingue se da prosa n o s pelo seu aspecto formal que facilmente identificamos mas ainda e sobretudo pela cad ncia e musicalidade pela inspira o ardente pelo arrojo das imagens pela beleza da express o e pelo encanto secreto que devem existir em todos os versos dignos deste nome Areal 2000 Esta cita o salienta as diferen as entre os textos em prosa e os textos em verso Esta diferen a pode ser dividida em duas partes por um lado a cad ncia e musicalidade que est o relacionadas com a estrutura e a sonoridade das palavras que comp em os textos em verso e por outro a inspira o as imagens e a beleza que est o relacionadas com factores de interpreta o mais subjectivos e que dependem da sensibilidade de cada pessoa Da defini o apresentada pode se concluir que se se pretender um sistema auto
16. aplica es Esta solu o limita os resultados obtidos e corta hip teses de solu es que no caso de ter as aplica es dispon veis n o sucede A solu o encontrada com a implementa o da base de dados permite tamb m guardar a informa o gerada pelas aplica es externas Mas se por um lado esta op o permite ter o sistema a funcionar autonomamente mesmo quando n o est o dispon veis as aplica es externas por outro lado surge o problema quando aparece uma palavra que n o existe no l xico Se as aplica es externas estivessem dispon veis conseguiriam gerar a informa o relativa a essa palavra mas n o estando dispon veis no l xico a palavra considerada como n o v lida O tratamento das palavras que n o existem no l xico tem diferentes consequ ncias para as diferentes funcionalidades do sistema e dependendo da sua posi o nos versos Se as palavras em falta est o no final dos versos ent o pelo facto de n o ser poss vel obter a informa o de n mero de s labas e a informa o da rima destas palavras o resultado de classifica o incompleto e a sugest o de palavras n o considera a rima como crit rio de selec o Se as palavras em falta est o no meio dos versos ent o o resultado de classifica o incompleto com a informa o de classifica o relativa a rima do poema correcta Neste caso poss vel considerar a rima como crit rio de selec o na sugest o de palavras Na verifica o
17. da rima entre as palavras as op es de implementa o mostram que a abordagem seguida tendo como compara o os dicion rios de rima em formato electr nico que foram testados permite realizar a verifica o da rima das palavras de uma forma fi vel pois tem como base a transcri o fon tica das palavras em alternativa termina o em termos de letras das palavras Tamb m o facto de existirem v rias formas diferentes de dizer a mesma palavra origina a que exista v rias transcri es fon ticas para a mesma palavra Surgiu a assim a necessidade de arranjar um crit rio de escolha para a transcri o fon tica a utilizar Esta escolha tem maior impacto quando as palavras sugeridas t m poucas alternativas de escolha e por isso nestes casos s o contempladas as v rias transcri es fon ticas Nos casos em que o n mero de palavras sugeridas elevado escolhida apenas uma das transcri es fon ticas Quanto utiliza o deste sistema houve a preocupa o de implementar uma interface simples que seja f cil de usar por quem inicia o estudo de poesia como o caso das crian as em idade escolar Mas para que o sistema fique vocacionado para este fim ainda muito h a fazer em 70 termos de robustez e ecr s de ajuda Tamb m a interface pode ser melhorada no sentido de tornar a utiliza o do sistema mais f cil como exemplo a exist ncia de teclas de atalho Para poetas este sistema permite ajudar a escolher as regr
18. das estrofes dos versos e das rimas Tamb m acrescentada a informa o da transcri o fon tica e divis o sil bica das palavras Na terceira etapa o MIR tem como base a informa o de identifica o de conceitos da etapa anterior e realiza a classifica o do poema com base em regras que incluem a classifica o das estrofes a classifica o dos versos e a classifica o da rima Na quarta e ltima etapa o MIS respons vel por apresentar o resultado final de classifica o ao utilizador Seguidamente apresentado na Figura 14 um diagrama de actividade na linguagem UML que corresponde ao algoritmo simplificado que realiza a aquisi o de poemas e armazena os conceitos estruturais do poema relativos ao verso e estrofe para permitir a posterior classifica o N meroEstrofes O N meroVersos O Novo Poema Linha lt gt EndOfFile Pr Processamento Linha Linha lt gt Nulo Incrementa N meroEstrofes Incrementa N meroVersos Processa Estrofe N meroVersos O Processa Verso Figura 14 Diagrama de actividade de identifica o de versos e estrofes Este algoritmo est implementado no MIC Come a por iniciar as vari veis N meroEstrofes e N meroVersos com 0 para depois realizar um ciclo de leitura das linhas do poema Por cada linha lida diferente de nulo incrementa a vari vel N meroVersos que indica o n mero de versos numa estrofe Por cada mudan a de linha em branco n
19. de corpora de texto S o classificados poemas realizados por crian as em idade escolar e tamb m algumas estrofes de autores conhecidos como Ant nio Aleixo e Cam es S o comparados exemplos de sugest o das palavras finais dos versos utilizando os v rios crit rios de selec o e ordena o enumerados Das v rias utiliza es poss veis para o sistema destaca se a sua utiliza o como ferramenta did ctica de apoio ao estudo de poesia nas escolas como auxiliar de escrita de poesia e como auxiliar de leitura em voz alta de poemas a partir da informa o de classifica o respectiva Palavras Chave Intelig ncia Artificial Processamento de L ngua Natural Modelos Estat sticos de L ngua Poesia Rima ABSTRACT This dissertation presents a structure that allows automatic classification of poems and final word suggestion to the poem s verses The Portuguese poetic concepts are the basis for poem classification which are divided in structural concepts and classification rules The poem classification is determinist and doesn t need any example of poems to be produced The final word suggestions of the verses are made by different selection and order criteria of the words to suggest The first criterion is based on the structural restrictions of the poems The second criterion is based in grammatical category of the suggested words The third criterion is based on statistics language models that can be obtained from a te
20. de quantidade cita o de O Grau Zero da Escritura tr br 1971 Mois s 1974 A partir desta ltima defini o conclui se que poesia diferente de prosa e a diferen a encontra se nos atributos particulares da linguagem como s o o metro e a rima Foi ainda analisada outra defini o que colide com a segunda defini o de poesia apresentada que afirma que existem poemas sem poesia e a poesia pode surgir no mbito de um romance ou de um conto Mois s 1974 Esta defini o baseia se mais na primeira defini o de poesia apresentada ou seja na comunica o estabelecida entre o poeta e o leitor no conte do ps quico conceptual sensorial e afectivo No mbito desta disserta o n o se considera a poesia moderna onde a fronteira entre estes conceitos ainda mais difusa N o tendo a ambi o de levar estas defini es ao extremo nem o desejo de contemplar todas as hip teses poss veis de poemas e olhando para estas defini es de poesia de um ponto de vista pr tico e funcional surge a necessidade de restringir o dom nio da defini o bem como dos poemas poss veis de serem utilizados O primeiro compromisso que se adopta o de admitir que o dom nio dos poemas que se pretende alcan ar aquele em que existe poesia Os textos po ticos t m uma estrutura de escrita bem definida e regras de constru o bem definidas que obedecem s normas impostas pela tradi o e respeitam os aspectos formais da escrita
21. e ler em ficheiros os poemas editados e receber os comandos efectuados pelo utilizador Os comandos aceites pelo sistema permitem validar as palavras do poema classificar o poema e sugerir palavras finais dos versos Foram inclu das no sistema algumas fun es associadas rima das palavras que permitem a pesquisa de palavras segundo a sua rima 43 2 Este m dulo tamb m respons vel pela visualiza o dos resultados de classifica o visualiza o das palavras finais dos versos sugeridas pelo sistema e das palavras que rimam com uma determinada palavra respons vel ainda pela configura o do sistema e pelas mensagens de ajuda que guiam o utilizador nos comandos poss veis de ser efectuados Este m dulo disponibiliza na sua interface as seguintes fun es validaPoema Poema esta fun o devolve um valor bin rio de verdadeiro ou falso indicando se o poema passado como argumento na forma de texto v lido ou n o processaPoema Poema esta fun o realiza o pr processamento do poema passado como argumento na forma de texto decompondo o em linhas e estrofes e armazenando o numa estrutura interna que servir de base aos m dulos seguintes mostraClassifica o esta fun o converte o resultado da classifica o do poema que est armazenado na estrutura interna do sistema num formato texto de f cil percep o e apresenta ao utilizador mostraSugest o esta fun o apresenta ao utilizador as palavr
22. existem vi diferentes hip teses e para especificar completamente P w w w W 1 t m de ser estimados v valores Huang et al 2001 Mesmo para valores moderados de i imposs vel estimar todos os valores pois a maior parte deles s ocorrem uma vez ou muito poucas vezes A solu o pr tica restringir o n mero de palavras anteriores levando aos modelos de Ngramas e Os modelos de l ngua unigramas P w apenas consideram a frequ ncia de ocorr ncia da palavra sem considerar as palavras anteriores e Os modelos de l ngua bigramas P w w consideram apenas a palavra anterior no c lculo da frequ ncia de ocorr ncia e Os modelos de l ngua trigramas P w w W consideram as duas palavras anteriores no c lculo da frequ ncia de ocorr ncia Desta forma os modelos estat sticos de l ngua atrav s dos Ngramas permitem representar um determinado corpus de texto e realizar a sugest o das palavras com base na frequ ncia de ocorr ncia Um dos problemas existentes nos modelos de Ngramas deve se ao facto de mesmo utilizando corpus de treino grandes existirem Ngramas que s o v lidos em termos de linguagem 12 mas n o existem no corpus de treino e por isso a sua ocorr ncia nula Este problema tanto maior quanto maior for o n mero de palavras anterior que se quiser considerar Existem t cnicas que permitem lidar com este problema e permitem atribuir frequ ncias diferentes de O aos Ngramas que n o reg
23. grupo de investiga o do L F ferramentas que implementam estas funcionalidades Neste trabalho considera se aplica o externa aquela que implementa uma ou v rias funcionalidades descritas O sistema interage com estas aplica es de forma a adquirir a informa o necess ria quer para a classifica o de poemas quer para sugest o de palavras 1 3 Organiza o da Disserta o No cap tulo 2 come a se por fazer uma introdu o modela o de l ngua destacando alguns aspectos relevantes relacionados com a rea da lingu stica e da fala S o apresentados os modelos formais fazendo referencia classifica o dos v rios tipos de gram ticas segundo Chomsky Seguidamente feito um enquadramento dos modelos estat sticos de l ngua que s o usados no contexto deste trabalho como crit rio de decis o na escolha das palavras ainda feita uma refer ncia ferramenta que permite gerar os modelos de l ngua e s o apresentados exemplos sobre o modelo de l ngua utilizado no mbito deste trabalho No cap tulo 3 s o introduzidas quatro defini es base a acentua o das palavras a transcri o fon tica a verifica o da rima e a divis o das palavras em sil bicas gramaticais e em s labas m tricas Discute se a utiliza o das categorias morfol gicas das palavras utilizadas no processo de sugest o como meio de selec o das palavras segundo a sua categoria Descrevem se os conceitos estruturais da po tica portugue
24. poss veis aplica es enumerados foram definidos os seguintes objectivos principais e Realizar a classifica o de diferentes tipos de poesia e Apresentar de forma simples e clara o resultado da classifica o dos poemas e Ter como base para a classifica o de poemas os conceitos da po tica portuguesa sem necessitar partida de exemplos de poemas que condicionem a forma como realizada a classifica o e Sugerir as palavras finais dos versos e Utilizar diferentes crit rios de selec o das palavras finais a sugerir Estes objectivos podem ser agrupados sob a perspectiva de dois problemas que s o distintos Por um lado os tr s primeiros objectivos relacionados com a classifica o de poemas e por outro lado os dois ltimos objectivos que est o relacionados com a sugest o de palavras Embora possam ser analisados de forma distinta eles est o relacionados entre si Para o caso da classifica o de poemas destaca se no 3 objectivo o facto de se pretender que o resultado de classifica o n o seja influenciado por modelos de poemas previamente fornecidos ao sistema para da inferir as regras de classifica o Em vez disso foi realizada uma pesquisa bibliogr fica com o objectivo de encontrar as defini es dos conceitos e regras da po tica portuguesa e a classifica o dos poemas foi implementada com base nessas defini es No caso da sugest o de palavras s o usadas t cnicas com diferentes crit rio
25. que o sistema funcione de forma aut noma sem aceder s aplica es externas Foram adicionadas fun es que permitem armazenar a informa o que gerada pelas aplica es externas na base de dados 4 3 Processos de Coordena o O processo classificador de poemas PCP realiza a classifica o de poemas Os m dulos utilizados para a classifica o de poemas s o o MIS MIC MIR e MIL O PCP realiza a classifica o de poemas em 4 etapas ClassificarPoema Aquisi o PoemaBemFormado ArmazenaNaEstruturalnterna do Poema Identifica Conceitos Adicionaldentificag oConceitos Identifica Regras Apresenta AdicionaRegrasClassifica o Classificag o Figura 13 Diagrama de estados do processo de classifica o A Figura 13 resume na linguagem UML os estados do processo de classifica o Na primeira etapa o MIS respons vel por realizar a aquisi o do poema para uma estrutura interna e armazenar o poema num formato que identifica as linhas do poema destacando as palavras finais dos versos Este formato simplifica a etapa de classifica o seguinte Pode 47 opcionalmente ser realizada a verifica o de vocabul rio do poema utilizando as fun es do MIL para garantir que as palavras que comp em o poema existem no l xico Na segunda etapa o MIC acrescenta a informa o de identifica o de conceitos Esta informa o inclui a identifica o
26. terceiro passo corresponde a uma an lise sint ctica da frase que permite determinar para essa frase quais as classes poss veis para a pr xima palavra Hag ge 2000 e Batista 2002 Para tal utilizou se a aplica o Susana que agrupa os constituintes da frase e gera como resultado as v rias classes poss veis para a pr xima palavra 3 8 Conceitos Estruturais As defini es dos conceitos da po tica portuguesa que servem de base a esta proposta s o um pouco vagas e por vezes recorrem a sentimentos e imagens para caracterizar os conceitos Algumas defini es s o definidas custa de outras e por vezes existem defini es circulares dos conceitos A preocupa o principal para compreender e implementar estes conceitos foi a de procurar v rias defini es para o mesmo conceito e conseguir extrair a parte que permite a sua automatiza o n o esquecendo de registar os respectivos compromissos adoptados As diferentes defini es s o confrontadas e comparadas O primeiro conceito a definir o de poema S o v rias as defini es poss veis que v o desde as mais subjectivas s mais objectivas Come ando por uma das mais subjectivas das analisadas pode se dizer que poema precisamente uma t cnica lingu stica de produ o dum tipo de consci ncia que o espect culo do mundo n o produz ordinariamente cita o de Jean Cohen Structure du langage po tique 1966 Mois s 1974 Outra defini o com o mesmo n
27. um em para os uma n o com no por na as dos Tabela 16 Sugest o de palavras por frequ ncia de ocorr ncia Em segundo lugar apresenta se a contabiliza o da palavra que antecede a palavra que se pretende sugerir que neste caso outro Esta situa o tem em conta os bigramas do modelo de l ngua e seleccionar apenas aqueles que t m como primeira palavra a palavra outro e ordenar o resultado por frequ ncia Como se pode ver no resultado da Tabela 17 embora apare a em primeiro lugar a palavra que se pretendia existem ainda muitas que parecem fora do contexto Primeiras 20 Palavras Sugeridas lado dos a de que o para e dia em aspecto com no mundo jogador n o do caso os Tabela 17 Sugest o de palavras por frequ ncia de ocorr ncia de pares de palavras Em terceiro lugar apresenta se a situa o em que apenas est definida a rima da palavra a sugerir No caso da quadra apresentada como a rima da forma ABAB e o segundo verso termina com a palavra enganado ent o a sugest o composta das palavras que t m a mesma rima e ordenadas por frequ ncia de ocorr ncia A Tabela 18 mostra as primeiras dez palavras 58 Primeiras 10 Palavras Sugeridas lado passado resultado dado deputado avan ado machado demasiado obrigado advogado Tabela 18 Sugest o de palavras por rima Em quarto lug
28. valorizadas pois apresentam um maior grau de dificuldade 36 Tamb m a disposi o estr fica da rima em rela o aos versos que enla a determina a classifica o da rima Para representar a disposi o estr fica da rima s o utilizadas letras do alfabeto que representam a rima da ltima palavra do poema Para cada verso com rima diferente das j existentes atribu da uma letra come ando na letra A Depois em todos os versos com igual rima usada a mesma letra Quando por exemplo se diz que uma estrofe do tipo ABAB isto significa que a estrofe composta por quatro versos e como a primeira letra igual terceira sabe se que o primeiro verso rima com o terceiro Aplicando a mesma regra pode se concluir que o segundo verso rima com o quarto e obviamente tem rima diferente do primeiro e terceiro A Tabela 7 resume as v rias hip teses poss veis de classifica o quanto forma como se encadeiam os versos que rimam ose Designac o Descri o Quando os versos que rimam se encontram juntos e aos emparelhadas es ABB CBD EFF Quando entre dois versos que rimam se encontra outro BEER denis Bit CA BCB oU ARBAB Quando entre dois versos que rimam se encontram dois ere versos de diferente rima ABBA ou ABCA Quando entre dois versos que rimam se encontram tr s EE ou mais versos de diferente rima ABBBA ou ABCDA seguida Quando rimam mais de dois versos seguidos AAA Quando e
29. 5 come a se por apresentar a interface do sistema LuCas implementado e o resumo dos comandos dispon veis na sua interface S o apresentados resultados de avalia o do classificador de poemas em termos de tempos de resposta do sistema Em seguida apresentam se os resultados de avalia o do processo de sugest o de palavras sendo feito uma compara o entre as v rias abordagens poss veis na sugest o das palavras nomeadamente as restri es estruturais do poema e a utiliza o dos modelos estat sticos de l ngua No cap tulo 6 s o feitas as conclus es finais desta disserta o Come a se por resumir o estado actual do sistema e as suas limita es S o focadas as perspectivas futuras e discutidas as vantagens e desvantagens da integra o do sistema numa plataforma Galaxy e ainda os poss veis caminhos a seguir por forma a melhorar quer aspectos de classifica o quer de predi o de palavras 2 MODELA O DE L NGUA 2 1 Introdu o A modela o de l ngua uma rea de investiga o vasta e activa quer na comunidade da fala como na comunidade da lingu stica Estas duas comunidades t m abordagens distintas ao problema que levam aos modelos probabil sticos de l ngua e s teorias formais de l ngua Antes de Chomsky eram aplicadas aproxima es distribu das que usavam restri es de contexto na modela o de l ngua Hutchens 1995 Chomsky apresentou argumentos tais como m todos probabil sticos e introduzi
30. CAS 5 1 Interface do Sistema Foi elaborada uma vers o aut noma do sistema cuja interface apresentada na Figura 17 E Assistente de Poesia Vers o 1 1 COB ERES AAN A Configura o Ajuda Dicion rio de Rima Sugest o Palavras Vocabul rio do Poema Classifica o do Poema Manipulac o Area de Ficheiros Resultados Figura 17 Interface do Sistema LuCas A interface do sistema composta por 2 reas de texto A rea que se apresenta do lado esquerdo na Figura 17 corresponde rea de edi o dos poemas onde o utilizador tem dispon veis os comandos de edi o de um editor de texto A rea que se apresenta do lado direito corresponde 61 rea de resultados onde s o apresentados os resultados correspondentes aos comandos efectuados pelo utilizador Os bot es que se apresentam por cima das reas de texto correspondem aos comandos dispon veis estando agrupados por funcionalidades A Tabela 22 cont m uma explica o sum ria dos v rios comandos sendo o primeiro grupo de comandos as fun es de manipula o de ficheiros o segundo grupo as fun es de classifica o do poema e sugest o de palavras o terceiro grupo cont m as fun es de um dicion rio de rima e o quarto grupo cont m as fun es de configura o e ajuda Novo Poema Limpa a rea de edi o do poema Abrir Poema Abre um ficheiro que contenha o poema Gravar Poem
31. Ifi UNIVERSIDADE T CNICA DE LISBOA INSTITUTO SUPERIOR T CNICO INSTITUTO SUPERIOR T CNICO Classifica o de Poemas e Sugest o das Palavras Finais dos Versos Paulo Alexandre Medeiros de Ara jo Licenciado Disserta o para obten o do Grau de Mestre em Engenharia Electrot cnica e de Computadores Orientador Cient fico Professor Doutor Nuno Jo o Neves Mamede J RI Presidente Professora Doutora Isabel Maria Martins Trancoso Vogais Professor Doutor Paulo Miguel Torres Duarte Quaresma Professor Doutor Nuno Jo o Neves Mamede Professora Doutora Helena Sofia Andrade Nunes Pereira Pinto NOVEMBRO 2004 ii iii Rita RESUMO Esta disserta o apresenta uma arquitectura que permite realizar a classifica o autom tica de poemas e sugere as palavras finais dos versos A classifica o dos poemas tem como base os conceitos da po tica portuguesa que se dividem em conceitos estruturais e em regras de classifica o A classifica o de poemas determinista e n o necessita de exemplos de poemas para ser realizada A sugest o das palavras finais dos versos realizada com diferentes crit rios de selec o e ordena o das palavras a sugerir O primeiro crit rio baseia se nas restri es estruturais dos poemas O segundo crit rio baseia se na categoria gramatical das palavras a sugerir O terceiro crit rio baseia se na utiliza o de modelos estat sticos de l ngua obtidos a partir
32. S labas Gramaticais A divis o sil bica das palavras implementada na aplica o Leia tem como base um conjunto de 11 regras que contemplam como fronteira de s laba uma sequ ncia consoante vogal tendo o cuidado de n o separar os grupos indivis veis pr gl etc e os d grafos nh ch etc Oliveira 1996 Para realizar a divis o sil bica das palavras apenas foi necess rio usar a mesma aplica o externa Leia alterando os par metros de invoca o da aplica o Na divis o sil bica usado o s mbolo como separador de s labas e tamb m assinalada a vogal acentuada com o mesmo s mbolo anteriormente definido O processamento das vogais acentuadas que utilizado na aplica o externa Leia corresponde a um formato interno composto pelas letras min sculas entre a e z e pelas marcas de acento agudo circunflexo e til imediatamente a seguir respectiva vogal e pelo acento grave antes da vogal A cedilha representada pelo s mbolo depois da letra C 25 Palavra Divis o Sil bica Eu eu N o n a o Tenho t e nho Vistas v is tas Largas l ar gas Sabedoria sa be do r i a Tabela 4 Exemplo de divis es sil bicas A Tabela 4 exemplifica alguns resultados de divis o sil bica Destacando dois exemplos apresentados pode se verificar que a divis o sil bica da palavra Nao corresponde a n a o Pode se ainda verificar que a palavra Nao
33. a Grava o conte do da rea de edi o num ficheiro Verificar Vocabul rio Verifica se as palavras existem no l xico Classificar Poema Classifica o poema Sugest o 1 Sugere palavras usando o poema j introduzido Sugest o 2 Sugere palavras usando a configura o definida Palavras que Rimam Devolve as 1 N palavras que rimam Agrupar por Rima Agrupa as palavras por rima Configura es Permite configurar o sistema Ajuda Ecr de ajuda do sistema Tabela 22 Comandos do sistema Lucas 5 2 Avalia o do Classificador de Poemas A avalia o do classificador de poemas foi feita com base num conjunto de poemas maioritariamente realizadas por crian as em idade escolar Foram utilizadas quadras de Ant nio Aleixo e dos Lus adas O conjunto de poemas de teste composto por cerca de duas centenas de estrofes de crian as uma dezena de quadras de Ant nio Aleixo e as primeiras duas estrofes dos Lus adas Foram realizados testes com cerca de 25 estrofes das quais a maior parte realizadas por crian as e algumas de Ant nio Aleixo e Cam es 62 Estes poemas n o foram usados na cria o dos modelos de l ngua usados na sugest o de palavras no entanto foi necess rio verificar se todas as palavras existentes nos poemas existiam no dicion rio de palavras As palavras que n o existiam foram inseridas bem como a sua respectiva transcri o fon tica
34. a do sistema uma das melhorias que poder ser implementada realizar uma linguagem de comandos que permita activar as diversas funcionalidades dos diversos m dulos de uma forma mais flex vel e din mica Desta forma a interface com o sistema fica mais bem definida e independente da implementa o das fun es internas de classifica o e de sugest o de palavras A altera o acr scimo ou remo o de funcionalidades dos m dulos obriga neste momento a uma altera o dos processos de coordena o para contemplar essas altera es Com a possibilidade de activa o independentemente das funcionalidades poder se tamb m melhorar a facilidade de altera o e configura o do sistema Para resolver os aspectos de desempenho do sistema ser necess rio construir uma vers o diferente do sistema em que se coloca em segundo plano as quest es de flexibilidade de altera o e adapta o e se canaliza todo o esfor o para realiza o de c digo optimizado Tamb m a linguagem poder ser escolhida por forma a tirar melhor partido da m quina E por fim a escolha de uma m quina mais r pida dar com certeza uma ajuda adicional Relativamente ao ritmo dos versos existem alguns aspectos que podem ser mais aprofundados e investigados como s o o caso dos acentos predominantes cuja distribui o ao longo do verso provoca altera o no seu ritmo isto na sua musicalidade e cad ncia Para al m do acento t nico da ltima s lab
35. a m trica h outros cuja coloca o varia com o metro ou medida dos versos Em rela o divis o sil bica dos versos tamb m aqui se pode aprofundar um pouco mais as a implementa o da detec o das s labas gramaticais para contemplar jun o entre vogais de palavras Para se conseguir este objectivo ter o de ser implementadas as regras descritas anteriormente que caracterizam as formas de contrac o e de di rese 72 Os dois ltimos melhoramentos propostos permitem inclusivamente fornecer a informa o necess ria para que um mecanismo autom tico de leitura em voz alta de poemas passe a contemplar a musicalidade e cad ncia do poema para assim melhorar o ritmo de leitura As funcionalidades associadas rima que foram executadas no contexto deste trabalho poder o ser complementadas de modo a integrar no sistema todas as funcionalidades de um dicion rio de rimas com a vantagem da abordagem seguida ser com base nas transcri es fon ticas das palavras A interface do sistema ter de sofrer altera es para disponibilizar estas fun es Relativamente ao preditor de palavras um dos aspectos que sem d vida pode melhorar a utiliza o das categorias das palavras para filtrar ainda mais as palavras a sugerir Para se conseguir resultados mais precisos ser necess rio usar modelos estat sticos de categorias de palavras ou associar factores de confian a s categorias poss veis para a pr xima palavra A infl
36. a n o ocorreu modelada com a ajuda dos Ngramas que apenas ocorreram uma vez Se se considerar o exemplo dos bigramas o valor de estima o de ocorr ncia dos bigramas que n o t m nenhuma ocorr ncia dado pela contagem dos bigramas que ocorreram apenas uma vez O valor final normalizado com o n mero de bigramas observados e dividido por todos os poss veis bigramas que n o t m ocorr ncia Este m todo faz com que o c lculo da probabilidade de ocorr ncia seja dependente do hist rico de ocorr ncia de palavras Tamb m as palavras que ocorrem em menos combina es de bigramas tendem a ter menos bigramas n o vistos que as que entram em mais combina es de bigramas diferentes O terceiro m todo de alisamento designa se por desconto Good Turing Good 1953 Este m todo embora mais complexo que o anterior tem como ideia principal a de voltar a calcular as probabilidades de ocorr ncia para atribuir valores aos Ngramas que s o nulos e aos que t m 13 valores muito baixos com base no n mero de Ngramas com elevados valores de probabilidade de ocorr ncia A ideia calcular as frequ ncias de ocorr ncia dos valores de ocorr ncia c ou seja calcula se para c 1 quantos tipos de Ngramas apenas ocorrem uma vez Para c i calcula se quantos Ngramas diferentes t m esse valor de ocorr ncia i Constr i se assim uma tabela de frequ ncias de ocorr ncia em que para c 0 tem se a contagem de Ngramas com frequ ncia de ocorr ncia n
37. abalho optou se por escolher a transcri o fon tica mais comum e assim utilizar apenas uma Quando uma palavra n o existe no l xico a transcri o fon tica dessa palavra fornecida pela aplica o externa e adicionada ao l xico do sistema Quando a palavra j existe no l xico ent o usada a informa o a existente Desta forma consegue se optimizar o acesso s palavras que j existem no l xico pois antes de ser armazenada feito um pr processamento palavra de modo a optimizar o acesso A aplica o externa gera as transcri es fon ticas com base num conjunto de regras No portugu s europeu a ortografia pode ser considerada de base essencialmente fonol gica ou seja existe uma elevada regularidade entre a ortografia e a fon tica Oliveira 1996 Esta tamb m uma das raz es pela qual os dicion rios de rima apenas baseados nas letras terminais das palavras mesmo assim conseguem obter bons resultados de consulta A transcri o fon tica s por si n o suficiente para realizar a verifica o da rima Para se conseguir implementar a rima tamb m necess rio incluir na transcri o fon tica a indica o do som que corresponde vogal t nica da palavra O resultado da transcri o fon tica obtido a partir da aplica o externa Leia Oliveira 1996 e o resultado obtido pode ser parametriz vel na invoca o Teve de se activar o par metro que assinala a vogal acentuada da palavra A aplica
38. ackoff 2 6 Exemplos do Modelo Utilizado O modelo de l ngua utilizado est organizado da seguinte forma e Palavras simples com valor de frequ ncia e factor de backoff 16 e Grupos de duas palavras com valor de frequ ncia e factor de backoff e Grupos de tr s palavras com valor de frequ ncia e factor de backoff e Grupos de quatro palavras com valor de frequ ncia Para cada um dos casos foi tirada uma amostra de 5 linhas da tabela correspondente e cada uma das tabelas mostra um grupo de palavras simples de duas palavras de tr s palavras e de quatro palavras Em todos os casos o n mero que aparece em primeiro lugar corresponde frequ ncia de ocorr ncia da linha correspondente no formato de logaritmo na base 10 Nos casos das palavras simples grupos de dois e de tr s tamb m aparece o factor de backoff que serve para calcular a frequ ncia quando um Ngrama n o existe Os grupos de quatro palavras n o apresentam valores de backoff porque n o foram usados modelos com grupos de 5 palavras Frequ ncia Palavra Factor backoff 6 48570900000 abadessa 0 10814660000 Leewen o mp 6 48570900000 abadias 0 14308460000 O assez 5 91964100000 abafado 0 31932020000 Figura 2 Palavras Simples com Valor de Frequ ncia e Factor de backoff Frequ ncia Palavra Palavra Factor backoff 6 71511600000 abade 0 00000000000
39. ar apresenta se a situa o em que est definido o n mero de s labas de cada verso Para o exemplo do ltimo verso da quadra apresentada e supondo que se pretendiam versos com oito s labas ent o o n mero de s labas anteriores palavra que se pretende sugerir contabilizam 6 s labas pelo que se pretende palavras com apenas 2 s labas A Tabela 19 mostra as primeiras dez palavras que satisfazem esta condi o Primeiras 10 Palavras Sugeridas para uma como pelo tamb m sua pela est anos entre Tabela 19 Sugest o de palavras por n mero de s labas Em quinto lugar apresenta se a situa o mais favor vel em que est o definidas a rima e o n mero de s labas da palavra a sugerir Neste caso obt m se o resultado apresentado na Tabela 20 que cont m as palavras existentes no l xico que satisfazem ambas as condi es Palavras Sugeridas lado dado fado gado prado grado a Tabela 20 Sugest o de palavras por rima e por n mero de s labas Por ltimo apresenta se um exemplo em que para al m das restri es de rima e de n mero de s labas se usa a palavra anterior para filtrar as palavras a sugerir Neste caso apenas s o sugeridas 3 palavras Palavras Sugeridas lado dado fado Tabela 21 Sugest o de palavras por rima e por n mero de s labas com palavra anterior 59 60 5 IMPLEMENTA O DO SISTEMA LU
40. as utilizando os mesmos poemas de teste da avalia o anterior e o mesmo processo de remo o da ltima palavra de cada verso Como metodologia seguida foram seguidos os seguintes passos 1 2 3 Em primeiro lugar apenas foram consideradas as restri es de n mero de s labas das palavras ordenadas por frequ ncia de ocorr ncia Em segundo lugar apenas foram consideradas as restri es de rima das palavras ordenadas por frequ ncia de ocorr ncia Em terceiro lugar foram consideradas as restri es de n mero de s labas em conjunto com a rima e ordenadas por frequ ncia de ocorr ncia Os resultados obtidos foram divididos em tr s grupos Utilizando como restri o apenas o n mero de s labas das palavras os resultados permitem concluir que nas 10 primeiras palavras sugeridas existe maior n mero de palavras que podiam ser usadas em substitui o da palavra removida comparativamente aos modelos de l ngua de bigramas Utilizando como restri o apenas a rima das palavras tamb m neste caso os resultados permitem concluir que nas 10 primeiras palavras sugeridas existe maior n mero de palavras que podiam ser usadas em substitui o da palavra removida comparativamente aos modelos de l ngua de bigramas Utilizando como restri o o n mero de s labas das palavras em conjunto com a rima das palavras o n mero total de palavras sugeridas reduz consideravelmente e a maior parte das palavras podia ser usada em s
41. as da po tica portuguesa a colocar no poema e fazer para a poesia um pouco como os correctores ortogr ficos fazem para os textos em prosa pois como j foi referido neste trabalho n o houve o objectivo de criar poesia automaticamente Um aspecto que conv m salientar que mesmo classificando diferentes tipos de poemas devido s restri es impostas nas defini es existem poemas que n o est o contemplados neste sistema como o caso dos poemas modernos em que as regras da po tica portuguesa n o s o cumpridas dando liberdade ao poeta para uma poesia com menos imposi es Focando agora os aspectos relacionados com o preditor de palavras os processos por vezes manuais de teste de algumas abordagens de selec o e ordena o das palavras a sugerir condicionaram os resultados obtidos A predi o das palavras est condicionada pela exist ncia das palavras no l xico Isto significa que mesmo com liga o s aplica es externas a selec o das palavras feita apenas sobre as palavras existentes no l xico A utiliza o das categorias das palavras para realizar a selec o de palavras n o reduz significativamente o n mero de palavras a sugerir Por um lado deve se ao facto do n mero de categorias poss vel por cada sugest o ter muitas categorias poss veis e por outro lado devido ao facto das restri es estruturais apresentarem uma grande diferen a em rela o a todas as outras alternativas No caso dos model
42. as que foram sugeridas pelo sistema em rela o ao poema que estava a ser constru do O n mero de palavras visualizadas pode ser configurado no sistema mostraRima esta fun o apresenta ao utilizador as palavras que rimam com uma determinada palavra mostraRimas esta fun o apresenta ao utilizador para um conjunto de palavras um grupo com todas as que rimam com a primeira e outro grupo com todas as que n o rimam O MIC respons vel por assinalar para um poema fornecido os conceitos da po tica portuguesa O processamento realizado sobre a estrutura de dados interna que cont m o poema pr processado e o resultado o registo dos conceitos estruturais e de rima anteriormente descritos que s o adicionados na mesma estrutura interna A informa o de identifica o de conceitos serve de base para depois serem aplicadas as regras de classifica o Este m dulo disponibiliza na sua interface a seguinte fun o identificaConceitos esta fun o adiciona ao poema pr processado a informa o dos conceitos da po tica portuguesa 44 O MIR respons vel pela implementa o das regras de classifica o dos poemas e acrescenta na estrutura que cont m o poema a classificar a respectiva informa o de classifica o com base nas regras de classifica o anteriormente descritas e na informa o de identifica o de conceitos adicionada pelo m dulo anterior Ap s ser acrescentada a informa o de classif
43. as terras viciosas De frica e de sia andaram devastando E aqueles que por obras valerosas Se v o da lei da morte libertando Cantando espalharei por toda parte Se a tanto me ajudar o engenho e arte Neste exemplo ambas as estrofes t m 8 versos oitavas Tamb m o n mero de s labas em cada verso constante contando se sempre 12 s labas gramaticais ou 10 s labas m tricas decass labo ou her ico Neste caso estas estrofes tamb m tomam a designa o de oitava rima A forma como os versos s o enla ados sempre a mesma sendo os 6 primeiros versos de rima cruzada e os dois ltimos de rima emparelhada ou seja A B A B A B C C As quadras populares tamb m correspondem a um tipo de poema em que constante o n mero de versos o n mero de s labas e o enlace da rima Foram seleccionadas 3 quadras de Ant nio Aleixo para o ilustrar Eu n o tenho vistas largas Nem grande sabedoria Mas d o me as horas amargas Li es de Filosofia H luta por mil doutrinas Se querem que o mundo ande Fa am das mil pequeninas Uma s doutrina grande 39 Quando os Homens se conven am Que for a nada se faz Ser o felizes os que pensam Num mundo de amor e paz Neste exemplo as estrofes s o compostas de 4 versos quadra os versos s o compostos por 8 s labas gramaticais ou 7 s labas m tricas redondilha maior quanto rima as palavras utilizadas variam entre agudas e graves e o enlace te
44. centado existem 1825 termina es fon ticas diferentes A Tabela 9 mostra as primeiras 10 termina es fon ticas com maior n mero de palavras Terminag o Transcri o N mero da Palavra Fon tica Palavras o Po 6w 425 ar ar 397 ado adu 353 or or 265 ada ado 263 ia 6 194 ou ee 185 ados aduS 184 Po ene dO 176 ores or S 152 Tabela 9 Contagem das palavras com igual termina o fon tica Como se pode concluir a sugest o de 425 palavras no caso mais desfavor vel um n mero demasiado elevado para ser til No caso da divis o sil bica e como apenas existe uma poss vel divis o por cada palavra acrescentaram se os atributos DivSilabica TerminSilabica NumSilabas e NumUltSilabas que permitem armazenar respectivamente a divis o sil bica gerada pela aplica o externa Leia a divis o sil bica a partir da vogal acentuada o n mero total de s labas 52 gramaticais da palavra e o n mero de s labas a partir da vogal acentuada Estes atributos foram acrescentados por quest es de efici ncia na pesquisa de palavras pois podem ser obtidos a partir da divis o sil bica da palavra Os atributos NumUltSilabas e TerminSilabica permitem determinar se a palavra aguda grave ou esdr xula Tendo em conta as 11505 palavras foram agrupadas as palavras com o mesmo n mero de s labas e o resultado mostrado na Tabe
45. cri o fon tica fazendo corresponder palavra o seu som A partir das transcri es fon ticas das palavras poss vel determinar se duas palavras t m o mesmo som possibilitando a detec o da rima 22 Som Exemplo Som Exemplo Som Exemplo Som Exemplo Som Exemplo G idade idade i inchou i So p Pago pagu f fora fOr6 leal Dat e erros eRus e enjoale Zo6 p bura buR6 y vala val6 aem E erva Erv 6 anda 6 d6 t diti e seco seku L bolha boL6 a acre akr o bombo bo bu g dar dar Z zeros zEruS 6 abelha 6b6L6 u um u k campo k6 pu S chapa Sap6 r par par bate bat j d em de6 j g galho gaLu Z gelar Z lar R rato Ratu CO orca Ork6 w ad o 6d6 w o ouro oru m mudo mudu u wol IT eme j ideais idjajS J cunho kuJu w aos awS Tabela 2 Alfabeto fon tico para o dialecto padr o do portugu s europeu SAM PA Os sons s o condicionados pelo aparelho fonador sendo distinguidos consoante o papel das cavidades nasais o modo de articula o e o papel das cordas vocais A Tabela 2 est organizada em cinco colunas Na primeira coluna encontram se as vogais orais e na segunda coluna as vogais nasais Na terceira coluna encontram se as consoantes orais oclus
46. csscccessscssccessscccccccssscccccccscccescensssccccsscessccesses 61 5 1 INTERFACE DO SISTEMA 2 0 nr cece rr nr ren rn encrenca cera 61 5 2 AVALIA O DO CLASSIFICADOR DE POEMAS ceesesssessesssessensnennen ees 62 5 3 AVALIA O DO PREDITOR DE PALAVRAS cecceecee nee I es eee re 64 6 CONCLUSOE Si ld 69 O SITUA O ACTUAL ate 69 6 2 PERSPECTIVAS FUTURAS 0 ci 71 REFERENCIA Sra rada 75 xii LISTA DE FIGURAS FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU FIGU RA 1 USO DA FERRAMENTA CMUSLM erraren E E AS A A E 15 RA 2 PALAVRAS SIMPLES COM VALOR DE FREQU NCIA E FACTOR DE BACKOFF eere 17 RA 3 GRUPOS DE DUAS PALAVRAS COM VALOR DE FREQU NCIA E FACTOR DE BACKOFF 17 RA 4 GRUPOS DE TR S PALAVRAS COM VALOR DE FREQU NCIA E FACTOR DE BACKOFF 18 RA 5 GRUPOS DE QUATRO PALAVRAS COM VALOR DE FRPOU NCIA non non ncnnnoos 18 RA 6 CLASSIFICA O DAS PALAVRAS scssseesseesseeseececeecenecceceaeceaeceaeceascnaecaeceseeeseenseeesceesseseaeeeseeeaeenas 22 RA 7 M DULO EXTERNO DE GERA O DE CLASSES esee nnne eene nnne enne enne enne nns 28 RA 8 FUNCIONAMENTO INTERNO DO M DULO EXTERNO DE GERA O DE CLASSEN 28 RAO ESTRUTURA DO POEMA ede E QUU RU I IRI 31 RA 10 IIS 32 RA TIS ESQUEMATIZA O DE RIM E 33 RA 12 ARQUITECTURA DO SISTEMA LUCA 43 RA 13 DIAGRAMA DE
47. da nunca pode ser nula Este primeiro tipo caracteriza as linguagens recursivamente enumeradas ou seja aquelas que s o listadas por uma m quina de Turing As gram ticas sens veis ao contexto t m regras que sobrep em um s mbolo n o terminal num determinado contexto por um conjunto de s mbolos n o nulos As gram ticas independentes do contexto permitem que as regras sobreponham qualquer s mbolo n o terminal por s mbolos terminais ou n o terminais As gram ticas regulares s o equivalentes s express es regulares ou seja uma linguagem regular caracterizada por uma express o regular ou por uma gram tica regular As gram ticas regulares podem ser lineares direita ou lineares esquerda As regras lineares direita t m um nico s mbolo n o terminal esquerda e no m ximo um s mbolo n o terminal direita No exemplo ex A wB em que w um s mbolo terminal e A e B s o s mbolos n o terminais Huang et al 2001 10 Desde que foi introduzida a no o de gram ticas independentes do contexto que surgiu uma vasta literatura sobre algoritmos de an lise Muitas delas com o objectivo de analisar linguagens de programa o que n o s o amb guas que n o o caso da linguagem falada Existem duas aproxima es distintas por um lado temos os algoritmos descendentes e por outro lado temos os algoritmos ascendentes Os algoritmos descendentes come am por um s mbolo que representa a frase e v o substituin
48. das as palavras que n o existirem no l xico ou s o fornecidas pelas aplica es externas ou s o adicionadas manualmente 50 As primeiras experi ncias que foram realizadas utilizaram um l xico de 10000 palavras com as respectivas transcri es fon ticas e divis es sil bicas Ap s algumas experi ncias de classifica o realizadas com poemas de crian as e quadras populares de Ant nio Aleixo verificou se que existiam muitas palavras que n o estavam contempladas no l xico Foram ent o acrescentadas as palavras que ainda n o existiam no l xico e que eram necess rias para poder classificar os poemas Ap s esta opera o o l xico ficou com 11505 palavras Para o caso da transcri o fon tica existe a necessidade de armazenar v rias transcri es fon ticas por cada palavra Tendo em conta as 11505 palavras do l xico o n mero de transcri es fon ticas por cada palavra varia entre 1 e 7 A Tabela 8 mostra a distribui o das palavras por n mero de transcri es fon ticas Descri o N mero N Total de palavras 11505 1 Transcri o Fon tica 10131 2 Transcri es Fon ticas 1214 3 Transcri es Fon ticas 81 4 Transcri es Fon ticas 75 5 Transcri es Fon ticas 2 6 Transcri es Fon ticas 1 7 Transcri es Fon ticas 1 Tabela 8 Distribui o do n mero de transcri es fon ticas Foi acrescentada no modelo de dados apresentado na Figura 16 a class
49. do em duas ou mais palavras a ltima vogal acentuada com tudo o que se lhe segue tem id ntica sonoridade cita o de An lise e Interpreta o da Obra Liter ria 1958 vol I Mois s 1974 Por outras palavras rima a correspond ncia sonora entre as s labas finais dos versos Quando a correspond ncia de sons a partir da vogal t nica perfeita incluindo vogais e consoantes a rima diz se consoante Se pelo contr rio a correspond ncia de sons se verifica apenas entre as vogais a rima toante As palavras faz e pap s ou inclina e pequenina s o um exemplo de rima consoante As palavras faz e l ou inclina e filha s o um exemplo de rima toante A rima pode ainda designar se por rima rica no caso de se dar entre palavras de classe gramatical diferente ou rima pobre quando se d entre palavras de classe gramatical igual Servem de exemplo de rima rica as palavras sepulcrais adjectivo e mais adv rbio ou desordem substantivo e mordem verbo Servem de exemplo de rima pobre as palavras v s verbo e d s verbo ou miser vel adjectivo e insepar vel adjectivo A Figura 11 ilustra a defini o de rima adoptada Palavra Vogal T nica Ultima if Palavra nhe S laba Lora S laba e T do Verso ri igual sonoridade a partir da vogal t nica A
50. do os s mbolos de diferentes formas at formar uma rvore que representa a frase ou at esgotar todas as hip teses poss veis Os algoritmos ascendentes come am pelas palavras que comp em a frase e v o substituindo por s mbolos e formando uma rvore at ter apenas um nico s mbolo que representa a frase Early Early 1970 implementou um algoritmo descendente com reconhecimento ascendente que consegue ir buscar o que t m de melhor ambos os algoritmos ascendente e descendente 2 3 Modelos Estat sticos de L ngua Os modelos estat sticos de l ngua estimam a distribui o probabil stica de v rios fen menos de l ngua natural Rosenfeld 2000 Ironicamente o sucesso das t cnicas de modelos estat sticos de l ngua usam muito pouco do que a linguagem Os modelos de l ngua de Ngramas n o tiram partido do facto de se estar a modelar uma L ngua Natural Poderia ser uma sequ ncia de s mbolos arbitr ria sem uma estrutura profunda inten o ou pensamento por tr s Rosenfeld 2000 Os modelos de l ngua necess rios sugest o de palavras podem ser inferidos a partir de um corpus de texto e sem necessitar de qualquer outra informa o adicional partida podendo depois ser usados por um algoritmo na predi o de palavras Hutchens 1995 O objectivo principal dos modelos probabil sticos de l ngua providenciar informa o estat stica para que as sequ ncias de palavras mais prov veis tenham maior probabilidad
51. e TranscFonetica que respons vel pelo seu armazenamento O atributo TranscFonetica permite guardar a transcri o fon tica gerada pela aplica o externa Leia e o atributo TerminFonetica foi adicionado para conter a transcri o fon tica correspondente apenas parte final das palavras com o objectivo de optimizar o desempenho das pesquisas por rima Outro factor que contribuiu para melhorar o desempenho do sistema foi adicionar os atributos TranscFonetica e TerminFonetica na classe Palavra que correspondem 51 respectivamente transcri o fon tica mais comum da palavra e respectiva transcri o fon tica a partir da vogal acentuada Esta optimiza o justifica se uma vez que cada palavra tem pelo menos uma transcri o fon tica Esta optimiza o evita que o sistema aceda a duas entidades passando a aceder a apenas a uma Esta optimiza o n o invalida as duas utiliza es ou seja existe a possibilidade de configurar se se pretende fazer a pesquisa das palavras que rimam usando apenas a transcri o fon tica mais comum e desta forma usar apenas a entidade Palavra ou usar todas as poss veis transcri es fon ticas de cada palavra acedendo inevitavelmente s duas entidades Para se ter uma ideia do n mero de palavras existente com igual termina o fon tica foi realizada a contagem das palavras agrupadas por igual termina o fon tica Para um total 11505 palavras que correspondem ao dicion rio acres
52. e analisar Nenhuma das aproxima es completamente bem sucedida pois se por um lado as gram ticas formais n o s o suficientemente robustas e necessitam de grande esfor o para as adaptar de um dom nio para outro por outro lado a falta de estrutura e compreens o dos modelos probabil sticos retiram lhes a facilidade em escolher as palavras certas para guiar o reconhecimento da fala 2 2 Modelos Formais de L ngua Na teoria formal de l ngua a constru o da gram tica tem de considerar a generalidade a selectividade e a compreens o A generalidade est associada ao conjunto de frases analisadas correctamente e a selectividade est associada ao conjunto de frases que s o identificadas como problem ticas A compreens o est associada simplicidade da gram tica e importante para permitir que a gram tica seja mantida Segundo Chomsky Chomsky 1965 as gram ticas podem se dividir por 4 tipos as gram ticas de estrutura de frase as gram ticas sens veis ao contexto as gram ticas independentes do contexto e as gram ticas regulares Estas gram ticas est o estruturadas hierarquicamente pelos quatro tipos de aut matos que aceitam as linguagens produzidas pelos quatro tipos de gram ticas s o respectivamente m quinas de Turing aut matos lineares aut matos Push Down e aut matos de estados finitos As gram ticas de estrutura de frase apenas t m uma restri o na forma das suas regras a a parte esquer
53. e deu algumas ideias no in cio da realiza o deste trabalho Aos meus colegas do ISEL Walter Vieira Helder Pita Lu s Morgado Paulo Trigo Ant nio Te filo e Porf rio Filipe agrade o a sua paci ncia para me ouvir e os seus contributos e opini es Ao meu amigo Porf rio Filipe agrade o as acesas discuss es que transformaram algumas das ideias em concretiza es Agrade o Rita minha esposa que me acompanha e ajuda em todos os dias da minha vida minha fam lia que desde a inf ncia me acompanha e me incentiva na caminhada que me permitiu chegar aqui agrade o o seu apoio incondicional Por ltimo mas n o menos importante gostaria de agradecer ao PRODEP pela dispensa de servi o concedida que muito contribuiu para que este trabalho chegasse a bom porto ix NDICE RESUMO SE V PALAVRAS CHAVE EEN V ABSTRAC KEE VU KEY WORDS EE VII AGRADECIMENTOS cccscscosssscssosossssssssccsscsssesscsscccnsoscssnnsnsesosssosscsssosnscsscssasceseseceensonscsansansssssssasesaes IX INDICE EE XI LISTA DE FIGURAS eet Eege nica XIII TISTA DE TABELA e e ere XIV CONVEN ES TIPOGRAFICAS csssssssssssscssssssessscssssesanscssscsscesssecasecssscssnecssecanecssecanseenseesseeaseesss XV TINTRODUCAO 20 A a 1 1 1 MOTIVA O EA EA A EN 1 1 2 ENQUADRAMENTO 00 WE A E Ae Un UN ap ead TERR 3 1 3 ORGANIZA O DA DISSERTAGAO errar e nenne 7 2 MODELA O DE LINGUA EENEG 9 2 VINTRODU O situa sie WEN Re Sed evn coals Lats
54. e divis o sil bica Apenas se nota um maior tempo de classifica o quando se usam poemas mais longos compostos por v rias estrofes Uma das raz es deve se ao facto de que a verifica o de rima feita para todo o poema ou seja quando se atribui uma letra A para uma determinada rima todos os versos do poema que terminarem com a mesma rima ir o ter a mesma letra A para se poder verificar qual a regularidade da rima Tamb m a contagem sil bica dos versos do poema contribui para a degrada o do tempo de classifica o dos poemas pois necess rio contabilizar a divis o sil bica de todas as palavras que comp em o poema Para se ter uma ideia dos tempos de resposta associados foi realizada uma experi ncia com v rios poemas de diferentes dimens es em que foram contabilizados os tempos de resposta do sistema Dos v rios testes realizados foram seleccionados alguns dos valores obtidos que est o resumidos na Tabela 23 a N de Estrofes N de Palavras Tempo de Resposta s 1 7 2 2 23 9 1 54 13 2 29 13 2 35 11 3 57 20 4 17 30 5 107 44 6 131 59 63 e a y y y yj 9 236 156 Tabela 23 Tempos de Classifica o Para analisar os resultados foi feito o gr fico da Figura 18 com os valores correspondentes aos tempos obtidos em que se colocou no eixo das abcissas o n mero de palavras e no eixo das ordenadas o tempo em segundos
55. e do que as menos prov veis Deste modo poss vel melhorar a precis o e reduzir o espa o de procura no reconhecimento da fala Huang et al 2001 Neste trabalho a utiliza o dos modelos de l ngua permite seleccionar para uma determinada posi o do texto um conjunto de palavras e estabelecer uma ordem nas palavras tendo como crit rio de ordena o a frequ ncia de ocorr ncia Para cada um dos modelos de Ngramas seleccionam se sempre as palavras com maior frequ ncia 11 Se se considerar em W sequ ncias de palavras ent o pode se assumir que nos modelos de l ngua de Ngramas P W reflecte a distribui o de probabilidade de ocorr ncia das sequ ncias de palavras W Por exemplo num modelo que descreve a l ngua falada pode se ter P ol 0 01 pois provavelmente uma em cada cem palavras ol Por outro lado tamb m se pode encontrar P fazer gato quadro 0 pois extremamente improv vel algu m proferir esta frase P W pode ser decomposto em P W P W W3 Wa P w P w w P w lW W3 PCW Wi Wase Wa n LP Wi W5 Wig i l Onde P w W W W a probabilidade de ocorr ncia w dada a sequ ncia de palavras W W W aparecer previamente Como se pode constatar as palavras anteriores condicionam as palavras que s o sugeridas e tamb m o n mero de palavras anteriores existentes condicionam quais os modelos de Ngramas a utilizar Para um vocabul rio de dimens o v
56. e ser diferente da dos sistemas analisados Enquanto que nas aplica es testadas o utilizador fornece apenas as letras finais da palavra no sistema implementado tem de ser fornecida a palavra completa O problema reside no facto das letras finais sem o contexto da palavra n o determinarem quais as palavras que s o consonantes a esse grupo de letras Esta abordagem facilita o mecanismo autom tico de pesquisa de palavras que rimam necess rio na classifica o de poemas pois poss vel saber se duas palavras rimam sem ter de decompor as palavras em letras para fornecer as respectivas termina es ao sistema Neste trabalho e tendo como refer ncia os objectivos j enumerados existe um conjunto de considera es que foram tidas em conta e A classifica o de poemas deve ser poss vel de realizar tendo apenas como base as defini es dos conceitos e regras da po tica portuguesa e A classifica o autom tica de poemas deve ser o mais gen rica poss vel por forma a cobrir o maior n mero de poemas e A sugest o de palavras deve ser feita tendo em conta diferentes crit rios de selec o de palavras para permitir uma escolha mais flex vel Assim para se conseguirem atingir os objectivos enumerados existe um conjunto de funcionalidades que s o necess rias e Transcri o fon tica das palavras e Divis o sil bica das palavras e An lise morfol gica das palavras e An lise sint ctica das frases Existem no mbito do
57. ealizadas por crian as Neste exemplo pode se ver que as estrofes n o t m o mesmo n mero de versos sendo a primeira estrofe composta por quatro versos e a segunda por tr s versos Tamb m o n mero de s labas de cada verso varia de verso para verso No caso da rima tem um formato diferente em cada estrofe 4 6 Exemplos de Sugest o de Palavras Na sugest o de palavras existem v rias hip teses poss veis que condicionam a forma como s o seleccionadas as palavras Seguidamente apresentam se quatro situa es diferentes para sugest o de palavras a partir da quadra popular de Ant nio Aleixo 57 A Quem prende a gua que corre E por si pr prio enganado O ribeirinho n o morre Vai correr por outro lado Supondo que se pretende sugerir a ltima palavra da quadra lado e tendo j introduzido os versos anteriores no primeiro exemplo apresenta se uma situa o em que n o foi definida nenhuma estrutura de poema nem existe nenhuma quadra completa de onde se possa inferir qual a rima ou n mero de s labas Tamb m n o s o tidas em conta as palavras escritas anteriores do ltimo verso Este o caso mais desfavor vel pois as palavras sugeridas apenas t m em conta a frequ ncia de ocorr ncia e por isso o resultado das primeiras vinte palavras apresentado na Tabela 16 mais parece um conjunto de palavras que nada t m a ver com o poema Primeiras 20 Palavras Sugeridas de a e o que do da
58. es fon ticas s divis es sil bicas e s categorias das palavras que s o geradas pelas aplica es externas e acrescentar essa informa o na base de dados Foi ainda criada a estrutura de dados necess ria para suportar os modelos de l ngua utilizados pelo sistema na sugest o de palavras O diagrama de classes apresentado na Figura 16 descrito na linguagem UML mostra a estrutura de dados do l xico 3Gram 4Gram Frequ ncia Frequ ncia Cod 1 Cod 1 Cod 2 pad Coda Cod 3 1 1 Cod 3 BackOff ae 1 Coa4 TranscFonetica 1 TerminFonetica 2Gram DivSilabica TranscFonetica Frequ ncia TerminSilabica CodPalavra Cod_1 NumsSilabas 1 CodTraducao Cod 2 NumUltSilabas TranscFonetica BackOff Categoria TerminFonetica Figura 16 Modelo de dados do l xico Este modelo como j foi referido anteriormente foi implementado com base num sistema de base de dados relacional para optimizar o acesso aos dados Comegando pela classe principal foi criada uma entidade que se designou por Palavra e que serve para armazenar as palavras que s o v lidas no sistema Por cada palavra que inserida no l xico atribu do um c digo nico CodPalavra que a identifica univocamente e que incrementado por cada nova inser o de palavra A palavra propriamente dita guardada no atributo Palavra Por consequ ncia to
59. esigna se por sin rese O inverso tamb m acontece com menos frequ ncia e d se o nome de di rese Pode ainda dar se a supress o de sons no in cio meio ou fim da palavra designados respectivamente por af rese s ncope e ap cope As palavras estamos coroa e m rmore s o exemplo respectivamente stamos c roa e m rmor Uma hip tese para implementar estas regras a de adicionar ao texto da transcrig o fon tica as marcas com as v rias hip teses de divis o sil bica das palavras Mamede et al 2004 No trabalho realizado contabilizam se as s labas m tricas tendo em conta a contagem de s labas at s laba acentuada da ltima palavra do verso 27 3 7 Categoria Morfol gica das Palavras x Um dos processos que permite seleccionar e excluir logo partida grande parte das palavras s o as categorias gramaticais das palavras O objectivo a partir de uma frase incompleta verificar quais as categorias poss veis para a pr xima palavra e assim restringir o conjunto de palavras poss veis Com base no conjunto de categorias obtido s o seleccionadas apenas as palavras que pertencem a esse conjunto de categorias O objectivo desta selec o reduzir o n mero de palavras A an lise sint ctica realizada em v rias fases e com diferentes aplica es externas Os dados de entrada s o uma frase incompleta e os dados de sa da s o o conjunto de classes poss veis para a p
60. f Seguidamente apresenta se o exemplo para um grupo de tr s palavras Considera se wdl wd2 e wd3 respectivamente a 1 palava a 2 palavra e a 3 palavra Considera se p 3 wdl wd2 wd3 a probabilidade do trio wl w2 e w3 Considera se bo wt 2 wl w2 o factor de backoff do par wl w2 Ent o p wd3 wd1 wd2 Se existe trigrama p 3 wdl wd2 wd3 Sen o Se existe par wl w2 bo wt 2 wl w2 p wd3 wd2 18 Sen o p wd3 wd2 p wd2 wd1 Se existe par p 2 wdl wd2 Sen o bo wt 1 wdl p 1 wd2 Todas as probabilidades e factores de backoff est o no formato logio 19 20 3 CONCEITOS DA PO TICA PORTUGUESA 3 1 Introdu o Neste cap tulo s o apresentadas as defini es encontradas na pesquisa bibliogr fica efectuada de modo a definir a implementa o dos conceitos no sistema para realizar quer a classifica o quer a sugest o das palavras finais Por vezes foram encontradas v rias defini es para o mesmo conceito pelo que se optou por apresentar apenas aquelas defini es que contribu ram para a implementa o desses conceitos no sistema 3 2 Acentua o das Palavras A acentua o das palavras permite determinar o tipo das palavras que s o usadas nos poemas e necess ria na classifica o dos poemas Para se classificar a palavra quanto sua acentua o s o necess rios dois passos e em primeiro lugar decompor a palavra em s labas e em segundo lugar verificar a posi
61. ia de ocorr ncia dos trigramas Se se pretender calcular a ocorr ncia de um trigrama que n o tem nenhuma ocorr ncia consideram se os bigramas Se se pretender calcular um bigrama que n o tenha ocorr ncia consideram se as ocorr ncias das palavras simples 2 4 A Ferramenta CMUSLM No mbito deste trabalho o modelo de l ngua utilizado foi gerado utilizando a ferramenta de dom nio p blico Carnegie Mellon University Statistical Language Modeling Clarkson amp Rosenfeld 1997 que abreviadamente se designa por CMUSLM ou CMU 14 Esta ferramenta consiste num conjunto de programas para facilitar a constru o e teste dos modelos de l ngua de Ngramas Clarkson amp Rosenfeld 1997 A Figura 1 mostra atrav s de um diagrama de actividade descrito na linguagem UML a forma de utiliza o desta ferramenta Este diagrama corresponde a uma simplifica o e adapta o da figura original de Clarkson amp Rosenfeld 1997 text2idngram dave pa 7 D ngramas Figura 1 Uso da ferramenta CMUSLM Para criar os modelos estat sticos de l ngua s o necess rios tr s passos No primeiro passo gerada a partir do corpus de texto a estat stica de ocorr ncia das palavras Este passo tem como resultado um ficheiro com todas as diferentes palavras contidas no corpus de texto e a respectiva frequ ncia de ocorr ncia No segundo passo gerado a partir do ficheiro obtido no primeiro passo o vocabul rio do cor
62. ica es No contexto do grupo de investiga o as aplica es externas s o disponibilizadas atrav s da interface baseada em browser GalInHa Matos et Al 2003 inspirada plataforma Galaxy Seneff et al 1998 que corresponde a uma arquitectura aberta para constru o de sistemas de di logo Esta infra estrutura distribu da tem uma aproxima o em que os m dulos s o independentes entre si e podem ser acrescentados ou removidos da infra estrutura permitindo no caso em que s o adicionados infra estrutura disponibilizar o acesso s suas funcionalidades estando assim prontos a funcionar 41 O Galaxy foi introduzido pela primeira vez em 1994 e consistia numa plataforma de testes para tecnologias de l ngua falada Foi remodelada em 1998 com o intuito de ser uma plataforma de refer ncia que usa uma linguagem de script para controlo de fluxo Seneff et al 1998 O controlo dos diversos servidores que est o dispon veis no Galaxy feito atrav s de um hub que controla o fluxo de informa o entre eles Seneff et al 1999 Esta plataforma providencia por um lado uma boa ferramenta para desenvolver sistemas e por outro a de configurar e avaliar esses sistemas Polifroni amp Seneff 2000 Houve neste trabalho a preocupa o de divis o das funcionalidades por v rios m dulos para possibilitar a futura integra o no GallnHa Matos et Al 2003 Uma das vantagens da divis o em m dulos permitir melhorar o funcionamen
63. ica o convertida para depois ser mostrada ao utilizador pelo m dulo de interface do sistema Este m dulo disponibiliza na sua interface a seguinte fun o classificaPoema esta fun o realiza a classifica o do poema com base na implementa o das regras descritas e adiciona a informa o de classifica o ao poema Seguidamente descrevem se os m dulos M dulo de Interface de Dados MIL e o M dulo Gerador de Palavras MGP apresentados na Figura 12 e correspondem respectivamente ao m dulo que implementa o l xico e ao m dulo respons vel pela gera o de palavras Estes m dulos fazem a interface entre o sistema e o reposit rio de dados do sistema O l xico inclui todas as palavras que s o aceites pelo sistema e o m dulo gerador de palavras optimiza os acessos ao m dulo do l xico O M dulo de Interface de Dados MID realiza a interface entre o sistema e a base de dados do sistema A base de dados composta pelo l xico e pelos modelos de l ngua Este m dulo baseia se na utiliza o de um sistema de gest o de base de dados relacional que armazena as palavras que s o aceites pelo sistema e armazena os modelos estat sticos de l ngua usados na sugest o de palavras Uma das vantagens de utiliza o do l xico na classifica o de poemas a de permitir realizar a detec o de erros ortogr ficos dos poemas quer daqueles que se pretende classificar quer dos que se encontram em constru o Outra vantage
64. iferentes classifica es quanto ao n mero de versos N de Versos Designa es poss veis Designa o Adoptada 1 mon tico mon tico 2 d stico parelha ou pareado d stico 3 tr stico ou terceto terceto 4 tetr stico quadra ou quarteto quadra 5 pent stico quinteto ou quintilha quintilha 6 hex stico sextilha sexteto ou septena sextilha 7 hept stico s tima septilha septena ou hepteto s tima 8 oct stico ou oitava oitava 9 nona eneag sima ou novena nona 10 dec stico d cada ou d cima d cima n n versos n versos Tabela 5 Classifica o das estrofes quanto ao n versos 34 As estrofes tamb m designadas por est ncias correspondem a um agrupamento de versos e consoante a distribui o dos versos pelas estrofes assim se obt m diferentes tipos de estrofe com diferentes designa es Os n meros de versos mais comuns s o de 2 3 4 5 6 8 e 10 versos como se pode ver na Tabela 5 Para cada valor de n mero de versos em cada uma das linhas da Tabela 5 existem diferentes designa es poss veis e a sua utiliza o varia de autor para autor Foi escolhida a designa o mais comum entre as v rias hip teses para os valores entre 1 e 10 Para as estrofes com mais de 10 versos adoptou se a regra geral de colocar o n mero de versos seguido da palavra verso s Por exemplo uma estrofe com 13 versos aparece a designa o 13
65. inferior Nesta disserta o foi usada a contagem de ambas as s labas gramaticais e m tricas sem contemplar as jun es das vogais Verso Palavra Palavra S laba S laba S laba S laba S laba S laba A 1 s I E Ro Pausa Y Pausa Rs P P P Hemist quio Hemist quio Hemist quio Figura 10 Estrutura do verso A estrutura do verso apresentada na Figura 10 esquematiza a defini o apresentada Em resumo cada verso est decomposto em palavras que por sua vez se dividem em s labas As s labas que podem ser consideradas s o as s labas gramaticais ou obter a partir destas as s labas m tricas e os p s Tanto as s labas m tricas como os p s t m em conta o tempo de prola o A decomposi o de um verso em s labas m tricas designa se por escans o 32 Como exemplo de decomposi o em s labas apresenta se um verso de Fagundes Varela e Que prende o c u a terra e a terra aos anjos Areal 2000 E respectivas decomposic es sil bicas e S labas gramaticais Que pren de o c u A ter ra ei a ter ra aos an jos 15 s labas e S labas m tricas Que pren de o c u ter ra e a ter ra aos an jos 10 s labas O pr ximo conceito a definir com vista sua automatiza o a rima Depara se nos uma rima final quan
66. ir os objectivos iniciais em dois grupos por um lado os objectivos relacionados com a classifica o de poemas e por outro lado os objectivos relacionados com a predi o das palavras Come ando pelo classificador de poemas um dos aspectos importantes a real ar a sua arquitectura Por um lado permite uma grande flexibilidade e adapta o mesmo quando se testavam as v rias abordagens devido sua natureza modular Por outro lado se se olhar para os testes de resposta efectuados verifica se que os aspectos de efici ncia t m de ser melhorados quando se pretendem classificar poemas mais extensos O tempo de classifica o dos poemas um factor importante a ter em conta Mas tamb m um facto que se se aumentar o poder computacional obt m se uma significativa melhoria no tempo de classifica o quando se tratam poemas de maior dimens o O facto de se optar por uma organiza o em m dulos contribui para que o sistema perca efici ncia contudo as vantagens que traz em termos de versatilidade de utiliza o do sistema e adapta o s altera es necess rias para teste das v rias abordagens compensam essa perda de desempenho 69 O facto de n o realizar a integra o deste sistema no GallnHa Matos et Al 2003 n o permite explorar completamente as aplica es externas utilizadas Durante a constru o do prot tipo houve a necessidade de arranjar um mecanismo que permita guardar a informa o gerada por essas
67. istam ocorr ncias Esta t cnica designada por alisamento O primeiro m todo para realizar o alisamento consiste em considerar que todos os grupos de palavras t m pelo menos uma ocorr ncia incluindo aqueles que n o ocorrem nenhuma vez Este m todo designa se por alisamento adicionar um Como exemplo e considerando para o caso dos bigramas em primeiro lugar realizada uma matriz de ocorr ncia em que se considera que todos os pares de palavras v o ocorrer pelo menos uma vez Depois actualizam se os pares de ocorr ncias com os valores de ocorr ncia que existem no corpus Seguidamente adicionam se 1 a todos os valores de ocorr ncia da matriz incluindo os nulos Depois normalizam se os valores actualizando o n mero total de ocorr ncias com os valores acrescentados Este m todo no entanto n o muito utilizado pois n o apresenta bons resultados em termos de utiliza o e pode provocar uma grande diferen a em rela o s frequ ncias originais quando se realiza o alisamento O principal problema reside no facto de adicionar o valor 1 s contagens Se fosse adicionado um valor mais pequeno o problema era atenuado O segundo m todo de alisamento designa se por desconto Witten Bell Witten 1991 Este m todo embora mais complexo que o anterior baseia se no conceito de modelar a primeira ocorr ncia dos Ngramas para estimar a ocorr ncia dos que ainda n o ocorreram Assim a probabilidade de ocorr ncia de um ngrama que aind
68. itava 8 versos rima cruzada Novo Reino que tanto sublimaram rima emparelhada Tabela 14 Classifica o de uma estrofe dos Lus adas 56 Destaca se ainda a utiliza o de diferentes tipos de disposi o estr fica da rima na mesma estrofe ou seja a estrofe apresenta rima cruzada nos quatro primeiros versos e rima emparelhada nos dois ltimos versos O detalhe de classifica o desta estrofe tamb m corresponde a versos de 12 s labas em que se aplicou a regra geral para a sua designa o 12 s labas Quanto ao tipo da ltima palavra todos os versos apresentam uma palavra grave O terceiro exemplo descrito na Tabela 15 corresponde a duas estrofes realizadas por crian as em idade escolar de salientar o facto dos versos realizados por crian as n o apresentarem uma grande regularidade quer em termos de n mero de versos quer em termos de n mero de s labas O mesmo j n o se pode dizer em rela o rima Estrofes de Crian as Classifica o menina que leva a vida Classifica o do Poema sentadinha a escrever Resumo fa a favor de ensinar linhas 8 versos 7 estrofes 2 eu tamb m quero aprender s labas 9 8 8 8 0 4 5 4 rimas A B C B C C C Brincar brincar Classificag o por estrofes s para brincar 1 estrofe quadra 4 versos rima cruzada e alegrar 2 estrofe terceto 3 versos rima seguida Tabela 15 Classifica o de estrofes r
69. ivas na quarta coluna encontram se as consoantes orais constritivas frincativas Na quinta coluna encontram se tr s grupos distinguindo se em primeiro lugar as orais constritivas laterais em segundo lugar as orais constritivas vibrantes e em terceiro as consoantes nasais sonoras Para cada som mostrado um exemplo de palavra com a respectiva transcri o fon tica Destacando dois exemplos da tabela pode se verificar que o som que representado pela letra i existe na palavra idade cuja respectiva transcri o fon tica idad inclui este som no in cio da H palavra O som que representado pelas letras o existe na palavra bombo cuja respectiva transcri o fon tica bo bu inclui este som 3 4 Rima Como j foi referido anteriormente a verifica o da rima tem em conta a transcri o fon tica das palavras Para o realizar as palavras s o convertidas no conjunto de caracteres do alfabeto fon tico que correspondem aos sons da palavra 23 Quando se fala em transcri o fon tica existem dois aspectos que s o necess rios ter em conta e Existem palavras com m ltiplas transcri es fon ticas e necess rio tratar as palavras que n o est o contidas no l xico Um dos crit rios usados para decidir qual a transcri o fon tica a escolher tem como base a categoria gramatical da palavra depois de efectuar a an lise sint ctica da frase que cont m a palavra No mbito deste tr
70. la 10 N mero N mero S labas Palavras 1 277 2 2543 3 4232 3052 5 1108 245 7 41 6 9 1 Tabela 10 Contagem das palavras com igual n mero de s labas As palavras em maior n mero s o as de 3 s labas correspondendo a 37 do total das palavras Seguidamente s o as de 4 e 2 s labas correspondendo respectivamente a 27 e 22 do total de palavras No caso da categoria morfol gica da palavra foi acrescentado na base de dados o atributo Categoria que permite armazenar a categoria da palavra Para se ter uma ideia da distribui o das palavras pelas categorias usadas inicialmente a Tabela 11 mostra o n mero de palavras existente em cada uma das categorias Para o sistema utilizar os modelos estat sticos de l ngua na sugest o de palavras foram acrescentadas as seguintes classes no l xico e 2Gram para armazenar os bigramas do modelo de l ngua e 3Gram para armazenar os trigramas do modelo de l ngua e 4Gram para armazenar os quadrigramas do modelo de lingua O resultado da classifica o de poemas determin stico e apenas depende do facto de existirem ou n o as palavras que o constituem no l xico A forma como feita a classifica o quando n o existe uma palavra no l xico depende da posi o da palavra em falta Se a palavra se 53 encontrar no meio de um verso ent o apenas o n mero de s labas desse verso n o estar correct
71. m tico para analisar ou manipular textos em verso ter que se ter em conta a cad ncia e a musicalidade Existem poucas ferramentas ou utilit rios que permitem manipular textos po ticos e reconhecer os requisitos espec ficos que s o caracter sticos da poesia Esta escassez agravada quando se pretende editar poesias escritas na l ngua portuguesa A edi o de textos po ticos pode ser simplificada com uma ferramenta que realize opera es de an lise e classifica o de poemas e inclusivamente permita realizar a sugest o de palavras Esta ajuda mais significativa nas palavras finais dos versos nos poemas em que existe rima Uma ferramenta com estas caracter sticas permite e Apoiar as pessoas que iniciam o estudo de poesia e Incentivar o gosto pela poesia e Ajudar os poetas a realizar poesia e Ajudar a compreender a estrutura dos poemas para melhorar a sua leitura em voz alta Estes s o s alguns exemplos de poss veis utiliza es para um sistema com as caracter sticas apresentadas pois se se considerarem as aplica es l dicas ent o poss vel realizar jogos de palavras baseados em textos po ticos que permitem ensinar poesia de uma forma divertida No entanto n o foi este o mbito do trabalho Outra raz o que motivou a realiza o desta proposta foi o desejo de aprofundar o conhecimento na rea do Processamento da L ngua Natural Tendo como base as funcionalidades anteriormente descritas e os cen rios de
72. m de utiliza o do l xico poder utilizar v rios l xicos alternativos consoante o contexto que se pretende analisar e consoante a utiliza o que se pretende fazer Por exemplo se se pretender classificar poemas mais antigos ent o tem de se acrescentar no l xico as palavras antigas Se se pretender utilizar como ferramenta de constru o de poemas nas escolas para crian as ent o poder ser usado um l xico adaptado para esse contexto Este m dulo disponibiliza na sua interface as seguintes fun es existePalavra Palavra esta fun o devolve um valor bin rio de verdadeiro ou falso caso exista ou n o no l xico a palavra passada por argumento 45 existePalavras Texto esta fun o devolve o conjunto de palavras do texto passado por argumento que n o existem no l xico inserePalavra Palavra esta fun o acrescenta a palavra passada por argumento no l xico removePalavra Palavra remove a palavra passada por argumento do l xico O MGP realiza as opera es respons veis pela sugest o de palavras A interac o entre este m dulo e o l xico directa por forma a optimizar o desempenho do sistema Para realizar a sugest o de palavras existe a hip tese de configurar o sistema de forma a seleccionar o modo que melhor se adapta sugest o pretendida A sugest o de palavras tem em conta a parte j escrita do poema e a configura o escolhida O seu funcionamento est baseado numa fun o que toma em con
73. m gerador aleat rio de caracteres onde poss vel controlar os grupos de caracteres gerados e assim criar poesia e O Electric Poet Frykholm 1996 permite criar um trabalho liter rio a partir de um texto normal que serve de molde Este sistema est mais vocacionado para a poesia abstracta e O Mc Poet Westbury 1997 um conjunto de ferramentas para manipula o de textos po ticos Estas ferramentas t m um motor de gera o de texto baseado num sistema de regras que usa uma linguagem simples para permitir a configura o por parte do utilizador e O Dada Poem Generator Chachanashvili 1991 permite gerar automaticamente poemas sem sentido tendo como base um dicion rio e defini es sint cticas e O Ray Kurzweil Cybernetic Poet Kurzweil 1999 das ferramentas analisadas a mais completa Esta ferramenta faz a aquisi o de um conjunto de poemas e cria um modelo de l ngua que representa esse mesmo conjunto de poemas A partir do modelo criado permite gerar poemas Para al m deste sistema a empresa Kurzweil CyberArt Technologies dedica se cria o de sistemas capazes de produzir arte e inclusivamente disponibilizou um sistema de protec o de ecr capaz de gerar pinturas originais o AARON Cohen 2001 Existem dicion rios de rima vocacionados para a realiza o de poemas e existem tanto em formato impresso em papel como em formato electr nico A fun o de um dicion rio de rimas permitir procurar palav
74. m sempre a mesma configura o de rima cruzada ou seja A BA B 40 4 O SISTEMA LUCAS 4 1 Introdu o Para validar as defini es anteriormente descritas e com o objectivo de construir um sistema que cumpra os objectivos iniciais foi constru do um demonstrador a que se deu o nome de LuCas O nome do sistema foi inspirado no nome do poeta Lu s de Cam es O sistema LuCas realiza por um lado a classifica o de poemas que s o fornecidos pelo utilizador e por outro lado sugere as palavras finais dos versos quando o utilizador est a construir poesia tendo em conta uma estrutura pr definida de poema escolhida pelo utilizador Foram feitas algumas op es de implementa o com vista a facilitar por um lado o funcionamento em v rios sistemas operativos e por outro possibilitar a visualiza o num browser Para tentar satisfazer da melhor forma poss vel estas duas op es optou se pela linguagem de programa o Java que corre em diferentes sistemas operativos A aplica o foi constru da sob a forma de uma Applet possibilitando assim o seu funcionamento num browser Em termos de arquitectura tamb m foram feitas algumas op es de desenho para permitir alguma flexibilidade e adaptabilidade s altera es de requisitos funcionais O sistema implementado est organizado em m dulos funcionais concebidos para serem o mais independentes poss vel com vista reutiliza o das suas funcionalidades por outras apl
75. mpladas no modelo de l ngua Assim foram realizadas experi ncias com um modelo com maior n mero de palavras e com frequ ncias de ocorr ncia para grupos de tr s e quatro palavras Este modelo de l ngua com a probabilidade de ocorr ncia das palavras foi obtido a partir de uma interpola o de dois modelos de l ngua um deles obtido com base em jornais recolhidos da Web e o outro obtido com base nos textos das transcri es dispon veis dos programas noticiosos de televis o Os valores de probabilidade de ocorr ncia das palavras permitem ordenar as palavras por ordem decrescente de probabilidade A Tabela 1 mostra o n mero de ocorr ncias de cada um dos grupos de palavras do modelo Grupos N mero 1 Palavra 57 564 2 Palavras 5 724 469 3 Palavras 11 095 964 4 Palavras 6 731 820 Tabela 1 Contagem dos grupos de palavras do modelo de l ngua No modelo apresentado s o usadas 57 564 palavras diferentes Se se contabilizarem todos os grupos de palavras obt m se um total de 23 609 817 ocorr ncias Para manipular este n mero de palavras e uniformizar o modo de acesso aos modelos foi utilizado um motor de base de dados para armazenar esta informa o Com este modelo o n mero de palavras que n o existiam no modelo diminui bastante mas mesmo assim existiam palavras que n o estavam no modelo Para estes casos a frequ ncia de ocorr ncia destas palavras calculada com o m todo b
76. o Se a palavra em falta corresponder a uma palavra final do verso ent o tamb m o resultado de classifica o da rima n o estar correcto No caso da sugest o de palavras n o existe este problema pois se n o existir uma palavra no l xico o sistema nunca poder sugerir essa palavra Apenas a utiliza o das aplica es externas que geram as classes poss veis n o compat vel com as classes apresentadas Foi ent o necess rio compatibilizar as classes geradas pela aplica o smorph Ait Mokhtar 1998 com as classes apresentadas E Categoria Descri o N Palavras Povo I verbo 4168 nc nome comum 3565 n np nome pr prio 360 e 119 cp contrac o pronominal 25 BENE 14 in interjei o 13 ea nn letra ou s mbolo 6 I Le con conjun o 6 rc prep preposi o 4 pdem pronome demonstrativo 4 pint EE art artigo 1 La irme pref prefixo ex 0 suf sufixo se sem classe sem classe 1504 Tabela 11 Contagem das palavras com igual categoria 54 4 5 Exemplos de Classifica o de Poemas Seguidamente apresentam se alguns exemplos de classifica o que demonstram o funcionamento do prot tipo constru do Em primeiro lugar apresentam se na Tabela 12 duas quadras populares de Ant nio Aleixo e o respectivo resultado de classifica o Embora as quad
77. o da s laba t nica ou acentuada da palavra 21 Palavra Palavras Ox tonas agudas S laba T nica Palavra Palavras Parox tonas graves S laba T nica S laba Palavra Palavras Proparox tonas esdr xulas S laba T nica S laba S laba Figura 6 Classifica o das palavras A s laba acentuada pode encontrar se em tr s posi es Figura 6 e ltima s laba e Pen ltima s laba e Antepen ltima s laba No caso da s laba acentuada se encontrar na ltima s laba a palavra aguda ou ox tona No caso de se encontrar na pen ltima s laba a palavra grave ou parox tona No caso de se encontrar na antepen ltima s laba a palavra esdr xula ou proparox tona Como exemplo as palavras acentua o vistas e ltima t m respectivamente os tipos aguda grave e esdr xula 3 3 Transcri o Fon tica das Palavras Foi usado o alfabeto fon tico para o dialecto padr o do portugu s europeu SAM PA que apresentado na Tabela 2 Para cada som do alfabeto fon tico existe um exemplo de palavra e respectiva transcri o fon tica Um alfabeto fon tico usado para representar os sons das palavras e possibilitar a compara o de equival ncia de sons entre palavras O alfabeto fon tico permite dada uma palavra representar a respectiva trans
78. o texto incrementada a vari vel N meroEstrofes que indica o n mero de estrofes total do poema e guardado o 48 n mero de versos da estrofe Por cada mudan a de estrofe iniciada a vari vel N meroVersos com 0 O processo preditor de palavras PPP realiza a predi o das palavras finais dos versos Este processo utiliza todos os m dulos do sistema para realizar a predi o das palavras finais dos versos Podem ocorrer diferentes situa es de poemas que originam diferentes crit rios de predi o O primeiro factor que condiciona a predi o das palavras est relacionado com o facto de se estar a considerar ou n o uma estrutura definida de poema No caso em que n o existe uma estrutura definida de poema o crit rio de selec o baseia se nos modelos estat sticos de l ngua que permitem sugerir as palavras ordenadas por ordem decrescente de frequ ncia de ocorr ncia das palavras Quando o utilizador n o imp e uma estrutura de poema pr definida existem v rios factores que s o tidos em conta para sugerir as palavras O primeiro crit rio corresponde ao n mero de s labas dos versos que apenas selecciona as palavras com um n mero espec fico de s labas O segundo crit rio corresponde disposi o estr fica da rima que apenas selecciona as palavras com uma determinada rima Em ambos os casos foram realizadas experi ncias utilizando as categorias gramaticais das palavras A partir de uma frase incompleta s o
79. olocar o n mero de s labas seguido da palavra s laba s Os versos de uma e duas s labas s o raros No entanto apresentam se dois poemas a t tulo de curiosidade de Casimiro de Abreu Areal 2000 um com versos de uma s laba e o outro com versos de duas s labas Poema de uma S laba Poema de duas S labas Amo Na valsa Gemo T o falsa Clamo Corrias Tremo Fugias Ardente Contente Serena Sem Pena De mim Ambos os exemplos apresentam uma contabiliza o das s labas m tricas dos versos Como se pode verificar os versos de uma s laba iniciam com a s laba acentuada n o existindo nenhuma outra antes desta Nos versos de duas s labas apenas existe uma s laba antes da s laba t nica Para classificar os versos quanto ao tipo de rima distinguem se dois tipos os versos rimados os versos soltos ou brancos sem rima Cada um dos casos caracteriza diferentes tipos de poemas Isto significa que a rima embora n o seja obrigat ria existir num poema um factor de classifica o O tipo da ltima palavra permite classificar o tipo de rima pois como foi apresentado anteriormente varia com a posi o da s laba acentuada da ltima palavra Os versos podem ser e Versos agudos quando as palavras utilizadas na rima s o agudas e Versos graves quando as palavras utilizadas na rima s o graves e Versos esdr xulos quando as palavras utilizadas na rima s o esdr xulas As rimas com palavras esdr xulas s o
80. os de l ngua utilizados tamb m o processo manual de teste limitou muito os testes realizados Talvez a utiliza o de diferentes modelos referentes a diferentes corpus de texto possa alterar os resultados obtidos 6 2 Perspectivas Futuras S o v rias as portas que ficaram abertas e as solu es que podem ser melhoradas em trabalhos futuros A disponibiliza o deste sistema no GallnHa Matos et Al 2003 uma aspecto que permitir confirmar algumas das suposi es aqui levantadas e melhorar os resultados obtidos relativamente s experi ncias de teste que foram realizadas com processos manuais 71 A interface Web disponibiliza de forma f cil atrav s de um browser o acesso e utiliza o das v rias aplica es e respectivas funcionalidades que a est o dispon veis Espera se que as preocupa es de implementa o de forma modular facilitem a integra o das diferentes funcionalidades do sistema proposto na interface comum a todas as aplica es Com a integra o deste trabalho espera se ainda e O acesso mais simples informa o gerada pelas aplica es externas e A disponibiliza o das funcionalidades do sistema para outras aplica es Outro aspecto a salientar que o facto de integrar o sistema na plataforma descrita permite dispensar algumas das classes e das funcionalidades que apenas foram acrescentadas no l xico para tornar poss vel o funcionamento aut nomo do sistema Tamb m na arquitectur
81. pus de texto O vocabul rio corresponde s palavras do corpus de texto ordenadas por ordem alfab tica Neste segundo passo ainda poss vel definir o limite m ximo de palavras excluindo assim as palavras menos frequentes No terceiro passo s o constru dos os modelos de Ngramas Os ficheiros de entrada necess rios para gerar os modelos s o o corpus de texto inicial e o vocabul rio obtido no segundo passo Os modelos de Ngramas gerados s o compostos por tr s ficheiros em que cada um representa um grupo de n palavras e a respectiva probabilidade de ocorr ncia Para n igual a um corresponde frequ ncia de ocorr ncia das palavras para n igual a dois corresponde frequ ncia de ocorr ncia dos pares de palavras e para n igual a tr s corresponde frequ ncia de ocorr ncia dos trios de palavras 2 5 Modelos Utilizados As primeiras experi ncias foram realizadas com um modelo de l ngua composto por frequ ncias de palavras simples e frequ ncias de pares de palavras Este modelo de l ngua composto por 65 817 palavras e respectivas frequ ncias e por 80 847 pares de palavras e 15 respectivas frequ ncias Este modelo de l ngua faz parte da aplica o Eug nio Garcia amp Oliveira 2001 que realiza a predi o de palavras e foi concebido para acelerar o processo de escrita a pessoas com limita es motoras Depois de v rias experi ncias verificou se que a maioria dos poemas continha palavras que n o estavam conte
82. r Brincar brincar s para brincar e alegrar A primeira estrofe composta por 4 versos e a segunda por tr s versos O n mero de s labas em cada verso varia Na segunda estrofe por exemplo o primeiro verso tem 4 s labas gramaticais ou m tricas e o segundo tem 5 s labas gramaticais ou m tricas e o terceiro verso tem 4 s labas gramaticais ou m tricas Nestes exemplos o facto da ltima s laba ser a s laba t nica faz com que o n mero de s labas gramaticais e m tricas sejam iguais se n o se considerar as jun es das vogais Em rela o rima na primeira estrofe foram utilizadas palavras graves e agudas e a forma como a rima foi enla ada foi o 2 verso a rimar com o 4 verso J na segunda estrofe foram utilizadas palavras agudas e a forma como se enla ou a rima foi a de todos os versos rimarem entre si Tamb m comum nos poemas de crian as a tend ncia para colocar todos os versos com a mesma rima rima seguida As duas primeiras estrofes da obra Os Lus adas de Cam es mostram outro exemplo de poema utilizado no teste do sistema 38 As armas e os bar es assinalados Que da ocidental praia lusitana Por mares nunca de antes navegados Passaram ainda al m da Taprobana Em perigos e guerras esfor ados Mais do que prometia a for a humana E entre gente remota edificaram Novo Reino que tanto sublimaram E tamb m as mem rias gloriosas Daqueles Reis que foram dilatando A F o Imp rio e
83. r xima palavra A Figura 7 resume o processo descrito DD todo p Menina que Gera E arf ponctu Classes P i p d q Favor de Ptvir Figura 7 M dulo externo de gera o de classes SMorph Pasmo Susana P s An lise Morfol gica An lise Sint ctica An lise Morfol gica Frase An lise P s An lise Classes da incompleta Morfol gica da Morfol gica da pr xima O do poema frase do poema frase do poema palavra Figura 8 Funcionamento interno do m dulo externo de gera o de classes A Figura 8 ilustra o funcionamento interno do m dulo externo de gera o de classes atrav s de um diagrama de actividade descrito na linguagem UML No primeiro passo utilizada a aplica o Smorph Ait Mokhtar 1998 Este passo tem como entrada a frase incompleta do poema e obt m como resultado a an lise morfol gica das palavras que comp em a frase e que inclui a t tulo de exemplo a categoria o n mero e o g nero Este resultado vai ser passado para a pr xima fase Este primeiro passo usa um dicion rio 28 O segundo passo consiste em realizar a p s an lise morfol gica A aplica o Pasmo Paulo amp Mamede 2001 respons vel por este passo filtra alguns dos lemas poss veis e altera o formato de algumas palavras Este passo reescreve o texto de acordo com as regras e tamb m agrupa as palavras em frases O
84. ra as palavras que se encontram nestas condi es realizada uma ordena o que permite eleger as palavras que melhor se adequam posi o do poema onde se pretende realizar a sugest o No mbito deste trabalho os crit rios que foram escolhidos para realizar a filtragem das palavras por um lado tiram partido da an lise sint ctica das frases que constituem o poema com o objectivo de seleccionar as categorias poss veis para a palavra que deve ser sugerida e por outro lado s o usados modelos estat sticos de l ngua que permitem realizar uma ordena o das palavras segundo um crit rio baseado no seu valor estat stico de ocorr ncia Foram realizadas pesquisas na Internet relacionadas com poesia com o objectivo de encontrar sistemas que permitam lidar com poesia Encontraram se dois tipos de Sites No primeiro tipo poss vel ler comentar e discutir poesia de v rios autores O segundo tipo disponibiliza sistemas que permitem lidar com poesia que v o desde os jogos de palavras at gera o autom tica de poesia As pesquisas de Sites efectuadas abrangeram n o s a l ngua portuguesa como outras l nguas e dos v rios Sites encontrados a maioria sobretudo para a l ngua inglesa Alguns dos Sites encontrados para a l ngua portuguesa s o em Portugu s do Brasil Come ando pelos Sites do primeiro tipo para a l ngua portuguesa destacam se o Projecto Vercial e Gera o Poesia Em ambos os Sites poss vel encon
85. rais separadas por intervalos regulares Cada sequ ncia ou c lula m trica compunha se de duas ou mais s labas cuja mensura o se fazia pelo tempo despendido na sua prola o Mois s 1974 Conclui se portanto que os p s correspondem a agrupamentos de s labas que t m em conta o tempo despendido na prola o Os versos superiores a 5 s labas podem ser subdivididos em hemist quios que correspondem a metade do verso e s o assinalados por uma pausa ou cesura As pausas ou cesuras correspondem a cortes no interior do verso e a diferen a entre pausa e cesura que a cesura fixa enquanto a pausa pode variar com a pessoa Nesta proposta apenas se adoptou como subunidade do verso a s laba uma vez que corresponde unidade mais elementar de decomposi o da palavra podendo a partir dela obterem se as outras subdivis es Existem como foi visto anteriormente dois tipos de s labas que podem ser tidos em conta quando se fala numa composi o po tica as s labas gramaticais e as s labas m tricas As s labas gramaticais dividem as palavras segundo as leis da gram tica e as s labas m tricas t m em conta a forma como s o apreciadas pelo ouvido Por estarem sujeitas a contrac es e serem contabilizadas at s laba t nica da ltima palavra sistema que foi iniciado entre n s por Feliciano de Castilho Areal 2000 o n mero de s labas m tricas pode ser igual ao n mero de s labas gramaticais mas tipicamente
86. ras que resumem as v rias situa es e Quando uma palavra termina em vogal e a primeira s laba da palavra seguinte tamb m come a por vogal desde que n o sejam ambas t nicas d se uma jun o das duas numa s e Os hiatos podem transformar se em ditongos e os ditongos podem transformar se em hiatos Como exemplo apresenta se um verso de Fernando Pessoa dividido em s labas m tricas e Qual quer coi sa em mi nha al ma O verso composto por seis s labas m tricas As jun es das s labas sa em e nha al s o um exemplo da primeira regra No primeiro caso em que as vogais s o diferentes designa se por elis o e no segundo caso em que as vogais s o iguais designa se por crase No caso do exemplo coisa em e dada a fus o entre o a e o e obt m se a seguinte divis o coi sem mas dependendo da pron ncia tamb m se pode obter o ditongo ai e neste caso fica a divis o coi s im designando se neste caso por sinalefa em que a fus o entre o a e o e forma o ditongo ai Outro exemplo que ilustra a segunda regra s o os versos em que entra a palavra gl rias Gramaticalmente a palavra tem tr s s labas gl ri as mas se se juntar o hiato i e a em que as vogais pronunciadas separadamente passam a pronunciar se como uma vogal mais uma semi vogal tem se o ditongo ia e passa a palavra a contabilizar apenas duas s labas gl rias Este caso d
87. ras que rimam e a sua utilidade facilitar a procura de uma palavra para uma determinada posi o do poema O utilizador apenas tem de fornecer as ltimas letras da palavra que pretende encontrar e o sistema fornece as palavras do dicion rio com as mesmas letras no fim da palavra As vers es impressas em papel est o organizadas alfabeticamente pelas letras finais das palavras ou seja as palavras s o ordenadas alfabeticamente do fim da palavra para o in cio Isto permite juntar as palavras com igual termina o em termos das letra finais Esta abordagem permite encontrar mais facilmente as palavras com igual termina o e assim procurar palavras que rimem No entanto existem palavras que rimam e que n o t m exactamente a mesma termina o em termos de letras Os dicion rios em formato electr nico podem ser usados de duas formas ou atrav s de Sites onde o utilizador usa as fun es a dispon veis ou atrav s de aplica es que funcionam de forma aut noma ou integradas num editor de texto As fun es disponibilizadas pelos dicion rios em formato electr nico s o as mesmas fun es poss veis de realizar na vers o em papel com a vantagem de quando est o integradas nas ferramentas de edi o de texto tornam a pesquisa das palavras mais simples e c moda Um dos dicion rios de rimas em formato electr nico que foi testado designa se por Dicion rio de Rimas Po ticas Pretor 2000 Este dicion rio apresentado como um
88. ras sejam de 7 s labas m tricas o resultado est apresentado em s labas gramaticais O resultado divide se em duas partes Na primeira apresenta se o resumo de classifica o do poema e a classifica o das estrofes do poema e na segunda apresenta se um exemplo de detalhe de classifica o dos versos da primeira estrofe Quadras Populares Classifica o Eu n o tenho vistas largas Classifica o do Poema Nem grande sabedoria Resumo Mas d o me as horas amargas linhas 9 versos 8 estrofes 2 Li es de Filosofia s labas 8 8 8 8 0 8 9 8 8 rimas A B A B C D C D H luta por mil doutrinas Classifica o das estrofes Se querem que o mundo ande 1 estrofe quadra 4 versos rima cruzada Fa am das mil pequeninas 2 estrofe quadra 4 versos rima cruzada Uma s doutrina grande Tabela 12 Classifica o de quadras populares de Ant nio Aleixo A informa o de classifica o que se obt m inclui O n mero total de linhas do poema O n mero total de versos do poema O n mero total de estrofes O n mero de s labas de cada verso sendo as linhas de separa o das estrofes assinaladas com o n mero O A disposi o estr fica da rima assinalada com as letras respectivas 55 e Por cada estrofe ainda apresentada a classifica o quanto ao n mero de versos e quanto rima A Tabela 13 apresenta a segunda parte da classifica o que corresponde ao detalhe de clas
89. rojecto Vercial Projecto Vercial http www ipn pt literatura Rosenfeld 2000 Rosenfeld R Two decades of Statistical Language Modeling Where Do We Go From Here Proceedings of the IEEE 88 8 2000 SAM PA Oliveira Lu s Alfabeto Fon tico para o Dialecto Padr o do Portugu s Europeu http www 12f inesc id pt lco ptsam ptsam pdf Seneff et al 1998 Seneff S Hurley E Lau R Pao C Schmid P e Zue V Galaxy II A Reference Architecture for Conversational System Development in Proc ICSLP 98 Sydney Australia 30 Nov 4 Dec 1998 3 931 934 http www sls lcs mit edu sls publications 1998 icslp98 galaxy pdf Seneff et al 1999 Seneff S Lau R Polifroni J Organization Communication and Control in the GALAXY II Conversational System in Proc Eurospeech 99 Budapest Hungary September 1999 http www sls lcs mit edu sls publications 1999 eurospeech99 seneff pdf Westbury 1997 Chris Westbury Mc Poet 1997 http www macinsearch com infomac game word mcpoet 43 html Witten 1991 Witten I H Bell T C The zero frequency problem Estimating the probabilities of novel events in adaptative text compression IEEE Transactions on Information Theory 1991 77
90. rso subdivide se ainda em subunidades caracterizadas pelo agrupamento de s labas chamado de p na versifica o greco latina Mois s 1974 Assim se obt m uma defini o que para estar completa necessita apenas de definir o significado das subunidades que comp em o verso A estrutura do poema apresentada na Figura 9 resume as defini es que foram apresentadas Poema Estrofe Verso Verso Estrofe Verso Verso Figura 9 Estrutura do poema Um poema corresponde a um texto em que as mudan as de linha definem o fim de cada verso e uma linha vazia define as mudan as de estrofe Uma estrofe corresponde portanto a um conjunto de linhas que termina numa linha em branco As defini es adoptadas permitem definir a estrutura de um poema e assim automatizar a sua classifica o Um verso pode ser constitu do por uma palavra s ou por v rias Os elementos do verso que foram considerados para implementar a sua classifica o foram o n mero de s labas e a rima Segundo a defini o de verso apresentada anteriormente ficaram por definir as subunidades que comp em o verso Os versos podem ser subdivididos usando diferentes m tricas em s labas 31 ou em p s Um p designa a unidade r tmica e mel dica do verso composta de um grupo de s labas Remonta aos gregos e romanos que mediam os versos em sequ ncias tempo
91. s para seleccionar e ordenar as palavras a sugerir Um dos crit rios de selec o de palavras tem em conta as restri es estruturais do poema e estas fazem parte da informa o de classifica o dos poemas raz o pela qual os dois problemas n o s o independentes 1 2 Enquadramento Esta proposta enquadra se na rea do Processamento da L ngua Natural pois s o utilizadas t cnicas de Processamento da L ngua Natural para realizar a classifica o dos poemas e a sugest o das palavras finais dos versos No caso da classifica o de poemas o resultado da pesquisa bibliogr fica efectuada permitiu implementar a partir das defini es de aspectos formais nomeadamente os conceitos e as regras da po tica portuguesa um conjunto de conceitos e regras para o sistema Existem dois aspectos que s o fundamentais um corresponde rima das palavras finais dos versos e o outro ao n mero de s labas das palavras que formam os versos Para contemplar estes dois aspectos necess rio um mecanismo de verifica o de rima das palavras e um mecanismo de decomposi o das palavras em s labas Para o caso da sugest o das palavras finais dos versos foram implementadas v rias hip teses de crit rios de escolha e ordena o das palavras A escolha das palavras a sugerir condicionada pela estrutura do poema que est a ser constru do e naturalmente pela rima e pelo n mero de s labas dos versos e das palavras anteriores caso existam Pa
92. sa que servem de base classifica o de poemas sendo indicadas as op es de implementa o que foram tomadas Enumeram se as regras de classifica o dos poemas e as respectivas restri es de implementa o tamb m apresentado o que se entende por tipos de poesia e s o dados v rios exemplos de poesia aceites pelo sistema No cap tulo 4 s o descritos os aspectos que foram tidos em conta na constru o do demonstrador sistema LuCas fazendo refer ncia motiva o que levou corrente implementa o Descreve se em detalhe a arquitectura do sistema e os v rios m dulos que o comp em e as suas respectivas interfaces Descrevem se os processos de coordena o do sistema e apresentam se em Z UML os diagramas de estado e de actividade correspondentes forma como realizada a classifica o dos poemas e a sugest o das palavras finais dos versos S o discutidas v rias abordagens para selec o e ordena o das palavras a sugerir Apresenta se a arquitectura da base de dados do sistema e os seus detalhes de implementa o S o apresentados os componentes que armazenam a informa o obtida pelas aplica es externas e alguns resumos estat sticos de ocorr ncia de termina es de palavras e de n mero de s labas dos modelos estat sticos de l ngua Em seguida descrevem se alguns exemplos que ilustram o funcionamento do sistema na classifica o de poemas e na sugest o das palavras finais dos versos No cap tulo
93. sifica o dos versos da primeira estrofe O detalhe de classifica o acrescenta informa o anterior a designa o da classifica o das estrofes quanto ao n mero de s labas e quanto ao tipo da ltima palavra Detalhe de Classifica o 1 estrofe quadra 4 versos rima cruzada 1 Verso octoss labo 8 s labas grave A 2 Verso octoss labo 8 s labas grave B 3 Verso octoss labo 8 s labas grave A 4 Verso octoss labo 8 s labas grave B Tabela 13 Detalhe de classifica o da primeira quadra de Ant nio Aleixo O segundo exemplo uma estrofe dos Lus adas como mostra a Tabela 14 Embora este exemplo seja uma oitava rima com versos de 10 s labas m tricas o resultado est apresentado em termos de s labas gramaticais Pode se ver que a estrofe composta por 8 versos e tal como no exemplo anterior o n mero versos por estrofe s o constantes Tamb m a rima obedece a um formato r gido do tipo ABABABCC Estrofe dos Lus adas Classifica o As armas e os bar es assinalados Classifica o do Poema Que da ocidental praia lusitana Resumo Por mares nunca de antes navegados linhas 8 versos 8 estrofes 1 Passaram ainda al m da Taprobana s labas 12 12 12 13 12 13 13 11 Em perigos e guerras esfor ados rimas A B A B A B C C Mais do que prometia a for a humana Classifica o por estrofes E entre gente remota edificaram 1 estrofe o
94. st sujeito a uma s rima que pode tamb m Floro raios ser cruzada ABCB Tabela 7 Classifica o quanto posi o relativa da rima e dos versos que enla a Como exemplo destaca se a rima cruzada da forma ABAB muito usada nas quadras populares e em que o primeiro verso rima com o terceiro e o segundo rima com o quarto 37 3 10 Tipos de Poemas A partir das defini es que foram adoptadas poss vel realizar a classifica o para diferentes tipos de poemas Entende se por diferentes tipos de poemas aqueles que apresentam diferente n mero de versos que comp em as estrofes ou poemas que apresentem diferente n mero de s labas que formam os versos ou poemas que apresentem rima com diferentes categorias de palavras finais ou ainda poemas com diferentes configura es na forma como a rima enla ada Para al m destas poss veis diferen as foram ainda utilizados poemas de teste com diferentes origens com o objectivo de diversificar quer no vocabul rio quer na estrutura Os poemas realizados por crian as em idade escolar por exemplo n o apresentam uma estrutura bem definida e homog nea Pelo contr rio o n mero de versos por estrofe varia durante o poema tal como o n mero de s labas em cada verso Abaixo apresentam se dois exemplos de estrofes realizadas por crian as de 9 anos Jorge et al 2000 menina que leva a vida sentadinha a escrever fa a favor de ensinar eu tamb m quero aprende
95. stical Language Modeling using the CMU Cambridge toolkit In Proc Eurospeech 97 September 1997 Coelho 1987 Jacinto Prado Coelho Dicion rio de Literatura Editora Minho 3 Edic o 1987 Cohen 2001 Harold Cohen AARON the Cybernetic Artist Kurzweil CyberArt Technologies 2001 http www kurzweilcyberart com E Poetry Electronic Poetry Center http epc buffalo edu e poetry Early 1970 Early J An efficient context free parsing algorithm 1970 Faiza 1999 Abbaci Faiza D veloppement du Module Post SMorph Tese de Mestrado Universit Blaise Pascal Clermont Ferrand Franca 1999 Ferreira et al 2001 Nuno Ferreira Joana Paulo Ana Pacheco O Poeta Relat rio do Projecto de Introdug o aos Agentes Aut nomos Lisboa Portugal 2001 Frykholm 1996 Niklas Frykholm Electric Poet 1996 75 http www macinsearch com infomac game word mcpoet 43 html Garcia amp Oliveira 2001 Lu s Garcia Lu s Oliveira Eug nio o g nio das palavras Predictor de Palavras para o Portugu s Europeu Beja e Lisboa Portugal 2001 Gera o Poesia Geracao Poesia http www geracaopoesia meublog com br Good 1953 Good I J The population frequencies of species and the estimation of population parameters Biometrika 1953 Hag ge 2000 Caroline Hag ge Analyse Syntaxique Automatique du Portugais Tese de Doutoramento Universi
96. sugeridos os tipos de palavras poss veis para a pr xima palavra As experi ncias realizadas n o foram conclusivas pois o n mero de classes sugeridas restringe pouco o n mero total de palavras n o chegando a filtrar 50 das palavras A Figura 15 mostra atrav s de um diagrama de actividade descrito na linguagem UML o processo de escolha do m todo de selec o das palavras a sugerir Existem tr s formas de selec o de palavras a primeira por n mero de s labas a segunda por rima e a terceira por frequ ncia de ocorr ncia A escolha depende da configura o que o utilizador escolheu e depende da situa o encontrada no poema Estrutura N o Definida Estrutura Definida Rima N o Definida Rima Definida Selec o por N S labas Rima SLM Selec o por N S labas SLM Selec o Por SLM Legenda SLM Modelos de Linguagem Estat sticos Figura 15 Diagrama de actividade de predi o de palavras 49 4 4 Arquitectura da Base de Dados Inicialmente a base de dados era composta pelo l xico Este l xico permite validar o vocabul rio utilizado na realiza o dos poemas e assim ter no sistema a funcionalidade de corrector ortogr fico Mais tarde foi tamb m utilizado para guardar a informa o que se obt m a partir das aplica es externas e os modelos de l ngua Foi desenvolvido um conjunto de funcionalidades para permitir adaptar e complementar a informa o relativa s transcri
97. t Blaise Pascal Clermont Ferrand Fran a 2000 Huang et al 2001 Huang Xuedong Acero Alex Hon Hsiao Wuen Spoken Language Processing A Guide to Theory Algorithm and System Development Prentice Hall 2001 Hutchens 1995 Hutchens Jason L Natural Language Grammatical Inference An Honours Dissertation in Information Technology University of Western Australia 1995 Jorge et al 2000 Daniela Jorge Fl via Henriques C tia Jorge Escola B sica do Sobral da Abelheira Mafra 2000 Jurafsky amp Martin 2000 Daniel Jurafky James H Martin Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition Prentice Hall 2000 Katz 1987 Katz S M Estimation of probabilities from sparse data for the language model component of a speech recognizer IEEE Transactions on Acoustics Speech and Signal Processing 1987 Kurzweil 1999 Kurzweil Ray Ray Kurzweil s Cybernetic Poet Kurzweil CyberArt Technologies 1999 http www kurzweilcyberart com poetry rkcp_overview php3 Mamede et al 2004 Nuno Mamede Isabel Trancoso Paulo Ara jo C u Viana Poetry Assistant ICSLP 2004 Outubro de 2004 Jeju Island Korea Mateus amp Gra a 2002 Alexandre Mateus Jo o Gra a Interface Web para o Sistema Galaxy Communicator Relat rio de Trabalho Final de Curso Lisboa Portugal 2002 Ma
98. ta as v rias hip teses de selec o das palavras Este m dulo disponibiliza na sua interface a seguinte fun o pr ximaPalavra n esta fun o sugere n palavras para completar um verso O valor n passado por argumento fun o Por ltimo os m dulos M dulo de Interface Externa Leia MEL e o M dulo de Interface Externa Gerador de Classes MEC representados na Figura 12 a amarelo realizam a interface com as aplica es externas O MEL realiza a interface entre o sistema e a aplica o externa Leia Este m dulo obt m a transcri o fon tica e a divis o sil bica das palavras e disponibiliza na sua interface as seguintes fun es transcri oFon tica Palavra esta fun o devolve a transcri o fon tica de uma palavra passada por argumento inclui a indica o de s laba t nica divis oSil bica Palavra esta fun o devolve a divis o sil bica da palavra passada por argumento inclui a indica o de s laba t nica O MEC realiza a interface entre o sistema e as aplica es externas Smorph Pasmo e Susana Este m dulo gerador de classes obt m para uma frase incompleta sem a ltima palavra um conjunto de classes poss veis para essa palavra e disponibiliza na sua interface a seguinte fun o classesPossiveis Frase esta fun o devolve um conjunto de classes poss veis para a pr xima palavra que pode formar a frase passada por argumento 46 A base de dados do sistema permite
99. tes emana canina deed didt 64 xiv CONVEN ES TIPOGR FICAS As conven es tipogr ficas utilizadas nesta tese foram as seguintes 1 usa se a fonte Times New Roman para texto normal Exemplo Esta proposta pretende abordar dois problemas distintos ii usam se par ntesis rectos para refer ncias bibliogr ficas Exemplo Ara jo amp Mamede 2002 iii usa se texto em It lico entre aspas para frases citadas Exemplo Considera se poema toda composi o liter ria de ndole po tica iv usa se texto em It lico para siglas e abreviaturas Exemplo sistema LuCas v usam se plicas para destacar pontos relevantes Exemplo as palavras Vistas e Largas vi usa se a fonte Courrier New nos exemplos de c digo Exemplos if txtLinha compareTo 0 XV xvi 1 INTRODU O 1 1 Motiva o Hoje em dia cada vez maior a utiliza o de ferramentas de apoio escrita como s o exemplo os correctores ortogr ficos que ajudam na edi o e correc o de documentos Estas ferramentas s o cada vez mais necess rias e a depend ncia em rela o a elas torna se cada vez maior Cada vez menos se concebe que um documento seja enviado com erros ortogr ficos pelo menos aqueles que podem ser detectados por correctores ortogr ficos A integra o destas ferramentas nos editores de texto quer atrav s de op es de menu quer atrav s de bot es nas barras de ferramentas torna
100. to de um determinado m dulo sem ter de estar preocupado com os efeitos colaterais nos outros m dulos e desde que se mantenha a interface do m dulo A outra vantagem que se podem substituir os m dulos independentemente uns dos outros Houve ainda a preocupa o de que cada m dulo tivesse uma interface muito bem definida para permitir disponibilizar de forma f cil as fun es por ele implementadas Os processos de coordena o do sistema LuCas realizam as fun es principais do sistema Para o realizar activam atrav s da interface dos m dulos as fun es necess rias para satisfazer os pedidos do utilizador 4 2 Arquitectura do Sistema O sistema LuCas composto por sete m dulos e dois processos de coordena o Dois dos m dulos realizam a interface entre o sistema e as v rias aplica es externas dois outros realizam as opera es relacionadas com o l xico e a sugest o de palavras e os restantes tr s m dulos realizam as opera es de interface com o utilizador identifica o dos conceitos e identifica o das regras da po tica portuguesa Relativamente aos processos de coordena o um respons vel pela classifica o dos poemas Ara jo amp Mamede 2002 e outro pela sugest o das palavras finais dos versos A Figura 12 ilustra os m dulos e os processos que comp em o sistema e as respectivas interliga es entre eles 42 uis istema Identificador MIC Mik egras
101. tos et Al 2003 Matos D M Paulo J L Mamede N J Managing Linguistic Resources and Tools Lecture Notes in Artificial Inteligence no 2721 Springer Verlag pp 135 142 2003 Matos et al 2002 Matos D Mateus A Gra a J Mamede N Empowering the User a Data Oriented Application Building Framework Adjunct Proceedings of the 7th ERCIM Workshop User Interfaces for All Paris France 2002 not yet published Mois s 1974 Massud Mois s Dicion rio de Termos Liter rios Editora Coltrix 1974 76 Oliveira 1996 Lu s Oliveira S ntese de Fala a Partir de Texto Tese de Doutoramento Instituto Superior T cnico Lisboa Portugal 1996 Paulo amp Mamede 2001 Joana Paulo Nuno Mamede PAsMo P s An lise Morfol gica Manual T cnico Lisboa Portugal 2001 Poetry Library The International Library of Poetry http www poetry com Polifroni amp Seneff 2000 Polifroni J Seneff S GALAXY II as an Architecture for Spoken Dialogue Evaluation in Proc LREC Athens Greece May 31 June 2 2000 http www sls lcs mit edu sls publications 2000 Irec 2000 pdf Pretor 2000 Pretor Inform tica e Sistemas Ltda Dicion rio de Rimas Po ticas 2000 http www Jemon com br Productions 1997 Poetry Ink Productions Chaos Poetry Generator 1997 http www macinsearch com infomac2 game word chaos poetry generator hc html P
102. trar um vasto n mero de poemas de autores Portugueses como s o exemplo Lu s de Cam es e Fernando Pessoa O objectivo destes Sites juntar textos liter rios de uma grande diversidade de autores e divulgar a literatura para motivar as pessoas para a leitura Alguns fazem ainda concursos de poesia onde existem processos de vota o dos poemas e permitem que os leitores fa am coment rios sobre os poemas para serem partilhados por outras pessoas Dos v rios Sites estrangeiros encontrados destacam se para a l ngua inglesa dois Sites Poetry Library e E Poetry Em ambos poss vel encontrar muitos autores de diferentes nacionalidades e muitos poemas para ler No primeiro Site s o disponibilizados mecanismos que permitem dar apoio aos poetas que desejam publicar os seus trabalhos No segundo Site s o inclusivamente anunciados eventos com o objectivo de divulgar sistemas vocacionados para poesia Passando agora para os sistemas que permitem a manipula o de texto em que os poemas est o contemplados existe uma grande variedade de sistemas que v o desde os simples jogos de palavras em que o objectivo construir um poema at aos sistemas mais complexos que geram modelos de representa o de poesia e permitem gerar poemas automaticamente Como exemplos destacam se alguns dos v rios sistemas encontrados sendo a ordem de apresenta o dos mais simples para os mais complexos e O Chaos Poetry Generator Productions 1997 consiste nu
103. u ncia de utiliza o de diferentes modelos de l ngua na sugest o de palavras um aspecto que fica em aberto uma vez que apenas foram realizadas experi ncias com um modelo Para se conseguir ter v rios modelos de l ngua ser necess rio arranjar diferentes corpus de texto e para cada um gerar o respectivo modelo de l ngua 73 74 REFERENCIAS Ait Mokhtar 1998 Salah Ait Moktar L analyse pr syntaxique en une seule tape Tese de Doutoramento Universit Blaise Pascal Clermont Ferrand Franca 1998 Ara jo amp Mamede 2002 Paulo Ara jo Nuno Mamede Classificador de Poemas CCTE 2002 Lisboa Portugal Maio 2002 Areal 2000 Am rico Areal Curso de Portugu s Edi es ASA 15 Edi o 2000 Batista 2002 Fernando Batista An lise Sint ctica de Superf cie e Consist ncia de Regras Tese de Mestrado Instituto Superior T cnico Lisboa Portugal Trabalho em Curso Chachanashvili 1991 Alex Chachanashvili Dada Poem Generator 1991 http www achacha org cgi bin dada cgi Chen et al 1998 Chen S Beeferman D Rosenfeld R Evaluation Metrics for Language Models In Proc DARPA Broadcast News Transcription and Understanding Workshop BNTUW Lansdowne Virginia February 1998 Chomsky 1965 Chomsky N Aspects of the Theory of Syntax Cambridge MIT Press 1965 Clarkson amp Rosenfeld 1997 Clarkson P Rosenfeld R Stati
104. u uma aproxima o formal baseada em gram ticas bem definidas Na rea da lingu stica foram desenvolvidas ferramentas para realizar tarefas como a an lise sint ctica e a an lise sem ntica de frases A complexidade associada a essas ferramentas de um modo geral polinomial e est dependente do comprimento das frases Huang et al 2001 Existem dois aspectos fundamentais nos modelos formais de l ngua a gram tica e os algoritmos de an lise A gram tica uma especifica o formal das estruturas poss veis para a l ngua As t cnicas de an lise s o m todos para analisar frases e verificar se as estruturas s o compat veis com a gram tica Este processo requer uma grande quantidade de textos analisados gramaticalmente por processo manual para conseguir avaliar estas ferramentas na ordem das dezenas ou mesmo centenas de milh o de palavras Por outro lado na rea da fala foram desenvolvidas ferramentas para prever a pr xima palavra com base no que j foi dito Um dos objectivos associados a esta t cnica melhorar os resultados do reconhecimento da fala As rela es de probabilidade entre sequ ncias de palavras podem ser modeladas a partir de corpus de texto com os chamados modelos probabil sticos de l ngua como s o exemplo os Ngramas e em oposi o utiliza o de extensas gram ticas formais Tamb m neste caso importante existir essa grande quantidade de textos para que inclua o vocabul rio que se pretend
105. ubstitui o da palavra removida Esta op o corresponde melhor op o para filtrar as palavras a sugerir O nico inconveniente que nem sempre existe a informa o que a permite aplicar Pode se concluir que o melhor resultado de sugest o de palavras obtido a partir da conjun o das v rias abordagens seguidas para filtrar as palavras Das v rias hip teses individuais aquela que obt m melhores resultados a rima seguida do n mero de s labas das palavras S o as duas em conjunto que obt m o melhor resultado de sugest o de palavras 66 As avalia es quer do m dulo de classifica o quer do m dulo de predi o n o confrontam com outras ferramentas enumeradas pois nas ferramentas descritas n o existe nenhuma que seja compar vel em funcionalidade ao sistema proposto 67 68 6 CONCLUS ES 6 1 Situa o Actual Para fazer um ponto de situa o do trabalho realizado necess rio ter em conta os objectivos iniciais que serviram como linha orientadora para a implementa o das funcionalidades e para os resultados dos testes realizados Globalmente pode se dizer que os objectivos iniciais foram atingidos ou seja as funcionalidades que se pretendiam implementar foram em alguns casos completamente resolvidas e noutros casos embora n o completamente automatizadas conseguiram se mesmo assim realizar testes no sentido de validar as ideias aqui expressas Conceptualmente podem se divid
106. ula Como se espera quanto menor o c maior a frequ ncia de ocorr ncia Se se considerar para o exemplo de bigramas a contagem revista dos bigramas que nunca ocorreram calculado dividindo o n mero de bigramas que ocorreram uma vez pelo n mero total de bigramas que nunca ocorreram Na pr tica este desconto n o aplicado para todos os valores de c As frequ ncias maiores onde c gt k em que k representa o valor a partir do qual n o s o recalculados s o assumidas como fi veis Katz Katz 1987 sugere que k tome o valor 5 Os m todos de desconto vistos permitem lidar com os Ngramas que n o t m nenhuma ocorr ncia no modelo Existem no entanto outros processos que permitem lidar com o facto de n o existir um ngrama espec fico e calcular a sua frequ ncia de ocorr ncia com base nos Ngramas de ordem n Se se considerar o caso dos trigramas o c lculo efectuado com base nos bigramas Para o caso de existir um bigrama que n o tenha ocorr ncias ent o a sua frequ ncia de ocorr ncia baseada na frequ ncia de ocorr ncias das palavras simples Existem duas formas de aplicar este processo por interpola o apagada ou backoff O quarto m todo de alisamento designado por backoff um m todo n o linear introduzido por Katz em 1987 Katz 1987 Para salientar a diferen a deste processo e se se considerar o exemplo em que se tem trigramas com contagem diferente de 0 ent o apenas se tem em considerag o a frequ nc
107. versos Outro factor que permite distinguir diferentes tipos de poemas o n mero de s labas que comp em o verso Existem na l ngua portuguesa versos desde uma a treze s labas sendo os mais usados os de 5 6 7 10 e 12 A Tabela 6 resume as v rias classifica es poss veis N de Designa es poss veis Designa o S labas Adoptada Polo lista 1 s laba 2 diss labo ou biss labo biss labo redondilho quebrado ou cola 3 triss labo quebrado de redondilha maior triss labo 4 tetrass labos tetrass labos 5 pentass labo ou redondilha menor pentass labo 6 hexass labo her ico quebrado ou her ico menor hexass labo 7 heptass labo ou redondilha maior heptass labo 8 octoss labo octoss labo 9 eneass labo verso de greg rio de matos eneass labo 10 decass labo her ico s fico ou proven al decass labo 11 hendecass labo ou verso de arte maior hendecass labo 12 alexandrino alexandrino 20 vintiss labos vintiss labos n n s labas n s labas Tabela 6 Classifica o dos versos quanto ao n s labas Tamb m na Tabela 6 existem alguns valores de n meros de s labas que apresentam v rias designa es poss veis e a sua utiliza o varia de autor para autor Adoptou se tamb m neste caso 35 a designa o mais usual Para os versos que n o t m designa o na tabela adoptou se a regra geral de c
108. xt corpus Poems made by children in school age and some strophes made by known poets like Ant nio Aleixo and Cam es are classified Final word suggestions are generated and compared to the previously enumerated selection and order criteria From the various possible utilizations for this system it can be use as a didactic tool to the poetry study in schools poetry help writer and poetry reading out loud aid Key Words Artificial Intelligence Natural Language Processing Statistic Language Models Poetry Rhyme vil AGRADECIMENTOS Agrade o ao meu orientador Professor Nuno Mamede pelas suas ideias e saber pela sua orienta o e correc o que permitiram a concretiza o desta disserta o Ao grupo de investiga o do INESC L F do qual fa o parte agrade o todo o seu apoio e contributos as suas ideias e opini es e os trabalhos facultados que integram esta disserta o como s o exemplo o Leia o Smorph o Pasmo e a Susana Em particular ao Professor Lu s Caldas Professora Isabel Trancoso Lu sa Coheur ao Hugo Meinedo ao Fernando Batista e Joana Paulo agrade o todo o apoio e ajuda que permitiram quebrar a barreira inicial na utiliza o dos v rios m dulos de software novos para mim e pela disponibilidade em me ajudar a compreend los Agrade o Professora Ana Paiva e aos alunos Ana Pacheco Joana Paulo e Nuno Ferreira pela disponibiliza o do projecto de introdu o aos agentes que m
Download Pdf Manuals
Related Search
Related Contents
USER'S GUIDE LC-Power Fortress_X 仕 様 書 - 地方独立行政法人 東京都健康長寿医療センター LBI 3000 HCA (劇ブラグ付) Moreton Bay Marine Park User Guide Copyright © All rights reserved.
Failed to retrieve file