Home

Simplificação de Manuais Técnicos de Produtos

image

Contents

1. 5 Explicativas indicam uma justificativa ou uma explica o ao fato expresso na primeira ora o porque pois anteposto ao verbo que etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada excluindo se o marcador de explica o e incluindo se ISSO OCORRE PORQUE no tempo verbal apropriado Pode ser necess rio explicitar o sujeito constitu do do n cleo do termo da ora o principal bem como o verbo ou objeto caso estejam ocultos 5 Ora es reduzidas A De infinitivo n o simplificar ex era dif cil andar B De ger ndio causal concessiva modal condicional Regra N o simplificar C De partic pio temporal causal concessiva condicional Regra N o simplificar 6 Ora es em voz passiva Regra Transformar a senten a na voz ativa Usando as regras elaboradas no manual de simplifica o Specia et al 2008 est sendo desenvolvido o SIMPLIFICA P que uma ferramenta de aux lio edi o de textos que ser o colocados na Web citada no in cio deste cap tulo O SIMPLIFICA pode apoiar a escrita de textos destinados a analfabetos funcionais do n vel b sico e rudimentar Para os primeiros a decis o de quando simplificar ou n o uma senten a aprendida via m todos de aprendizado de m quina nos dados do corpus paralelo de textos originais e simplificados que pode ser 1 http www nilc ic
2. usada com menos fregii ncia do que as cl usulas de finalidade para expressar a rela o gera 95 de 101 cl usulas de finalidade expressaram rela o gera contra 27 cl usulas por Isto significa que a rela o gera em textos instrumentais expressa principalmente por cl usulas de finalidade na l ngua inglesa Estes mesmos resultados s o confirmados pelo trabalho de Delin et al 1994 mostrado na Se o 2 2 2 A rela o de habilita acontece entre duas a es X e Y s e somente se uma ocorr ncia de X traz certas condi es que s o necess rias mas n o necessariamente suficientes para o desempenho subsequente de Y Apenas cerca de 5 dos exemplos do trabalho de Barbara Di Eugenio demonstram a rela o de habilita Unscrew the protective plate to expose the box Desaperte os parafusos da placa de prote o para expor a caixa Desapertar os parafusos da placa de prote o habilita a remo o da placa que gera a exposi o da caixa As rela es gera e habilita s o necess rias para modelar a es Um das justificativas para isto que elas nos permitem chegar a conclus es sobre a execu o de a es Se uma a o X gera Y duas a es foram descritas mas apenas X o gerador precisa ser realizada Em contraste rela o gera se X habilita Y ap s executar X Y ainda precisa ser executada X deve temporariamente preceder X no sentido de que X deve come ar mas 17 n o necessa
3. Essas palavras auxiliam os sistemas do PorSimples a identificarem os poss veis casos de simplifica o l xica presentes nos textos No caso dos manuais de instru es existem termos que devem ser preservados e para isso ser necess rio a cria o de uma ferramenta para extra o autom tica de termos em manuais Este tipo de extra o novidade pois no melhor do nosso conhecimento n o h ferramentas de extra o dedicada a textos de manuais Existem tr s tipos de abordagens para extra o de termos A primeira chamada de ling stica faz uso apenas de conhecimento ling stico A segunda utiliza apenas m todos estat sticos e denominada abordagem estat stica A ltima abordagem que a mais utilizada combina conhecimentos ling sticos e estat sticos e denominada abordagem h brida Teline 2004 Essas abordagens foram apresentadas no ExPorTer ser o explicadas com mais detalhes no Cap tulo 4 que tamb m apresentar a abordagem desenvolvida por Ribeiro Jr 2008 que utiliza conhecimento sem ntico para auxiliar a tarefa de extra o de termos Al m disso no projeto PorSimples foi produzido um manual de simplifica o sint tica que ser apresentado no Cap tulo 3 deste trabalho e que deve ser adaptado para tratar mais especificamente das formas ling sticas utilizadas no portugu s para expressar de forma efetiva as rela es gera e habilita largamente usadas nos manuais e explicadas na Se
4. as E Planning Engine Tool Kuowledze Editor Domain Knowledge Base Kuowledze Visualiser e mm nl Aui dala tty A box assertions U Draft Text Viewer Tactical Generator sentence Sentence Planner Surface Realisation Interface Design Specification Figura 2 Diagrama de Blocos da Arquitetura de DRAFTER Paris et al 1995 O DRAFTER cont m tr s m dulos de processamento que formam duas ferramentas de suportes principais e Uma interface para o escritor t cnico Permite ao autor especificar formalmente os procedimentos necess rios para o usuario atingir seu objetivo Ajuda tamb m os escritores a controlar o processo de elabora o e A ferramenta de elaborac o Compreende dois componentes principais o planejador estrat gico e o gerador t tico O planejador estrat gico determina o conte do e a estrutura do texto e o gerador t tico executar a realiza o das senten as O resultado ser rascunhos das instru es em Ingl s e Franc s definidos pelo autor atrav s da interface Dando base aos componentes de processamento existe um modelo do dom nio que o reposit rio principal de informa es sobre o dom nio O Modelo do Dom nio uma cole o de entidades representando a informa o comumente usada no dom nio de software Essas entidades incluem a es estados objetos e 21 uma s rie de relag es entre elas Este conhecimento derivado de um estudo de um corpus
5. o 1 2 1 2 Motiva o e Justificativa Tarefas operacionais procedimentos de manuten o e diagn sticos de falhas em sistemas t cnicos complexos requerem o uso de documenta o t cnica A qualidade dessa documenta o um ponto cr tico Se a documenta o est imprecisa incompleta ou dif cil de entender o custo e o tempo da opera o de reparo ir aumentar muito At mesmo preju zo a equipamentos caros ou acidentes com v timas humanas podem ocorrer devido ao mau entendimento da documenta o t cnica Eijk 1997 O desenvolvimento cont nuo de novas tecnologias e produtos combinados com o fato de que grande parte da popula o tem um n vel b sico e rudimentar de letramento torna clara a import ncia da boa escrita de manuais t cnicos bem como demonstra ser um assunto interessante a ser estudado Textos procedimentais instrucionais consistem de uma sequ ncia de instru es concebidas com certa precis o a fim de alcan ar um objetivo O leitor deve seguir passo a passo cuidadosamente as instru es fornecidas pelo manual a fim de alcan ar o objetivo Fontan amp Saint Dizier 2008 Em Paris et al 1995 uma an lise de requisitos para uma ferramenta de suporte escrita de documentos t cnicos multil ngiie confirmou que uma ferramenta de aux lio a escrita mais til do que uma ferramenta de gera o autom tica que mant m o escritor longe do texto produzido Paris et al 1994 mostra que
6. o Estil stica dos Manuais de Instru o Instru es s o usadas para transmitir dire es para se cumprir uma tarefa Entre essas dire es est o inclu das a es que devem ser realizadas sobre instala es manuten o e tamb m avisos e alertas sobre a seguran a da execu o das tarefas O modo mais direto de fazer com que o leitor execute uma tarefa o uso de segii ncias de imperativos Em Paris amp Scott 1994 foi verificada na an lise do corpus que existe uma varia o na transmiss o das instru es mostrando que em alguns casos s o usadas declara es simples Muitos podem considerar que declara es simples est o fora do escopo de instru es mas o estudo tamb m mostra que estas declara es s o freq entemente instru es impl citas 23 Essas varia es nos manuais de instru es est o ligadas postura tomada pelo autor em rela o ao leitor Geralmente diferentes posturas s o adotadas na descri o de produtos e tamb m em avisos e advert ncias Essas posturas s o geralmente uma decis o institucional do fabricante do produto e s o chamadas de estilo da casa Elas s o usadas para projetar uma imagem da empresa para os leitores Na an lise do corpus de 30 manuais de produtos em Ingl s e Franc s que tinham entre 1 a 20 p ginas tentou se identificar as diferentes atitudes que os textos expressavam e as realiza es Na an lise foram identificados quatro tipos diferen
7. Senten a para a cl usula subordinada eliminando se o marcador discursivo de finalidade e introduzindo se o marcador O OBJETIVO QUE no in cio da senten a G Proporcionais indicam uma rela o de proporcionalidade com o verbo da ora o principal propor o que medida que ao passo que quanto mais mais quanto mais menos etc Regra N o simplificar 36 H Conformativas indicam uma conformidade um acordo entre o fato que expressam e a a o do verbo da ora o principal conforme como consoante segundo Regra Inverter a ordem das cl usulas considerando se primeiramente a cl usula subordinada com a explicita o do sujeito e a elimina o ou modifica o do marcador discursivo de conformidade para a introdu o de uma cl usula relativa precedida por que Essa cl usula relativa consiste da ora o original sem a cl usula subordinada Se n o houver verbo n o ora o subordinada deve se utilizar CONFIRMA QUE ao inv s de QUE gt Procurar manter a ordem S V O I Temporais indicam a circunst ncia de tempo em que ocorre a a o do verbo da ora o principal quando enquanto assim que logo que at que depois de desde que apenas mal sempre que cada vez que antes que etc Regra Dividir a senten a em duas 1 Senten a para a cl usula subordinada eliminando se o marcador discursivo e adequando se o tempo verbal se necess rio Pode ser necess rio incluir
8. conhecimento morfossint tico dos textos e atrav s desse conhecimento ser o identificados os casos de simplifica o apresentados no manual de simplifica o j adaptado Ap s a identifica o da regra o sistema aplica as regras espec ficas para cada caso e ent o a sugest o de simplifica o com a sua devida explica o ser retornada para a interface do usu rio e assim o mesmo pode avaliar se aplica ou n o a regra 5 2 Tarefas Realizadas e Tarefas Futuras Abaixo s o listadas as tarefas j realizadas e as que devem ser realizadas at mar o de 2009 para a finaliza o do mestrado 1 Durante o primeiro e segundo semestre deste projeto foram cursadas as disciplinas Teoria da Computa o Tipos e Estruturas de Dados Introdu o a Intelig ncia Artificial Sistemas Inteligentes T picos em Processamento de L ngua Natural Semin rio em Computa o I e II Prepara o Pedag gica 2 Al m disso tamb m j foi realizado o exame de profici ncia em l nguas Ingl s 3 Realiza o de pesquisa bibliogr fica relacionada ao tema de trabalho 4 Prepara o e defesa da monografia de qualifica o 5 Realizar a compila o e an lise do corpus de textos instrucionais 6 Adaptar o Manual de Simplifica o 7 Projeto e Implementa o do Editor de Simplifica o do projeto NorMan 52 8 Analisar testar e avaliar o Editor com usuarios reais 9 Escrita de artigos relat rios t cnicos disserta o
9. ncia indicando como as v rias partes dos textos s o retoricamente relacionadas Algumas limita es impostas pelos padr es da escrita ou pelo estilo da empresa podem ser unidas estrat gia de discurso e pela associa o de v rias estrat gias para o mesmo objetivo poss vel construir rascunhos alternativos conforme desejado pelo autor A cobertura do gerador t tico no Ingl s foi estendida para gerar os tipos de senten as encontrados em manuais de instru es e seu ambiente flex vel foi usado para desenvolver uma gram tica em Franc s 2 2 2 1 A An lise de Corpus no Projeto DRAFTER Nesta se o descrevemos o trabalho de Paris and Scott 1994 que apresenta um estudo sobre a varia o estil stica dos manuais de instru o A pesquisa mostra que os manuais podem ter diferentes estilos por exemplo nem todas as instru es s o registradas usando uma seq ncia de imperativos Al m disso diferentes partes dos manuais usam diferentes estruturas de discurso e formas de realiza o Este trabalho deu suporte s decis es de gera o multil ng e no projeto DRAFTER descrito na Se o 2 2 2 Gera o Multil ng e de Manuais de Instru o Tamb m relatamos as frequ ncias das formas gramaticais para expressar as rela es gera e habilita encontradas no corpus de instru es em portugu s do estudo de Delin et al 1994 por ser o portugu s a l ngua de interesse deste trabalho de mestrado 2 2 2 1 1 Varia
10. o Novamente o m todo semi autom tico retornou os melhores resultados para a medida F seguido da abordagem h brida estat stica e ling stica respectivamente Os valores obtidos podem ser observados na figura 7 Medida F Estat stico Int humana Ling stico H brido S Uni Freq E Bi Freq i Bi Inf Mutua W Bi Log ld Bi Dice E Tri Freq W Tri Inf M tua ld Tri Log Figura 7 Medida F obtida pelas 3 abordagens e a semi autom tica Teline 2004 A partir da an lise dos resultados concluiu se que o m todo estat stico depende fortemente de uma interven o humana para gerar resultados satisfat rios e que o fato da medida F n o ser t o alto Abaixo da m dia de 60 que o normal para tarefa se justifica pelo fato de que o corpus foi compilado a partir de uma nica fonte 4 5 O Trabalho de Ribeiro Jr 2008 No trabalho sobre constru o de ontologias de Ribeiro Jr 2008 foi necess rio fazer uso da extra o autom tica de termos Neste caso foi utilizada uma abordagem h brida Os conhecimentos ling sticos utilizados foram a an lise da classe gramatical de sintagmas nominais e o uso de padr es morfossint ticos 46 Em seguida foram aplicados c lculos de relevancia de freq ncia tf idf Medida que considera relevantes os termos que possuem alta freq ncia de ocorr ncia em numero limitado de documentos e NC Value que est o descritos em Ribeiro Jr 2008
11. s n veis de letramento complexidade do texto que nos remete para rea de Simplifica o Textual Simplifica o textual uma rea de pesquisa emergente no campo de Processamento de Linguagem Natural PLN O objetivo da Simplifica o Textual proporcionar ao leitor um melhor entendimento do texto atrav s de sua simplifica o Algumas abordagens envolvem simplifica o da estrutura l xica e sint tica atrav s da substitui o de palavras incomuns por palavras mais comuns e freq entes simplifica o lexical SL e tamb m pela divis o e mudan a da sintaxe da senten a Mapleson 2006 Max 2006 O exemplo a seguir faz uma simplifica o sint tica de uma ora o em voz passiva transformando a senten a em voz ativa Original Essa escolha deve ser feita eventualmente por Lula Simplificado Lula deve eventualmente fazer essa escolha Outro pr ximo exemplo faz a simplifica o sint tica fazendo a divis o de uma ora o coordenada sind ticas em v rias senten as atrav s da elimina o do marcador de coordena o e repetindo o n cleo do sujeito para cada per odo Original A Mesa tem de aprovar o parecer e envi lo ao plen rio Simplificado A Mesa tem de aprovar o parecer A Mesa tem de envi lo ao plen rio Outras abordagens envolvem o descarte de partes do texto Petersen et al 2007 e a adi o de material extra para explicar termos complexos Esta ltima abordagem conhecida c
12. Anvisa pois o governo editou leis que tornam as bulas de medicamentos mais f ceis de serem lidas separando as informa es para o p blico geral da informa o que voltada para os m dicos e farmac uticos e nos fen menos da gram tica do portugu s que tornam um texto complexo Specia et al 2008 As opera es de simplifica o do manual que visam tornar as senten as mais curtas simples com apenas uma proposi o e que sigam a ordem Sujeito Verbo Objeto S V O 16 http www plainlanguage gov M http download uol com br ultnot cartilha pdf e http bulario bvs br 32 ser o apresentadas a seguir Specia et al 2008 Al m de servir de base para a cria o do m todo de simplifica o simb lico o manual de simplifica o serviu como guia para anotadores humanos simplificarem textos e criarem um corpus de textos simplificados anotados com as opera es efetuadas S o seis os fen menos ling sticos tratados no manual apostos cl usulas relativas cl usulas subordinadas coordenadas e senten as na voz passiva 1 Aposto ou ora es subordinadas substantivas apositivas A Enumerativo Regra N o simplificar usada geralmente com recursos para ling sticos de itemiza o e enumera o B Recapitulativo Regra N o simplificar C Especificador Regra Dividir a sentenga em duas 1 Sentenga original sem o aposto 2 Senten a para o aposto a qual ter como sujeito o n cleo do termo
13. apresentado na Se o 2 2 2 realizaram um estudo das rela es procedimentais gera generation e habilita enablement Estas rela es s o importantes neste projeto de mestrado pois elas s o fundamentais para a escrita adequada de manuais e sua realiza o varia de l ngua para l ngua indicando realiza es preferenciais que ao serem levadas em considera o na escrita de manuais alcan ar o uma efic cia maior para o uso manuten o e cuidados dos produtos 2 2 1 O Trabalho de Di Eugenio 1992 No trabalho de Barbara Di Eugenio 1992 feita uma an lise da cl usula de prop sito ou finalidade no contexto do entendimento de instru es Essa an lise mostra que os objetivos afetam a interpreta o ou execu o das a es e d o apoio ao uso do modelo de rela es gera generation e habilita enablement entre as a es A an lise das cl usulas de finalidade relevante para o problema de entendimento de instru es em l ngua natural por que elas 14 e estabelecem explicitamente objetivos e sua interpreta o mostra que o objetivo que o ouvinte adota o guia durante a realiza o das tarefas e aparecem para expressar as rela es entre a es gera ou habilita apoiando a proposta de que essas duas rela es s o necess rias para o modelo de a es Segundo Di Eugenio 1992 uma pessoa A usa uma cl usula de finalidade para explicar um objetivo X a uma pessoa B atrav s da execu o de uma taref
14. chalk chance change cloth coal colour comfort committee company comparison competition condition connection control cook copper copy cork cotton cough country cover crack credit crime crush cry current curve damage danger daughter day death debt decision degree design desire destruction detail development digestion direction discovery discussion disease disgust distance distribution division doubt drink driving dust earth edge education effect end error event example exchange existence expansion experience expert fact fall family father fear feeling fiction field fight fire flame flight flower fold food force form friend front fruit G O glass gold government grain grass grip group growth guide harbour harmony hate hearing heat help history hole hope hour humour ice idea impulse increase industry ink insect instrument insurance interest invention iron jelly join journey judge jump kick kiss knowledge land language laugh law lead learning leather letter level lift light limit linen liquid list look loss love machine man manager mark market mass meal measure meat meeting memory metal middle milk mind mine minute mist money month morning mother motion mountain move music name nation need news night noise note number observation offer oil operation opinion order organization
15. e defesa 5 3 Cronograma A Tabela 3 apresenta as nove atividades propostas para o projeto Tabela 3 Cronograma de atividades 2009 2010 Tarefa Jan Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Mar 3 X X X X X X X X X X 4 X 5 X X X X 6 X X 7 X X X X 8 X X 9 X X X X X 53 Refer ncias ALTWARG R 2006 Controlled Languages an Introduction Centre for Language Technology website on Controlled Natural Languages Macquarie University Available at http www shlrc mq edu au masters students raltwarg clindex htm ALU SIO S SPECIA L PARDO T MAZIERO E CASELL H M FORTES R 20082 A Corpus Analysis of Simple Account Texts and the Proposal of Simplification Strategies First Steps towards Text Simplification Systems In the proceedings of The 26th ACM Symposium on Design of Communication SIGDOC 2008 pp 15 22 ALU SIO S SPECIA L PARDO T MAZIERO E FORTES R 2008b Towards Brazilian Portuguese Automatic Text Simplification Systems In the proceedings of The Eight ACM Symposium on Document Engineering DocEng 2008 pp 240 248 AOULADOMAR F 2005a Towards Answering Procedural Questions Workshop KRAQOS IJCAIO5 Edinburgh 2005 AOULADOMAR F 2005b A Preliminary Analysis of the Discursive and Rhetorical Structure of Procedural Texts Symposium on the Exploration and Modelling of Me
16. edi o de textos que ser o colocados na Web e o outro ii que permite a leitura de textos j publicados atrav s de uma vers o simplificada produzida por ele Alu sio et al 2008a Este ltimo composto de tr s m dulos sumariza o simplifica o e explicita o visual de certas caracter sticas do texto visando uma facilita o da leitura Para a constru o dos sistemas de simplifica o duas abordagens est o sendo exploradas A primeira abordagem simb lica e constr i sistemas de simplifica o via regras desenvolvidas manualmente com ajuda de informa o sint tica e tamb m discursiva A segunda abordagem explora a indu o destas regras a partir de corpus alinhados de senten as originais e suas correspondentes simplificadas Esta ltima abordagem faz uso de m todos estat sticos que precisam de um grande volume de textos anotados manualmente Para explorar a abordagem simb lica um manual de simplifica o sint tica foi elaborado com base na Plain Language 5 em trabalhos de gera o e simplifica o autom tica para l ngua inglesa Siddharthan 2002 Williams 2004 na an lise de textos simples dispon veis na Web brasileira Exemplos de textos simples da Web s o a cartilha Brasileiras e Brasileiros no Exterior que uma cartilha criada pelo governo que utiliza uma linguagem simples e acess vel a pessoas de qualquer idade e com um menor grau de instru o e bulas de alguns rem dios do Bul rio da
17. em quem o pronome Como usado em perguntas procedimentais a situa o instrumental Como posso trocar o pneu do meu carro Existem outras formas de iniciar uma pergunta procedimental e Na forma de O que fazer para O que fazer para conseguir um visto para os Estados Unidos e Perguntas usando poss vel ou Posso Sintagma verbal poss vel criar diret rios usando php Existem quatro categorias conceituais para perguntas procedimentais que foram encontradas em 90 dos casos do corpus de estudo Para terem uma an lise que simples e f cil de adaptar para outras l nguas foram consideradas as categorias b sicas de verbos como as utilizadas na WordNet Fellbaum 1998 que foram adaptadas para o Franc s em Saint Dizier 1998 As categorias s o apresentadas a seguir e A o Caracterizada pelo uso de verbos de mudan a cria o e destrui o e manuten o construir revisar montar desmontar reparar mudar Aparecem em textos procedimentais de receitas guias Fa a voc mesmo manuais de manuten o e constru o 28 e Comunica o Caracterizada pelos verbos de intera o social e verbos psicol gicos Contatar negociar convencer gerencia Estes aparecem em hor scopos guias de gerenciamento e educa o e Aquisi o de conhecimento Caracterizada principalmente por verbos de cogni o e verbos que expressam formas de transfer ncia de conhecimento Aprender reso
18. o Finalmente a instru o o ltimo n vel e possui recurs o no objetivo Instru o gt express o iterativa a o objetivo refer ncia maneira motiva o limite figura advert ncia objetivo A estrutura ret rica desempenha v rios pap is nesta abordagem Ela contribui para refor ar a produ o de respostas bem formadas permite a integra o entre textos procedimentais com objetivos similares apesar de ser uma tarefa dif cil e tamb m usada para responder perguntas com uma alta exatid o por identificar claramente instrumentos riscos e equipamentos necess rios Foram identificadas 17 rela es ret ricas na an lise do corpus que ser o apresentadas a seguir e Seq ncia uma rela o multi n cleo onde os n cleos s o ligados por uma rela o de sucess o e Resultado especifica que uma a o n o pode come ar antes que o resultado desejado de uma a o anterior seja alcan ado 30 Prop sito ocorre entre o objetivo e as a es destinadas a alcan ar tal objetivo Avalia o uma pequena diferen a entre o prop sito e a rela o de resultado por que poss vel avaliar quando a a o foi feita corretamente ou n o Limite Liga uma a o com um sat lite que representa uma interrup o Alternativa liga duas a es alternativas Meios a liga o entre uma a o e os instrumentos necess rios para executar tal a o Refer ncia fica entre uma
19. o sujeito constitu do do n cleo do termo da ora o principal a que se refere a subordinada ou o termo completo caso o n cleo n o seja suficiente 2 Senten a original sem a cl usula subordinada O tempo verbal pode precisar ser alterado Para marcadores que indicam seq ncia no tempo ex depois que logo que etc Dividir a senten a em duas 1 Senten a para a cl usula subordinada eliminando se o marcador discursivo e adequando se o tempo verbal se necess rio Pode ser necess rio incluir o sujeito constitu do do n cleo do termo da ora o principal a que se refere a subordinada ou o termo completo caso o n cleo n o seja suficiente 2 Senten a original sem a cl usula subordinada precedida pelo marcador EM SEGUIDA O tempo verbal pode precisar ser alterado 37 4 Orac es coordenadas A Assind ticas Regra Dividir a senten a em tantos quantos forem os per odos eliminando se o delimitador de per odo e repetindo se o n cleo do sujeito e o verbo se oculto para cada per odo quando necess rio B Sind ticas 1 Aditivas expressam uma adi o uma sequ ncia de informa es e nem n o s mas tamb m Regra Dividir a senten a em tantos quantos forem os per odos eliminando se o marcador de coordena o e repetindo se o n cleo do sujeito e o verbo se oculto para cada per odo quando necess rio 2 Adversativas expressam id ia de oposi o contraste mas p
20. o m tua que esta n o depende do tamanho da amostra e C value Frantzy amp Ananiadou 1997 Esta medida utilizada para extra o de termos compostos Ela baseada na freq ncia de cadeias no corpus por m ela utiliza um c lculo para evitar que subcadeias de cadeias j extra das sejam consideradas candidatas a termos 43 4 3 M todos H bridos Os sistemas h bridos combinam conhecimentos ling sticos com conhecimentos estat sticos e conseguem os melhores resultados A ordem em que os conhecimentos s o aplicados influencia os resultados Sistemas em que o m todo estat stico aplicado depois do ling stico s o os que geram melhores resultados pois o conhecimento estat stico funciona como um complemento para o ling stico 4 4 O Trabalho de Teline 2004 Teline 2004 fez uma avalia o de m todos das tr s abordagens de extra o autom tica de termos descritos nas se es pr vias Foi utilizado um corpus contendo 164 artigos da rea de Revestimentos Cer micos O corpus analisado possu a 448 352 palavras A lista de refer ncia de termos possu a 381 termos 264 unigramas 74 bigrams e 43 trigramas Na abordagem estat stica foram usadas as medidas de Freq ncia para unigramas Fregii ncia Informa o M tua Log Likelihood e Coeficiente Dice para bigramas e para trigramas foram usadas Freq ncia Informa o Mutua Log Likelihood Em seguida foi feita uma an lise manual da lista de unig
21. um Corpus de Manuais T cnicos eee 48 5 1 2 Proposta de um M todo de Extra o de Termos T cnicos Sens vel ao G nero Instrucional Procedimental 5 5 2 ree t rt te del santa alga dial ias Eun e AERE querere 49 5 1 3 Adapta o do Manual de Simplifica o Sint tica e do SIMPLIFICA para Tratarem de Textos Instrucionais Procedimentals ccccccccccecccececececececeececeseseeeeeseceseseueseseseseseseseeeseseeeeeseeeeeeees 52 5 2 Tarefas Realizadas e Tarefas Futuras eee 52 573 arall eee dedo e e rer So do teet E e eve SRS eee e eee ee ed eo Se o a 53 Referencias aaa ceu vet e a a Eaa aata Cras aa fortes 54 JNDOIIOIGB A b rage aU de cab eo cvi d ed b ne Oe EER GM ctos 29 Lista de Figuras Figura I Os sistemas do autoria e facilita o do projeto PorSimples esses 3 Figura 2 Diagrama de Blocos da Arquitetura de DRAFTER Paris et al 1995 21 Figura 3 Exemplos de posturas que um manual de produtos pode adotar Paris amp Scott TO raiar apta ol to lb caula Saas bach Auta arse ein ttum aditu tl a a Dt 25 Figura 4 Estrutura Global de Manuais de Produtos Paris amp Scott 1994 sss 26 Figura 5 Precis o obtida pelas tr s abordagens e a semi autom tica Teline 2004 45 Figura 6 Cobertura obtida pelas tr s abordagens e a semi autom tica Teline 2004 45 Figura 7 Medida F obtida pelas 3 abordagens e a semi autom tica Te
22. um n apropriado no modelo de dom nio no qual a nova informa o ser subordinada Para isso s o usados menus para escolher o conceito a ser atualizado Ap s a escolha do conceito o sistema gera um formul rio dinamicamente para que o autor entre com as informa es O sistema tamb m possibilita a anota o de imagens com informa o sem ntica O DRAFTER possui tamb m um visualizador da base de conhecimento que possibilita os autores consultar relacionamentos entre a es m todos e sub a es atrav s de uma forma gr fica Al m disso o visualizador integrado com as fun es de constru o e edi o da base de conhecimento Na visualiza o e edi o dos rascunhos que foram gerados automaticamente o texto sens vel ao mouse permitindo ao autor consultar a base de conhecimento a partir da parte do texto que foi selecionado Tamb m poss vel fazer altera es no texto que foi gerado automaticamente atrav s de um editor que tamb m disponibilizado 22 O DRAFTER usa um sistema de planejamento de texto que monta uma rvore de discurso atrav s de um objetivo comunicativo que foi informado pelo autor A partir desse objetivo o sistema busca em sua biblioteca de estrat gias de discursos um plano capaz de atingir tal objetivo Nessa rvore o n raiz representa o objetivo inicial que foi tragado pelo plano e as folhas representam os passos a serem tomados Essa rvore tamb m inclui rela es de coer
23. vel Os autores desejam a possibilidade de ter op es na hora de expressar um conjunto de instru es pois existem v rios caminhos para isso e eles querem escolher a mais apropriada e Disponibiliza o dos primeiros rascunhos da o nome da ferramenta DRAFTER produzidos simultaneamente em v rias l nguas Quanto mais r pido os rascunhos forem disponibilizados mais r pido ser o descobertas quais conhecimentos est o faltando pra determinada l ngua al m de agilizar todo o processo e Propaga o de altera es por todo o documento e l nguas Ao efetuar uma altera o no texto as demais partes do documento que cont m a mesma informa o tamb m devem ser atualizadas e Suporte para terminologia consistente e precisa termos t cnicos devem ser empregados consistentemente dentro e entre documentos mesmo se forem produzidos por autores diferentes e Manter a satisfa o criativa da escrita t cnica uma ferramenta de suporte a escrita deve automatizar aspectos que os escritores acham tediosos como por exemplo revis o e alguns aspectos rudimentares da composi o terminologia e sintaxe deixando o autor livre para trabalhar melhor na estrutura o do conte do e transmiss o das id ias Baseado na an lise de requisitos que foi descrita at agora foi planejado e implementado o DRAFTER A arquitetura da ferramenta mostrada na Figura 2 20 Author Automated Drafter Text Planner Developer
24. Hora entre outras A ci ncia tamb m foi desmistificada para criangas com revistas como Ci ncia Hoje das Crian as do Instituto Ci ncia Hoje ICH uma organiza o social de interesse publico sem fins lucrativos vinculada a Sociedade Brasileira para o Progresso da Ci ncia SBPC A revista Ci ncia Hoje das Crian as mostra ao p blico infantil que a ci ncia faz parte da vida de cada um e pode ser muito divertida A revista estimula a curiosidade e a compreens o dos fen menos do dia a dia com a ajuda de ilustra es e experi ncias que podem ser realizadas pelas pr prias crian as instrumento fundamental em sala de aula como fonte de pesquisa aos professores e de grande import ncia para os alunos na elabora o de deveres e projetos escolares A publica o adotada pelo MEC e distribu da para 107 mil escolas como material de apoio paradid tico Uma das vantagens dos materiais simplificados que preparam o leitor para a leitura eventual dos textos aut nticos Por isso segundo Ramos 2006 os textos instrucionais sempre devem dispor da refer ncia bibliogr fica ao final das unidades para que os leitores as consultem quando for de seu interesse e necessidade 2 1 6 Subl ngua Uma subl ngua uma l ngua usada em dom nios ou assuntos espec ficos tais como biologia e engenharia aeroespacial Exemplos de subl nguas s o a linguagem de relat rios http download uol com br ultnot cartilha pdf ht
25. Para avaliar o m todo foi utilizado um corpus da rea de Ecologia Zavaglia et al 2007 constitu do por textos extra dos de partes dos livros A Economia da Natureza e Ecologia al m de revistas presentes no projeto L cioWeb O corpus conta com um total de 260 921 palavras Na extra o de unigramas houve um empate de desempenho entre o uso das classes gramaticais e o n cleo do sintagma nominal combinado com o c lculo NC Value usando tf idf como par metro de frequ ncia obtiveram os melhores ndices de precis o 14 7 cobertura 49 96 e medida F 22 39 Para extra o de bigramas o melhor m todo foi o uso de padr es morfossint ticos com o c lculo de relev ncia de frequ ncia obtendo ndice de precis o de 5 7 cobertura de 41 91 e medida F de 10 04 Na extra o de trigramas a melhor estrat gia foi o uso de padr es morfossint ticos com o c lculo de relev ncia tf idf obtendo indice de precis o de 2 9 cobertura de 46 77 e medida F de 5 46 Outra abordagem feita por Ribeiro Jr 2008 foi a adi o do uso de conhecimento sem ntico extra do atrav s do parser PALAVRAS Bick 2000 no m todo de extra o h brido Nesta abordagem necess ria a interven o humana para escolher quais grupos sem nticos ser o utilizados na extra o de termos o que pode influenciar no resultado dependendo do n vel de conhecimento do dom nio da pessoa que fizer essas escolhas Nos experimentos feito por Ri
26. SERVICO DE POS GRADUAGAO DO ICMC USP Data de Dep sito 27 02 2009 Assinatura Simplifica o de Manuais T cnicos de Produtos Tecnol gicos para Facilita o da Leitura e Normaliza o Textual Fernando Aur lio Martins Muniz Orientador Profa Dra Sandra Maria Alu sio Monografia apresentada ao Instituto de Ci ncias Matem ticas e de Computa o ICMC USP para o Exame de Qualifica o como parte dos requisitos para obten o do t tulo de Mestre em Ci ncias Ci ncias de Computa o e Matem tica Computacional USP S o Carlos Fevereiro de 2009 Simplifica o de Manuais T cnicos de Produtos Tecnol gicos para Facilita o da Leitura e Normaliza o Textual Fernando Aur lio Martins Muniz Resumo No Brasil cerca de 65 da popula o possui o n vel de alfabestismo entre o rudimentar 2596 e o b sico 4096 A principal caracter stica que distingue os n veis de alfabetismo a complexidade do texto O objetivo da Simplifica o Textual proporcionar ao leitor um melhor entendimento do texto atrav s de sua simplifica o Em tarefas que exigem o uso de documenta o t cnica a qualidade da documenta o um ponto cr tico pois caso a documenta o seja imprecisa incompleta ou muito complexa o custo da tarefa ou at mesmo o risco de acidentes aumenta muito Manuais de instru o possuem duas rela es procedimentais b sicas rela o gera quando uma a o A gera automaticam
27. UG definido como UG s o UG express o UG utilizado UG se entende significa ISO TC 37 SC 1 UG termo UG conceito UG SG corresponde SG define UG SG denominado feito de UG usado Figura 8 Express es lingu sticas que ser o utilizadas para a extra o de termos 2 http www tc37sc4 org 2 http nilc icmc usp br nilc projects bloc eco htm 50 O pr ximo passo a aplica o de medidas estat sticas utilizando o pacote NSP N gram Statistics Package escrito em Perl O pacote NSP foi implementado por Ted Pedersen Satanjeev Banerjee e Amruta Purandare na Universidade de Minnesota Duluth Ele constitu do por um conjunto de programas que auxilia na an lise de n gramas em arquivos texto Ap s o c lculo das medidas estat sticas os termos extra dos s o filtrados por uma lista de padr es morfossint ticos gerando a lista final de termos Os padr es morfossint ticos para extra o de termos compostos s o os mesmos usados por Bas gio Bas gio 2006 apud Ribeiro Jr 2008 apresentados na Figura 9 Substantivo Adjetivo Preposi o Adjetivo Substantivo Adjetivo Substantivo Adjetivo Preposi o Adjetivo Substantivo Substantivo Preposi o Adjetivo Substantivo Adjetivo Substantivo Preposi o Adjetivo Substantivo Substantivo Adjetivo Preposi o Substantivo Adjetivo Substantivo Adjetivo Preposi o Substantivo Substantivo Preposi o Subs
28. a o e um seguimento que fornece a localiza o de um procedimento no texto ou em textos relacionados atrav s de um hyperlink Pr requisitos ocorre entre um objetivo ou a o e uma lista de instrumentos sem os quais a a o ou objetivo n o realizado Op o considerada quando uma a o depende da realiza o de uma situa o condicional Preven o Rela o normalmente encontrada entre uma a o e uma advert ncia Condi o aparece quando a a o resulta da ocorr ncia de uma situa o condicional Co ocorr ncia ocorre quando o n cleo ligado por uma rela o co temporal Concorr ncia ocorre entre duas a es co temporais rivais Motiva o ocorre quando a informa o enviada pelo sat lite faz com que o leitor aumente a vontade de executar a a o 31 3 Simplifica o Sint tica no PorSimples O projeto PorSimples Alu sio et al 2008a 2008b Simplifica o Textual do Portugu s para Inclus o e Acessibilidade Digital aprovado no mbito do Edital Microsoft Fapesp proc nro 2007 54565 8 aborda a tarefa de simplifica o textual com vistas constru o de sistemas para promover o acesso de textos escritos em portugu s por pessoas com n veis de letramento rudimentares e b sicos com problemas cognitivos como afasia e dislexia al m de adultos e crian as em fase de aprendizado da leitura e escrita Neste projeto est o sendo desenvolvidos dois tipos de sistemas 1 um de aux lio
29. a 2 Tabela 2 Frequ ncia das formas gramaticais em portugu s para a rela o habilita Delin et al 1994 Forma gramatical Contagem Porcentagem Sequ ncia 25 78 Condi o depois 4 12 Condi o antes 3 9 Total 32 2 2 3 Estrutura de Textos Instrucionais e Sistemas de Perguntas amp Respostas No trabalho de Farida Aouladomar Aouladomar 2005a 2005b Aouladomar amp Saint Dizier 2005 foi feita uma an lise da estrutura de perguntas procedimentais Como e Por qu 27 Tamb m foi feita uma pesquisa sobre a estrutura de textos procedimentais e as rela es ret ricas relevantes para responder as perguntas O trabalho baseado na l ngua Francesa e utiliza estudos baseados em corpus de sistemas de pergunta e resposta procedimentais de varios dom nios entre eles est o sa de educa o turismo comportamento social ci ncia da computa o e manuten o As perguntas procedimentais geralmente s o introduzidas pelo pronome interrogativo Como No entanto existem v rios casos em que esse pronome n o est relacionado com perguntas procedimentais como por exemplo e Situa es nominais Como isto se chama e Situa es causais Como isto aconteceu e Situa es booleanas Verdadeiro ou Falso Como voc est e Usado como forma instrumental Como cuscuz comido em Marrocos e Situa o de escolha Como posso pagar o ingresso A nica situa o nesta an lise
30. a Y Por m um ponto importante que tem sido ignorado que o objetivo X tamb m limita a interpreta o da tarefa Y Por exemplo considere o exemplo abaixo tomado de Di Eugenio 1992 com tradu es para o portugu s entre par nteses a Place a plank between two ladders Coloque uma prancha entre duas escadas b Place a plank between two ladders to create a simple scaffold Coloque uma prancha entre duas escadas para criar um simples andaime Nos dois casos a e b a a o a ser executada Coloque uma prancha entre duas escadas Por m essa informa o n o especifica e existem v rias maneiras de colocar a prancha O objetivo criar um simples andaime restringe a escolha da posi o de coloca o da prancha A senten a no infinitivo to create a simple scaffold para criar um simples andaime uma cl usula de prop sito que expressa o prop sito de um agente na realiza o de uma dada a o Na maioria dos casos um objetivo X descreve uma mudan a no mundo No entanto em alguns casos 1 a mudan a n o no mundo mas sim no conhecimento de quem recebe a instru o Ao executar uma tarefa Y o conhecimento de quem a est executando pode ser mudado em respeito a certa proposi o ou ao valor de uma certa entidade Por exemplo You may want to hang a coordinating border around the room at the top of the walls To determine the amount of border measure the width infeet
31. a capacidade das pessoas de utilizar efetivamente a leitura e a escrita diante de v rios aspectos da sua vida social Ribeiro 2006 Desde 2001 o ndice INAF Indicador de Alfabetismo Funcional tem medido os n veis de analfabetismo funcional na popula o Brasileira e ele identifica quatro n veis de letramento na popula o dados de 2007 1 Analfabetismo Corresponde a situa o daqueles que n o conseguem realizar tarefas simples que envolvem a leitura de palavras e frases Esse n vel abrange 796 da popula o Brasileira 2 Alfabetismo n vel rudimentar Corresponde capacidade de localizar uma informa o expl cita em textos curtos e familiares como an ncios ou pequenas cartas Este n vel atinge 25 da popula o Brasileira 3 Alfabetismo n vel b sico Neste n vel a pessoa tem a habilidade de ler e compreender textos de tamanho m dio e podem localizar informa es e realizar infer ncias simples Este n vel abrange 40 da popula o Brasileira 1 http nilc icmc usp br 7 http caravelas icmc usp br wiki index php Principal 7 http nilc icmc usp br nilc projects termextract htm 4 http www ipm org br 4 Alfabetismo n vel pleno Corresponde a habilidade de ler textos longos encontrar v rios tipos de informa o comparar textos diferentes e realizar infer ncias Este nivel corresponde a 28 da popula o Brasileira A principal caracter stica distintiva entre os tr
32. ada a qual ter como sujeito o n cleo do termo da ora o principal restringido pela subordinada ou o termo completo caso o n cleo n o seja suficiente seguido da subordinada propriamente dita eliminando se seu pronome relativo 2 Senten a original sem a cl usula subordinada 3 Ora es subordinadas adverbiais A Causais indicam a causa da a o expressa pelo verbo na ora o principal pois que uma vez que visto que visto como porquanto porque como j que etc Regra Dividir a senten a em duas 1 Senten a para a cl usula subordinada a qual ter como sujeito o n cleo do termo da ora o principal modificado pela subordinada ou o termo completo caso o n cleo n o seja suficiente seguido da subordinada propriamente dita eliminando se o marcador discursivo 2 Senten a original sem a cl usula subordinada introduzida por um marcador discursivo que indique efeito preferencialmente COM ISSO Manter a ordem can nica causa gt efeito B Comparativas estabelecem uma compara o com a a o indicada pelo verbo na ora o principal t o que do que tanto que do que pior que do que melhor que do que maior que do que como assim como assim etc Regra para assim como tanto quanto e similares Dividir a senten a em duas 34 1 Sentenga original sem a cl usula subordinada 2 Sentenga para a cl usula subordinada eliminando se o marcador de compara o e acres
33. aning SEM 05 Biarritz Basque Country France 2005 AOULADOMAR F SAINT DIZIER P 2005 An Exploration of the Diversity of Natural Argumentation in Instructional Texts Workshop CMNA IJCAIOS Edinburgh July 2005 BICK E 2000 The Parsing System Palavras Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework Tese Doutorado Arhus University 2000 BIDERMAN M T C 2005 DICION RIO Ilustrado de Portugu s S o Paulo Editora tica 1 ed S o Paulo tica 2005 BURG J F M Linguistic Instruments in Requirements Engineering IOS Press Amsterdam The Netherlands 1996 54 CARVALHO NETTO J R 2003 Ao Encontro da Lei O Novo C digo Civil ao alcance de todos S o Paulo Imprensa Oficial 2003 COLE R 1997 Survey of the state of the art in human language technology Cambridge University Press New York NY 1997 DAILLE B 1996 Study and Implementation of Combined Techniques for Automatic Extraction of Technology In Klavans J Resnik P The Balancing ACT Combining Symbolic and Statistical Approaches to Language The MIT Press p 49 66 DELIN J HARTLEY A PARIS C SCOTT D VANDER LINDEN K 1994 Expressing Procedural Relationships in Multilingual Instructions Proceedings of the Seventh International Workshop on Natural Language Generation pp 61 70 Maine USA 1994 Di EUGENIO B 1992 Understanding Natural Language Instructions the Cas
34. ar o aparelho ou sobre quais passos devem ser realizados antes do primeiro uso O uso de diretivas e explica es apropriado nesta se o Uso Cont m os passos ou a es que devem ser realizadas pelo leitor para usar o produto e atingir os objetivos de diferentes tarefas O uso de diretivas e explica es apropriado nesta se o Limpeza Cuidado e Manuten o Nesta se o o autor apresenta para o leitor como ele deve limpar e cuidar do produto O uso de diretivas e explica es apropriado nesta se o Resolu o de problemas O objetivo desta parte do manual ajudar o leitor a identificar a fonte do problema e fornecer informa o sobre o que poderia acontecer de errado se um passo n o for propriamente realizado A es a serem tomadas junto com condi es sobre as quais s o apropriadas e solu es para os problemas s o fornecidas A postura utilizada nessa se o geralmente a diretiva Figura 4 Estrutura Global de Manuais de Produtos Paris amp Scott 1994 Alguns manuais cont m todas as seis partes da Figura 4 claramente indicadas Entretanto h manuais que devido a problemas de espa o principalmente intercalam as partes Um exemplo de intercala o de partes encontrada na an lise de Paris amp Scott 1994 foi a apresenta o de cuidados logo ap s uma tarefa ser expressa no manual importante notar que uma estrutura global tamb m chamada de estrutura esquem tica apresenta suas p
35. artes componentes numa ordem esperada e portanto tal ordem das partes n o pode aparecer aleatoriamente 26 2 2 2 1 1 Realiza o das Express es Gera e Habilita em Portugu s O trabalho de Delin et al 1994 trata de textos originais nas l nguas inglesa francesa e portuguesa Os resultados do estudo serviram de base para o projeto DRAFTER pois informam quais s o os mapeamentos mais comuns das rela es gera e habilita para uma l ngua e se h ambig idade entre as formas da l ngua para estas rela es O corpus do portugu s do Brasil foi formado por 8 manuais de instru o que possuem de 2 a 7 p ginas Os manuais s o de produtos e s o dirigidos para o p blico n o especialista que o mesmo p blico que nos dedicamos neste projeto de mestrado A avalia o de frequ ncia se deu em 33 rela es gera e 32 habilita A maioria das rela es gera envolvem o uso do conectivo para seguido de um infinitivo como pode ser observado na Tabela 1 Tabela 1 Freq ncia das formas gramaticais em portugu s para a rela o gera Delin et al 1994 Forma gramatical Contagem Porcentagem Para Infinitivo 23 70 Se Subjuntivo 3 9 Para Frases 2 6 Seq ncia 1 3 2 outras formas 4 12 Total 33 Para rela es habilita o uso de seq ncias Uma sequ ncia de imperativos tanto em frases consecutivas ou dentro de frases e ligadas pela conjun o e predominante como mostrado na Tabel
36. bal do procedimento til quando o procedimento complexo Advert ncia gt texto figura pr requisitos Representam precau es globais e preven es associadas com a es ou objetivos 29 Pr requisitos gt lista de objetivos seqii ncia de instruc es Descreve todo tipo de equipamento necess rio para executar determinada tarefa Figuras servem para demonstrar esquemas de montagens e diagramas de v rios tipos S o usadas para tornar as instru es mais claras Seq ncias de instru es s o estruturadas da seguinte forma Seq ncias de instru es gt seqint lt conectores discursivos seq ncias de instru es seqint Seqint um dos quatro tipos abaixo Seqint gt objetivo seq ncia imperativa linear objetivo seq ncia opcional objetivo seq ncia alternativa objetivo seq ncia imperativa co temporal Cada tipo de sequ ncia de instru o definido a seguir Seq ncia imperativa linear gt instru o lt marca temporal sequ ncia imperativa linear instru o Seq ncia opcional gt express o condicional seqii ncia imperativa linear Sequ ncia alternativa gt express o condicional seqii ncia imperativa linear marca de oposi o alternativa lt seqint express o condicional seqint Seqii ncia imperativa co temporal gt seqii ncia imperativa linear lt marca co temporal lt seq ncia imperativa co temporal instru
37. beiro Jr 2008 o uso de conhecimento sem ntico trouxe um aumento m dio de 17 33 na precis o de extra o de unigramas aumento de 20 67 na precis o de extra o de bigramas e um aumento de 6 66 na precis o de extra o de trigramas http www nilc icmc usp br lacioweb 47 5 Projeto NorMan O objetivo deste projeto de pesquisa chamado de NorMan Normalizacao de Manuais analisar como as rela es entre a es generation gera e enablement habilita s o realizadas em instru es de manuais t cnicos do portugu s e criar uma ferramenta de simplifica o de manuais t cnicos de produtos tecnol gicos baseada no editor de simplifica o do PorSimples SIMPLIFICA adaptada ao g nero Embora Delin et al 1994 tenha realizado um estudo de corpus em portugu s sobre estas rela es descrito na Se o 2 2 2 1 1 este estudo foi muito pequeno Pretendemos estender o estudo e faz lo para 3 classes manuais diferentes manuais de escopo internacional nacional e local A seguir ser apresentada a metodologia a ser utilizada para o desenvolvimento deste trabalho bem como as tarefas realizadas e futuras 5 1 Metodologia Baseada em Corpus para a Extra o de Termos de Textos Instrucionais e para a Normaliza o Simplifica o de Instru es A execu o deste trabalho ser dividida em 4 etapas e Compila o e An lise de um corpus de manuais t cnicos e Proposta de um M todo de Extra o de Termos
38. bre modelagem computacional de instru es sistemas de gera o autom tica de manuais e sistemas de perguntas e respostas adaptados ao tratamento de textos instrucionais No Cap tulo 3 apresentado o Manual de Simplifica o Sint tica do projeto PorSimples e sua aplica o em uma ferramenta de simplifica o simb lica desenvolvida no projeto No Cap tulo 4 apresentada uma compara o sobre as v rias abordagens dos m todos de extra o autom tica de termos No Cap tulo 5 apresentada a proposta deste projeto juntamente com o cronograma de desenvolvimento das v rias tarefas para sua execu o 2 Trabalhos Relacionados a Linguagem Controlada Usada em Manuais T cnicos os Sistemas de Gerac o Autom tica de Manuais e os Sistemas de Perguntas e Respostas 2 1 Linguagem Controlada Os princ pios da linguagem controlada foram originados pelo ingl s b sico de Ogden 1932 na d cada de 30 O Ingl s b sico foi proposto tanto como uma l ngua internacional quanto uma base para o aprendizado do ingl s como segunda l ngua Ela consiste de 850 palavras b sicas Veja Ap ndice A e algumas inflex es e regras de deriva o Kaji 1999 A primeira linguagem controlada para documenta o t cnica chamada Caterpillar Fundamental English CFE foi desenvolvida na d cada de 60 para melhorar a compreens o de leitura dos usu rios n o nativos dos manuais da Caterpillar que uma fabricante de equipamento pesado Al m diss
39. centando se tamb m seguido pela reprodu o do verbo da ora o principal caso este esteja oculto O sujeito da senten a pode precisar ser reproduzido gt Definir a posi o do marcador tamb m procurando manter a ordem S V O C Concessivas indicam a concess o id ia expressa pelo verbo da principal isto admitem uma contradi o ou um fato inesperado embora por mais que ainda que posto que a menos que se bem que conquanto mesmo que nem que apesar de que por mais que por muito que etc Regra Dividir a senten a em duas 1 Senten a para a cl usula subordinada eliminando se o marcador discursivo de concess o e eventualmente introduzindo se como sujeito o n cleo do termo da ora o principal a quem a subordinada se refere ou o termo completo caso o n cleo n o seja suficiente O tempo verbal pode precisar ser adaptado 2 Senten a original sem a cl usula subordinada introduzida pelo marcador discursivo MAS Ordem fatol embora fato VIRA fato 2 mas fatol Regra para ora es que d o id ia de que a parte subordinada hipot tica por exemplo com ainda que por mais que Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada eliminando se o marcador discursivo de concess o e introduzindo se ISSO ACONTECE MESMO QUE D Condicionais indicam a situa o necess ria ocorr ncia ou n o da a o do verb
40. da ora o principal explicado pelo aposto ou o termo completo caso o n cleo n o seja suficiente seguido de verbo de liga o ser no tempo presente e ent o do aposto 2 Ora es subordinadas adjetivas ou ora es relativas A Explicativas n o limitam o sentido do antecedente acrescentam uma informa o que pode ser eliminada sem preju zo para a compreens o l gica da senten a V m entre v rgulas sempre introduzidas por pronome relativo que quem o qual a qual os quais as quais onde cujo quanto etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada a qual ter como sujeito o n cleo do termo da ora o principal explicado pela subordinada ou o termo completo caso o n cleo n o seja suficiente seguido da subordinada propriamente dita eliminando se seu pronome relativo Regra para o que Dividir a senten a em duas 33 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada a qual ter como sujeito isso seguido da subordinada propriamente dita eliminando se o pronome relativo o que B Restritivas restringem limitam a significa o do seu antecedente substantivo ou pronome S o indispens veis ao significado da senten a e n o se separam da ora o principal por v rgula Regra Dividir a senten a em duas 1 Senten a para a cl usula subordin
41. devem ser posteriormente validados por humanos O objetivo dos SEACAT a automatiza o da fase de sele o de todas as unidades terminol gicas de um texto especializado Os SEACAT s o classificados conforme a metodologia que utilizam para reconhecer as unidades terminol gicas S o tr s as metodologias utilizadas Teline 2004 e Metodologia baseada em conhecimento ling stico e Metodologia baseada em conhecimento estat stico e Metodologia h brida baseada em conhecimento ling stico e estat stico Essas metodologias ser o detalhadas a seguir 4 1 M todos Lingii sticos Os m todos baseados em conhecimento ling stico utilizam diferentes recursos que fornecem diferentes informa es ling sticas que s o usadas para a extra o dos termos e Lexicogr ficas dicion rios de termos e lista de palavras auxiliares stopwords e Morfol gicas padr es de estrutura interna da palavra e Morfossintatica categorias morfossint ticas e fun es sint ticas e Sem nticas classifica es sem nticas e Pragm ticas representa es tipogr ficas e informa es de disposi o do termo no texto De acordo com Estop Bagot 1999 a grande quantidade de ru do gerada entre 55 e 75 um dos grandes problemas da abordagem ling stica Al m disso ela dependente da l ngua para qual foi desenvolvida e tamb m pode ser dependente de uma nica variante Dessa forma a aplica o de um m t
42. e estilo Uma linguagem controlada prescreve esses elementos de uma maneira limitada e formal A restri o de vocabul rio de fundamental import ncia para qualquer linguagem controlada tendo como principal objetivo a redu o da ambig idade Kaji 1999 Al m da restri o de vocabul rio um estudo terminol gico deve ser realizado dentro do dom nio espec fico Atrav s desse estudo ser o identificados candidatos a termos e suas variantes que ser o usados na cria o de uma base de termos Essa base utilizada para evitar que informa es importantes sejam perdidas durante a simplifica o de uma frase Toda linguagem controlada possui regras gramaticais espec ficas Essas regras s o respons veis por definir quais tipos de constru es de frase s o permitidas Geralmente essas regras visam melhorar os textos propondo frases simples e curtas Alguns exemplos de regras gramaticais podem ser observados a seguir Kaji 1999 e Usar frases curtas Esta regra simples por m muito eficaz pois frases curtas cont m menos ambig idades e Eliminar palavras redundantes Tamb m reduz a ambig idade e ajuda na tradu o autom tica e Evitar o uso de voz passiva e N o usar seq ncias muito grandes de substantivo As gram ticas devem ser adaptadas para cada linguagem controlada conforme suas necessidades Formato e layout tamb m fazem parte da linguagem controlada Por exemplo a utiliza o de uma lista pode eliminar u
43. e of Purpose Clauses Proceedings 30th Annual Meeting of the Association for Computational Linguistics ACL92 Newark Delaware 120 127 1992 Dispon vel em http www aclweb org anthology new P P92 P92 1016 pdf EDWARDS J A and A G KINGSCOTT 1997 eds Language Industries Atlas Second edn Amsterdam IOS Press 1997 EIJK P 1997 Controlled languages in technical documentation 1997 Computational Linguistics in the Netherlands 1997 pag 187 ESTOPA BAGOT R 1999 Extracci de terminologia elements per a la construcci d um SEACUSE Sistema d Extracci Automatica de Candidats a Unitats de Signficaci Especialitzada Tese de Doutorado Universidade Pompeu Fabra FELLBAUM C 1998 WordNet An Electronic Lexical Database The MIT Press 1998 55 FONTAN L SAINT DIZIER P 2008 Analyzing the explanation structure of procedural texts dealing with Advices and Warnings Dans In International Symposium on Text Semantics STEP 2008 Venise 22 09 2008 24 09 2008 Johan Bos Eds Association for Computational Linguistics ACL p 84 93 septembre september 2008 FRANTZY K T ANANIADOU S 1997 Automatic Term Recognition using Contextual Cues Manchester Metropolitan University THIRD DELOS WORKSHOP Cross Language Information Retrieval Zurich 5 7 March 1997 ISBN 2 912335 02 7 GRISHMAN R 2001 Adaptive Information Extraction and Sublanguage Analysis Proceedings of IICAL2001 Dispon vel e
44. eckled with white on some parts 2 Information Provision from HP LaserJet 4 Printer Installation Guide The optional 500 sheet paper tray assembly comes equipped with a tray housing and either a legal letter A4 and executive multi size paper tray or a letter A4 and executive multi size paper tray You may purchase replacement trays from your authorized HP dealer The part number of the letter A4 and executive multi size paper tray is C2084B 3 Eulogy from Sennheisser Headphones To wish to convince you of the supenor quality of the dynamic open air headphone HD 40 would be something of a paradox as you are by now already m possession of this product However the arguments for the HD 40 are in fact very convincing High quality reproduction Extremely comfortable thanks to very low weight Problem free connection by means of universal connector Very flat storage space thanks to tumtable driver elements 4 Directive from Krupp Expresso Coffee Machine Do not use or put down the appliance on any hot surface such as a stove hot plate or m the vicinity of an open gas fame 5 Directive from Camping Stove Camping Gaz International Utilisez toujours votre r chaud dans un endroit suffisamment a r sans l envelopper dans un objet quelconque et pas trop pres de mati res inflammables Loose English Translation Always use your stove in a well ventilated place without wrapping it in any object and nor too close to
45. enda es apresente v rios exemplos de simplifica o para a l ngua inglesa 2 1 4 Ingl s Simplificado AECMA O ingl s simplificado AECMA utilizado pela maioria das grandes fabricantes de equipamento aeroespacial e por muitas empresas a reas O guia de ingl s simplificado especifica tr s fontes de palavras l Cerca de 950 palavras b sicas aprovadas todas com defini es n o t cnicas bem definidas entre elas incluem todas as preposi es importantes artigos e conjun es bem como substantivos b sicos verbos adjetivos e adv rbios Um n mero ilimitado de nomes t cnicos divididos em vinte categorias que podem ser escolhidas pela organiza o mas usadas somente como adjetivos ou substantivos de acordo com certas orienta es Verbos t cnicos para designar seis categorias de processos de fabrica o especificados pelo usu rio sujeito a regras r gidas de utiliza o Este padr o de ingl s simplificado tem cerca de cinq enta e cinco regras que regem o uso de palavras e a constru o de frases Algumas delas s o muito precisas Voc deve quebrar grupos de substantivos de quatros ou mais palavras reescrevendo os usando hifeniza o ou uma combina o dos dois 11 Entre as regras precisas existem v rias sobre pontua o Algumas outras s o um pouco vagas como Mantenha um t pico por frase ou ent o expressam metas de escritas desej veis Tente variar o tamanho de frases e const
46. endo textos novos Grande parte do trabalho deles atualizar os documentos existentes Al m disso foram definidas cinco tarefas principais durante a an lise das entrevistas Elas s o aquisi o de conhecimento planejamento do documento composi o valida o e manuten o A tarefa de aquisi o de conhecimento muito dif cil e ocupa tanto tempo quanto a pr pria escrita dos documentos t cnicos Os autores t m que trabalhar junto com os engenheiros e designers para obter informa es sobre a estrutura e os procedimentos do produto consultam o c digo fonte dos programas para ter acesso aos coment rios e tamb m experimentam prot tipos do produto No primeiro momento que os autores entram em contato com o produto eles criam um modelo mental do mesmo da perspectiva do usu rio Um registro formal deste modelo seria til na documenta o de subsequentes mudan as do produto pelo mesmo autor ou por colegas Isto poderia ser usado quando um mesmo procedimento necessita ser explicado novamente em um contexto diferente Apesar de importante esse modelo n o criado explicitamente No planejamento do documento os autores devem estabelecer a estrutura geral e o objetivo do documento A estrutura t pica do um manual de instru es ter um pequeno cap tulo para cada tarefa dividido em opera es com cinco ou seis linhas Na composi o geralmente s o feitos v rios rascunhos para um documento Os autores devem ser c
47. ente uma a o B e a rela o habilita quando a realiza o de uma a o A permite a realiza o da a o B O projeto aqui descrito est inserido nesse contexto e pretende estudar como as rela es procedimentais entre a es generation gera e enablement habilita s o realizadas em manuais de instru es dando base para a adapta o do Manual de Simplifica o Sint tica e do Editor de Simplifica o propostos no projeto PorSimples para atender ao g nero de textos instrumental Al m disso pretende se adaptar as ferramentas de extra o de termos para este g nero de texto iii Sum rio Lista S AS sp at vet ide tq ttd dad be easi eee vi Lista de Tabelas css tee oa eaa Hobo pe den MuR a po ORAR oa Deu baud vii TS elicere uu CAG NAMES coc CH cd 1 1 1 Contexto sussa agedum eb pie nance SL ep a a isi a a i 1 1 2 Motiva o e Justificativa eene nennen nennen enne than nns encena n sans asses ra ia 4 1 3 Objetivos do Projeto de Mestrado css sese 6 1 4 Organiza o da Monografia serieetan iniiai iaeia aie inaa e aaiae ie aeoaea iaiia 6 2 Trabalhos Relacionados a Linguagem Controlada Usada em Manuais T cnicos os Sistemas de Gera o Autom tica de Manuais e os Sistemas de Peteuntas CIR CS PORTAS cunteni niu EEE E EE E EEEE E 7 2 1 Linguagem Controlada sss sese eee 7 E B RTT aiaeei E ER E AR da R I i ene E 7 2 1 2 Os Componentes de uma Linguagem Controlada seen 9 21 3 Plam Engl
48. ente v m acompanhados de 2 http www britaniashop com br 49 defini es descri es classifica es e de outros tipos de ora es que concentram termos S o utilizadas as express es classificadas como de Uso Geral UG que s o express es que podem ser utlizadas em qualquer dom nio e Sinais Gr ficos SG que s o indicadores como OC 2 e Teline 2004 Essas express es foram retiradas de v rias fontes Alu sio 1995 apud Teline 2004 Sager 1993 apud Teline 2004 Klavans e Muresan 2000 2001a 2001b apud Teline 2004 e tamb m da lista ISO TC 37 SC 1 Terminologia Princ pios e M todos e do C rpusEco que um corpus composto por textos do g nero cient fico dom nio da Ecologia Bot nica Biologia Geral Zootecnia Recursos Florestais e Engenharia Florestal Este corpus foi desenvolvido no NILC para o Projeto Bloc Eco Essas express es podem ser vistas na Figura 8 Alu sio 1995 C rpusEco apresenta UG adi o de atua chamamos UG caracterizado UG constitui UG classe de UG constitu do UG compreendendo depende UG compreendido UG desenvolvido UG conhecido como UG determinado UG consiste UG empregado UG cont m cont m UG expresso UG em outras palavras formado UG implica UG obtido UG isto UG palavra UG ou seja UG relacionado UG por exemplo UG tal como UG Klavans e Muresan 2000 2001a 2001b Sager 1993 chamado UG
49. flammable substances 6 Explanation from Dietrich Oven To avoid heavy spittings on the sole plate it 15 advisable to cover it with an aluminmm foil 7 Explanation from EMSA Thermo Attention Pour eviter d abimer le r cipient en verre ne remuez pas les boissons avec des cuill res m talliques Loose English Translation Warning To avoid damage to the glass jug do not snr drinks with metallic spoons Figura 3 Exemplos de posturas que um manual de produtos pode adotar Paris amp Scott 1994 Atrav s da an lise do corpus tamb m foi definida a estrutura global dos manuais de instru es e quais as posturas adotadas em cada parte O resultado da an lise traz uma estrutura formada por seis partes principais apresentada na Figura 4 25 Informa es gerais Esta parte do manual cont m agradecimentos pela compra do produto uma descri o do produto com suas vantagens e uma lista de partes e tamb m apresenta as condi es de garantias ou a falta delas Nesta parte do manual as posturas utilizadas s o a de Fornecimento de informa o e elogios Informa es sobre seguran a Esta parte inclui avisos conselhos gerais de seguran a e passos cruciais que devem ser realizados sejam eles para realizar a tarefa ou para obter melhores resultados A postura tomada nesta parte pode ser o uso de diretivas ou de explica es Etapa de prepara o ou instala o Cont m informa es sobre como instal
50. gura 1 Facilitate Summarize cotada id a summis ingeniis ea Latinis litteris mandaremus fore ut hic noster labor Simplify Authors Server Non Brute quase summis ingeniis Readers doctrina philisophi Graeco sermone Rudimentary ea Latinis litteris fore noster labor Basic Figura 1 Os sistemas do autoria e facilita o do projeto PorSimples O foco principal do projeto PorSimples s o os textos do g nero informativo diferente deste projeto que visa o estudo e a adapta o do sistema de autoria on line para a escrita de textos do g nero instrucional particularmente manuais t cnicos de produtos tecnol gicos Textos instrucionais tamb m chamados de textos procedimentais consistem de uma sequ ncia de instru es concebidas com certa precis o a fim de atingir um objetivo por exemplo montar um computador Textos procedimentais explicam como realizar um determinado objetivo atrav s de a es que est o ao menos parcialmente temporalmente organizadas Textos instrucionais consistem de segii ncias de instru es concebidas de forma a alcan ar um objetivo O usu rio deve seguir passo a passo as instru es a fim de alcan ar os resultados esperados Aouladomar amp Saint Dizier 2005 No projeto PorSimples foi compilada uma lista de palavras simples contendo palavras consideradas simples para os jovens Biderman 2005 e tamb m uma lista de palavras concretas Janczura et al 2007
51. icar termos m dicos e extrair defini es Na identifica o de frases nominais simples foram utilizados um etiquetador e o analisador sint tico parcial chunker de sintagmas nominais 2 M dulo de an lise gramatical que utiliza uma rica gram tica lexicalista orientada depend ncia para analisar fen menos ling sticos mais complexos como aposi o e an fora 4 2 M todos Estat sticos Os m todos baseados em conhecimento estat stico geralmente utilizam a freq ncia de palavras para detectar candidatos a termos Outro detalhe do m todo estat stico a sua depend ncia no tamanho do corpus Se o corpus pequeno poucos termos s o encontrados do total existente e mesmo quando o corpus grande alguns termos ficam de fora pois t m baixa freq ncia Al m disso sistemas estat sticos geram bastante ru do que s o candidatos a termos que n o possuem valor terminol gico ou seja s o palavras pertencentes l ngua geral 42 Outra caracter stica que diferencia o m todo estat stico do m todo ling stico a independ ncia de l ngua M todos puramente estat sticos para a extra o autom tica de termos s o pouco utilizados pois a maioria dos m todos implementados s o os h bridos As principais medidas utilizadas no m todo estat stico de extra o autom tica de termos s o os seguintes e Freqii ncia de ocorr ncia Daille 1996 Manning amp Sch tze 1999 a medida mais s
52. ick bridge brush bucket bulb button cake camera card cart carriage cat chain cheese chest chin church circle clock cloud coat collar comb cord cow cup curtain cushion dog door drain drawer dress drop ear egg engine eye face farm feather finger fish flag floor fly foot fork fowl frame garden girl glove goat gun hair hammer hand hat head heart hook horn horse hospital house island jewel kettle key knee knife knot leaf leg library line lip lock map match monkey moon mouth muscle nail neck needle nerve net nose nut office orange oven parcel pen pencil picture pig pin pipe plane plate plough pocket pot potato prison pump rail rat receipt ring rod roof root sail school scissors screw seed sheep shelf ship shirt shoe skin skirt snake sock spade sponge spoon spring square stamp star station stem stick stocking stomach store street sun table tail thread throat thumb ticket toe tongue tooth town train tray tree trousers umbrella wall watch wheel whip whistle window wing wire worm Qualidades 100 palavras descritivas able acid angry automatic beautiful black boiling bright broken brown cheap chemical chief clean clear common complex conscious cut deep dependent early elastic electric equal fat fertile first fixed flat free frequent full general good great grey ha
53. imples para se encontrar termos em corpus Se duas palavras aparecem frequentemente juntas existe a possibilidade de ela representar uma fun o especial No entanto existe o risco de palavras funcionais como artigos e preposi es serem selecionadas como candidatos a termos Este m todo independente de dom nio e recursos externos mas ele fraco para recuperar termos com baixa fregii ncia e Informa o m tua Pantel amp Lin 2001 uma medida de informa o que uma vari vel cont m sobre outra sendo ela a redu o da incerteza de uma vari vel rand mica devido ao conhecimento da outra Os c lculos s o feitos usando a probabilidade das palavras ocorrerem num corpus de tamanho N Esta medida foi usada inicialmente para extra o de coloca es Quando palavras ou termos s o adjacentes a informa o m tua maior Da mesma forma que a freq ncia de ocorr ncia esta medida n o eficiente para extrair termos com baixa frequ ncia e Coeficiente log likelihood Pantel amp Lin 2001 Esta medida foi utilizada para amenizar o problema de recupera o de termos de baixa freq ncia da medida mutua A diferen a dela para a informa o mutua que ela tamb m considera termos raramente adjacentes como fortes candidatos a termos e Coeficiente Dice uma medida similar informa o m tua que faz um c lculo para saber a o n vel de rela o entre duas palavras A diferen a desta medida para a informa
54. is University of Aberdeen 2004 ZAVAGLIA C et al 2007 Estrutura ontol gica e unidades lexicais uma aplica o computacional no dom nio a ecologia In Anais do 5 Workshop em Tecnologia da Informa o e da Linguagem Humana TIL 2007 Rio de Janeiro Brasil s n 2007 P 1575 1584 58 Ap ndice A Lista de 850 palavras do vocabul rio do Inl s B sico Elas denotam conceitos simples e s o usadas para situa es do dia a dia Operac es 100 palavras come get give go keep let make put seem take be do have say see send may will about across after against among at before between by down from in off on over through to under up with as for of till than a the all any every no other some such that this I he you who and because but or if though while how when where why again ever far forward here near now out still then there together well almost enough even little much not only quite so very tomorrow yesterday north south east west please yes Coisas 400 palavras gerais A F account act addition adjustment advertisement agreement air amount amusement animal answer apparatus approval argument art attack attempt attention attraction authority back balance base behaviour belief birth bit bite blood blow body brass bread breath brother building burn burst business butter canvas care cause
55. ish iane a a E fia A 10 2 1 4 Ingl s Simplificado APC NIA races teet entienden rint nitet heb oto a enia etna ob dia 11 2 1 5 Linguagem Simplificada em Textos do Portugu s do Brasil ee 12 2 1 6 Sublingua net ret ere de er aderit aae re ee En ve E e ronda 13 2 2 Tratamento de Textos Instrucionais em Trabalhos de PLN sse 14 2 2 1 O Trabalho de Di Bugenio 1992 Ie teg end di tias T exter age 14 2 2 2 Gera o Multil ngue de Manuais de Instru o rear 18 2 2 3 Estrutura de Textos Instrucionais e Sistemas de Perguntas amp Respostas 27 3 Simplifica o Sint tica no PorSimples eee 32 4 M todos de Extra o Autom tica de Termos c ie 41 4 A Metodos Linguisticos vor pr Re NR RE Ra Coe EE AINE KEEN ee 41 4 2 M todos Estat sticos 5 tei edet peel Was beet ete Cor arian erre dores 42 4 3 M todos Hibrido Sk nh ede e e nan ee d Redde eter ne 44 4 4 O Trabalho de Teline 2004 esses ener ener enn ae nissan insi dass sna 44 4 5 O Trabalho de Ribeiro Jr 2008 parenie n AENEAN E rans enses ssi dass sna 46 DUPIOISIO DNOPIVIBL Lee ieu eiae t teste o RU PU ME nde bh ode go a 48 5 1 Metodologia Baseada em Corpus para a Extra o de Termos de Textos Instrucionais e para a Normaliza o Simplifica o de Instru es eee 48 5 1 1 Compila o e An lise de
56. iza o autom tica da a o B Apesar do conectivo para tamb m ser usado para a rela o habilita ele n o foi encontrado em Delin 1994 Ao contr rio neste estudo as rela es habilita foram encontradas atrav s de sinais de ordem temporal nas a es envolvidas em ora es consecutivas ou ligadas pela conjun o e Desligue a serra da tomada antes de fazer qualquer ajuste Black amp Decker 1 3 Objetivos do Projeto de Mestrado O objetivo deste trabalho estudar via um corpus criado no escopo desta pesquisa como as rela es procedimentais entre a es generation gera e enablement habilita s o realizadas em instru es de manuais t cnicos de produtos tecnol gicos em portugu s Este estudo dar base para uma adapta o no Manual de Simplifica o Sint tica e no Editor de Simplifica o propostos no projeto PorSimples para atender ao g nero de textos instrumental Este projeto prop e tamb m a adapta o das ferramentas de extra o de termos para este g nero de textos via uma extra o de termos dedicada s express es ling sticas das rela es gera e habilita 1 4 Organiza o da Monografia Esta monografia est organizada conforme o que se segue No Cap tulo 2 s o apresentados trabalhos relacionados com a cria o e uso de Linguagens Controladas que s o amplamente utilizadas na produ o de manuais t cnicos Tamb m s o apresentados trabalhos da rea de PLN so
57. las l nguas sem a necessidade de tradu o desenvolvida no projeto DRAFTER para adicionar 3 novas l nguas ao sistema de gera o b lgaro russo e tcheco Diferente dos sistemas de gera o autom tica de manuais de instru o que deixam os autores fora do processo focando na produ o autom tica das instru es o DRAFTER uma ferramenta de apoio destinada a ser integrada ao ambiente de trabalho dos autores visando o aux lio da produ o e a automatiza o de algumas tarefas mais tediosas O primeiro passo para desenvolver o DRAFTER foi a condu o de uma an lise de requisitos dos usu rios identificando o ambiente amplo no qual a ferramenta proposta seria usada Nessa an lise de requisito foram feitas entrevistas com autores t cnicos tratando de http www itri brighton ac uk aboutindex html http www nltg brighton ac uk nltg 18 v rios t picos desde as limita es de tempo e or amento para essa rea de trabalho como tamb m as partes do trabalho que eram consideradas interessantes a dificuldade entre outros Os entrevistados explicaram a sucess o e a divis o do tempo na tarefa de cria o de documenta o Al m disso a forma como os documentos eram desenvolvidos as fontes de informa es e as tarefas e recursos utilizados foram identificados Os autores do sistema relatam que uma das descobertas durante a an lise de requisitos foi a de que os autores de manuais gastam pouco tempo escrev
58. line 2004 46 Figura 8 Express es lingu sticas que ser o utilizadas para a extra o de termos 50 Figura 9 Padr es morfossint ticos para extra o de termos compostos eee 51 Figura 10 Padr es morfossint ticos usados na extra o de termos simples 51 vi Lista de Tabelas Tabela I Frequ ncia das formas gramaticais em portugu s para a rela o gera Delin et DY SIN DO as Secale cade das katate casa den GNR dud hey Saige E T ER M Een 27 Tabela 2 Frequ ncia das formas gramaticais em portugu s para a rela o habilita Delin et 7149 OO EE pe a A e a Rd a a 27 Tabela 3 Cronograma de atividades x5 uoo sese 53 vil 1 Introduc o 1 1 Contexto Esse projeto est sendo desenvolvido no N cleo Interinstitucional de Ling stica Computacional NILC criado em 1993 sendo ele um grupo interdisciplinar dedicado pesquisa e ao desenvolvimento de recursos ferramentas e sistemas de Processamento de L ngua Natural PLN como o desenvolvimento de corpus e l xicos etiquetadores morfossint ticos sumarizadores autom ticos aplica es de tradu o de m quina e ferramentas de suporte escrita entre outros Alguns projetos do NILC sao de fundamental import ncia para este trabalho como o projeto PorSimples e o ExPorTer descritos abaixo O termo letramento vem sendo usado no Brasil para designar o conceito de alfabetismo funcional que
59. lver melhorar Estes tipos de textos s o encontrados em enciclop dias e textos did ticos e Itiner rio Caracterizada por verbos de movimento ir alcan ar acessar Aparecem em guias de viagem e de conduta A representa o das perguntas procedimentais deste trabalho utilizada em experimentos com perguntas procedimentais curtas possui o formato Pergunta procedimento tipo foco restri es Tipo um dos quatro tipos que foram apresentados anteriormente foco geralmente o sintagma verbal o predicado e seus argumentos que caracterizam o objetivo e as restri es s o compostas por adjuntos do predicado Como exemplo a pergunta Como reservar um v o na web representado da seguinte maneira Pergunta procedimento a o reservar verbo morfol gico v o substantivo transporte na preposi o meio web substantivo comunica o A estrutura de textos procedimentais foi elaborada na forma de uma gram tica Nesta gram tica par nteses representam op o significa itera o a v rgula usada apenas com um separador significa ou e o operador lt indica a preced ncia preferida Estes s mbolos correspondem a etiquetas em XML e permitem a anota o dos textos instrucionais O n topo denominado objetivo Objetivo gt t tulo sum rio advert ncia pr requisitos figura lt seq ncias de instru o Sum rio gt t tulo Descreve a organiza o glo
60. m http nlp cs nyu edu publication papers grishman ijcaiO1 pdf HEID U JAUB S KRUGER K HOHMANN A 1996 Term extraction with standard tools for corpus exploration IN 4th International Congresso n Terminology and Knowledge Engineering Wien August JANCZURA G A CASTILHO G M ROCHA N O VAN ERVEN T J C HUANG T P 2007 Normas de concretude para 909 palavras da lingua portuguesa Psicologia Teoria e Pesquisa v 23 p 195 204 2007 KAJI H 1999 Controlled languages for machine translation State of the art Proceedings of Machine Translation Summit VII pp 37 39 1999 KLAVANS J L MURESAN S 2000 DEFINDER Rule Based Methods for the Extraction of Medical Terminology and their Associated Definitions from Online Text In Proceedings of AMIA 2000 KLAVANS J L MURESAN S 2001a Evaluation of DEFINDER A System to Mine Definitions from Consumer oriented Medical Text In Proceedings of JCDL 2001 KLAVANS J L MURESAN S 2001b Evaluation of the DEFINDER System for Fully Automatic Glossary Construction In Proceedings of AMIA 2001 LEFFA V J 1996 Fatores da compreens o na leitura Cadernos no IL Porto Alegre v 15 p 143 159 1996 lt http www leffa pro br fatores htm gt Acesso em jan 2008 56 MANNING C SCH TZE H 1999 Collocations In Foundations of Statistical Natural Language Processing p 141 77 MIT Press Cambrige MAPLESON D L 2006 Pos
61. ma estrutura coordenada complexa e resulta em pequenas frases muito mais f ceis de serem interpretadas A padroniza o de conven es estil sticas tamb m deve ser aplicada no formato de datas e moedas tabelas e variantes ortogr ficas Kaji 1999 2 1 3 Plain English O Plain English um movimento na Inglaterra e Estados Unidos que se iniciou no fim dos anos 70 como uma rea o falta de clareza na linguagem usada nos documentos do governo e com rcio Ele usa recomenda es a Plain Language que em princ pio pode ser aplicado a qualquer l ngua natural A Plain Language pode ajudar a escrever um texto simples e curto claro efetivo e f cil de entender para o p blico alvo Um documento que siga a Plain Language usa palavras economicamente e em um n vel que a audi ncia possa entender criando um texto sens vel ao leitor como reforca Leffa 1996 acima s o 2 8 Algumas recomenda es de como escrever e organizar as informa es em Plain Language a Escreva utilizando pronomes pessoais para falar diretamente aos leitores b Seja direto elimine qualquer ambig idade c Use a l gica simples e comum criando conex es entre id ias obvias d Use t tulos ou subt tulos que informam ou resumem o texto e Retire toda a informa o que n o essencial para o prop sito do texto evitando assim longas descri es nominais f Priorize a informa o e coloque o que for mais impor
62. mc usp br erick SS2 index htm 39 pesquisado via um Portal de Corpora Paralelos de Simplifica o Para os segundos um sistema simb lico foi desenvolvido Este simplifica toda senten a que possua um fen meno ling stico complexo independente de outros fatores do texto Nos dois casos o sistema simb lico regras utilizado para simplificar a senten a escolhida ou para simplificar toda e qualquer senten a na qual se aplica uma das regras do manual Para aplicar as regras necess rio ter conhecimento morfossint tico e sint tico do texto e no caso do SIMPLIFICA foi utilizado o parser PALAVRAS Bick 2000 que uma ferramenta que obt m um dos melhores resultados em an lises morfossint ticas e sint ticas para o Portugu s do Brasil Ap s passar pelo parser a ferramenta identifica quais regras devem ser aplicadas no texto e ent o faz as opera es necess rias para realizar a simplifica o e retorna o texto simplificado http caravelas icmc usp br portal index php 40 4 M todos de Extrac o Autom tica de Termos Devido ao grande volume de informa o t cnica dispon vel nos ltimos anos juntamente com a expans o da internet a tarefa manual de extra o de terminologia se tornou invi vel Um sistema de extra o autom tica de candidatos a termo SEACAT formado por um conjunto de programas para o reconhecimento de unidades terminol gicas de corpus Estop Bagot 1999 Os candidatos a termos
63. multil ng e de manuais de software e tratado como independente de l ngua que um requisito b sico para gera o multil ng e Os autores usam os conceitos e rela es do modelo de dom nio para especificar os procedimentos apropriados para o sistema de software em particular que est sendo documentado Este estudo de corpus de fundamental import ncia para este mestrado e ser descrito na Se o 2 2 2 1 O DRAFTER fornece uma interface para criar e manter um registro formal do conhecimento que o autor aprendeu durante a tarefa de aquisi o de conhecimento Ela permite aos usu rios especificar o conhecimento conceitual requerido para a tarefa a ser documentada e informa o importante do ponto de vista do usu rio Ela explora o modelo de dom nio para fornecer guia e estrutura A interface engloba as seguintes fun es e Constru o e manuten o da base de conhecimento de afirma es que cont m a descri o das fun es que o usu rio pode realizar com o software que est sendo documentado e Visualiza o dos aspectos da base de conhecimento e Visualiza o e edi o dos rascunhos gerados automaticamente Todas essas fun es s o chamadas atrav s de menus cones e outros objetos sens veis ao mouse A base de conhecimento de afirma es pode ser atualizada com a inclus o de novas informa es Essas altera es s o feitas atrav s de um editor de conhecimento Atrav s desse editor o autor escolhe
64. nging happy hard healthy high hollow important kind like living long male married material medical military natural necessary new normal open parallel past physical political poor possible present private probable quick quiet ready red regular responsible right round same second separate serious sharp smooth sticky stiff straight strong sudden sweet tall thick tight tired true violent waiting warm wet wide wise yellow young Qualidades 50 opostos awake bad bent bitter blue certain cold complete cruel dark dead dear delicate different dirty dry false feeble female foolish future green ill last late left loose loud low mixed narrow old opposite public rough sad safe secret short shut simple slow small soft solid special strange thin white wrong 60
65. nguagem jur dica A vers o em forma de cartilha ilustrada do Novo C digo Civil Brasileiro que entrou em vigor em 11 1 2003 foi lan ada em 2003 Carvalho Netto 2003 2 Veja por exemplo a cartilha Lei Maria da Penha em http www agenciaalagoas al gov br noticias governo governo lanca cartilha sobre a lei maria da penha Acessado em 6 2 2008 ou a cartilha lan ada pelo Minist rio do Trabalho e Emprego com informa es teis para brasileiros e brasileiras que vivem no exterior http download uol com br ultnot cartilha pdf 1 bttp www icpbrasil gov br e gov Resolucao N 7 Diretrizes para Sitios Internet 29 07 02 pdf 12 Outras cartilhas lan adas pelo governo com informa es de interesse amplo como sa de transito etc tamb m s o escritas em linguagem simples Uma em espec fico foi lan ada pelo Minist rio do Trabalho e Emprego com informa es teis para brasileiros que vivem no exterior O governo brasileiro tamb m editou leis que tornam as bulas de medicamentos mais f ceis de serem lidas separando as informa es para o p blico geral da informa o para EE Al s e 12 m dicos e farmac uticos e lan ando o site de busca Bul rio da Anvisa Na m dia jornal stica h um interesse grande pela linguagem simplificada aproveitando jornalistas experientes e bem articulados para a cria o de se es como De palavra em palavra do jornal Estado de Sao Paulo Para seu Filho Ler do Jornal Zero
66. o linguagens controladas t m mantido uma forte associa o com o objetivo de reduzir custos e tempos de tradu o de manuais A Caterpillar por exemplo desenvolveu nos anos 90 uma linguagem mais controlada ainda que a CFE chamada Caterpillar Technical English CTE em conjunto com o Center for Machine translation CMT da Carnegie Mellon University para facilitar a tradu o autom tica Kaji 1999 V rias outras companhias internacionais como a Ericsson IBM Xerox e Scania seguiram os passos da Caterpillar gerando v rias linguagens controladas ou simplificadas Como resultado dos crescentes requisitos de qualidade e da globaliza o da economia o uso de linguagens controladas tem sido aumentado nas documenta es t cnicas e junto com isso cresce o interesse do uso de PLN para apoiar a cria o de textos fontes seguindo as recomenda es de uma linguagem controlada Eijk 1997 2 1 1 Defini es Usada em documenta o t cnica linguagem controlada uma linguagem escrita de acordo com regras rigorosas e com um vocabul rio limitado O objetivo eliminar a possibilidade de ambig idade Foi verificado que textos fontes escritos numa linguagem controlada s o muito mais f ceis de serem processados em tradu o de m quina Edwards amp Kingscott 1997 5 Veja detalhes em Projeto KANT http www lti cs cmu edu Research Kant 7 Os fatores importantes em uma an lise do processo de compreens o de um tex
67. o da principal se sem que caso exceto salvo desde que contanto que a menos que a n o ser que etc Regra N o DIVIDIR gt Manter a ordem condi o gt efeito 35 Regra para discurso indireto N o dividir a senten a Manter a ordem condi o gt efeito Regra para condi o com nega o por exemplo marcadores a menos que sem que etc N o dividir a senten a inici la com a condi o negada precedida pelo marcador SE e finalizada com o efeito precedido pelo marcador ENT O gt Manter a ordem condi o gt efeito E Consecutivas indicam a conseq ncia resultante do fato expresso pelo verbo da ora o principal t o que tanto que tal que que de forma que de modo que de sorte que tanto que tamanho que etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada eliminando se o marcador discursivo de consequ ncia e introduzindo se o marcador POR ISSO no inicio da senten a e eventualmente o sujeito constitu do do n cleo do termo da ora o principal a que se refere ou o termo completo caso o n cleo n o seja suficiente O tempo verbal pode precisar ser alterado F Finais indicam o fim o objetivo do fato enunciado na ora o principal para que a fim de que porque etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2
68. o ponto de vista do processamento do discurso interpretar uma cl usula de finalidade pode afetar o modelo de discurso em particular por introduzir novos referentes Isto acontece quando o efeito de Y criar um novo objeto e X o identifica Verbos freq entemente usados neste contexto s o criar fazer formar etc Por exemplo Join the short ends of the hat band to form a circle Una as extremidades curtas da banda do chap u para formar um c rculo 2 2 1 1 As Relac es Gera e Habilita A rela o entre duas a es A o Y contribui para o objetivo X na maioria das vezes expressa uma rela o gera e no resto habilita 16 Gera a rela o entre a es ligada pela preposi o by por via em Ingl s turning on the light by flipping the switch acender a luz via aperto do interruptor Formalmente pode se dizer que uma a o X condicionalmente gera outra a o Y se e somente se e XeY s o simult neos e X n o parte da execu o de Y e Quando X acontece uma s rie de condi es C tornam se v lidas assim a jun o da ocorr ncia de X e C implicam na ocorr ncia de Y No caso da rela o gera entre flipping the switch e turning on the light o conjunto C de condi es seriam fia o interruptor e l mpada estarem funcionando Gera uma rela o pervasiva entre descri es de a es naturais No corpus do trabalho de Barbara Di Eugenio a cl usula encabe ada por by por
69. oceedings of the Speech and Language Technology for Education Workshop Pennsylvania USA October 1 3 2007 SLaTE 2007 Carnegie 57 Mellon University and ISCA Archive http www isca speech org archive slate 2007 69 425 RIBEIRO JR L C 2008 OntoLP Constru o Semi Autom tica de Ontologias a partir de Textos da L ngua Portuguesa Disserta o Mestrado Programa de P s Gradua o em Computa o Aplicada Universidade do Vale do Rio dos Sinos 2008 RIBEIRO V M 2006 Analfabetismo e alfabetismo funcional no Brasil Boletim INAF S o Paulo Insitituto Paulo Montenegro SAINT DIZIER P 1998 Verb Semantic Classes Based on Alternations and WordNet like criteria in Predicative Forms in Natural language and lexical Knowledge Bases Reds Saint Dizier P Eds Kluwer Academic Cambridge USA 1998 SIDDHARTHAN A 2002 An Architecture for a Text Simplification System In the Proceedings of the Language Engineering Conference LEC pp 64 71 2002 SPECIA L ALUISIO S M PARDO T A S 2008 Manual de Simplifica o Sint tica para o Portugu s Technical Report NILCTRO806 27 p Junho 2008 S o Carlos SP TELINE M F 2004 Avalia o de m todos para extra o autom tica de terminologia de textos em portugu s ICMC USP S o Carlos 2004 Disserta o de Mestrado WILLIAMS S 2004 Natural Language Generation NLG of discourse relations for different reading levels PhD Thes
70. odo ling stico desenvolvido para uma determinada l ngua deve ser reavaliado e adaptado para outra l ngua 41 O trabalho de Heid et al 1996 prop e um algoritmo com duas fases A primeira fase consiste no pr processamento ling stico e anota o autom tica dos textos Na segunda fase s o feitas as consultas ao corpus e a extra o de informa es relevantes O trabalho de Klavans e Muresan 2000 2001a 2001b que prop e um sistema baseado em regras que explora artigos orientados ao consumidor a fim de extrair defini es e os termos que eles definem Esta pesquisa pertencente ao Projeto de Biblioteca Digital na Universidade de Columbia Uma meta desse projeto apresentar defini es precisas e leg veis de termos t cnicos que podem ser encontrados em artigos que apresentam complexidade intermedi ria atrav s do uso de uma linguagem que seja compreens vel aos usu rios O algoritmo consiste na Combina o de t cnicas superficiais de processamento de l ngua natural com an lise gramatical com o intuito de explorar textos eficientemente baseado em dois m dulos 1 M dulo de processamento de texto superficial que realiza an lise de padr es com o uso de uma gram tica de estado finito guiada por express es ling sticas e um conjunto limitado de marcadores de texto representado por exemplo por indicadores estruturais Esse m dulo baseado num POS tagger e na gram tica de estado finito para identif
71. of all walls to be covered and divide by three Since borders are sold by the yard this will give you the number of yards needed Voc pode querer pendurar uma moldura no topo da parede ao redor da sala Para determinar a quantidade de moldura meca a largura de todas as paredes a 15 serem cobertas e divida por tr s Como as molduras s o vendidas em jardas isto lhe dar o n mero de jardas necess rias V rios desses exemplos envolvem verbos como check make sure checar ter certeza entre outros seguido pelo complemento that que descrevendo descreve um estado e O uso de tais verbos tem um efeito pragm tico que faz com que o executor da tarefa n o somente cheque se e acontece pois se e n o acontecer ele far algo para funcionar Por exemplo To attach the wires to the new switch use the paper clip to move the spring type clip aside and slip the wire into place Tug gently on each wire to make sure it s Secure Para fixar os fios no novo interruptor use um clip de papel para mover o grampo de mola para o lado e colocar o fio no lugar Puxe suavemente cada fio para ter certeza que est seguro 2 A cl usula de finalidade pode informar ao executor que o mundo nao deve mudar que dado evento deve ser evitado Por exemplo Tape raw edges of fabric to prevent threads from raveling as you work Costure as bordas de tecido cru para evitar que o fio desfie enquanto voc trabalha D
72. ola es das regras da linguagem tamb m custa tempo e Consider vel investimento necess rio para o treinamento das pessoas envolvidas para escreverem na linguagem controlada corretamente As linguagens controladas s o mais usadas em aplica es comerciais e industriais como na autoria de manuais t cnicos de uso e manuten o que possuem uma grande quantidade de documentos complexos que s o frequentemente atualizados nos quais a terminologia espec fica de um dom nio O melhor exemplo conhecido de linguagem controlada o AECMA Simplified English uma norma internacional aceita para escrever manuais t cnicos na industria aeroespacial O padrao AECMA teve inicio em 1979 e cresceu AECMA o acr nimo franc s para Associa o Europ ia de Fabricantes de Equipamentos Aeroespaciais 8 da experi ncia coletiva de v rias grandes fabricantes nas ltimas d cadas cujo objetivo simplificar a documenta o t cnica tanto para leitura na l ngua original quanto para facilitar a tradu o autom tica e para exporta o para outros mercados Mitkov 2003 Al m disso encontramos o uso de linguagem controlada em dom nios nos quais a documenta o tradicionalmente muito complexa ou mal escrita como nos documentos do governo do setor de finan as e do jur dico 2 1 2 Os Componentes de uma Linguagem Controlada Uma linguagem controlada pode ser definida como uma s rie de restri es de vocabul rio gram tica
73. omo elabora o lexical EL que consiste no acr scimo de defini es sin nimos ant nimos ou hiper nimos destas palavras ao inv s de substitu las Urano 1998 Por exemplo para a senten a Todos sabem que Ken diligente e gentil com os outros uma SL a transformaria em Todos sabem que Ken esfor ado e gentil com os outros enquanto que um exemplo de EL seria Todos sabem que Ken diligente ou esfor ado e gentil com os outros O projeto PorSimples Simplifica o Textual do Portugu s para Inclus o e Acessibilidade Digital aborda a simplifica o de textos visando a constru o de sistemas que 2 promovem o acesso a textos em Portugu s do Brasil para pessoas com n vel rudimentar e b sico de letramento e tamb m para aquelas com problemas cognitivos como dislexia e afasia Dois sistemas est o sendo desenvolvidos O primeiro um sistema de autoria on line para ajudar na produ o de textos simples e o segundo um sistema de facilita o de textos que j est o prontos incluindo as tarefas de sumariza o simplifica o e explicita o visual de caracter sticas do texto como as entidades nomeadas os argumentos dos verbos que ajudam a responder as perguntas quem como o que onde entre outras e tamb m as rela es entre partes do texto que tem base nos marcadores discursivos de contraste adi o exemplifica o entre outros A intera o entre os sistemas pode ser observada na Fi
74. omunicadores eficientes evitando jarg es e transmitindo a informa o com termos claros e concisos Com treinamento e experi ncia os autores se familiarizam com as normas padr es de reda o t cnica A maioria das companhias tamb m possui guias de estilo que podem ser formais ou informais podem por exemplo recomendar ou prescrever o uso de constru es e terminologias espec ficas Um guia de estilo rigorosamente formalizado imp e uma linguagem controlada que pode ser dif cil e demorada para se dominar 19 A valida o feita por mecanismos de controle de qualidade que v o desde a leitura informal por colegas at a revis o formal feita por comit s Algumas organiza es passam os documentos finais por verificadores autom ticos de gram tica e terminologia A manuten o dos documentos feita sempre quando um produto sofre alguma altera o Uma grande parte do tempo dos autores destinada a essa tarefa Ap s a an lise das entrevistas e do entendimento da tarefa foram definidas as fun es desej veis para uma ferramenta de suporte escrita S o elas e Suporte para reuso de conhecimento atrav s do aux lio da cria o de um modelo de conhecimento adquirido pelos autores Essa fun o seria til para formalizar e organizar de maneira consistente o conhecimento adquirido permitindo assim seu reuso e compartilhamento com colegas de trabalho e Produ o de formula es alternativas quando poss
75. or m todavia contudo no entanto entretanto etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 2 Senten a para a cl usula subordinada padronizando se o marcador discursivo de oposi o como MAS Pode ser necess rio explicitar o sujeito constitu do do n cleo do termo da ora o principal a que se refere a subordinada bem como o verbo ou objeto caso estejam ocultos 3 Alternativas explicam altern ncia de id ias ou ou ora ora ja ja quer quer etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada sem o marcador de altern ncia 2 Senten a para a cl usula subordinada excluindo se o marcador de altern ncia e incluindo se o marcador TAMB M numa posi o adequada procurando manter a ordem S V O Pode ser necess rio explicitar o sujeito constitu do do n cleo do termo da ora o principal bem como o verbo ou objeto caso estejam ocultos 4 Conclusivas expressam a id ia de conclus o consequ ncia logo portanto por conseguinte pois proposto ao verbo etc Regra Dividir a senten a em duas 1 Senten a original sem a cl usula subordinada 38 2 Senten a para a cl usula subordinada excluindo se o marcador de conclus o e incluindo se o marcador COM ISSO Pode ser necess rio explicitar o sujeito constitu do do n cleo do termo da ora o principal bem como o verbo ou objeto caso estejam ocultos
76. ornament owner P Z page pain paint paper part paste payment peace person place plant play pleasure point poison polish porter position powder power price print process produce profit property prose protest pull punishment purpose push quality question rain range rate ray 59 reaction reading reason record regret relation religion representative request respect rest reward rhythm rice river road roll room rub rule run salt sand scale science sea seat secretary selection self sense servant sex shade shake shame shock side sign silk silver sister size sky sleep slip slope smash smell smile smoke sneeze snow soap society son song sort sound soup space stage start statement steam steel step stitch stone stop story stretch structure substance sugar suggestion summer support surprise swim system talk taste tax teaching tendency test theory thing thought thunder time tin top touch trade transport trick trouble turn twist unit use value verse vessel view voice walk war wash waste water wave wax way weather week weight wind wine winter woman wood wool word work wound writing year Coisas 200 palavras concretas angle ant apple arch arm baby bag ball band basin basket bath bed bee bell berry bird blade board boat bone book boot bottle box boy brain brake branch br
77. os manuais de instru es podem ter diferentes estilos nem todas as instru es s o registradas usam uma segii ncia de imperativos como seria mais natural de se esperar e que diferentes partes do manual freq entemente usam diferentes estilos Aouladomar 2005a faz uma an lise da estrutura de manuais e de perguntas relacionadas a textos procedimentais por exemplo Como e Por qu e mostra que perguntas e fragmentos de textos procedimentais podem ser combinados a fim de produzirem respostas para m quinas de busca O Fil sofo Alvin Goldman identificou duas rela es procedimentais b sicas gera e habilita Goldman 1970 apud Delin 1994 A rela o gera uma rela o que aparece entre duas a es e que passa o sentido de que a ap s a realiza o da a o A a a o B ocorrer automaticamente ou seja A gera B No portugu s express es ling sticas da rela o gera geralmente envolvem o conectivo para primeiramente seguido por um infinitivo e em ocasi es raras seguido por um sintagma nominal O seguinte trecho de um manual de instru es em portugu s de uma serra el trica exemplifica essa rela o Delin 1994 Para colocar a serra na posi o de corte obl quo solte a porca borboleta e incline a sapata para o ngulo desejado Black amp Decker A rela o habilita o tipo de rela o que ocorre quando a realiza o de uma a o A n o resulta na real
78. postas recuperadas e Cobertura a raz o de respostas corretas e todas as respostas corretas poss veis Dentre os m todos implementados o que retornou a melhor precis o foi o m todo semi autom tico estat stico interven o humana seguido pela abordagem h brida estat stica e por ultimo a ling stica Os resultados da precis o podem ser observados na Figura 5 Precis o Estat stico Int humana Ling stico H brido li Uni Freq ll Bi Freq lii Bi Inf M tua E Bi Log ld Bi Dice E Tri Freq ii Tri Inf M tua W Tri Log Figura 5 Precis o obtida pelas tr s abordagens e a semi autom tica Teline 2004 Para cobertura a abordagem ling stica retornou os melhores resultados seguidos pela semi autom tica estat stica e h brida Os resultados de cobertura obtidos podem ser observados na Figura 6 Revoca o Estat stico Int humana Ling stico H brido ld Uni Freq li Bi Freq ld Bi Inf M tua E Bi Log ld Bi Dice E Tri Freq i4 Tri Inf Mutua id Tri Log Figura 6 Cobertura obtida pelas tr s abordagens e a semi autom tica Teline 2004 45 Para calcular o desempenho da tarefa usada a medida F que uma medida que permite colocar nfase na precis o e na cobertura sendo B um par metro que representa a import ncia relativa da precis o e cobertura F B 1 precis o revoca o B precis o revoca
79. ramas e bigramas candidatos a termos Esta interven o foi feita com o intuito de eliminar palavras e siglas da l ngua geral marcas publicit rias nomes pr prios e s mbolos especiais Neste caso o m todo estat stico com interven o humana considerado um m todo semi autom tico Na abordagem ling stica foi feito um pr processamento no corpus para permitir a realiza o de consultas sobre o mesmo O primeiro tipo de consulta realizada no corpus a busca por express es e indicadores estruturais que s o express es ling sticas que geralmente vem acompanhados de defini es descri es e outros tipos de ora es que concentram termos Em seguida feita uma busca padr es morfossint ticos Ex Substantivo adjetivo Al m disso nesta abordagem feito o uso de uma stoplist que uma lista contendo palavras da l ngua geral Na abordagem h brida foi feito o processamento do corpus e a buscas por express es e indicadores estruturais em seguida foram aplicados m todos estat sticos c lculo de freq ncia para unigramas bigramas e trigramas e informa o m tua para bigramas Ap s essas etapas foi feita uma intersec o com a lista de padr es morfossint ticos Para avaliar o desempenho dessas abordagens foram utilizadas m tricas cl ssicas da lt rea de processamento de sinais como a Precis o e Cobertura Precis o a raz o das 44 respostas corretas recuperadas pelo sistema e todas as res
80. riamente terminar antes de Y No exemplo a seguir hold segurar deve continuar por toda dura o de fill encher Hold the cup under the spigot to fill it with coffee Segure a x cara embaixo da torneira para ench la com caf Do mesmo jeito que a rela o gera afeta a execu o do gerador a a o habilita afeta a execu o da a o habilita 2 2 2 Gera o Multil ngiie de Manuais de Instru o O Instituto de Pesquisa em Tecnologia da Informa o ITRI existiu como um departamento da Universidade de Brighton at 2005 entretanto a pesquisa em Processamento de Linguagem Natural continua nesta universidade com o grupo Natural Language Technology Group NLTG Dentre as v rias pesquisas desenvolvidas tanto no ITRI como no NLTG neste projeto nos interessa as que envolvem estudos de corpus de textos instrucionais e os projetos relacionados a este g nero de textos Dois projetos s o importantes nesta pesquisa DRAFTER DRafting Assistant For TEchnical wRiters e AGILE Automatic Generation of Instructions in Languages of Eastern Europe DRAFTER DRafting Assistant For TEchnical wRiters Paris and Scott 1994 Delin et al 1994 Paris et al 1995 foi um projeto de 4 anos de dura o que utilizou a tecnologia da gera o multil ngiie para dar suporte na produ o de manuais de usu rio de produtos de software em franc s e em ingl s AGILE utilizou a tecnologia para gera o de manuais de software em m ltip
81. ru es para manter o texto interessante A maioria das regras vagas ou orienta es de metas podem ser vistas como princ pios que se aplicam boa pr tica de escrita de forma geral Mitkov 2003 2 1 5 Linguagem Simplificada em Textos do Portugu s do Brasil H uma tend ncia atual pelo governo brasileiro da cria o de guias ou cartilhas que utilizam uma linguagem simples e acess vel a pessoas de qualquer idade e com um menor grau de instru o Tamb m a RESOLU O No 7 DE 29 DE JULHO DE 2002 estabelece regras e diretrizes para os sites da Administra o P blica Federal que ditam que as p ginas devem ser de f cil legibilidade apresentar os conte dos com clareza simplicidade objetividade organicidade atualidade e veracidade usar linguagem simples e direta especialmente nas p ginas iniciais al m de outros crit rios No meio jur dico a campanha Simplifica o da Linguagem Jur dica lan ada pela Associa o dos Magistrados Brasileiros AMB em 2005 foi criada para que magistrados advogados promotores e outros operadores do Direito utilizem linguagem mais simples para facilitar o entendimento da popula o em geral Nesta campanha foi lan ado um livro contendo um gloss rio com as express es t cnicas mais usuais nos meios forenses e as respectivas tradu es na tentativa de combater o juridiqu s Geralmente estas cartilhas de orienta o legal COL tornam as leis mais acess veis ao desconstruir a li
82. s como ordens e proibi o Explica es sobre essas diretivas raramente s o dadas A forma como essas diretivas s o passadas para o leitor podem variar conforme o quanto o autor deseja ser pessoal impessoal Essas diretivas podem ser passadas atrav s do uso de imperativos quando o autor est bem pr ximo refer ncia direta do leitor Quando o autor n o est t o pr ximo assim do leitor o uso de deve na forma modal acompanhado de um adv rbio pode ser usado Quando o autor est muito 24 distante do leitor a ordem n o est referida diretamente ao leitor as diretivas s o dadas na forma passiva ou atrav s de verbos que requerem que o objeto se torne o sujeito sint tico junto com um adv rbio para enfatizar Em todos os casos ee diretivas fortes podem ser transmitidas usando termos como nunca ou sob nenhuma circunst ncia como parte da senten a ou mesmo como uma senten a separada e Explica es sobre a melhor maneira de completar uma tarefa O leitor recebe ajuda sobre como alcan ar uma tarefa e uma explica o do porqu deveria ser feito da maneira prescrita Isto oferece uma oportunidade para o leitor de construir um modelo mental da tarefa ou do produto 1 Information Provision from Dietrich self cleaning enamel oven L mail auto nettoyant est de couleur brun fonc mouchet de blanc pour certaines pieces Loose English Translation The self cleaning enamel is dark brown sp
83. sa de atua o nacional Foram encontrados 333 manuais de instru es em formato pdf Para tornar poss vel o trabalho com estes manuais necess rio convert los para o formato de texto puro Durante o processo de convers o 144 manuais apresentaram problemas que ainda n o foram resolvidos restando 189 manuais em formato texto Al m disso o corpus ser utilizado na tarefa de extra o de termos que ser apresentada na Se o 5 1 2 5 1 2 Proposta de um M todo de Extra o de Termos T cnicos Sens vel ao G nero Instrucional Procedimental Durante a tarefa de simplifica o de manuais t cnicos preciso tomar um cuidado especial em rela o aos termos t cnico presentes no texto Manuais t cnicos cont m termos que n o podem ser exclu dos Caso um termo t cnico seja erroneamente suprimido do texto ou trocado por um mais simples durante o processo de simplifica o o sentido final da senten a poder ficar seriamente afetado prejudicando o entendimento do leitor Para evitarmos esse tipo de situa o ser executada uma etapa de extra o de termos descrita nesta subse o Nesta etapa do projeto o m todo de extra o de termos implementado ser uma adapta o do m todo h brido implementado por Teline 2004 Neste m todo o primeiro passo a extra o das ora es que possuem certos padr es que s o passados como par metro Esses padr es s o express es e indicadores estruturais que geralm
84. t cnicos sens vel ao g nero instrucional procedimental e Adapta o do Manual de Simplifica o Sint tica para tratar de textos instrucionais procedimentais e Adapta o do Editor de Simplifica o SIMPLIFICA para manuais t cnicos As etapas descritas acima ser o detalhadas nas subse es seguintes 5 1 1 Compila o e An lise de um Corpus de Manuais T cnicos lt O primeiro passo a ser realizado neste projeto a compila o de um corpus de manuais t cnicos A partir deste corpus poder ser feito um estudo de como as rela es entre a es generation gera e enablement habilita s o realizadas 48 O corpus a ser criado ter tr s conjuntos de manuais e Manuais t cnicos de produtos fabricados por empresas de atua o mundial e Manuais t cnicos de produtos fabricados por empresas de atua o nacional e Manuais t cnicos de produtos fabricados por empresas locais A partir destes tr s conjuntos de manuais esperamos obter uma amostra atualizada dos formatos de manuais utilizados por empresas de porte pequeno at as multinacionais Esta etapa do projeto j foi iniciada Foi feita uma pesquisa na web e foi constatada a E TX 2p a spas 22 lt disponibilidade p blica dos manuais de instru o da empresa Brit nia que uma empresa brasileira com mais 50 anos de mercado e que comercializa eletro port teis e eletr nicos Os manuais desta empresa se encaixam na categoria de manuais de empre
85. t Grammatical Processing for Discourse Segmentation PhD Thesis School of Computing Sciences University of East Anglia Norwich MAX A 2006 Writing for Language impaired Readers InProceedings of Seventh International Conference on Intelligent Text Processing and Computational Linguistics Mexico City Mexico February 19 25 2006 CICLing 2006 Springer Verlag Berlin Heidelberg New York 567 570 MITKOV R 2003 The Oxford Handbook of Computational Linguistics Oxford Handbooks in Linguistics S Oxford University Press 2003 OGDEN C K 1932 Basic English A General Introduction with Rules and Grammar London Paul Treber amp Co PANTEL P LIN D 2001 A statistical corpus based term extractor In E Stroulia amp S Matwin Ed AI 2001 Lecture Notes in Artificial Intelligence Springer Verlag p 36 46 PARIS C and SCOTT D 1994 Stylistic variation in multilingual instructions In Proceedings of the Seventh International Workshop on Natural Language Generation Kennebunkport MN 21 24 June 1994 pages 45 52 PARIS C VANDER LINDEN K FISCHER M HARTLEY A PEMBERTON L POWER R SCOTT D 1995 A support tool for writing multilingual instructions In Proceedings of the 14th International Joint Conference on Artificial Intelligence pages 1398 1404 Montreal Canada 1995 PETERSEN S E OSTENDORF M 2007 Text Simplification for Language Learners A Corpus Analysis 2007 In Pr
86. tante no in cio g Use gr ficos planilhas e imagens para refor ar pontos e fatos complicados h Use ndices sum rio para documentos grandes ou crie uma introdu o curta com o conte do de cada item Outras recomenda es para reescrever e revisar textos s o 1 Mantenha o sujeito e o verbo pr ximos do in cio da senten a ii Explique somente uma id ia por senten a lii Fa a frases entre 25 a 35 palavras em m dia dados para o ingl s iv Use verbos em vez de substantivos para exemplificar sua a o 7 s http www plainlanguage gov http www plainlanguagenetwork org 10 v vi vii viii ix X xi xii xiii Use a voz ativa tendo certeza que o autor bem definido como sua a o Use palavras e construa sentengas positivas evite frases com aspectos negativos Fa a uma sintaxe constru o gramatical simples Evite a formalidade quando desnecess rio Simplifique suas palavras escolha a linguagem cotidiana Evite jarg es palavras estrangeiras e termos jur dicos Use palavras t cnicas com cuidado defina ou providencie exemplos descritivos Minimize abrevia es Coloque a id ia principal antes das exce es e condi es Use termos e conceitos importantes de maneira consistente Entretanto mesmo as recomenda es da Plain Language n o especificam detalhadamente o que seria uma sintaxe simples nem o que seria a linguagem cotidiana embora o manual com as recom
87. tantivo Adjetivo Substantivo Preposi o Substantivo Substantivo Adjetivo Figura 9 Padr es morfossint ticos para extra o de termos compostos Para termos simples s o utilizados os padr es usados por Teline 2004 que podem ser observados na Figura 10 Substantivo Adjetivo Verbos Figura 10 Padr es morfossint ticos usados na extra o de termos simples Na adapta o do m todo h brido os padr es da Figura 9 ser o trocados pelos padr es das rela es gera e habilita extra dos da an lise de corpus realizada na tarefa descrita na Se o 5 1 1 Os padr es morfossint ticos ser o muito possivelmente os mesmos mostrados nas Figuras 9 e 10 75 http www d umn edu tpederse nsp html 51 5 1 3 Adaptac o do Manual de Simplificac o Sint tica e do SIMPLIFICA para Tratarem de Textos Instrucionais Procedimentais Nesta etapa do projeto com a an lise de corpus realizada ser o propostas regras de simplifica o para as rela es gera e habilita e ser implementada uma interface para edi o de manuais t cnicos baseada no Editor de Simplifica o do projeto PorSimples A partir da interface o usu rio poder criar textos para manuais t cnicos e durante essa etapa de cria o do texto ser o apresentadas sugest es e corre es visando simplifica o do texto instrucional Para isso ser feito uso do parser PALAVRAS Bick 2000 para a extra o do
88. tes de postura que um manual pode adotar com exemplos em franc s e ingl s mostrados na Figura 3 que s o apresentados abaixo Fornecimento de Informa o O texto concentra se na informa o factual a ser transmitida Essa postura pretende aumentar o conhecimento do leitor sobre o produto tarefa em quest o Para transmitir informa o os escritores mostram forte prefer ncia pelo uso de declara es ativas simples Elogio O texto enfatiza os aspectos positivos do produto e parabeniza o leitor pela boa escolha na aquisi o Neste caso tamb m s o usadas declara es simples ativas mas muito qualificadores s o usados geralmente s o adjetivos positivos e superlativos Eles s o usados para mostrar a superioridade dos atributos do produto o conforto a qualidade do material entre outros Diretivas sobre como realizar uma tarefa O leitor deve realizar uma tarefa exatamente como prescrita A l gica por tr s das prescri es n o considerada necess ria A fun o principal do manual de instru es fazer com que o leitor execute ou evite a es espec ficas O jeito mais simples de fazer isso atrav s do fornecimento de dire es que o usu rio deve tomar para fazer ou n o alguma a o A preocupa o que o leitor siga as instru es e n o que ele saiba o porqu da a o ser ou n o executada O texto leva a autoridade do autor sobre o leitor e o deixa sem escolha S o usados atos da fala de diretivas forte
89. to s o segundo Leffa 1996 o texto o leitor e as circunst ncias em que se d o encontro Entre os fatores relativos ao texto destacam se a legibilidade apresenta o gr fica do texto e a inteligibilidade uso de palavras freq entes e estruturas sint ticas menos complexas As linguagens controladas surgiram para amenizar o problema da inteligibilidade de textos ao reduzirem a complexidade da estrutura sint tica do texto ao realizarem a desambigua o lexical e ao tratarem de problemas de tradu o pois o controle sem ntico e sint tico facilita a tradu o de uma l ngua para outra Podemos citar as seguintes vantagens no uso de linguagens controladas Altwarg 2006 Burg 1996 Cole 1997 e Melhoria na inteligibilidade pela redu o da ambig idade lexical e estrutural e por prescrever regras estil sticas e Melhoria na manutenibilidade que consequ ncia direta da melhoria na inteligibilidade e Processamento computacional facilitado em fun o da ambig idade reduzida e das regras estil sticas prescritas e Tradu o autom tica facilitada Existem tamb m algumas desvantagens que devem ser conhecidas segundo Altwarg 2006 Burg 1996 Cole 1997 e Redu o do poder de express o causada por restri es da linguagem e Redu o na velocidade de escrita pois necess rio pensar mais para decidir que palavras e constru es sint ticas s o permitidas para serem usadas A corre o das vi
90. tp bulario bvs br P http ich unito com br 13 meteorol gicos manuais de manuten o de avi es artigos cient ficos sobre f rmacos e an ncios de venda de im veis Grishman 2001 Por exemplo a palavra chip no dominio da computa o significa um peda o de material semicondutor enquanto chip em um bar brit nico significa um pedago de batata frita Cada um destes dom nios tem um vocabul rio para suas necessidades A principal diferen a entre uma linguagem controlada e uma subl ngua que na linguagem controlada os termos a sintaxe e a sem ntica s o propositalmente limitados geralmente com objetivos particulares em mente e na subl ngua essas limita es n o s o especificadas e evoluem naturalmente Altwarg 2006 2 2 Tratamento de Textos Instrucionais em Trabalhos de PLN Nesta se o apresentamos trabalhos de an lise de corpus de manuais de instru o em v rias l nguas para a cria o de modelos computacionais de instru o Se o 2 2 1 a cria o de uma ferramenta baseada na tecnologia de gera o multil ngiie que d suporte produ o de manuais de usu rio de produtos de software Se o 2 2 2 a cria o de sistemas de perguntas e respostas baseados na estrutura global de textos instrucionais procedimentais Se o 2 2 3 Tanto o trabalho de Di Eugenio 1992 apresentado na Se o 2 2 1 como o do grupo de pesquisadores que desenvolveram o DRAFTER Delin et al 1994

Download Pdf Manuals

image

Related Search

Related Contents

Tucano Contatto  Fujitsu CELSIUS W510  No Bark Static Shock Training Collar User Manual  DNR-202L - Data Sheet  User Manual - linux  EZ Zone PM User Manual  Montage- und Wartungsanleitung  

Copyright © All rights reserved.
Failed to retrieve file