Home

Identificaç˜ao Automática de Nomes Compostos - INESC-ID

image

Contents

1. 56 4 4 Resultados LocalMaxs para o padr o nome de nome 59 vi List of Tables 2 1 4 1 4 2 4 3 4 4 4 5 4 6 4 7 4 8 4 9 4 10 4 11 4 12 4 13 4 14 Caracter sticas dos m todos e 25 Matriz de resultados 2 2222 les 50 Resultados dos filtros es 51 Resultados HELAS para o padr o nome adjetivo com a medida SCP 52 Resultados HELAS o padr o nome adjetivo com a medida 52 Resultados HELAS para o padr o nome de nome com a medida SCP 53 Resultados HELAS para o padr o nome de nome com a medida 62 54 Resultados do LocalMazs para a estrutura nome adjetivo quando a cadeia n o identifica nomes compostos 2 ll rs 55 Resultados LocalMaxs para a estrutura nome adjetivo quando a cadeia identifica homes COMPOSTOS uos con eom oko mom e mn EUR SR ORG 55 Resultados cruzados para a estrutura nome adjetivo quando a cadeia n o identi fica nomes compostos 56 Resultados cruzados para estrutura nome adjetivo quando a cadeia identifica HOMES COMADOS OS oic ta A A A en a E 57 Resultados do LocalMazs para a estrutura nome de nome quando cadeia n o identifica nomes compostos 58 Resultados LocalMazs para a estrutura nome de nome quando a cadeia iden
2. 4 2 8 Valida o manual por amostragem 4 3 CriteriOssSimbacticOs o Ree SUR 5 Conclus o e Trabalho Futuro 5 1 Conclus o 5 27 Trabalho Future 4 SE ut ee Se ee eo EX E Bibliography 49 49 49 49 50 51 51 51 54 55 56 57 58 59 60 65 65 66 69 A Lista de nome adjetivo classificados como compostos e respectivas ocorr ncias 71 iii B Lista de nome de nome classificados como nomes compostos e respectivas ocorr ncias 81 lv List of Figures 1 1 Cadeia de Processamento STRING 5 1 2 Arquitectura 0 7 3 1 A frase A mesa redonda processada pelo 33 3 2 A frase A mesa que redonda processada pelo XIP 34 3 3 A frase Esta janela grande e bonita processada pelo XIP 37 3 4 frase Uma janela grande e bonita processada pelo XIP 37 3 5 express o Uma chave de parafusos e de porcas processada pelo XIP 42 3 6 A express o Uma bolacha de gua e sal processada pelo XIP 43 4 1 Resultados HELAS para o padr o nome adjetivo 53 4 2 Resultados HELAS para o padr o nome 54 4 3 Resultados LocalMaxs para o padr o nome
3. 36 3 1 1 4 Elis o do adjetivo 38 3 1 1 5 Ruptura 39 3 1 1 6 Varia o em 39 3 2 Estrutura Nome de Nome 40 3 2 1 Crit rios Sint cticos ee 41 i 3 2 1 1 Inser o de elementos no grupo 1 3 2 1 2 Coordena o de grupos 3 2 1 3 Varia o do determinante de 2 3 2 1 4 Elis o de elementos do grupo 1 3 2 1 5 3 2 1 6 Varia o em 4 Avalia o e Resultados 4 1 Avalia o 4 1 1 Filtros Nome Adjetivo e Nome de 4 1 2 M todos e algoritmos 4 1 3 Crit rios Sint cticos 4 2 Resultados 4 2 1 Filtros Nome Adjetivo e Nome de 4 2 2 Algoritmo HELAS soe RUDE EDS ae Daeg 4 2 3 Algoritmo LocalMaxs e os compostos Nome Adjetivo 4 2 4 Cruzamento das medidas 4 2 5 Valida o manual por amostragem 4 2 6 Algoritmo LocalMazs e os compostos Nome de Nome 4 2 7 Cruzamento das medidas
4. Uma bolacha de gua sal MAIN e QUANTO bolacha Uma COORD e bolacha COORD e sal MOD POST bolacha gua O gt TOP NP Uma bolacha PP de gua e NP sal33 Figure 3 6 A express o Uma bolacha de gua e sal processada pelo XIP modificador MOD entre estes nomes e o nome que cabe a do grupo nominal No exemplo 3 6 obt m se as mesmas depend ncias de coordena o mas apenas se extrai a depend ncia de MOD Tal deve se ao facto de se ter considerado que sem informa o adicional n o era poss vel determinar o escopo da conjun o tendo a decis o sido adiada para mais tarde O programa para reconhecer estes padr es funciona da seguinte forma Ao percorrer a rvore xml da frase s o colocadas numa lista todas as palavras da frase com as suas respectivas categorias gramaticais Sao colocadas numa lista todas as estruturas nome de nome encontrados na frase Nos n s DEPENDENCY s o procuradas as tags COORD e MOD POST e guardados os seus pares de palavras Verifica se se nos pares COORD a segunda palavra um NOUN se forem verifica se se existem duas situa es em que um MOD POST e um COORD tenham a segunda palavra igual e que desses MOD POST a primeira palavra perten a a uma das estruturas nome de nome encontradas na frase Tamb m verificado se existe un COORD em que a segunda palavra perten a a uma das estruturas nome de nome encontradas se for encontrado procura se por un
5. 62 Matriz de resultados do crit rio elis o do segundo nome na estrutura nome de A A S Eau Sa ur dus dida 62 Matriz de resultados do crit rio ruptura paradigm tica na estrutura nome de nome 62 Matriz de resultados do crit rio varia o em n mero na estrutura nome de nome 62 Precis o dos crit rios sint ticos na estrutura nome de nome 63 Acronyms CAM Combined Association Messure GALEMU Genetic Algorithm for the Extraction of Multiword Units HDFS Hadoop Distributed File System HELAS Hybrid Extraction of Lexical Associations LVQ Learning Vector Quantization ME Mutual Expectation NE Normalized Expectation PLN Processamento de L ngua Natural RuDriCo 2 Rule Driven Converter SCP Symmetrical Conditional Probability SMI Specific Mutual Information SSC Simpson Similarity Coefficient STRING Statistical and Rule based Natural Language Processing XIP Xerox Incremental Parser Chapter 1 Introducao 1 1 Motiva o unidade lexical pode ser definida como uma express o a que se encontra associado um ou mais significados Azuaga Faria Ribeiro Duarte amp Gouveia 1996 Chama se palavra composta quando duas ou mais unidades lexicais formam uma combina o em que apresentam um conceito novo diferente da composi o do significado dos elementos componentes Por exemplo chap u de chuva uma palavra composta porque o seu significado objecto diferente da composi
6. O Z leu o livro de bolso e o do Pedro Quando os dois grupos nominais s o ambos nomes compostos e o primeiro nome de cada um o mesmo a pronominaliza o do substantivo repetido tamb m bloqueado A Ana discutiu com o juiz de direito e com o juiz de fora A Ana discutiu com o juiz de direito e com o de fora 30 CHAPTER 2 TRABALHO RELACIONADO 2 4 9 Variacao do determinante de N2 A maioria dos compostos Nome de Nome apresenta uma elevada fixidez quanto ao preenchimento da posic o de determinante do segundo nome Este determinante quase sempre ou o artigo definido ou o determinante zero aus ncia de determinante A Ana colecciona estrelas de E mar A Ana colecciona estrelas de um este esse aquele seu mar O Pedro tem uma estrela de E o David O Pedro tem uma estrela de um este esse aquele o seu David 2 4 10 Elisao de elementos do grupo nominal Os nomes compostos Nome de Nome nao admitem a omiss o do primeiro nome no entanto um reduzido n mero permite que nao s o primeiro nome seja omitido mas tamb m a preposic o de e o eventual determinante do segundo nome O Z tomou um vinho do Porto O Z tomou um Porto O determinante do composto mant m se na variante eliptica Se se tratar de um numeral o segundo nome passa a plural Bebemos dois vinhos do Porto da Madeira diferentes Bebemos dois Portos Madeiras diferentes Em muitos compostos Nome de Nome
7. ME wi pyiwi pin wn p wi gt pyiwi PintUn xNE w1 PiWi pin wn 6 em que um n grama definido algebricamente pelo vector de palavras wi py w pia wn Wi uma palavra no n grama p representa a dist ncia que separa a palavra w da palavra w p indica a frequ ncia e NE o c lculo da Normalized Expectation 2 1 7 Simpson Similarity Coefficient O m todo Simpson Similarity Coefficient Mart nez Santiago D az Galiano Mart n Valdivia Rivas Santos amp na Lopez 2002 avalia a associac o entre duas palavras calculando a divis o da intersecc o de duas palavras com o mais pequeno dos dois de forma a n o subvalorizar conjuntos em que uma das palavras possuiu uma frequ ncia muito mais alta relativamente palavra que se combina o que daria uma valor muito baixo para este conjunto Este m todo pode ser definido pela equac o 7 2x f w1p12w2 7 SIMPSON UPS nC fus em que f wipi2w2 f w1 e f wa representam respectivamente as frequ ncias do bigrama w1p12w2 dos unigramas w1 e w2 pi2 representa a dist ncia entre as palavras e we 2 1 8 Symmetrical Conditional Probability O m todo Symmetrical Conditional Probability Lopes amp Silva 1999 mede a coes o de duas palavras num bi grama pela equac o 8 T 2 SCP a y p xly p ylz 2 2 ALGORITMOS E SISTEMAS 15 em que p x y p x e p y s o respectivamente a pro
8. Table 4 21 Precis o dos crit rios sint ticos na estrutura nome adjetivo Perda de predicatividade 35 1 Coordena o 25 3 Varia o em grau 37 3 Elis o do adjetivo 66 9 Ruptura Paradigm tica 75 2 Varia o em n mero 56 4 Nome Composto Combinat ria livre Table 4 22 Matriz de resultados do crit rio inser o de modificadores na estrutura nome de nome Nome Composto Combinat ria livre Table 4 23 Matriz de resultados do crit rio varia o do determinante na estrutura nome de nome Nome Composto Combinat ria livre Table 4 24 Matriz de resultados do crit rio coordenacao na estrutura nome de nome Nome Composto Combinat ria livre Table 4 25 Matriz de resultados do crit rio elis o do segundo nome na estrutura nome de nome Nome Composto Combinat ria livre Table 4 26 Matriz de resultados do crit rio ruptura paradigm tica na estrutura nome de nome Nome Composto Combinat ria livre Table 4 27 Matriz de resultados do crit rio varia o em n mero na estrutura nome de nome crit rio presente crit rio n o presente 9 1 0 9 87 8 2 2 crit rio presente crit rio n o presente 7 4 2 6 79 4 10 6 crit rio presente crit rio n o presente 8 2 1 8 86 5 3 5 crit rio presente crit rio n o presente 10 0 90 0 crit ri
9. o dos significados de chap u e de chuva separadamente A identifica o autom tica de palavras compostas pertence rea do Processamento de L ngua Natural PLN e til em sistemas de tradu o sistemas Pergunta Resposta extrac o de informa o e sumariza o autom tica Entre outras aplica es que envolvam a identifica o das unidades de significado dos textos As palavras compostas podem pertencer a diferentes categorias gramaticais nomes adje tivos bonito alto grande etc preposi es de em para etc conjun es mas e logo como etc etc Os nomes compostos constituem provavelmente o conjunto mais numeroso das palavras compostas do l xico de muitas l nguas naturais No caso dos nomes compostos estes podem apresentar diferentes estruturas morfossint cticas Por exemplo o nome chap u de chuva constitu do por dois nomes ligados por uma preposi o j o nome buraco negro constitu do por um nome e por um adjetivo Uma das dificuldades na identifica o de termos compostos justamente o facto de os nomes compostos apresentarem uma estrutura interna id ntica dos grupos nominais ordin rios chap u de cabedal buraco escuro tal como nas palavras simples alguns compostos tamb m podem ser amb guos permitindo uma leitura composicional v rias unidades lexicais ou n o um composto dependendo do contexto em que forem empregues Nesse sentido pode n o ser desej vel c
10. 2 2 3 GALEMU Foi proposto um algoritmo gen tico chamado GALEMU Genetic Algorithm for the Extraction of Multiword Units Dias amp Nunes 2004 que como primeiro passo vai segmentar o corpus numa lista de n gramas posicionais Depois cada n grama posicional associado a uma lista de atributos com valores por exemplo frequ ncia tamanho grau de coes o que representa um cromossoma espec fico de toda a popula o Depois da popula o estar definida a fitness function providencia o melhor gen tipo que o m ximo global Finalmente para extrair os termos compostos aplica se uma medida de similaridade entre o n grama posicional que est a ser analisado com o melhor gen tipo escolhido anteriormente 2 2 ALGORITMOS E SISTEMAS 19 Para a identificac o de sequ ncias de palavras com um grau de coes o elevado foram definidas sete vari veis que correspondem s heur sticas da procura Heur stica ro Quanto mais coesa for uma sequ ncia de palavras mais prov vel ser ela constituir um termo composto Assim a primeira heur stica ser definida como a medida de associa o Mutual Expectation de um dado n grama Heur stica 21 A frequ ncia tamb m considerada como um crit rio forte para a identi ficac o de palavras compostas assim esta heur stica definida como a frequ ncia de um dado n grama Heur stica z2 E um facto que se um n grama aparecer dentro de outro n grama mais longo i e super grupo
11. a mais importante porque pode vir a melhorar outros projectos que usem a cadeia Estender o trabalho para outras estruturas tamb m relevante porque a cadeia de processamento tende a melhorar com a identifica o destas express es compostas permitindo uma mais precisa identifica o das unidades de sentido num texto Bibliography Adriani M amp C J V Rijsbergen 1999 Term similarity based query expansion for cross language information retrieval In Proceedings of the Third European Conference on Re search and Advanced Technology for Digital Libraries ECDL 99 pp 311 322 Ait Mokhtar Salah Jean Pierre Chanod and Claude Roux 2002 Robustness beyond shal lowness Incremental deep parsing Natural Language Engineering 8 Cambridge Univer sity Press New York pp 121 144 Azuaga L 1 Faria E Ribeiro I Duarte amp C Gouveia 1996 Introduc o lingu stica geral e portuguesa Lisboa Caminho pp 215 244 Ballesteros L amp W B Croft 1998 Resolving ambiguity for cross language retrieval In SIGIR 798 Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval New York NY USA pp 64 71 ACM Baptista J 1994 Estabelecimento e formaliza o de classes de nomes compostos Master s thesis Faculdade de Letras da Universidade de Lisboa Lisboa Church K W amp P Hanks 1990 Word association norms mutual information and lex
12. Systems Master s thesis Universidade T cnica de Lisboa Portugal Mamede N 2011 STRING A Cadeia de Processamento de L ngua Natural do L F em Fevereiro de 2011 Technical Report L F Laborat rio de Sistemas de L ngua Falada INESC ID Lisboa Lisboa Manning amp Schiitze 1999 Foundations of Statistical Natural Language Processing Cambridge Massachussets Mart nez Santiago F D az Galiano Mart n Valdivia V Rivas Santos amp L U na Lopez 2002 Using Neural Networks for Multiword Recognition in IR In Proceedings of Conference of International Society of Knowledge Organization ISKO 02 Granada Espanha pp 559 564 BIBLIOGRAPHY 69 Miller 1995 Wordnet A lexical database for english Communications of the ACM 38 39 41 Pardal J 2007 Manual do Utilizador do RuDriCo L F Laborat rio de Sistemas de L ngua Falada INESC ID Lisboa Lisboa Pecina amp Schlesinger 2006 Combining Association Measures for Collocation Extrac tion In ACL 06 pp 652 Ribeiro R L Oliveira amp I Trancoso 2003 Using morphossyntactic information in tts In In Computational Processing of the Portuguese Language 6th International Workshop PROPOR 2008 pp 26 27 Springer Santos D amp Rocha 2001 Evaluating CETEMP blico a free resource for Portuguese In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics Toulouse
13. civilizac o burgu s 14 fim caritativo 14 campo raso 13 pai desconhecer 13 ar despreocupar 13 centro oceanogr fico 13 ind stria hollywoodiano 12 centro l dico 12 alimentador autom tico 12 gasto corrente 12 pessoal militarizar 12 comportamento negligente 12 kung fu 11 menino feio 11 cabeca tapar 11 aleitamento materno 11 danca sagrar 11 cara chapar 11 zona urbaniz vel 11 cabimentac o orcamental 11 futuro long nquo 11 sinalizac o informativo 11 soberania territorial 11 jantar informal 11 residuo recicl vel 10 funcionamento experimental 10 diarreia hemorr gico 10 g s asfixiante 10 dissen e interno 10 pescoco esticar 10 heter nimo pessoano 10 corac o cheio 10 carapau frigir 10 continente latino americano 10 abuso verbal 9 termo afetivo 9 explorac o sustent vel 9 custa alheio 9 v deo experimental 9 levantamento arquitet nico 9 automobilismo internacional 9 T5 76APPENDIX A LISTA DE NOME ADJETIVO CLASSIFICADOS COMO COMPOSTOS E RESPECTIVAS separa o amig vel 9 sem foro verde 9 drama rom ntico 9 unidade anti terroristo 9 cr nica radiof nico 9 utiliza o sustent vel 9 interven o florestal 9 purga estalinista 9 balanceamento atacante 8 pesticida qu mico 8 coma superficial 8 semin rio conciliar 8 polimorfismo humano 8 modo fasear 8 vers o suave 8 parede externo 8 via descendente 8 norma imperativo 8 soma positivo 8 aprofundamento institucional 8 t
14. ria sobre a inclus o ou n o uma combinat ria no l xico dos sistemas de PLN Nesse sentido a determina o destes ndices de fixidez pode contribuir de forma significativa 2 4 1 Perda de predicatividade do adjetivo Adjetivos predicativos s o adjetivos que aceitam o contexto p s verbo copulativo ou seja quando um adjetivo em posi o p s nominal um atributo do substantivo que modifica a predi ca o que exerce sobre o substantivo pode ser parafraseada por uma frase com verbo copulativo ser e ou estar Quando um adjetivo que predicativo combinado com certos nomes O Z tomou um xarope amargo O Z tomou um xarope que era estava amargo deixa de aceitar o contexto predicativo quando combinado com outros nomes O Z tomou uma am ndoa amarga O Z tomou uma am ndoa que era estava amarga diz se ent o que o adjetivo perdeu a sua predicatividade o que um sinal de fixidez sint ctica dessa constru o 2 4 2 Varia o do adjetivo em grau Num grupo nominal livre em que o adjetivo predicativo geralmente poss vel faz lo variar em grau mas quando o adjetivo forma com o substantivo um nome composto observam se restri es quanto sua varia o em grau O Z esqueceu se de p r o acento grave muito grave grav ssimo Estas restri es constituem um sinal claro de fixidez existente entre os elementos da com bina o nome adjetivo Por m existem adjetivos qu
15. vida 21 cl nica de aborto 20 calco de trav o 19 poco de recarga 16 locutor de continuidade 15 cassete de video 13 leao de bronze 13 manga de camisa 11 carbonato de calcio 10 di logo de bateria 10 caderneta de racionamento 10 cavalo de toiro 10 ajudante de eletricista 9 hijo de puta 9 pega de cernelha 8 sequ ncia de tecla 8 reencaminhamento de chamada 8 c ntimo de euro 7 choque de mentalidade 7 j ri de doutoramento 7 torre de refrigerac o 7 sapato de bico 6 detetor de mina 6 tampa de panela 6 gaiola de p ssaro 6 cesta de vime 5 cantiga de roda 5 espingarda de cana 5 chamin de ventila o 5 ninho de lacrau 5 eixo de simetria 5 largura de ombro 5 g s de combust o 5 certificado de equival ncia 5 troco de qu 5 acetato de ciproterona 4 hino de est dio 4 agulha de pinheiro 4 flor de sabugueiro 4 ideal de cavalaria 4 magistrado de turno 4 pensionista de invalidez 4 perturba o de sono 4 fracionamento de plasma 4 recuperador de calor 4 cord o de duna 4 cerveja de barril 4 prancha de windsurf 4 abaixamento de padr o 4 a orda de coentrada 3 coleira de telemetria 3 bebedeira de caix o 3 doce de coco 3 gozo de folga 3 83 84APPENDIX LISTA DE NOME DE NOME CLASSIFICADOS COMO NOMES COMPOSTOS E RESPE regente de cadeira 3 cabaz de natal 3 cana de acucar 2 seio de silicone 2 cesto de g vea 2 recheio de espinafre 2 pat de f gado 2 estojo de l pis 2 diabete de tipo_i 2 f
16. w1p12wo sendo definido pela equa o 1 2x f w1p12w2 f w1 f wa 1 Dice w p12w3 em que f wipiswo f w1 e f w2 representam respectivamente as frequ ncias do bigrama w1p12w2 e dos unigramas w1 e wa pig representa a dist ncia entre as palavras e we 11 12 CHAPTER 2 TRABALHO RELACIONADO 2 1 2 Specific Mutual Information O m todo Specific Mutual Information Church amp Hanks 1990 usado para medir a so breposic o entre duas ocorr ncias contribuindo assim para uma medic o do grau de coes o entre duas palavras de um bigrama e sendo definido pela equac o 2 Nxf w1p12w8 SMI w1p12w2 logs Ff wi xf we 2 em que f wipi2w2 f w1 e f w2 representam respectivamente as frequ ncias do bigrama w1p12W2 e dos unigramas wi e wa N representa o n mero total de palavras no corpus e pio representa a distancia entre as palavras e wo Esta medida particularmente propensa a sobreestimar dados com frequ ncias baixas 2 1 3 Pearson s y O m todo de Pearson s x Hull amp Grefenstette 1996 testa a hip tese nula baseando se na comparac o das frequ ncias observadas com as frequ ncias esperadas Frequ ncia esperada a frequ ncia justa para as saidas poss veis num evento Por exemplo uma amostra com 100 bolas em que existem igual n mero de bolas pretas e vermelhas a frequ ncia esperada 50 bolas pretas e 50 bo
17. Aos meus pais Resumo Esta tese centra se na identificac o de nomes compostos na l ngua portuguesa Nomes compostos s o sequ ncias de palavras cujo significado n o pode ser extra do atrav s da composic o do significado literal das palavras mas sim o seu significado figurativo quando certas palavras se encontram juntas Esta tarefa pertence rea de processamento de l ngua natural PLN e til em sistemas de traduc o sistemas Pergunta Resposta extracc o de informac o e sumarizac o autom tica Este documento analisa e compara v rios sistemas usados para a identificac o de termos compostos descreve os procedimentos adoptados para a identificac o destes mesmos termos e descreve o procedimento a ser efectuado para avaliar os resultados obtidos Abstract This thesis focuses on the identification of multiwords in the Portuguese language Multiwords are sequences of words whose meaning can not be extracted through the composition of the literal meaning of its words but its figurative meaning when certain words are together This task belongs to the area of natural language processing NLP and is useful in machine translation systems question answer systems information extraction and automatic summarization This paper analyzes and compares various systems used for the identification of multiwords describes the procedures adopted for the identification of these multiwords and describes the procedure to be performed to eva
18. MOD POST cuja primeira palavra seja igual a esta palavra e que a sua segunda palavra perten a tamb m estrutura nome de nome encontrada 44 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O e Nas situa es verificadas a respectiva estrutura enviada para o REDUCER e O processo repetido para cada rvore do ficheiro de entrada Esta lista depois processada por um programa que cruza estes resultados com a lista de estruturas encontradas pelo filtro descrito na sec o 3 2 da resultando uma lista de estruturas nome de nome que n o se encontram na lista produzida pelo programa descrito acima mas que foram encontrados pelo filtro 3 2 1 3 Varia o do determinante de N2 Um nome composto nome de nome apresenta geralmente ou determinante zero aus ncia de determinate ou o artigo definido a determinar o segundo nome da combinat ria Para a veri fica o deste crit rio a estrat gia seguida consistiu em determinar para cada par candidato o r cio do n mero de ocorr ncias da combinat ria com artigo ou sem determinante sobre todas as ocorr ncias da mesma estrutura com quaisquer outros determinantes O programa uma varia o do programa descrito na sec o 3 2 e funciona da seguinte forma Tal como descrito na sec o 3 2 o programa identifica os candidatos nome de nome que n o sejam nomes pr prios e Verifica se o n adjacente ao lema de igual a ART ou seja o token um artigo e enviado para
19. O processo para aplicac o deste crit rio semelhante ao processo utilizado para o crit rio an terior S o procuradas no corpus situa es em que num par nome adjetivo o adjetivo varie em grau cruzando estes resultados com os resultados do filtro para nomes adjetivos resultando numa lista de pares nome adjetivo em que n o foi encontrado no corpus casos em que o adjetivo tenha apresentado variac o em grau O programa usado para reconhecer estes padr es funciona da seguinte forma e Tal como descrito na sec o 3 1 o programa identifica primeiro os candidatos constitu dos por um par nome adjetivo ou partic pio passado descartando os casos dos nomes pr prios e dos adjetivos gent licos 36 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O e No n correspondente ao adjetivo verifica se ainda se este tem um n FEATURE com o atributo attribute igual a SINT este atributo indica que o adjetivo se encontra no grau superlativo absoluto sint tico e Se o n adjacente ao nome for igual a ADV ou seja um adv rbio verifica se se o n READING seguinte ent o um ADJ ou PASTPART e Em qualquer um dos casos enviado para o REDUCER o par nome adjetivo assim en contrado e O processo repetido para cada rvore do ficheiro de entrada O resultado deste processo uma lista de pares nome adjetivo cujo adjetivo tenha apre sentado varia o em grau no corpus Este resultado ent o cruzado com a lista de pares no
20. a classe vencedora ir modificar os seus pesos usando o algoritmo de aprendizagem por refor o descrito anteriormente 9 dando refor o positivo ou refor o negativo dependendo da classifica o estar correcta ou errada Assim se a classe vencedora pertence mesma classe que o vector de entrada a classifica o est correcta os seus pesos s o incre mentados aproximando se do vector de entrada pr mio ou fazendo o contr rio caso a classe ganhadora seja diferente da classe do vector de entrada De forma a treinar e testar a rede neuronal foi criada uma lista com pares entrada saida Cada linha corresponde a um par de palavras os valores de entrada foram obtidos aplicando os estimadores referidos anteriormente Os valores de sa da consistem num n mero que classifica o par de palavras como sendo um composto ou n o Nesta experi ncia s foram usados palavras compostas com duas palavras O autor deste trabalho para avaliar a rede obteve uma lista de termos compostos usando a WordNet Miller 1995 e o dicion rio electr nico Encarta Para a lista de termos n o compostos necess rio para treinar a rede retirou de um corpus usado no CLEF 2000 e comparou com a lista de termos compostos para verificar se n o existiam pares iguais nas duas listas Ap s obter o ficheiro com os pares entrada sa da este foi dividido 75 das amostras foram usadas para treinar a rede e as restantes para a validar Para testar o autor fez quer
21. abdominal 6 humor melanc lico 6 fracasso estrondoso 6 micro organismo primitivo 6 rive gauche 6 centro terci rio 6 videogravador est reo 6 percec o social 6 solvente org nico 6 registo par dico 6 tiragem reduzir 5 paix o desencontrar 5 sismicidade induzir 5 ordem equestre 5 execuc o vocal 5 isl o radical 5 fabricac o artesanal 5 ala populista 5 resist ncia khmer 5 gasto sumptuoso 5 oceanografia biol gico 5 recinto polidesportivo 5 letra imprimir 5 bula pontif cio 5 79 80APPENDIX A LISTA DE NOME ADJETIVO CLASSIFICADOS COMO COMPOSTOS E RESPECTIVAS hi fi stereo 5 alfaia lit rgico 5 c lica abdominal 5 oceano primitivo 5 envergadura moral 5 cordeiro inocente 5 forca letal 5 princ pio estatut rio 5 mem ria profundo 5 metal branco 5 escal o competitivo 5 delinqu ncia infantil 5 Appendix Lista de nome de nome classificados como nomes compostos e respectivas ocorr ncias posto de trabalho 4648 carteira de encomenda 460 pr aviso de greve 297 unidade de di lise 163 dispensa de OPA 132 embarcac o de recreio 115 tese de mestrado 95 jantar de gala 82 circulac o de peao 74 poste de ilumina o 67 baile de mascara 61 testa de ferro 56 segredo de polichinelo 38 enfarte de miocardio 33 cl usula de isen o 31 largada de toiro 28 81 82 APPENDIX B LISTA DE NOME DE NOME CLASSIFICADOS COMO NOMES COMPOSTOS E RESPE rito de iniciac o 26 europeu de esperanca 25 mar de d
22. capitais Alguns compostos Nome de Nome apresentam ou n o varia o em n mero consoante a sua constru o sint tica Os funcion rios est o em greve greves de zelo Os funcion rios fizeram uma greve de zelo v rias greves de zelo Esta restri o depende pois em grande parte da constru o sint ctica em que o com posto se encontra Estas restri es foram consideradas como sinais de fixidez sint ctica nestas combina es 2 4 CRIT RIOS SINT CTICOS 29 2 4 7 Inser o de elementos no grupo nominal Quando a combina o Nome de Nome forma um nome composto n o poss vel inserir facul tativamente um modificador espec fico de cada um dos substantivos mas apenas elementos que modifiquem o nome composto na sua globalidade A Ana leu um livro de bolso A Ana leu um livro do Z de bolso A Ana leu um livro de bolso novo do Z Quando uma dada combina o Nome de Nome n o permite que cada um dos nomes tenha um modificador facultativo isso um sinal claro de fixidez sint ctica da combina o 2 4 8 Coordena o de grupos nominais Se o nome que est cabe a dos dois grupos nominais for o mesmo poss vel pronominalizar a sua segunda ocorr ncia O Z leu o livro da Ana e o livro do Pedro O Z leu o livro da Ana e o do Pedro Mas se um dos grupos nominais contituir um nome composto essa pronominaliza o bloqueada O Z leu o livro de bolso e o livro do Pedro
23. como nome composto No entanto devido ao n mero demasiado elevado de candidatos a avaliac o de precis o dos m todos de classificac o usados foi limitada a uma amostra aleat ria estratificada com base na frequ ncia de 1000 candidatos 4 1 3 Crit rios Sint cticos Como foi referido na secc o anterior o conjunto total de combinat rias candidatos classificadas pelos m todos aqui utilizados demasiado grande para poder ser verificado manualmente Assim a avaliac o foi limitada amostra aleat ria referida na secc o anterior No entanto o que se pretende verificar o n mero de candidatos que s o nomes compostos em que foram classificados como presentes os crit rios mais o n mero de candidatos que n o s o nomes compostos em que o crit rio n o foi identificado como presente A tabela 4 1 ilustra a matriz dos poss veis resultados crit rio presente crit rio n o presente Nome Composto Combinat ria livre C3 Ca Table 4 1 Matriz de resultados em que o n mero total de nomes compostos em que se verificou o crit rio estudado C2 o n mero total de nomes compostos em que n o foi poss vel verificar esse crit rio o n mero total de combinat rias livres que apresentam o crit rio analisado e C4 o n mero total de combinat rias livres que n o apresentam o crit rio analisado A precis o de um crit rio na identifica o dos nomes compostos ent o calculada p
24. e Tal como descrito na sec o anterior o programa identifica os candidatos nome de nome que n o sejam nomes pr prios e Verifica se se existe um n ADJ ou PASTPART entre os nomes e a preposi o e enviado para o REDUCER os candidatos nome de nome encontrados e Este processo repetido para todas as rvores do ficheiro de entrada O resultado uma lista de candidatos com a estrutura nome de nome em que se observam modificadores adjectivais inseridos nas posi es sint cticas acima referidas Esta lista depois processada por um programa que cruza estes resultados com a lista de estruturas encontradas pelo filtro descrito na secc o 3 2 produzindo uma lista de candidatos nome de nome que n o se encontrem na lista produzida pelo programa descrito acima mas que foram encontrados pelo filtro 3 2 1 2 Coordena o de grupos nominais Os padr es que se pretende encontrar para este crit rio s o situa es em que para uma dada estrutura nome de nome o segundo nome se encontra coordenado com outro nome figuras 3 5 e 3 6 ilustram estas situa es No exemplo 3 5 s o extra das as rela es de coordena o COORD entre a conjun o e e os dois nomes dos complementos de N Tal permite ent o a obten o das depend ncias de 3 2 ESTRUTURA NOME DE NOME 43 TOP 4 NP PP CONJ NP ART NOUN PREP NOUN gt NOUN 4
25. e a frequ ncia total de ocorr ncias da sequ ncia de palavras candidata e a frequ ncia total da sequ ncia de palavras candidatas como parte de outras sequ ncias de palavras candidatas mais longas e n mero dessas sequ ncias de palavras candidatas mais longas e n mero de palavras que compoe a sequ ncia de palavras candidata Assim a medida C value dada pela func o 24 2 2 ALGORITMOS E SISTEMAS 23 logo a f a a nao est inserida noutra C value a palavra composta 24 logo a f a PTS Per F 0 caso contr rio Onde a a sequ ncia de palavras candidata f a frequ ncia total de ocorr ncias no corpus Ta uma lista de sequ ncias de palavras que cont m a e P T o n mero dessas sequ ncias de palavras candidatas Este m todo comeca por calcular o C value para as sequ ncias de palavras mais longas terminando depois na sequ ncia mais pequena depois de calcular C value para uma dada sequ ncia de palavras caso esse valor seja maior que o valor de limiar valor previamente definido que indica se uma sequ ncia um termo composto ent o esse termo composto introduzido na listagem de sa da Essa listagem apresenta todos os termos compostos extra dos pelo processo O pr ximo passo consiste em introduzir informa o de contexto Para isso t m de ser extra das palavras que aparecem pr ximas de termos compostos Estas palavras s o dadas um valor dependendo da
26. e quanto mais coes o existir nas suas classi fica es no universo de discurso mais prov vel que essa sequ ncia de palavras seja um termo composto Assim o grau de coes o global pode ser avaliado atrav s da combina o da ME das palavras e da ME das suas classifica es gramaticais Isto avaliado pelo Combined Association Messure CAM definida na equa o 11 em que a um par metro que define o focos de maior relev ncia ou seja se a sequ ncia de palavras tem maior peso que a sequ ncia das suas classifica es ou vice versa CAM piuaty iust Dintintn M E puiu piiui Pinun x 11 M E piita priti Pintn O O processo de selecc o dos termos compostos feito atrav s do algoritmo GenLocalMaxs que se concentra em identificar o m ximo local dos valores das CAM s Assim pode deduzir se que um n grama posicional palavra classificac o um termo composto se o valor da sua CAM igual ou maior do que os valores da CAM dos seus subgrupos de n 1 palavras e se estritamente maior que o valor da CAM dos seus supergrupos de 1 palavras Este processo definido pela equac o 12 18 CHAPTER 2 TRABALHO RELACIONADO Vx Q4 1 Vy On 1 W uma palavra composta se sizeof W 2 CAM W gt CAM y V 12 sizeof W 4 2 A CAM W gt CAM x ACAM W gt CAM y em que W um n grama posicional palavra classificac o Q 1 o conjunto de todos os n 1 gramas posicionais contid
27. entre o pronome relativo que e o adjetivo Para esta ltima situa o necess rio verificar a exist ncia de outras duas depend ncias a depend ncia PREDSUBJ que relaciona o verbo copulativo com o adjetivo e a depend ncia ANTECEDENT RELAT que relaciona o nome antecedente com o pronome relativo O programa para reconhecer estes padr es funciona da seguinte forma e percorrer a rvore xml da frase s o colocados numa lista todas as palavras da frase com as suas respectivas categorias gramaticais e Procuram se as depend ncias ATTRIB PREDSUBJ e ANTECEDENT RELAT e 34 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O ART NOUN PRON VCOP mesa que VERB MAIN mesa DETD mesa A PREDSUBJ redonda VDOMAIN MOD POST RELAT mesa SUBJ_PRE que INTROD AUX RELAT que INTROD RELAT que ANTECEDENT RELAT mesa que AP PUNCT ADJ redonda QBOUNDARY_RELAT que que redonda ATTRIB que redonda O gt TOP NP A mesa SC que VCOP APfredonda Figure 3 2 A frase A mesa que redonda processada pelo XIP 3 1 ESTRUTURA NOME ADJETIVO 35 guardam se os seus pares de palavras e Verifica se se nos pares ATTRIB a primeira palavra um NOUN e a segunda um ADJ ou PASTPART se existir este resultado enviado para o REDUCER e Verifica se se a primeira palavra do par ANTECEDENT_RELAT um NOUN se
28. es e respectivas frequ ncias usar se o corpus CETEMP blico Santos amp Rocha 2001 um corpus de texto jornal stico obtido a partir do di rio P blico contendo 190 milh es de palavras Ap s a identifica o de termos compostos a nova informa o ser inserida na cadeia STRING Tal exige que os dados sejam processados de novo pela cadeia de processamento do L2F Como este ciclo consome demasiado tempo de processamento utilizar se a rede de computadores do L F GRID e a ferramenta Condor gra as qual os processos s o executa dos de forma paralela reduzindo significativamente o tempo de cada ciclo e consequentemente o tempo necess rio identifica o e valida o de novos candidatos a termos compostos Os dados obtidos pela cadeia de processamento do L F s o extensos sendo armazenados com o aux lio da ferramenta Hadoop o que ajuda a aplicar os m todos estat sticos e algoritmos referidos na sec o 2 para a identifica o dos termos compostos http www 12f inesc id pt 2http www publico pt 1 4 FERRAMENTAS UTILIZADAS 5 a X Segmenta o de texto Etiqueta o Morfos sint tica LexMan Desambigua o Mortos sint tica por Regras RuDri Co 2 Desambigua o Mortos sint tica Estat stica Marw Figure 1 1 Cadeia de Processamento STRING 1 4 Ferramentas Utilizadas Esta sec o faz uma descri o das ferramentas usadas para o processamento de dados em que este s
29. informac o relativamente aos pares previamente encontrados As medidas usadas foram o Pearson s x e o Student t test Manning amp Schiitze 1999 3 1 1 6 Varia o em n mero A identificac o deste crit rio feita de uma forma semelhante ao crit rio descrito anteriormente E necess rio comparar as ocorr ncias plural singular dos candidatos com as ocorr ncias plu ral singular dos seus nomes Antes de se proceder ao c lculo dos r cios foi necess rio retirar informa o acerca destas ocorr ncias Foi utilizado o programa descrito na sec o 3 1 com uma ligeira altera o Nos tokens identificados como NOUN e ADJ ou PASTPART foi verificado se a tag FEATURE tem um atributo attribute igual a SG ou PL que indica se est no singular ou plural respectivamente ent o enviado para o REDUCER o par nome adjetivo e o respectivo valor em n mero obtendo 40 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O no final uma lista de pares nome adjetivo com o respectivo n mero de ocorr ncias no plural e no singular Para proceder contagem do valor em n mero dos nomes foi somente necess rio produzir um programa que verifica a FEATURE referente ao n mero da palavra para todos o nomes do corpus obtendo no final uma lista de nomes com o respectivo n mero de ocorr ncias no singular e no plural Ap s obtermos estas informa es os dados s o submetidos a um programa que calcula e o r cio do n mero de ocorr ncias no sin
30. mero dos nomes no corpus Com estas informa es estes dados s o submetidos a um programa que verifica se um candidato tem ocorr ncias em que o primeiro nome se encontra no singular ou plural e que o segundo nome encontra se sempre no singular se isto ocorrer ent o o candidato classificado como apresentando este crit rio 48 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O Chapter 4 Avaliacao e Resultados 4 1 Avalia o Esta sec o descreve os procedimentos adoptados para verificar se os filtros apresentados nas sec es 3 1 e 3 2 funcionam correctamente e da forma pretendida Apresenta se tamb m o conjunto de procedimentos utilizados para verificar e validar os m todos e programas de aplica o dos crit rios sint ticos descritos nas sec es 3 1 1 e 3 2 1 4 1 1 Filtros Nome Adjetivo e Nome de Nome Para a valida o dos filtros constituiu se um texto de input que foi depois verificado manualmente tendo em vista a identifica o dos padr es nome adjetivo e nome de nome pretendidos O texto constitu do por 100 frases extra das aleatoriamente do corpus CETEMP blico Nele se observaram 101 padr es nome adjetivo 99 padr es diferentes e 62 padr es nome de nome todos diferentes O texto foi ent o processado pela cadeia de processamento STRING e ao resultado foram aplicados os programas de extrac o dos padr es pretendidos Os resultados foram compara dos com a verifica o manual e confirmou se que e
31. n READING adja gt cente a este possui o atributo lemma igual palavra de e Depois verifica se se o n READING adjacente ao identificado no passo anterior possui o atributo pos igual a NOUN 3 2 ESTRUTURA NOME DE NOME 41 e Para o n identificado anteriormente verifica se se existe um n FEATURE com o atributo attribute igual a PROPER se for encontrado este atributo ent o descartado A determinac o de compostos com este tipo de nomes deve ser feito de um modo aut nomo constante de Planck teorema de Pit goras tinta da China etc noutro momento pois verificou se que introduzem demasiado ru do no processo de recolha de candidatos e As estruturas encontradas s o enviadas para o REDUCER e O processo repetido para cada rvore do ficheiro de entrada O resultado obtido uma lista com todos os candidatos encontrados no corpus seguido do respectivo n mero de ocorr ncias A cadeia de processamento STRING tamb m j identifica partida alguns termos com esta estrutura sendo estes termos identificados como um nico token NOUN Estes casos n o ser o pois identificados pelo filtro aqui apresentado Tamb m necess rio retirar mais informac o para se poder aplicar os m todos e algoritmos estudados nomeadamente os unigramas bigramas trigramas e os N 1 gramas que cont m o candidato identificado das palavras e das categorias gramaticais Foram usados os m todos que t
32. nao possivel apagamento do complemento de N2 j que este forma com N1 uma unidade lexical composta O Z e a Ana est o em lua de mel O Z e a Ana est o em lua Este trabalho procura usar a rica informac o lingu stica disponibilizada pela cadeia de pro cessamento STRING por forma a tentar validar estes crit rios lingu sticos dentro das limita es da informa o dispon vel Tal ser descrito nas sec es 3 1 1 e 3 2 1 Chapter 3 Estrat gia e Implementacao Este cap tulo descreve a construc o dos filtros necess rios para a procura das estruturas pre tendidas Nome Adjetivo e Nome de Nome Tamb m apresentado as solu es implementadas para a identifica o dos cirt rios sint ticos destas mesmas estruturas 3 1 Estrutura Nome Adjetivo O processo para a identificac o de termos compostos com a estrutura nome adjetivo dividido em duas fases Primeiro constru do e aplicado um filtro que percorre as rvores xml resultantes do processamento do corpus CETEMP blico pela cadeia de processamento STRING Este filtro um programa feito na linguagem de programac o Java fazendo uso do paradigma MapReduce O programa funciona da seguinte forma e Verifica se o n READING tem o atributo pos igual a NOUN ou seja se um dado lema um nome e Para o n identificado anteriormente verifica se se existe um n FEATURE com o atributo attribute igual a PROPER Este atributo indica se um
33. nome um nome pr prio Um termo composto n o formado de um modo geral por nomes pr prios sendo estes ent o descartados caso se verifiquem e Partindo do n READING anteriormente encontrado verifica se se o n READING ad jacente a este possui o atributo pos igual a ADJ ou PASTPART ou seja se a palavra um adjetivo ou um partic pio passado Os partic pios passados comportam se de forma semelhante a adjetivos ocorrendo como modificadores adnominais e concordando com o nome que modificam em g nero e n mero por simplicidade tratamo los como adjetivos 31 32 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O e Para este adjetivo verifica se se existe um n FEATURE com o atributo attribute igual a GENT Este atributo indica se um adjetivo um adjetivo gent lico ou seja um adjetivo que designa um indiv duo em fun o do seu local de nascimento ou resid ncia asi tico londrino cipriota portugu s etc De modo geral um termo composto tamb m n o formado por este tipo de adjetivos pelo que estes candidatos ser o descartados A determina o de compostos com este tipo de adjetivos deve ser feito de um modo aut nomo pastor alem o chave inglesa tortura chinesa pontualidade brit nica cal ada portuguesa etc noutro momento pois verificou se que introduzem demasiado ru do no processo de recolha de candidatos e Finalmente o padr o encontrado enviado para o REDUCER e o processo repet
34. o nome adjetivo com a medida 2 a Padr es diferentes N mero de ocorr ncias 0 0 46 888 503 777 0 1 50 623 555 953 0 2 50 629 556 116 0 3 50 751 556 116 0 4 51 998 670 443 0 5 58 130 1 046 018 0 6 69 208 1 989 131 0 7 80 497 2 848 530 0 8 90 505 3 422 760 0 9 98 959 3 790 373 1 0 45 128 2 419 034 Como se pode observar as categorias gramaticais s o preponderantes na identifica o de nomes compostos No entanto esta medida tem um comportamento ligeiramente diferente do que se verifica com a SCP o n mero de padr es encontrados e total de inst ncias vai aumentando medida que se d peso ao valor de coes o das palavras decrescendo bruscamente quando se d o peso total coes o das palavras figura 4 1 mostra estes resultados de uma forma sintetizada A tabela 4 5 mostra os resultados obtidos do mesmo tipo de processamento do HELAS mas 4 2 RESULTADOS 53 5000000 4500000 4000000 3500000 3000000 Padr es diferentes SCP 2500000 N mero de ocorr ncias SCP 2000000 Y Padr es diferentes G 1500000 br N mero de ocorr ncias 1000000 500000 Figure 4 1 Resultados HELAS para o padr o nome adjetivo para a estrutura nome de nome com a medida estat stica SCP Table 4 5 Resultados HELAS para o padr o nome de nome com a medida SCP a Padr es diferentes N mero de ocorr ncias 0 0 441 089 2 726
35. pares chave valor 4 O Output Format que controla o destino dos pares chave valor finais O HDFS fornece um grande fluxo de acesso aos dados e pr prio para aplica es que envolvem grandes quantidades de dados Possui uma arquitectura mestre escravo da qual um grupo consiste num NameNode um servidor mestre que gere o espa o de nomes do sistema 10 CHAPTER 1 INTRODUCAO de ficheiros e regula o acesso aos ficheiros pelos clientes O HDFS tamb m tem DataNodes normalmente um por cada n no grupo que geram o armazenamento dos n s onde correm Internamente um ficheiro dividido em um ou mais blocos e esses blocos s o guardados numa lista de DataNodes O NameNode executa a abertura fecho e atribuic o de nomes aos ficheiros e directorias do espaco de nomes do sistema de ficheiros O NameNode tamb m determina o mapeamento dos blocos para DataNodes Estes DataNodes sao respons veis pela gestao de pedidos de leitura e escrita pelos clientes do sistema de ficheiros Os DataNodes tamb m podem fazer a criac o destruic o e replicac o de blocos tendo sido instru dos previamente pelo NameNode O HDFS foi desenhado para guardar grandes ficheiros entre v rias m quinas num grupo grande guardando cada ficheiro como uma sequ ncia de blocos Os blocos s o replicados para fornecer toler ncia a faltas sendo esses blocos todos do mesmo tamanho exceptuando o ltimo esta replicac o pode ser definida na criac o do ficheiro e pode ser a
36. suas respectivas categorias gramaticais e Procuram se as depend ncias COORD ATTRIB ATTRIB ANAPHO e MOD POST e guardam se os seus pares de palavras 3 1 ESTRUTURA NOME ADJETIVO TOP NP VCOP AP CONJ AP PUNCT PRON NOUN VERB ADJ ADJ a Esta Janela grande bonita MAIN e DETD janela Esta COORD e grande COORD e bonita PREDSUBJ grande VDOMAIN SUBJZPRE janela ATTRIB janela grande ATTRIB_ANAPHO janela bonita O gt TOP NP Esta janela VCOP f APfgrande e APfbonita Figure 3 3 A frase Esta janela grande e bonita processada pelo XIP TOP NP AP CONJ PUNCT B ART NOUN ADJ e ADJ Uma janela grande bonita MAIN janela QUANTD janela Uma COORD e grande COORD MOD POST janela grande MOD POST janela bonita O gt TOP NP Uma janela APfgrande APfbonita J Figure 3 4 A frase Uma janela grande e bonita processada pelo XIP 37 38 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O e Verifica se se nos pares COORD a segunda palavra um ADJ ou PASTPART se forem verifica se se existe nos pares ATTRIB e MOD POST uma segunda palavra igual segunda palavra da depend ncia COORD e se nos pares ATTRIB ANAPHO e MOD POST existe
37. uma segunda palavra igual segunda palavra da outra depend ncia COORD e Se as rela es forem encontradas verifica se se a primeira palavra dos pares ATTRIB e ATTRIB_ANAPHO encontrados s o NOUN se assim for enviado para o REDUCER o par nome adjetivo capturado pelas depend ncias ATTRIB ou MOD POST e O processo repetido para cada rvore do ficheiro de entrada A aplica o do crit rio semelhante dos crit rios descritos anteriormente feito um cruzamento com a lista de pares nome adjetivo produzido pelo filtro resultando numa lista de pares para os quais n o se encontrou no corpus uma situa o em que o adjetivo estivesse coordenado com outro adjetivo como modificadores daquele nome Como foi referido para os crit rios anteriores este resultado apenas uma aproxima o ao que se pretende pelas mesmas raz es enunciadas isto n o podemos afirmar com total certeza que o adjetivo nunca se poder coordenar com outro adjetivo quando modificador de um certo nome simplesmente podemos dizer que n o foi encontrado qualquer exemplo em tal acontecia 3 1 1 4 Elis o do adjetivo abordagem principal a este crit rio centra se na compara o de contextos ou seja se para um par nome adjetivo com um certo contexto encontrado um nome com precisamente o mesmo contexto ent o podemos concluir que poss vel omitir o adjetivo para esse nome O objectivo identificar os casos em que n o poss vel es
38. visto que todos os algoritmos descritos na cap tulo 2 2 n o t m qualquer descri o quanto a este factor 3 1 1 Crit rios Sint cticos Esta sec o descreve a implementa o usada para a aplica o de cada um dos crit rios sint ticos para a estrutura Nome Adjetivo descrito na sec o 2 4 3 1 ESTRUTURA NOME ADJETIVO 33 TOP B NP VCOP AP PUNCT ART NOUN VERB ADJ H mesa redonda MAIN redonda DETD mesa 4A PREDSUBJ redonda VDOMAIN SUBJ_PRE mesa ATTRIB mesa redonda O gt TOP NP A mesa VCOP APfredonda Figure 3 1 A frase A mesa redonda processada pelo XIP 3 1 1 1 Perda de predicatividade do adjetivo Para a aplicac o deste crit rio foi usado a informac o resultante do processamento do corpus CETEMP blico pela cadeia de processamento STRING nomeadamente a rede de depend ncias produzidas pelo XIP Para a tentativa de determina o desta propriedade a ideia tentar verificar se o adjetivo aparece no corpus em contexto predicativo tendo como sujeito o mesmo nome Tal ocorre em frases simples ou atributivas como ilustrado na figura 3 1 ou no quadro de uma ora o relativa como se mostra na figura 3 2 Na figura 3 1 apresenta se um exemplo em que foi extra da pela cadeia uma depend ncia ATTRIB entre o nome e o adjetivo enquanto que na figura 3 2 esta depend ncia se estabelece
39. 813 0 1 441 080 2 726 804 0 2 309 487 2 466 601 0 3 169 026 2 015 802 0 4 104 520 1 698 244 0 5 73 060 1 476 595 0 6 54 940 1 316 955 0 7 43 763 1 189 686 0 8 36 357 1 086 166 0 9 31 291 998 021 1 0 24 537 894 231 Pelos resultados observados para este tipo de estrutura as categorias gramaticais tamb m s o preponderantes na classificac o de um candidato como nome composto No entanto ao contr rio dos outros resultados mostrados anteriormente estes v o decrescendo com quanto mais peso se d a coes o das palavras Ainda para a mesma estrutura nome de nome o processamento do HELAS foi estendido tamb m para a medida estat stica e os resultados apresentam se na tabela 4 6 Pode se evidenciar resultados semelhantes aos resultados mostrados para o HELAS com o m todo SCP os resultados v o decrescendo com quanto mais peso se vai dando coes o das palavras figura 4 2 mostra os resultados de uma forma sintetizada 54 CHAPTER 4 AVALIACAO E RESULTADOS Table 4 6 Resultados HELAS para o padr o nome de nome com a medida a Padr es diferentes N mero de ocorr ncias 0 0 441 089 2 726 813 0 1 441 089 2 726 813 0 2 441 059 2 726 759 0 3 439 093 2 723 760 0 4 429 718 2 707 419 0 5 405 796 2 660 646 0 6 354 897 2 554 063 0 7 262 600 2 330 100 0 8 159 974 1 970 669 0 9 90 513 1 562 282 1 0 24 020 806 639 3000000 2500000 2000000 Padr es difer
40. Ifi INSTITUTO SUPERIOR T CNICO Identificacao Autom tica de Nomes Compostos Ricardo Jorge Rosa Portela Dissertac o para obtenc o do Grau de Mestre em Engenharia Inform tica e de Computadores J ri Presidente Doutor Jo o Ant nio Madeiras Pereira Orientador Doutor Nuno Jo o Neves Mamede Co Orientador Doutor Jorge Manuel Evangelista Baptista Vogais Doutor Bruno Emanuel da Graca Martins Novembro 2011 Agradecimentos Gostaria de agradecer aos meus orientadores Prof Jo40 Mamede e Prof Jorge Baptista pela dedicac o tempo apoio e desafios mais complexos que me colocaram na realizac o deste tra balho Gostaria tamb m de agradecer a toda a equipa do L F especialmente ao Tiago Lu s pela sua ajuda com as ferramentas Hadoop e Condor e a Teresa Mimoso pela sua boa disposic o e ajuda com assuntos burocr ticos Aos meus colegas de trabalho Fernando Gomes e Andreia Maur cio com quem partilhei reuni es caf s e discuti ideias e solu es ao longo deste percurso Funda o para a Ci ncia e Tecnologia pela concess o da bolsa de investiga o minha grande amiga Claudia Pereira pelos caf s e conversas nos fins de tarde E finalmente queria tamb m agradecer a todos os membros das sec es aut nomas Grupo de Estrat gia Simula o e T ctica e R dio Zero pela excelente companhia nos almo os e tempos livres todos o meu profundo agradecimento Lisboa Novembro 2011 Ricardo Jorge Rosa Portela
41. RING de forma mais pormenorizada na sec o seguinte 1 4 2 XIP O XIP recebe um texto como entrada e fornece informa o lexical acerca do mesmo faz a desambigua o lexical segmenta o texto em chunks e cria as suas depend ncias O sistema em si completamente independente da l ngua sendo a gram tica de cada l ngua particular constitu da por um conjunto de ficheiros de entrada Para realizar estas tarefas o XIP est dividido em tr s m dulos que descrevemos as seguir ver figura 1 2 O primeiro m dulo o m dulo de desambigua o contextual atribui a leitura mais prov vel a uma palavra com base no seu contexto imediato atribuindo features ou categorias s palavras 1 4 FERRAMENTAS UTILIZADAS 7 Texto de entrada 1 Regras de M dulo de j gt Desambigua o Desambigua o guae Contextual 1 Regras de TR sl Regras de L Depend ncias E M dulo de Agrupamento V M dulo de Depend ncias gt Figure 1 2 Arquitectura XIP Depois o m dulo de an lise sint ctica faz a segmentac o das unidades lingu sticas em cons tituintes elementares chunks usando regras de agrupamento para agregar as sequ ncias de categorias gramaticais em sintagmas Finalmente o m dulo de extracc o de depend ncias de termina as rela es sint cticas sujeito complemento etc entre os sintagmas previamente identificados A gram tica do XIP para o Portugu s compost
42. SMI 12 710 326 183 10 504 539 100 Log likelihood Ratio 139 197 1 457 260 Mutual Expectation 16 030 941 267 Symmetric Conditional Probability SCP 10 740 526 499 essa diminuic o n o ocorre com a medida Mutual Expectation verificando se pelo contr rio um aumento tanto dos padr es diferentes como do n mero de ocorr ncias Tamb m na medida SMI se verificou um aumento mas apenas do n mero de ocorr ncias quando se utiliza os lexicos de palavras compostas Estes resultados parecem indicar que estas medidas identificam muito ru do Tal poder dever se ao facto de para o processamento dos nome de nome se terem considerado todas as ocorr ncias e n o apenas as que tinham uma frequ ncia igual ou superior a cinco como se fizera para os nome adjetivo Neste sentido estes m todos parecem particularmente sens veis tornando se incertos quando t m de lidar com eventos raros 4 2 7 Cruzamento das medidas estat sticas Em seguida mostra se os resultados do cruzamento das v rias medidas estat sticas em cada um desses cen rios sem compostos tabela 4 13 e com compostos tabela 4 14 respetivamente Verificou se um aumento na quantidade de termos em comum entre as duas fases de proces samento isto explica se pelo facto de n o se ter usado candidatos com ocorr ncias acima de 5 Os m todos estat sticos comecam a ter comportamentos diferenciados quando lidam com eventos raros tamb m de referir que a medida Mu
43. a Lopez 2002 e M trica em Ballesteros amp Croft 1998 Mutual information ratio Johansson 1996 O algoritmo LVQ um m todo de classificac o baseado em aprendizagem neural com petitiva que permite definir um grupo de categorias no espaco de dados de entrada por uma aprendizagem de refor o ou seja por refor o positivo pr mio ou por refor o negativo castigo A equa o 9 define o processo de aprendizagem b sico para o algoritmo LVQ welt 1 welt s a t ai t we t 9 16 CHAPTER 2 TRABALHO RELACIONADO em que x t o vector de entrada no tempo t e w t representa o vector de peso para a classe k no tempo t a t o r cio de aprendizagem sendo 0 lt a t lt 1 uma fun o monotonamente decrescente do tempo s 0 se k 1 se x t e w t pertence mesma classe e s 1 se nao pertencerem O algoritmo LVQ funciona da seguinte forma para cada classe k associa se um vector de peso em cada repeti o o algoritmo escolhe um vector de entrada rj e compara com o peso de cada vector wz usando a dist ncia euclidiana v wx para que o vencedor seja o vector de peso w mais perto de x sendo c o seu ndice lle wil min lle well 10 As classes competem entre elas para encontrar o vector mais similar com o vector de en trada para que o vencedor seja o que tenha a menor dist ncia euclidiana tendo em considera o o vector de entrada S
44. a a extracc o dessas estruturas sint cticas dever vir a apre sentar melhores resultados As estruturas que se pretendem retirar s o e Nome Adjetivo buraco negro e Nome de Determinante Nome lua de mel Os compostos deste ltimo tipo podem apresentar um artigo a determinar o segundo nome rosa dos ventos O algoritmo LocalMazs apresentou melhores resultados No entanto de referir que estes valores n o podem ser directamente comparados porque as avalia es dos sistemas variam n o s no m todo usado como tamb m no corpus usado Visto de uma forma aparente o algoritmo LocalMazs foi o que apresentou melhores resul tados este o algoritmo que foi escolhido para implementa o na identifica o autom tica de nomes compostos como o algoritmo HELAS semelhante ao LocalMaxs e como tamb m apre sentou resultados aparentemente bastante positivos este algoritmo tamb m ser implementado 2 4 CRIT RIOS SINT CTICOS 25 Table 2 1 Caracter sticas dos m todos e algoritmos M todo Informa o de informa o independente da independente Precis o contexto sint ctica l ngua de limiar LVQ 41 HELAS 60 2gramas 80 3gramas GALEMU 71 LocalMaxs 90 C value NC value x 3196 2 4 Crit rios Sint cticos Um nome composto apresenta restri es nas suas propriedades sint cticas demonstrando uma certa fixidez na combinat ri
45. a desse conjunto de elementos lexicais Pelo facto de existirem diferentes tipos de nomes compostos com diferentes estruturas sint ticas estas n o respondem todas aos mesmos crit rios de fixidez As duas estruturas sint cticas aqui estudadas permitem a aflora o dos seguintes crit rios Baptista 1994 de identifica o do seu grau de fixidez da combinat ria Classe Nome Adjetivo e Perda de predicatividade do adjetivo Varia o do adjetivo em grau e Elis o do adjetivo Ruptura paradigm tica e Varia o em n mero Classe Nome de Nome Coordena o do adjetivo com outro adjetivo e Inser o de elementos no grupo nominal e Ruptura paradigm tica e Varia o em n mero Coordena o de grupos nominais Varia o do determinante de N2 Elis o de elementos do grupo nominal 26 CHAPTER 2 TRABALHO RELACIONADO Se s se verificar um dos crit rios tal n o suficiente classificar uma dada combinac o como nome composto Pelo contr rio na intersec o dos v rios crit rios que poss vel definir a sua fixidez ou seja quanto mais restri es forem observadas mais fixa ser essa sequ ncia de elementos lexicais Falamos pois da composi o n o como uma classifica o bin ria mas sim como um fen meno lingu stico intrinsecamente escalar A composi o uma quest o de grau de fixi dez Gross 1988 Contudo para efeitos pr ticos necess rio decidir deforma bin
46. a por um conjunto de ficheiros que cont m as regras que permitem fazer a desambigua o segmenta o e encontrar as rela es de de pend ncia num texto A gram tica constitu da por tr s tipos de ficheiros e Declara es das etiquetas usadas para descrever tra os categorias e depend ncias nas regras do XIP e Diferentes tipos de regras que recorrem a operadores e express es regulares para testar os tra os de um n e Um ficheiro de configurac o onde se encontram declarados todos os ficheiros constituintes da gram tica O XIP tem tr s tipos de regras as Regras de Domin ncia Imediata Immediate Dominance Rules as Regras de Sequ ncia Sequence Rules e as Regras de Depend ncia Dependency Rules As regras de domin ncia imediata assim como as de sequ ncia s o regras de agru pamento No entanto as regras de domin ncia imediata s o aplicadas independentemente da ordem pela qual os n s surgem no lado direito da regra Para as regras de sequ ncia estri tamente necess rio que os n s no texto de entrada surjam exactamente pela ordem na qual se 8 CHAPTER 1 INTRODUCAO encontram no lado direito das regras para que estas possam ser aplicadas Se for poss vel aplicar v rias regras de domin ncia imediata o factor de escolha baseado na sequ ncia mais longa sendo o texto de entrada lido da direita para a esquerda Para as regras de sequ ncia estas s o aplicadas sequencialmente pela ordem de
47. alMazs e os compostos Nome de Nome O processo de avalia o dos resultados do algoritmo LocalMazs com os compostos nome de nome id ntico ao que foi apresentado para os nome adjetivo Apresenta se em primeiro lugar os resultados do LocalMazs no cen rio sem os recursos lexicais de palavras compostas tabela 4 11 e depois usando esses recursos tabela 4 12 O gr fico da figura 4 4 resume estes resultados Ao comparar estes resultados em geral verifica se igualmente uma diminui o do n mero de padr es diferentes e do n mero de ocorr ncias quando se usam os recursos lexicais j dispon veis Contudo ao contr rio do que sucede no caso dos compostos nome adjetivo nestes compostos 58 Table 4 11 Resultados do LocalMazs para a estrutura nome de nome quando cadeia nao iden tifica nomes compostos CHAPTER 4 AVALIACAO E RESULTADOS Medida estatistica N de padroes diferentes N de ocorr ncias Dice coefficient 153 787 1 861 528 Specific Mutual Information SMI 40 913 257 153 24 020 806 639 Log likelihood Ratio 439 168 2 724 720 Mutual Expectation 6 446 793 520 Symmetric Conditional Probability SCP 24 537 894 231 Table 4 12 Resultados LocalMazs para a estrutura nome de nome quando a cadeia identifica nomes compostos Medida estat stica N de padr es diferentes N de ocorr ncias Dice coefficient 60 465 1 107 405 Specific Mutual Information
48. as medidas estat sticas para avaliar o grau de coes o entre os nomes dos candidatos que tinham sido usadas para a estrutura nome adjetivo nomeadamente Pearson s x e o Student t test 3 2 1 6 Varia o em n mero O processo de determina o deste crit rio para a estrutura nome de nome um pouco diferente do que foi proposto para a estrutura nome adjetivo Na estrutura nome de nome a varia o em n mero pode ocorrer mas de um modo geral apenas o primeiro nome flexiona em n mero mantendo se o segundo nome invari vel como por exemplo O Pedro comprou um livro de bolso O Pedro comprou v rios livros de bolso O Pedro comprou v rios livros de bolsos O Pedro comprou um livro de bolsos Assim apenas necess rio verificar se para os candidatos encontrados existem casos em que o primeiro nome varia em n mero Foi utilizado o programa descrito na sec o 3 2 com uma ligeira altera o Nos tokens identificados como NOUN verificado se a tag FEATURE tem um atributo attribute igual a SG ou PL que indica se o nome est no singular ou plural respectivamente depois enviado para o REDUCER o candidato com o valor em n mero de cada nome que o comp e obtendo se no final uma lista de candidatos com o n mero de ocorr ncias dos valores em n mero de cada nome 3 2 ESTRUTURA NOME DE NOME 47 Foi usado o programa descrito para o mesmo crit rio na estrutura nome adjetivo que faz as contagens dos valores em n
49. babilidade de ocorr ncia do bigrama x y e dos unigramas x e y no corpus p x y a probabilidade condicional de z ocorrer na primeira posi o do bigrama dado que y aparece na segunda posi o De forma similar p y x a probabilidade condicional de y ocorrer na primeira posic o do bigrama dado que aparece na segunda posic o do bigrama 2 2 Algoritmos e Sistemas Esta secc o faz uma descric o dos algoritmos e sistemas estudados para a identificac o de termos compostos 2 2 1 Kohonen s Learning Vector Quantization A Kohonen s Learning Vector Quantization LVQ Kohonen 1989 Kohonen Kangas Laak sonen amp Torkkola 1992 para determinar se certos pares de palavras podem ser considerados como termos compostos ou nao As entradas para a rede sao os valores gerados por um conjunto de estimadores estatisticos e a saida da rede uma classe que determina se o valor corresponde a um termo composto ou n o aprendizagem da rede feita atrav s dos valores gerados pe los estimadores quando estes s o aplicados a pares de palavras previamente identificados como compostos e a outros pares de que nao sao compostos Foram usados os seguintes estimadores estat sticos sendo alguns deles referidos atr s em 2 1 e Dice coefficient Adriani amp Rijsbergen 1999 e Pearson s x Hull amp Grefenstette 1996 Simpson Similarity coeficient Mart nez Santiago D az Galiano Mart n Valdivia Rivas Santos amp n
50. cadeia de processamento j faz a identificac o dos nomes compostos mais comuns da l ngua portuguesa com a estrutura nome adjetivo Ainda se pode inferir que a frequ ncia de um candidato tem um peso muito grande em todas as medidas estat sticas para a sua classi fica o 4 2 4 Cruzamento das medidas estat sticas Nas tabelas 4 9 e 4 10 apresentam se os resultados do cruzamento das medidas estat sticas aqui utilizadas tanto no primeiro cen rio sem os l xicos de palavras compostas como no segundo cen rio com compostos respetivamente A primeira linha de cada tabela indica o n mero de padr es diferentes que s o comuns a todas as medidas restantes linhas apresentam o 56 CHAPTER 4 AVALIACAO E RESULTADOS ME E N mero de padr es sem Log likelihood Ratio mapema i E N mero de padr es com 2 compostos El N mero de ocorr ncias sem compostos N mero de ocorr ncias com 5 compostos Dice p 0 500000 1000000 1500000 2000000 2500000 3000000 3500000 4000000 4500000 5000000 Figure 4 3 Resultados LocalMazs para o padr o nome adjetivo resultado do cruzamento de todas as medidas com excec o da medida indicada na coluna da esquerda Table 4 9 Resultados cruzados para a estrutura nome adjetivo quando a cadeia n o identifica nomes compostos N mero de compostos N mero de ocorr ncias Cruzamento de todas as medidas 17 354 401 232 sem Dice coefficient 17 357 401 264 s
51. cia uma interface que ajuda a executar processos dependendo da localizac o dos dados minimizando o consumo da rede e aumentando o fluxo global de proces samento O paradigma MapReduce trabalha exclusivamente sobre pares chave valor ou seja recebe como entrada uma lista de pares chave valor e produz uma lista de pares chave valor Estes pares podem representar qualquer tipo de dados Este paradigma de programac o opera em duas tarefas primeira a Map em que se produz uma lista de pares chave valor interm dios Cada lista um processo individual que foi corrido numa m quina A segunda tarefa a Reduce em que se cria uma lista de pares mais pequena a partir das listas interm dias que tenham a mesma chave Esta fase dividida em outras tr s fases e Shuffle vai buscar os pares chave valor relevantes produzidos pelo Map e Sort esta fase ocorre simultaneamente com a fase Shuffle para agrupar os pares que tenham a mesma chave e Reduce recebe os pares agrupados produzidos pela fase Sort e produz os pares finais Existem tamb m quatro controladores da execuc o das tarefas 1 O Partitioner que controla o particionamento das chaves dos pares interm dios O n mero m ximo de parti es igual ao n mero de tarefas Reduce 2 O Combiner que faz um Reduce local aos pares chave valor de sa da do Map 3 O Input Format que controla a divis o do ficheiro de entrada e converte cada uma das divis es numa lista de
52. e n o admitem qualquer tipo de varia o em grau o que faz com que este crit rio n o seja pertinente para determinar a fixidez das combina es em que entram estes adjetivos 2 4 CRIT RIOS SINT CTICOS 27 2 4 3 Coordena o do adjetivo com outro adjetivo Nos compostos com a estrutura Nome Adjetivo o adjetivo forma com o substantivo uma nova unidade lexical pelo que n o poss vel coorden lo com um adjetivo livre A Ana organizou uma mesa redonda e mas alta A rela o entre o nome e o adjetivo n o da mesma natureza sint ctica da que liga um adjetivo predicativo ao nome que modifica num grupo nominal livre A Ana comprou uma mesa redonda e mas alta S em condi es experimentais devidamente controladas que se pode verificar se a coor dena o de dois adjetivos modificadores do mesmo nome ou n o poss vel e assim determinar se h ou n o fixidez sint ctica na combina o 2 4 4 Elis o do adjetivo Em muitos nomes compostos n o poss vel omitir o adjetivo sob pena de alterar a interpreta o da frase em que o composto se encontra ou mesmo de a tornar inaceit vel O Z ovelha negra da fam lia O Z a ovelha da fam lia A Ana o bra o direito do Z A Ana o bra o do Z Como se pode observar a impossibilidade de omitir o adjetivo revela a fixidez sint ctica da sequ ncia Nome Adjetivo 2 4 5 Ruptura paradigm tica Na Classe Nome Adjetiv
53. edidas Bray Curtis e Soergel no entanto esta ltima medida s extraiu 40 dos termos seleccionados pela Bray Curtis As medidas Euclidean e Divergence atingiram respectivamente a precis o de 64 e 62 2 2 4 Algoritmo LocalMaxs O algoritmo LocalMazs Silva Dias Guillor amp Lopes 1999 um algoritmo que identifica termos compostos a partir de uma lista de n gramas baseando se em dois pressupostos Primeiro as medidas de associac o mostram que quanto mais coeso for um grupo de palavras mais alto ser o valor da medida de associac o para a sua identificac o Segundo termos compostos s o 2 2 ALGORITMOS E SISTEMAS 21 grupos de palavras que est o bastante associadas como consequ ncia um n grama W um termo composto se o seu valor de associa o g W for um m ximo local O algoritmo pode ser definido pela equa o 23 Vx On 1 Vy On 1 W uma palavra composta se length W 2 A g W gt g y V 23 length W gt 2 g x g W g W gt g y Sendo Q 1 o conjunto de dos valores de associa o de todos os n 1 gramas contidos no n grama W e Q 1 o conjunto dos valores de associa o de todos os n 1 gramas contidos no n grama W um n grama ser um termo composto se o seu valor g da medida de associa o corresponder a um m ximo local Este algoritmo nao usa medidas de limiar e concentra se na identificac o das variacoes locais dos valores das medidas de associac o Foram
54. ela f rmula 28 4 2 RESULTADOS 51 C Total de candidatos classificados Precis o do crit rio 28 Os melhores resultados s o aqueles cujas c lulas C1 e C4 estejam maximizadas e as c lulas minimizadas 4 2 Resultados Esta secc o apresenta os resultados mais relevantes para os m todos usados Primeiro s o apre sentados os resultados da aplicac o dos filtros de procura das estruturas pretendidas Seguida mente apresentam se os resultados da aplicac o do algoritmo HELAS e do sistema LocalMazs Finalmente s o apresentados os resultados da aplicac o dos programas para identificac o de compostos baseado em crit rios sint cticos 4 2 1 Filtros Nome Adjetivo e Nome de Nome A tabela 4 2 mostra o n mero total de padr es diferentes encontrados no corpus CETEMP blico para as duas estruturas pretendidas e o n mero total de ocorr ncias de todos os padr es encon trados N mero de padroes diferentes Total de ocorr ncias Nome Adjetivo 1 032 733 6 002 836 Nome de Nome 529 497 2 834 893 Table 4 2 Resultados dos filtros Seria espect vel um n mero maior de padr es diferentes encontrados mas tal n o ocorre devido s op es usadas na filtragem nomeadamente a exclus o de casos de nomes pr prios e adjetivos gent licos que comp em uma grande parte das sequ ncias encontradas sem essas op es activadas 4 2 2 Algoritmo HELAS Nesta sec o apresentamos o
55. em SMI 39 244 1 492 635 sem q 18 123 519 394 sem Log likelihood Ratio 19 569 863 678 sem Mutual Expectation 17 354 401 232 sem SCP 17 810 409 190 Como se pode verificar entre os dois cen rios d se uma n tida diminui o em cerca de 13 000 de candidatos a compostos capturados Naturalmente tal resultado esperado j que no segundo cen rio os compostos j se encontram identificados sendo analisados pela cadeia como se de um nome simples se tratasse 4 2 5 Valida o manual por amostragem Como j tinha sido referido na sec o 4 1 2 medir a precis o de qualquer uma das medidas estat sticas aplicadas nos algoritmos n o exequ vel Assim para avalia o os resultados das medidas estat sticas foram cruzados obtendo uma lista de pares candidatos que s o comuns a todas as medidas estat sticas Dessa lista foram retirados aleatoriamente 1000 candidatos estratificados por frequ ncia ou seja a lista original organizada por grupos de frequ ncias e 4 2 RESULTADOS 57 Table 4 10 Resultados cruzados para a estrutura nome adjetivo quando a cadeia identifica nomes compostos N mero de compostos N mero de ocorr ncias Cruzamento de todas as medidas 4 368 91 788 sem Dice coefficient 4 374 91 840 sem SMI 14 577 498 115 sem q 4 516 106 290 sem Log likelihood Ratio 6 031 345 611 sem Mutual Expectation 4 368 91 788 sem SCP 4 439 94 498 de cada um desses grupo
56. entes SCP 1500000 N mero de ocorr ncias SCP 4000000 Y Padr es diferentes 2 ir N mero de ocorr ncias 500000 ees iud 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 a Figure 4 2 Resultados HELAS para o padr o nome de nome Nas sec es seguintes analisam se os resultados do algoritmo LocalMazs Por uma quest o de clareza apresentam se primeiro os resultados para os compostos nome adjetivo sec es 4 2 3 a 4 2 5 e seguidamente os dos nome de nome sec es 4 2 6 a 4 2 8 4 2 3 Algoritmo LocalMazs e os compostos Nome Adjetivo Para avalia o do algoritmo LocalMazs consideraram se dois cen rios No primeiro a cadeia de processamento STRING processou o corpus sem utilizar os consider veis recursos lexicais j constru dos e dispon veis no sistema e que contem data de escrita deste documento cerca de 35 000 palavras compostas No segundo cen rio o algoritmo foi aplicado ao resultado da cadeia utilizando todos esses recursos Os resultados de cada um destes cen rios s o apresentados nas tabelas 4 7 e 4 8 e sintetizadas no gr fico da figura 4 3 4 2 RESULTADOS 95 Table 4 7 Resultados do LocalMazs para a estrutura nome adjetivo quando a cadeia nao iden tifica nomes compostos Medida estat stica N de padroes diferentes N de ocorr ncias Dice coefficient 127 760 4 510 839 Specific Mutual Information SMI 28 040 1 466 816 45 128 2 419 034 L
57. entes e foi ordenada de forma decrescente do valor de NC Value A precis o obtida foi de 75 para o grupo de termos compostos do topo at ao quadrag simo termo sendo que desta at d cima palavra foi de 36 da d cima at quarta de 26 e as restantes de 25 a precis o m dia foi de 31 2 3 Compara o de m todos Como se pode verificar pelas v rias medidas estat sticas algoritmos e m todos descritos na secc o anterior existem v rias formas de abordar o problema da identificac o autom tica de termos compostos Apresenta se na tabela 2 1 um resumo das caracter sticas principais identificadas nos sistemas e a precis o obtida Os algoritmos apresentados com excec o do C value NC value apresentam como principal catacter stica a independ ncia da l ngua e a independ ncia de uma valor de limiar Sistemas que usam mais informac o do que simplesmente a frequ ncia pura como por exemplo o uso de contexto ou o uso das categorias gramaticais dos termos compostos melhoram a precis o de recolha de termos compostos O uso de estimadores estat sticos como suporte a outros sistemas ou algoritmos influencia a precis o destes sistemas pois herdam as desvantagens inerentes dos estimadores estat sticos Considerando que neste trabalho se pretende extrair nomes compostos cuja estrutura sint ctica j se encontra pr definida pois existe uma clara predomin ncia de um certo tipo de estruturas o uso de filtros par
58. estratificados por frequ ncia Esses candidatos foram retirados da lista resultante do cruzamento de todas as medidas estat sticas sem a medida Mutual Expectation A lista resultante foi dada a um linguista para a validar manualmente Esta valida o manual identificou 93 candidatos como nomes compostos 7 candidatos que fazem parte de outros ter mos compostos mais longos e 33 candidatos que formaram coloca es Com estes resultados obteve se uma precis o global de 10 Esta lista de 1000 candidatos foi dividida em 4 grupos de 250 candidatos organizados por ordem decrescente de frequ ncia Observou se que o grupo dos 250 candidatos mais frequentes possuiu uma precis o de 30 8 os grupos seguintes possuem respectivamente as precis es de 60 CHAPTER 4 AVALIACAO E RESULTADOS Table 4 14 Resultados cruzados para a estrutura nome de nome quando a cadeia identifica nomes compostos N mero de compostos N mero de ocorr ncias Cruzamento de todas as medidas 2 433 179 843 sem Dice coefficient 2 433 179 843 sem SMI 5 950 505 321 sem q 2 467 196 966 sem Log likelihood Ratio 2 433 179 843 sem Mutual Expectation 5 139 192 603 sem SCP 2 433 179 843 crit rio presente crit rio n o presente Nome Composto 22 7 2 5 Combinat ria livre 62 4 12 4 Table 4 15 Matriz de resultados do crit rio predicatividade na estrutura nome adjetivo 2 8 1 2 e 5 2 Como tinha sido verificad
59. finida pelo programador e o texto de entrada tamb m lido da esquerda para a direita Veja se abaixo uma Regra de Domin ncia Imediata que cria um n NP para uma lista de categorias que contenha um determinante um nome e um adjetivo em qualquer ordem NP gt det noun adj Compare se agora a regra acima com uma Regra de Sequ ncia que cria um n NP para uma lista de categorias que contenha um determinante facultativamente um adjetivo e um nome por esta ordem NP det adj noun Ao nivel da representa o a nica diferen a entre as regras de domin ncia imediata e as de sequ ncia o caso dos operadores e gt As regras de depend ncia s o usadas para a extrac o das rela es sint cticas entre os diferentes constituintes da frase como por exemplo entre o sujeito e o verbo podem ainda ser usadas para adicionar ou remover tra os a um n Veja se um exemplo de uma Regra de Depend ncia que cria uma depend ncia sujeito verbo objecto para um n NP que j contenha uma depend ncia de sujeito e uma depend ncia de objecto INP Z1 last i f subject 2 2 1 amp object 322 3 SVO 1 2 3 1 43 Condor Devido quantidade de dados a serem processados a sua computac o pela cadeia de processa mento levaria semanas se tivesse de ser realizada numa nica m quina O Condor Tannenbaum Wright Miller amp Livny 2001 providencia um mecanismo de fila de espera regime de
60. gular ou no plural do par candidato sobre o total sg NA de ocorr ncias do par num N A UNA e o r cio do n mero de ocorr ncias no singular ou no plural do nome do par candidato sobre o total de ocorr ncias desse nome no corpus num N ao Apenas foram considerados os pares candidatos em que num NA gt 0 9 De seguida verificou se a diferen a entre os dois r cios num N A num N Se essa diferen a for reduzida isso quer dizer que n o se observaram altera es na propriedade de varia o em n mero do nome quando este se encontra numa dada combina o nome adjetivo Foram testados v rios valores para esta diferen a tendo a melhor performance sido atingida com um valor de 0 2 3 2 Estrutura Nome de Nome A identifica o dos nomes compostos com a estrutura nome de nome semelhante apresentada para a estrutura nome adjetivo Foi constru do um filtro que foi aplicado s rvores de xml resultantes do processamento do corpus CETEMP blico pela cadeia de processamento STRING O programa aplicado funciona da seguinte forma e Verifica se se o n READING tem o atributo pos igual a NOUN ou seja se um dado lema um nome e Para o n identificado anteriormente verifica se se existe um n FEATURE com o atributo attribute igual a PROPER nomes pr prios se for encontrado o atributo esse n ent o descartado e Partindo do n READING anteriormente encontrado verifica se se o
61. icog raphy Comput Linguist 16 1 22 29 Daille B 1996 Study and Implementation of Combined Techniques for Automatic Extrac tion of Terminology In J Klavans amp P Resnik Eds The Balancing Act Combining Symbolic and Statistical Approaches to Language pp 49 66 Cambridge Massachusetts The MIT Press Dias G 2003 Multiword unit hybrid extraction In Proceedings of the ACL 2003 Workshop on Multiword Expressions Morristown NJ USA pp 41 48 Association for Computa tional Linguistics Dias G S Guillor amp J Lopes 1999 Language Independent Automatic Acquisition of Rigid Multiword Units from Unrestricted Text corpora In Proceedings of 6 me Con fer rence Annuelle sur le Traitement Automatique des Langues Naturelles Carg se Dias G amp S Nunes 2004 Evaluation of Different Similarity Measures for the Extraction of Multiword Units in a Reinforcement Learning Environment In Proceedings of the 4th International Conference on Languages Resources and Evaluation pp 1717 1721 67 BIBLIOGRAPHY Dice L 1945 Measures of the Amount of Ecologic Association Between Species Journal of Ecology Diniz F 2010 Um conversor baseado em regras de transforma o declarativas Mas ter s thesis Instituto Superior T cnico Universidade T cnica de Lisboa Dunning T 1993 Accurate methods for the statistics of surprise and coincidence Compu tational Linguistics 19 61 74 Fra
62. ido para as outras rvores do corpus processado O resultado obtido uma lista com todos os candidatos encontrados no corpus seguido do seu n mero de ocorr ncias cadeia de processamento STRING j identifica cerca de 22 000 nomes compostos diferentes com esta estrutura Estes termos s o identificados como um nico token NOUN pelo que n o ser o capturados pelo filtro aqui proposto Em segundo lugar s o aplicados os m todos e algoritmos descritos no cap tulo anterior No entanto necess rio retirar do corpus outro tipo de informa o nomeadamente os n gramas de palavras que cont m o candidato identificado assim como os n gramas das categorias gramati cais Os m todos estat sticos apresentados no cap tulo anterior s o usados para calcular bigramas com a exce o do Mutal Expectation Para os dados poderem ser processados pelos algoritmos necess rio o c lculo de trigramas pelo que alguns dos m todos foram normalizados nomeada mente o coeficiente de Dice Specific Mutual Information 42 Symmetric Conditional Probability e o Loglikelihood Ratio Somente os candidatos nome adjetivo identificados pelo filtro que tivessem um n mero de ocorr ncias superior a cinco foram processados pois os m todos utilizados neste trabalho tornam se incertos quando lidam com eventos raros Pecina amp Schlesinger 2006 Para os can didatos nome de nome isto n o se aplicou de forma a poder se verificar esta afirma o
63. ies para retirar informac o do corpus CLEF 2000 da qual resultou uma melhoria da precis o em 4 com o uso de identifica o de termos compostos atrav s deste m todo precis o de 41 relativamente a um levantamento de informa o sem a identifica o de termos compostos precis o de 37 2 2 ALGORITMOS E SISTEMAS 17 2 2 2 HELAS Foi proposto um sistema h brido chamado HELAS Dias 2003 que extrai candidatos a ter mos compostos de um corpus com as classifica es gramaticais Este sistema conjuga a medida Mutual Expectation ME acima apresentada com um processo de aquisi o chamado Gen LocalMaxs de forma a poder avaliar o grau de coes o de uma sequ ncia de palavras atrav s da combina o do grau de coes o das palavras com o grau de coes o das suas classifica es sint cticas do universo de discurso O primeiro passo deste sistema consiste em dividir o corpus em dois sub corpus um sub corpus das palavras e outro com as classifica es gramaticais Depois cada sub corpus segmen tado num conjunto de n gramas posicionais Em paralelo cada n grama posicional do subcorpus das palavras associado sua classifica o do subcorpus de classifica es de forma a poder avaliar a coes o global de uma sequ ncia de palavras e as suas classifica es respectivas A ideia deste sistema avaliar a coes o das associa es palavra classifica o ou seja quanto mais coes o existir numa sequ ncia de palavras
64. iltro de chamin 1 sprays de pimenta 1 cana de soprador 1 manto de p rpura 1 comunh o de leito 1 bar de striptease 1 gel de s lica 1 hidr xido de b rio 1 louca de forno 1 risca de colarinho 1 recetor de telex 1 miga de feij o 1 p ssaro de gaiola 1 contrato promessa de cess o 1 boneco de luva 1 botija de camping g 1 bateria de PB 1 varredor de ruas 1 mola de impuls o 1
65. inham sido normalizados para a identificac o da estrutura nome adjetivo assim como os algoritmos LocalMaxs e HELAS sec es 2 2 2 e 2 2 4 respectiva mente 3 2 1 Crit rios Sint cticos Esta sec o descreve a implementa o usada para a identifica o de cada um dos crit rios sint cticos para a estrutura Nome de Nome 3 2 1 1 Inser o de elementos no grupo nominal Os modificadores de nomes aqui considerados s o os adjetivos que podem ser inseridos dentro da estrutura nome de nome o que no caso do termo composto n o sucede Para determinar este tipo de restri o ser necess rio proceder identifica o no corpus de estruturas com os seguintes padr es e N1 ADJ de N2 e NI de ADJ e N1 ADJ de ADJ N2 O programa que procede identificac o destes padr es uma variante do programa descrito na secc o 3 2 e funciona da seguinte forma 42 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O TOP NP PP CONJ PP PUNCT ART NOUN PREP NOUN E PREP NOUN Uma chave de parafusos de porcas MAIN chave QUANTD chave Uma COORD parafusos COORD e porcas MOD POST chave parafusos MOD POST chave porcas O gt TOP NP Uma chave PP de parafusos e PP de porcas Figure 3 5 A express o Uma chave de parafusos e de porcas processada pelo XIP
66. istema se insere 1 4 1 Cadeia de Processamento A cadeia de processamento STRING Mamede 2011 composta por v rios m dulos sendo cada m dulo respons vel por efectuar uma tarefa espec fica A figura 1 1 apresenta esquem ticamente a sequ ncia de m dulos por que formada a cadeia de processamento No primeiro passo da cadeia faz se a segmenta o do texto tokenization e a identifica o de certos tipos de entidades textuais como por exemplo endere os n meros romanos n meros inteiros e decimais s mbolos sinais de pontua o abreviaturas e sequ ncias de caracteres n o aceites pelo analizador morfossint ctico De seguida faz se a etiquetagem morfossint ctica das palavras identificadas anteriormente 6 CHAPTER 1 INTRODUCAO O m dulo respons vel por esta tarefa LexMan Diniz 2010 associa s palavras campos es pec ficos categoria gramatical subcategoria modo tempo pessoa n mero g nero grau tipos de formac o caso O sistema considera 11 categorias gramaticais part of speech nome verbo adjetivo adv rbio pronome preposic o conjunc o artigo numeral interjeic o e ltimo pon tua o No pr ximo passo procede se divis o do texto em frases usando como terminadores os segmentos terminados com ou A seguir tem lugar uma desambigua o morfossint ctica por regras O sistema respons vel por esta tarefa tem o nome de Rule Driven Converter RuD
67. isto ocorrer verifica se se primeira palavra dos ATTRIB igual segunda palavra de um par ANTECEDENT RELAT verifica se ainda se a segunda palavra do ATTRIB um ADJ ou PASTPART e se esta palavra igual segunda palavra de um par PREDSUBJ se se encontrar estas rela es o par nome adjetivo ent o enviado para o REDUCER e O processo repetido para cada rvore xml do ficheiro de entrada O resultado deste processo uma lista de pares nome adjetivo que n o perdem a predica tividade No entanto o que se pretende uma lista de pares cujos adjetivos perdem de facto a predicatividade Assim este resultado cruzado com a lista de pares que foi retirada pelo filtro produzido e descrito na secc o 3 1 sendo retirado dessa lista todos os pares nome adjetivo encontrados pelo processo aqui descrito o resultado final uma lista de pares nome adjetivo cujos adjetivos n o aparecem no corpus em contexto predicativo Este resultado apenas uma aproximac o ao que se pretende visto estes crit rios terem sido constru dos para identificac o manual de termos compostos e requererem conhecimento emp rico Com este resultado n o podemos afirmar que para estes candidatos a nomes compostos o adjetivo perde a sua predicatividade quando combinado com aquele nome mas apenas se pode dizer que n o foi encontrado no corpus nenhum exemplo em que o adjetivo ocorresse em contexto predicativo 3 1 1 2 Varia o do adjetivo em grau
68. las vermelhas Os eventos considerados t m de ser mutuamente exclusivos e ter uma probabilidade total de 1 Este m todo definido pela equa o 3 n E vay SE 3 1 em que O representa a frequ ncia observada E a frequ ncia esperada e n o n mero de sa das poss veis para cada evento 2 14 9 O m todo q Gale amp Church 1991 baseado no Pearson s x para tabelas de conting ncia 2 x 2 testando a hip tese nula de que duas vari veis s o independentes A hip tese nula normalmente representado por Ho p wi pijw p wi xp w Se for m nimo a hip tese nula verifica se e considera se que as duas vari veis isto as palavras de uma combinat ria s o independentes Caso contr rio considera se que as duas vari veis est o relacionadas entre si ou seja neste caso a combinat ria apresenta um certo grau de fixidez Este m todo definido pela equa o 4 pra f x ol Flo xN flw xf we xCV f wa 2 1 M TODOS ESTAT STICOS 13 em que f wipi2w2 f w1 e f we representam respectivamente as frequ ncias do bi grama w1pi2W2 e dos uni gramas wi e wa N representa o n mero total de palavras no corpus e p12 representa a dist ncia entre as palavras e tw 2 1 5 Log likelihood Ratio O m todo de Log likelihood Ratio Dunning 1993 tal como o m todo testa a hip tese nula de que duas vari veis s o independentes A hip te
69. lassificar uma dada combina o como um termo composto Por exemplo o nome composto bra o direito pode referir a uma pessoa de confian a 3 4 CHAPTER 1 INTRODUCAO mas num dado texto pode estar a fazer refer ncia ao membro superior de uma pessoa 1 2 Objectivos do Trabalho Pretende se neste estudo desenvolver um sistema que permita a identificac o autom tica de candidatos a nomes compostos isto combina es de palavras ainda n o lexicadas que formam uma s unidade lexical A identifica o autom tica destes candidatos permiteria por um lado um muito mais efi ciente trabalho de classifica o por parte de um linguista e a sua integra o nos l xicos de sistemas de PLN Por outro lado a amplia o da cobertura dos l xicos j dispon veis dever re sultar numa muito maior precis o das diversas aplica es dependentes da correcta identifica o das unidades de sintaxe num texto nomeadamente a an lise sint ctica parsing e a extra o de informa o 1 3 Estrat gia A identifica o de termos compostos ser efectuada atrav s de t cnicas de processamento de l ngua natural fazendo uso entre outros recursos da ferramenta XIP Xerox Incremental Parser Ait Mokhtar Salah Jean Pierre Chanod and Claude Roux 2002 que parte da cadeia de processamento de l ngua natural STRING Statistical and Rule based Natural Language Processing Mamede 2011 desenvolvido no L F Para a obten o de padr
70. lterada mais tarde As ferramentas descritas anteriormente ir o ajudar a obter a informac o necess ria de uma forma mais r pida para a aplicac o de alguns dos m todos e algoritmos descritos no cap tulo 2 1 4 5 Roteiro Esta disserta o encontra se organizada do seguinte modo No cap tulo 2 feita uma descri o de v rios m todos usados para a identifica o de termos compostos O cap tulo 3 apresenta os passos para a implementa o de identifica o de compostos No cap tulo 4 faz se a descri o dos crit rios de avalia o e apresentado os resultados obtidos finalmente no cap tulo 5 apresentam se as conclus es do estudo assim como o trabalho futuro Chapter 2 Trabalho Relacionado Este cap tulo faz uma descric o dos m todos estat sticos e algoritmos usados para a identificac o autom tica de termos compostos assim como tamb m feita uma comparac o dos algoritmos apresentados Tamb m apresentado uma descric o dos crit rios sint ticos que comp em as estruturas Nome Adjetivo e Nome de Nome 2 1 M todos estat sticos Esta sec o descreve os m todos estat sticos usados pelos v rios algoritmos e sistemas de iden tifica o de termos compostos que ser o descritos na sec o 2 2 2 1 1 Dice coefficient O coeficiente de Dice Smadja McKeown amp Hatzivassiloglou 1996 Dice 1945 consiste em medir o grau de coes o fixidez que existe entre duas palavras de um bi grama
71. luate the results Palavras Chave Keywords Palavras Chave Nome Composto M todos Estatisticos Algoritmos Crit rios Sint cticos Corpus Keywords Multiword Statistical Methods Algorithms Syntactic Criteria Corpus ndice 1 Introdu o lb Motiva o users es cs aod A RS ee AAA 1 2 Objectivos do Trabalho o e 1 3 A A ee do pee a SN 1 4 Ferramentas Utilizadas 0 e 1 4 1 Cadeia de Processamento TAD RIP cus aed RO Ree LLL 14 30 Condor a der BO dee A dido a L44 Had op sx a ee a EORR ee ERO EUR RUE EDS IME5 ROGEIT 260m o Dea deque cone eum eme s qu ET xai 2 Trabalho Relacionado 2 1 M todos estat sticos ee 2 Ll Dice coelhcient De RIT A RUE qos E 2 1 2 Specific Mutual DA to O X dde O tes DR li de AR AO es a 2 1 5 Log likelihood 2 1 6 Mutual Expectation codicia a a ES 2 1 7 Simpson Similarity Coefficient 2 1 8 Symmetrical Conditional 2 2 Algoritmos e Sistemas 10 11 2 2 1 Kohonen s Learning Vector Quanti
72. mac o gramatical o Condor que providencia uma calenderizac o e processamento de forma paralela na fase de processamento do corpus e da ferramenta Hadoop que facilita o acesso aos dados processados pela cadeia de processamento Foi feito tamb m uma descric o dos sistemas que se usaram para a identificac o dos can didatos bem como das estrat gias criadas para a determinac o da presenca de propriedades sint ticas nas express es candidatas Isto levou cria o de programas para atingir os objetivos pretendidos Estes programas passaram por um processo de avaliac o para determinar a sua precisao Com este trabalho podemos verificar que nomes compostos apresentam na sua grande maioria frequ ncias altas Tamb m se pode constatar que usar informac o lexical na identi ficac o autom tica influencia a avaliac o que os sistemas fazem Ao processar candidatos cujo n mero de ocorr ncias inferior a 5 torna se bvio que o processo de extrac o d origem a muitos candidatos esp rios o que nos diz que os sistemas t m problemas ao lidar com eventos raros Os resultados dos crit rios sint ticos parecem positivos e revelam que certos crit rios sint ticos podem ser formalizados e aplicados de maneira relevante na identificac o de nomes compostos pelo que muitos sistemas poder o vir a ganhar com este tipo de informac o 65 66 CHAPTER 5 CONCLUSAO E TRABALHO FUTURO 5 2 Trabalho Futuro Nesta secc o final tracam
73. me adjetivo produzido pelo programa descrito na 3 1 sendo retirados dessa lista to dos os pares encontrados pelo processo descrito aqui O resultado final uma lista de pares nome adjetivo cujo adjetivo n o apresentou no corpus qualquer varia o em grau Como foi referido para o crit rio anterior este resultado apenas uma aproxima o ao que se pretende pelas mesmas raz es enunciadas n o podemos afirmar com total certeza que o adjetivo nunca varie em grau para o nome que modifica simplesmente podemos dizer que n o foi encontrado um exemplo em contr rio 3 1 1 3 Coordena o do adjetivo com outro adjetivo Os padr es que se pretende encontrar para a valida o deste crit rio s o situa es em que para um dado par nome adjetivo o adjetivo se encontre coordenado com outro adjetivo As figuras 3 3 e 3 4 ilustram exemplos destas situa es Em ambas as figuras s o produzidas duas rela es de coordena o COORD entre a con jun o coordenativa e os adjetivos No entanto as rela es destes adjetivos com o nome s o difer entes No primeiro caso s o feitas duas rela es de atributo ATTRIB e ATTRIB ANAPHO no segundo caso s o obtidas duas rela es de modificador MOD POST necess rio reconhecer estes padr es O programa para reconhecer estes padr es funciona da seguinte forma e percorrer a rvore xml da frase s o colocadas numa lista todas as palavras da frase com as
74. n o deve ser tomado em conta como uma associac o de palavras relevante 16 16 lt X1 16 20 CHAPTER 2 TRABALHO RELACIONADO No entanto puderam ser formulados novos constrangimentos ao problema que introduziram novo conhecimento Foi formulado que a frequ ncia marginal de um n grama tem de ser supe rior ou igual sua frequ ncia relativa 17 da mesma maneira que o n mero de super grupos diferentes de um dado n grama n o pode ser superior sua frequ ncia relativa 18 T3 22 X1 17 29 lt X1 18 Depois de ter sido escolhido o melhor gen tipo usada uma medida de similaridade para avaliar o relacionamento de cada n grama com o gen tipo Quanto mais distante esses dois pares menos similares eles ser o Foram usadas quatro medidas de similaridade a medida euclidiana 19 a medida de diverg ncia 20 a medida de Bray Curtis 21 e a medida de Soergel 22 p 1 Di Xj Euclidean 19 k 1 PO cu D E 7 Divergence 20 Op 2 d Eu Xik B Ei Xik nu Dj ray Curtis 21 Xh lXix Xl ir max X ji Dj Soergel 22 A dist ncia entre duas unidades i e j definida como Dj f X X onde f uma fun o de medida X o gen tipo e X o n grama Para testar foi usado um manual de Linux em ingl s com aproximadamente 54 000 palavras Os melhores resultados obtidos foram 71 e 70 de precis o respectivamente para as m
75. ntzi K S Ananiadou amp Mima 2000 Automatic recognition of multi word terms the C value NC value method International Journal on Digital Libraries V3 2 115 130 Gale W amp Church 1991 Concordances for Parallel Texts Proceedings of the Seventh Annual Conference of the UW Center for the New OED and Text Research Using Corpora Gross G 1988 Degr de figement des noms compos s In Languages 90 Paris Larousse pp 57 72 Hull D amp Grefenstette 1996 Experiments in Multilingual Information Retrieval In Proceedings of the 19th Anmual International ACM SIGIR Conference on Research and Development in Information Retrieval pp 6 9 Johansson C 1996 Good bigrams In Proceedings of the 16th conference on Computational linguistics Morristown NJ USA pp 592 597 Association for Computational Linguistics Kohonen T 1989 Self organization and Associative Memory 3rd edition ed New York NY USA Springer Verlag New York Inc Kohonen T J Kangas J Laaksonen amp K Torkkola 1992 LVQ PAK A program package for the correct application of Learning Vector Quantization algorithms pp 725 730 Lopes G amp J Silva 1999 A local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units In Proceedings of the 6 Meeting on the Mathematics of Language pp 369 381 Lu s T 2008 Parallelization of Natural Language Processing Algorithms on Distributed
76. o o adjetivo pode comutar com outros adjetivos desde que sejam respeitadas as restri es distribucionais impostas pelo substantivo Esta mesa alta baixa redonda circular quadrada feia est tica bonita 28 CHAPTER 2 TRABALHO RELACIONADO Cada s rie de adjetivos do exemplo anterior formam aquilo que habitualmente se designa por paradigma distribuicional Num nome composto o substantivo s se combina com um ou alguns adjetivos do paradigma distribucional em que estes se podem integrar Esta restric o rec proca outros substantivos suscept veis de pertencerem ao mesmo paradigma distribucional de mesa n o podem comutar com este nome na combinac o fixa mesa redonda O Z e a Ana participaram em uma secret ria redonda uma escrivaninha redonda um estirador redondo Num grupo nominal livre Nome de Nome os elementos ficam bloqueados quando um dado elemento faz parte de um nome composto O Z comprou um livro de bolso algibeira A Ana manteve o seu nome substantivo de solteira Esta caracter stica revela a fixidez sint ctica e lexical da combinac o 2 4 6 Varia o em n mero Em muitos nomes compostos n o se observa qualquer variac o em n mero pelo que o composto ou obrigatoriamente singular ou obrigatoriamente plural O povo portugu s est neste momento a passar por tempos dif ceis tempo dif cil O Z foi condenado pena capital s penas
77. o REDUCER a estrutura nome de nome encontrada Este processo repetido para todas as rvores do ficheiro de entrada A lista resultante deste programa s o todas as estruturas nome de nome em que o segundo nome aparece determinado por um artigo definido E tamb m necess rio recolher as situa es em que o segundo nome se encontra determinado por todos os outros casos o programa tamb m uma varia o do programa descrito na sec o 3 2 e funciona da seguinte forma e Tal como descrito na sec o 3 2 o programa identifica os candidatos nome de nome que n o sejam nomes pr prios e Verifica se o n adjacente ao lemma de diferente de ART ou PUNCT ou seja verifica se n o um artigo definido ou uma pontua o e enviado o REDUCER a estrutura nome de nome encontrada 3 2 ESTRUTURA NOME DE NOME 45 e Este processo repetido para todas as rvores do ficheiro de entrada A lista resultante deste programa s o todas as estruturas nome de nome em que o segundo nome aparece determinado por um determinante que n o o artigo definido Estes dados s o ent o processados por um programa que calcula o r cio entre o n mero de ocorr ncias da combinat ria candidata e o total de ocorr ncias da express o envolvendo os mesmos nomes mas com outros determinantes ou seja todas as inst ncias nome de det nome em que det diferente do determinante do candidato Se este valor for superior a um dado limiar con
78. o contexto definido em termos do conjunto de depend ncias acima referidas foi poss vel encontrar ocorr ncias do primeiro nome da combinat ria sem a presenca do complemento de N O resultado uma lista de termos nome de nome para os quais n o foram encontrados contextos iguais 3 2 1 5 Ruptura paradigm tica Este crit rio segue uma soluc o semelhante proposta para o mesmo crit rio na estrutura nome adjetivo sec o 3 1 1 5 Pretende se verificar no corpus se sendo dado o primeiro nome 46 CHAPTER 3 ESTRAT GIA E IMPLEMENTA O da estrutura nome de nome n o existe grande varia o do segundo nome dentro do mesmo paradigma distribucional ou se sendo dado o segundo nome da mesma estrutura n o existe grande varia o do primeiro nome dentro do mesmo paradigma distribucional Como j tinha sido referido para a estrutura nome adjetivo a cadeia de processamento STRING n o retira qualquer tipo de informa o relativamente ao paradigma distribucional de uma palavra Assim todos os nomes foram considerados como tendo o mesmo paradigma distribucional Para a classifica o deste crit rio usou se as mesmas abordagens propostas para a estrutura nome adjetivo calculado o r cio de um dos nomes relativamente ao outro nome usando o mesmo valor de limiar de 0 75 Os dados usados foram os resultantes da lista de nome de nome encontrados pelo filtro de identifica o desta estrutura Tamb m foram usadas as mesm
79. o para a estrutura nome de nome a frequ ncia um factor preponderante para avaliar a coes o de um candidato observando se no entanto que no caso dos nome de nome a precis o bastante inferior mesmo no caso da classe de frequ ncia mais alta Tal deve ficar a dever se s menores frequ ncias consideradas nesta classe de composto 4 3 Crit rios Sint cticos Nesta sec o apresentamos os resultados obtidos na aplica o dos crit rios sint ticos para a identifica o da estrutura nome adjetivo e para a estrutura nome de nome Os programas de determina o dos crit rios sint ticos da estrutura nome adjetivo foram aplicados amostra aleat ria apresentada nas sec es 4 2 5 e 4 2 8 As tabelas 4 15 4 16 4 17 4 18 4 19 e 4 20 mostram as percentagens correspondentes de cada c lula da tabela enunciada na sec o 4 1 3 relativamente a cada crit rio sint tico tabela 4 21 mostra os valores de precis o medidos para cada um dos crit rios sint ticos na estrutura nome adjetivo Uma an lise superficial da tabela 4 21 poderia levar a concluir que o crit rio da ruptura paradigm tica aquele que apresenta os melhores resultados No entanto uma an lise atenta crit rio presente crit rio n o presente Nome Composto 25 1 0 1 Combinat ria livre 74 6 0 2 Table 4 16 Matriz de resultados do crit rio coordenac o na estrutura nome adjetivo 4 3 CRIT RIOS SINT CTICOS 61 crit rio p
80. o presente crit rio n o presente 0 4 9 6 0 5 89 5 crit rio presente crit rio n o presente 3 6 6 4 4 1 85 9 4 3 CRIT RIOS SINT CTICOS 63 Table 4 28 Precis o dos crit rios sint ticos na estrutura nome de nome Inser o de modificadores 11 3 Varia o do determinante 18 0 Coordenac o 11 7 Elis o do segundo nome 10 Ruptura Paradigm tica 89 9 Variac o em n mero 89 5 lar o crit rio da elis o do adjetivo no caso dos nome adjetivo e o da elis o do complemento de nome nos nome de nome dever apresentar melhores resultados se se vier a integrar ou tras dependencias definit rias de contexto do primeiro nome isolado aumentando o mbito da comparac o do contexto das sequ ncias candidatas Tamb m o crit rio da ruptura paradigm tica poder vir a apresentar melhroes resultados se se dispuser de informac o distribucional que permita comparar a estrutura candidata dentro dos respetivos paradigmas em que cada elemento componente cada um dos nomes ou o adjetivo se pdoe inserir 64 CHAPTER 4 AVALIACAO E RESULTADOS Chapter 5 Conclusao e Trabalho Futuro 5 1 Conclus o Foi feita uma breve descric o das ferramentas usadas no processo de extrair candidatos a nomes compostos no corpus CETEMP blico nomeadamente a cadeia de processamento STRING para processar o corpus e retirar infor
81. og likelihood Ratio 129 721 3 166 841 Mutual Expectation 140 161 4 723 158 Symmetric Conditional Probability SCP 50 357 3 203 238 Table 4 8 Resultados LocalMaxs para a estrutura nome adjetivo quando a cadeia identifica nomes compostos Medida estat stica N de padroes diferentes N de ocorr ncias Dice coefficient 116 565 2 981 983 Specific Mutual Information SMI 12 917 630 767 21 319 1 251 948 Log likelihood Ratio 116 036 1 829 301 Mutual Expectation 139 701 3 273 087 Symmetric Conditional Probability SCP 22 967 1 527 815 Ao comparar os resultados das tabelas podemos ver o aumento significativo do n mero de padr es capturados pelos m todos estat sticos SMI e SCP podemos concluir que estes m todos podem ser os melhores para identificar nomes compostos em corpus muito grandes O n mero de padroes encontrados para as medidas Dice coefficient Log likelihood Ratio e Mutual Expectation tamb m aumentaram mas tiveram um aumento abaixo dos 11 000 padroes que cerca de metade dos nomes compostos com a estrutura nome adjetivo que a cadeia de processamento j identificava de real ar que alguns dos novos padr es capturados podem ser ru do introduzido pela nova informac o O n mero de ocorr ncias tamb m aumentou significativamente para todas as medidas Isto indica que os novos padroes identificados possuem grande frequ ncia no corpus pois poss vel concluir que a
82. os alguns pistas de trabalho futuro Os aspectos principais que podem ser realizados s o e Estender a procura a outras estruturas sint ticas como por exemplo as estruturas adver biais com a forma de sintagmas preposicionais e Para essas novas estruturas estudar e aplicar automaticamente a determinac o da presenca dos crit rios sint ticos que permitem a sua identificac o e Usar a informac o fornecida pela determinac o de crit rios sint ticos por sistemas que usam mais informac o que a frequ ncia de candidatos e frequ ncia dos seus constituintes como por exemplo o GALEMU sec o 2 2 3 e Aumento da informac o lexical disponibilizada pela cadeia de processamento STRING De momento n o existe qualquer tipo de informac o relativamente a paradigmas distribu cionais de palavras extrair este tipo de informac o a determinac o do crit rio da ruptura paradigm tica para as duas estruturas poder vir a ter melhores resultados e Melhorar a procura dos crit rios sint ticos nomeadamente a elis o do adjetivo na estrutura nome adjetivo ou a elis o do nome na estrutura nome de nome Estes crit rios ainda t m muito espaco para desenvolvimento e seria desej vel no futuro estender a mais informac o de contexto e Usar os nomes compostos extra dos para enriquecer a cadeia de processamento STRING Dos aspectos enunciados aumentar a informac o lexical disponibilizada pela cadeia de pro cessamento STRING
83. os em W 2 41 o conjunto de todos os n 1 gramas posicionais contidos em W e sizeof uma fun o que devolve o n mero de palavras de um n grama posicional palavra classificac o Os testes realizados pelo autor foram feitos sobre uma parte do Brown Cor pus contendo 249 578 palavras e usando 11 valores diferentes para o ou seja 0 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 1 sendo o focus total nas palavras para a 1 e focus total nas classifica es para 0 Os resultados obtidos mostraram que tanto a depend ncia de palavras como as dependencias das classifica es gramaticais t m uma tarefa importante na identifica o de termos compostos pois os melhores resultados foram obtidos para valores de a igual a 0 4 e 0 5 As sequ ncias mais identificadas foram bigramas e trigramas que atingiram uma precis o de 60 e 80 respectivamente para a igual a 0 5 Para os trigramas verificou se que a estrutura sint ctica tem um papel muito importante na identifica o pois a precis o caiu drasticamente quando o foco passou a dar mais relev ncia s depend ncias de palavras No caso dos bigramas demasiado focos nas depend ncias de palavras ou nas depend ncias das classifica es levou a resultados insatisfat rios sendo os melhores resultados obtidos atrav s do equil brio entre os dois tipos de depend ncias No entanto a identifica o de sequ ncias de duas palavras continua a ser um problema para este sistema
84. p lio estatal 162 mao atar 158 modu operandi 151 cat strofe ecol gico 139 postal ilustrar 134 marca pr prio 130 diagn stico precoce 118 contenc o salarial 114 zona frontal 111 ensino recorrente 103 forma categ rico 100 n vel financeiro 90 melting pot 87 atividade piscat rio 75 atividade cineg tico 70 rea construir 68 acordo amig vel 66 exterminador implac vel 64 instituto hidrogr fico 61 surto epid mico 54 tabela oficial 51 face ocultar 50 cadeia hier rquico 48 controlo epidemiol gico 45 filologia rom nico 42 perna cruzar 41 sistema circulat rio 36 passadeira rolante 36 secretariado geral 35 recens o cr tico 34 cometa hale Bopp 33 penso higi nico 31 sexo virtual 30 v rtebra cervical 29 ind stria sider rgico 27 private joke 27 prefer ncia club stico 27 compact disc 26 very light 24 solo arenoso 23 hist ria rocambolesco 23 biologia marinho 22 regime ambulat rio 21 disposic o testament rio 21 estado gasoso 20 func o decorativo 19 transporte interno 19 73 TAAPPENDIX A LISTA DE NOME ADJETIVO CLASSIFICADOS COMO COMPOSTOS E RESPECTIVAS fora de jogo posicional 18 ex director desportivo 18 pluralismo informativo 18 cart o canelar 18 jogo viciar 17 latitude m dio 17 requalificac o urban stico 16 boneca insufl vel 16 revoluc o bolchevista 16 futebol a reo 16 feira tradicional 15 cor diverso 15 poesia er tico 15 violino barroco 14 grau superlativo 14
85. pp 442 449 Silva J G Dias S Guillor amp J Lopes 1999 Using LocalMaxs Algorithm for the Extrac tion of Contiguous and Non contiguous Multiword Lexical Units In EPIA 99 Proceed ings of the 9th Portuguese Conference on Artificial Intelligence London UK pp 113 132 Springer Verlag Smadja F K R McKeown amp V Hatzivassiloglou 1996 Translating collocations for bilin gual lexicons a statistical approach Comput Linguist 22 1 1 38 Tannenbaum T D Wright K Miller amp M Livny 2001 Condor A Distributed Job Scheduler In T Sterling Ed Beowulf Cluster Computing with Linux Chapter 15 MIT Press 70 BIBLIOGRAPHY Appendix Lista de nome adjetivo classificados como compostos e respectivas ocorr ncias impacte ambiental 2277 junta metropolitano 820 abuso sexual 680 problema t cnico 618 d fice democratico 528 estabilidade cambial 487 parlamento nacional 457 imprensa internacional 429 barreira psicol gico 376 engenho explosivo 354 sigilo banc rio 336 inova o tecnol gico 317 protec o ambiental 306 sentido contr rio 293 propriedade intelectual 278 roda motriz 264 71 72APPENDIX A LISTA DE NOME ADJETIVO CLASSIFICADOS COMO COMPOSTOS E RESPECTIVAS aux lio humanit rio 242 lua cheio 231 elefante branco 218 grupo estrangeiro 211 pot ncia administrante 204 conversa informal 197 medida econ mico 187 seguranca pessoal 183 interlocutor privilegiar 168 mono
86. prioridade acompanhamento e gest o de recursos de forma a se poder executar os processos paralelamente sobre uma rede de m quinas podendo assim processar os dados de uma forma mais r pida O Condor pode usar eficientemente o poder computacional desperdicado de m quinas que estejam paradas Se o Condor detectar que uma m quina j n amp o est dispon vel ele capaz de produzir um checkpoint que marca onde o processamento parou para migrar o trabalho para uma m quina diferente que esteja parada e assim continuar o processamento onde tinha parado anteriormente 1 4 FERRAMENTAS UTILIZADAS 9 O Condor providencia um ambiente de trabalho extremamente flex vel e expressivo para alocar processos a m quinas Certos processos t m requerimentos e prefer ncias espec ficas assim como as m quinas podem especificar requerimentos e prefer ncias acerca dos processos que est o dispostos a processar Estas prefer ncias e requerimentos podem ser descritos atrav s de express es de forma a que o Condor se possa adaptar a qualquer ambiente de trabalho O Condor incorpora tamb m protocolos e metodologias de computacao GRID 1 4 4 Hadoop A Hadoop Lu s 2008 implementa o modelo de programa o MapReduce e possui um sistema de ficheiros distribu do chamado Hadoop Distributed File System HDFS O HDFS foi dese nhado para guardar de forma segura grandes quantidades de dados por v rias m quinas de uma rede Este sistema providen
87. ram equivalentes confirmando igualmente o correcto funcionamento dos filtros 4 1 2 M todos e algoritmos Para a valida o dos m todos e algoritmos foi produzido manualmente uma lista de unigramas bigramas termos compostos candidatos N 1 gramas e as suas respectivas categorias grama ticais sendo depois calculados manualmente os valores das medidas estat sticas e os resultados dos algoritmos 49 50 CHAPTER 4 AVALIACAO E RESULTADOS Calcular manualmente uma quantidade grande de dados um processo bastante moroso e de uma extrema dificuldade Assim as listas produzidas comp em se de um total de 11 inst ncias de padr es sendo 6 desses diferentes Estas listas foram processadas pelos m todos e algoritmos apresentados e foram comparados com os que tinham sido obtidos manualmente Os resultados foram equivalentes necess rio tamb m uma avaliac o para a classificac o de nomes compostos no corpus CETEMP blico Como se trata de um corpus de dimens es muito grandes medir os resultados em termos de recall imposs vel simplesmente porque retirar manualmente todos os nomes compostos com as estruturas pretendidas de um corpus constitu do por cerca de 190 milh es de palavras n o exequ vel Assim o m todo principal de avaliac o o da precis o que medido da seguinte forma n mero de candidatos classificados correctamente como nome composto Precisao 27 n mero de candidatos classificados
88. resente crit rio n o presente Nome Composto 22 5 2 7 Combinat ria livre 60 0 14 8 Table 4 17 Matriz de resultados do crit rio variac o em grau na estrutura nome adjetivo crit rio presente crit rio n o presente Nome Composto 4 5 20 7 Combinat ria livre 12 4 62 4 Table 4 18 Matriz de resultados do crit rio elis o do adjetivo na estrutura nome adjetivo da tabela 4 19 permite constatar que este valor de precis o do crit rio resulta de uma elevada percentagem de verdadeiros negativos 74 3 isto express es livres que efectivamente n o s o capturados pelo crit rio O que se pretende um equil brio e maximiza o das c lulas C1 e C4 tendo isto em conta os crit rios de varia o em grau e varia o em n mero aparentam ter os melhores resultados Os programas de determina o dos crit rios sint ticos da estrutura nome de nome foram aplicados amostra aleat ria desta estrutura enunciada na sec o anterior As tabelas 4 22 4 23 4 24 4 25 4 26 e 4 27 mostram as percentagens correspondentes de cada c lula da tabela enunciada na sec o 4 1 3 relativamente a cada crit rio sint tico tabela 4 28 mostra os valores de precis o medidos para cada um dos crit rios sint ticos na estrutura nome de nome Os resultados obtidos de precis o tabela 4 28 foram na sua generalidade maiores que a precis o obtida pelos m todos estat sticos Pelos resultado
89. riCo 2 Pardal 2007 Diniz 2010 Este m dulo modifica a segmenta o feita pelo analisador morfol gico LexMan aplicando regras de desambigua o morfossint ctica regras para desfazer as contra es e g de preposi es e de terminantes como n s em os e regras de identifica o de locu es adverbiais conjuncionais e outras e g apesar de ao longo de n o amb guas Segue se o m dulo de desambigua o morfossint ctica estat stica Marv Ribeiro Oliveira amp Trancoso 2003 que utiliza o algoritmo de Viterbi para seleccionar a etiqueta mais prov vel para cada palavra no contexto em que se encontra Como s usa informa o sobre a categoria e subcategoria se a palavra tiver associadas v rias etiquetas ap s a selec o de categoria e subcategoria escolhe se arbitrariamente a primeira etiqueta Este m dulo tem uma precis o com cerca de 96 e foi treinado com um corpus de cerca de 250 mil palavras Finalmente executado o XIP Xerox Incremental Parser Ait Mokhtar Salah Jean Pierre Chanod and Claude Roux 2002 que introduz nova informa o l xical aplica regras de desam bigua o morfossint ctica e gram ticas locais segmenta as frases em constituintes elementares chunks e calcula as depend ncias sint cticas entre estes Na medida em que o XIP um elemento central da informa o processada e que foi utilizado para o desenvolvimento deste estudo apresentaremos este ltimo m dulo da cadeia ST
90. s aleatoriamente retirado um certo n mero de candidatos para formar a lista final de 1000 candidatos os quais ser o ent o classificados Esta lista foi entregue a um linguista para ser validada manualmente Esta validac o manual confirmou que 231 candidatos s o efectivamente nomes compostos 21 candidatos fazem parte de outros termos compostos mais longos pelo que foram contabilizados como compostos finalmente 113 candidatos s o coloca es isto combina es de palavras que se distinguem pela sua alta frequ ncia de uso por exemplo estilo inconfund vel ou velocidade alucinante Este tipo de termos s o interessantes para outro tipo de estudo mas n o foram contabilizados para efeitos de precis o Com estes resultados obteve se uma precis o global de 25 2 Esta lista de 1000 candidatos foi dividida em 4 grupos de 250 candidatos organizados por ordem decrescente de frequ ncia Observou se que para o grupo dos 250 candidatos mais frequentes 2277 a 11 ocorr ncias se obteve uma precis o de 44 4 os grupos seguintes possuem respectivamente as precis es de 27 2 21 6 e 7 6 Tal confirma a ideia de que a frequ ncia um factor preponderante para avaliar a coes o interna de uma sequ ncia candidata sendo de descartar ou pelo menos de atribuir tanta import ncia as express es que num corpus com as dimens es como as do que aqui foi usado apresentam frequ ncias inferiores a 10 ocorr ncias 4 2 6 Algoritmo Loc
91. s observados no crit rio elis o do segundo nome verificou se que esta determinou como presente o crit rio em todos os candidatos poss vel que seja necess rio retirar e comparar mais depend ncias de contexto pois as que foram usadas podem n o ser suficientes ou adequadas para este tipo de estrutura Pode se tamb m verificar que os crit rios mais precisos s o os que apresentam maior per centagem de verdadeiros negativos muito maior que a percentagem de verdadeiros positivos Por outro lado os crit rios que alcan aram uma precis o mais baixa s o justamente os que apresentam maior percentagem de casos positivos Por esta raz o dif cil determinar de forma clara qual o melhor crit rio para a classifica o de candidatos com a estrutura nome de nome Os resultados obtidos pela explora o de crit rios sint ticos s o na generalidade positivos e promissores No entanto alguns destes crit rios podem ainda ser melhorados Em particu crit rio presente crit rio n o presente Nome Composto 0 9 24 3 Combinat ria livre 0 5 74 3 Table 4 19 Matriz de resultados do crit rio ruptura paradigm tica na estrutura nome adjetivo 62 Nome Composto Combinat ria livre CHAPTER 4 AVALIACAO E RESULTADOS crit rio presente crit rio n o presente 11 4 13 8 29 8 45 0 Table 4 20 Matriz de resultados do crit rio variac o em n mero na estrutura nome adjetivo
92. s resultados obtidos na aplica o do algoritmo HELAS para as duas estruturas sint ticas tabela 4 3 mostra o n mero de padr es diferentes encontrados e o n mero total de inst ncias com a estrutura nome adjetivo extra dos pelo algoritmo HELAS para os v rios valores de o utilizados usando a medida estat stica SCP tal como foi descrito na sec o 2 1 8 Como se pode observar a informa o gramatical tem um peso relevante na classifica o de candidatos como nomes compostos No entanto se se colocar demasiado peso nas categorias 52 CHAPTER 4 AVALIACAO E RESULTADOS Table 4 3 Resultados HELAS para o padr o nome adjetivo com a medida SCP a Padr es diferentes N mero de ocorr ncias 0 0 37 557 924 880 0 1 79 826 2 777 930 0 2 127 189 4 385 502 0 3 132 350 4 570 680 0 4 129 849 4 575 417 0 5 117 720 4 475 638 0 6 99 857 4 271 949 0 7 82 413 4 007 052 0 8 68 754 3 727 891 0 9 58 371 3 463 785 1 0 50 357 3 203 238 gramaticais ou demasiado peso nas palavras que comp em a combinac o pode se notar um r pido decr scimo de padr es identificados Outro ponto de relev ncia o facto de o n mero de ocorr ncias diminuir muito mais drasticamente quando s se tem em conta as categorias gramaticais Este processamento do HELAS foi estendido tamb m para a medida estat stica 2 e os resultados apresentam se na tabela 4 4 Table 4 4 Resultados HELAS para o padr
93. se nula de independ ncia estat stica de duas vari veis representado por Ho p wipijw colocando o paradigma de independ ncia entre duas linhas da tabela de conting ncia Este m todo pode ser definido pela equa o 5 Loglike wipi2w2 2 log A 2x log 1 017 log 072 7 5 1000 1 017 1060 2 1 0 em que s f w p 2w2 e 52 F wipi2wel e n f wi e f w2 ef 21 ny e 05 o e o lua e f wipi2wa f w1 e f wa representam respectivamente as frequ ncias do bigrama w1p12w2 e dos unigramas wi e wa e N representa o n mero total de palavras no corpus e pj representa a distancia entre as palavras e we 14 CHAPTER 2 TRABALHO RELACIONADO 2 1 6 Mutual Expectation O m todo Mutual Expectation Daille 1996 Dias Guillor amp Lopes 1999 baseado no conceito de Normalized Expectation NE cuja ideia avaliar o custo em termos de coes o da perda de uma palavra num n grama ou seja a probabilidade de uma palavra ocorrer numa dada posi o sabendo a ocorr ncia das outras 1 palavras e as suas posi es Sabendo que um crit rio eficiente para a identifica o de termos compostos a frequ ncia pode se deduzir com isto que entre dois n gramas com o mesmo NE o n grama mais frequente mais provavelmente um termo composto O m todo definido pela equa o 6
94. sidera se que o crit rio se aplica O limiar utilizado foi de 0 75 Se no corpus n o se tiver observado qualquer varia o do determinante o candidato imediatamente classificado como verificando este crit rio 3 2 1 4 de elementos do grupo nominal A soluc o produzida para este crit rio id ntica estrat gia usada para a elis o do adjetivo na estrutura nome adjetivo necess rio procurar por contextos com a estrutura pretendida e compar los com os contextos dos nomes que n o se encontram nesta estrutura ou seja em que o primeiro nome n o apresenta o complemento de N As depend ncias usadas para compara o foram tamb m as depend ncias de sujeito SUBJ complemento directo CDIR e modificador MOD O processo para a identifica o funciona da seguinte forma e Retira se do corpus as estruturas nome de nome e para essas estruturas procura se nos n s DEPENDENCY as tags CDIR SUBJ e MOD cuja segunda palavra corresponda ao primeiro nome da estrutura encontrada sendo depois esta informa o enviada para REDUCER e Retira se do corpus os nomes que n o se encontrem numa estrutura nome de nome e procura se nos n s DEPENDENCY as tags CDIR SUBJ e MOD cuja segunda palavra seja igual ao nome encontrado esta informac o enviada para o REDUCER e duas listas produzidas pelos dois passos anteriores s o ent o processados por um pro grama que verifica quais as estruturas nome de nome para cuj
95. sua import ncia quando aparecem perto desses termos compostos O crit rio usado o n mero de termos compostos que aparece junto ou seja quanto maior o n mero maior ser a probabilidade de essa palavra estar relacionada com termos compostos Este crit rio pode ser expresso na formula 25 t weight w 257 25 n em que a palavra de contexto weight w o valor que ser atribu do a essa palavra t w o n mero de termos compostos que aparece junto palavra e n o n mero total de termos compostos considerados Para calcular o NC value a informac o referida anteriormente de ser incorporada na listagem que foi retirada pelo C value Resumindo este m todo ordena a listagem retirada pelo m todo C value colocando no topo da listagem os termos compostos cuja certeza maior O m todo NC value pode ser formalmente descrito pela f rmula 26 NC value a 0 8C value a 0 2 y fa b weight b 26 beCa em que a o termo composto candidato Ca a listagem de palavras de contexto de a fa b a frequ ncia de b como palavra de contexto de a e weight b o valor de b como palavra de contexto Para testar estes m todos o autor utilizou um corpus de registos m dicos com patologias 24 CHAPTER 2 TRABALHO RELACIONADO relacionadas com os olhos contendo somente o diagn stico e a descric o da doenca com um total de 810 719 palavras A lista obtida possu a 2956 termos compostos difer
96. ta omiss o Para a identifica o do contexto utilizam se as depend ncias sint cticas extra das pelo STRING embora v rias depend ncias pudessem ser aqui utilizadas decidiu se utilizar as 3 mais gerais SUBJ sujeito CDIR com plemento directo e MOD modificador O processo para a identifica o funciona da seguinte forma e Retira se do corpus os pares nome adjetivo e para esses pares procura se nos n s DEPEN DENCY as tags CDIR SUBJ e MOD cuja segunda palavra corresponda ao nome do par encontrado esta informa o enviada para o REDUCER e Retira se do corpus os nomes que n o se encontrem seguidos de um adjetivo e procura se nos n s DEPENDENCY as tags CDIR SUBJ e MOD cuja segunda palavra seja igual ao nome encontrado esta informa o enviada para o REDUCER e As duas listas produzidas pelos dois passos anteriores s o processados por um programa que verifica quais os pares nome adjetivo que ocorrem num contexto igual em que esse nome ocorre isolado 3 1 ESTRUTURA NOME ADJETIVO 39 3 1 1 5 Ruptura paradigm tica Para a aplica o deste crit rio sec o 2 4 5 pretende se verificar no corpus se para o nome de um par nome adjetivo se verifica uma ruptura distribucional quanto ao adjetivo que com ele se combina isto sendo dado o paradigma distribucional do adjetivo se se verifica que o adjetivo da combinac o o nico dentro do seu paradigma distribucional que ocorre com aquele nome Inversamen
97. tal um factor negativo para a sua relev ncia a sequ ncia das palavras aumenta em probabilidade de import ncia com o aumento do n mero destes n gramas mais longos Este n mero considerado como uma heur stica Heur stica Quanto mais um n grama contiver palavras simples com uma frequ ncia elevada menos relevante ser esse N grama Como quarta heur stica medida a frequ ncia de todos os elementos constituintes do n grama de forma a medir a sua relev ncia a que se chama frequ ncia marginal A partir destas heur sticas pode se definir a fitness function 13 No entanto em problemas de optimizac o existem constrangimentos que s o definidos nas restantes heur sticas g X zo 11 T2 23 13 Heur sticas x4 e 25 Um n grama posicional um termo composto se o seu valor de associac o maior ou igual do que os valores de associac o dos seus subgrupos de palavras e se for estritamente maior que os valores das medidas de associac o dos seus super grupos de palavras Assim estas heur sticas s o respectivamente o valor mais alto da Mutual Expectation dos subgrupos do gen tipo escolhido e o valor mais alto da Mutual Expectation dos seus super grupos Estas heur sticas podem ser definidas pelas inequa es 14 e 15 zo gt La 14 XQ gt X5 15 Heur stica rg Se a frequ ncia de um dado n grama igual frequ ncia de um n grama maior do que aquele que o cont m ent o o n grama mais curto
98. tamente uma palavra de intervalo tendo sido atingido o valor de 90 para a Mutual Expectation Devido ao uso das medidas estat sticas este m todo continua com o mesmo problema dessas medidas que as palavras que possuem uma frequ ncia muito elevada relativamente s outras palavras da mesma combinac o pois estas medidas sobreestimam o grau de coes o quando uma a probabilidade marginal de uma das palavras demasiado elevado 2 2 5 C value NC value Este m todo Frantzi Ananiadou amp Mima 2000 combina dois tipos de informa o para extrair termos compostos de um corpus a informac o lingu stica e a estat stica Primeiro o m todo C value extrai os termos compostos e depois o m todo NC value introduz informac o de contexto ao resultado do m todo anterior para melhorar a extracc o de termos compostos A informac o lingu stica obtida em tr s passos Primeiro efectuada uma classificac o gramatical a cada palavra do corpus Segundo colocado um filtro lingu stico de forma a extrair os termos que obedecem a uma estrutura gramatical j definida Finalmente usado uma stop list que uma listagem de palavras que n o s o palavras compostas para evitar a extracc o de sequ ncias de palavras que aparecem frequentemente mas que n o s o termos compostos A informac o estat stica consiste em atribuir um valor s sequ ncias de palavras candidatas Esta medida feita tendo em conta os seguintes valores
99. te o mesmo crit rio tamb m se aplica ao nome do mesmo par Se se tratar de um composto o nome n o dever variar com outros nomes do mesmo paradigma distribucional na combinac o com aquele adjetivo do par candidato Ora a cadeia de processamento STRING n o identifica o paradigma ou paradigmas dis tribucionais em que se poderia integrar cada palavra Por essa raz o na aplicac o deste crit rio avalia se apenas e de forma aproximativa a coocorr ncia de nomes e adjetivos considerando o par candidato em relac o ao conjunto de todos os nomes e adjetivos com que aparecem combi nados no corpus Assim numa primeira abordagem calculou se a ruptura distribucional relativamente ao adjetivo dividindo o n mero de ocorr ncias do par candidato pelo n mero total de pares nome adjetivo em que ocorre o nome do par candidato Inversamente para o substantivo calculou se o r cio do par candidato sobre todos os pares nome adjetivo em que o adjetivo o mesmo do par candidato Considerou se que havia ruptura distribucional se um dos dois r cios fosse igual ou superior a 0 75 Para estes c lculos usaram se os dados obtidos pelo filtro de identificac o das estruturas nome adjetivo descritas na sec o 3 1 Numa segunda abordagem aplicaram se outras medidas estat sticas habitualmente usadas para avaliar o grau de coes o de um diagrama isto que indicasse a probabilidade de um certo par nome adjetivo ocorrer no corpus usando somente a
100. tifica homes Compostos aaa cata RR He A REU a eee a 58 Resultados cruzados para a estrutura nome de nome quando a cadeia n o iden tifica nomes compostos 59 Resultados cruzados para a estrutura nome de nome quando a cadeia identifica nomes COMPOSTOS prion A a ew Ae eye de Se en 60 vii 415 4 16 417 4 18 4 19 4 20 4 21 4 22 4 28 4 24 4 25 4 26 4 27 4 28 Matriz de resultados do crit rio predicatividade na estrutura nome adjetivo 60 Matriz de resultados do crit rio coordena o na estrutura nome adjetivo 60 Matriz de resultados do crit rio varia o em grau na estrutura nome adjetivo 61 Matriz de resultados do crit rio elis o do adjetivo na estrutura nome adjetivo 61 Matriz de resultados do crit rio ruptura paradigm tica na estrutura nome adjetivo 61 Matriz de resultados do crit rio varia o em n mero na estrutura nome adjetivo 62 Precis o dos crit rios sint ticos na estrutura nome adjetivo 62 Matriz de resultados do crit rio inser o de modificadores na estrutura nome de NOTTE od pira E Ora ES RE E AE dr RE E eh S y E A E 62 Matriz de resultados do crit rio varia o do determinante na estrutura nome de MOME Li t S A A Rc AA SUE E AS AAA AU Rr team A qe es 62 Matriz de resultados do crit rio coordenacao na estrutura nome de nome
101. tual Expectation a que identifica mais padr es 1 valores inferiores da medida Mutual Expectation resultam de um erro de implementac o que s foi detec tado depois do processamento do corpus no cen rio em que n o se utilizavam os recursos lexicais Assim seria esper vel que neste cen rio os valores desta medida fossem muito inferiores 4 2 RESULTADOS 0 500000 1000000 1500000 2000000 2500000 3000000 WB N mero de padr es sem compostos E N mero de padr es com compostos El N mero de ocorr ncias sem compostos Bl N mero de ocorr ncias com compostos Figure 4 4 Resultados LocalMazs para o padr o nome de nome Table 4 13 Resultados cruzados para a estrutura nome de nome quando a cadeia n o identifica nomes compostos N mero de compostos N mero de ocorr ncias Cruzamento de todas as medidas 682 44055 sem Dice coefficient 682 44 055 sem SMI 2 892 505 517 sem q 690 52 335 sem Log likelihood Ratio 682 44 055 sem Mutual Expectation 18 097 95 977 sem SCP 682 44 055 que n o s o em comum com as outras medidas como tamb m se pode verificar na tabela 4 14 No entanto nessa fase de processamento a SMI tamb m outra medida que identifica menos padr es em comum com as outras medidas 4 2 8 Valida o manual por amostragem Foi tamb m produzido para a estrutura nome de nome uma lista de 1000 candidatos seleciona dos aleatoriamente e
102. tulo vital cio 8 alma matar 8 exame escolar 8 desenvolvimento emocional 8 economia clandestino 8 feij o encarnar 8 passaporte comunit rio 8 conviv ncia di rio 7 humor brejeiro 7 lugar id lico 7 plataforma elevar 7 greve ilegal 7 correio interno 7 custo processual 7 meio costeiro 7 curandeiro tradicional 7 aviac o geral 7 magister dixit 7 alga verde 7 despesa consolidar 7 satisfac o estampar 7 mira apontar 7 rocha escarpar 7 laco fraternal 7 complicac o p s operat rio 7 execuc o coercivo 7 cen rio envolvente 7 ar suspeito 7 l ngua dominante 7 cara visivel 7 estrat gia ganhador 7 falsificac o agravar 7 princ pio vital 7 descanso for ar 7 germe patog nico 7 descanso dominical 7 77 T8APPENDIX A LISTA DE NOME ADJETIVO CLASSIFICADOS COMO COMPOSTOS E RESPECTIVAS margem tangencial 7 hemorragia nasal 7 sil ncio conivente 7 tranquilidade social 6 cora o apertar 6 papo cheio 6 popula o an nimo 6 via extra judicial 6 travagem direcional 6 c u baixo 6 atividade qu mico 6 porto bacalhoeiro 6 gesto comedir 6 tratamento dent rio 6 canto f nebre 6 ganho direto 6 igualdade religioso 6 lugares comum 6 folk songs 6 malha tecer 6 morada oficial 6 mil cia antidroga 6 inicia o carnal 6 ordem salesiano 6 basti o rebelde 6 despejo sum rio 6 retinopatia diab tico 6 fogo proibir 6 comida fresco 6 ala hist rico 6 parque radical 6 padr o comportamental 6 traumatismo
103. usadas v rias medidas estat sticas sendo estas normalizadas pelo Fair Dispersion Point Normalization Silva Dias Guillor amp Lopes 1999 para a identificac o de termos compostos formados por palavras cont nuas Os estimadores que foram usados s o seguintes e Dice coefficient Specific Mutual Information SMI du Log likelihood Ratio e Symmetric Conditional Probability SCP Foi usado um corpus com 919 253 palavras para testar a precis o do algoritmo tendo sido atingido o valor mais alto de 81 para a Symmetric Conditional Probability Para os termos compostos formados por palavras n o cont nuas foram usadas v rias me didas estat sticas sendo estas normalizadas pelo Normalized Expectation Measure Silva Dias Guillor amp Lopes 1999 e o Fair Point of Expectation Silva Dias Guillor amp Lopes 1999 Os estimadores que foram usados s o os seguintes e Dice coefficient e Specific Mutual Information SMI 22 CHAPTER 2 TRABALHO RELACIONADO e Log likelihood Ratio e Mutual Expectation ME Somente a medida estat stica Mutual Expectation n o foi normalizada por ser a nica das referidas que est preparada para calcular o grau de coes o para sequ ncias com mais de duas palavras Para testar a precis o deste algoritmo foi usado um corpus de debates pol ticos com aproximadamente 300 000 palavras e s se realizaram os testes para termos compostos n o cont nuos com exac
104. zation 15 2 2 2 MELASO sot 17 2 2 3 GATEM U asse Ba DE we at e wl ESL 18 2 2 4 Algoritmo 20 2 2 5 a man ae Se e INO zu d 22 2 3 Compara o de m todos 2222s 24 2 4 Crit rios Sint cticos mou or o UR RR d vex P OREL o 25 2 4 1 Perda de predicatividade do 26 2 4 2 Varia o do adjetivo em 26 2 4 3 Coordena o do adjetivo com outro 27 2 4 4 Elis o do adjetivo 27 2 4 5 Ruptura paradigm tica 27 2 4 6 Varia o em 28 2 4 7 Inser o de elementos no grupo 1 29 2 4 8 Coordena o de grupos 29 2 4 9 Varia o do determinante de N2 30 2 4 10 Elis o de elementos do grupo nominal 30 3 Estrat gia e Implementa o 31 3 1 Estrutura Nome Adjetivo 31 3 11 Crit rios Sint cticos 428 Ru GR ee B 32 3 1 1 1 Perda de predicatividade do adjetivo 33 3 1 1 2 Varia o do adjetivo em 39 3 1 1 3 Coordena o do adjetivo com outro adjetivo

Download Pdf Manuals

image

Related Search

Related Contents

  Toshiba Satellite C55-A-1K9  PRO MIXER DX100  Nilfisk-Advance America 56602002 User's Manual  Manuale di installazione  Philips HR 4320/30 User's Manual  

Copyright © All rights reserved.
Failed to retrieve file