Home
Universidade Nova de Lisboa Faculdade de Ciências e
Contents
1. Figura 2 2 Um conceito formal de estados Exemplo retirado de 20 Podemos construir uma malha formal de conceitos que consiste em duas dimens es lingu sticas i n SR E y 8 z S e Uma dimens o a defini o de inten o ou seja um conjunto de contextos l xico sint cticos similares com as mesmas restri es de selec o 7 Tamb m conhecida como Galois Lattice 8 Intension definition 42 e A outra a extens o que o conjunto de palavras que aparece nos contextos e que satisfaz os requisitos sem nticos Assim da tabela da Figura 2 2 poss vel retirar os conceitos formais e correspondente informa o e construir a seguinte malha Figura 2 3 Malha formal de conceitos do contexto formal identificado na Figura 2 2 Exemplo retirado de 20 Para avaliarem os seus resultados os autores de 18 apresentam tr s estrat gias diferentes para seleccionar elementos fr sicos sintagmas nominais que posteriormente s o avaliados Para avaliar os resultados que obt m os autores definem as seguintes medidas Minimal Browsing Area 17 que a parte m nima da malha de conceitos que um utilizador deve consultar a partir do n raiz at chegar aos conceitos relevantes minimizando o n mero de documentos irrelevantes que tem de ser inspeccionados para obter toda a informa o relevante Recorrem tamb m ao uso da Lattice Distillation Factor 17 sendo que esta definida c
2. zabezpecuje zda existuje i neexistuje z jem Tabela 8 69 Lista de Termos para a medida Rvar para o ficheiro cs 32006D0644 html l et l et olojo olojo olojo o mez ch limit ro n ho pa 260 8 30 2 MI ke E Temos Medida EE Serge E 9 9 pom hat poskytovat podporu a poradenstv 4 8172259 4 8172259 zda existuje i neexistuje z jem 4 817225 Tabela 8 70 Lista de Termos para a medida MI para o ficheiro cs_32006D0644 html souvislosti s ur it m t matem 4 817225 261 8 30 3 Tf Idf E Termo Medida Zoe ul mnohojazy nost 0 0147686 0 0120006 0 0110764 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 0 0073843 Tabela 8 71 Lista de Termos para a medida Tf Idf para o ficheiro cs 32006D0644 html 262 8 31 Gr ficos das Precis es para o Prof Gabriel Lopes para o documento cs 32006D0644 html Precisions for Document cs 32006d0644 txt From Evaluator gpl For Metric phisquare G 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 75 Valores de Precis o Cobertura e F Measure para Phi Sguare Precisions for Document cs 32006d0644 txt From Evaluator gpl For Metric least tf idf 5 6 7 8 9 0 u 2 B 4 15 16 7 B 9 20 Steps 5 10 15 20 Precision 4 Precision Near Good
3. 2 10 onde avgLen RE o comprimento m dio de cada palavra da express o RE ou seja nimero m dio de caracteres de cada palavra de RE No trabalho realizado de forma a se conseguir ter uma escalabilidade compar vel nos resultados das avalia es com a medida Rvar W dada pela equa o 2 8 optou se 49 50 por harmonizar este valor dividindo pelo n mero total de documentos 1 utilizando a equa o Rvar W mm pe P 4 pW ones Dos mesmos autores temos em 7 uma variante desta medida que em vez de utilizarem a m dia do comprimento das palavras optaram por utilizar a mediana Assim definiram Pseudo Number of Words como NumChars MWE Prw MWE UWE L 2 12 Onde NumChars MWE o n mero de caracteres presentes na unidade multipalavra E Med MWE a mediana do comprimento das palavras que comp em a unidade multipalavra em quest o 1 Cklen MWE MU ava AF 2 13 Onde T o n mero t pico de palavras que uma palavra chave tem O valor m ximo que Cklen MWE atinge um se Pnw MWE for igual a T Tendo dispon vel estes valores os autores em 7 improvisaram o LeastRvar MWE obtendo a seguinte equa o Mk MWE LeastRvar MWE x Med MWE Cklen MWE 2 14 Onde segundo os autores Mk privilegia unidades multipalavra que tenham n o s as palavras mais direita e mais esquerda mais informativa
4. Bad Descriptor 0 0 8 0 0 8 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 4 13 5 0 25 Tabela 8 36 Matriz Confus o de Resultados Verificados para Least Median Rvar Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 1 08 1 44 4 68 1 8 0 9 YT Near Good Descriptor 0 96 1 28 4 16 1 6 0 8 G Bad Descriptor 0 96 1 28 4 16 1 6 0 8 Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 4 13 5 0 25 Tabela 8 37 Matriz Confus o de Resultados Esperados para Least Median Rvar Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 296536796536796 o que d aproximadamente 26 65 de concord ncia S http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML 219 8 15 4 Kappa para a Medida Least Median MI Este c lculo refere se a medida Least Median MI para documento en 320060804 01 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 3 3 2 2 U 10 Near Good Y Descriptor 0 1 4 3 0 8 Bad Descriptor 0 0 7 0 0 7 lt Unkown 0 0 0 0
5. 034 0 2 0 14 0 0 of of of ot a Po ap ud aa ep Ki ab a Ki oo 67 67 67 Documents E Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 84 Precis o total para todos os documentos em Checo para a medida Least Median MI Overall Total Precision for All Files From Evaluator gpl For Metric least bubbled median phisguare 1 00 0 75 w w 0 50 gt 0 25 0 00 ot fh ot ow S pe oe A oe ay q ae ay ot eA A G Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 e Total Precision 20 Figura 8 85 Precis o total para todos os documentos em Checo para a medida Least Bubbled Median Phi Square Overall Total Precision for All Files From Evaluator gpl For Metric least bubbled median rvar 0 8 0 5 0 4 a 3 p 03 gt 0 2 0 14 0 0 i of s s SS Si A A a xo pf BT 4 oo Be oF oF 6 Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 86 Precis o total para todos os documentos em Checo para a medida Least Bubbled Median Rvar 266 8 33 Tabela da Precis o Total M dia para todas as Medidas resultante da Avaliac o dos documentos em Checo pelo Avaliador Prof Gabriel Lopes ee ft fo fg Ja DE Metric 5 10 15 20 onnl osl least_median_tf_idf 0 5875 bubbled_phisquare 0 675 0 566666667 0 5125 0 65 0 633333333 0 7 La 0 566666667 least bubbled t iat JL OB 0 675 0
6. AT S dk L ICSi Sx 1 Ent o o conjunto de representantes S S Finalmente abordam a topicalidade que foi formalizado pelos autores da seguinte SE forma uma frase de refer ncia uma frase cujo conte do nao contem qualquer 2 o 34 pista sobre o conte do do alvo E uma frase sujeito corresponde a uma situa o onde o conte do da frase d uma boa ideia sobre o conte do do documento alvo Isto 33 Reference sentence 34 Subject sentence 74 levou aos autores a definirem uma medida denominada como degree of topicality of a sentence S with a Document D que devolve um valor entre zero e um Tal que T S D 0 significa que S uma refer ncia a D T S D I significa que S um assunto de D Onde T S D da como resultado um valor de satisfabilidade definido como se segue mepe ISA D p Onde a intersec o de S com D significa o grau de topicality de uma frase C com um documento D Neste ponto os autores indicam duas abordagens Uma das abordagens leva em linha de conta tanto o conte do como 0 contexto do documento enguanto a outra s tem em considera o os elementos do contexto do documento Resumindo os autores recorrem extrac o das frases mais relevantes do documento a ser tratado recorrendo ao uso da representa o do documento como um vector de pesos de palavras calculada utilizando 2 33 recorrendo ao Tf Idf normalizado e a uma m
7. an lise cr tica sobre os resultados obtidos na extrac o autom tica efectuada No caso dos prefixos estes foram extraidos e a sua importancia repercutiu se sobre as palavras e multipalavras que os continham A esta t cnica chamei de bubbling O que possibilitou fazer o c lculo de outras variantes de medidas ver cap tulo 3 sec o 3 2 Depois dos termos extra dos e avaliados foi feita uma extrac o de valores de precis o para os 5 10 15 e 20 melhores Tendo estes resultados foi feita uma avalia o no grau de concord ncia entre pares de avaliadores recorrendo estat stica kappa ver sec o 2 8 3 Para alcan ar esta potencialidade de extrair palavras multipalavras e prefixos relevantes e no caso dos prefixos extrair palavras ou multipalavras que contenham esses prefixos recorri ao uso de Suffix Arrays 8 por esta estrutura permitir trabalhar com todas as varia es j faladas at aqui palavras multipalavras e prefixos de um documento ou de uma colec o permitindo em particular determinar eficientemente a frequ ncia dessas unidades lexicais na colec o e em cada um dos seus documentos 1 3 Principais Contribui es Uma das principais contribui es deste trabalho foi propor novas m tricas para a extrac o de palavras e multipalavras chave descritoras do conte do de documentos de uma dada colec o Al m disso comparo os resultados das 24 m tricas de extrac o de termos chave Os resultados
8. nomeadamente sequ ncias de termos que ocorrem de forma n o cont gua ou interrompida de comprimento vari vel Sendo que a sua qualidade enriquecida e avaliada recorrendo a duas bases de dados uma resultante da indexa o de uma colec o de textos ncora extra dos de mais de 200 milh es de p ginas Web Os textos ncora de uma hiperliga o que aponte para uma p gina s o utilizados em tempo de execu o para enriquecer o conte do de Snippets mais pobres de informa o J a outra base de dados um motor de ranking sobre uma directoria online Dmoz com directoria esta que classifica mais de 3 500 000 sites em mais de 460 000 categorias O motor de hierarquiza o utiliza o Tf Idf sobre pares de palavras que est o centradas nas categorias Dmoz Categories presentes na base de dados do motor de ranking ver Figura 2 12 Labeled folder User lt a Query Personalization hierarchy cb Engine lt CH I Interface Po Clusters SC KSE E aa On the fly index CH 2 gapped i Pruning e i On line Indexer i T i i i L i Merger d Ranking i ii D i a ms r JJ T e BQ ji Enric GEES i Teed JE Parent formation h i Sentence Ranke a i Varvhle 2 gapped Sentence Generator Search Retrievers Snippet Sentence oz Hierarchy Engines jo 74 Analyzer E fa 1 Generator gapped Builder sentences Anchor DMOZ KB On Line KB Computations Off Line Compu
9. os diversos componentes nomeando a sua funcionalidade r 4 Automatic Extraction of Document Topics Main Window File Edit Please Select the minimal length of a word number of chars of a word E 3 4 Os 06 Please Select the Number of Chars that a Prefix should have Prefix of 5 Chars V LoadPreviousStructures Prefix of 6 Chars Number of Terms to Evaluate 235 e PT hd Please Select Boot Language Set Source Folder for Portuguese Corpus JCorpus pt txt fixed txt Set Source Folde for English Corpus Corpus en txt fixed txt Set Source Folde for Check Corpus Corpus cs_txt fixed_txt Set Source Folder for Portuguese MultiWords Corpus pt_txt multiWords MultiWordsList_PT_5_ngrama_ txt Set Source Folder for English MultiWords Corpus en_txt multiWords MultiWordsList_EN_5_ngrama_ txt Set Source Folder for Check MultiWords Corpus cs_txt multiWords MultiWordsList_CS_5_ngrama_ txt Set Folder for Evaluators Outputs EvalResults Set Folder for Plots Outputs Plots Orignal Files Folder JOriginalTexts texts Set Configurations Figura 7 1 Janela de Configura o 159 A seguinte figura permite ao utilizador definir qual 0 tamanho minimo de caracteres que uma palavra deve ter Please Select the minimal length of a word number of chars of a word 2 ez 4 Os 06 Figura 7 2 Componente de selec o do comprimento de caracteres m nimo de uma palavra
10. 116 4 1 3 Least Median Rvar No caso desta medida a listagem de termos que foi apresentado aos avaliadores a seguinte Termos Valores da medida estatisticas chave 7 999999999999996 7 999999999999996 7 999999999999996 7 999999999999996 5 999999999999996 5 999999999999996 4 999999999999996 4 999999999999996 4 00000000000000 3 999999999999996 3 999999999999996 3 999999999999996 3 999999999999996 3 999999999999996 3 999999999999996 significativamente pormenorizadamente subpopula es alvo electronicamente horvitz thompson socioecon micas vari veis chave variavel chave estratificados probabil stica corresponderam pormenorizados populac o alvo sobrecobertura significativamente 13 999999999999996 3 499999999999996 3 00000000000000 2 999999999999996 2 999999999999996 2 999999999999996 2 999999999999996 2 999999999999996 2 999999999999996 problem ticas 2 999999999999996 Tabela 4 7 Lista de Termos para a medida Least Median Rvar para o ficheiro pt 32006R0198 html robabilistica estratificada a ja vari vel base empresas m es laboratoriais preenchimento destacamentos identificadas n o respostas ag Jesse sech Rara Desta listagem podemos observar que a variante Least Median Rvar apresenta uma maior dificuldade em hierarquizar termos Podemos observar na Tabela 4 7 grupos de termos com a mesma pontua o Ap
11. Sintagmas nominais 41 Por forma de completude descreve se An lise Formal de Conceitos como sendo um m todo particular de an lise de dados e de representac o de conhecimento 18 19 que se baseia numa malha conceptual A ideia base no FCA a de que poss vel argumentar que uma malha conceptual uma ferramenta eficiente para v rias aplica es nomeadamente o agrupamento de conceitos vertente que trabalhada nos trabalhos 16 e 17 onde os autores argumentam ainda que outras vantagens de utilizar uma FCA em vez dos tradicionais algoritmos de Clustering de documentos a de a FCA fornecer uma descri o de cada classe de documentos que pode ser utilizada para refinamento ou modifica o tornando assim as classes mais interpret veis E como os resultados v m organizados numa malha em vez de aparecerem hierarquicamente organizados e sendo esta a organiza o mais natural quando m ltiplas classifica es s o poss veis estes factos facilitam a possibilidade de se recuperar de m s decis es enquanto se navega nessa malha para encontrar informa o relevante Tomemos como exemplo de uma FCA o que nos apresentado em 20 Primeiro observemos uma imagem de um pequeno contexto formal Os elementos esquerda s o objectos enquanto os elementos no topo da tabela s o atributos ou propriedades desses objectos president prime european kingdom islamic minister union rules pr pm eu k ir Belgium B
12. es para os documentos de destino sem deixar de ter em conta a quantidade e a qualidade dessas mesmas hiperliga es Neste trabalho os autores abordam as especificidades inerentes ao facto de se trabalhar na sumariza o de documentos baseadas em contexto nomeadamente a contextualiza o a parcialidade lea topicalidade Entende se por contextualiza o a extrac o de por es de informa o entre os documentos do contexto que est o ligados ou t m informa o sobre o documento alvo J por parcialidade podemos dizer que s o os peda os de informa o partilhados pelos documentos do contexto que s dizem respeito a parte do conte do do documento alvo T m ent o de ser colocados juntos para que cubram inteiramente o alvo ver no exemplo extra do de 36 cars robbed in Nevada seria uma parte importante do contexto 1 lt LINK gt CNN lt LINK gt reported the rate of cars robbed in Nevada has increased of 5 in the second quarter Entende se por topicalidade a distin o que se tem de fazer entre os elementos que est o relacionados com o documento alvo mas que n o fornecem nenhuma pista sobre o conte do do documento alvo como se pode ver no exemplo extra do de 36 2 lt LINK gt CNN lt LINK gt is a news website In the next sections these issues will be discussed Os autores comecam por abordar o problema da contextualizac o processo se refere a todos os passos interm dio
13. 039228 155236599 0 006016351940262 006099696044913 024145442689057 0 007682199298524 Avg 20 072873209929798 051940660635560 0 0086218 13958338 00789 1543758549 029 198927886307 0 009130244977550 174 Figura 7 47 Tabela onde apresentada a cobertura m dia para todas as medidas avaliadas Nas seguintes figuras apresentamos a forma como calcular o valor da estatistica Kappa para dois avaliadores para um determinado documento e medida Primeiro necess rio desbloquear a rea de c lculo da estat stica Kappa Isso alcan ado fazendo a selec o da caixa de escolha presente na Figura 7 48 Esta ac o far com que o conte do da Figura 7 49 seja apresentada ao utilizador EF K Statistics V K Statistics bubbled mi Figura 7 48 Componente que permite o c lculo da Figura 7 49 Componente que permite o c lculo da estatistica Kappa desactivada estatistica Kappa activa Na Figura 7 49 esta identificado com 1 os componentes que permitem selecionar determinado ficheiro em comum entre os dois avaliadores e uma medida sobre a qual se queira ver o valor de Kappa Para isso o utilizador ap s ter seleccionado o que pretende s tem de clicar no bot o Get Kappa automaticamente vera o valor Kappa apresentado como se v na Figura 7 50 175 K Statistics gt ifs lt pt 32006r1031 txt bubbled mi See Actual Matrix See Expected Matrix Save K F
14. 2 28 F w a frequ ncia do termo w Propriedade W2 Quanto maior for o n mero de termos que co ocorrem com gualguer termo w tanto no contexto do lado esguerdo ou do lado direito ent o menos 3 importante esse termo sera WIL w WIR w W2 w 2 F w 2 29 Onde w o termo WIL w e WIR w s o o n mero de termos que co ocorrem nos lados esquerdo e direito do termo w e F w a frequ ncia do termo w Propriedade W3 Quanto maior for o n mero de termos diferentes que co ocorrem com o termo w em ambos os seus lados esquerdo lt direito comparativamente ao numero total de termos existentes nos seus lados esquerdo e direito respectivamente 3 entao provavelmente menos import ncia tera essa palavra WIL w FH w Fw WDR w WDR w WIR w mo FH w IE F w ee ch WIL w 2 30 Onde w o termo WDL w e WDR w s o o n mero de termos diferentes que aparecem no lado esquerdo e direito do termo w FH w Max F w para todos os termos w WIL w e WIR w s o o n mero de termos que co ocorrem nos lados esquerdo e direito do termo w e F w a frequ ncia do termo w Propriedade W4 Se um termo aparece designado pelo processo de pr filtragem como sendo um nome ou um acr nimo com uma certa frequ ncia num conjunto de 3 texto entao muito provavel que esse termo tenha significado 69 70 I w WANG 2 31 Onde w o termo I w o valor da melh
15. 4 Total Precision Recall F Measure Figura 8 76 Valores de Precis o Cobertura e F Measure para Least Tf Idf Precisions for Document cs 32006d0644 txt From Evaluator gpl For Metric least median rvar 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 77 Valores de Precis o Cobertura e F Measure para Least Median Rvar 263 Precisions for Document cs_32006d0644 txt From Evaluator gpl For Metric least_median_mi 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values GC 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 78 Valores de Precis o Cobertura e F Measure para Least Median MI Precisions for Document cs 32006d0644 txt From Evaluator gpl For Metric least bubbled median phisguare 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 79 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Sguare Precisions for Document cs 32006d0644 txt From Evaluator gpl For Metric least bubbled median rvar 0 6 0 5 0 415 4 a 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 15 16 7 B 9 Steps 5 10 15 20 Precision Precision Near Good 4 T
16. 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 60 Valores de Precis o Cobertura e F Measure para Least Median MI Precisions for Document en 32006q0804 01 txt From Evaluator jfs For Metric least bubbled median phisguare 5 6 7 8 9 0 u 2 B 4 5 16 7 B mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 61 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Sguare Precisions for Document en 32006q0804 01 txt From Evaluator jfs For Metric least bubbled median rvar 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 5 6 7 B 20 Steps 5 10 15 20 Precision Precision Near Good Total Precision Recall F Measure Figura 8 62 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar 247 8 25 Graficos da Precis o Total para todos os documentos em ingl s avaliados pelo Avaliador Prof Joaquim Ferreira da Silva Overall Total Precision for All Files From Evaluator jfs For Metric phisquare 1 00 0 75 w w 0 50 SR 0 25 0 00 o V A A A n oe at wae got ost er oe a a a es Ze we ef e em im Documents SR Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 63 Precis o total para todos os documentos em Ingl s para a medida Phi Square Overall Total Precision for All F
17. Anne KE ie so Documents E Total Precision 5 e Total Precision AVG 5 Figura 8 33 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator jfs For Metric phisquare 0 75 a 3 050 o gt 0 25 0 00 at ot ot ot ot af ao q ep o da ei D ee apo s a a P GET SP v D La ae Des Documents E Total Precision 20 Total Precision AVG 20 Figura 8 34 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric least bubbled median phisguare 075 ENEE ER SEN 0 50 2 o gt 0 25 0 00 eee c A A ne x A one ee B eo ot ge on Ef Za o Es Er E Ka e na E A e BE Va 9 ha oe Documents E Total Precision 5 Total Precision AVG 5 Figura 8 35 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 5 213 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator jfs For Metric least_bubbled_median_phisquare 0 75 Z 0501 SR 0 25 0 00 A a A Vi AS AS st Ke ASTI e 7 po so so sh ol E E Es pob 2 Ww wv wv 12 g Lee Documents Total Precision 20 e Total Precision AVG 2
18. Matriz Confus o de Resultados Esperados para Least Tf Idf Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 63235294117647 o que d aproximadamente 63 24 de concord ncia 8 1 3 Kappa para a Medida Least Median Rvar Este c lculo refere se medida Least Median Rvar para o documento pt 32006R0198 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 2 2 7 1 U 12 T Near Good E Descriptor 0 0 6 0 0 6 Bad Descriptor 0 0 7 0 0 7 lt Unkown 0 0 0 0 0 0 No Evaluation O U U U U U Column Total 2 2 20 1 0 25 Tabela 8 5 Matriz Confus o de Resultados Verificados para Least Median Rvar gt http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 179 Avaliador 2 Good Near Good Bad No Descriptor Descriptor Descriptor Unkown Evaluation Line Total Good Descriptor 0 96 0 96 9 6 0 48 0 12 Near Good E Descriptor 0 48 0 48 4 8 0 24 0 6 E Bad Descriptor 0 56 0 56 5 6 0 28 0 7 lt Unkown 0 0 0 0 0 0 No Evaluation O 0 0 0 0 0 Column Total 2 2 20 1 0 25 Tabela 8 6 Matriz Confus o de Resultados Esperados para Least Median Rvar
19. experimenta o vasto para poder comparar extensivamente todas estas medidas e respectivas variantes no processo de extrac o de termos chave visando a avalia o final dos resultados obtidos As m tricas Tf Idft e RVar e a Informa o M tua ja foram utilizadas neste tipo de experi ncia como veremos em algumas subsec es do cap tulo 2 Mas o q e o x com resultados equivalentes s o medidas muito teis e muito utilizadas para a selec o de features mais relevantes para serem utilizadas por classificadores de texto 5 6 nunca foram tanto quanto sei utilizadas neste tipo de experi ncia Todas as variantes de medidas que foram criadas e aplicadas neste trabalho nunca foram aplicadas em nenhum contexto anteriormente a este trabalho Como consequ ncia do ponto anterior teve se de pensar numa maneira de possibilitar a compara o em simult neo de palavras e multipalavras visto que faria pouco sentido fazer uma avalia o somente para palavras e outra somente para multipalavras assim decidiu se fazer a jun o numa s estrutura das palavras e multipalavras e fazer a avalia o e a extrac o dos termos mais relevantes desta estrutura Com estes resultados foi me poss vel fazer a compara o entre os resultados que obtive com estas m tricas na extrac o de prefixos de palavras e de multipalavras relevantes na identifica o dos t picos dos documentos onde ocorrem Como consequ ncia foi poss vel observar que
20. nost z izuje se skupina 0 013619695407680 skupina a jej podskupiny 0 013619695407680 0 9 0 01200062235752 0 007384290209906 0 007384290209906 0 00738429020990 zpusobilosti v oblasti mnohojazy nosti 0 007384290209906 6 0 007384290209906 0 007384290209906 2 6 6 skupiny nebo podskupiny 0 012000622357528 8 0 006823998624308 i 8 odborn k m a pozorovatel m 0 00682399862430 skupina na vysok 0 00626370703870 vysok rovni pro mnohojazy nost 0 00626370703870 9 9 6 6 6 6 skupiny na vysok 0 00626370703870 funk n ho obdob nahrazen 0 00596681131305 0 00596681131305 0 00596681131305 Tabela 4 47 Lista de Termos para a medida Least Tf Idf para o ficheiro cs_32006D0644 html skupin p id lily p slu n tvary 0 00596681131305 144 Precision Total Threshold Precision NearGood Precision Recall F Measure Ds 04 4 08 0 333333333333333 0 363636363636364 L 0 333333333333333 0 250000000000000 15 0 2 0 533333333 0 733333333 0 500000000000000 0 285714285714286 0 666666666666667 0 307692307692308 Tabela 4 48 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Tf Idf semelhan a da medida anterior tamb m o Least Tf Idf mostra ter de acordo com a avalia o feita bons resultados de precis o total mas perde cobertura em rela o ao Phi Square 145 4 5 3 Least Median Rvar 0 11 00000000000000 11
21. o Precisions for Document pt 32006d0943 txt From Evaluator gpl For Metric bubbled mi 0 4 o 0 3 02 0 1 0 0 5 6 7 8 9 10 11 122 132 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good gt Total Precision Recall F Measure Figura 7 39 Gr fico exemplo de precis es para um documento e uma determinada medida 172 Overall Plots Overall Plots Precision near good e Correlate Precision 5 with Avg All Metrics Total Precition Avg Al Metrics Total Precition Avg All Metrics Recall Avg All Metrics Recall Avg Figura 7 40 Componente que permite fazer gr ficos a correlacionar precis es com a m dia das precis es 1 0 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 Value ofl Figura 7 41 Componente que permite fazer gr ficos a correlacionar precis es com a m dia das precis es As duas figuras anteriores permitem fazer gr ficos que relacionam a precis o de um determinado documento com a m dia da precis o de um determinado avaliador como podemos ver na Figura 7 43 Permite ainda fazer o gr fico que mostra para um mesmo documento e medida qual o valor de precis o e cobertura para um dado limite 5 10 15 ou 20 Um gr fico exemplificativo pode ser vista na Figura 7 42 J os bot es All Metrics Total Precition Avg e All Metrics Recall Avg permitem visualizar uma tabela com as pre
22. o dos melhores valores de precis o obtidos para as tr s l nguas 84 6 para o Ingl s 80 para o Checo e 86 para o Portugu s todas obtidas pela medida Least Bubbled Tf Idf se considerarmos os resultados para o avaliador Prof Gabriel Lopes ver Tabela 8 28 Tabela 8 57 e Tabela 8 72 Considerando o avaliador Prof Joaquim Ferreira da Silva a precis o para Ingl s atingiu 92 para a medida Least Bubbled Median Tf Idf e 84 para Portugu s em quatro medidas Least Bubbled Median Tf Idf Bubbled Tf Idf Tf Idfe Phi Square ver Tabela 8 30 e Tabela 8 61 Constat mos maior concord ncia entre os resultados de dois avaliadores para Portugu s e Ingl s nas avalia es feitas nas medidas Phi Square Least Tf Idf e Least Bubbled Median Phi Square No entanto acredito que alguma troca de impress es entre os dois avaliadores relativamente a crit rios a utilizar poderia ter aproximado os dois tipos de avalia o Independentemente disso parece me que com mais tempo teria obtido avalia es de mais pessoas exigindo a cada um desses avaliadores menos esfor o Ao filtramos palavras com um comprimento inferior a seis caracteres este foi um par metro utilizado que pode ser alterado reconfigurando o prot tipo constru do e ao termos filtrado multipalavras extra das que contivessem sinais de pontua o n meros e outros s mbolos ao fazer a avalia o dos resultados obtidos sobre a extrac o de termos chave constat mos que a medida
23. ssd adds voe u ase dna ddd snad od n 177 8 1 C LCULOS DA ESTAT STICA KAPPA ENTRE PROF JOAQUIM FERREIRA DA SILVA EO PROF GABRIEL LOPES PARA O DOCUMENTO PT 32006R0198 HTML 177 8 1 1 Kappa para a Medida Phi Square Net EENS SEENEN 177 8 1 2 Kappa para a Medida Least TIP 178 8 1 3 Kappa para a Medida Least Median ua 179 8 1 4 Kappa para a Medida Least Median MI 180 8 1 5 Kappa para a Medida Least Bubbled Median Phi Sguare sss seene 181 8 1 6 Kappa para a Medida Least Bubbled Median Rvar iesseeeemeeeenos 182 8 2 LISTA DE TERMOS AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES PARA O DOCUMENTO PT 32006ROT98 HTM G caniaii aea nea ai Seeerei deer 184 OP a E 184 8 2 2 Least E 185 S29 EE T E 186 8 24 CASE Median DT 187 8 2 5 Least Bubbled Median Phi Square sss 188 8 2 6 Least Bubbled Median E 189 8 3 LISTA DE TERMOS AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA PARA O DOCUMENTO PT 320006RU19R HTML sese 190 8 3 1 TE 190 B Least LA dera ATT RT a Sa 191 Least T TT aT ei sa ege ee EE 192 8 34 Least Median MI bs a tual ecto grea day Ao oo 193 8 3 5 Least Bubbled Median Phi Square sss 194 8 3 6 Least Bubbled Ee eege ere 195 8 4 LISTA DE TERMOS APRESENTADOS AOS AVALIADORES PARA OUTRAS MEDIDAS 196 CAL EE dose peice dali nao cts asada eas EE CR cata ela n and pauta a das assa 196 042 ope RP AR o DRE e ce ote IR RR erent A een ee entrar er RUDE Re 197 8 4 3 e GE 198 8 5 G
24. 1 00 0 75 w 3 o 0 50 gt 0 25 0 00 A a x A ha AS Ka DE a Di a ae rou aes BT As Ra BE 0 BR ao A P oV at 4 oe a at 6 S E at a sf N a a p p ae ge ae ae ge ge ge ge Documents E Total Precision 5 Total Precision AVG 5 Figura 8 13 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric phisquare 0 75 3 0 50 0 25 0 00 qe mem en x A a x A pp ae E or Sn m ep E BL BW ep A le A D A 176 00 005 A tf L Agee ant o now B 3P P tf Kr ar 37 hb qt TE L o A s L Documents E Total Precision 20 Total Precision AVG 20 Figura 8 14 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Sguare com o limite 20 203 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator gpl For Metric least tf idf 1 00 0 754 a gt 0 50 gt 0 25 0 00 G A G A X A A q A or ei S BL wo ov ob am oe et D awe lt pe oF as ef e pre E s ft a ob a oo 2 af P qt d P Es L Documents Total Precision 5 e Total Precision AVG 5 Figura 8 15 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Tf Idf com o limite 5 Total Precision vs Total Precision AVG wi
25. 128 4 3 1 Phi Square Para o Phi Sguare a listagem de termos produzida e que foi apresentado aos avaliadores a seguinte 3 h 6 if the chairperson 0 00204529537386 0 001901388889910 members of the governing 0 00163622010450 SEN development of vocational training 0 001293200838982 Tabela 4 23 Lista de Termos para a medida Phi Square para o ficheiro en_32006Q804_01 html 2 2 2 1 2 2 members of the governing boar 0 001636220104502 2 2 2 2 2 Como podemos constatar pela tabela anterior esta medida apresenta uma boa distin o de termos pelos seus valores n o obstante ao facto de neste caso aparecerem 7 termos com o mesmo valor No cap tulo 5 veremos mais alguns exemplos de listagens desta medida para se comprovar a sua efic cia na atribui o de pesos aos termos Al m desta boa distin o podemos observar pelas tabelas de precis o apresentadas a seguir que os resultados s o bons 129 Precision Total Threshold Precision NearGood Precision Recall F Measure og 0 181818181818182 0 7 06 0 066666667 0 666666667 0 409090909090909 0 486486486486486 055 ol 06 0 500000000000000 0 523809523809524 Tabela 4 24 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Phi Square Precision Total Threshold Precision NearGood Precision Recall F Measure al o o ol 08 0133333333333333 0 228571428571429 06 at 07 0 200000000000000 0 30000000000
26. 222222222222222 222222222222222 15 142857142857143 0 000000000000000 0 142857142857143 222222222222222 173913043478261 20 263157894736842 0 000000000000000 0 263157894736842 555555555555556 357142857142857 Save Table Info Figura 7 45 Tabela onde ser o apresentados os valores para a precis o cobertura e f measure populada Precision Threshold Phi 2 Least Tf Ifd Least M Rvar Least M MI Least M B Phi 2 Least M B Rvar Total Precision Avg 5 727777777777778 638888888888889 0 4629629562962963 0 424074074074074 0 622222222222222 0 516666666666667 Total Precision Avg 10 0 725000000000000 660978835978836 0 355202821869488 0 353968253968254 0 613580246913580 0 483289241622575 Total Precision Avg 15 0 680260480260480 64076 109076 1091 0 347985347985348 0 35162800 1628002 0 6204906 20490620 0 453106 153106153 Total Precision Avg 20 0 621251385544471 64562120 1697053 D 345351327665569 0 334064941766180 0 626377422313955 0 414740896358543 Figura 7 46 Tabela onde apresentada a precis o total m dia para todas as medidas avaliadas Recall Threshold Phi 2 Least Tf Ifd Least M Rvar Least M MI Least M B Phi 2 Least M B Rvar Recall Avg 5 02526566 1790034 015737708490700 0 003319591048212 003485246365459 010652429700501 0 003815247998957 ecall Avg 10 047349615947511 026737626482096 0 004549283154262 004489957714231 019398792387499 0 00608 1986080454 Avg 15 060678247978575
27. 320060804 01 html na medida Least Bubbled Median Phi Square 227 8 16 6 Least Bubbled Median Rvar Termos Valor da Medida Avalia o dada ao termo pelo Avaliador admissibility 13 000000000000000 unkonwn explanation 11 000000000000000 unkonwn chairperson and countersigned 9 488692799006760 bad descriptor seniority 9 000000000000000 unkonwn 9 000000000000000 bad descriptor 9 000000000000000 bad descriptor precedence 8 655720030369995 unkonwn deletion 8 000000000000000 unkonwn pm O 8 000000000000000 speaker 7 000000000000000 unkonwn validly 7 000000000000000 bad descriptor figures 7 000000000000000 unkonwn Tabela 8 49 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Bubbled Median Rvar 228 8 17 Lista de Termos Avaliados pelo Avaliador Prof Joaquim Ferreira da Silva para 0 documento en_32006Q804_01 html 8 17 1 Phi Square Avaliac o dada ao termo pelo Avaliador overning board governing chairperson bureau director ounding regulation founding centre irector of the centre voting motion meeting attend members minutes Termos Valor da Medida c she i majority vice chairpersons ing board i 001293200838982 good topic descriptor Tabela 8 50 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 3200608
28. 5 w 3044 o gt D n 021 0 14 00 r r X G a A as Ei ei e aY o ge qr E at qo oA Le ae a pe x E 5P 2 A pf a af E e p CS L L x a P IK A A qt g Documents E Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 10 Precis o total para todos os documentos em Portugu s para a medida Least Median MI Overall Total Precision for All Files From Evaluator gpl For Metric least bubbled median rvar 1 00 0 75 a 3 w 0 50 gt 0 25 0 00 G A A A X A G ab A aw AT va SI ae A AY at eg D set e vi pf eo ef ae oo op a a8 apr a noob ae oe on a qto aE a D E R af pt ge qto ge Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 11 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median Phi Square 202 Overall Total Precision for All Files From Evaluator gpl For Metric least_bubbled_median_rvar Documents SR Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 12 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median Rvar 8 7 Graficos da Precis o Total versus M dia da Precis o Total para todos os documentos em portugu s avaliados pelo Avaliador Prof Gabriel Lopes Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator gpl For Metric phisguare
29. 8 13 Precis o total vs Precis o Total M dia para todos os documentos para a medida PhisSquare com o limite Se a A A Ta 203 Figura 8 14 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Sguare como limite 0 oct ss ta ch Ae teat eet Bakus a E aa 203 Figura 8 15 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Tf Idf com o limite 3 204 Figura 8 16 Precis o total vs Precis o Total M dia para todos os documentos para a medida IE HR le como dimite 20 TTT 204 Figura 8 17 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 3 204 Figura 8 18 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 20 205 Figura 8 19 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median MI com o limite 3 205 Figura 8 20 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median MI com o limite 20 205 Figura 8 21 Valores de Precis o Cobertura e F Measure para Phi Square 208 Figura 8 22 Valores de Precis o Cobertura e F Measure para Least T Idf 208 Figura 8 23 Valores de Precis o Cobertura e F Measure para Least Median Rvar 209 20 Figura 8 24 Valores de Precis o Cobertura e F Measure para Least M
30. A personalized search engine based on web snippet hierarchical clustering in Special interest tracks and posters of the 14th international conference on World Wide Web Chiba Japan 2005 269 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 270 F Fukumoto and Y Suzuki Extracting Key Paragraph based on Topic and Event Detection Towards Multi Document Summarization In Hahn et al pp 31 39 J F d Silva and G P Lopes A Local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units in Proceedings of the 6th Meeting on the Mathematics of Language Orlando 1999 pp 369 381 J M Cigarran A Pefias J Gonzalo et al Automatic Selection of Noun Phrases as Document Descriptors in an FCA Based Information Retreival System ICFCA 2005 B Ganter and R Godin eds p 4963 Springer Berlin 2005 J M Cigarr n J Gonzalo A Penas et al Browsing Search Results via Formal Concept Analysis Automatic Selection of Attributes Concept Lattices Lecture Notes in Computer Science pp 201 202 Springer Berlin Heidelberg 2004 J Hereth G Stumme R Wille er al Conceptual knowledge discovery a human centered approach Journal of Applied Artificial Intelligence vol 17 no 3 pp 288 301 2003 U Priss Formal concept analysis in information science Information Sci
31. Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 10913140311804 o que d aproximadamente 11 de concord ncia 8 1 4 Kappa para a Medida Least Median MI Este c lculo refere se medida Least Median MI para o documento pt_32006R0198 htm1 Seja considerado 0 seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 2 2 9 1 0 14 Near Good Y Descriptor 0 0 5 0 0 5 Bad Descriptor 1 0 5 0 0 6 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 2 19 1 0 25 Tabela 8 7 5 Matriz Confus o de Resultados Verificados para Least Median MI http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 180 Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 1 68 1 12 10 64 0 56 0 14 T Near Good Descriptor 0 6 0 4 3 8 0 2 U 5 Z Bad E Descriptor 0 72 0 48 4 56 0 24 0 6 Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 2 19 1 0 25 Tabela 8 8 5 Matriz Confus o de Resultados Esperados para Least Median Rvar Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre
32. D Ou seja a distribui o de um termo t ao longo de d documentos pode ser visto como uma vari vel estoc stica estimada atrav s de todos os dj E Dr A entropia H desta distribui o expressa o grau de consenso do termo t em D O que expresso numa f rmula visto como DC t Dj H P t d Plod heler 2 40 dj ED Onde 36 DS Z i gt c i S Dominios s o programaticamente representados por colec es de textos sobre diversas reas medicina finangas turismo etc 79 RU freq t em d so 2 41 da ep fTeq t em dj E P t d Onde EC denota a estima o J nos trabalhos 40 42 realizados por Fortuna et al onde entre outros avan os cient ficos se prop e a cria o semi autom tica de uma ontologia de t picos O Sistema apresentado pelos autores apresenta t picos ao perito do dom nio no momento em que este est a definir a ontologia Para alcan ar este objectivo os autores no trabalho 42 usam duas t cnicas para extrair t picos de documentos Latent Semantic Indexing e K Means Clustering Para come ar os autores trabalham na representa o de documentos baseada num modelo vectorial onde os textos s o transformados num saco de palavras ao mesmo tempo que s o atribu dos pesos s palavras com recurso ao Tf Idf Referem ainda que a similaridade entre dois documentos definida como o coseno do ngulo entre os seus vectores representantes cosine smilarity
33. DOS DOCUMENTOS EM INGL S PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA 253 8 29 LISTA DE TERMOS AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES PARA O DOCUMENTO CS 32006D0644 HTML erre erre carr r eae ee oo noo en 254 9 S291 ET 254 8 292 Least T T 255 R ONE EE EE 256 SE Least Median M oa nhl taka s Nae Sica age ca bined dod bor obale a gal ed eee ah 257 8 29 5 Least Bubbled Median Phi SQua re iis sss seene 258 8 29 6 Least Bubbled Median mg cctussieiiceccieassetevian decdancsdtsaaacenlaian cda 259 8 30 LISTA DE TERMOS APRESENTADOS AOS AVALIADORES PARA OUTRAS MEDIDAS 260 8 30 RV ut iria ad ee Gan CE Sa CS ea ad 260 S02 Eeer eeh 261 8 3033 UII E 262 8 31 GR FICOS DAS PRECIS ES PARA O PROF GABRIEL LOPES PARA O DOCUMENTO E EE 263 8 32 GR FICOS DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM CHECO AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES 0000000000000000000000000000000000000nn nene nn nn 265 8 33 TABELA DA PRECIS O TOTAL M DIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM CHECO PELO AVALIADOR PROF GABRIEL LOPES 267 8 34 TABELA DA COBERTURA M DIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM CHECO PELO AVALIADOR PROF GABRIEL LOPES 268 BIBLIOGRAFIA T 269 Indice de Tabelas Tabela 2 1 Caracter sticas analisadas numa palavra tabela retirada de 12 68 Tabela 2 2 MCRV Matriz Confus o com resultado
34. Evaluation O 0 0 0 0 0 Column Total 3 1 14 7 0 25 Tabela 8 42 Matriz Confus o de Resultados Verificados para Least Bubbled Median Rvar Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 0 6 0 2 2 8 1 4 0 5 Near Good Y Descriptor 1 2 0 4 5 6 2 8 0 10 E Bad Descriptor 1 2 0 4 5 6 2 8 0 10 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 1 14 7 0 25 Tabela 8 43 Matriz Confus o de Resultados Esperados para Least Bubbled Median Rvar Com estas duas matrizes o valor de Kappa obtido ver sec o 2 8 3 sobre o c lculo da estat stica 0 34783 o que d aproximadamente 34 78 de concord ncia 79 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML 222 8 16 Lista de Termos Avaliados pelo Avaliador Prof Gabriel Lopes para 0 documento en_32006Q804_01 html 8 16 1 Phi Square era T r iai Termos Valor da Medida pelo Avaliador development of vocational training 0 001293200838982 good topic descriptor Tabela 8 44 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Phi Square 223 8 16 2 Least Tf Idf Ger ee rera motion 0 007739171054590 bad descriptor governing 0 007739171054590 bad descriptor chairperson and the vice chairpersons 0 005583920419229 good topic
35. Least Bubbled Median Rvar com o limite 3 214 Figura 8 38 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Rvar com o limite 20 214 Figura 8 39 Valores de Precis o Cobertura e F Measure para Phi Square 238 Figura 8 40 Valores de Precis o Cobertura e F Measure para Least T Idf 238 Figura 8 41 Valores de Precis o Cobertura e F Measure para Least Median Rvar 238 Figura 8 42 Valores de Precis o Cobertura e F Measure para Least Median MI 239 Figura 8 43 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi 21 Figura 8 44 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar Figura 8 49 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Neda N E UE EE 241 Figura 8 50 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled E EE 241 Figura 8 51 Precis o total vs Precis o Total M dia para todos os documentos para a medida P i Sq ar com o limite EE 242 Figura 8 52 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Squar como limite sata e e A op Ada nn ad 242 Figura 8 53 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 3 242 Figura 8 54 Precis o total vs Precis o Total
36. Least Median Rvar com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator jfs For Metric least_median_rvar 07 Lee E 0 6 0 5 0 4 0 3 4 021 0 1 0 0 Value Documents E Total Precision 20 Total Precision AVG 20 Figura 8 74 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 20 251 8 27 Tabela da Precis o Total M dia para todas as Medidas resultante da Avaliac o dos documentos em ingl s pelo Avaliador Prof Joaquim Ferreira da Silva ee oe bs Metric Avg 5 Avg 10 Avg 15 20 least bubbled median rvar 0 8 0 72 0 746666667 0 74 least median AN JL os 084 0 773333333 0 766315789 bubbled phisquare os os 080952381 0 771351909 east tid 08 0 721 0 733333333 024 mi NA NANA NA Tabela 8 61 Precis o total m dia para todas as medidas resultante da avaliac o do Avaliador Prof Joaquim Ferreira da Silva 252 8 28 Tabela da Cobertura M dia para todas as Medidas resultante da Avaliac o dos documentos em ingl s pelo Avaliador Prof Joaquim Ferreira da Silva mee 1 a Metric 5 10 15 20 mis 0 0133 92857 0 013392857 0020535714 0 020535714 Tabela 8 62 Cobertura m dia para todas as medidas resultante da avaliac o do Avaliador Prof Joaquim Ferreira da Silva 293 8 29 Lista de Termos Avaliados pelo Avaliador Prof Gabriel Lopes para o docum
37. Lista de Termos para a medida Rvar para o ficheiro cs 32006D0644 html 260 Tabela 8 70 Lista de Termos para a medida MI para o ficheiro cs 32006D0644 html 261 Tabela 8 71 Lista de Termos para a medida Tf Idf para o ficheiro cs 32006D0644 html 262 Tabela 8 72 Precis o total m dia para todas as medidas resultante da avalia o do Avaliador Prof Gabriel Leg eet seniorii senai Neger RATHOR Ta nestas na EE REEE cena tan ice aaa 267 Tabela 8 73 Cobertura m dia para todas as medidas resultante da avalia o do Avaliador Prof Gabriel LOPES aca Gand an Gada Gi Gabba cass can Cad RRR TOH 268 16 Indice de Figuras Figura 2 1 Ilustra o do Sistema proposto pelos autores no trabalho 16 41 Figura 2 2 Um conceito formal de estados sse 42 Figura 2 3 Malha formal de conceitos do contexto formal identificado na Figura 2 2 43 Figura 2 4 C lculo de uma Lattice Destallation Factor e ssessseeeseseeessereesresssressersssres 44 Fig ta 2 5 Resta de uma Cro deo Aa SE AR 53 Figura 2 6 Simple Context Free Grammer eee ee eee eee eee 53 Fig ra 2 7 R gra de um SCFG ee EE a TE ooo o 53 Figura 2 8 Stochastic Context Free Grammar AAA 54 Figura 2 9 Precis o para a extrac o de Unidades multipalavra sss sese sees eee 63 Figura 2 10 Cobertura para a extrac o de Unidades multpalavrg ee sss sees 63 Figura 2 11 Resultado da query Asthma
38. Lopes para o Least Median MI 147 4 5 5 Least Bubbled Median Phi Square 0 168306300320869 0 157085880299478 0 060856443666432 0 054770799299789 0 05173540698161 0 04526848110891 0 04526848110891 mnohojazy nosti mnohojazy nost podskupiny odskupin skupinou skupina skupinu mnohojazy nost z izuje se skupina skupin skupiny skupiny nebo podskupiny skupin skupin a podskupin skupina a jej podskupiny ILRI OD 0 045268481 108914 0 04526848110891 0 04526848110891 0 0425995 1056650 0 03880155523621 0 03651386619985 0 03347 1044016537 zve ej ov n 0 011201716547091 skupin p id lily p slu n tvary 0 01073060682015 0 01032449313359 0 010142321146361 0 010142321146361 0 010142321146361 0 010142321146361 0 009530301354087 0 00933476378924 0 00933476378924 zve ej uj 0 00933476378924 Tabela 4 53 Lista de Termos para a medida Least Bubbled Median Phi Sguare para o ficheiro cs 32006D0644 html Precision Total Threshold Precision NearGood Precision Recall F Measure s 04 ne 1 0 333333333333333 0 363636363636364 pozorovatel m nep slu neexistuje odskupiny budou rozpu t ny rozpu t ny pozorovatele zve ejn n LA zve ejn na 0 333333333333333 0 250000000000000 15 0 133333333 0 733333333 0 866666667 0 333333333333333 0 190476190476190 0 7 0 333333333333333 0 153846153846154 Tabela 4 54 Resultados de Precis o Cobertura e
39. M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 243 Figura 8 55 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o TTT 243 Figura 8 56 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 20 243 Figura 8 57 Valores de Precis o Cobertura e F Measure para Phi Square 246 Figura 8 58 Valores de Precis o Cobertura e F Measure para Least T Idf 246 Figura 8 59 Valores de Precis o Cobertura e F Measure para Least Median Rvar 246 Figura 8 60 Valores de Precis o Cobertura e F Measure para Least Median MI 247 Figura 8 61 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi 22 Figura 8 63 Precis o total para todos os documentos em Ingl s para a medida Phi Square Figura 8 67 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Phi Square 2 ssaeusasta saite Nee Cide a AS da dd dd 249 Figura 8 68 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Vai sas es CRER SS EE EE S 249 Figura 8 69 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phe S qu ates Conto miite EE 250 Figura 8 70 Precis o total vs Precis o Total M dia para todos os documentos para a medid
40. Matriz Confus o com resultados verificados entre dois avaliadores 176 Figura 7 52 Matriz Confus o com resultados esperados entre dois avaliadores 176 Figura 8 1 Valores de Precis o Cobertura e F Measure para Phi Square 199 19 Figura 8 2 Valores de Precis o Cobertura e F Measure para Least T Idf 199 Figura 8 3 Valores de Precis o Cobertura e F Measure para Least Median Rvar 200 Figura 8 4 Valores de Precis o Cobertura e F Measure para Least Median MI 200 Figura 8 5 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi SUT 200 Figura 8 6 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar201 Figura 8 7 Precis o total para todos os documentos para a medida Phi Square 201 Figura 8 8 Precis o total para todos os documentos para a medida Least Tf Idf 201 Figura 8 9 Precis o total para todos os documentos em Portugu s para a medida Least Median EE 202 Figura 8 10 Precis o total para todos os documentos em Portugu s para a medida Least IA Cota TT U ti RR A COCO o 202 Figura 8 11 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median PHi S quate x sss essere eee 202 Figura 8 12 Precis o total para todos os documentos em Portugu s para a medida Least B bbled Median RV ab TTT 203 Figura
41. No exemplo da Figura 2 4 a Precision ranked list lt 4 7 a Precision de Minimal Browsing rea 4 5 Com estes valores poss vel calcular o LDF 4 5 4 7 4 7 100 40 Estes autores utilizaram esta metodologia para alcan arem um sistema que combina um motor de pesquisa de texto livre como o Google com uma malha conceptual para organizar os resultados de uma query H que salientar ainda que este trabalho recorre a algumas ferramentas dependentes da l ngua nomeadamente elimina o de palavras sem significado sem ntico lematizac o etiquetagem morfo sint tica e reconhecimento de padr es sint cticos para extrair multipalavras normalmente sintagmas nominais com mais precis o e cobertura mas tamb m requerendo conhecimento da l ngua Sobre alguns destes temos voltarei a entrar em algum pormenor na sec o 2 3 2 2 3 Metodologias de Extrac o 2 3 1 As abordagens s o divididas em dois grupos as que utilizam m todos estat sticos e as que utilizam outras abordagens essencialmente n o estat sticas Existe na literatura consultada diversas m tricas para calcular o peso das palavras extra das apresentam se algumas delas nas pr ximas sec es dando especial nfase s estat sticas porque estamos interessados em m todos independentes de l nguas Estat sticas Quando se fala em abordagens estat sticas estas podem basear se numa abordagem que define um termo como uma palavra simp
42. OUTRAS MEDIDAS 235 H e 235 SILE de M EE 236 SAS ae Eet e tee Ehlen keier 237 8 19 GR FICOS DAS PRECIS ES PARA O PROF GABRIEL LOPES PARA O DOCUMENTO EN 32006Q SOA U BT ea oa ses Sac OCA o PA 238 8 20 GR FICOS DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM INGLES AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES eee eee 240 8 21 GR FICOS DA PRECIS O TOTAL VERSUS M DIA DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM INGL S AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES 242 8 22 TABELA DA PRECIS O TOTAL MEDIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM INGL S PELO AVALIADOR PROF GABRIEL LOPES 244 8 23 TABELA DA COBERTURA MEDIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM INGL S PELO AVALIADOR PROF GABRIEL LOPES 245 8 24 GR FICOS DAS PRECIS ES PARA O AVALIADOR PROF JOAQUIM FERREIRA DA SILVA PARA O DOCUMENTO EN 320060804 01 Hm 246 8 25 GR FICOS DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM INGL S AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SINA 248 8 26 GR FICOS DA PRECIS O TOTAL VERSUS M DIA DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM INGL S AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA 250 8 27 TABELA DA PRECIS O TOTAL M DIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM INGL S PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA 252 8 28 TABELA DA COBERTURA MEDIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O
43. TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM PORTUGU S PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA VE RE Seia ses add P P permanente O seia Ad O eee 216 8 15 C LCULOS DA ESTAT STICA KAPPA ENTRE PROF JOAQUIM FERREIRA DA SILVA E O PROF GABRIEL LOPES PARA O DOCUMENTO EN 320060804 OT HTML o 217 8 15 1 Kappa para a Medida PRS QUOTE sss 217 8 15 2 Kappa para a Medida Least NEE 218 8 15 3 Kappa para a Medida Least Median Kuer 219 8 15 44 Kappa para a Medida Least Median MI 220 8 15 5 Kappa para a Medida Least Bubbled Median Phi Square ee 221 8 15 6 Kappa para a Medida Least Bubbled Median Rvar 222 8 16 LISTA DE TERMOS AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES PARA O DOCUMENTO EN 320060804 01 HTML sss 223 E RISO CURE eege Dl rr a DN A a 223 Dolo Least B 0 fes do a ec es ed O O Bic Seat dc Oh ele ae hea 224 6 16 3 Least Median FV T T 225 5164 Least Median C 1 226 8 16 5 Least Bubbled Median Phy Aotygre sss 227 8 16 6 Least Bubbled Median VAT sss sese 228 8 17 LISTA DE TERMOS AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA PARA O DOCUMENTO EN 320060804 01 HTML 229 EE ET 229 SITZ Least Korona ea unora a a ots 230 D T SUS META VAT so Basis add RR E DO UNE dh as A vast PRESO RR An ds RA 231 SITA CARE Median C ee SV Bada ze atl po no Poa o 232 8 17 5 Least Bubbled Median Phi Square sss eee 233 8 17 6 Least Bubbled Median Kar 234 8 18 LISTA DE TERMOS APRESENTADOS AOS AVALIADORES PARA
44. Tf Idf n o era t o m quanto se dizia em 1 151 157 Bem pelo contr rio os termos chave extraidos com qualquer das variantes desta medida ultrapassam em muito em valores de precis o os resultados obtidos utilizando qualquer das variantes da medida Rvar que considerada a melhor medida em 1 Mais podemos afirmar observando as tabelas com os termos extraidos pelo Rvar e pela MI sec es 8 4 8 18 e 8 30 que produzem sensivelmente a mesma lista de termos No que diz respeito a listagem produzida em Checo as listagens s o id nticas para ambas as medidas Nestas mesmas sec es podemos encontrar as listagens para a medida Tf Idf nas quais podemos constatar que produz resultados visivelmente melhores como j foi dito Ambas Rvar e MI sofrem do problema de ser imposs vel diferenciar pelo peso dos termos qualquer hierarquiza o de resultados Al m disso parecem escolher termos muito espec ficos As variantes destas medidas obtidas pelo uso dos operadores Least Bubble a conjuga o destas duas e o uso da mediana apresentam melhores resultados como foi poss vel ver no caso estudado para as v rias l nguas ao longo do cap tulo 4 Foi poss vel verificar ao longo do cap tulo 4 na an lise dos resultados para as v rias medida que a precis o total em m dia era favor vel ao Phi Square e sua variante Least Bubbled Median Phi Square Comparando os valores m dios das precis es para o mes
45. aproximadamente 21 52 de concord ncia 183 8 2 Lista de Termos Avaliados pelo Avaliador Prof Gabriel Lopes para 0 documento pt_32006R0198 html Apresenta se de seguida a listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para as medidas pedidas 8 2 1 PhiSquare cursos de forma o profissional cont nua 0 005096688636165 good topic descriptor imputa o 0 002547809415785 unkonwn o Tabela 8 13 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Phi Square 184 8 2 2 Least Tf Idf Avaliac o dada ao d Valor da Medida termo GE Avaliador bad descriptor imputa o TTT 0009187329625273 unkonwn forma o espec ficas das pessoas empregadas 0 009174378153781 near good descriptor Tabela 8 14 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Least Tf Idf 185 8 2 3 Least Median Rvar termo pelo Avaliador 1 1 13 999999999999996 bad descriptor 1 significativamente melhorados 13 999999999999996 bad descriptor bad descriptor destacamentos 12 999999999999996 unkonwn problem ticas bad descriptor Tabela 8 15 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Least Median Rvar 4 9
46. as que se apresentam a seguir Precision Total E Ea ss E Recall F Measure 0 061224489795918 0 111111111111111 te ta os 0 142857142857143 0 237288135593220 0 4666667 0 266666667 0 733333 0 142857142857143 0 218750000000000 0 183673469387755 0 260869565217391 Tabela 4 2 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Phi Square Precision Total E ES E E mn Recall F Measure 4 0 066666667 0 114285714 EE 0266666667 0 368421053 o 0 368421053 0233333333 0 285714286 Tabela 4 3 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Phi Square Como podemos constatar da an lise das tabelas Tabela 4 2 e Tabela 4 3 a precis o total que tem em conta a precis o de bons descritores somada com a precis o dos quase bons descritores obtida pelos avaliadores bastante pr xima Apesar de as parcelas da soma serem distintas entre os dois Obtemos para esta medida um valor de Kappa de 0 552429667519181 valor que d aproximadamente 55 2 de concord ncia ou seja uma concord ncia moderada de acordo com a Tabela 2 4 No Anexo 3 na sec o 8 1 1 podemos ver as matrizes necess rias na obten o deste valor Na sec o 8 5 e 8 10 podemos ver os gr ficos das precis es obtidas dos resultados destes avaliadores para o documento e medida em causa Podemos constatar pela Tabela 4 1 que de facto os termos extra dos por esta medida
47. caracteres _ _ pensada para este efeito Depois constru da uma Suffix Array para esta String recorrendo ao m dulo C Recorremos a esta Suffix Array para extrair as palavras da seguinte forma Percorrermos a SuffixArray e s estamos interessados nas posi es da suffixArray cujo sufixo comece por um espa o em branco esta condi o indica nos que o espa o em branco antecede sempre uma palavra e consequentemente um prefixo Para ambas as situa es uma segunda condi o avaliada se a posi o seguinte ao espa o em branco contem algum s mbolo de pontua o ou algum n mero Se assim for n o interessa caso contr rio aplica se um filtro que verifica se a palavra em quest o tem um comprimento m nimo de seis caracteres Se tiver seis ou mais caracteres a palavra considerada como v lida e inserida numa estrutura de dados desenhada para guardar a palavra com toda a informa o associada a ela No caso dos prefixos vamos verificar se no comprimento do prefixo candidato aparece algum espa o em branco se aparecer n o prefixo e n o interessa caso contr rio o prefixo inserido numa estrutura de dados desenhada para guardar o prefixo com toda a informa o associada ao prefixo Estes m todos s o apresentados e t m como caracter stica a possibilidade de receber como par metro o comprimento m nimo que uma palavra deve ter e o n mero de caracteres que o prefixo deve ter respectivamente V
48. caracteres n o necessariamente prefixos que farfamos borbulhar Bubbling de forma an loga utilizada com os prefixos poder ser altamente produtiva Se pretend ssemos estender a metodologia desenvolvida nesta disserta o bem como a aplica o de todas as medidas desenvolvidas a l nguas orientais como o Chin s ou o Japon s trabalhar amos provavelmente com sequ ncias de 2 caracteres eventualmente 3 ou mesmo um nico car cter porque nestas l nguas n o existe o espa o em branco como separador de palavras e porque h palavras de conte do que se escrevem com um nico car cter A a extrac o de multi caracteres correspondestes a conceitos pode ser feita utilizando a mesma maquinaria que utilizei lt para a extrac o de multipalavras A t cnica de Bubbling que n o seria aplic vel Poss vel fazer a adapta o do prot tipo resultante do trabalho realizado na Tese para uma ferramenta de produ o com enormes potencialidades a n vel cient fico para an lise de resultados deste tipo de experimenta o poss vel que um trabalho futuro seja o de estudar o uso de outras estruturas de dados al m das Suffix Arrays para usar na extrac o de termos de documentos Est o em progresso trabalhos de escrita de artigos cient fico baseados nos resultados obtidos nesta disserta o para poderem passar nos testes de Peer Review 133 154 Anexo 1 Modulos de c digo 6 1 Fiheiros JNI
49. caracteres alfab ticos e 5 espa os terminando a sequ ncia com um terminador null A Figura 2 15 mostra a inicializa o do vector de sufixos J na Figura 2 16 vemos aquilo a que propriamente se chama suffix array ordenada Porque os sufixos est o ordenados alfabeticamente 89 Input corpus to be or not to be Position O 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 characters ETO TPIeT lole Ill TEST ele ait 4 4 4 4 ER ee A Initialized 7 H i Po Pao i Suffix Array 7 H Suffixes denoted by s i H 3 sloj o to be or not to be s 1 1 lo be or not to be 7 be or not to be Ed s 3 13 a s 13 13 Jto be qa s 14 14 Lala Debt S SP spose Be n S 16 15 Ll Be ee 5 17 47 bee el ee mao Figura 2 15 Ilustrac o de uma Suffix Array s que acabou de ser inicializada e ainda nao foi ordenada Cada elemento da suffix array s i um inteiro que denota um sufixo ou uma string semi infinita a comecar no posi o i no texto at ao fim do texto Exemplo baseado em 8 Suffix Array Suffixes denoted by s i s 0 15 be s 1 2 be or not to be s 2 8 not to be s 3 5 or not to be s 4 12 to be s 5 16 be s 6 3 be or not to be s 7 17 e s 8 4 e or not to be s 9 9 not to be s 10 14 o be s 11 1 o be or not to be s 12 6 or not to be s 13 10 ot to be s 14 7 r not to be s 15 11 t to be s
50. da Silva para o documento pt32006R 198 html na medida Phi Sguare 190 Tabela 8 20 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Tf Idf 191 Tabela 8 21 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R198 html na medida Least Median Rvar Tabela 8 22 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Median MI Tabela 8 23 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Bubbled Med an PS UAT Ge o ans aa acoso og go US a dB dB K SGS 194 Tabela 8 24 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Bubbled Median Rv at setas ss isaotigaaastataadadoa sediados doido Neie pe dudass doloso inva di saude dida a ares 195 Tabela 8 25 Lista de Termos para a medida Rvar para o ficheiro pt 32006R0198 html 196 Tabela 8 26 Lista de Termos para a medida MI para o ficheiro pt 32006R0198 html 197 13 Tabela 8 27 Lista de Termos para a medida Tf Idf para o ficheiro pt 32006R0198 html 198 Tabela 8 28 Precis o total m dia para
51. da distribui o da precis o total pelos documentos avaliados pelo avaliador na sec o 8 6 Precision Least M Least MB Least MB Threshold Phi 2 Least Tf Ifd Rvar Least M MI Phi 2 Rvar T Prec Avg 5 0 727777778 0 638888889 0 462962963 0 424074074 0 622222222 0 516666667 T Prec Avg 10 0 725 0 660978836 0 355202822 0 353968254 0 613580247 0 483289242 T Prec Avg 15 0 68026048 0 640761091 0 347985348 0 351628002 0 62049062 0 453106153 T Prec Avg 20 0 621251386 0 645621202 0 345351328 0 334064942 0 626377422 0 414740896 Tabela 4 19 Precis es Totais m dias para Portugu s para o Avaliador Prof Gabriel Lopes Na sec o 8 7 podemos ver gr ficos que apresentam a rela o entre a precis o total de cada documento e a m dia da precis o Estes gr ficos s conseguem ser produzidos para um limite de cada vez ou seja para se observar o comportamento da precis o para os v rios limites seria necess rio fazer quatro gr ficos distintos Devido a esse facto optou se por mostrar os gr ficos para o limite 5 e 20 A amostra de gr ficos n o ser exaustiva para todas as medidas mas somente a algumas que apresentam melhores resultados de precis o e a algumas que apresentam piores resultados de precis o Uma outra leitura que podemos fazer dos gr ficos ilustrados da Figura 8 17 Figura 8 20 a de que a medida Least Median Rvar e a medida Least Median MI apresent
52. de descri o dos t picos do texto em an lise Este cap tulo est dividido em v rias sec es onde descrevo temas como Representa o de Documentos onde apresento v rias formas de como um documento pode ser representado computacionalmente Uma outra sec o trata Descritores de Documentos e como esta defini o de descri o deve ser diferenciada de sumariza o Uma terceira sec o trata de Metodologias de Extrac o na vertente Estat stica onde a extrac o de termos de um documento efectuado que tem por base an lises estat sticas de documentos Nesta sec o trata se ainda vertente n o estat stica onde a extrac o efectuada recorrendo a outros mecanismos como a etiquetagem morfossint cticas Seguem se duas sec es uma sobre Extrac o de Palavras e outra sobre Extrac o de Multipalavras Em cada tema apresento alguns trabalhos realizados no mbito desses temas ou que nalguma componente se relacionam com o tema charneira desta disserta o Ap s esta sec o apresentam se reas de aplica o das metodologias apresentadas Nas sec es finais do cap tulo 2 apresentam se Medidas de avalia o de resultados algumas notas finais sobre o cap tulo e a estrutura de dados utilizada neste trabalho No cap tulo 3 s o apresentadas as contribui es desta disserta o onde se apresentam mais em detalhe algumas das variantes das m tricas base sobre as quais se podem fazer an lises interessantes
53. de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Bubbled Median Phi Square 194 8 3 6 Least Bubbled Median Rvar Termos Valores da Medida ea dada be termo pelo Avaliador Tabela 8 24 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R198 html na medida Least Bubbled Median Rvar 195 8 4 Lista de Termos Apresentados aos Avaliadores para outras medidas 8 4 1 Rvar BI Termos Medida totais da forma o profissional E o inicial 1 00 1 00 1 00 1 00 1 00 1 00 00 1 00 papel da estrutura 1 00 Tabela 8 25 Lista de Termos para a medida Rvar para o ficheiro pt 32006R0198 html 196 8 42 MI S o i Termos Medida qualifica es formais E inca aan inicial 2 57551613 software de avaliac o da variancia 2 5755161 2 5755161 concretizadas em valores em falta 2 5755161 ventila o de correc es 2 5755161 Tabela 8 26 Lista de Termos para a medida MI para o ficheiro pt 32006R0198 html 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 197 8 4 3 Tf Idf Valor da Termo Medida forma o profissional cont nua 0 0323554 SE 4 0 032355 0 0187741 cursos de forma o profissional cont nua 0 0183747 sem classifica o Tabela 8 27 Lista de Termos para a medida Tf Idf para o ficheiro pt_32
54. descriptor Tabela 8 45 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Tf Idf 224 8 16 3 Least Median Rvar admissibility 13 000000000000000 unkonwn explanation 11 000000000000000 unkonwn nominations 11 000000000000000 near good descriptor nominations and ZN 11 000000000000000 near good EE scrutineers RT unkonwn precedence 10 000000000000000 unkonwn seniority 9 000000000000000 unkonwn Tabela 8 46 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Median Rvar 225 8 16 4 Least Median MI Termos Valor da Medida Avaliac o dada ao termo pelo Avaliador admissibility 48 691228698912056 unkonwn explanation 41 200270437540970 unkonwn 41 200270437540970 near good descriptor aa sec appointments 41 200270437540970 near good descriptor scrutineers 41 200270437540970 unkonwn precedence 37 454791306855430 unkonwn bad descriptor seniority 33 709312176169890 unkonwn Tabela 8 47 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Median MI 226 8 16 5 Least Bubbled Median Phi Square Tabela 8 48 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en
55. descriptor remunerado bad descriptor bad descriptor articipantes em cursos good topic descriptor participantes 0 006961567700693 good topic descriptor articipantes em forma o profissional 0 00696 1567700693 good topic descriptor Tabela 8 20 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R198 html na medida Least Tf Idf cursos de forma o profissional cont nua cursos de forma o cursos internos de forma o cont nua para pessoas empregadas empregadas em empresas empresas que fazem forma o remunerado para cursos remunerado em cursos 191 8 3 3 Least Median Rvar Avaliac o dada ao Termos Valores da medida termo pelo Avaliador estatisticas chave 7 999999999999996 good topic descriptor 7 999999999999996 bad descriptor 7 999999999999996 bad descriptor subpopula es alvo 7 999999999999996 good topic descriptor electronicamente bad descriptor horvitz thompson good topic descriptor socioecon micas near good descriptor vari veis chave good topic descriptor 1 vari vel chave 14 000000000000000 good topic descriptor estratificados 13 999999999999996 near good descriptor 1 1 significativamente 1 1 pormenorizadamente 1 1 probabil stica 3 999999999999996 near good descriptor corresponderam 3 999999999999996 bad descriptor pormenorizados 13 999999999999996 bad descriptor popula o alvo 13
56. distinguem se dos valores de precis o apontados na Figura 2 9 63 O trabalho desenvolvido nesta tese difere se destes trabalhos vistos nesta sec o j que tratamos multipalavras at ao n vel de pentagramas incluindo bigramas trigramas quadrigramas e pentagramas de palavras configur vel at mais se necess rio Al m disso como j dito anteriormente tratamos tamb m palavras e prefixos de palavras 2 6 reas de Poss vel Aplica o 2 6 1 64 Nesta sec o apresentam se alguns trabalhos em reas onde a identifica o da import ncia de termos relevantes faz parte de um processo mais complexo Agrupamento e Classifica o de Documentos Come amos pela rea de Classifica o e Agrupamento de documentos A Classifica o de documentos uma tarefa que consiste em atribuir um documento a uma ou a mais categorias tendo como base para esta decis o o conte do desse mesmo documento tendo em linha de conta um conjunto de documentos As tarefas de classifica o de documentos podem ser divididas em dois tipos a Classifica o supervisionada ou classifica o propriamente dita onde existe algum mecanismo externo geralmente a interac o humana para fornecer a informa o sobre a classe ou classes a que o documento pertence Na classifica o propriamente dita a colec o de documentos previamente classificados dividido normalmente em dois conjuntos um que vai servir para treinar um classificad
57. do prefixo multi 0 67 3 2 2 1 Bubbled Tfldf Seja W uma palavra e P ou um prefixo dessa palavra Entao Bubbled TfIdf W Tfldf P 3 11 3 2 2 2 Bubbled Rvar Seja W uma palavra e P ou um prefixo Entao Bubbled_Rvar W Rvar P 3 12 3 2 2 3 Bubbled Chi Square Seja W uma palavra e P ou um prefixo dessa palavra Entao Bubbled_ChiSquare W ChiSquare P 3 13 3 2 2 4 Bubbled Phi Square Seja W uma palavra e P ou um prefixo dessa palavra Entao Bubbled_PhiSquare W PhiSquare P 3 14 3 2 2 5 Bubbled Informa o M tua Seja W uma palavra e P ou um prefixo dessa palavra Ent o Bubbled_MI W MI P 3 15 3 2 3 Medidas Least Bubbled Esta variante de medidas partiu da necessidade de propagar as medidas Bubbled a multipalavras Assim esta variante passa pela combina o de fazer primeiro o Bubbling dos prefixos s palavras e aplicar depois a defini o de Least a estes valores Bubbled 97 3 2 3 1 Least Bubbled Tfldf Seja W uma palavra e P ou um prefixo dessa palavra Recorrendo a 3 11 obtemos Bubbled TfIdf W TfIdf P E aplicando a defini o presente em 3 2 seja W wy Wp uma multipalavra Ent o Least Bubbled TfIdf W Min Bubbled TfIdf w Bubbled TfIdf w 3 16 3 2 3 2 Least Bubbled Rvar Seja W uma palavra e P ou um prefixo dessa palavra Recorrendo a 3 12 obtemos Bubbled Rvar W Rvar P E aplicando a defini o de LeastRvar ver sec o 2 3 1 2 sej
58. e evento explora explicitamente a caracter stica denominada por depend ncia do dom nio das palavras gt ou seja o qu o fortemente uma palavra caracteriza um conjunto de dados O m todo dos autores assume que um evento associado a um documento aparece ao longo de par grafos enquanto uma palavra t pico n o Assim para efectuarem a extrac o de t picos e eventos dividem esta tarefa em duas observa es Domain Dependency of Words 76 a Se uma determinada palavra aparece ao longo de par grafos documentos b Se uma palavra aparece ou nao frequentemente A situa o descrita em a representada por um valor de dispers o dado pela equa o 2 36 indicada abaixo enquanto b por um valor de desvio dado pela equa o 2 37 indicada abaixo A seguinte formula o an loga no cen rio em que se tratam documentos ou se tratam par grafos Assim o primeiro passo do m todo dos autores o de associar um peso a cada palavra individualmente num documento e aplicaram a m trica Tf Idf ao n vel do documento e ao n vel de par grafos N Wadi TF dit log Nd 2 35 t Onde Wd o valor de Tf Idf de um termo t no n simo documento i A mesma f rmula usada para calcular o peso das palavras nos documentos e nos par grafos bastando para isso substituir em 2 35 d de documento por p de par grafo N o numero de documentos e Nd o n mero de documentos onde o termo t ocorre Para par gra
59. extra das pelo extractor utilizado ocorriam Mais detalhes obvre poss veis melhoramentos podem ser encontrados no cap tulo 5 3 8 2 Considera es sobre Contribui es Al m das medidas base tornou se necess rio a cria o de outras medidas derivadas sec o 3 2 das medidas base Estas novas medidas mostraram alguns resultados interessantes como se poder ver mais em pormenor no cap tulo 4 109 110 Capitulo 4 Resultados Obtidos e sua Avaliacao Neste capitulo apresentam se alguns resultados e faz se uma discuss o dos mesmos Faremos algumas considera es sobre as medidas base discutindo algumas leituras que foram poss vel fazer ao longo da experimenta o efectuada Al m disso apresentar se o tamb m alguns resultados que se consideram interessantes do ponto de vista da experimenta o Conv m salientar que a cada avaliador foi pedido que avaliasse obrigatoriamente 25 termos para seis medidas distintas nomeadamente Phi Square Least Tf Idf Least Median RVar Least Median MI Least Bubbled Median Phi Square e Least Bubbled Median Rvar Estas s o as primeiras seis tabs apresentadas na aplica o dos avaliadores ver Figura 7 23 no Anexo 2 sec o 7 Note se que ao passar de medida para medida o avaliador j vai ter termos anteriormente avaliados especialmente no que toca as medidas baseadas em Tf Idfe Phi Square Observa se que quando se passa para as medidas baseadas em Rvar ou MI o n mero de ter
60. finito de regras A forma gen rica dessas regras apresentada na Figura 2 5 X gt Figura 2 5 Regra de uma CFG Exemplo retirado de 23 Onde X um s mbolo n o terminal e uma sequencia de terminais T e n o terminais V como se exemplifica na Figura 2 6 np 5 det np np 5 noun noun pps gt prep np prep gt in dei gt the noun gt DMA verb gt controller Figura 2 6 Simple Context Free Grammer Exemplo retirado de 23 Onde np denota um sintagma nominal noun phrase det um determinante como o caso do the noun um nome como o caso de DMA pps um sintagma U proposicional prepositional phrase prep uma preposi o como o caso de in J uma stochastic context free grammar SCFG tamb m uma gram tica definida como um qu druplo como o anterior mas com a diferencia o nas regras que t m associado uma probabilidade como se v no seguinte exemplo X gt o L D Figura 2 7 Regra de uma SCFG Exemplo retirado de 23 53 Onde X um s mbolo n o terminal e uma sequ ncia de terminais T e n o terminais V e p a probabilidade da regra S gt np vp 0 193518 ads gt adv adv adj 0 0036083 np gt noun adj 3 20769e 05 np gt noun nounp 0 0256375 pps gt prep np noun 1 05608e 05 Figura 2 8 Stochastic Context Free Grammar Exemplo retirado de 23 Onde nounp denot
61. foram avaliados por pares de avaliadores independentes consultar cap tulo 3 sobre contribui es e trabalho realizado Utilizei estat stica Kappa ver sec o 2 8 3 para medir o grau de concord ncia entre as avalia es atribu das por cada um desses avaliadores e medir o grau de credibilidade que as avalia es feitas t m Nos trabalhos estudados a identifica o de prefixos de 5 caracteres que sejam tematicamente importantes n o feita Sendo que esta tamb m uma das contribui es deste trabalho e a avalia o feita em duas l nguas morfologicamente ricas como o Portugu s e o Checo ver os resultados obtidos no cap tulo 4 comprovou se que a sua aplica o traz resultados interessantes O Ingl s apesar de ser morfologicamente pobre em compara o com as duas l nguas nomeadas anteriormente tamb m beneficiou com o uso desta alternativa gt 30 se considerarmos o Chi Sguare 33 N o experimentei o uso de sequ ncia de caracteres mas antevejo tamb m a possibilidade do que se pode passar com l nguas asi ticas como o Chin s ou Japon s onde utilizaria no m ximo sequ ncias de dois ou tr s caracteres ou do alem o onde se poder o utilizar cadeias de 4 ou 5 caracteres n o necessariamente prefixos Cr se que desta forma para as l nguas indo europeias poss vel aumentar a cobertura dos resultados obtidos sem diminuir o grau de precis o que j se obt m 1 De facto ao que permitir capturar as palavras o
62. foram feitas combina es entre estes operadores Operador Least As vers es Least surgiram pela necessidade de encontrar uma forma de ser poss vel comparar os resultados obtidos por J F da Silva no trabalho 1 para a medida LeastR var ver sec o 2 3 1 2 Assim definimos que Least de uma medida para uma palavra seria o valor dessa medida para a pr pria palavra Isto justifica se porque o operador Least determinava o m nimo da medida Rvar para as duas palavras extremas de uma multipalavra Para palavras resolvemos trat las como uma multipalavra em que a palavra igual palavra mais esquerda desta pseudo multipalavra e igual palavra mais a direita dessa pseudo multipalavra J quando tratamos de multipalavras o valor Least ser sempre o menor valor das medidas consideradas para as palavras nos extremos da multipalavra 3 2 1 1 Least Tf Idf Seja W uma palavra Entao Least_Tfldf W Tfldf W 3 1 Se W w4 W for uma multipalavra Entao Least_TfIdf w Wn Min TfIdf w Tfldf w 3 2 Onde Min denota a fun o m nimo 3 2 1 2 Least Rvar Seja W uma palavra Ent o Least_Rvar W Rvar W 3 3 Se W w1 Wn for uma multipalavra Ent o Least Rvar w wn Min Rvar w Rvar w 3 4 Onde Min denota a fun o m nimo 3 2 1 3 Least Chi Square Seja W uma palavra Ent o Least ChiSquare W ChiSquare W 3 5 Se W w W for uma multipalavra Ent o L
63. gpl For Metric least_median_rvar 1 00 0 75 a 0 50 0 25 0 00 A A A A A A AS p ew ant AY B ast P r r tf AAE ef ei pff E v i gf a ans Eca a EN Eu a a K BP e0 ee ee an et sn ee et Documents E Total Precision 5 Total Precision AVG 5 Figura 8 55 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric least median rvar V V ape eo at as BE oe wt oh A P ff a ot r en ete efa en o 9 es Documents Total Precision 20 e Total Precision AVG 20 Figura 8 56 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 20 243 8 22 Tabela da Precis o Total M dia para todas as Medidas resultante da Avaliac o dos documentos em Ingl s pelo Avaliador Prof Gabriel Lopes T les Es Metric Avg 5 Avg 10 Avg 15 Avg 20 least bubbled median phisquare 0 8 0 745679012 _0 7000407 0 653222654 rar NANA rvar N A N A N A mi INA qua qua NA Tabela 8 59 Precis o total m dia para todas as medidas resultante da avalia o do Avaliador Prof Gabriel Lopes 244 8 23 Tabela da Cobertura M dia para todas as Medidas resultante da Avaliac o dos documentos em Ingl s pelo Avaliador Prof Gabriel Lopes mee ft IR oo
64. indexados e comparados num Vector Space Model utilizando para isso os pesos dados pela medida Tf Idf Para um dado pedido de informa o uma lista ordenada de documentos criada a partir deste modelo e Os primeiros n documentos nesta lista s o examinados para extrair dos termos pertencentes aos documentos um conjunto de k descritores ptimos de acordo com uma determinada medida de peso e Formal Concept Analysis aplicada ao conjunto de documentos como sendo objectos formais onde os atributos formais de cada documento s o um subconjunto dos k descritores que s o contidos no texto e Al m da caracteriza o intencional de cada n conceito uma descri o adicional constru da com sintagmas nominais mais salientes que incluam um ou mais termos do pedido de informa o Esta caracteriza o usada para aumentar a descri o dos n s na malha conceptual utilizada no sistema dos autores e A malha anotada resultante 4 apresentada ao utilizador que pode navegar os primeiros n resultados atravessando a malha podendo depois refinar o pedido de informa o a qualquer momento NL Query Vector Space Model Retrieval System db BE Attribute selection K most relevant documents Y tf idf term weighting FCA System Indexing System Lattice Representation System Figura 2 1 Ilustrac o do Sistema proposto pelos autores no trabalho 16 Eai OE
65. mero de palavras da multipalavra 3 2 4 1 Least Median Tfldf Recorrendo equa o 3 1 ou 3 2 e aplicando um produto com a mediada obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Median TfIdf Least TfIdf W Median W 3 22 100 3 2 4 2 Least Median Rvar Recorrendo defini o de Rvar e de LeastRvar ver sec o 2 3 1 2 e s equa es 3 3 ou 3 4 aplicando um produto com a mediada obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Median Rvar Least Rvar W Median W 3 23 3 2 4 3 Least Median Chi Square Recorrendo equa o 3 5 ou 3 6 e aplicando um produto com a mediada obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Median ChiSquare Least ChiSquare W Median W 3 24 3 2 4 4 Least Median Phi Square Recorrendo 4 equa o 3 7 ou 3 8 e aplicando um produto com a mediada obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Median PhiSquare Least PhiSquare W Median W 3 25 3 2 4 5 Least Median Informa o M tua Recorrendo 4 equa o 3 9 ou 3 10 e aplicando um produto com a mediada obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Median MI Least MI W Median W 3 26 101 3 2 5 Medidas Least Bubbled Median No que concerne a esta variante de medida pretendi verificar qual seria 0 impacto da med
66. muitas vezes os melhores descritores s o palavras singulares Desta forma foi tamb m poss vel observar que uma escolha arbitr ria como feita em 7 onde os autores optaram por avaliar as dez multipalavras mais relevantes e as tr s palavras mais bem cotadas n o a forma mais adequada para tratar este problema De facto h documentos em que s o palavras maioritariamente que descrevem os conte dos dos documentos e como consequ ncia n o adequado fixar partida um n mero de palavras e outro de multipalavras para descrever o documento 31 H Os resultados apresentados em 8 com recurso utiliza o de Suffix Arrays motivaram a escolha desta estrutura de dados para utilizar neste trabalho acreditando poder provar a sua grande utilidade e efic cia como explico melhor na sec o 2 9 especificamente dedicado as Suffix Arrays De facto ao recorrer a elas terei a capacidade para determinar quase instantaneamente as frequ ncias de prefixos de palavras e de multipalavras distribuidas por cada um dos documentos onde ocorrem 1 2 Solu o Desenhada 32 No mbito do trabalho que desenvolvi e que culminou a escrita desta disserta o pretendi como j referido ao longo da Introdu o sec o 1 extrair automaticamente termos chave ou t picos de documentos que sejam bons descritores do conte do desses mesmos documentos Al m da extrac o de palavras e multipalavras descritoras num exemplo como o apr
67. ncia que mede o valor m dio da quantidade dist ncia m dia ignorando a ordem de magnitude das probabilidades individuais Para ultrapassar este problema os autores introduziram uma altera o na f rmula de calcular a vari ncia dividindo cada dist ncia individual pela ordem de magnitude dessas probabilidades ou seja a probabilidade m dia dado por p W ver equa es 2 7 e 2 8 Resumindo Rvar Vari ncia Relativa na equa o 2 5 reflecte essa altera o se for comparada formula normal da vari ncia que pode ser vista na f rmula da Rvar se se apagar p W do denominador Assim LeastRVar RE dado pelo menor valor Rvar W considerando a palavra mais a esquerda e a palavra mais a direita de RE Desta forma os autores tentaram privilegiar as express es relevantes mais informativas e penalizar as express es multipalavras que contenham palavras sem significado sem ntico que iniciem ou terminem multipalavras extra das automaticamente do tipo relativamente a no que se refere a etc Os autores de 1 partindo da observa o de que geralmente a maioria das palavras sem significado sem ntico s o geralmente curtas de poucos caracteres e de que de um modo geral palavras de maior comprimento t m uma maior acutil ncia sem ntica introduziram tamb m uma medida alternativa LeastRVarLen definida em 2 10 que leva em considera o este aspecto LeastRVarLen RE leastRVar RE avgLen RE
68. ngua Por exemplo no seguinte texto A C mara Municipal de Mur a organiza o segundo Raid de Fotografia Digital Podemos encontrar em sequ ncias de 2 gramas de palavras o seguinte A C mara C mara Municipal Municipal de de Mur a Mur a organiza organiza o o segundo segundo Raid Raid de de Fotografia e Fotografia Digital Do mesmo exemplo podemos encontrar as seguintes multipalavras C mara Municipal C mara Municipal de Mur a Raid de Fotografia Digital e Fotografia Digital Na realiza o deste trabalho os documentos s o representados por palavras por multipalavras e por prefixos de palavras sendo que os prefixos n o s o directamente apresentados aos avaliadores S o antes utilizados para propagarem as medidas da sua import ncia s palavras e multipalavras que os cont m via uma t cnica que designamos por Bubbling S o deste modo utilizados internamente para realiza o de c lculos cujos pormenores podem ser vistos no cap tulo 3 Trabalhos existem onde os documentos s o representados por Web Snippets 11 13 ou por par grafos 14 Sendo qualquer destas representagdes reduzidas depois a considerac o das palavras 14 existentes c tamb m das multipalavras constituintes 12 2 2 Descritores de Documentos Um descritor de um documento um termo que capta a ess ncia do conte do de um documento Importa desde j fazer uma distinc o clara entre o que entendo por descritores de documentos e
69. o de um vector auxiliar de N 1 inteiros Em que cada Icp i indica o comprimento do prefixo comum entre s i 1 e s i A Figura 2 17 exemplifica o vector dos Icp s para a suffix array do texto to be or not to be O facto de Icp 11 ser igual a 4 significa que os prefixos de tamanho menor ou igual a 4 dos sufixos o be ou o be or not to be t m todos frequ ncia 2 ou maior do que 2 como acontece com o prefixo o que tem frequ ncia 4 Qualquer prefixo de tamanho maior do que 4 de qualquer daqueles sufixos tem frequ ncia 1 Manber e Myers 47 fazem uso do vector de Icp s para fazer a computa o da frequ ncia e encontrar a localiza o de uma sub string de comprimento P numa sequ ncia de comprimento N Suffix Array Suffix denoted by s il Lcp vector s 0 _be always 0 s 1 be or not to be s 2 s 3 or not to be s 4 to be s 5 be s 6 bel or not to be s 7 e s 8 ei or not to be s 9 not to be s 10 O be iength 4 s 11 o b or not to be lcpli s 12 or not to be lep 12 s 13 at to be lep 13 s 14 r not to be lcp 14 s 15 ti to be lep 15 s 16 to be lcp 16 s 17 to be or not to be lep 17 The doted lines denote Icp s lcp 18 always O Figura 2 17 O Prefixo comum mais longo LCP O Prefixo comum mais longo LCP um vector de N 1 inteiros cp i denota o comprimento d
70. ou original activos 165 Figura 7 23 Componente com tabs onde v o aparecer as listagens de termos para as Varias e EE 165 Figura 7 24 Componente com tabs onde v o aparecer as listagens de termos para as v rias medidas populada astra ceed ERRO pa Ee 166 Figura 7 25 Bot es de Avalia o de Termos seas da aaa 167 Figura 7 26 Tabela de termos com alguns j avalados sss eee 167 Figura 7 27 Lista de medidas que s o obrigat rias de awvalar sss sese 168 Figura 7 28 Bot es para salvar a Avalia o Efectuada e o bot o para salvar as estruturas de termos a isope a oao a RR TE 168 Figura 7 29 Janela da Aplica o de BackOffice A 169 18 Figura 7 30 Componente para selec o da lingua dos documentos sese sees eee 169 Figura 7 31 Componente para escolher o avaliador e componente se avalia o parcial ou POLAL tege eendeitege 170 Figura 7 32 Listagem de documentos avaliados pelo avaliador sss sese 170 Figura 7 33 Bot es que permitem ver a distribui o das avalia es dos autores e listagens dositermos avaliados HE E E E eens meee eee 171 Figura 7 34 Gr fico exemplificativo sz ee ao o o dol ae 171 Figura 7 35 Gr fico exemplificativo sese ves eee 171 Figura 7 36 Componente de Selec o da medida sees 172 Figura 7 37 Componente de Selec o da medida cxpandida sss sese 172 Figura 7 38 Bot es para gerar a Precis o e fazer o gr fico da pr
71. palavras e assim sucessivamente 61 sistema que resolve ambiguidades morfol gicas O segundo passo do de fazer o processamento do texto baseado numa gram tica padr o para detec o express es regulares e baseada em feature structure Unification esta unifica o segundo os autores necess ria para capturar concord ncia entre palavras e g nomeadamente concord ncia de caso na l ngua Grega Por fim o resultado sofre uma lematizac o Como j referido este m todo baseado largamente no processamento e an lise lingu stica do texto onde posteriormente aplicado uma an lise estat stica que serve para remover items resultantes do processo anterior que n o apresentem evid ncia estat stica suficiente para serem consideradas Os trabalhos 10 23 24 31 s o exemplos deste tipo de abordagem extrac o de multipalavras Um outro trabalho apresentado Ngomo em 33 apresenta uma metodologia s aplic vel na extrac o de multipalavras Para tal prop em uma nova m trica estat stica denominada de SRE Smoothed relative expectation _ aw p S nf w SRE w pw Vang SI fla G Cian Cn 2 26 Onde d w o n mero de documentos onde w ocorre u e o significam respectivamente a m dia e a vari ncia da ocorr ncia de um n grama num documento p w a probabilidade de ocorr ncia de w no corpus f w a frequ ncia da ocorr ncia de w no corpus e C1 Cj Ci 2 Cn s o padr es tai
72. para o ficheiro PE S2 OD ROLOS il rosa nienn EEN 119 Tabela 4 11 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median MI 120 Tabela 4 12 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes pararo Least Median MI saes Serr TORE ENETH EIR va as Rida SAFE 120 Tabela 4 13 Lista de Termos para a medida Least Bubbled Median Phi Square para o EH 121 Tabela 4 14 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Phi Square sees esse eee 122 Tabela 4 15 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square sss eee 122 Tabela 4 16 Lista de Termos para a medida Least Bubbled Median Rvar para o ficheiro piso UUE ROLOS Dina src A Z TNT Hao NAER Z 123 Tabela 4 17 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Rvar aeee 124 Tabela 4 18 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Rvar sss 124 Tabela 4 19 Precis es Totais m dias para Portugu s para o Avaliador Prof Gabriel Lopes ZO SOR K P SJ SO OOA CURI SO SR PER eee te o a AR PAR 125 Tabela 4 20 Precis es Totais m dias para Portugu s para o Avaliador Prof Joaquim Ferreira da Silvas nana Es e A a O O ae De A ta
73. para todas as medidas resultante da avalia o do Avaliador Prot rte 245 Tabela 8 61 Precis o total m dia para todas as medidas resultante da avalia o do Avaliador Prof Joaquim Ferreira da SIVA 252 Tabela 8 62 Cobertura m dia para todas as medidas resultante da avalia o do Avaliador Prof Joaquim Ferreira da Silva asa sees eee 253 Tabela 8 63 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs_32006D0644 html na medida Phi Square 254 15 Tabela 8 64 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Tf Idf 255 Tabela 8 65 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Median Rvar 256 Tabela 8 66 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Median MI 257 Tabela 8 67 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Bubbled Median Phi Tabela 8 68 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Bubbled Median Tabela 8 69
74. por sumarizac o ver secc o 2 6 2 de documentos na medida em que em algumas circunst ncias pode haver confus o entre o que uma coisa e o que outra A Sumariza o de Documentos o processo de cria o de uma vers o mais curta de um texto sendo que esta vers o mais curta cont m os pontos relevantes do texto original Nalguns casos essa vers o mais curta um par grafo ou uma frase retirada o do documento a sumarizar Mas noutras aplica es pode reduzir se a sumariza o extrac o de termos chave Quando falamos de descritores de documentos estamos a falar de palavras chave ou de termos chave que por si s d o uma clara ideia do conte do de um documento e esta a ideia base do trabalho desenvolvido nesta disserta o Para a realiza o desta disserta o tomei como ponto de partida o trabalho desenvolvido por Joaquim F da Silva et al no trabalho 1 onde se aborda o tema de descritores multipalavra de documentos como j referido anteriormente Em 1 s o utilizadas express es multipalavras extra das recorrendo ao algoritmo LocalMaxs 2 em conjuga o com a medida estat stica SCP e com a normaliza o do SCP atrav s da aplica o do FDPN Fair Dispersion Point Nomalization 15 Podemos ver mais informa o sobre o SCP o FDPN e o algoritmo LocalMaxs na sec o 2 5 sobre a extrac o de multipalavras Ap s a extrac o das express es relevantes s o aplicadas medidas estat st
75. que as precis es totais m dias 126 alcancadas para o avaliador Prof Joaquim Ferreira da Silva sejam mais equitativas entre as medidas No que diz respeito a cobertura m dia alcancada por parte destes avaliadores podemos ver as seguintes tabelas Least M LeastMB Least MB Recall Threshold Phi 2 Least Tf Ifd Rvar Least M MI Phi 2 Rvar Recall Avg 5 0 162332188 0 140275652 0 057282204 0 061528327 0 136911887 0 055350608 Recall Avg 10 0 303927597 0 245604161 0 079072186 0 078817157 0 234905856 0 088076416 Recall Avg 15 0 399484185 0 347772559 0 102677377 0 104421022 0 292186886 0 110701215 Recall Avg 20 0 484566035 0 463789118 0 143163089 0 1321988 0 352236805 0 133545601 Tabela 4 21 Recall m dio para Portugu s para o Avaliador Prof Gabriel Lopes Recall Least M Least M B Least MB Threshold Phi 2 Least Tf Ifd Rvar Least M MI Phi 2 Rvar Recall Avg 5 0 100914266 0 062085921 0 085279527 0 084681554 0 080534448 0 089853115 Recall Avg 10 0 166227626 0 135645273 0 155097352 0 158861147 0 137478892 0 146752468 Recall Avg 15 0 211752786 0 208842305 0 19441078 0 193804458 0 198855961 0 197265355 Recall Avg 20 0 285856612 0 291097308 0 228846158 0 234336855 0 255690645 0 26465666 Tabela 4 22 Recall m dio para Portugu s para o Avaliador Prof Joaquim Ferreira da Silva Pelas mesmas raz es j descritas
76. rg W gt Ent o para n gramas com n 2 3 o algoritmo elege todo o n grama cujo valor de coes o seja maior que a m dia de dois m ximos o maior valor de coes o encontrado nos n 1 gramas cont guos contidos no n grama W e o maior valor de coes o encontrado nos n 1 gramas cont guos que contenham o n grama W Assim no trabalho 1 o algoritmo LocalMaxs utilizado como um extractor de multipalavras onde os elementos MEU do LocalMaxs s o vistos como sendo palavras Outro trabalho relacionado com a extrac o de multipalavras o elaborado no artigo 32 Aqui os autores apresentam um processo semi autom tico para fazer sobressair recursos terminol gicos num dado dom nio espec fico Os autores com o seu m todo visam processar linguisticamente texto leg vel pelos computadores e extrair uma lista de termos multipalavra candidatas com a nuance de serem somente tratados bigramas ou seja multipalavras de duas palavras que sejam representativas do dom nio que se est a tratar que posteriormente s o validadas por peritos do dom nio Os autores apresentam um m todo largamente baseado em an lise lingu stica que se pode resumir aos seguintes passos Primeiramente o texto anotado morfo sint ticamente tendo em conta o dom nio do corpus Este passo contem duas componentes um etiquetador morfo sint tico baseado num l xico morfol gico e num 2 Neste caso um 1 grama uma palavra um 2 grama seriam 2
77. se analis ssemos apenas um m todo De qualquer forma este n mero inferior ao n mero total de termos relevantes pelo que calcularemos uma aproxima o inferior ao recall real Mas de facto imposs vel olhar para todos os temos e classific los a todos como sendo relevantes ou n o 2 8 2 F Measure Esta medida a m dia harmonica entre a Precision e Recall ver secc o 2 8 1 e definida pela seguinte express o 2 precision recall 2 F Measure 2 44 precision recall 1 D i precision recall O que combina desta forma os valores obtidos para a precision e para o recall A F Measure apresenta valores elevados quando a precision e 0 recall apresentam valores elevados Porque os valores de recall que obtemos s o superiores ao verdadeiro recall os valores de F Measure que apresentarei s o superiores ao verdadeiro F Measure 85 2 8 3 Estat stica Kappa 86 A estat stica Kappa k uma medida estat stica muito utilizada para avaliar o grau de concord ncia entre avalia es A matriz de confus o um instrumento fundamental na an lise e obten o do valor da estat stica kappa Trata se de uma matriz quadrada de dimens o NxN em que N o n mero de avalia es poss veis para um determinado termo No trabalho o resultado dessa avalia es podem ser cinco GD Good Descriptor NGD Near Good Descriptor BD Bad Descriptor U Unkown NE No Evalution
78. se nos resultados dos antecessores e sucessores dessa mesma palavra Pelas express es anteriores 2 19 e 2 22 e segundo o autor a medida Score atribui maior valor a uma palavra quando esta tem tend ncia para se ligar a um conjunto restrito de palavras antecessoras e sucessores A segunda m trica que Ventura apresenta no seu trabalho denominada por Successor Predecessor Quotient SPQ que premeia as palavras que t m um maior n mero de sucessores e um menor n mero de antecessores e fornecida pela seguinte equa o N suc w SPQ w Nantw 2 24 onde Nsuc w e Nant w representam respectivamente o n mero de sucessores distintos da palavra w e o numero de antecessores distintos de w Desta forma segundo o autor SPQ w premeia as palavras que t m um maior n mero de sucessores e um menor n mero de antecessores como o caso dos nomes Neste mesmo trabalho o autor criou tamb m o denominado M todo das Ilhas que permite avaliar a relev ncia booleana de cada palavra com base em atributos estat sticos das palavras que ocorrem na vizinhan a dessa mesma palavra E que considerado relevante se for t o ou mais relevante que todas as palavras que ocorrem na sua vizinhan a imediata O trabalho desenvolvido que descrevo nesta disserta o ao contr rio de Ventura n o d mais import ncia a uma palavra pela import ncia das palavras vizinhas mas somente pela import ncia da pr pria no documento eventua
79. sob a assun o que os n s mais bem classificados devem representar as palavras chave do documento O algoritmo HITS capaz de distinguir entre autoridades p ginas com um grande n mero de links a entrar e Hubs p ginas com um grande n mero de links de sa da Para cada n o HITS produz dois conjuntos de resultados Um valor para autoridade e um valor para hub A experimenta o efectuada neste trabalho foi feita sobre uma colec o de sum rios de refer ncia Dado um conjunto de documentos de treino a classifica o supervisionada fornece a identifica o de palavras chave mais certeira enquanto a F measure mais alta alcan ada com um simples degree based ranking Na abordagem n o supervisionada suficiente apenas executar a primeira itera o do HITS em vez de o executar em toda a sua converg ncia Em 36 os autores abordam a quest o da sumariza o de documentos da Web tendo em conta o contexto dos mesmos O contexto do documento Web considerado como gt degree 26 N mero de Setas a entrar no n 27 N mero de setas a sair do n 2 Para os autores este limite de 0 05 12 sendo o conte do textual de todos os documentos que tenham uma ligac o ao documento em causa Segundo os autores a efici ncia desta abordagem depende do tamanho do conte do e do contexto do documento alvo sobre o qual se trabalha No entanto sua efici ncia depende tamb m da exist ncia de liga
80. tabela de concord ncia apresentada na sec o 2 8 3 As matrizes de confus o necess rias para o c lculo deste valor s o apresentadas na sec o 8 15 2 132 4 3 3 Least Median Rvar lium appointments 1 1 000000000000000 Tabela 4 29 Lista de Termos para a medida Least Median Rvar para 0 ficheiro en_32006Q804_01 html Como podemos constatar ao observar a Tabela 4 29 as variantes da medida Rvar conseguem apresentar resultados com mais diferencia o entre os termos visto que o valor atribu do pela medida ao contr rio da medida base tem maior varia o Como se pode constatar na Tabela 8 56 da sec o 8 18 1 onde se v a lista de termos para este mesmo documento para a medida Rvar 133 Precision Total Threshold Precision NearGood Precision Recall F Measure o 5 025 nu 025 0 045454545454545 0 076923076923077 0 125 0 375 0 045454545454545 0 066666666666667 0 1818182 0 363636364 0 545454545 0 090909090909091 0 121212121212121 0 1875 0 4375 0 136363636363636 0 157894736842105 Tabela 4 30 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median Rvar Precision Total a EE E al Precision Recall F Measure E o 0 033333333333333 0 057142857142857 oe B B 0 133333333333333 0 200000000000000 0 466666667 0 266666667 0 733333333 0 233333333333333 0 311111111111111 0 266666666666667 0 320000000000000 Tabela 4 31 Resultados de m e F
81. tinha acontecido com a medida Phi Square esta variante apresenta tamb m uma boa hierarquiza o de termos pelo valor da medida Apesar de nas ultimas posi es da Tabela 4 13 haver uma sequencia de 5 termos com o mesmo valor de medida 121 Precision Total a E Ee E am Recall F Measure Do so 062500000000000 0 113207547169811 a K 0 125000000000000 0 206896551724138 15 0 7333333 0 933333333 0 229166666666667 0 349206349206349 mi o8 0 15 0 95 1 0 333333333333333 0 470588235294 118 Tabela 4 14 Resultados de Precis o SEN e F Measure T Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Phi Square Precision Total EME n V RES Recall F Measure oi 2 0 034482758620690 0 058823529411765 S K T 0 172413793103448 0 256410256410256 s gel 00 0 6 0 310344877586207 0 409090909090909 0 684210526 0 0 0 684210526 0 448275862068966 0 541666666666667 Tabela 4 15 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square Para esta medida os autores tem um valor de concordancia de 0 634502923976608 o que da aproximadamente 63 45 0 que de acordo com a tabela de concordancia apresentada na sec o 2 8 3 temos uma concord ncia substancial 122 4 1 6 Least Bubbled Median Rvar No caso desta medida a listagem de termos que foi apresentado aos avaliadores a Valores da Medida subpopula es alvo 17 9999999999
82. todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes iiiscisccseiccaavcdestvsesatecadcctestanyaescoadsetevdessaasccaavadnelseveevesaaseaaetveyers 206 Tabela 8 29 Cobertura m dia para todas as medidas resultante da avaliac o do Avaliador Prot PRG O E S eege Ee 207 Tabela 8 30 Precis o total m dia para todas as medidas resultante da avaliac o do Avaliador Prof Joaquim Ferreira da SIVA 215 Tabela 8 31 Cobertura m dia para todas as medidas resultante da avalia o do Avaliador Prof Joaquim P tten SAU AAA KESK AAA s AA Ph da 216 Tabela 8 32 Matriz Confus o de Resultados Verificados para Phi Square 217 Tabela 8 33 Matriz Confus o de Resultados Esperados para Phi Square 217 Tabela 8 34 Matriz Confus o de Resultados Verificados para Least Tf Idf 218 Tabela 8 35 Matriz Confus o de Resultados Esperados para Least TE Idf 218 Tabela 8 36 Matriz Confus o de Resultados Verificados para Least Median Rvar 219 Tabela 8 37 Matriz Confus o de Resultados Esperados para Least Median Rvar 219 Tabela 8 38 Matriz Confus o de Resultados Verificados para Least Median MI 220 Tabela 8 39 Matriz Confus o de Resultados Esperados para Least Median MI 220 Tabela 8 40 Matriz Confus o de Resultados Verificados para Least Bubbled Median Phi e UN 221 Tabela 8 41 Matriz Conf
83. 0 Figura 8 36 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric least_bubbled_median_rvar 1 00 0 75 o a o 0 50 gt 0 25 4 0 00 A A ha A Ka ht Ka St EN GX Ros A o 28 G eg 00 ope er v G G am e 2 ue w 9 P Ke Documents E Total Precision 5 Total Precision AVG 5 Figura 8 37 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Rvar com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator e For Metric least bubbled median rvar 0 75 o 3 0 50 o gt 0 25 0 00 A A A X Ka K Si Si af 02 K Lag D v ei ei ee g as a on aa ps oi Ls x gt Ka 3 Y P 3 P Ve Documents Total Precision 20 e Total Precision AVG 20 Figura 8 38 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Rvar com 0 limite 20 214 8 13 Tabela da Precis o Total M dia para todas as Medidas resultante da Avaliac o dos documentos em portugu s pelo Avaliador Prof Joaquim Ferreira da Silva ee Es Metric 5 10 15 20 least bubbled medianrvar 08 0 66 0 605714286 0 614210526 least bubbled phisquare 06 0 62 0674285714 0687041624 phisquare osa 8 0 7
84. 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 4 13 5 0 25 Tabela 8 38 Matriz Confus o de Resultados Verificados para Least Median MI Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 1 2 1 6 5 2 2 0 10 Near Good Y Descriptor 0 96 1 28 4 16 1 6 0 8 Bad Descriptor 0 84 1 12 3 64 1 4 0 7 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 3 4 13 5 0 25 Tabela 8 39 Matriz Confus o de Resultados Esperados para Least Median MI Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 258474576271186 o que d aproximadamente 25 84 de concord ncia 9 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML 220 8 15 5 Kappa para a Medida Least Bubbled Median Phi Square Este c lculo refere se a medida Least Bubbled Median Phi Square para o documento en 320060804 01 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 8 2 1 U U 11 T Near Good E Descriptor 2 0 0 0 0 2 Bad Descriptor 1 U 11 0 0 12 lt Unkown 0 0 0 0 0 0 No Evaluati
85. 0 7 0 318181818181818 0 437500000000000 0 5333333 0 066666667 0 6 0 363636363636364 0 432432432432432 ml 05 0 11 0 6 0 454545454545455 0 476190476190476 Tabela 4 27 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Tf Idf 131 Precision Total Threshold Precision NearGood Precision Recall F Measure a 02 os 0 068965517241379 0 117647058823529 0 333333333 0 266666667 0 6 0 172413793103448 0 227272727272727 Tabela 4 28 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaguim Ferreira da Silva para o Least Tf Idf Na Tabela 4 26 podemos constatar algumas consequ ncias do operador Least Veja se o termo mais bem pontuado 0 02985 1088353419 Se olharmos um pouco mais a meio da mesma tabela podemos encontrar o seguinte 0 013267150379297 director and deputy director 0 013267150379297 chairperson or the director 0 013267 150379297 Que claramente demonstra que 0 efeito Least que pode ser visto observando 0 facto de a multipalavra chairperson or the director ter assumido o menor valor das suas palavras das extremidades neste caso Chairperson e director as pontua es na Tabela 4 26 O Grau de concord ncia dos avaliadores nesta medida para um ficheiro na l ngua inglesa de 0 4375 o que d aproximadamente 43 75 de concord ncia isto leva o n vel de concord ncia seja classificado como moderado de acordo com a
86. 00 0 000 0 000 Column Total 9 000 0 000 15 000 1 000 0 000 25 000 Tabela 8 2 Matriz Confus o de Resultados Esperados para Phi Sguare Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 552429667519181 o que d aproximadamente 55 2 de concord ncia 8 1 2 Kappa para a Medida Least Tf Idf Este c lculo refere se medida Least Tf Idf para o documento pt 32006R0198 html A Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 13 0 2 0 0 15 Near Good Y Descriptor 0 0 2 0 0 2 Bad Descriptor 0 1 7 0 0 8 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 13 1 11 0 0 25 Tabela 8 3 Matriz Confus o de Resultados Verificados para Least Tf Idf 7 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 178 Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 7 8 0 6 6 6 0 0 15 Near Good Y Descriptor 1 04 0 08 0 88 0 0 2 E Bad Descriptor 4 16 0 32 3 52 0 0 8 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 13 1 11 0 0 25 Tabela 8 4
87. 0000 5 Is 0 466666667 0 2 0 666666667 0 233333333333333 031111111111111 Tabela 4 25 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Phi Square Como podemos observar nas tabelas anteriores onde s o indicados os valores de precis o para os v rios patamares escolhidos podemos observar que a precis o total dos dois avaliadores anda muito pr xima divergindo somente no patamar de 20 mesmo assim uma diverg ncia de 5 d cimas O Grau de concord ncia dos avaliadores nesta medida para um ficheiro na l ngua inglesa de 0 72752 o que d aproximadamente 72 75 de concord ncia isto leva o n vel de concord ncia para o patamar de substancial de acordo com a tabela de concord ncia apresentada na sec o 2 8 3 As matrizes de confus o necess rias para o calculo deste valor s o apresentadas na sec o 8 15 1 130 4 3 2 Least Tf Idf Valor da Medida 0 029590879977958 0 023731661781725 bureau and the governing 0 02373 1661781725 governing board and the bureau 0 02373 1661781725 0 013959801048074 d d motion may impede the governing 0 007739171054590 ban JOO chairpersons 0 005583920419229 majority of its members Tabela 4 26 Lista de Termos para a medida Least Tf Idf para o ficheiro en 320060804 01 html Precision Total Threshold Precision NearGood Precision Recall F Measure 0 6 0 136363636363636 0 222222222222222 5 ul ui o
88. 00000000000000 1 1 00000000000000 1 U 1 U 1 U U U 1 000000000000000 10 000000000000000 rozpu t ny zp sobilost v oblasti mnohojazy nosti zve ejnit z st vaj p vodn m jazyce doty n ho dokumentu zve ejnit 9 000000000000000 Tabela 4 49 Lista de Termos para a medida Least Median Rvar para o ficheiro cs 32006D0644 html Precision Total Threshold Precision NearGood Precision Recall F Measure SM l 0 333333333333333 0 363636363636364 5 0 333333333333333 0 250000000000000 0 133333333 0 133333333 0 266666667 0 333333333333333 0 190476190476190 0 333333333333333 0 153846153846154 Tabela 4 50 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median Rvar 146 4 5 4 Least Median MI 67 441 162726397980 67 441162726397980 62 623936817369554 57 8067 10908341 130 52 989484999312700 52 989484999312700 52 9894849993 12700 52 9894849993 12700 52 9894849993 12700 50 580872044798490 fineness amais mnohojazy nosti 45 763646 135770060 Tabela 4 51 Lista de Termos para a medida Least Median MI para o ficheiro cs 32006D0644 html Precision Total a EE EE E Recall F Measure 060 333333333333333 0 363636363636364 O 0 333333333333333 0 250000000000000 0 133333333 0 133333333 0 266666667 0 333333333333333 0 190476190476190 0 333333333333333 0 153846153846154 Tabela 4 52 Resultados de SE Ta e F Measure do FE Prof Gabriel
89. 006R0198 html 198 8 5 Gr ficos das Precis es para o Avaliador Prof Gabriel Lopes para o documento pt 32006R0198 html As seguintes figuras apresentam os gr ficos com as precis es cobertura e F Measure considerados mais demonstrativos e que foram obtidas da an lise dos resultados do 16 avaliador Prof Gabriel Lopes para o documento pt_32006R0198 html Os gr ficos mostram os valores de precis o para 5 10 15 e 20 Precisions for Document pt_32006r0198 txt From Evaluator gpl For Metric phisquare 0 6 0 5 0 4 0 3 0 2 p e e SS 0 1 0 0 Values 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 1 Valores de Precis o Cobertura e F Measure para Phi Sguare Precisions for Document pt 32006r0198 txt From Evaluator gpl For Metric least tf idf 0 6 0 5 EE E 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Values Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 2 Valores de Precis o Cobertura e F Measure para Least Tf Idf 9 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 199 Precisions for Document pt 32006r0198 txt From Evaluator gpl For Metric least_median_rvar 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u B 4 5 6 7 B Steps 5 10 1
90. 006d0527 txt For Metric bubbled mi From Evaluator gpl No Evaluation 24 Good Topic Descriptor 32 Near Good Descriptor 4 Bad Descriptor 24 Good Topic Descriptor Near Good Descriptor Bad Descriptor Unknown No Evaluation Figura 7 34 Grafico exemplificativo bubbled_mi for Document en_32006h0143 txt From Evaluator gpl Value B Bad Descriptor B Near Good Descriptor E Good Topic Descriptor B No Evaluation E Unkonwn Figura 7 35 Grafico exemplificativo 171 Na proxima sequencia de figuras 7 36 a 7 38 podemos ver como se selecciona uma medida da qual se queiram ver os resultados Ao clicar no boao Generate Precision a tabela apresentada na Figura 7 44 passa a conter os resultados da precis o Precision da cobertura recall e da F Measure como podemos ver na Figura 7 45 Ao fazer a gera o das medidas desbloqueado o bot o Plot Precision que permite fazer o gr fico da precis o como se v na Figura 7 38 Um gr fico exemplificativo apresentado na Figura 7 39 Please Select Metric Please Select Metric Please Select Metric bubbled mi v eP el tf idf corm Chose the Measure to Plot 9 Precision Precision Al 5 10 15 20 Al 5 10 15 20 Generate Precision Figura 7 36 Componente de Figura 7 37 Componente de Selecc o Figura 7 38 Bot es para gerar a Selec o da medida da medida expandida Precis o e fazer o gr fico da precis
91. 04 01 html na medida Phi Square if the chairperson members of the governing d B sE o o E DIO Kb TS 5 BIB ola go ra nin o Ire S E EIS et ola SIS Ela gq Oo va 2 2 g DIO a SIB 2 BS B oa Oo Oo o Z 8 amp G CH lt CH G 5 CH 5 h lt o 5 ER E 2 E B oa 229 8 17 2 Least Tf Idf chairperson and the vice chairpersons 0 005583920419229 good topic descriptor Tabela 8 51 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Tf Idf 230 8 17 3 Least Median Rvar nominations and appointments 11 000000000000000 good topic descriptor chairperson and countersigned 9 488692799006760 bad descriptor Tabela 8 52 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Median Rvar 231 8 17 4 Least Median MI nominations and appointments 41 200270437540970 good topic descriptor Tabela 8 53 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Median MI 232 8 17 5 Least Bubbled Median Phi Square governing the centre between meetings 0 020229154150429 bad descriptor Tabela 8 54 Listagem de term
92. 1 Bot o que faz o Set das configura es ee taba dai Ge VE 2 Avaliadores o a Aplica o de BackOffice prentendidas desbloqueando ou outros bot es ver Figura 7 12 Na Figura 7 12 o bot o identificado por 1 lan ar a aplica o de avalia o de termos ver sec o 7 2 J o bot o identificado por 2 lan ar o backOffice aplica o que serve para fazer uma an lise sobre os resultados das avalia es dos termos por parte dos avaliadores ver sec o 7 3 para mais informa o 162 7 2 Janela de Avalia o de Termos Segue se de seguida a explica o detalhada da janela apresentada aos avaliadores para estes poderem avaliar os termos de cada documento amp Automatic Extraction of Doo File Name EJ Results for Doc Listing of Files to Evaluate Phi L Tfidf LM RVAR L M MI I L B M Phi L B M RVAR I TFidf and Variants Phi Variants RVAR And Variants MI and Variants d pt 32006H0952 txt Terms Phi Square Metric Evaluation Evalution Value pt_32006D1719 txt pt 3200600291 txt pt 3200600644 txt pt 32006H0961 txt Evalution Buttons Clear Results Please Select the Language to Evaluate O PT ON OG Near Good Descriptor Please Select What to Evaluate 9 Words MultiWords MultiWords Words iew Treated Text View Original Text qui l au Save Evaluation Figura 7 13 Janela da aplica o dos avali
93. 10 4 Total Precision 15 Total Precision 20 Figura 8 67 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Phi Sguare Overall Total Precision for All Files From Evaluator e For Metric least bubbled median rvar 1 00 0 75 a 0 50 gt 0 25 0 00 a A a A n o o AN wert r A i noo oo oot E V at el es Era es Z ep 5 sp 2 am ee Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 68 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Rvar 249 8 26 Graficos da Precis o Total versus M dia da Precis o Total para todos os documentos em ingl s avaliados pelo Avaliador Prof Joaguim Ferreira da Silva Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric phisquare 1 00 a te 0 75 a 0 50 0 25 0 00 X L a As nA oo A aert pff s B po a ay ae Er E ch ef ef et ef D Documents E Total Precision 5 Total Precision AVG 5 Figura 8 69 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Sguare com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator jfs For Metric phisguare 0 75 a 3 0 50 o 0 25 0 00 ot D sti Dm age P w pw U an ag am mW ao ef et ete eD eos Documents E Total Precision 20 Tot
94. 16 13 to be s 17 0 to be or not to be Figura 2 16 Ilustra o da suffix array da Figura 2 15 ap s ter sido ordenada Os inteiros em s s o ordenados por forma a que as strings estejam alfabeticamente ordenadas Exemplo baseado em 8 Como j foi dito anteriormente as suffix arrays foram desenhadas para facilitar a computa o e o c lculo das frequ ncias de termos tf e apontar a localiza o de uma sub string ngrama termo numa sequ ncia texto Dada uma sub string ou termo t uma pesquisa bin ria efectuada para encontrar o primeiro e o ultimo sufixo que come a com L Seja s i o primeiro desses sufixos e all o ltimo Ent o a frequ ncia tt 1 1 e o termo est localizado nas posi es s do texto indicado A Figura 2 16 tamb m mostra como que este procedimento pode ser usados para calcular a frequ ncia e para encontrar a localiza o de termos no corpus veja se o exemplo de to be no texto to be or not to be Como ilustrado tamb m na Figura 2 16 s i 16 o primeiro sufixo que come a com o termo to be e s j 17 o ltimo sufixo a come ar com este termo Consequentemente tf to be 17 16 1 2 Al m disso as posi es do termo to be pode ser descrito como posi es to be s 13 0 e apenas estas posi es Outra caracter stica das suffix arrays a de permitir encontrar o Prefixo Comum mais longo LCP Ou seja permite a constru
95. 46666667 om least median t idf 8 0 757777778 0 77047619 0 754561404 least bubbled median ai 08 0 733333333 0 687655678 0 640144479 least median phisquare mal 0 78 0 693333333 0 722923977 least phisquare JL 0 72 0 66 0 716666667 0 671176471 least bubbled median phisquare 076 oss nR 058 0 545 if ml osjomass 076 mt qua JNA qua ua O Tabela 8 30 Precis o total m dia para todas as medidas resultante da avalia o do Avaliador Prof Joaquim Ferreira da Silva 215 8 14 Tabela da Cobertura M dia para todas as Medidas resultante da Avaliac o dos documentos em portugu s pelo Avaliador Prof Joaquim Ferreira da Silva mee fe fa lg la Metric 5 10 15 20 mi 0 004081633 0 009637188 0 009637188 Tabela 8 31 Cobertura m dia para todas as medidas resultante da avalia o do Avaliador Prof Joaquim Ferreira da Silva 216 8 15 Calculos da Estatistica Kappa entre Prof Joaquim Ferreira da Silva e 0 Prof Gabriel Lopes para 0 documento en_32006Q804_01 html 8 15 1 Kappa para a Medida Phi Square Este c lculo refere se a medida Phi Square para o documento en 320060804 01 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descr
96. 5 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 3 Valores de Precis o Cobertura e F Measure para Least Median Rvar Precisions for Document pt 32006r0198 txt From Evaluator gpl For Metric least median mi 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 15 16 7 B mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 4 Valores de Precis o Cobertura e F Measure para Least Median MI Precisions for Document pt 32006r0198 txt From Evaluator gpl For Metric least bubbled median phisguare 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 5 6 7 B 20 Steps 5 10 15 20 F Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 5 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Sguare 200 Precisions for Document pt_32006r0198 txt From Evaluator gpl For Metric least_bubbled_median_rvar 0 75 0 50 Values 0 25 0 00 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 6 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar 8 6 Graficos da Precis o Total para todos os documentos em portugu s avaliados pelo Avaliador Prof Gabriel Lopes Overall Total Precision for All File
97. 524074074 T Prec Avg 10 0 782716049 0 660714286 0 423677249 0 422619048 0 745679012 0 434259259 T Prec Avg 15 0 729466829 0 660541311 0 395983646 0 38015873 0 7000407 0 392572243 T Prec Avg 20 0 686712498 0 677737645 0 347205364 0 338466951 0 653222654 0 403289547 Tabela 4 41 Precis es Totais m dias para Ingl s para o Avaliador Prof Gabriel Lopes Least M Least M Least MB Least M B Prec Threshold Phi 2 m Tf Ifd Rvar MI Phi 2 Rvar T Prec Avg 5 08 el o wel oe T Prec Avg 10 T Prec Avg 15 0 786666667 0 733333333 0 733333333 0 746666667 T Prec Avg 20 Tabela 4 42 Precis es Totais m dias para Ingl s para o Avaliador Prof Joaquim Ferreira da Silva Para ambos as medidas com a melhor precis o em m dia s o a Phi Square e a Least Bubbled Median Phi Square 0 que tamb m se verificou para a lingua Portuguesa Assinala se que tamb m a h uma maior concord ncia entre os avaliadores A diferencia o de precis es nas outras medidas deve se ao facto j mencionado de um avaliador utilizar mais a classifica o Near Good Descriptor No que diz respeito cobertura m dia poss vel fazer a mesma leitura que foi feita para a precis o total m dia Podemos constatar nas tabelas abaixo que a medida Phi Square e Least Bubbled Phi Square apresentam melhores resultados em m dia 141 Recall Threshold a e Tf Ifd Rvar Recall
98. 6 1 1 Header File Ficheiro header criado pelo comando javah DO NOT EDIT THIS FILE it is machine generated include lt jni h gt Header for class sufArray SuffixArray ifndef Included sufArray SuffixArray define Included sufArray SuffixArray ifdef cplusplus exb zn POR 1 endif Class sufArray SuffixArray Method jsarrayString Signature Ljava lang String II V ay JNIEXPORT void JNICALL Java_sufArray SuffixArray jsarrayString JNIEnv jclass jstring jintArray jint I Class sufArray SuffixArray Method ep Signature ILjava lang String II V JNIEXPORT void JNICALL Java_sufArray SuffixArray jlcp JNIEnv jclass jintArray jstring jintArray jint Classi sufArray SuffixArray Method JSutLixsore Signature I IIII V SCH JNIEXPORT void JNICALL Java sufArray SuffixArray jsuffixsort JNIEnv jclass jintArray jintArray jint jint jint ifdef cplusplus fendif fendif 155 6 1 2 Code File Ficheiro C que implementa o header apresentado na sec o anterior DO NOT EDIT THIS FILE it is machine generated include lt jni h gt Header for class SuffixArray ifndef Included SuffixArray define Included SuffixArray ifdef cplusplus extern C fendif Class sufArray SuffixArray Method jsarrayString Signature Ljava lang String II V JNIEXPORT void JNICALL Jav
99. 66666667 0 651388889 least median phisquare 1 o7 o6 os66666667 oa least phisguare 07 06 056666667 0 582894737 iat oo 085625 0709249084 0659813596 mo NA JNA Jus Jus Tabela 8 72 Precis o total m dia para todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes 267 8 34 Tabela da Cobertura M dia para todas as Medidas resultante da Avaliac o dos documentos em Checo pelo Avaliador Prof Gabriel Lopes ee E Eer ere es Metric 5 10 15 20 mt 0011904762 0 089110644 0 089110644 0089110644 Tabela 8 73 Cobertura m dia para todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes 268 Bibliografia 1 J F d Silva and G P Lopes A Document Descriptor Extractor Based on Relevant Expressions in 14th Portuguese Conference on Artificial Intelligence EPIA 2009 Aveiro Portugal October 12 15 2009 pp 646 657 2 J F d Silva G Dias S Guillor et al Using LocalMaxs Algorithm for the Extraction of Contiguous and Non contiguous Multiword Lexical Units in 9th Portuguese conference on artificial intelligence Evora 21 24 September 1999 1999 3 D Franca and S Fabrizio Supervised term weighting for automated text categorization in Proceedings of the 2003 ACM symposium on Applied computing Melbourne Florida 2003 4 Y Yiming and O P Jan A Comparative Study on Feature Selection in Text Categorization
100. 667 0 5 0 133333333333333 0 190476190476190 0235294118 0 235294118 0 470588235 0 133333333333333 0 170212765957447 Tabela 4 18 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Rvar Para esta medida os autores tem um valor de concordancia de 0 2152466367713 0 que d aproximadamente 21 52 o que de acordo com a tabela de concord ncia apresentada na sec o 2 8 3 temos uma concord ncia consider vel 4 2 Leitura de Resultados para a L ngua Portuguesa Do que pudemos constatar pela leitura dos resultados obtidos da avalia o efectuada pelos avaliadores Podemos destacar de imediato que tr s medidas apresentam um grau de concord ncia substancial nomeadamente o Phi Square o Least Tf Idf e o Least Bubbled Median Phi Square Constata se tamb m que estas mesmas medidas apresentam termos com maior significado sem ntico que as outras medidas avaliadas nas quais predominam muito verbos adjectivos e adv rbios 124 Mais sabendo que o avaliador Prof Gabriel Lopes avaliou uma amostra de nove documentos As precis es totais m dias obtidas para as medidas que foram avaliadas na totalidade pode ser visto na seguinte Tabela 4 19 Onde podemos observar que em m dia a precis o total mais elevada para todos os limites considerados 5 10 15 20 sao obtidos pelas medidas Phi Square Least Tf Idf e Least Bubbled Median Phi Square Podemos ver uma ilustra o
101. 99996 13 000000000000004 11 seguinte 11 999999999999996 11 999999999999996 11 999999999999996 1 1 999999999999996 10 842529794442926 10 3834 12029287300 10 000000000000002 Tabela 4 16 Lista de Termos para a medida Least Bubbled Median Rvar para o ficheiro pt 32006R0198 html 10 999999999999998 A semelhanca do que aconteceu com a primeira variante do Rvar que vimos na secc o 4 1 3 a medida que estamos a analisar tamb m apresenta dificuldades na hierarquiza o dos termos pelos valores obtidos na medida Podemos ver dois grandes grupos na Tabela 4 16 uma grupo de 6 termos com o valor de 11 99 e um grupo de 5 123 termos com o valor de 10 0 isto faz com se veja dois grupos sem uma clara hierarquiza o Apesar de tudo sempre apresenta resultados mais aceit veis que a medida Rvar como veremos em mais pormenor no capitulo 5 Precision Total a E E Recall F Measure 0 085106382978723 0 153846153846154 0 170212765957447 0 280701754385965 15 0 8666667 ol 0866666667 0 270833333333333 0 412698412698413 ao 085 005 0 9 0 354166666666667 0 500000000000000 Tabela 4 17 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Rvar Precision Total EE Ea Kee Precision Recall F Measure ois 0 066666666666667 0 117647058823529 23 0 125 0 625 0 133333333333333 0 210526315789474 0 333333333 0 166666
102. 99999999999996 good topic descriptor 4 000000000000000 good topic descriptor probabil stica 3 999999999999996 near good descriptor 186 8 2 4 Least Median MI 2 bad descriptor destacamentos 33 481709695167230 unkonwn guestion rios Tabela 8 16 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Least Median MI significativamente melhorados 36 057225825564714 bad descriptor 187 8 2 5 Least Bubbled Median Phi Square Avaliac o dada ao Termos Valores da Medida termo pelo Avaliador _imputagdes TS unkonwn Tabela 8 17 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Least Bubbled Median Phi Square 188 8 2 6 Least Bubbled Median Rvar _destacamentos 12 999999999999996 unkonwn 1 999999999999996 bad descriptor 1 999999999999996 near good descriptor acessibilidade 1 943045311153242 bad descriptor 1 1 1 999999999999996 1 1 coeficiente 10 999999999999998 unkonwn 10 842529794442926 10 000000000000002 10 000000000000002 ET O unkonwn Tabela 8 18 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Least Bubbled Median Rvar 189 8 3 Lista de Termos Avaliados pelo Avaliador Prof Joaquim Ferreira da Si
103. 999999999999996 good topic descriptor 1 sobrecobertura 3 999999999999996 good topic descriptor 13 999999999999996 near good descriptor robabil stica estratificada 13 499999999999996 near good descriptor vari vel base 13 000000000000000 good topic descriptor empresas m es 12 999999999999996 good topic descriptor laboratoriais 12 999999999999996 bad descriptor preenchimento 12 999999999999996 good topic descriptor destacamentos 12 999999999999996 good topic descriptor identificadas 12 999999999999996 bad descriptor nao respostas 12 999999999999996 good topic descriptor problematicas 12 999999999999996 near good descriptor Tabela 8 21 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Median Rvar significativamente melhorados 192 8 3 4 Least Median MI Termos Valores da Medida 2700 dada o terme pelo Avaliador significativamente melhorados 36 057225825564714 near good descriptor Tabela 8 22 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Least Median MI 193 8 3 5 Least Bubbled Median Phi Sguare formacao profissional continua forma o no desempenho empresarial forma o profissional cont nua da empresa 0 025191971967832 good topic descriptor Tabela 8 23 Listagem
104. AI sia ado ia hand ado dida p a dada Lona oi asa papa rascar dadas 129 4 3 2 Least EO a a 131 dido Least Median RVGP EN 133 434 Least ME E 135 4 3 5 Lens Bubbled Median PUTS QUOTE sss sese 137 4 3 6 Least Bubbled Median VG F deeg 139 4 4 LEITURA DE RESULTADOS PARA A LINGUA INGLESA eee 140 45 LANG T pair asa Ss clas dass 143 EA PES TT T a a wae sbi wana depen a A 143 43 2 Least TIAL s Macias evenness 144 4 3 3 Least Median Rvar DPV O O O O O O 146 434 Least M dian ME saimos sed ku konate de odd kacek aja ans den dita 147 45 Least Bubbled Median PRi DOWAV sss sese 148 4 5 6 Least Bubble Median Rvaf sas see da 149 4 6 LEITURA DE RESULTADOS PARA A LINGUA CHECA sese eee 150 CONCLUS ES E TRABALHO FUTURO essen 151 5 DE CONCLUSOES ahaa ee ne tea alec PARP POE ee PVE PSOV P PEAK OOP EAP SN E OR ZOO V ARENA 151 5 2 TRABALHO FUTURO sb ete aig etl auditka hasit eu E aE Ea 153 ANEXO 1 M DULOS DE C DIGO sese 155 OE P LETE TO S JND n o Ro ts DO Soe O o n SR 155 OLI Header 7 R R eee CE P O eee ree desu E E E er qq ree 155 6 12 Code EE 156 6 2 CONSTRU O DA ESTRUTURA DE PALANVR ASR 157 6 3 CONSTRU O DA ESTRUTURA DE PREFIXOS sese eee 158 ANEXO 2 MANUAL DO UTILIZADOR DO PROT TIPO 159 7 1 JANELA DE CONFIOURACAO sss 159 7 2 JANELA DE AVALIA O DE TERMOS sse 163 7 3 JANELA DE LEITURA DAS AVALIA ES FEITAS PELOS AVALIADORES sssosssesesee 169 8 ANEXO 3 RESULTADOS sos cased sd
105. Avg 5 141469168 0 134872012 0 033474497 0 033474497 118659513 0 052743101 Recall Avg 15 0 356307435 0 362758999 0 096205324 0 08371186 340923484 0 118747989 Recall Avg 20 0 447504494 0 483546939 0 115926344 0 109508125 0 407674418 0 158558013 Tabela 4 43 Coberturas m dias para Ingl s para o Avaliador Prof Gabriel Lopes Recall Least M Least MB Least M B Threshold Phi 2 Least Tf Ifd Rvar Least M MI Phi 2 Rvar Recall Avg 5 0 11032156 0 085379238 0 074420563 0 068768095 0 095255064 0 094288932 Recall Avg 10 0 289430085 0 252416243 0 066413619 0 056751783 0 241410312 0 099584688 Recall Avg 10 0 188927434 0 136075757 0 143388847 0 131018627 0 182920437 0 153563385 Recall Avg 15 0 232007919 0 211789643 0 204761635 0 199411562 0 252938752 0 210683719 Recall Avg 20 0 291060625 0 271135828 0 240959922 0 24732508 0 311211215 0 271460746 Tabela 4 44 Coberturas m dias para Ingl s para o Avaliador Prof Joaquim Ferreira da Silva Nos gr ficos apresentados nas sec es 8 21 e 8 26 podemos ver para cada avaliador a precis o total para cada documento avaliado pelos avaliadores em rela o a precis o total m dia Os gr ficos apresentados s o somente para os limites 5 e 20 e para as duas melhores medidas consideradas pela an lise da Tabela 4 41 e da Tabela 4 42 Apresenta se tamb m os gr ficos para a medida Least Median Rvar 142 4 5 Ling
106. B Ze s 7 Divisa NOM Sa Universidade Nova de Lisboa Faculdade de Ci ncias e Tecnologia Departamento de Informatica Extrac o Automatica de T picos de Documentos Por Lu s Filipe da Silva Teixeira 29399 Disserta o apresentada na Faculdade de Ci ncias e Tecnologia da Universidade Nova de Lisboa para a obten o do grau de Mestre em Engenharia Inform tica Orientador Prof Doutor Jos Gabriel Pereira Lopes Co Orientador Prof Doutor Joaquim F da Silva Lisboa 2010 As armas e os bar es assinalados Que da ocidental praia Lusitana Por mares nunca de antes navegados Passaram ainda al m da Taprobana Em perigos e guerras esforcados Mais do que prometia a forca humana E entre gente remota edificaram Novo Reino que tanto sublimaram E tamb m as memorias gloriosas Daqueles Reis que foram dilatando A F o Imp rio e as terras viciosas De Africa e de Asia andaram devastando E aqueles que por obras valerosas Se vdo da lei da morte libertando Cantando espalharei por toda parte Se a tanto me ajudar o engenho e arte 33 Lu s Vaz de Camoes Lus adas Canto I Dedicatoria Aos meus Pais Maria Eduarda e Mario Teixeira li Agradecimentos N o posso come ar os agradecimentos sem dar uma men o especial de agradecimento aos meus Pais por tudo o que tem passado desde sempre e em especial nos ltimos anos A minha fam lia que esteve sempre comigo e me acompanhou
107. DUW Wi Doan Wn Onde p w Wn a probabilidade do n grama w Wp ocorrer no corpus A ideia subjacente a esta f rmula a de que poss vel transformar qualquer n grama de comprimento vari vel num pseudo bigrama sendo que o pseudo bigrama reflete parcialmente a coes o m dia entre quaisquer dois sub n gramas adjacentes cont guos em que foi partido o n grama original Da o denominador de 2 2 ser a m dia de todos os produtos das probabilidades das partes em que foi dividido o n grama O algoritmo LocalMaxs pode ser utilizado para extrair padr es de outros elementos dos textos al m de express es relevantes compostas por palavras designadamente por caracteres ou por etiquetas morfo sint cticas Assim o algoritmo baseia se na ideia de 20 f d da que cada n grama e diz que entre cada n grama existe uma esp cie de cola ou coes o que faz com que as palavras do n grama fiquem juntas e definido como se segue Seja W w4 Wn um n grama e g uma fun o de coes o gen rica E seja O 4 W o conjunto de valores de coes o g para todos os n 1 gramas cont guos contidos no n grama W Seja Q 1 W o conjunto de valores de coes o g para todos os n 1 gramas cont guos que contenham o n grama W Seja len W o comprimento n mero de elementos do n grama W Ent o W uma unidade multi Elemento MEU se e s se Vx QW Vy Qan W len W 2Ag W gt y u ienw gt 2
108. EALIZADO c sscsssssssssssssssscssssssaseassaseacsncescens 93 dd CORPUS DE LESTE ci gua m A SGA A a aa 93 3 2 NOVAS MEDIDAS ssssttesesvcugesdepedan sussdues ozna Sa RED seskok sla cy SS la a a Sud add 94 3 2 Operador Least dra dl A uo alent ou u za aa 94 3 2 2 Operador ET 96 3 2 3 Medidas LEAS Bubble T 97 324 EE Ee DEPARA NR ees 99 3 2 5 Medidas EE 102 23 DESENVOLVIMENTO eegen 103 3 3 1 Ambiente de Desenvolvimento asas ia eee eee eee 103 3 4 EXTRAC O DE PALAVRAS E PREFIXOS eee 106 3 5 EXTRAC O DE MULTIPALAVRASR eee 107 3 6 IMPLEMENTA O DE MEDIDAS eee eee e eee 107 32 PROTOTIPO Gossip ida Ss wii Ghee bis Ge a 108 SL Desenho e Diagrama do Proton au dec cssesss Soni See tia dis alin cake iene ed odk edu da 108 3 0 CONSIDERA ES e V V R VS E VA EE de 109 3 8 1 Considera es sobre Trabalho Realizado sss sss sese 109 3 8 2 Considera es sobre Contribui es s sees 109 RESULTADOS OBTIDOS E SUA AVALIACAO cccssssssssssessssoesessessesesseeseesceeeses 111 dech LINGUA PORTUGUESAS sapo proa E dos deda Binns pareve AKVA Osov 113 Bid Al PIQUE lod aa oe Rag en at aaa eens aaa eS 113 BAD Least UPL aus inner abriram pa aliada died ERA AIN tisk aaa gees a RE wie 115 4 1 3 Least Me dian Var T 117 4 1 4 Least EE 119 4 1 5 Least Bubbled EE 121 4 1 6 Least Bubbled Median Rvaf casa iris nose dna S Sa 123 4 2 LEITURA DE RESULTADOS PARA A L NGUA PORTUGUESA eee 124 E LINGUA INGLESA at ii Qi dida 128 43 1 PAS QU
109. Een 126 Tabela 4 21 Recall m dio para Portugu s para o Avaliador Prof Gabriel Lopes 127 Tabela 4 22 Recall m dio para Portugu s para o Avaliador Prof Joaquim Ferreira da Silva Tabela 4 23 Lista de Termos para a medida Phi Square para o ficheiro e S2006 0804 DL html e Good ode DA ORAR SUDO a GU Eras a eas reas 129 Tabela 4 24 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes Pala lee Abe ass Ri A TA CR OA NOVA 130 Tabela 4 25 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Phi Square s ass eed er aoe z ao 130 Tabela 4 26 Lista de Termos para a medida Least Tf Idf para o ficheiro en 320060804 01 rr 131 Tabela 4 27 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least TEE ussuasts catia tita dica Ria da Rte 131 Tabela 4 28 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least TEE 01 cms esreentussissameapis ste sieaecsesti inci antas as 137 10 Tabela 4 29 Lista de Termos para a medida Least Median Rvar para o ficheiro e 32006Q804 QJ Html sene a O OE P O eer ener ee 133 Tabela 4 30 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes parao Least Median ageet Seed dee Si qua R RETER ads ieee pa 134 Tabela 4 31 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva p
110. F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square A semelhanca com a sua medida base 0 Least Bubbled Median Phi Square apresenta uma boa precis o total apesar de perder na cobertura onde o Phi Square mostra melhores resultados 148 4 5 6 Least Bubbled Median Rvar 1 1 1 8 8 iy an vyzrazeny 8 000000000000000 z dit Tabela 4 55 Lista de Termos para a medida Least Bubbled Median Rvar para o ficheiro cs 32006D0644 html Precision Total Threshold Precision NearGood Precision Recall F Measure zl 04 02 0 6 0 333333333333333 0 363636363636364 0 U podskupiny budou rozpu t ny 0 000000000000000 0 0 333333333333333 0 250000000000000 0 133333333 0 266666667 0 4 0 333333333333333 0 190476190476190 0 333333333333333 0 153846153846154 Tabela 4 56 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Rvar Relativamente medida Least Median Rvar sec o 4 5 3 obtiveram se aqui valores de precis o total ligeiramente mais elevados 149 4 6 Leitura de Resultados para a Lingua Checa A amostra de documentos de checo avaliados pelo Prof Gabriel Lopes contabilizada em 4 documentos Nas seguintes tabelas podemos ver a precis o total m dia e a cobertura m dia obtida da an lise das avalia es deste avaliador Least M Least MB Least MB EST Threshold acl Tf Ifd E E MMI Een ERES T Pre
111. J na Figura 7 3 podemos ver a op o de escolher o tamanho que os prefixos devem ter e uma op o para fazer o carregamento das estruturas de dados previamente utilizadas Se porventura o utilizador desejar usar alguma configura o que seja diferente da ltima que utilizou esta op o n o dever ser utilizada Please Select the Number of Chars that a Prefix should have 5 Prefix of 5 Chars J LoadPreviousStructures Prefix of 6 Chars Figura 7 3 Selecc o do tamanho dos Prefixos e se a aplicac o deve carregar as estruturas anteriores ou nao Nas Figuras 7 4 e 7 5 poss vel ver como se selecciona o n mero de termos que o avaliador ter para avaliar No trabalho desenvolvido nesta tese o n mero de termos utilizado foi de 25 Number of Terms to Evaluate Number of Terms to Evaluate D 25 e Figura 7 4 Componente de selecc o do numero de termos para avaliar e Folder for Portugue hus pt txt fixed txt Figura 7 5 Componente de selecc o do numero de termos para avaliar expandido J nas seguintes figuras podemos ver como se selecciona a l ngua de arrangue das outras duas componentes do prot tipo ver sec es 7 2 e 7 3 160 Please Select Boot Language PT sl Figura 7 6 Compoente de selecc o da lingua de arranque das aplica es Figura 7 7 Componente de selec o da l ngua de arranque das aplica es expendida As Figuras 7 8 7 9 e 7 10 servem para o utilizador configurar
112. Measure T Avaliador Prof Joaquim Ferreira da Silva para o Least Median Rvar O c lculo da estat stica Kappa nesta medida resultou num valor de 0 296536796536796 o que d aproximadamente 26 65 de concord ncia o que considerado consider vel pela Tabela 2 4 As matrizes de confus o necess rias para o c lculo deste valor s o apresentadas na sec o 8 15 3 134 4 3 4 Least Median MI fponimens 1 20027037540070 appointments 41 200270437540970 33 709312176169890 33 709312176169890 Tabela 4 32 Lista de Termos para a medida Least Median MI para o ficheiro en 320060804 01 html NA mesma medida que 0 Least Median Rvar tamb m o Least Median MI apresenta melhores resultados que a sua medida base Podemos observar pela tabela anterior uma hierarquiza o dos resultados se bem com algumas repeti es de pesos que resulta em parte do operador Least Mas se observarmos a Tabela 8 57 presente na sec o 8 18 2 constatamos a uma atribui o de peso igual a todos os termos 135 Precision Total Threshold Precision NearGood Precision Recall F Measure 5 025 of 025 0 045454545454545 0 076923076923077 0 125 0 045454545454545 0 066666666666667 0 333333333 0 583333333 0 136363636363636 0 176470588235294 0 1875 ois 0 4375 0 136363636363636 0 157894736842105 Tabela 4 33 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median MI Precision Tot
113. Metric 5 10 15 20 mi 04023458369 0 023458369 0 029013924 0 029013924 Tabela 8 60 Cobertura m dia para todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes 245 8 24 Graficos das Precis es para o Avaliador Prof Joaquim Ferreira da Silva para 0 documento en_32006Q804_01 html Precisions for Document en_32006q0804_01 txt From Evaluator jfs For Metric phisquare 5 6 7 8 9 0 u 2 B 4 1 16 7 B mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 57 Valores de Precis o Cobertura e F Measure para Phi Sguare Precisions for Document en 32006q0804 01 txt From Evaluator jfs For 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 5 16 7 B mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 58 Valores de Precis o Cobertura e F Measure para Least Tf Idf Precisions for Document en 32006q0804 01 txt From Evaluator jfs For Metric least median rvar 0 75 i 0 50 Values 0 25 0 00 5 6 7 8 9 0 u 2 B 4 15 16 7 B mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 59 Valores de Precis o Cobertura e F Measure para Least Median Rvar 246 Precisions for Document en_32006q0804_01 txt From Evaluator jfs For Metric least_median_mi 5 6 7 8 9 0 u B 4 5 6 7 B Steps
114. Na seguinte tabela podemos ver uma representa o de uma matriz de confus o para dois avaliadores sobre um dado documento Avaliador 1 GD NGD BD U NE Total linha GD 2 U O 1 0 3 D NGD U U 0 0 0 0 o E BD 0 0 1 0 0 1 E U U U 11 0 2 NE U U 0 0 0 0 Total Col 2 0 2 121 O 6 Tabela 2 2 MCRV Matriz Confus o com resultados verificados entre dois avaliadores Onde na diagonal principal podemos encontrar o n mero de avalia es comuns entre os dois avaliadores para aquele documento Por cada linha por exemplo para a primeira linha deve se fazer a seguinte leitura Posi o 1 1 N mero de termos avaliados como Good Descriptors por ambos os avaliadores Posi o 1 2 N mero de termos avaliados como Good Decriptor pelo avaliador 2 mas como Near Good Desciptor pelo avaliador 1 e Posi o 1 3 N mero de termos avaliados como Good Decriptor pelo avaliador 2 mas como Bad Desciptor pelo avaliador 1 e Posi o 1 4 N mero de termos avaliados como Good Decriptor pelo avaliador 2 mas como Unknown pelo avaliador 1 e Posi o 1 5 N mero de termos avaliados como Good Decriptor pelo avaliador 2 mas como No Evaluation pelo avaliador 1 Para as restantes linhas e colunas deve se fazer leitura id ntica Sendo que no caso das colunas deve se fazer a leitura para o avaliador 1 em fun o do avaliador 2 Tendo obtido a
115. NearGood Precision Recall F Measure 0 4 0 033333333333333 0 057142857142857 0 100000000000000 0 150000000000000 15 0 266666667 0 266666667 0 533333333 0 133333333333333 0 177777777777778 0 133333333333333 0 160000000000000 Tabela 4 12 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median MI Para esta medida os autores tem um valor de concord ncia de 0 0196 o que d aproximadamente 1 96 o que de acordo com a tabela de concord ncia apresentada na sec o 2 8 3 temos uma concord ncia ligeira 120 4 1 5 Least Bubbled Median Phi Square No caso desta medida a listagem de termos que foi apresentado aos avaliadores a seguinte Termos Valores da Medida continua profissional rofissional continua orma o profissional empresas m es amostragem amostrais empresarial orma o profissional cont nua forma o vari veis chave vari vel chave cursos vari vel base orma o no desempenho empresarial imputa es amostra empresas rofissional nas empresas orma o profissional nas empresas 0 025191971967832 Tabela 4 13 Lista de Termos para a medida Least Bubbled Median Phi Sguare para o ficheiro pt 32006R0198 html cursos de forma o profissional cont nua amostragem inclu das na amostra cursos internos de forma o empresas nos estratos de amostragem forma o profissional cont nua da empresa semelhan a do que j
116. No cap tulo 4 ser o apresentados e comentados os resultados obtidos pelas v rias m tricas e as suas variantes comparando os com os resultados obtidos com a implementa o dos outros m todos analisados neste trabalho Finalmente no cap tulo 5 ser o apresentadas as conclus es e o trabalho futuro 35 36 Capitulo 2 Estado da arte Nos ltimos anos houve um aumento de import ncia e de necessidade de an lise e compreens o autom tica do conte do de textos dado o crescimento enorme da informa o em suporte digital e da necessidade de se ter acesso f cil informa o neles contida considerada necess ria e adequada Este factor levou ao aumento da utiliza o de diversas ferramentas e metodologias desenvolvidas para ajudar na resolu o do problema de processamento de documentos de texto visando diversas aplica es de que destaco a classifica o autom tica o reconhecimento de entidades com nome named entities a sumariza o de documentos o agrupamento de documentos a indexa o de documentos e a recupera o de informa o Neste cap tulo referencio v rios trabalhos de forma faseada de diversos autores realizados nas reas de aplica o j mencionadas no cap tulo 1 da Introdu o designadamente representa o de documentos descritores de documentos entre outros Trabalhos que no seu conte do fazem uso da extrac o e da identifica o de termos com import ncia sendo esta parte sempre uma co
117. R FICOS DAS PRECISOES PARA O AVALIADOR PROF GABRIEL LOPES PARA O DOCUMENTO PT 32006R0198 HTML sese 199 8 6 GR FICOS DA PRECISAO TOTAL PARA TODOS OS DOCUMENTOS EM PORTUGUES AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES n nnossssssoeeeonnsssssseeresessssssserreeess 201 8 7 GR FICOS DA PRECIS O TOTAL VERSUS MEDIA DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM PORTUGUES AVALIADOS PELO AVALIADOR PROF GABRIEL LOPES 203 8 8 TABELA DA PRECISAO TOTAL MEDIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIACAO DOS DOCUMENTOS EM PORTUGUES PELO AVALIADOR PROF GABRIEL LOPES 206 8 9 TABELA DA COBERTURA MEDIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM PORTUGU S PELO AVALIADOR PROF GABRIEL LOPRS 207 8 10 GR FICOS DAS PRECIS ES PARA O AVALIADOR PROF JOAQUIM FERREIRA DA SILVA PARA O DOCUMENTO PT_32006R0198 HTML x uessienirecseei ses iToniva veias Tava ii amas sia kase una a 208 8 11 GR FICOS DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM PORTUGUES AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SINA 211 8 12 GR FICOS DA PRECIS O TOTAL VERSUS M DIA DA PRECIS O TOTAL PARA TODOS OS DOCUMENTOS EM PORTUGU S AVALIADOS PELO AVALIADOR PROF JOAQUIM FERREIRA DA SILVA 213 8 13 TABELA DA PRECIS O TOTAL M DIA PARA TODAS AS MEDIDAS RESULTANTE DA AVALIA O DOS DOCUMENTOS EM PORTUGU S PELO AVALIADOR PROF JOAQUIM FERREIRA Eeselen bereien teen enker hada ia PPA ENTE Ada dalo bbs RE 215 8 14 TABELA DA COBERTURA M DIA PARA
118. Tendo esta base os autores aplicam ent o a Latent Semantic Indexing 41 que uma t cnica para extrair background Knowledge a partir de documentos de texto Usa uma t cnica da lgebra linear denominada de SVD Singular Value Decomposition e um saco de palavras para detectar palavras com significados similares o que segundo os autores tamb m pode ser visto como a extrac o de conceitos com sem ntica escondida ou t picos de documentos Em simult neo tamb m utilizam o K Means Clustering 41 para particionar dados com o objectivo de que cada Cluster contenha apenas pontos que s o similares de acordo com alguma m trica pr definida No contexto de texto isto pode ser visto como encontrar grupos de textos similares ou seja documentos que partilhem palavras similares Os autores usam dois m todos O primeiro visa extrair t picos utilizando vectores de centr ides sendo um centr ide a m dia do somat rio de todos os vectores dentro do t pico E o segundo m todo baseia se segundo os autores no trabalho de 43 utilizando o classificador bin rio Support Vector Machines 44 A diferen a na utiliza o destes dois m todos utilizados pelos autores a de que uma leva em linha de conta o contexto do t pico enquanto que a outra n o Ambas diferem das medidas utilizadas nesta tese apesar de partilharem um objectivo comum o de encontrar palavras chave 2 6 4 Povoamento de Ontologias Uma outra maneira de trabalhar com ont
119. a Phi Squar como limite 20 ireset errre ienr n eE ainen SEESE rE SSPE aU nad 250 Figura 8 71 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Sguare com o limite 5 0 0 0 eee eee 250 Figura 8 72 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 251 Figura 8 73 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 3 251 Figura 8 74 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 1 T 251 Figura 8 75 Valores de Precis o Cobertura e F Measure para Phi Square 263 Figura 8 76 Valores de Precis o Cobertura e F Measure para Least T Idf 263 Figura 8 77 Valores de Precis o Cobertura e F Measure para Least Median Rvar 263 Figura 8 78 Valores de Precis o Cobertura e F Measure para Least Median MI 264 Figura 8 79 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi 23 Figura 8 82 Precis o total para todos os documentos em Checo para a medida Least Tf Idf Figura 8 85 Precis o total para todos os documentos em Checo para a medida Least Bubbled Median Phi Square iijcci cissises cosavsdestuvesascaadeai estanyaascaadgaseveadweaseaadsacvesseessbeaadsadesevevers 266 Figur
120. a 8 86 Precis o total para todos os documentos em Checo para a medida Least Bubbled MedianiR Var asas es tera das sedoso audi vies eb teh cadtecaveedee edocs weds wees Vodu bod esa wees a duos l idos 266 24 Glossario Bag of Words Saco de Palavras BigramaS Sequ ncia de dois elementos de texto normalmente palavras Cluster Grupo Classe Clustering Agrupamento m todo n o supervisionado de identifica o de grupos ou classes Corpus amp Colec o de textos provenientes de uma ou v rias fontes distintas Corpora amp M ltiplas colec es de textos Plural de corpus Formal Concept Analysis FCA An lise Formal de conceitos Information Retrieval amp Recupera o de Informa o Lattice Malha Lemmatization Lematiza o Links Ligac es Longest Common Prefix LCP Prefixo comum mais longo Multipalavra Sequ ncia de duas ou mais palavras normalmente com significado e qual se pode atribuir uma classe sint ctica Mutual Information Informa o M tua N grama de Palavras amp Sequ ncia de n palavras Named Entities Entidades com nome Noun Phrases Sintagmas nominais POS Tagging Part of Speech Tagging Etiquetagem morfo sint ctica 25 POS Tag Part of Speech Tag Etiqueta morfo sint ctica Query Pedido de informa o na rea de recupera o de informa o Stop Words amp Palavras funcionais desprovidas de significado artigos preposi es S
121. a W w1 Wp uma multipalavra Ent o Least Bubbled Rvar W Min Bubbled_Rvar w Bubbled Rvar w 3 17 3 2 3 3 Least Bubbled Chi Square Seja W uma palavra e P ou um prefixo dessa palavra Recorrendo a 3 13 obtemos Bubbled_ChiSquare W ChiSquare P E aplicando a defini o presente em 3 3 seja W wy Wp uma multipalavra Ent o Least Bubbled ChiSquare W Min Bubbled_ChiSquare w Bubbled ChiSguare w 3 18 3 2 3 4 Least Bubbled Phi Square Seja W uma palavra e P ou um prefixo dessa palavra Recorrendo a 3 14 obtemos Bubbled_PhiSquare W PhiSquare P E aplicando a defini o presente em 3 6 seja W wy Wp uma multipalavra Ent o 98 Least Bubbled PhiSquare W Min Bubbled_PhiSquare w Bubbled PhiSquare w 3 19 3 2 3 5 Least Bubbled Informa o M tua 3 2 4 Seja W uma palavra e P ou um prefixo dessa palavra Recorrendo a 3 15 obtemos Bubbled MI W MI P E aplicando a defini o presente em 3 8 seja W wy Wp uma multipalavra Ent o Least Bubbled MI W Min Bubbled MI w Bubbled MI w 3 20 Medidas Least Median Esta variante foi pensada para fazer uma compara o com a ideia expressa por J F Silva em 7 que a Mediana de express es relevantes faz com que express es com maior mediana sejam melhor pontuadas A ideia que guia esta medida a de aplicar a defini o da opera o Least sec o 3 2 1 e depois multiplicar este valor pela m
122. a um nome pr prio como seria o caso de DMA atr s No trabalho 24 o dom nio das not cias abordado tamb m numa perspectiva explicitamente declarada pelos autores de usar ferramentas lingu sticas para extrair automaticamente palavras chave Estas ferramentas v o desde etiquetadores e analisadores morfol gicos para as l nguas que os autores querem usar stemmers para reduzir palavras que diferem apenas pelos seus sufixos a um radical comum Usam ainda etiquetadores morfo sint ticos para identificar padr es de etiquetas de palavras em queries e em documentos como por exemplo a etiqueta NN Noun Noun Utilizam tamb m analisadores sint cticos ou segmentadores para identificar elementos fr sicos ou multipalavras e ainda l xicos sem nticos e heuristicas para reconhecimento de entidades com nome A utiliza o destas ferramentas tornam obviamente este trabalho extremamente dependente da l ngua dos documentos a tratar Apesar disso os autores definem palavras chave como sendo uma palavra simples provavelmente nomes ou multipalavras Existem outras metodologias que est o geralmente associadas a ontologias estejam estas especificadas partida ou n o sendo o seu principal objectivo obter um modelo representativo do dom nio espec fico em quest o Podemos ver o trabalho realizado em 25 o qual permite proceder an lise de emails que tenham a proveni ncia de contactos n o conhecidos e da marcar es
123. a_sufArray SuffixArray jsarrayString JNIEnv env jclass junk jstring s0 jintArray a0 jint n const jbyte s env gt GetStringUTFChars env s0 0 jint a env gt GetIntArrayElements env a0 0 int r bsarray s a n env gt ReleaseStringUTFChars env s0 s env gt ReleaseIntArrayElements env a0 a 0 CLASS sufArray SuffixArray Method jlcp Signature ILjava lang String II V R JNIEXPORT void JNICALL Java sufArray SuffixArray jlcp JNIEnv env jclass junk jintArray a0 jstring sO jintArray b0 jint n const jbyte s env gt GetStringUTFChars env s0 0 jint a env gt GetIntArrayElements env a0 0 jint b env gt GetIntArrayElements env b0 0 lcpa a s b n env gt ReleaseStringUTFChars env s0 s env gt ReleaseIntArrayElements env a0 a 0 env gt ReleaseIntArrayElements env b0 b 0 e sufArray SuffixArray Method JSUftixsort Signature I IILI V JNIEXPORT void JNICALL Java sufArray SuffixArray jsuffixsort JNIEnv env jclass junk jintArray al jintArray bl jint n jint k jint 1 jint a env gt GetIntArrayElements env al 0 jint b env gt GetIntArrayElements env bl 0 suffixsort a b n k l env gt ReleaseIntArrayElements env al a 0 env gt ReleaseIntArrayElements env bl b 0 ifdef cplusplus endif end
124. abelas e gr ficos resultantes da an lise das avalia es feitas por v rios avaliadores a termos de v rios documentos 8 1 C lculos da Estat stica Kappa entre Prof Joaquim Ferreira da Silva e o Prof Gabriel Lopes para o documento pt 32006R0198 html 8 1 1 Kappa para a Medida Phi Square Este c lculo refere se medida Phi Square para o documento pt 32006R0198 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Descript Bad No Line Descriptor or Descriptor Unkown Evaluation Total Good Descriptor 9 0 1 1 0 11 E Near Good S Descriptor 0 0 5 0 0 5 Bad Descriptor 0 0 9 0 0 9 lt Unkown 0 0 0 0 0 0 No Evaluation O U U U U U Column Total 9 0 15 1 0 25 Tabela 8 1 Matriz Confus o de Resultados Verificados para Phi Square 77 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 177 Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 3 960 0 000 6 600 0 440 0 000 10 900 5 Near Good E Descriptor 1 800 0 000 3 000 0 200 0 000 5 000 S Bad Descriptor 3 240 0 000 5 400 0 360 0 000 9 000 S Unkown 0 000 0 000 0 000 0 000 0 000 0 000 No Evaluation 0 000 0 000 0 000 0 0
125. ac o Mas no trabalho que desenvolvemos como tratamos palavras e multipalavras em simult neo a escolha do uso da mediana recai sobre a an lise do trabalho 7 onde o uso da mediana foi tamb m testado e Outra situa o adv m de como poder amos relacionar os prefixos e as palavras o que levou ao Bubbling ver sec o 0 processo de atribuir a uma palavra o valor da medida tida pelo prefixo da palavra Em resumo o trabalho 1 despoletou a necessidade de comparar exaustivamente v rias m tricas Tf Idf Phi Square Rvar e Informa o M tua v rias representa es dos documentos palavras multipalavras e prefixos e medir a precis o e a cobertura atingidos por cada uma dessas m tricas e das variantes criadas Um outro trabalho 16 tem como um dos componentes a extrac o de descritores de documentos mas sendo que aqui n o s o utilizadas multipalavras como no trabalho anterior mas sim noun phrases Neste trabalho os autores prop em uma t cnica para seleccionar automaticamente sintagmas nominais noun phrases como descritores de documentos para conseguirem construir uma FCA Based IR Framework onde FCA 17 significa An lise Formal de Conceitos Formal Concept Analysis e IR Framework sugere que o trabalho feito no mbito da recupera o de informa o A proposta que os autores apresentam composto por cinco passos e O texto dos documentos e dos pedidos de informa o s o
126. adores A primeira coisa que pedida a um avaliador que se identifique Um exemplo pode ser visto na sequ ncia de Figuras 7 14 e 7 15 Name Name Figura 7 14 Componente para o avaliador se identificar Figura 7 15 Componente onde o avaliador se identificou Ao fazer p Set do seu nome o avaliador desbloquear o bot o ver Figuras 7 16 e 7 17 que o ir permitir ver os resultados para um determinado documento seleccionado ver Figura 7 18 163 Listing of Files to Evaluate pt 32006H0952 txt pt 3200601719 txt pt 32006D0291 txt pt 32006D0644 txt pt 32006H0961 txt pt 32006H0952 txt pt 32006H0952 txt pt 32006D1719 txt pt 3200601719 txt pt 32006D0291 txt pt 3200600291 txt pt 3200600644 txt pt 32006D0644 txt pt 32006H096 L txt pt 32006H0961 txt Clear Results See Results Clear Results See Results Figura 7 16 Componente com Lista Figura 7 17 Componente com Lista Inicial de documentos Inicial de documentos bot o See Results activo Clear Results See Results Figura 7 18 Componente com Lista Inicial de documentos com um documento seleccionado Estando um avaliador no estado presente na Figura 7 18 ao clicar no bot o See Results o avaliador ver listagem de termos para o documento seleccionado como podemos ver na Figura 7 24 Ao clicar no bot o Clear Results o avaliador ir limpar a tabela de resultados volt
127. al EA E n E Recall F Measure 04 4 0 034482758620690 0 058823529411765 a 88 8 0 137931034482759 0 205128205128205 0 533333333 0 21 0 733333333 0 275862068965517 0 363636363636364 20 Wal 03 0 751 0 300000000000000 0 360000000000000 Tabela 4 34 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median MI O valor Kappa obtido de 0 258474576271186 o que d aproximadamente 25 84 de concord ncia o que considerado consider vel pela Tabela 2 4 As matrizes de confus o necess rias para o c lculo deste valor s o apresentadas na sec o 8 15 4 136 4 3 5 Least Bubbled Median Phi Sguare 8 0 032726345536657 bureau and the governing 0 030708968986344 0 026998166150939 0 023633032442703 0 023119033314776 chairperson considers that a motion 0 020256884950889 meeting Tabela 4 35 Lista de Termos para a medida Least Bubbled Median Phi Sguare para o ficheiro en 320060804 01 html Precision Threshold Precision NearGood Precision Recall F Measure nal O 0 6 0 136363636363636 0 222222222222222 5 aof 06 o 0 6 0 27272727272727310 375000000000000 as 06 O 0 6 0 409090909090908 0 486486486486486 20 055 0 05 0 6 0 500000000000000 0 523809523809524 Tabela 4 36 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square 137 Precision Total Threshold Pre
128. al Precision AVG 20 Figura 8 70 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Sguare com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric least bubbled median phisquare 1 00 she ep 0 75 w 0 50 gt 0 25 0 00 G A A As n o oo E py gD v o A ef ga pb oe on Er ae 3 ae a sn sn et eD et Documents E Total Precision 5 Total Precision AVG 5 Figura 8 71 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 5 250 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator jfs For Metric least_bubbled_median_phisquare 1 00 49 S GI sp a P EI E o Er d e7 et et eD et Documents E Total Precision 20 Total Precision AVG 20 Figura 8 72 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric least_median_rvar 1 00 0 75 a 0 50 gt 0 25 0 00 G L a s n o ge AME eo of adi ED ef ai oP oo El ab ogo em 2 en et eD et Documents E Total Precision 5 Total Precision AVG 5 Figura 8 73 Precis o total vs Precis o Total M dia para todos os documentos para a medida
129. aliac o dada ao Valor da Medida termo pelo Avaliador mnohojazy nosti good topic descriptor mnohojazy nost good topic descriptor podskupiny near good descriptor nep slu bad descriptor neexistuje bad descriptor podskupiny budou rozpu t ny bad descriptor rozpu t ny bad descriptor vyzrazeny bad descriptor podskupin near good descriptor podskupiny nesm j b t vyzrazeny bad descriptor nep slu odm na bad descriptor nedodr bad descriptor pozorovatel m near good descriptor zabezpe uje bad descriptor pozorovatele near good descriptor vlivech bad descriptor t matem bad descriptor dod vat bad descriptor od vat nov podn ty a n pady bad descriptor n pady bad descriptor usoud bad descriptor uhrad bad descriptor limit bad descriptor z dit bad descriptor odm na bad descriptor Tabela 8 68 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Bubbled Median Rvar 259 8 30 Lista de Termos Apresentados aos Avaliadores para outras medidas 8 30 1 Rvar Termos Medida 1 00 vhodn v ur it ot zce ele m o le le l o O LGG l Ea l lG l et o le IO p podskupiny obvykle zasedaj zb vaj c st sv ho funk n ho mnohojazy nost v souladu se sd len m rozvrhem stanoven mi komis pa ojojo Mivech vlivech pom hat poskytovat podporu a poradenstv
130. alor de Kappa Concord ncia lt 0 N o existe concord ncia O 0 20 Ligeira 0 21 040 Consideravel 0 41 0 60 Moderada 0 61 0 80 Substancial 0 81 1 Excelente Tabela 2 4 Valores de K com a medida Estat stica Kappa 2 9 Suffix Arrays 88 Text Mining a partir de texto n o estruturado requer o uso de grandes quantidades de texto e o uso de estruturas suficientemente poderosas para a determina o das frequ ncias de qualquer cadeia de caracteres para indexa o de textos completos para reconhecimento de padr es e para extrac o eficiente de cadeias de caracteres Suffix arrays 47 introduzida inicialmente como uma t cnica de indexa o de base de dados uma estrutura que tem sido bastante estudada ao longo das duas ltimas d cadas capaz de suportar os requisitos acima descritos visto que facilita a computa o do c lculo da frequ ncia e da localiza o de qualquer sub cadeia de caracteres um n grama de caracteres de palavras e de multipalavras numa sequ ncia longa de texto corpus Yamamoto e Church 8 est o entre v rios autores que utilizam esta estrutura para a determina o de frequ ncias de termos e de documentos para todos os n gramas de dois grandes reposit rios de texto Seguidamente fazem uso destas frequ ncias para calcular a Informa o M tua Mutual Information MI entre palavras para extra rem bigramas de palavras altamente coesos candidatos a serem ou n o mult
131. alues 5 6 7 8 9 0 u 2 B 4 5 6 7 B Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 23 Valores de Precis o Cobertura e F Measure para Least Median Rvar Precisions for Document pt 32006r0198 txt From Evaluator jfs For Metric least median mi 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 5 16 7 B 1 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 24 Valores de Precis o Cobertura e F Measure para Least Median MI Precisions for Document pt_32006r0198 txt From Evaluator jfs For Metric least_bubbled_median_phisquare 5 6 7 8 9 0 u 2 B 4 5 6 7 B 19 Steps 5 10 15 20 Precision Precision Near Good Total Precision Recall F Measure Figura 8 25 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Sguare 209 Precisions for Document pt_32006r0198 txt From Evaluator jfs For Metric least_bubbled_median_rvar 5 6 7 8 9 0 u 2 B 4 5 6 7 B Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 26 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar 210 8 11 Graficos da Precis o Total para todos os documentos em portugu s avaliados pelo Avaliador Prof Joaquim Ferreira da Silva Overall Total Precision for All Files From Evaluator jfs For Met
132. am muitas semelhan as em termos da precis o dos documentos em rela o m dia J na sec o 8 8 podemos ver a m dia de precis o total para todas as medidas desenvolvidas nesta disserta o pelos resultados das avalia es do avaliador Prof Gabriel Lopes Na qual podemos constatar que os resultados para as medidas base Rvar e MI bem como algumas variantes destas mesmas medidas com excep o das que foram obrigatoriamente avaliadas n o apresentam resultados Isto deve se aos maus resultados produzidos por estas medidas Como podemos ver na Tabela 8 25 e na Tabela 8 26 de termos apresentados aos avaliadores para a medida Rvar e MI respectivamente verificamos que n o apresentam muitos termos em comum com as 125 suas variantes Tabela 4 7 Tabela 4 10 e Tabela 4 16 da a propaga o de avalia es de poss veis termos comuns torna se impratic vel Outra leitura que podemos constar da Tabela 8 25 e da Tabela 8 26 a incapacidade do Rvar e do MI de conseguirem fazer uma diferencia o de termos Todos os termos tem o mesmo valor de medida isto torna uma hierarquiza o de termos imposs vel pelo seu peso O avaliador Prof Joaquim Ferreira da Silva avaliou uma amostra de cinco documentos As precis es totais m dias obtidas para as medidas que foram avaliadas na totalidade pode ser visto na seguinte Tabela 4 20 Podemos observar tamb m que em m dia a precis o total mais elevada para todos os limites conside
133. ando ao estado inicial como se pode ver na Figura 7 23 Ao clicar num documento o avaliador vai desbloquear os bot es que permitem ver o conte do dos documentos ver Figura 7 22 que inicialmente est o bloqueados como se pode ver na Figura 7 21 Na Figura 7 19 onde poss vel a um avaliador mudar a l ngua dos documentos que est avaliar Se mudar para EN a listagem apresentada na Figura 7 16 ser populada com os documentos em ingl s que foram processados pelo prot tipo Please Select the Language to Evaluate PT MEN CCS Figura 7 19 Componente para mudar a lingua dos documentos a avaliar 164 J na Figura 7 20 oferecida a possibilidade de o avaliador ver os resultados s com palavras ou s com multipalavras Mas a avalia o de resultados s permitida para palavras e multipalavras em simult neo Essa avalia o feita utilizando os bot es apresentados na Figura 7 25 Please Select What to Evaluate O Words MultiWords 5 MultiWords 7 Words Figura 7 20 Componente para escolher gue tipo de resultados ver Palavras Multipalavras ou Ambos m m Du bi o m m B j m x View Treated Text View Original Text Figura 7 21 Bot es para ver o texto do documento tratado Figura 7 22 Bot es para WE 9 texto do documento tratado Ge ou original activos ou original Na figura seguinte podemos ver a tabela onde os termos ser o apresentados para serem avaliados co
134. antes s o as medidas que produzem resultados O Chi quadrado semelhante ao Phi quadrado e para efeitos de avalia o d os mesmos resultados que o Phi quadrado 29 mais interessantes Mais informa o ser encontrada no Capitulo 3 1 1 Motiva o 30 Ao pretender extrair tamb m as palavras que caracterizam o conte do de qualquer documento pretendi estender o trabalho realizado por J F Silva e Lopes 1 a este tipo de unidade textual e comparar os resultados obtidos em 1 com os que obtive ao longo deste trabalho Vi esta necessidade porque algumas vezes uma boa palavra pode ser um descritor altamente objectivo do conte do concreto de um documento como j mencionado no in cio da Introdu o multilinguismo uma palavra mas denota o conte do de um dos documentos estudados de uma forma inequ voca Uma outra ideia que contribui para a elabora o desta disserta o e tamb m estendendo o trabalho 1 foi o de usar prefixos de palavras como poss veis descritores de documentos e a rela o destes com as palavras Veja se o caso do prefixo multi que ao ser prefixo de multilinguismo tamb m prefixo de multilinguista multilinguistas multilculturais O que nos deu a ideia de propagar o valor da medida de import ncia do prefixo atribuindo o s palavras que fossem iniciadas por esse prefixo A este processo foi dado o nome de Bubbling como se fiz ssemos bor
135. ar zp sobilost v oblasti mnohojazy nosti v E lt S a B T N lt o CH a lt C2 S CH E o a gt E B E CH ic E 5 256 8 29 4 Least Median MI a gen Sa Termos Valor da Medida termo pelo Avaliador zpusobilosti v oblasti mnohojazy nosti 45 763646135770060 bad descriptor 44 623363444323815 bad descriptor spravov no adem pro edn tisky 43 889423070017045 bad descriptor Tabela 8 66 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Median MI 257 8 29 5 Least Bubbled Median Phi Square Avaliac o dada ao Termos Valor da Medida termo pelo Avaliador 0 168306300320869 good topic descriptor AE 157085880299478 LS topic descriptor podskupiny E E tor E criptor E fp o oaszesas 108914 pad deseripor skupina _ 0 04526848 1108914 bad descriptor 4 E s mat skupina a _ 0 033471044016537 E near go 0 011201716547091 bad descriptor EE p id lily p slu n gt 0 01 TE F descriptor N oa descriptor 0 009334763789243 bad descriptor 0 009334763789243 bad descriptor Tabela 8 67 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Bubbled Median Phi Square 258 8 29 6 Least Bubbled Median Rvar Av
136. ara o Least Median VAC aa saque 25s deka alela a ana a eae 134 Tabela 4 32 Lista de Termos para a medida Least Median MI para o ficheiro en 320060804 OL html iscsesigsaicasivasvsianyesssoagysancdanqactvaanecsovanayoiseeadvalovsesneenesadesensdeveacteeadoneys 135 Tabela 4 33 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median ML asgegassgdgozs eating tada delas ea ata ois dada 136 Tabela 4 34 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median ME acres data ae AS ga NG AN Aga oa 136 Tabela 4 35 Lista de Termos para a medida Least Bubbled Median Phi Square para o ficheiro enc3 20060804 DA EE 137 Tabela 4 36 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square erre 137 Tabela 4 37 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Phi Square sees eee 138 Tabela 4 38 Lista de Termos para a medida Least Bubbled Median Rvar para o ficheiro en 320060Q804 01 AtW EE 139 Tabela 4 39 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median R Var sss 139 Tabela 4 40 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Rat 140 Tabela 4 41 Precis es Totais m dias
137. as chave importante independentemente de serem s palavras ou multipalavras O nosso objectivo nesta tese o de trabalhar quer com palavras quer com multipalavras acrescentando ainda o uso de prefixos de palavras Esta op o deve se ao facto de se pretender trabalhar tamb m com l nguas morfologicamente ricas Por exemplo em checo a palavra mesa se utilizada como sujeito tem uma forma se for utilizada como complemento directo tem outra e se for considerada como o objecto indirecto ainda tem outra para al m da possibilidade de utiliza o de mais quatro casos perfazendo sete no total E estas palavras posteriormente extra das podem ser utilizadas como etiquetas de poss veis clusters como descritores do conte do de documentos como poss veis t picos a serem incorporados numa ontologia 2 8 Medidas de Avalia o de Resultados 2 8 1 Precision e Recall A Precision e o Recall s o duas medidas estat sticas que trabalham com informa o bin ria e servem para avaliar a qualidade dos resultados obtidos em dom nios tais como a Recupera o de Informa o Text Mining Data Mining etc http wordnet princeton edu 83 84 As suas express es s o as seguintes Si H termos relevantes n consideradospeievantes Precision a 2 42 consideradOS elevantes H termoSreievantes n consideradosSpeievantes Recall YY OY L 2 43 HLETMOSrelevantes onde termoS eievant
138. as pastas onde est o localizados os textos necess rios para o funcionamento do prot tipo Set Source Folder for Portuguese Corpus Corpus pt txt fixed txt Set Source Folde for English Corpus Corpus en txt fixed txt Set Source Folde for Check Corpus Corpus cs_txt fixed_txt Figura 7 8 Componentes onde se define a localiza o dos textos que far o parte do corpus nas diferentes l nguas Set Source Folder for Portuguese MultiWords Corpus pt_txt multiWords MultiWordsList_PT_5_nagrama_ txt Set Source Folder for English MultiWords Corpus en txt multiWords MultiWordsList EN 5 ngrama txt Set Source Folder for Check MultiWords Corpus cs txt multiWords MultiWordsList CS 5 ngrama txt Figura 7 9 Componentes onde se define a localiza o dos ficheiros com as multipalavras dos textos tratados das diferentes l nguas 161 Set Folder for Evaluators Outputs EvalResults Set Folder for Plots Outputs Plots Orignal Files Folder OriginalTexts texts Figura 7 10 Componentes de configura o das pastas de output e localiza o dos textos originais Tendo o utilizador configurado o que ache necess rio ter de fazer Set Configurations Ap s isso haver uma transi o de estado dos bot es que lan am as outras duas componentes do prot tipo Set Configurations Set Configurations h Back Office App Launch Back Office App 2 Fi 7 12 Bot l Aplica Figura 7 1
139. ast_median_rvar 0 462962963 0 355202822 0 347985348 0 345351328 least bubbled tf idf 0 861111111 0 710582011 0 651890085 least_bubbled_median_mi 0 516666667 0 47808642 0 444120694 0 432757547 least median phisquare 0 611111111 0 63505291 least phisquare 0 683333333 63968254 0 618270618 0 64977531 0 58006993 0 593688097 0 59459922 least median mi 0 424074074 0 353968254 0 351628002 0 334064942 bubbled_rvar NA least_tf_idf least_bubbled_median_tf_idf 0 833333333 0 696604938 0 678927554 0 684558493 least bubbled median phisquare 0 622222222 0 613580247 0 62049062 0 626377422 V A 347354497 0 315756898 0 638888889 0 660978836 0 640761091 0 645621202 tf_idf 0 694444444 0 702469136 0 709427609 0 659259259 least_bubbled_mi least_mi 0 N 0 N N N N least_rvar 0 least bubbled rvar N N N N x bubbled_mi IA IA wi lt ba NIA NIA NIA NIA NIA NIA 0 N A N A N A N A N A N A N A NA Jus Jus O 0 347322555 bubbled_tf_idf 0 824074074 0 687654321 0 682299182 0 662905709 Tabela 8 28 Precis o total m dia para todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes 206 8 9 Tabela da Cobertura M dia para todas as Medidas resultante da Avalia o dos documentos em portugu s pelo Avaliador Prof Gabriel Lopes ee E Metric 5 10 15 20 mi of 0 005555556 _0 021753339 0 029160746 Ta
140. atriz Confus o de Resultados Verificados para Least Bubbled Median Phi 12 Tabela 8 11 Matriz Confus o de Resultados Verificados para Least Bubbled Median Rvar Tabela 8 12 Matriz Confus o de Resultados Esperados para Least Bubbled Median Rvar183 Tabela 8 13 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Phi Square 184 Tabela 8 14 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Least Tf Idf 185 Tabela 8 15 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Least Median Rvar 186 Tabela 8 16 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Least Median MI 187 Tabela 8 17 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R198 html na medida Least Bubbled Median Phi Tabela 8 18 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento pt32006R 198 html na medida Least Bubbled Median Rvar Tabela 8 19 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira
141. ava jdk1 6 0_20 include win32 sarray o scode o ssarray o lcp o qsufsort o sufArray SuffixArray o o libsarray WinVersion dll Real a se aqui a necessidade que houve em ter que se recorrer a uma ferramenta denominada por MinGW que fornece comandos gcc para Windows Isto foi necess rio porque as bibliotecas ao entre si 3 e dll utilizadas em linux e Windows diferem Com estes passos conclu dos atrav s da utiliza o do seguinte m todo poss vel carregar em tempo de execu o a biblioteca so em linux ou a biblioteca d em Windows Loads the C Library to the Java enviornment K public static void loadLibrary String osNam System getProperties getProperty os name if osName contains Linux final String library home luis workspace Tese SuffixArrays src sufArray libsarray so System load library else if osName contains Windows osName contains windows final String library c home luis workspace Tese SuffixArrays src sufArray libsarrayWinVersion ali System load library gt http www mingw org 105 3 4 Extrac o de Palavras e Prefixos A extrac o de palavras e de prefixos do corpus que foi efectuada neste trabalho foi realizada da seguinte forma Primeiro foram lidos todos os ficheiros do corpus para uma vari vel String java onde os textos de cada documento s o separados por uma sequ ncia de
142. avras que n o trazem nenhuma pista sobre o conte do do assunto do documento veja se o caso das variantes da medida Rvar e MI Nas tabelas de termos avaliados pelos avaliadores para estas medidas Least Median Rvar e Least Bubbled Median Rvar que podem ser encontradas nas sec es 8 16 e 8 17 vemos uma predomin ncia de maus descritores semelhan a do que aconteceu com a l ngua Portuguesa tamb m na l ngua Inglesa ouve por parte dos avaliadores duas linhas de racioc nio distintas Por parte do avaliador Prof Joaquim Ferreira da Silva vemos que a clssifica o Near Good 140 descritptor utilizado em mais situa es O que n o observado por parte do avaliador Prof Gabriel Lopes Outra observa o que podemos constatar que as medidas Rvar e MI fazem aparecer praticamente os mesmos termos ver tabelas da sec o 8 18 Podemos ver que o comportamento destas medidas id ntico n o diferenciando pelos pesos os termos apresentados No que diz respeito precis o total m dia obtida para estes avaliadores podemos observar as seguintes tabelas Para o avaliador Prof Gabriel Lopes a amostra de documentos para a m dia de nove documentos J para o avaliador Prof Joaquim Ferreira da Silva a amostra de 5 documentos Least M Least M B Least M B Prec Threshold Phi 2 Least Tf Ifd Rvar Least M MI aa E T Prec Avg 5 0 844444444 0 785185185 0 472222222 0 472222222 oa 0 524074074
143. bela 8 29 Cobertura m dia para todas as medidas resultante da avaliac o do Avaliador Prof Gabriel Lopes 207 8 10 Graficos das Precis es para o Avaliador Prof Joaquim Ferreira da Silva para 0 documento pt_32006R0198 html As seguintes figuras apresentam os gr ficos com as precis es cobertura e F Measure considerados mais demonstrativos e foram obtidas da an lise dos resultados do avaliador Prof Joaquim Ferreira da Silva para 0 documento pt 32006R0198 html Os gr ficos mostram os valores de precis o para 5 10 15 e 20 Precisions for Document pt 32006r0198 txt From Evaluator jfs For Metric phisguare va B a 0 00 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Steps 5 10 15 20 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 21 Valores de Precis o Cobertura e F Measure para Phi Sguare Precisions for Document pt 32006r0198 txt From Evaluator jfs For Metric least tf idf 0 75 o ER 0 50 m F E o er A 0 00 gt 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Steps 5 10 15 20 Values Precision Precision Near Good Total Precision Recall F Measure Figura 8 22 Valores de Precis o Cobertura e F Measure para Least Tf Idf http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 208 Precisions for Document pt_32006r0198 txt From Evaluator jfs For Metric least_median_rvar V
144. bulhar os valores das medidas de relev ncia dos prefixos para as palavras que os cont m Outra situa o que motivou a realiza o deste trabalho foi a de como estender a ideia de Least que em 1 aplicado somente a multipalavras Este processo fez com que admit ssemos e assum ssemos que o Least que em 1 media o valor m nimo de uma medida Rvar das palavras extremas direita e esquerda de uma multipalavra passasse a medir o valor desse medida para a pr pria palavra Ou seja a palavra passou a ser tomada como uma multipalavra cujos extremos s o iguais pr pria palavra Ao utilizar as medidas Tf Idf RVar q e IM ver sec es de 2 3 1 1 a 2 3 1 5 para identificar o grau de import ncia relativamente a cada documento aplicadas n o s a palavras mas tamb m a prefixos e multipalavras e ao utilizar tamb m variantes destas medidas resultantes de conjuga es de formas diferentes de fazer sobressair termos relevantes nomeadamente fazendo uso da t cnica de Bubbling descrita na secc o 3 2 2 fazendo uso da Mediana do comprimento das palavras e das palavras constituintes de multipalavras ver sec o 3 2 4 e 3 2 5 para dar maior diferencia o a esses termos usando a ideia de aplicar o operado Least j referido ver sec o 3 2 1 a todas as m tricas base e aplicando uma combina o entre a m trica base o operador Least e a t cnica de Bubbling ver sec o 3 2 estabeleci assim um campo de
145. c T Prec Avg 5 s A 75 0 45 ous 45 055 T Prec Avg 10 0 7 0 307142857 0 307142857 0 386111111 Sp Co PA EA 15 0 625595238 0 642857143 0 229166667 0 245833333 0 633333333 0 31025641 sia cce 0221529529 022152350 o EA 20 0 605427632 0 607236842 0 221323529 0 221323529 0 5875 0 273529412 Tabela 4 57 Precis es Totais m dias para Checo para o Avaliador Prof Gabriel Lopes Least M Least M B Least M B RecalN Threshold Phi 2 Least Tf Ifd Rvar Least M MI Phi 2 Rvar Recall Avg 5 0 192927171 0 261554622 0 160539216 0 160539216 0 083333333 0 172443978 Recall Avg 10 0 391981793 0 380077031 0 160539216 0 160539216 0 24947479 0 184348739 Recall Avg 15 0 421393557 0 474964986 0 172443978 0 172443978 0 389005602 0 184348739 Recall Avg 20 0 504026611 0 569852941 0 246848739 0 246848739 _0 427521008 0 196253501 Tabela 4 58 Coberturas m dias para Checo para o Avaliador Prof Gabriel Lopes No seguimento do que aconteceu com as outras l nguas utilizadas na experimenta o as medidas com melhores resultados resultantes no caso do Checo da avalia o por parte do avaliador Prof Gabriel Lopes s o novamente o Phi Square o Least Tf Idfe o Least Bubbled Median Tf Idf 150 Capitulo 5 Conclus es e Trabalho Futuro 5 1 Conclus es A aposta na extrac o de prefixos que uma das inova es desta tese trouxe como consequ ncia a obten
146. c o pede se que seja feita na totalidade para 6 medidas nomeadamente as identificadas na Figura 7 27 nomeadamente D Phi e L TfIdf e L M RVAR e L M MI e L B M Phi e L B M RVAR Evalution Buttons Good Descriptor Near Good Descriptor en Bad Descriptor Figura 7 25 Bot es de Avalia o de Termos Results for Doc pt_32006D0644 txt Phi L mier L M RVAR L MM L B M Phi L B M RVAR TFldf and Variants Phi Variants RVAR And Variants MI and Variants Terms Evaluation Value Phi Square Metric Evaluation grupo sera composto por oito 0 001651230706116 o Evaluation publica o dos nomes 0 001651230706116 No Evaluation ipo ser composto 0 001651230706116 No Evaluation cria o grupo de alto 0 001651230706116 No Evaluation sera composto por oito 0 00 1651230706116 No Evaluation respectivo mandato 0 00 1651230706116 No Evaluation membros do grupo 0 00 1615023120618 No Evaluation subgrupos 0 00 1615023120618 No Evaluation membros 0 00 15900 13299582 No Evaluation arupo de alto 0 001427578939140 INo Evaluation nomeados 0 001277643632075 Mo Evaluation a comiss o 0 001269749409912 Mo Evaluation comiss o 0 001189415377657 INo Evaluation alto n vel 0 000828038 104853 INo Evaluation abordagem abrangente do multilinguismo 0 0008256078 19865 No Evaluation podem ser criados subgrupos 0 0005 256075 19865 No Eva
147. cima zoon seria um prefixo de 4 caracteres que gt No trabalho levado a cabo contraria se esta ideia Tf Idf produz bons resultados trabalhando tanto com palavras bem como com multipalavras Talvez este resultado seja consequ ncia dum filtro aplicado que s considera palavras com 6 ou mais caracteres gt No trabalho desenvolvido descrito nesta tese prova se tamb m que as medidas apresentadas pelos autores t m alguma dificuldade em diferenciar bons descritores 28 ocorreria muito mais vezes do que qualquer das palavras isoladas ou das multipalavras que o cont m zonose zonoses zoon tico zoon tica zoon ticos ou zoon ticas ou agentes zoon ticos organismo zoon tico infec es zoon ticas e doen as zoon ticas Em l nguas altamente flexionadas como o Checo em que os nomes podem chegar a ter 14 formas diferentes 7 singulares e 7 plurais uma para cada um dos casos e os adjectivos podem chegar a ter 42 formas diferentes 3 7 singulares e 3 7 plurais uma para cada um dos tr s g neros poss veis masculino feminino e neutro pens mos e comprov mos no trabalho realizado que uma abordagem com base em prefixos de palavras poderia altamente produtiva Se pretend ssemos estender a metodologia a l nguas orientais como o Chin s ou o Japon s trabalhar amos provavelmente com sequ ncias de 2 caracteres eventualmente 3 ou mesmo um nico car cter porq
148. cis es totais m dias ou com a cobertura m dia para um determinado documento e para todas as medidas avaliadas para um avaliador Ver Figura 7 46 e Figura 7 47 For pt 42005x1124 02 txt for Precision with threshold 5given by all Evaluators For Metric phisquare p m na gpl antonio Evaluators Precision 5 Recall for 5 A F Measure Figura 7 42 Gr fico exemplificativo de rela o de valores de precis o e cobertura para um documento e medida para v rios avaliadores 173 Total Precisionwith Threshold 5 for All Files From Evaluator gpl For Metric phisquare 1 0 4 D i os 07 061 051 0 44 D i 0 2 1 0 11 0 0 Value Se en 320 en 320 en 3200 en 3200 en 320 en 3200 en 320 en 320 en 320 Documents E Total Precision 5 e Total Precision AVG 5 Figura 7 43 Gr fico que ilustra rela o da precis o de cada documento com a m dia das precis es para um avaliador e para uma dada medida Threshold Precision Precision near good Total Precision Recall F Measure 5 10 15 20 Save Table Info Figura 7 44 Tabela onde ser o apresentados os valores para a precis o cobertura e f measure Threshold Precision Precision Near Good Total Precision Recall F Measure 5 200000000000000 0 000000000000000 o 200000000000000 0 111111111111111 142857142857143 10 222222222222222 0 000000000000000 0 222222222222222
149. cision NearGood Precision Recall F Measure 0 8 0 010126582278481 0 228571428571429 o o o 0 7 0 015189873417722 0 300000000000000 5 a of os orf 06 0333333333333333 0400000000000000 Tabela 4 37 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Phi Square Dos resultados das avalia es para esta medida podemos constatar que par a ambos os avaliadores a precis o total obtida para ambos cima de 0 6 o que se pode considerar como bom O valor Kappa obtido de 0 578651685393258 o que d aproximadamente 57 86 de concord ncia o que considerado moderado pela Tabela 2 4 As matrizes de confus o necess rias para o c lculo deste valor s o apresentadas na sec o8 15 5 138 4 3 6 Least Bubbled Median Rvar Valor da Medida Tabela 4 38 Lista de Termos para a medida Least Bubbled Median Rvar para 0 ficheiro en_32006Q804_01 html A semelhanca do que acontece com a variante Least Median Rvar tamb m a variante Least Bubbled Median Rvar apresenta melhores resultados em termos da hierarquiza o de termos pelo peso do que a medida base Rvar Precision Total a ee E E Recall F Measure 025 3 o o5 25 0 045454545454545 0 076923076923077 0375 o 0 375 0 136363636363636 0 200000000000000 POE dC 0 136363636363636 0 187500000000000 0 066666667 0 266666667 0 136363636363636 0 162162162162162 Tabela 4 39 Res
150. cript Sequ ncia de instru es a serem executadas sequencialmente String amp Cadeia de caracteres Unidades Lexicais Multipalavra multipalavras termos multipalavra amp multiword units Sequ ncias de palavras que correspondem normalmente a nomes pr prios frases idiom ticas ou coloca es com categoria gramatical Unigramas amp Um elemento de texto normalmente uma palavra Unipalavra amp Uma palavra Tf Idf Term Frequency Inverse Document Frequency amp Frequ ncia do termo Inverso da frequ ncia dos documentos onde o termo ocorre Trigrama amp Sequ ncia de tr s palavras ou mais elementos de texto normalmente palavras Vector Space Model amp Modelo Vectorial 26 Capitulo 1 Introdu o Entende se por t pico ou palavra chave de um documento qualquer palavra ou multipalavra sequ ncia de 2 ou mais palavras que tendo um significado mais ou menos preciso resume em si parte do conte do desse documento de uma dada colec o S o exemplos de t picos altamente correlacionados os seguintes agentes zoon ticos zoonoses zoonose salmonela organismo zoon tico infec es zoon ticas fiscaliza o sanit ria pol cia sanit ria doen as zoon ticas etc Outro exemplo pode ser verificado no ficheiro pt 32006D644 html presente no corpus em portugu s utilizado na realiza o deste trabalho onde verificamos que um t pico altamente relevante a palavras multilinguismo que aparece tamb
151. criptor 7 3 0 0 0 10 T Near Good E Descriptor 4 1 1 0 0 6 Bad Descriptor 1 0 8 0 0 9 lt Unkown 0 0 0 0 0 0 No Evaluation O 0 0 0 0 0 Column Total 12 4 9 0 0 25 Tabela 8 34 Matriz Confus o de Resultados Verificados para Least Tf Idf Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 4 8 1 6 3 6 0 0 10 T Near Good Descriptor 2 88 0 96 2 16 U U 6 Bad Descriptor _ 4 32 1 44 3 24 0 0 9 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 12 4 9 0 0 25 Tabela 8 35 Matriz Confus o de Resultados Esperados para Least Tf Idf Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 4375 o que d aproximadamente 43 75 de concord ncia 9 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML 218 8 15 3 Kappa para a Medida Least Median Rvar Este c lculo refere se medida Least Median Rvar para o documento en 320060804 DI bm Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 3 3 1 2 0 9 Near Good Descriptor 0 1 4 3 0 8
152. cumento Assumindo que esses termos de conte do s o termos de uma ontologia de organiza o que modula esses documentos J em 39 apresentado um m todo para ajudar um Knowledge Enginner a identificar conceitos importantes num determinado dom nio de uma ontologia Que no trabalho do autor s o palavras e multipalavras que transmitem um significado simples ou complexo dentro um determinado dom nio a partir de documentos como p ginas Web O m todo baseia se em duas medidas Relev ncia do Dom nio Domain Relevance DR e Consenso do Dom nio Domain Consensus DC que fornecem a especificidade de um termo candidato a termo do Dom nio Os autores sentiram esta necessidade porque num texto existem termos que podem ser muito frequentes como tempo real ou semana passada mas que s o pouco significativas em termos de descritibilidade dos conceitos do dom nio Por isso os autores criaram a medida de Relev ncia do Dom nio para testar a especificidade de um determinado candidato terminol gico tendo em conta um determinado dom nio E definiram esta medida como P tiD PRED es P t D 2 38 Onde D denota o dom nio i t um termo e sendo a Probabilidade condicional P t D estimada da seguinte forma freq tem Di G em Do 2 39 Onde E denota a estimativa da probabilidade J o Consenso do Dom nio uma medida que mede a distribui o do uso de um termo num determinado domino
153. d o uma boa pista sobre o conte do do documento em causa Veja se por exemplo o termo mais bem classificado forma o profissional cont nua Tendo em considera o a leitura do documento em causa verifica mos que se trata de facto de um documento sobre forma o profissional 114 4 1 2 Least Tf Idf No caso desta medida a listagem de termos que foi apresentado aos avaliadores a seguinte T forma o profissional 0 00959303016959 0 00959303016959 0 00918732962527 forma o espec ficas das pessoas empregadas 0 009174378153781 5 5 5 5 5 3 3 3 3 GE 0 00878788051113 0 00696156770069 SE 1 L 1 1 1 1 1 0 00696156770069 articipantes em forma o profissional 0 00696 156770069 Tabela 4 4 Lista de Termos para a medida Least Tf Idf para o ficheiro pt 32006R0198 html Desta listagem podemos observar que a variante Least Tf Idf apresenta uma certa dificuldade em diferenciar alguns termos sendo que neste caso fruto da defini o de Least Tf Idf Podemos observar na Tabela 4 4 grupos de termos com a mesma pontua o Apesar disso poss vel diferenciar uma certa hierarquiza o nos resultados Em Anexo nas sec es 8 2 2 e 8 3 2 podemos ver como os avaliadores avaliaram esta lista de termos 115 No que concerne aos valores de precis o obtidos para esta medida podemos ver as seguintes tabelas Threshold Precision Precision Total Recall F Measure NearGood Pr
154. do de do documento Pretende se extrair palavras e multipalavras que representem o conte do do documento Constru o de Ontologias Uma ontologia 38 um modelo de dados que representa um conjunto de conceitos dentro de um dom nio e as rela es entre estes normalmente utilizada para fazer infer ncias sobre os objectos do dom nio Em particular uma ontologia de dom nio espec fico uma ontologia que modela um determinado dom nio ou somente parte dele Representa o significado particular de termos no respectivo dom nio Estes termos mesmo sendo extra dos automaticamente t m de ser sempre validados por um perito do dom nio Estes termos geralmente s o palavras com rela es entre si Por exemplo tomemos a palavra carta Uma carta pode ter v rios significados uma ontologia sobre o dom nio poker iria modelar a carta como uma carta de jogo enquanto que uma ontologia sobre comunica o iria dar o significado de documento escrito de uma pessoa para outra O trabalho desenvolvido nesta tese pode extrair os termos mais importantes de um conjunto de documentos de um determinado dom nio e fornecer a um perito do dom nio uma forma mais pr tica de aceder a poss veis termos para enriquecer uma ontologia ou os termos base para a cria o de uma novo ontologia Mas neste caso ter amos de centrar a import ncia das palavras multipalavras e prefixos relativamente aos termos que podem aparecer na meta informa o de um do
155. do de extrac o das caracter sticas sai fora do mbito deste trabalho e n o descrito Caracter stica Descri o W Representa o em caracteres da palavra query Word Indica o se a palavra existe na query N mero de ocorr ncias em que a palavra F Name considerada um nome Numero de ocorr ncias em que a palavra F_Acron l considerada um acr nimo N mero de ocorr ncias em que a palavra S est isolada F Frequ ncia da Palavra Numero de Urls em que a palavra ocorre Numero de palavras contadas WIL imediatamente a esquerda da palavra Numero de palavras contadas WIR DH DH DH DH imediatamente a direita da palavra Numero de palavras diferentes contadas WDL imediatamente a esquerda da palavra Numero de palavras diferentes contadas WDR DH DH DH imediatamente a direita da palavra Raiz da palavra quando utilizado W Class Stemming Tabela 2 1 Caracter sticas analisadas numa palavra tabela retirada de 12 Tendo em conta estas caracter sticas em seguida calcula a import ncia de cada palavra recorrendo s seguintes propriedades Propriedade W1 Se um termo aparece sozinho num segmento de texto quer seja separado dos restantes termos por uma v rgula um ponto ou outro separador ent o muito prov vel que esse termo tenha significado A w In F w Onde w um qualquer termo A w o n mero de vezes que W aparece sozinha e W w
156. do por algum meta motor de pesquisa e gt Agrupamento gt Texto resultante de uma querie num motor de pesquisa geralmente constitu do por poucas dezenas de palavras http snaket di unipi it 65 66 apresentam o resultado dessa pesquisa numa hierarquia de directorias que s o etiquetadas com elementos fr sicos de comprimento vari vel ver Figura 2 11 Personalized Unpersonalized Uncheck All Expand All Collapse All Asthma O Information O Asthma Manage O gt Asthma Treatment 1 gt Allergies O gt Control Asthma O gt Asthma Tutorial Ll gt Relief ee Asthma Relief National Allergy Supply Relief Products 1 Price Air Purifier ee L Relief Therapies Children Asthma American Academy Patients Asthma In Canada O O O Products O O 0000000 OO pI 9 999 e at air a Purifier s Cleaning The Air Dust Mite ee LIZ Dust Mite ee LT Reduction Products O Prices O Journal O O r a Therapies Respiratory DOBA more Figura 2 11 Resultado da query Asthma Exemplo retirado de 13 Este motor que nos apresentado usa uma abordagem itemset like para extrair etiquetas com significado que capturam 0 tema dos snippets contido na directoria em quest o A selec o extrac o das etiquetas feita on the fly a partir dos snippets vistos como gapped sentences
157. e trabalho Para criar esta liga o foram efectuados os seguintes passos D e Primeiro criar o ficheiro class da classe Java onde temos implementado as chamadas ao m dulo em C e Seguidamente utilizar o comando javah para criar o ficheiro hearder o gt javah sufArray SuffixArray e Depois de implementando o ficheiro jni ver anexo 6 sec o 6 1 necess rio efectuar a compila o destes mesmos ficheiros de forma a criar uma biblioteca bin ria que pode ser invocada em tempo de execu o pelo java Neste ponto houve uma dificuldade em efectuar estes passos em Windows o Em Linux gcc c shared fpic I usr lib jvm java 6 sun 1 6 0 20 include Vusr lib jvm java 6 sun 1 6 0 15 include linux sarray c scode c ssarray c Icp c gsufsort c Suffix Array c gcc shared I usr lib jvm java 6 sun 1 6 0 20 include I usr lib jvm java 6 sun 1 6 0 15 include linux sarray o scode o ssarray o lcp o gsufsort o SuffixArray o o libsarray so 7 http netbeans org Java Native Interface http download oracle com docs cd E 17476 01 javase 1 4 2 docs tooldocs windows javah html Ficheiro h em C 104 o Em Windows gcc C shared WI I C Program Files Java jdk1 6 0_20 include I C Program Files Java jdk1 6 0_20 include win32 sarray c scode c ssarray c Icp c gsufsort c sufArray_SuffixArray c gcc shared W1 kill at I C Program Files Java jdk1 6 0_20 include I C Program Files J
158. e Pd 00 op z B P at G Ea oy ay ans ae at ef DEN ete ef ef efe en ee en Documents E Total Precision 20 Total Precision AVG 20 Figura 8 52 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator gpl For Metric least bubbled median phisguare 1 00 0 75 w 3 m 0 50 gt 0 25 0 00 D q k x DH D D of a of sii of of of Ce a ep e 8 et aee ab p od ob aoe 008 mS op ad W AP at ap a ap ap a ae at ef 202 et ef ef ef sn e7 an Documents E Total Precision 5 Total Precision AVG 5 Figura 8 53 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 5 242 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric least bubbled median phisquare 0 75 a 3 0 50 o gt 0 25 0 00 r L H A x x x x AA af o at st BE A ST SC ot oo S pe P po oo oP p op 4 we s ope ae a Er E ai Eu ot ae a e07 et ete ef en eb eo e7 ere Documents E Total Precision 20 Total Precision AVG 20 Figura 8 54 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator
159. e terem palavras chave ou t picos associados a documentos Entende se por palavras chave ou por t pico s de um documento qualquer palavra ou multipalavra uma sequ ncia de 2 ou mais palavras que tendo um significado mais ou menos preciso resume em si parte do conte do desse documento Neste trabalho pretendo desenvolver uma nova metodologia que aborda a problem tica de extrac o de palavras chave Para tal trabalharei a extrac o das palavras chave trabalhando com palavras multipalavras e prefixos de palavras com comprimentos predefinidos 5 caracteres A utiliza o de prefixos permite trabalhar com l nguas altamente flexionadas servindo os prefixos t pico como sinalizadores de toda uma fam lia de palavras e de multipalavras que poder o nesse caso ser promovidas a t picos sendo a extrac o destes prefixos inovadora relativamente ao estado da arte A extrac o a realizar ser baseada em estat stica o que possibilita trabalhar com textos de v rias l nguas nomeadamente o Portugu s o Ingl s e o Checo que foram as l nguas utilizadas neste trabalho Pretendi melhorar os tempos de extrac o de t picos recorrendo para isso utiliza o de Suffix Arrays Os resultados obtidos foram avaliados por pessoas externas feita tamb m uma compara o bastante exaustiva entre 24 m todos de extrac o alguns novos propostos neste trabalho outros propostos por outros autores Com esta disserta o pretend
160. east ChiSquare w wn Min ChiSquare w ChiSquare w 3 6 Onde Min denota a fun o m nimo 3 2 1 4 Least Phi Square Seja W uma palavra Ent o 95 Least_PhiSquare W PhiSquare W 3 7 Se W wy W for uma multipalavra Ent o Least PhiSquare w Wn Min PhiSquare w PhiSquare wn 3 8 Onde Min denota a fun o m nimo 3 2 1 5 Least Informa o M tua MI 3 2 2 96 Seja W uma palavra Ent o Least_MI W MI W 3 9 Se W wy W for uma multipalavra Ent o Least_MI W Wn Min MI w MI w 3 10 Onde Min denota a fun o m nimo Operador Bubbled As vers es Bubbled surgiram da necessidade de se associar um prefixo s palavras que sejam prefixadas por esse prefixo Esta variante s aplicada directamente entre prefixos e palavras n o sendo feita a propaga o a multipalavras Esta propaga o efectuada aquando do uso de uma das seguintes variantes Least Bubbled sec o 3 2 3 e Least Bubbled Median sec o 3 2 5 Assim o que foi feito foi o de associar a uma palavra o valor da medida do prefixo que inicia essa palavra Por exemplo suponhamos que o prefixo multi tem um valor para uma dada medida de 0 67 E temos as palavras multilinguismo com o valor de 0 45 e a palavra multicultural com o valor de 0 78 Como consequ ncia do processo de Bubbling o valor de multilinguismo seria igual ao de multicultural que seria 0 valor
161. ecis o sese 172 Figura 7 39 Gr fico exemplo de precis es para um documento e uma determinada medida Figura 7 40 Componente que permite fazer gr ficos a correlacionar precis es com a m dia GLAS RT Te 173 Figura 7 41 Componente que permite fazer gr ficos a correlacionar precis es com a m dia das Precis ES i ireren T O P O O E ETSER ES DITER S E EEEE EENES 173 Figura 7 42 Gr fico exemplificativo de rela o de valores de precis o e cobertura para um documento e medida para v rios avaliadores sss sees eee 173 Figura 7 43 Gr fico que ilustra rela o da precis o de cada documento com a m dia das precis es para um avaliador e para uma dada mechd 174 Figura 7 44 Tabela onde ser o apresentados os valores para a precis o cobertura e f TOAST dee eegene eege ee doo ATT 174 Figura 7 45 Tabela onde ser o apresentados os valores para a precis o cobertura e f PISASUTS EI EIER 174 Figura 7 46 Tabela onde apresentada a precis o total m dia para todas as medidas EVAN A TE 174 Figura 7 47 Tabela onde apresentada a cobertura m dia para todas as medidas avaliadas ase o enee 174 Figura 7 48 Componente que permite o c lculo da estat stica Kappa desactivada 175 Figura 7 49 Componente que permite o c lculo da estat stica Kappa activa 175 Figura 7 50 Componente que permite o c lculo da estat stica Kappa com um exemplo 176 Figura 7 51
162. ecision zl 06 02 0 8 0 062500000000000 0 113207547169811 tof o of ig 0 166666666666667 0 275862068965517 0 733333333 0 133333333 0 866666667 0 229166666666667 0 349206349206349 ml nei 02 0 8 0 250000000000000 0 352941176470588 Tabela 4 5 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Tf Idf Precision Total Threshold Precision NearGood Precision Recall F Measure ESSE 4 0 0 068965517241379 0 117647058823529 aol o ul 0 7 0 241379310344828 0 358974358974359 0 5714286 0 071428571 0 642857143 0 275862068965517 0 372093023255814 0 5263158 0 052631579 0 578947368 0 344827586206897 0 416666666666667 Tabela 4 6 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Tf Idf Da an lise destas tabelas podemos ver um desvio nos valores de precis o para o resultado dos avaliadores Enquanto que na Tabela 4 5 observamos uma precis o total muito boa j o mesmo n o se pode dizer comparativamente da Tabela 4 6 apesar dos valores de precis o para 10 15 e 20 passarem o valor de 0 5 Para esta medida os autores tem um valor de concord ncia de 0 63235 o que d aproximadamente 63 24 o que de acordo com a tabela de concord ncia apresentada na sec o 2 8 3 temos uma concord ncia Substancial No Anexo 3 na sec o 8 1 2 podemos ver as matrizes necess rias na obten o deste valor
163. ecision 15 Total Precision 20 Figura 8 30 Precis o total para todos os documentos em Portugu s para a medida Least Median MI Overall Total Precision for All Files From Evaluator jfs For Metric least bubbled median phisquare 0 75 0 50 gt 0 25 4 0 00 i H o 02 ka vo po a ab po BA po ow A st d au ay ay ob ae wt qto L a o Ke Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 e Total Precision 20 Figura 8 31 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median Phi Square Overall Total Precision for All Files From Evaluator jfs For Metric least_bubbled_median_rvar 1 00 0 75 a 2 o 0 50 gt 0 25 0 00 wt wt ot ot ot a EN 0 o 486 d DBP Ma Acne eo ane Ela Er ah ob Af VI b qt A a Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 32 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median Rvar 212 8 12 Graficos da Precis o Total versus M dia da Precis o Total para todos os documentos em portugu s avaliados pelo Avaliador Prof Joaguim Ferreira da Silva Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator jfs For Metric phisguare 1 00 0 75 o 3 o 0 50 gt 0 25 0 00 1 ____________ a A a x a Agee oo B eo a ane ei D oe GI d Pres orl e Big goa D Se
164. edian MI 209 Figura 8 25 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Figura 8 29 Precis o total para todos os documentos em Portugu s para a medida Least I Ss TT a T 211 Figura 8 30 Precis o total para todos os documentos em Portugu s para a medida Least Median MU ssa ia eth etna dn ba SV asda e sone as dented Chee eden ba k n deka tee ahd 212 Figura 8 31 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median PRESS quaresma E paces a seein E EE E ENA 212 Figura 8 32 Precis o total para todos os documentos em Portugu s para a medida Least Bubbled Median Ryar as vires cosvesducetvessesdee sani reeeees eeddeesieetoensiecs Ine ORO YTO nakl d t 212 Figura 8 33 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com 6 limite 5 sssasasastaianadesoaislinadeaad ss seaaiaisa GI AGIA SLI duu aky eSa gs aaa si vad 213 Figura 8 34 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Square com o T EE 213 Figura 8 35 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 3 213 Figura 8 36 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Bubbled Median Phi Square com o limite 20 214 Figura 8 37 Precis o total vs Precis o Total M dia para todos os documentos para a medida
165. ediana do termo em quest o seja esse termo uma palavra um prefixo ou uma multipalavra No que concerne ao c lculo da mediana no caso de palavras calculou se este valor como sendo o comprimento da palavra No caso de se tratarem de multipalavras temos de ter em conta o n mero de elementos da multipalavra a tratar e o tamanho desses elementos Ou seja tomemos como exemplo a seguinte multipalavra C mara Municipal de Mur a composta por 4 elementos e o vector de tamanhos dos elementos resultante da multipalavra V 6 9 2 5 Seguidamente ordenamos este vector obtendo Vord 2 5 6 9 99 Neste caso a mediana dada pela seguinte operac o Mediana 5 6 2 5 5 6 No caso de se tratar de uma multipalavra com um numero impar de elementos a opera o altera se e efectua se da seguinte forma Assembleia da Rep blica composta por 3 elementos e o vector de tamanhos dos elementos resultante da multipalavra V 10 2 9 Seguidamente ordenamos este vector obtendo Vord 2 9 10 Neste caso a mediana dada pela seguinte opera o Mediana 9 Resumidamente a mediana dada pela seguinte express o Mediana Compr do termo se palavra Elempos m EleMposm 2 Gm senpar se multipalavra 3 21 2 J Elempos sen impar 2 Seja Elempos um elemento pertencente ao Vector ordenado do tamanho das palavras de uma multipalavra Com n compreendido entre o valor de um e o n
166. edida de similaridade de forma a produzir automaticamente um sum rio que pode conter n o s o conte do principal como pode incluir tamb m outros conte dos de v rios t picos diferentes Outro trabalho tamb m inclu do nesta categoria apresentado em 14 que foi baseado em estudos preliminares reportados no relat rio final 37 e que se baseia na identifica o do t pico e do evento de cada documento que s o diferenciados pelos autores Mas quer o t pico quer o evento s o palavras Os autores partem da assun o de que um evento associado a um documento aparece ao longo de v rios par grafos enquanto um t pico n o 75 1 2 Two Americans known dead in Japan quake 1 The number of Americans known to have been killed in Tuesday s earthquake in Japan has risen to two the State Department said Thursday 2 The first was named Wednesday as Voni Lynn Wong a teacher from California State De partment spokswoman Christine Shelly declined to name the second saying formalities of notifying the family had not been completed 3 With the death toll still mounting at least 4 000 people were killed in the earthquake which devas tated the Japanese city of Kobe 4 U S diplomats were trying to locate the several thousand strong U S community in the area and some Americans who had been made homeless were found shelter in the U S consulate there which was only light
167. ence and Technology vol 40 pp 521 543 2006 P G Otero G P Lopes and A Agustini Automatic Acquisition of Formal Concepts from Text LDV Forum vol 23 no 1 pp 59 14 2008 S Gerard and B Chris Term Weighting Approaches in Automatic Text Retrieval Cornell University 1987 G Dias Extraction Automatique dSAssociations Lexicales a partir de Copora Universidade Nova de Lisboa e LIFO Universidade de Orleans Franga Lisboa Portugal 2002 T Afrin Extraction of Basic Noun Phrases from Natural Language Using Statistical Context Free Grammar Electrical Engineering Virginia Polytechnic Institute and State University 2001 J L Mart nez Fern ndez A Garc a Serrano P Martinez et al Automatic Keyword Extraction for News Finder Adaptive Multimedia Retrieval Lecture Notes in Computer Science pp 405 427 Springer Berlin Heidelberg 2004 Y Gao and G Zhao Knowledge based Information Extraction A case study of recognizing emails of Nigerian frauds Natural Language Processing and Information Systems Lecture Notes in Computer Science Springer Berlin Heidelberg 2005 A Hulth Improved Automatic Keyword Extraction Given More Linguistic Knowledge pp 216 223 J M J Ventura Extrac o de Unigramas Relevantes Departamento de Informatica Faculdade de Ci ncias e Tecnologia Universidade Nova de Lisboa Lisboa 2008 Y Matsuo and M Ishizuka Keyword Extraction fro
168. ento cs 32006D0644 html 8 29 1 Phi Square Avalia o dada ao termo pelo Termos Valor da Medida Avaliador 0 007099977155724 good topic descriptor 0 005071328357677 good topic descriptor vysok rovni pro mnohojazy nost 0 004057029128410 good topic descriptor oblasti mnohojazy nosti 0 003042746678425 good topic descriptor odbornou zp sobilost 10 002028481007305 good topic descriptor 0 00202848 1007305 bad descriptor skupinu konzultovat 0 00202848 1007305 bad descriptor vydaje na zasedani 0 002028481007305 unkonwn 0 002028481007305 bad descriptor skupina na vysok 0 002028481007305 bad descriptor _ 0 00202848 1007305 bad descriptor Tabela 8 63 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Phi Square 254 8 29 2 Least Tf Idf Avaliac o dada ao termo pelo Termos Valor da Medida Avaliador 0 025845015734672 good topic descriptor 0 018460725524766 good topic descriptor mnohojazy nost z izuje se skupina _ 0 013619695407680 bad descriptor 0 007384290209906 bad descriptor zpusobilosti v oblasti mnohojazy nosti 0 007384290209906 good topic descriptor 0 007384290209906 bad descriptor 0 007384290209906 bad descriptor 0006823998624308 near good descriptor Tabela 8 64 Listagem de termos com as respectivas avalia es feitas pelo avaliador Pr
169. er no anexo 6 nas sec es 6 2 e 6 3 Esta suffix array retornada pelo m dulo C j ordenada 106 3 5 Extrac o de Multipalavras O Processo de extrac o de multipalavras foi ligeiramente diferente das palavras e dos prefixos Foi aplicado um extractor baseado em 2 sobre o texto tratado do corpus Da seguinte linha de comandos resultou uma lista com as multipalavras bigramas trigramas quadrigramas e pentagramas de todo o corpus Esta lista lida em tempo de execu o e guardada na estrutura j mencionada na sec o anterior onde se insere uma palavra neste caso multipalavra com toda a informa o associada a essa multipalavra gt cat Corpus pt_txt fixed_txt txt Jrelexp py scp 5 cut f3 gt MultiWordsList_ngrama_ txt Apesar de n o fazermos uma extrac o directa das multipalavras aplicamos um filtro para que multipalavras que contenham n meros ou s mbolos n o sejam consideradas Provavelmente este tipo de filtro evita tamb m que sejam avaliadas express es desinteressantes como algumas que aparecem em 1 quando aqueles autores utilizaram a medida Tf Idf Recorremos mesma Suffix Array j apresentada na sec o 3 4 com o objectivo de saber em que documentos as multipalavras aparecem e em que quantidade ocorrem nesses mesmo documentos Com esta informa o a multipalavra inserida numa estrutura de dados desenhada para guardar esta a informa o 3 6 Implementa
170. es O conjunto de termos verdadeiramente relevantes consideradoS ectevantes conjunto dos termos considerados relevantes pelo ordenador por grau de import ncia de prefixos palavras e multipalavras no trabalho que construi A quantidade de termos considerados relevantes pelo extractor e que s o ao mesmo tempo realmente relevantes representada por termosS eievantes N considerados erevantes A Precis o Precision pode ser vista como medida de exactid o de uma ferramenta Permite medir a propor o do n mero de termos realmente relevantes dentro do conjunto dos termos que o extractor considera relevantes J a cobertura Recall mede a propor o do n mero de termos que considerando o conjunto completo dos termos realmente relevantes que foram detectados pelo extractor como tal Logo no caso da avalia o dos resultados a serem gerados pela metodologia que se apresenta neste plano de trabalho s o necess rias a Precision e o Recall porque ser necess rio avaliar a correc o e completude dos resultados obtidos conveniente dizer que a avalia o da cobertura recall trar alguns problemas pois partida para os textos de onde ir o ser extra dos termos chave n o existe um golden standard para nos informar da totalidade dos termos relevantes No entanto ao trabalhar e avaliar 6 medidas conseguimos obter um n mero de termos realmente relevantes maior do que o n mero de termos relevantes que obter amos
171. esar disso poss vel diferenciar uma hierarquiza o nos resultados ao contr rio da medida base Rvar que n o possibilita diferencia o nenhuma como veremos mais em pormenor no cap tulo 5 117 Em Anexo nas sec es 8 2 3 e 8 3 3 podemos ver como os avaliadores avaliaram esta lista de termos No que concerne aos valores de precis o obtidos para esta medida podemos ver as seguintes tabelas Threshold Precision Frerinion Total Recall F Measure NearGood Precision zl oul nu 0 410 040816326530612 0 074074074074074 0 102040816326531 0 169491525423729 0 4666667 0 666666667 0 142857142857143 0 218750000000000 0 183673469387755 0 260869565217391 Tabela 4 8 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median Rvar Precision Total a E fae Fa Recall F Measure 4 0 033333333333333 0 057142857142857 ta E 0 133333333333333 0 200000000000000 I 15 0 2666667 0 266666667 0 533333333 0 133333333333333 0 177777777777778 0 166666666666667 0 200000000000000 Tabela 4 9 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median Rvar Para esta medida os autores t m um valor de concord ncia de 0 10913 o que d aproximadamente 11 o que de acordo com a tabela de concord ncia apresentada na sec o 2 8 3 temos uma concord ncia ligeira Este facto deve se sobretudo dictomia de crit rios
172. esentado na sec o 1 e como verificado nos resultados obtidos multi seria um prefixo de 5 caracteres altamente discriminante do documento em causa Com este tipo de informa o extra da tornou se poss vel procurar palavras e multipalavras que contenham os prefixos seleccionados No exemplo citado seria o caso de multilinguismo multilinguista ou multiculturais entre outros termos Ao seguir esta linha de trabalho aument mos a cobertura sobre as palavras e multipalavras que podem ser representativas do documento e que eventualmente podem n o ser extra das quando o m todo aplicado exclusivamente a palavras ou a multipalavras e n o dispomos de dicion rios para reduzir esses termos chave sua forma singular ou plural consoante se considere que o singular ou o plural mais representativo do assunto Esta op o mostrou se adequada numa l ngua altamente flexionada como o caso do checo Com esta op o diminu mos a precis o mas aumentamos a cobertura mesmo para Portugu s e para Ingl s Assim parte do trabalho foi destinado a extrair listas de palavras e multipalavras e prefixos ordenados por grau de import ncia Depois foi feita a conjuga o entre as v rias listas de forma a no final para todas as m tricas e variantes poder escolher para o caso das palavras e das multipalavras as 25 melhores por documento para serem avaliadas em 5 documentos escolhidos aleatoriamente para que se obtenha uma
173. esse eee 66 Figura 2 12 Arquitectura do sistema Spnaket sese eee 67 Figura 2 13 Um Documento intitulado Two Americans dead in Japan guake 76 Figura 2 14 Processo de Extrac o de Informa o do ArteduaktUS sss eee 82 Figura 2 15 Ilustra o de uma Suffix Array s que acabou de ser inicializada e ainda n o foi Ora LIC F KEE its ats na SR A EEN 90 Figura 2 16 Ilustra o da suffix array da Figura 2 15 ap s ter sido ordenada 90 Figura 2 17 O Prefixo comum mais longo Ch 91 Figura 3 1 Diagrama de Pacotes do Prot tipo asa io Eed 109 Figura 7 1 Janela de Configura o assis omens tee noi E SS 159 Figura 7 2 Componente de selec o do comprimento de caracteres m nimo de uma palavra Figura 7 3 Selec o do tamanho dos Prefixos e se a aplica o deve carregar as estruturas ANLETIOLES QU NAG tee sad EE ee Ee 160 Figura 7 4 Componente de selec o do numero de termos para avaliar 160 17 Figura 7 5 Componente de selec o do numero de termos para avaliar expandido 160 Figura 7 6 Compoente de selec o da lingua de arranque das aplica es 161 Figura 7 7 Componente de selec o da l ngua de arranque das aplica es expendida 161 Figura 7 8 Componentes onde se define a localiza o dos textos que far o parte do corpus n s diferentes 11M SUAS salina deele eege eege 161 Figu
174. f Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Phi Square Tabela 8 51 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Tf Idf Tabela 8 52 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Median E 231 Tabela 8 53 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Medin EE 232 Tabela 8 54 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en_32006Q804_01 html na medida Least Bubbled Median ERUN EENS gege dE 233 Tabela 8 55 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Bubbled Median Kee 234 Tabela 8 56 Lista de Termos para a medida Rvar para o ficheiro en 320060804 01 html235 Tabela 8 57 Lista de Termos para a medida MI para o ficheiro en 320060804 01 html 236 Tabela 8 58 Lista de Termos para a medida Tf Idf para o ficheiro en 320060804 01 html Tabela 8 59 Precis o total m dia para todas as medidas resultante da avalia o do Avaliador Prof Gabriel Lopes TTT 244 Tabela 8 60 Cobertura m dia
175. f inverse of document frequency na colec o considerada ver sec o 2 3 1 1 No artigo de J F Da Silva e G P Lopes 1 s o comparados os resultados da extrac o de t picos de documentos para selec o de descritores de documentos utilizando 3 medidas de selec o onde se inclui tamb m a m trica Tf Idf aplicadas a multipalavras previamente extra das pelo m todo LocalMaxs apresentado no artigo 2 No artigo 1 mostra se que o Tf Idf uma medida que tem tend ncia a escolher termos multipalavra demasiadamente espec ficos Da a necessidade de aqueles autores utilizarem duas outras m tricas cujos resultados demonstraram a sua maior capacidade para a extrac o de melhores descritores Contudo este trabalho ficou se pela extrac o de descritores com mais de uma palavra sendo lhe imposs vel extrair descritores com uma nica palavra como seria o caso das salmonelas das zoonoses ou da zoonose acima referidas Por este motivo o trabalho que foi levado a cabo debru ou se sobre a extrac o de palavras chave quer estas sejam palavras singulares ou multipalavras Al m disso tamb m estudei resultados que obtive tendo em considera o prefixos de palavras com quatro e cinco caracteres os quais tamb m foram eleitos como relevantes utilizando as mesmas m tricas base que foram seleccionadas para eleger a relev ncia tem tica de palavras e de multipalavras Nos exemplos apresentados a
176. fos N representa o n mero de par grafos e substituindo Nd por Np temos o n mero de par grafos onde t ocorre O segundo passo do m todo dos autores o de calcular a depend ncia do dom nio das palavras que calculado recorrendo s seguintes formula es vit Wd mean gt 2 36 DispD Wi du mean t Onde a equa o 2 36 d o valor da dispers o do termo t ao nivel do documento da colec o de m documentos Da mesma forma DispP d o valor da dispers o do termo t ao nivel do par grafo J a eguac o 2 37 denota o valor do desvio do termo t no n simo documento Analogamente Devp denota o desvio do termo t no n simo paragrafo Em ambas as equa es 2 36 e 2 37 mean a m dia do total dos valores de Tf Idf do termo t ao n vel de documento 11 2 6 3 78 Tendo isto o ultimo passo do m todo dos autores extrair as palavras que sejam t pico e as que sejam eventos utilizando as equa es 2 36 e 2 37 Como muitos dos trabalhos apresentados estes autores apenas se orientaram para o tratamento de palavras ignorando multipalavras Trabalham a dois n veis distintos o de documento inteiro e ao n vel de par grafo No trabalho desenvolvido nesta disserta o n o tem esta a op o Trabalha se com o corpus total e com os documentos em particular N o pretendemos sumarizar no sentido de extrair frases ou par grafos que de alguma forma representem o conte
177. gnorados A medida calcula a frequ ncia da presen a e da aus ncia de um termo num documento e na colec o No trabalho realizado comprovou se por resultados obtidos que juntamente com o a medida 7f Idf o Chi Square das medidas utilizadas que melhores resultados produz na extrac o de termos chave Com o elaborar e desenrolar do trabalho tamb m vimos que quando analisamos os resultados para palavras e multipalavras juntas o Chi Square continuou a produzir resultados bastante bons Ver cap tulos 3 e 4 para mais detalhes 2 3 1 4 Phi Square O Phi Square uma variante do Chi Square e dada pela express o oi e Ze 216 51 Onde N o n mero total de termos presente no corpus ou seja o somat rio dos termos de todos documentos e x o valor obtido na aplica o da equa o 2 11 Esta medida foi utilizada com o objectivo de normalizar os resultados obtidos pelo 2 E No trabalho realizado apesar de termos tamb m trabalhado com 0 Chi Square os resultados obtidos em termos de ordena o das palavras multipalavras e prefixos por grau da sua import ncia eram iguais aos resultados do Phi Square Opt mos assim por fazer a avalia o final apenas com base no Phi Square e por apresentar s esses resultados 2 3 1 5 Informa o M tua 2 3 2 52 A m trica Informa o M tua 22 bastante utilizada na modela o de linguagem e visa identificar associa es entre termos aleatoriamente escol
178. h belongs 00 admissibility of a motion 1 LIU remarks are al LL minutes of meetings 100 request to the notice 1 00 procedures to finalise LIU immediately bring any such request 1 00 a member may not 100 motonisput 00 chairperson thinks LIU his her own initiative L which shall be madeup 100 centre may be ascertained LIU divided into its several parts 1 LIU board by written procedure LO only for the meeting 1 00 if the chairperson considers LIU hi chairperson shall direct the proceedings 1 00 his own category 100l chairperson shall close 00 brief explanation 1 00l furthest fon 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 1 00 Tabela 8 56 Lista de Termos para a medida Rvar para o ficheiro en 320060804 01 html 235 8 18 2 MI M Termo Medida hi Chairperson shall direct the proceedings 3 7454791 Tabela 8 57 Lista de Termos para a medida MI para o ficheiro en 320060804 01 html 236 8 18 3 Tf Idf Tabela 8 58 Lista de Termos para a medida Tf Idf para o ficheiro en 320060804 01 html bw Ce Termo Medida development of vocational training 0 0044224 237 8 19 Gr ficos das Precis es para o Prof Gabriel Lopes para o documento en_32006Q804_01 html Precisions for Document en_32006q0804_01 txt From Evaluator gpl For Metric phisquare 5 6 7 8 9 0 u 2 B 4 1 16 7 B
179. hidos e nesse processo determinar a depend ncia que esses termos t m entre si calculada da seguinte forma P t Nc I t c TOO 2 17 Onde t um termo e c a classe no trabalho que realizei c representa o documento onde t ocorre Segundo o trabalho de Filipa Madureira 5 esta express o pode ser traduzida para o contexto da categoriza o de textos da seguinte forma i A N HE 4 SA C A B Onde A representa o n mero de vezes que o termo t e a classe c co ocorrem B I t c 2 18 representa o numero de vezes que o termo t ocorre sem ser na classe c C representa o n mero de vezes que a classe c ocorre sem o termo t e N representa o n mero total de documentos N o Estat sticas Nesta sec o descrevem se outro tipo de metodologias de extrac o que n o recorrem a medidas estat sticas Um exemplo o trabalho apresentado em 23 onde a autora compara a utiliza o de gram ticas de dois tipos stochastic context free grammar SCFG e non statistical context free grammar CFG utilizando etiquetas morfo sint ticas de modo a conseguir extrair sequ ncias de nomes e adjectivos unigramas e bigramas Sendo uma CFG definida por uma gram tica formal definida por uma gu druplo G lt V T S P gt Onde V representa o conjunto de s mbolos n o terminais T representa o alfabeto o conjunto de s mbolos terminais S representa a categoria frase e P representa um conjunto
180. i p w sae PZ cos uae pw Onde Y representa o n mero de palavras distintas no corpus e p w y representa a probabilidade de y ser um sucessor da palavra w p w representa a probabilidade m dia dos poss veis sucessores de w que dada por 1 p w rot Z r 2 20 Onde pw m D Gau Onde N representa o n mero total de palavras no corpus e f w y a frequ ncia de ocorr ncia do bigrama w y no mesmo corpus Assim esta componente mede a varia o da prefer ncia da palavra w em ocorrer antes das restantes palavras do corpus Esta medida uma varia o da medida Rvar sec o 2 3 1 2 aplicada s palavras e s palavras que ocorrem imediatamente a seguir s palavras consideradas uma medida que pretendeu de certo modo ultrapassar a impossibilidade de o LocalMaxs com o SCP sec o 2 2 extrair palavras relevantes no sentido de as multi apalavras extra das serem ent o designadas por express es relevantes A segunda componente mede a prefer ncia que uma palavra w tem para com as palavras que a antecedem esta componente designada por Score do antecessor ou AC w Scant w DUW WT DL wW mt a Sei s Recorrendo s express es 2 19 e 2 22 obt m se o Score da palavra w S w Scan W Ban S w 2 2 23 Onde atrav s da m dia aritm tica se obt m uma m trica gue permite classificar a relev ncia de uma palavra baseando
181. iana tendo o c lculo da medida LeastBubbled ver sec o 3 2 3 dispon vel Assim esta medida calculada obtendo o valor Least bubbled de um determinado termo fazendo posteriormente o produto pela mediana do termo Seguem se seguidamente a especifica es para cada medida desta variante 3 2 5 1 Least Bubbled Median Tfldf Recorrendo 4 eguac o 3 16 e aplicando um produto com a mediana obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Bubbled Median Tfldf Least Bubbled TfIdf W Median W 3 27 3 2 5 2 Least Bubbled Median Rvar Recorrendo equa o 3 17 e aplicando um produto com a mediana obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Bubbled Median Rvar Least Bubbled Rvar W Median W 3 28 3 2 5 3 Least Bubbled Median Chi Square Recorrendo 4 eguac o 3 18 e aplicando um produto com a mediana obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Bubbled Median ChiSquare Least Bubbled ChiSquare W Median W 3 29 102 3 2 5 4 Least Bubbled Median Phi Square Recorrendo 4 equa o 3 19 e aplicando um produto com a mediana obtemos a seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Bubbled Median PhiSquare Least Bubbled PhiSquare W x Median W 3 30 3 2 5 5 Least Bubbled Median Informa o M tua Recorrendo equa o 3 20 e aplicando um produto com a mediana obtemos a
182. icas Tf Idf RVar LeastRVar e LeastRVarLen ver sec es de 2 3 1 1 e 2 3 1 2 para se ordenarem por ordem de import ncia de acordo com a medida utilizada as express es multipalavra obtidas assumindo que as mais bem classificadas poder o ser consideradas descritores de documentos 39 40 Assim um dos meus objectivos foi o de estender este trabalho como j referido anteriormente no capitulo 1 trabalhando tamb m com palavras e com prefixos que nao haviam sido abordadas em 1 No trabalho que levei a cabo utilizei para a extrac o 4 medidas base o Tf Idf a medida Rvar o 02 e acrescentei ainda a Informac o Mutua Para mais pormenores sobre estas medidas ver sec o 2 3 1 Estas medidas foram aplicadas na extrac o das palavras das multipalavras e dos prefixos mais descritores do conte do dos documentos e na sua an lise Mas sentiu se a necessidade de poder fazer uma compara o com a variante LeastRvar apresentada em 1 Dessa necessidade surgiu o desenvolvimento de cinco variantes uma para cada medida base Estas variantes possibilitaram a cria o da vers o Least para cada medida ver sec o 3 2 1 As outras variantes surgiram de outras necessidades e Como a de ter em considera o a mediana do comprimento das palavras constituintes de uma multipalavra ver sec es 3 2 4 e 3 2 5 j que em 1 o comprimento m dio das palavras constituintes de multipalavras foi uma caracter stica testada para a extr
183. if 156 6 2 Construc o da Estrutura de palavras param sain return ay public static Terms buildSuffixArray HashMapOf FullWords docIndex SuffixArray sain int wordsLen Terms toReturn new Terms System out printlin buildSuffixArray HashMapof FullWords docIndex Cycle to set the partial of the terms by document for int i 0 i lt saln a length i String suffix saln s substring saln a il int suffixPos saln al i if suffix startsWith if suffix length gt 1 Suffixes starting by numbers or by symbols are not considered if saIn isDigit suffix false ss int toIndex suffix indexof 1 if toIndex gt 0 Palavras com comprimento maior do que 6 O que serao inseridas na HashMap de termos 6 5 caracteres espa So no inicio if toIndex gt wordsLen String word suffix substring 0 for Document doc documents if doc belongsToDocument suffixPos toReturn insertNewTerm suffix substring 0 toIndex doc Criar um HashMap onde vou guardar Termo contador para o numero de vezes que o termo occore Guardar tambem em que documentos ocorre saIn isSymbol suffix false toIndex return toReturn 157 6 3 Constru o da Estrutura de Prefixos ER param saln param numberofChars E public static Terms buildSuffixArray HashMapOf Prefixes docI
184. igura 7 50 Componente que permite o c lculo da estat stica Kappa com um exemplo Na Figura 7 50 tamb m poss vel observar que tr s bot es foram desbloqueados quando se calculou o valor Kappa Estes bot es permitem ver as matrizes necess rias ao c lculo deste mesmo valor Na Figura 7 51 podemos observar um exemplo de uma matriz confus o de resultados verificados J na Figura 7 52 podemos ver uma matriz confus o com resultados esperados O Bot o Save Kappa permite guardar em ficheiro a informa o toda que foi necess ria para calcular o valor Kappa Good Descriptor Near Good Descriptor Bad Descriptor Unkown No Evaluation Line Total Good Descriptor 2 lo jo 1 jo 3 Near Good Descriptor 9 lo H 0 0 1 Bad Descriptor 0 lo 1 0 1 Unkown o lo lo 0 0 Na Evaluation 0 lo lo 0 20 20 olumn Total 2 o 2 1 20 25 Figura 7 51 Matriz Confus o com resultados verificados entre dois avaliadores Good Descriptor Near Good Descriptor Bad Descriptor Unkown No Evaluation Line Total ood Descriptor 0 24 0 0 0 24 0 12 2 4 3 0 Near Good Descriptor 0 05 0 0 0 08 0 04 0 8 1 0 Bad Descriptor 0 08 0 0 0 08 0 04 0 8 1 0 0 0 0 0 0 D 0 0 0 0 No Evaluation 1 6 0 0 1 6 D 2 20 0 Column Total 2 0 0 0 2 0 1 0 20 0 25 0 Figura 7 52 Matriz Confus o com resultados esperados entre dois avaliadores 176 Anexo 3 Resultados Neste anexo ser o apresentados t
185. iles From Evaluator jfs For Metric least tf idf 1 00 0 75 a 3 w 0 50 gt 0 25 0 00 Vi A A A ab oe AM Pa A p d P po a ef P opr ef SE SC es es es Documents E Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 64 Precis o total para todos os documentos em Ingl s para a medida Least Tf Idf Overall Total Precision for All Files From Evaluator jfs For Metric least median rvar 1 00 0 75 w w 0 50 gt 0 25 0 00 a r V A V a o qo AN wert t st et an S oo oe ef Z es BE ef z en E Documents SR Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 65 Precis o total para todos os documentos em Ingl s para a medida Least Median Rvar 248 Overall Total Precision for All Files From Evaluator jfs For Metric least_median_mi 1 00 0 75 W a w 0 50 gt 0 25 0 00 x a A a a zd De e oe ge age o at D pff Kg 9 as qo e7 er ete er en Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 e Total Precision 20 Figura 8 66 Precis o total para todos os documentos em Ingl s para a medida Least Median MI Overall Total Precision for All Files From Evaluator jfs For Metric least bubbled median phisquare 1 00 0 75 w w 0 50 gt 0 25 0 00 a A a A P fa oe a me gf i Bi i oo a es 2 Ge ete sf es gt Documents SR Total Precision 5 e Total Precision
186. ilizada na experimenta o vamos apresentar um documento em comum para dois avaliadores O checo uma excep o porque s conseguimos a avalia o por um nico avaliador 4 1 Lingua Portuguesa Come amos por apresentar resultados para a l ngua Portuguesa Apresentamos seguidamente as avalia es feitas pelos avaliadores Prof Joaquim Ferreira da Silva e Prof Gabriel Lopes Um documento avaliado por ambos o pt 32006R0198 html Para as v rias medidas que foram pedidas para serem avaliadas obrigatoriamente estes autores obtiveram os valores de precis o que s o apresentados para as v rias medidas ao longo das pr ximas sec es 4 1 1 Phi Sguare No caso do Phi Square a listagem de termos produzida que foi apresentado aos avaliadores a seguinte 3 cursos de forma o profissional cont nua 0 005096688636165 sem classifica o 0 002547809415785 profissional inicial 0 00253479448403 8 2 2 7 8 0 003309304724491 8 9 l 2 6 Tabela 4 1 Lista de Termos para a medida Phi Square para o ficheiro pt 32006R0198 html http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 113 Desta listagem podemos observar que a medida Phi Sguare d uma pontua o diferenciada a praticamente todos os termos Em Anexo nas sec es 8 2 1 e 8 3 1 podemos ver como os avaliadores avaliaram esta lista de termos No caso desta medida as precis es obtidas foram
187. in Proceedings of the Fourteenth International Conference on Machine Learning 1997 5 F A P Madureira Classificac o de Documentos Departamento de Informatica Faculdade de Ci ncias e Tecnologia Universidade Nova de Lisboa Lisboa 2009 6 F Sebastiani Machine Learning in Automated Text Categorization ACM Computing Surveys vol 34 no 1 pp 1 47 2002 7 J F d Silva and G P Lopes Towards Automatic Building of Document Keywords in COLING 2010 The 23rd International Conference on Computational Linguistics Pequim 2010 8 M Yamamoto and K W Church Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus pp 1 30 Association for Computational Linguistics 2001 9 R Papka and J Allan Document classification using multiword features in Proceedings of the seventh international conference on Information and knowledge management 1998 pp 124 131 10 C Jacquemin Spotting and discovering terms through natural language processing MIT Press 2001 11 F Geraci M Pellegrini P Pisati et al A scalable algorithm for high quality clustering of web snippets in Proceedings of the 2006 ACM symposium on Applied computing Dijon France 2006 12 D J M Ferreira Procura Estruturada de Textos para perfis de Utilizadores Departamento de Informatica Universidade da Beira Interior 2009 13 P Ferragina and A Gulli
188. ipalavras Uma das vantagens das Suffix Arrays relativamente s Suffix Trees o espa o necess rio A necessidade de espa o por parte das Suffix Trees cresce com o tamanho do alfabeto O N I I onde ZI o tamanho do alfabeto ao contr rio das Suffix Arrays apesar de em alfabetos de dimens o menor do que 24 caracteres este factor ser pouco problem tico Manber e Myers 47 no seu trabalho afirmam que as suffix arrays est o numa ordem de magnitude mais eficiente no que diz respeito ao espa o ocupado em rela o s suffx trees mesmo no caso de alfabetos relativamente pequenos Z 96 No entanto nos ltimos anos tem havido trabalhos nesta rea que t m diminu do esta diferen a entre estas duas estruturas nomeadamente nos trabalhos 48 e 49 Mas uma das motiva es que me leva a se optar pelas Suffix arrays apesar destes avan os o facto de poucos trabalhos nestas reas fazerem uso desta estrutura para a extrac o de t picos ou palavras chave relevantes Um Vector de sufixos s um array de todos os N Sufixos ordenados alfabeticamente de um texto ou concatena o de textos Um sufixo s i tamb m denominado por cadeia semi infinita uma cadeia que come a no posi o 1 do texto que estamos a tratar e continua at ao fim do mesmo A Figura 2 15 e a Figura 2 16 ilustram um exemplo simples baseado no trabalho 8 onde o texto to be or not to be constitu do por 18 sufixos N 18 13
189. iptor 11 0 0 0 0 11 Near Good Y Descriptor 2 1 1 0 0 4 Bad Descriptor 1 0 9 0 0 10 lt Unkown 0 0 0 0 0 0 No Evaluation O 0 0 0 0 0 Column Total 14 1 10 0 0 25 Tabela 8 32 Matriz Confus o de Resultados Verificados para Phi Square Avaliador 2 Good Near Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 6 2 0 4 4 4 0 0 0 0 11 0 T Near Good Descriptor 2 2 0 2 1 6 0 0 0 0 4 0 kl Bad Descriptor 5 6 0 4 4 0 0 0 0 0 10 0 lt Unkown 0 0 0 0 0 0 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 0 0 0 0 0 0 Column Total 14 0 1 0 10 0 0 0 0 0 250 Tabela 8 33 Matriz Confus o de Resultados Esperados para Phi Square Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 727520435967302 o que d aproximadamente 72 75 de concord ncia 9 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 3200600804 2801 29 EN HTML 217 8 15 2 Kappa para a Medida Least Tf Idf Este c lculo refere se medida Least Tfldf para o documento en 320060804 01 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Des
190. ise sint ctica s o extra dos grupos de palavras para fun es sint cticas sem ter em considera o o seu significado sem ntico Os 40 ZU A x Na an lise sem ntica autores fazem este processo recorrendo ao Apple Pie Parser as frases s o decompostas em frases mais simples para possibilitar a localiza o dos principais componentes como sujeitos verbos e objectos esta localiza o 38 Knowledge triplets http gate ac uk http nlp cs nyu edu app 82 conseguida pelo uso do GATE e do highlight dado pelo WordNet Que na frase seguinte faria sobressair Pierre Auguste Renoir como o nome de uma pessoa February 25 1841 como uma data e Limoges como um local O uso de informa o lexical por parte dos autores torna o trabalho mais dependente da l ngua dos documentos visto os triplos poderem variar consoante a l ngua que se est tratar Apresento a seguir um exemplo retirado do trabalho dos autores que ilustra o processo utilizado Dada a seguinte frase Pierre Auguste Renoir was born in Limoges on February 25 1841 Seriam produzidas as seguintes rela es ontol gicas lt Pierre Auguste Renoir gt lt date of birth gt lt 25 2 1841 gt lt Pierre Auguste Renoir gt lt place of birth gt lt Limoges gt 2 7 Observa es sobre as reas Poss veis de Aplica o Como podemos ver na sec o anterior existe uma pan plia de aplica es onde a necessidade de se extrair palavr
191. k other proposed by other authors With this master thesis we intend to offer a new tool to posterior works that may be done in the areas of document summarization clustering or Indexing of documents and ontology construction vil viii Indice INDICE DE TABELAS sa pita H INDICE DE FIGURAS aire ni dida dota T GLOSSARIO scan a a a T 1 INTRODU O Se aunts isso Fa aq L MOTIVA O tas oe as chic EE the ATOS Shen set ta ee ENEE 30 1 2 SOLU O DESENHADA EE 32 1 3 PRINCIPAIS CONTRIBUI ES T 33 1 4 ORGANIZA O DA DISSERTA O eiee a a E ETE ST s EE E reS 34 2 1 REPRESENTA O DE DOCUMENTOS eee eee 38 2 2 DESCRITORES DE DOCUMENTOS sese eee 39 2 3 METODOLOGIAS DE EXTRAC O ee 45 E E EE 45 E INGO E 52 E Hibrida ssid oi od d S aa ore o rade Sta A aaa cal edb a o oo 35 2 4 EXTRAC O EE 55 2 5 EXTRAC O DE MUTTIPALA VRAS io od o ea obe oa oje D da ou da 60 2 6 AREAS DE EEN 64 2 6 1 Agrupamento e Classifica o de Documentos ee 64 2 6 2 Sumariza o de Documentos sss sese eee 71 2 0 9 GCONMSTHUCAO CE EE 78 2 6 4 Povoamento de EE 8l 2 7 OBSERVA ES SOBRE AS REAS POSS VEIS DE APLICA O citas 83 2 8 MEDIDAS DE AVALIA O DE RESULTADOS esse 83 28 1 Precision e Recall segon dolo OTa a aa sua Usa ia aaa a aa eu 83 2 8 2 IVES TA lt tech Dc a R RE RD ARA IE OR E E O RIR OR 85 2 8 3 Estatistica Kappa cats ic E EO Ni a DA SE a dO qu e 86 GETT 88 CONTRIBUI O E TRABALHO R
192. l doc by doc Figura 7 31 Componente para escolher o avaliador e componente se avalia o parcial ou total A escolha dos documentos feita recorrendo a lista apresentada na Figura 7 32 Select Document From List pt 32006r 1031 txt pt 32005d0754 txt pt 42005x1124 02 txt pt 32006d0527 txt pt 32006q0804 01 txt pt 32006d0943 txt pt 32006d1228 01 txt pt 32006r0198 txt pt 32006h0962 txt Figura 7 32 Listagem de documentos avaliados pelo avaliador Os bot es apresentados na seguinte Figura 7 33 permitem obter gr ficos e listagens O bot o Terms Evaluation Percentage Dist permite visualizar um gr fico como o que pode ser observado na Figura 7 34 que para um determinado documento e uma determinada medida mostra a percentagem de termos por tipo de avalia o que foi feita pelo avaliador J o bot o Terms Evaluation Distribution apresenta um gr fico como o apresentado na Figura 7 35 Os outros dois bot es permitem ver listagens uma dos termos avaliados pelo autor para determinado documento e para determinada medida A outra listagem a que serve de c lculo do Recall para o documento e medida em causa Partial doc by doc Terms Evalution Percentage Dist Terms Evaluation Distribution See Listing of terms See Recall List of terms Figura 7 33 Bot es que permitem ver a distribui o das avalia es dos autores e listagens dos termos avaliados Results for Document pt 32
193. lect Metric Overall Plots S EK Statistics ER P Precision Please Select One Evaluator gpl z Check To Use All Evaluators Chose the Measure to Plot are PY EN EO ED Precision bubbled m 10 gt Overall Results Partial doc by doc Generate Precision Al metrics Total Preciton Ava Select Document From List E AlMetrics Recall Ava L 32005d0754 txt t_42005x1124_02 txt t_32006d0527 txt t_32006q0804_01 txt Threshold Precision Precision Near Good Total Precision Recall F Measure L 3200601228 01 txt Em 1 4 S T Partial doc by doc Terms Evalution Percentage Dist see Recal Listof terms Figura 7 29 Janela da Aplica o de BackOffice A semelhan a da componente anterior tamb m disponibilizado um componente para alterar a l ngua sobre a qual se quer ver os resultados das avalia es Figura 7 30 Componente para selec o da lingua dos documentos Nesta componente do prot tipo podemos escolher no componente identificado por 1 na Figura 7 31 qual o avaliador de quem queremos ver os resultados J a componente identificada por 2 permite alterar a forma como vemos os resultados da avalia o do avaliador Se parcialmente documento a documento se de uma forma total permitindo a an lise da m dia dos resultados 169 170 Check To Use All Evaluators Overall Results Partia
194. les e sabe se que as palavras podem ser pr processadas o que pode incluir entre outras opera es a de excluir palavras que n o s o relevantes em termos de extrac o de informa o nomeadamente artigos preposi es conjun es entre outras palavras sem significado sem ntico relevante Visto serem estas as mais frequentes e que ocupam cerca de quarenta por cento das ocorr ncias mesmo sabendo que por vezes nestes quarenta por cento podem ser Stop Words 10 ei s Bak E o processo de agrupar as diferentes formas flexionadas duma palavra resumindo as a uma forma b sica para que possam ser analisadas como um nico elemento 45 incluidos alguns termos que contenham algum significado Mas as abordagens estatisticas baseiam se sobretudo em medidas de frequ ncia e outras mais especificas que apresento nas subsec es seguintes 23 11 TfIdf 46 O Tf Idf Term Frequency Inverse Document Frequency foi inicialmente apresentado em 21 por Salton e Buckley Trata se de uma m trica de c lculo de relev ncia de termos bastante utilizada nas reas de Recupera o de informa o Information Retrieval de Extrac o de Informa o e de text mining Permite medir o qu o importante um termo palavra multipalavra ou prefixo num determinado documento em rela o a outros termos ocorrendo nesse e noutros documentos da colec o ou corpus considerado para estudo Esta m trica obtida pela multiplica
195. liador e o texto base e os descritores a classificar Tamb m foi implementado uma interface que permite analisar os resultados dos diferentes avaliadores e perceber quais os valores de Precis o Cobertura e F Measure sec es 2 8 1 e 2 8 2 associados a estes resultados Possibilita ainda verificar a estat stica Kappa sec o 2 8 3 entre dois avaliadores O manual do utilizador do prot tipo apresentado no anexo 2 sec o 7 desta disserta o Desenho e Diagrama do prot tipo Apresenta se de seguida um diagrama de pacotes que ilustra o desenho adoptado na implementa o do prot tipo package Data E Untitled 1 ore R gui E Default l oc logic metrics a Gbe 4 X na D C l N ui S E A l ES L L terms resultsMetrics utils sufArray Figura 3 1 Diagrama de Pacotes do Prot tipo Como se pode verificar pela figura anterior adaptou se uma organiza o em tr s n veis no desenvolvimento do prot tipo Assim qualquer desenvolvimento posterior ser localizado num s pacote e estanque nas repercuss es pelo resto do c digo desenvolvido 3 8 Considera es 3 8 1 Considera es sobre Trabalho Realizado No trabalho que desenvolvi fiz uso de uma suffix array ordenada Isto permitiu me fazer a extrac o de palavras e de prefixos de uma forma muito r pida e eficiente Permitiu me tamb m usar a suffix array para encontrar onde as multipalavras
196. lmente na colec o no caso do Phi Square do Rvar e da Informa o M tua mediante a aplica o de 57 medidas estatisticas ver secc o 2 3 1 ou das alternativas que foram desenvolvidas que podem ser vistas na sec o 3 2 do capitulo 3 Num trabalho ja referido anteriormente 26 foram feitas experi ncias tamb m na extrac o de unigramas relevantes mas seguindo a metodologia descrita na sec o 2 3 3 David Ferreira no seu trabalho 12 embora o seu objectivo fosse o de fazer Clustering de Web Snippets acabou tamb m por medir a import ncia das palavras para descrever o conte do desses Web Snippets A descri o do que foi feito pode ser vista em mais pormenor na sec o 2 6 1 J o trabalho de Matsuo e de Ishizuka 28 tamb m se enquadra na rea de extrac o de termos mas a partir de um nico documento Estes autores que t m como objectivo apresentar um algoritmo de extrac o de palavras chave neste caso palavras ou sequ ncias de palavras bigramas sem a utiliza o de um corpus O algoritmo que os autores apresentam descrito da seguinte forma primeiro s o extra dos os termos frequentes de seguida as co ocorr ncias de um termo com os termos mais frequentes s o contabilizadas preenchendo para isso uma matriz de co ocorr ncias de termos par a par Este processo repito feito para um nico documento Se um termo aparece frequentemente com um subconjunto particular termos ent o e
197. lor de relev ncia desse documento associado s palavras procuradas 59 2 5 Extrac o de Multipalavras 60 J nos referimos noutras sec es deste cap tulo a trabalhos que fazem a extrac o de multipalavras nomeadamente 1 10 31 Em qualquer destes trabalhos a extrac o de multipalavras visa t o s este objectivo N o pretendem extrair multipalavras que sejam necessariamente descritores do conte do dos documentos onde ocorrem Em 1 Joaquim F da Silva et al utilizam o SCP que aplicado a um bigrama e definido como se segue py po p x y po p p x py SCP x y p xly p y x 2 1 Onde p x y p x e p y sao as probabilidades de ocorr ncia do bigrama x y e dos unigramas x e y no corpus p x y representa a probabilidade condicional de x ocorrer esquerda no bigrama x y dado que y aparece direita do mesmo bigrama Da mesma forma p y x representa a probabilidade de ocorr ncia de y ocorrer a direita no bigrama x y dado que x aparece 3 esquerda no mesmo bigrama No entanto a fim de se medir o valor de coes o de cada n grama de um qualquer tamanho que possa aparecer no corpus a normalizac o FDPN Fair Dispersion Point Normalizarion foi aplicada ao resultado da aplica o do SCP por forma aos autores terem acesso a uma nova medida de coes o denominada SCH TO de fair esta medida est definida na equa o 2 2 2 SCHT Wy W 7 AP i 3 n 1 Zi
198. luation sobre ac es neste 0 000825607819865 No Evaluation ordem do dia a participar 0 000825607819865 No Evaluation Figura 7 26 Tabela de termos com alguns j avaliados 167 Phi L TE laf L M RVAR L M MI L B M Phi L B M RVAR Terms Phi Square Metr Figura 7 27 Lista de medidas que s o obrigat rias de avaliar Os bot es da figura seguinte permitem guardar em disco as avalia es feitas pelo avaliador para determinado documento bot o Save Evaluation Enquanto que o bot o Save PT Structures serve para guardar em disco as estruturas utilizadas pelo prot tipo neste caso estruturas de Portugu s Consoante a l ngua que estiver a ser avaliada o bot o identificar a l ngua pela sua abreviatura Save EN Structures para o ingl s e Save CZ Structures para o Checo Save PT Structures Save Evaluation Figura 7 28 Bot es para salvar a Avalia o Efectuada e o bot o para salvar as estruturas de termos criadas 168 7 3 Janela de Leitura das Avalia es feitas pelos Avaliadores Esta Figura 7 29 a componente do prot tipo que vai permitir fazer a leitura das avalia es feitas pelos avaliadores para os v rios documentos Ao longo desta sec o descreve se os v rios componentes oferecidos ao utilizador 4 Automatic Document Topic Detection Back File Edit Please Select The Language Please Se
199. lva para o documento pt 32006R0198 html Apresenta se de seguida listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para as medidas pedidas 8 3 1 Phi Sguare termo pelo Avaliador forma o profissional cursos de forma o profissional cont nua 0 005096688636165 good topic descriptor Tabela 8 19 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento pt32006R 198 html na medida Phi Square 190 8 3 2 Least Tf Idf Avaliac o dada ao Termos Valor da medida termo pelo Avaliador profissional 0 017270167990526 near good descriptor cont nua 0 016727894319951 bad descriptor rofissional cont nua 0 016727894319951 good topic descriptor L 0 0121845 15615767 good topic descriptor cursos 0 0121845 15615767 good topic descriptor orma o profissional continua good topic descriptor forma o good topic descriptor good topic descriptor orma o profissional good topic descriptor good topic descriptor imputa o good topic descriptor orma o espec ficas das pessoas empregadas 0 009174378153781 good topic descriptor 0 009174378153781 bad descriptor empregadas 0 009174378153781 near good descriptor empresas good topic descriptor near good descriptor rofissional nas empresas bad descriptor orma o profissional nas empresas good topic descriptor near good descriptor bad
200. ly damaged in the quake Shelly said an emergency State Department telephone number in Washington to provide infor mation about private American citizens in Japan had received over 6 000 calls more than half of them seeking direct assistance 6 The Pentagon has agreed to send 57 000 blankets to Japan and U S ambassador to Tokyo Walter Mondale has donated a 25 000 discretionary fund for emergencies to the Japanese Red Cross Shelly said 7 Japan has also agreed to a visit by a team of U S experts headed by Richard Witt national director of the Federal Emergency Management Agency Sn Figura 2 13 Um Documento intitulado Two Americans dead in Japan quake Exemplo retirado de 14 No texto da Figura 2 13 as palavras Japan e quake s o palavras t pico e evento em simult neo Os pr prios autores admitem que esta diferencia o entre t pico e evento nem sempre se verifica e podem tamb m existir casos onde uma mesma palavra pode ser t picos e evento ao mesmo tempo segundo a defini o dos autores Quando acontece uma colis o destas os autores assumem a palavra como sendo um t pico e n o um evento Assim os autores apresentam uma metodologia para extrair par grafos chave com o objectivo da sumariza o de multi documentos documentos de not cias difundidos por cadeias noticiosas com base em t picos e eventos A t cnica que os autores usam para fazer a distin o entre t pico
201. m a single Document using word Co Occurence Statistical Information International Journal on Articial Intelligence Tools vol 13 no 1 pp 157 169 2004 K Gurney An Introduction to Neural Networks CRC Press 2003 A Das M Marko A Probst et al Neural Net Model for featured word extraction CoRR cs NE 0206001 2002 R Yangarber and R Grishman Machine Learning of Extraction Patterns from Unannotated Corpora Position Statement Workshop Machine Learning for Information Extraction I Press ed pp 76 83 Amsterdam 2000 B Georgantopoulos and S Piperidis Automatic Acquisition of Terminological Resources for Information Extraction Applications in NIT Conference Athens 1998 A C N Ngomo Knowledge Free Discovery of Domain Specific Multiword Units in SAC 08 Cear Brazil 2008 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 Y Uzun Keyword Extraction Using Naive Bayes Bilkent University Department of Computer Science Turkey University 2005 M Litvak and M Last Graph Based Keyword Extraction for Single Document Summarization pp 17 24 J Y Delort B Bouchon Meunier and M Rifgi Enhanced Web Document Summarization Using Hyperlinks pp 208 215 J Allan J Carbonell G Doddington et al Topic Detection and Tracking Pilot Study Final Report N Guarino Formal On
202. m associado a dom nio do multilinguismo e a peritos no dom nio do multilinguismo que s o altamente correlacionados entre si e altamente descriminantes do conte do do documento em causa Ver Figura 7 24 A extrac o destes t picos ou palavras chave til numa variedade alargada de aplica es de que se destacam a constru o autom tica de ontologias a sumariza o de documentos o agrupamento e a classifica o de documentos visando aceder mais facilmente e eficazmente informa o que realmente se procura http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006D0644 PT HTML 27 Um dos requisitos das palavras chave ou t picos o de deverem ser bons descritores do contetido dos documentos a que se referem E um bom descritor de um documento o se for relevante no seu contexto pelo que importa definir o que a relev ncia no mbito em que se fala dele Intuitivamente espera se que a relev ncia de um termo palavra ou multipalavra num documento esteja relacionada com a sua frequ ncia nesse documento e em documentos que tratem da mesma problem tica n o devendo surgir de prefer ncia em documentos que tratem de outros temas Uma medida que modela este tipo de considera es a relev ncia do termo a m trica Tf Idf que mede a frequ ncia do termo Tf term frequency multiplicada por um factor que tem em linha de conta o inverso da frequ ncia dos documentos onde ocorre o termo Id
203. m que g aparece a dividir pelo n mero de termos no documento Para os autores um grande valor de 7 w indica que a co ocorr ncia do termo w mostra uma desvio grande Os autores usam esta medida como um indice de desvios e n o para testar hip teses Este trabalho com um menor grau de satisfa o lembra o trabalho de Ventura 27 Uma outra forma de abordar a extrac o de palavras recorrer a uma rede neuronal lt artificial 29 que um modelo de programa o que pretende ter semelhan as ao modelo neuronal biol gico Consiste num grupo de neur nios artificiais que processam a informa o e a passam para outros neur nios artificiais A liga o entre os neur nios permite formar uma rede complexa de grande poder computacional O trabalho 30 um exemplo da utiliza o de redes neuronais para a extrac o de unigramas relevantes Neste caso cada n da rede tem uma palavra associada aos termos pesquisados por um utilizador com o mesmo peso inicial Posteriormente recebe como entrada no modelo da rede um documento e se houver uma rela o entre o documento e uma palavra presente nalgum dos n s o peso desse n elevado a um n vel superior Esse peso tem como base uma energia que resulta da posi o da palavra no documento Este processo de evolu o da rede neuronal continua at que seja alcan ado um n vel de estabiliza o de energia entre os n s e o grupo de n s que tenha mais energia d o va
204. matriz de confus o para os resultados verificados necess rio calcular a matriz de confus o para os resultados esperados Esta matriz preenchida tendo por base os valores da primeira matriz onde cada posi o desta nova matriz preenchida pelo resultado da seguinte express o Linha MCRV Y Coluna MCRV MCRE posti j Pos Lj n Linha MCRV 2 45 Avaliador 1 GD NGD BD U NE Total linha GD 1 2 0 0 612 0 3 a NGD 0 0 0 01 10 U E BD 0 0 0100 1 E U 0 81 O 0 4 0 8 0 2 NE 0 0 U 1010 0 Total Col 2 0 212110 6 Tabela 2 3 MCRE Matriz Confus o com resultados esperados entre dois avaliadores Exemplificando MCRE 1 E a 12 Tendo as duas matrizes de confus o calculadas podemos ent o calcular a estat stica kappa atrav s da equa o Bio P e trials P e 87 No caso do trabalho realizado para a elabora o desta disserta o P a representa o somat rio da diagonal principal da matriz de confus o dos resultados verificados pelos dois avaliadores P e Representa o somat rio da diagonal principal da matriz de confus o para os valores esperados entres os dois avaliadores e onde trials o numero total de termos avaliados pelos avaliadores Tendo o valor kappa calculado vamos consultar a seguinte tabela de forma a identificar o grau de concord ncia entre os dois avaliadores V
205. mm 2 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 39 Valores de Precis o Cobertura e F Measure para Phi Sguare Precisions for Document en 32006q0804 01 txt From Evaluator gpl For Metric least tf idf 0 7 i i 0 6 0 3 H 0 2 DEE 0 0 Values 5 6 7 8 9 W u 2 B 4 5 6 7 B 19 Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision 4 Recall F Measure Figura 8 40 Valores de Precis o Cobertura e F Measure para Least Tf Idf Precisions for Document en_32006q0804_01 txt From Evaluator gpl For Metric least_median_rvar Values 5 6 7 8 9 0 u 2 B 4 1 16 7 B 19 20 Steps 5 10 15 20 Precision Precision Near Good Total Precision Recall F Measure Figura 8 41 Valores de Precis o Cobertura e F Measure para Least Median Rvar 238 Precisions for Document en_32006q0804_01 txt From Evaluator gpl For Metric least_median_mi 0 6 m E E 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u B 4 5 6 7 B Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 42 Valores de Precis o Cobertura e F Measure para Least Median MI Precisions for Document en 32006q0804 01 txt From Evaluator gpl For Metric least bubbled median phisguare 0 6 0 5 0 4 0 3 0 2 0 1 0 0 Values 5 6 7 8 9 0 u 2 B 4 1 16 7 B mm 2 Steps 5 10 15 20 P
206. mo avaliador Tabela 4 19 Tabela 4 41 e Tabela 4 57 verifica se que o Ingl s tem a maior precis o assinalada para os primeiros cinco termos extra dos 84 4 utilizando a medida Phi Square contra 72 8 para o Portugu s e 75 para o Checo mas utilizando a medida Least Tf Idf A utiliza o das Suffix Arrays mostrou se bastante produtiva nos tempos de extrac o das palavras e prefixos desta estrutura Quest es de performance neste caso foram totalmente alcan adas Existe um problema a ser optimizado de futuro que a incorpora o do extractor de multipalavras como parte integrante do sistema 5 2 Trabalho Futuro Sendo o principal objectivo do trabalho apresentado a ordena o de palavras chave atrav s de medidas para a extrac o de palavras e ou multipalavras que sejam considerados como bons descritores de documentos antevemos uma poss vel futura utiliza o deste trabalho nas reas de agrupamento e classifica o de documentos O trabalho realizado nesta tese possibilitou a cria o de v rias medidas ver sec o 3 2 que poderiam ser utilizadas numa adapta o do trabalho realizado por de David Ferreira 12 Adapta o que consistiria em experimentar uma das medidas criadas neste trabalho no seu c lculo da import ncia de um termo Em alem o onde os nomes podem resultar da concatena o de v rios elementos correspondendo tamb m a nomes compostos ou multipalavras A extrac o de sequ ncias de 4 ou 5
207. mo podemos ver na Figura 7 24 Results for Doc Phi L Tfidf L M RVAR L M MI L B M Phi L B M RVAR TFidf and Variants Phi Variants RVAR And Variants MI and Variants Terms Phi Square Metric Evaluation Evalution Value Figura 7 23 Componente com tabs onde vao aparecer as listagens de termos para as varias medidas 165 Results for Doc pt_32006D0644 txt Phi L Tfidf LM RVAR L M MI L B M Phi L B M RVAR TFl f and Variants Phi Variants RVAR And Variants MI and Variants Terms Phi Square Metric Evaluation Evaluation Value multilinguismo 009908288310593 Evaluation Jalto nivel sobre o multilinguismo 003302521679425 Evaluation Jnomeados a titulo 002476868659165 Evaluation dom nio do multilinguismo 001651230706116 Evaluation icomposto por oito 001651230706116 Evaluation cria o grupo 001651230706116 Evaluation grupo ser composto por oito 001651230706116 Evaluation publica o dos nomes 001651230706116 Evaluation grupo ser composto 0 001651230706116 Evaluation Grupo ou subgrupo 0 001651230706116 Evaluation cria o grupo de alto 001651230706116 Evaluation iser composto por oito 001651230706116 Evaluation Jrespectivo mandato 0 001651230706116 Evaluation membros do grupo 0 0016 15023120618 Evaluation subgrupos 0 00 1615023120618 E
208. moges on February 25 1841 9 3 Renoir noun Syntactic Analysis e e was verb C pu Semantic Analysis 5 s gt o Subject Pierre Auguste Renoir E Verb born d x Object on February 25 1841 Limoges Tense past U x R 5 Renoir person February 25 1841 bars st date of birth Date Limoges location Relation Formulation Person place o birth Place bom bear Output XML lt person gt lt name gt Pierre Auguste Renoir lt name gt lt place of birth gt Limoges lt place of birth gt lt dato of birth gt lt year gt 1841 lt year gt lt date_of_birth gt lt porson gt Figura 2 14 Processo de Extrac o de Informa o do Artequakt s Imagem retirada de 46 A forma como o sistema de extrac o de conhecimento dos autores funciona atrav s da identifica o e extrac o de triplos de conhecimento conceito relac o conceito de documentos e fornece os ao resto do sistema dos autores como ficheiros XML Este processo iniciado com a busca de documentos Web num qualquer motor de pesguisa seguidamente este documento processado para reconhecimento de entidades com nome No caso deste trabalho os autores usam o sistema GATE Ap s este passo o procedimento de extrac o processado sendo cada documento dividido em par grafos e em frases onde cada frase analisada sint ctica e semanticamente para extrair os triplos relevantes Na an l
209. mos n o avaliados consider vel Mas as variantes destas duas medidas acabam por dar resultados bastante semelhantes Conv m dizer que a escolha destas medidas para serem avaliadas pelos avaliadores foi feita com base nos os resultados preliminares que se foram verificando ao longo do desenvolvimento do trabalho Acresce ainda que t nhamos que limitar a quantidade de trabalho pedida aos avaliadores Assim e para que uma amostra representativa de todos os tipos de medidas utilizadas escolheu se o Phi Square para o tipo de medida base a medida Least Tf Idf para uma medida com o operador Least Para a conjuga o 111 112 de operadores escolhemos Least Median RVar Least Median MI Least Bubbled Median Phi Square e Least Bubbled Median Rvar A escolha da medida Least Median Rvar tinha de ser feita pois era a medida que havia sido considerada como a melhor em 7 N o escolhemos uma medida s com o operador Bubble porque o efeito Bubbled pode ser verificado nas medidas Least Bubbled Median esolhidas Iremos tomar como exemplos alguns ficheiros do corpus que foram avaliados apresentaremos as listagens de termos que foram apresentados aos avaliadores apresentaremos as avalia es que os avaliadores deram a esses mesmo termos correlacionaremos o grau de concord ncia entre cada dois avaliadores que avaliaram o mesmo documento atrav s da apresenta o do valor Kappa ver sec o 2 8 3 Para cada l ngua ut
210. mponente de processos mais complexos Abordarei tamb m metodologias de extrac o de termos chave palavras e multipalavras Depois e por uma quest o de completude apresentarei a seguir m tricas de avalia o dos resultados H tamb m a apresenta o das Suffix Arrays que a estrutura de dados eleita para utiliza o neste trabalho 37 2 1 Representa o de Documentos 38 A representa o dos documentos poder ser realizada de v rias formas H uma forma de representa o mais usual em trabalhos da natureza deste e que a de o documento ser representado por um vector em que os constituintes s o as palavras que constituem o documento Esta a representa o saco de palavras Os documentos podem tamb m ser representados pelas multipalavras l contidas que os constituem Entende se por uma multipalavra uma sequ ncia n o interrompida de palavras que se deseja que tenham necessariamente um significado como seria o caso de c mara escura m quina fotogr fica ind stria cinematogr fica Estas multipalavras ou s o extra das tendo em linha de conta informa o morfo sint tica de cada um dos seus constituintes das frases do documento n o sendo por isso a sua extrac o independente da l ngua 9 10 ou s o extra das tendo em linha de conta o grau de coes o estat stica entre as palavras constituintes dos documentos em an lise 2 sendo neste caso a sua extrac o independente da l
211. n 20 Figura 8 46 Precis o total para todos os documentos em Ingl s para a medida Least Tf Idf Overall Total Precision for All Files From Evaluator gpl For Metric least median rvar 1 00 0 75 a 2 0 50 gt 0 25 0 00 1 G A we A A ar p oo oo wom af at D a PS ont ape R ei BA x ab oe 4 d pre P ah G ab ay ab Er ae at ef DEN et ef e7 A ere ef ete Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 47 Precis o total para todos os documentos em Ingl s para a medida Least Median Rvar 240 Overall Total Precision for All Files From Evaluator gpl For Metric least median mi 1 00 0 75 W 2 0 50 gt 0 25 0 00 A Vi A a ot of ot a p eo ast wor Bi et ahs ei sf t gf af pf ap Bag od ef a n y X E ap a ae at ef ere et et eD eD ete er ete Documents F Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 48 Precis o total para todos os documentos em Ingl s para a medida Least Median MI Overall Total Precision for All Files From Evaluator gpl For Metric least bubbled median phisguare 1 00 0 75 w w 0 50 gt 0 25 0 00 i BE hs x A as apm ep Di D o at AA ep oe ant GY AD GA we ost aot ob acne ab 09 o ATP ao Eta as 9 ff go ae ao ef DEN et ef ef ef et e7 et Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 e Total P
212. nado de X para Y 71 Na abordagem supervisionada de classifica o os autores para tentarem identificar os n s salientes do grafo treinaram algoritmos de classifica o numa colec o de textos com o objectivo de induzir um modelo de identifica o de palavras chave Cada n de cada grafo de cada documento pertence a uma de duas classes YES se a palavra correspondente est inclu da no sum rio extra do do documento NO caso contr rio Sen 25 a Os autores consideram caracter sticas de um grafo nomeadamente o grau do n que caracteriza a estrutura do grafo bem como caracter sticas estat sticas AS e 26 caracter sticas s o as seguintes In Degree 27 numero de liga es que entram Out Degree n mero de liga es que saem Degree n mero total de liga es A Frequ ncia do termo representado pelo n A Distribui o das palavras frequentes valor ente zero e um sendo 1 se a frequ ncia do termo for maior ou igual a um limite o Location Score que calcula uma m dia de valores Scores de localiza o entre todos as frases que contenham a palavra N representada pelo n o Tf Idf da palavra representada pelo n e o Headline Score valor ente zero e um sendo um se e s se o t tulo do documento contem a palavra representada pelo n Na abordagem n o supervisionada de agrupamento correram o algoritmo HITS no grafo do documento
213. ndex SuffixArray saln int numberofChars System out println buildSuffixArray HashMapOf Prefixes docIndex Terms Preffix chars new Terms int innernumberofChars numberofChars 1 for int i 0 i lt saln a length i String suffix saln s substring saln a il int suffixPos saln alil if suffix startsWith if suffix length gt 1 Prefixes starting by numbers or by symbols are not considered if saIn isDigit suffix false amp amp saIn isSymbol suffix false int toIndex innernumberofChars String preffix suffix substring 0 toIndex if preffix trim length lt numberofChars if lpreffix trim contains for Document doc documents if doc belongsToDocument suffixPos Preffix chars insertNewTerm preffix doc return Preffix chars 158 Anexo 2 Manual do Utilizador do Prot tipo O Prot tipo desenvolvido composto por tr s componentes diferentes Uma primeira janela apresenta todas as configura es poss veis que se podem aplicar para obter os resultados As outras duas componentes s o a janela de avalia o de termos e a outra a janela de leitura das avalia es feitas pelos avaliadores 7 1 Janela de Configura o A seguinte Figura 7 1 disponibiliza ao utilizador todos os par metros de configura o poss veis de alterar Ao longo desta sec o detalhar se
214. nestas etapas da minha vida Agrade o ao meu orientador Prof Doutor Gabriel Lopes pela paci ncia que teve ao longo dos ltimos meses Paci ncia por todas as nossas discuss es sobre o trabalho realizado nesta disserta o as quais me possibilitaram atingir um novo n vel de experi ncia e conhecimento Agrade o lhe ainda toda a for a e motiva o que me deu Ao longo destes meses aprendi muito consigo Al m de orientador considero o acima de tudo um Grande Mentor e Amigo para o resto da vida Foi um prazer realizar o trabalho desta tese na sua companhia Agrade o tamb m ao meu Co Orientador Prof Doutor Joaquim Ferreira da Silva pela ajuda que me deu nos momentos em que precisei Um Agradecimento especial Prof Doutora Rita Ribeiro coordenadora do CA3 UNINOVA local onde cresci como profissional investigador e acima de tudo como pessoa Agrade o lhe ainda ter me ajudado a realizar um sonho de menino ao dar me a hip tese de trabalhar na rea do Espa o Agradecer ao Pessoal do CA3 que me acompanhou durante estes meses e que aturou o meu S fia ca e e E i mau feitio durante a realiza o da minha disserta o quando as coisas n o corriam pelo melhor primeira N o posso deixar um agradecimento especial aos meus amigos de sempre minha namorada que me apoiaram e motivaram quando foi preciso A Todos o Meu Muito Obrigado iii iv Resumo E amplamente conhecida a necessidade de s
215. nte sem recurso a qualquer conhecimento lingu stico 2 LeastRVar RE least RVar Imostw RE Rvar rmostw RE 2 7 onde Ka 1 pW dj p W i Rvar W TDI A eS 5 2 8 e onde p W tem o significado de probabilidade m dia da palavra W tendo em conta todos os documentos e Rvar aplicado palavra mais esquerda e palavra mais direita de cada express o relevante multipalavra RE ou seja Imostw RE e rmostw RE p W d a probabilidade da palavra W no documento d calcul vel atrav s da equa o 2 4 1 pW A pwd 29 IDI A Ao proporem a utilizac o de Rvar W ou autores 1 tiveram como objectivo medir a varia o da probabilidade da palavra W ao longo de todos os documentos da colec o Segundo os autores 1 a forma mais comum Rvar de Relative Variance uma medida de vari ncia ponderada que o segundo momento relativamente m dia e 4 Ao realizar o presente trabalho n o pude constatar esta afirma o 48 que beneficia erradamente palavras muito frequentes sem significado semantico como de das e ou entre outras Como os autores mencionam isto acontece porque a diferen a absoluta entre as probabilidades de ocorr ncia destas palavras ao longo de todos os documentos alta independentemente do facto de que geralmente ocorrem sempre em todos os documentos Assim estas diferen as s o capturadas e sobrevalorizadas pela vari
216. nto de treino Sumariza o de Documentos Com a quantidade de informa o presente em documentos electr nicos e com a tend ncia para o seu n mero aumentar cada vez mais os m todos de sumariza o de documentos s o cada vez mais importantes No trabalho realizado por Marina Litvak e Mark Last 35 que exemplifica duas abordagens novas uma supervisionada logo uma abordagem de classifica o e outra n o supervisionada vulgo agrupamento Os autores neste trabalho apresentam o primeiro passo de extrac o de sum rios onde as palavras mais salientes palavras chave s o extra das para gerar o sum rio Como cada palavra distinta representada como um n do grafo do documento os autores reduzem o problema de extrac o de palavras chave ao problema de extrac o de n s salientes em grafos Ou seja as duas abordagens baseiam se na representa o sint ctica baseada em grafos que representam textos e documentos Web onde os n s mais salientes dos grafos representam as palavras chave dos documentos em causa Esta representa o em grafo definida como representando os arcos as rela es entre palavras e representando cada n uma nica palavra ou seja n o h repeti o de n s mas sim o incremento de um contador do n mero de vezes que essa palavra ocorre num n que j exista Se uma palavra X precede imediatamente uma palavra Y na mesma frase algures num documento ent o passa a existir um arco direccio
217. o c lculo da estat stica obtido de 0 0196078431372549 o que d aproximadamente 1 96 de concord ncia 8 1 5 Kappa para a Medida Least Bubbled Median Phi Square Este c lculo refere se medida Least Bubbled Median Phi Square para o documento pt 32006R0198 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 8 U 1 0 0 9 T Near Good E Descriptor 0 0 3 0 0 3 Bad Descriptor O 1 12 0 0 13 lt Unkown 0 0 0 0 0 0 No Evaluation O 0 0 0 0 0 Column Total 8 1 16 0 0 25 Tabela 8 9 Matriz Confus o de Resultados Verificados para Least Bubbled Median Phi Square S http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 181 Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 2 88 0 36 5 76 0 0 9 T Near Good Descriptor 0 96 0 12 1 92 0 0 3 G Bad Descriptor 4 16 0 52 8 32 0 0 13 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 8 1 16 0 0 25 Tabela 8 10 Matriz Confus o de Resultados Esperados para Least Bubbled Median Phi Square Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da esta
218. o de Medidas A implementa o das medidas no prot tipo desenvolvido tem duas partes distintas A primeira uma componente l gica que recebendo todos os par metros necess rios faz o c lculo da medida pretendida Por exemplo se quisermos calcular o valor do Tf Idf far amos uso de uma classe est tica Java que recebe o valor do n mero de ocorr ncias do termo num determinado documento o n mero total de termos nesse mesmo 7 http hlt di fet unl pt luis multiwords index html 107 documento o numero total de documentos e o n mero de documentos onde o termo a ser tratado ocorre devolvendo posteriormente o valor para a medida Tendo este valor calculado estamos prontos para usar a segunda parte que comp e a parte de implementa o das medidas Na estrutura desenvolvida cada termo tem como membro privado da sua classe um objecto que representa uma determinada medida onde vamos guardar os valores das medidas calculados como o Tf Idf acima descrito Isto possibilita a persist ncia dos dados em suporte f sico permitindo tamb m que o c lculo das medidas seja feita uma s vez na inicializa o das estruturas caso n o existam em suporte f sico no arranque do prot tipo 3 7 Prot tipo 3 7 1 108 Nesta sec o pretende se dar uma vis o mais global sobre o prot tipo que foi idealizado e realizado no decorrer deste trabalho Foi desenhado para permitir a uma interac o mais user friendly entre o ava
219. o de duas partes distintas Tfe o Idf A primeira componente Tf mede o n mero de vezes que um termo uma palavra uma multipalavra ou um prefixo ou qualquer outra sequ ncia de caracteres ocorre num determinado documento ou seja representa a frequ ncia do termo Esta contagem depois normalizada para prevenir que as palavras em documentos muito extensos obtenham valores de TT muito elevados e em consequ ncia pouco rigorosos em rela o a outros documentos mais reduzidos A equa o 2 1 mede portanto a probabilidade de um termo i ocorrer num documento j L j nN x Z 2 4 Zk Nj onde n j o numero de vezes que o termo i ocorre no documento j o denominador desta equa o denota o somat rio da frequ ncia de todos os termos do documento isto por outras palavras o tamanho do documento j A componente Idf mede a import ncia geral de um determinado termo ti numa colec o de documentos E definida com base na contagem do n mero de documentos em que esse determinado termo ocorre como se pode ver na equa o 2 5 ID 2 5 Onde D representa o n mero total de documentos no corpus ou colec o e a ti E d o numero de documentos onde o termo ti ocorre pelo menos uma vez isto nij 0 Nesta componente h que ter em linha de conta que insens vel a distribui o das ocorr ncias pelos diferentes documentos e valoriza excessivamente as ocorridas por lapsos ortogr ficos e todas as
220. o fornecer uma nova ferramenta a trabalhos posteriores de sumariza o de documentos de Agrupamento ou indexa o de documentos de constru o de ontologias vi Abstract It s widely known the need to have Keywords and topics associated to documents A keyword or topic from a document is a word or multi word sequence of more than 2 words that having a more precise meaning summarizes in itself part of the content of that document This work plan intends to develop a new methodology to work with the problem of automatically extracting key words For that we intend to work this problem at the level of words multi words and prefix of words with fixed length 4 and 5 characters The use of word prefixes will allow us to deal with highly inflected languages serving this kind of topic prefixes as a marker of an entire family of words or multi words which in that case might be promoted to topics themselves being the extraction of these prefixes innovative relatively to the state of the art The extraction made is based on statistics which will allow us to work with texts of several languages namely Portuguese English and possibly Czech that are the case study of this work We pretend to improve the extraction time of topics and for doing that we made use of Suffix Arrays The results were evaluated by external people It s also made a very exhaustive comparison between 24 extraction methods some new proposed in this wor
221. o prefixo comum entre o sufixo s i 1 e o sufixo s i Por exemplo s 10 e s 11 partilham um prefixo comum de 4 caracteres portanto cp 11 91 4 Nesta figura 0 prefixo comum esta destacado a tracejado na suffix array e que a mesma apresentada na Figura 2 16 Exemplo baseado em 8 92 De acordo com Stefan Burkhardt e Juha Karkkainen 50 a constru o de suffix arrays podem ser divididas em quatro categorias e segundo os mesmos os algoritmos de constru o de Suffix arrays baseados em ordena o dos sufixos como strings independentes como no exemplo apresentado s o a melhor op o para lidar com o problema que esta proposta de trabalho aborda De facto terei de determinar frequ ncias de multipalavras de palavras e de prefixos de 4 ou 5 caracteres de palavras e respectiva localiza o poder aplicar qualquer das m tricas de valoriza o dessas unidades textuais e ao utilizar as Suffix arrays bastar me percorrer a suffix array do in cio ao fim para ter imediatamente as caracter sticas de que necessito Capitulo 3 Contribuic o e Trabalho Realizado 3 1 Corpus de Teste lt O Corpus de teste utilizado para a realiza o deste trabalho composto por um conjunto de textos em portugu s ingl s e checo retirados da legisla o europeia em vigor http eur lex europa eu pt index htm Estes textos s o os mesmos para as tr s l nguas com a ressalva de o checo ter mais nove documentos do que as ou
222. o tamanho do documento j No caso das multipalavras para sermos mais correctos dever amos ter diminu do quele denominador o n mero de palavras de cada multipalavra menos um Isto justifica se porque o n mero de poss veis multipalavras constitu das por N palavras existentes num documento igual ao n mero de palavras desse documento menos N 1 Contudo porque os documentos com que trabalh mos eram todos de tamanho superior a setecentas palavras opt mos por n o complicar mais os c lculos e por n o alterar aquele denominador Conv m acrescentar que trabalh mos com multipalavras de cinco palavras no m ximo Na componente idf n o existe nenhuma adapta o e a componente calculada de forma id ntica para todas as variantes de representa o de documentos adoptada 47 Na experimenta o realizada ver Cap tulos 3 e 4 pudemos verificar que a m trica RVar sec o 2 3 1 2 e Informa o M tua sec o 2 3 1 5 s o tamb m muito sens veis aos lapsos ortogr ficos ou a ocorr ncias raras 2 3 1 2 Rvar LeastRvar e LeastRvarLen De acordo com o trabalho realizado em 1 onde s se avaliaram multipalavras os autores afirmam que a m trica Tf Idf n o privilegia necessariamente as express es relevantes multipalavra mais fortes Assim para colmatar esta aparente fraqueza da medida Tf Idf em 1 propuseram uma nova m trica LeastRVar Vocacionada para promover ou despromover multipalavras extra das automaticame
223. ocorr ncias raras em particular se a colec o de documentos for muito grande Se olharmos com algum cuidado para a equa o 2 6 que define Tf Idf constata se que ocorr ncias nicas leva a baixos valores resultantes da equa o 2 4 em particular se os documentos onde aparecem forem grandes e a um m ximo no valor resultante de 2 5 especialmente no caso de colec es muito grandes Tf Idf tfs idf 2 6 Com base nesta medida torna se possivel comparar entre documentos diferentes a import ncia obtida para cada termo em particular se as colec es de documentos com que se trabalha nao forem muito grandes ou pelo menos se os tamanhos dos documentos constituintes n o forem demasiado pequenos No trabalho realizado esta medida foi utilizada quando a representa o dos documentos feita com base em palavras ou prefixos ou multipalavras Com as respectivas adapta es mais propriamente na componente tf j Quando a representa o feita por multipalavras n da equa o 2 4 representa o n mero de vezes que a multipalavra 1 ocorre no documento j Quando a representa o feita com base em prefixos er da equa o 2 4 representa o n mero de vezes que o prefixo 1 ocorre no documento j De forma an loga s o tratadas as palavras O denominador desta componente para os casos das palavras e dos prefixos o somat rio da frequ ncia de todos os termos do documento isto por outras palavras
224. of Gabriel Lopes para o documento cs 32006D0644 html na medida Least Tf Idf 255 8 29 3 Least Median Rvar Avaliac o dada ao termo pelo Valor da Medida Avaliador mnohojazy nosti 5 000000000000000 good topic descriptor mnohojazy nost 4 000000000000000 good topic descriptor projedn van ch 4 000000000000000 bad descriptor pozorovatel m 3 000000000000000 near good descriptor 2 000000000000000 zabezpe uje 1 000000000000000 bad descriptor konzultovat bad descriptor shroma uj bad descriptor i 11 000000000000000 bad descriptor sekret sk bad descriptor ozorovatel m cestovn 0 500000000000000 bad descriptor 0 000000000000000 prostor ch 0 000000000000000 bad descriptor nep slu bad descriptor neexistuje bad descriptor zve ejn na bad descriptor odskupiny budou rozpu t ny bad descriptor zve ej uj bad descriptor jednotliv bad descriptor rozpu t ny bad descriptor jazyCnosti good topic descriptor d v rn ch bad descriptor zve ejnit bad descriptor EN zpusobilosti bad descriptor ba B a N GT N G o o E o rn Z a a an L A o H podskupiny near good descriptor zustavaji 9 000000000000000 bad descriptor 9 000000000000000 bad descriptor Tabela 8 65 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento cs 32006D0644 html na medida Least Median Rv
225. ologias a de povoar as mesmas ao inv s de as construir de raiz Nesta abordagem encontram se trabalhos que se focam essencialmente em problemas de dominios especificos Tome se como exemplo o trabalho realizado em 45 onde os autores prop em uma metodologia para retirar informa o pessoal de membros de um departamento da universidade extrair informa o composta pelo grau acad mico email n mero de telefone da pagina pessoal da pessoa em quest o identifica o de grupos de pessoas que trabalhem juntas atrav s da monitoriza o de listas de publica es e em projectos de investiga o que essas pessoas estejam envolvidas Como os autores n o tinham classificadores dispon veis para usar come aram por identificar os nomes de pessoas utilizando um NERC Named Entety Recognizer os autores n o especificam no seu trabalho qual o NERC que utilizaram sendo que os nomes identificados pelo NERC s o ainda validados recorrendo a servi os como o CiteSeer citeseer com Outro trabalho apresentado em 46 onde os autores descrevem o sistema artequakt este sistema procura a Web e extrai informa o ou conhecimento sobre artistas baseado numa ontologia que descreve esse dom nio e posteriormente guarda esse conhecimento numa base de conhecimento que depois usada para produzir biografias personalizadas de artistas 37 http www aktors org technologies artequakt 81 Input HTML Pierre Auguste Renoir was born in Li
226. omo sendo o ganho potencial de precis o entre a malhar e a lista de ordenada de conceitos e definida como Precisionypa Precisionp LDF C 23 Precisionp Se 43 44 Onde C um conjunto de n s da malha conceptual onde documentos est o marcados como sendo relevantes ou n o relevantes para uma dada query Precisionp a precis o da Ranked List e Precisionmpa e a precis o da Minimal Browsing Area Segundo os autores a Minimal Browsing Area e Lattice Distillation Factor podem ser ambas aplicadas a agrupamentos hier rquicos ou qualquer outro agrupamento de resultados A nica dificuldade que os autores apontam ao de calcular a Lattice Distillation Factor a de encontrar a Minimal Browsing Area para uma determinada malha Para ultrapassar esta dificuldade criaram um grafo associado onde todos os n s s o conceitos relevantes e onde o custo associado a cada arco est relacionado ao n mero de documentos irrelevantes que ser o acedidos atravessando esse arco Seguidamente calculam uma minimal span tree para este grafo que lhes dar a Minimal Browsing Area Podemos ver um exemplo do c lculo de uma LDF na seguinte Figura 2 4 Concept Lattice Minimal Browsing Area Calcolation a decor of mre d a ra YR L c i gt Be S j me Tad e 2 e Figura 2 4 C lculo de uma Lattice Destallation Factor Exemplo retirado de 17
227. on O 0 0 0 0 0 Column Total 11 2 12 0 0 25 Tabela 8 40 Matriz Confus o de Resultados Verificados para Least Bubbled Median Phi Square Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 4 84 0 88 5 28 0 0 11 T Near Good Descriptor 0 88 0 16 0 96 0 0 2 E Bad Descriptor 5 28 0 96 5 76 0 0 12 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 11 2 12 0 0 25 Tabela 8 41 Matriz Confus o de Resultados Esperados para Least Bubbled Median Phi Square Com estas duas matrizes o valor de Kappa obtido ver sec o 2 8 3 sobre o c lculo da estat stica de 0 578651685393258 o que d aproximadamente 57 86 de concord ncia 9 http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML 221 8 15 6 Kappa para a Medida Least Bu b bled Median Rvar Este c lculo refere se medida Least Bubbled Median Rvar para o documento en 320060804 01 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good m Descriptor 3 1 0 1 0 5 Near Good Y Descriptor 0 0 4 6 0 10 Bad Descriptor 0 0 10 0 0 10 lt Unkown 0 0 0 0 0 0 No
228. or e outro que vai servir para testar o grau de acerto do classificador previamente treinado na colec o de treino b Classifica o n o supervisionada ou agrupamento propriamente dito onde a classifica o agrupamento deve ser feito sem suporte a nenhum mecanismo externo No que concerne defini o de agrupamento de documentos podemos dizer que est intimamente relacionada ao conceito de agrupamento de dados Agrupamento de documentos uma t cnica espec fica para a organiza o n o supervisionada de documentos que envolve extrac o autom tica de t picos filtragens ou indexa o r pida de informa o Mais podemos afirmar que agrupamento de documentos e classifica o de documentos envolve o uso de descritores e de t cnicas de extrac o de descritores Mas na classifica o interessa nos a ordena o das palavras e das multipalavras e prefixos em termos da sua import ncia relativamente classe e s classes n o relativamente aos documentos Sendo o principal objectivo do trabalho apresentado a ordena o de palavras chave atrav s de medidas para a extrac o de palavras e ou multipalavras que sejam considerados como bons descritores de documentos antev mos uma poss vel futura utiliza o deste trabalho nas reas de agrupamento e classifica o de documentos mais informa o sobre esta discuss o pode ser encontrada no cap tulo 5 Seguidamente apresentam se alguns trabalhos realizados na
229. or representa o do termos como sendo acr nimo ou nome e F w a frequ ncia do termo w Wo w W3 w se W w lt 0 5 WoW W3 w W w 1 Ww W w W3 w 1 W w Wi w gt 0 0 5 se W w 205eW w lt 2 32 se W w 0 5 e W w 0 5 Assim baseado nestas quatro propriedades possivel ao autor atribuir um valor de import ncia W w a um dado termow e quanto mais baixo for esse valor mais importante o termo Ap s ter esta etapa concluida o autor utiliza os resultados obtidos com as propriedades enumerada anteriormente para assim poder trabalhar com as palavras mais importantes encontradas visto que estas representam um papel crucial no processo de categoriza o dos resultados para a nomear as categorias Para isso o autor utiliza um algoritmo que executado em tr s passos A cria o dos p los onde necess rio ao autor inicializar o algoritmo para que sejam escolhidos os termos mais representativos Com esse prop sito todas as palavras que se situem entre as primeiras posi es da lista ordenada de palavras mais importantes para cada url e que existam em mais de dois urls s o propostas para centros iniciais de clusters os ditos p los a unifica o e absor o escolha de um nome identificador para o conte do do cluster A descri o do algoritmo sai foram do mbito do trabalho realizado na presente tese mas real a se o ltimo passo em que atrav s da uni o e absor o cada cl
230. os com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Bubbled Median Phi Square 233 8 17 6 Least Bubbled Median Rvar Termos valorda Medida TEE pelo Avaliador vice chairpersons 16 999999999999996 good topic descriptor simultaneously 14 000000000000000 bad descriptor IZ countersigned 3 000000000000000 bad descriptor far reaching 12 000000000000000 bad descriptor ascertained 1 000000000000000 bad descriptor 11 vice chairs 10 999999999999998 good topic descriptor chairperson 9 488692799006760 good topic descriptor 8 chairperson and countersigned 9 488692799006760 bad descriptor seniority 9 000000000000000 good topic descriptor ooo L absolute majority 000000000000000 good topic descriptor absolute 8 000000000000000 bad descriptor founding 17 999999999999998 bad descriptor chairperson thinks 7 332171708323406 bad descriptor 7 000000000000000 bad descriptor besides 7 000000000000000 bad descriptor Tabela 8 55 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Joaquim Ferreira da Silva para o documento en 320060804 01 html na medida Least Bubbled Median Rvar 234 8 18 Lista de Termos Apresentados aos Avaliadores para outras medidas 8 18 1 Rvar SOA Termo Medida she shall asi 100 Jone of the four categories LO meeting and convene another 100 eac
231. otal Precision Recall F Measure Figura 8 80 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar 264 8 32 Graficos da Precis o Total para todos os documentos em Checo Value avaliados pelo Avaliador Prof Gabriel Lopes 0 6 0 51 0 4 0 3 0 2 0 1 4 0 0 Overall Total Precision for All Files From Evaluator gpl For Metric phisquare x z oF ss eA ow x0 po on a ab Eu af Er BS 67 ER 057 Documents SR Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 81 Precis o total para todos os documentos em Checo para a medida Phi Square Overall Total Precision for All Files From Evaluator gpl For Metric least tf idf x of of wo on g5 o wo po DE ae ae ah ay BS ER ER 057 Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 82 Precis o total para todos os documentos em Checo para a medida Least Tf Idf Overall Total Precision for All Files From Evaluator gpl For Metric least median rvar vB vB do so ei B E ud ud E o SE as SE ar Documents Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 83 Precis o total para todos os documentos em Checo para a medida Least Median Rvar 265 Overall Total Precision for All Files From Evaluator gpl For Metric least_median_mi 081 054 044 a 5
232. para Ingl s para o Avaliador Prof Gabriel Lopes 141 Tabela 4 42 Precis es Totais m dias para Ingl s para o Avaliador Prof Joaquim Ferreira da SLA se sees T 141 Tabela 4 43 Coberturas m dias para Ingl s para o Avaliador Prof Gabriel Lopes 142 Tabela 4 44 Coberturas m dias para Ingl s para o Avaliador Prof Joaquim Ferreira da Silva sales i o weg ns Seg Mate in aN eo wd Sasa bgt o dE ue aces 142 Tabela 4 45 Lista de Termos para a medida Phi Square para 0 ficheiro cs_32006D0644 html SEENEN EE 143 Tabela 4 46 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Opes Data OPIS QU ALC ET 144 11 Tabela 4 47 Lista de Termos para a medida Least Tf Idf para o ficheiro cs 8 2006D0644 H EE 144 Tabela 4 48 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least IADE desire spas Seas nas pai ested cee ea a See dees 145 Tabela 4 49 Lista de Termos para a medida Least Median Rvar para o ficheiro es SUDO html ao ao Bo s de eis ea ei eet 146 Tabela 4 50 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median RVAT sese 146 Tabela 4 51 Lista de Termos para a medida Least Median MI para o ficheiro es 32006D0644 html EE 147 Tabela 4 52 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median MI sa Aa E BOS OS ES 147 Tabela 4 53 Lista de Termos para a medida Leas
233. que pode ser observado na Tabela 8 15 e na Tabela 8 21 onde podemos verificar que existe uma maior considera o de Near good descriptors por parte do avaliador Prof Joaquim da Silva Ferreira que s o considerados como Bad Descriptors por parte do avaliador Prof Gabriel Lopes No Anexo 3 na sec o 8 1 3 podemos ver as matrizes necess rias na obten o deste valor 118 4 1 4 Least Median MI No caso desta medida a listagem de termos que foi apresentado aos avaliadores a seguinte melhorados anaa melhorados 36 057225825564714 Tabela 4 10 Lista de Termos para a medida Least Median MI para o ficheiro pt 32006R0198 html A semelhanca da medida anterior secc o 4 1 3 esta medida tamb m apresenta uma maior dificuldade em hierarquizar termos Podemos observar na Tabela 4 8 grupos de termos com a mesma pontua o Apesar disso poss vel diferenciar uma hierarquiza o nos resultados ao contr rio da medida base MI como veremos mais em pormenor no cap tulo 5 119 Precision Total Threshold Precision NearGood Precision Recall F Measure oul nl 0 4 0 040816326530612 0 074074074074074 0 081632653061224 0 135593220338983 0 4666667 0 666666667 0 142857142857143 0 218750000000000 0 183673469387755 0 260869565217391 Tabela 4 11 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median MI Precision Total Threshold Precision
234. r com o limite 20 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric least_median_rvar 0 75 3 0 50 0 25 0 00 x hs a A ab A A AB gb am Prag as a qo o o e 008 ob re oo A es B ge a 3P or XP o at R ae at ge ge ge E a 3 qt Documents r Total Precision 20 e Total Precision AVG 20 Figura 8 19 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median MI com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric least median rvar 0 75 3 050 gt 0 25 0 00 H x hs A ab na A AN Pa ei ke of AAN os oo Co A pf P Af S pf ph M pot af oe pe ei EE i sor ae S E E a a Aue S ge ge ge Documents Total Precision 20 Total Precision AVG 20 Figura 8 20 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median MI com o limite 20 205 8 8 Tabela da Precis o Total M dia para todas as Medidas resultante da Avaliac o dos documentos em portugu s pelo Avaliador Prof Gabriel Lopes Metric 5 10 15 20 least bubbled median rvar 0 414740896 least bubbled phisguare 06 0 644973545 0 657305657 0 653613824 0 621251386 least_median_tf_idf 683333333 0 632451499 0 660758377 0 638938724 bubbled_phisquare 0 666666667 0 650925926 0 645719096 0 61327884 le
235. ra 7 9 Componentes onde se define a localiza o dos ficheiros com as multipalavras dos textos tratados das diferentes l nguas sa oss ua syncs sa NERD ERG a 161 Figura 7 10 Componentes de configura o das pastas de output e localiza o dos textos OTL SUNTAN in AREIA RUA CA A ARE EKO RR 162 Figura 7 11 Bot o que faz o Set das configura es prentendidas desbloqueando ou outros DOES GET 162 Figura 7 12 Bot es que lan am a Aplica o para os Avaliadores o a Aplica o de BackOTICE Marinas asi ai ea Da a bas HR E 162 Figura 7 13 Janela da aplica o dos avaliadores sees 163 Figura 7 14 Componente para o avaliador se identificar ee eee eee 163 Figura 7 15 Componente onde o avaliador se identificou ee eee eee 163 Figura 7 16 Componente com Lista Inicial de documentos sese sss e sese eee 164 Figura 7 17 Componente com Lista Inicial de documentos bot o See Results activo 164 Figura 7 18 Componente com Lista Inicial de documentos com um documento seleccionado sio nd ee a Si Ea Ea 164 Figura 7 19 Componente para mudar a l ngua dos documentos a avaliar 164 Figura 7 20 Componente para escolher que tipo de resultados ver Palavras Multipalavras lei Bol ee EE 165 Figura 7 21 Bot es para ver o texto do documento tratado ou original 165 Figura 7 22 Bot es para ver o texto do documento tratado
236. rados 5 10 15 20 s o obtidos pelas medidas Phi Square e Least Bubbled Median Phi Square LeastM LeastM LeastMB LeastMB PE Threshold EE E Ri Tf Ifd ES EE EEE E T Prec T Prec Avg 5 5 0 56 56 wiel 76 on 72 076 T Prec Avg 10 ed oo oa a a T Prec Avg 15 0 746666667 0 706666667 0 605714286 T Prec Avg 20 0 614210526 Tabela 4 20 Precis es Totais m dias para Portugu s para o Avaliador Prof Joaquim Ferreira da Silva Na sec o 8 13 podemos ver a m dia de precis o total para todas as medidas desenvolvidas nesta disserta o pelos resultados das avalia es do avaliador Prof Joaquim Ferreira da Silva Podemos constatar tamb m que os resultados para as medidas base Rvar e MI bem como algumas variantes destas mesmas medidas em menor quantidade que as do avaliador anterior e com excep o das que foram obrigatoriamente avaliadas n o apresentam resultados Isto deve se como j foi dito ao facto de as medidas base Rvar e MI n o apresentarem muitos termos em comum com as suas variantes A diferencia o dos resultados entre estes dois autores deve se ao facto de que por parte do avaliador Prof Joaquim Ferreira da Silva o uso da classifica o de Near Good Descriptor foi mais usado do que por parte do avaliador Prof Gabriel Lopes Este facto pode ser constatado pelas tabelas das avalia es efectuadas pelos mesmos no anexo 2 nas sec es 8 2 e 8 3 Este facto leva a
237. rea de agrupamento em que se utilizam mecanismos para fazer a extrac o de termos relevantes No trabalho desenvolvido por Fillippo Geraci et al 11 nos apresentado um problema de Clustering de um conjunto de documentos num espa o de K grupos n o sobrepostos e apresentam um algoritmo escal vel para Clustering de alta qualidade de Web Snippets A descri o do algoritmo sai fora do mbito desta tese Cada snippet representado por um vector dos radicais das palavras do snippet Para isso o snippet pr processado removendo lhe palavras sem significado reduzindo cada uma das outras palavras contidas no snippet aos seus radicais e por fim atribuindo pesos cosine normalize Tf Idf aos termos radicais obtidos Para se ter uma ideia de como estes pesos s o atribu dos ver sec o 2 6 2 equa o 2 33 em rela o sumariza o de documentos Pensamos que o trabalho desenvolvido nesta tese pode vir a ser aplicado em trabalhos futuros a realizar na rea do agrupamento porque como se ver mais tarde fa o uma an lise comparativa entre v rias m tricas que poder o ser utilizadas para a atribui o de valores de peso a termos obtidos neste caso particular em Web Snippets ou a documentos J no que diz respeito ao trabalho de Ferragina e Gulli 13 os autores apresentam um motor de pesquisa SnakeT que faz Agrupamento Hier rguico de Web Snippets Ou seja os autores pegam no resultado retorna
238. recision Precision Near Good 4 Total Precision Recall F Measure Figura 8 43 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Phi Sguare Precisions for Document en 32006q0804 01 txt From Evaluator gpl For Metric least bubbled median rvar 0 ll 2 3 4 5 16 7 B Steps 5 10 15 20 Precision Precision Near Good 4 Total Precision Recall F Measure Figura 8 44 Valores de Precis o Cobertura e F Measure para Least Bubbled Median Rvar 239 8 20 Gr ficos da Precis o Total para todos os documentos em Ingl s avaliados pelo Avaliador Prof Gabriel Lopes Overall Total Precision for All Files From Evaluator gpl For Metric phisquare 1 00 0 75 a 2 0 50 L 0 25 0 00 LEE wh A B A a aw AA erf s i pf sf a af pi s v i ff AP t AE ab E E Er ae at e07 er et ef ep ef sn e7 en Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 45 Precis o total para todos os documentos em Ingl s para a medida Phi Sguare Overall Total Precision for All Files From Evaluator gpl For Metric least tf idf 1 00 0 75 w 0 50 gt 0 25 0 00 hs x A A A A A na Ka ae st q S AS A ei S P o2 ao oe a Aee ei oo os GP Ka DE d 006 C 19 oo 3 CG E ay ap as ae ans ef ete et ere eD ef et ef en Documents SR Total Precision 5 e Total Precision 10 Total Precision 15 Total Precisio
239. recision 20 Figura 8 49 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Phi Sguare Overall Total Precision for All Files From Evaluator gpl For Metric least_bubbled_median_rvar 1 00 0 75 a 2 0 50 gt 0 25 0 00 ae cs a 5 a e am i o 40 ws we xe os oe E Ap noe 09 ch 3 ao o 9 as a oF ae aor e7 sn eo ere sp ef GP e7 sn Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 50 Precis o total para todos os documentos em Ingl s para a medida Least Bubbled Median Rvar 241 8 21 Graficos da Precis o Total versus M dia da Precis o Total para todos os documentos em ingl s avaliados pelo Avaliador Prof Gabriel Lopes Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator gpl For Metric phisquare 1 00 0 75 a 2 0 50 0 25 0 00 A A V A V A s qe oe 40 S B s E e wi e pol PR ao 008 E no of T oo a K a a ay a ae at BE et ee ef ep ef eo ee ete Documents E Total Precision 5 Total Precision AVG 5 Figura 8 51 Precis o total vs Precis o Total M dia para todos os documentos para a medida Phi Sguare com o limite 5 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric phisquare 0 75 a 3 050 o gt 0 25 0 00 i A L m hs at x of of pb on sor po p ei os oe 908 nos
240. ric phisquare 1 00 0 75 a a w 0 50 gt 0 25 0 00 A wt oo o Di ot ep Bi za ot g 3 008 aw none oe j 0 PE SE gt ap Des ato Documents SR Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 27 Precis o total para todos os documentos em Portugu s para a medida Phi Square Overall Total Precision for All Files From Evaluator jfs For Metric least tf idf 0 75 a 3 0 50 o 0 25 0 00 A A A ha aE A st est AS ah 9 erf SE t g s ad S of E E ab gt pt gt gv A 3 Documents Total Precision 5 e Total Precision 10 Total Precision 15 Total Precision 20 Figura 8 28 Precis o total para todos os documentos em Portugu s para a medida Least Tf Idf Overall Total Precision for All Files From Evaluator jfs For Metric least_median_rvar 1 00 0 75 5 w 0 50 ES 0 25 0 00 a wt oo ot s ra ep ch A ot CR pos oe posse er oh ei ei ei 199 p ge Documents SR Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 29 Precis o total para todos os documentos em Portugu s para a medida Least Median Rvar 211 Overall Total Precision for All Files From Evaluator jfs For Metric least_median_mi 1 00 0 75 a a w 0 50 gt 0 25 0 00 a A ul A Vi AN AY AY at A R e 9 l oo o po 4 sh p Documents Total Precision 5 e Total Precision 10 4 Total Pr
241. rvised Adaptive Information Extraction in Proceedings 10th Conference of the European Chapter of the Association for Computational Linguistics Budapest Hungary 2003 H Alani S Kim D E Millard et al Automatic Extraction of Knowledge from Web Documents U Manber and G Myers Suffix arrays A new method for on line string searches SIAM Journal on Computing vol 22 no 5 pp 935 948 1993 K Sadakane Compressed Suffix Trees with Full Functionality in Theory Comput Syst 41 4 2007 pp 589 607 L Russo G Navarro and A L Oliveira Fully Compressed Suffix Trees Lecture Notes on Computer Science P LATIN 08 ed pp 362 373 Berlin Germany Springer Verlag 2008 S Burkhardt and J Karkkainen Fast Lightweight Suffix Array Construction and Checking Proceedings of the 14th Annual Symposium on Combinatorial Pattern Matching pp 55 69 Springer Berlin Heidelberg 2003 M D Mcllroy Suffix arrays http www cs dartmouth edu doug sarray 271
242. s mas tendo tamb m em conta palavras longas e um Pseudo Number of Words pr ximo de n mero t pico de palavras que uma palavra chave tem No trabalho realizado na elabora o desta disserta o tamb m foram criadas e utilizadas variantes de medidas que recorrem ao uso da Mediana ver sec o 3 2 4 da cap tulo 3 A utiliza o da mediana pelos resultados obtidos ver cap tulo 4 apesar de mostrar por vezes alguns resultados interessantes n o tem o mesmo impacto que se verificou com a utiliza o do Tf Idf e Phi Square 2 3 1 3 Chi Square Esta m trica muito utilizada na rea de selec o de caracter sticas para classifica o baseia se num m todo probabil stico que interpreta um evento num conjunto de documentos e dessa forma calcula o grau de liga o de uma caracter stica a uma classe ou no caso que investigarei a um documento Na equa o seguinte y2 t d mede o valor da liga o do termo t ao documento d N AD CB CCO erg BCID 2 15 A o n mero de vezes que o termo t e o documento d co ocorrem B o n mero de vezes que o termo t ocorre sem ser no documento d C o n mero de vezes que o documento d ocorre sem o termo t D o n mero de vezes que nem o documento d nem o termo t ocorrem e N o n mero total de documentos No c lculo da import ncia dos termos utilizando esta medida os termos que s o mais negativamente relevantes para um documento n o s o i
243. s From Evaluator gpl For Metric phisguare 1 00 0 75 a 3 o 0 50 gt 0 25 0 00 au x A a x V A A V ha A ASP HE an A a AY at o S E oe o aot qo 2 o oe ge po a oo ET E ar el al at ay el qt suo th e ta S E oe K a p nt Ce L Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 gt Total Precision 20 Figura 8 7 Precis o total para todos os documentos para a medida Phi Sguare Overall Total Precision for All Files From Evaluator gpl For Metric least tf idf 1 00 0 75 a 3 0 50 gt 0 25 0 00 D s at ast ae ant a ut a 10 aot ape oe Se ao BE p E Po val ae ai ab d AT AYE O at Ka gt d a ag e ae e d b ZS A Documents F Total Precision 5 e Total Precision 10 4 Total Precision 15 Total Precision 20 Figura 8 8 Precis o total para todos os documentos para a medida Least Tf Idf 201 Overall Total Precision for All Files From Evaluator gpl For Metric least_median_rvar 1 00 0 75 a a w 0 50 gt 0 25 0 00 r ven si ef BE a BL san a ep si erf w Ka WE ooo er erf A 99 oo H x a a Q K ei oo qo oF oe a d we qto we Documents E Total Precision 5 e Total Precision 10 Total Precision 15 e Total Precision 20 Figura 8 9 Precis o total para todos os documentos em Portugu s para a medida Least Median Rvar Overall Total Precision for All Files From Evaluator gpl For Metric least median mi 07 1 0 6 0
244. s necess rios para juntar as frases do seu contexto Decidiram usar um modelo baseado em vectores para representar estas frases Este modelo usa vectores de termos pesados Estes pesos resultaram do uso do Tf Idf dado pela seguinte equa o 79 Link Web 30 Links Web 3 Partiality gt topicality 73 tfix log T na 2 33 Onde Cf a frequ ncia de ocorr ncia do termo Wk na frase Si se tfig zero se Wk n o aparecer em Si N o tamanho do contexto e ng o numero de documentos no contexto com o termo Wk Seguidamente abordam a parcialidade que abordada pelos autores como sendo a extrac o de representantes do contexto de um documento alvo O conjunto de representantes de um contexto o subconjunto mais pequeno de frases do contexto que removendo um elemento faria com a informa o mais global do contexto decrescesse Para saberem que frases podem remover at chegarem s frases representantes os autores definiram uma medida de inclus o que denominaram de inclusion measure dadas duas frases S e Sg O valor de inclus o I S Sk de S inclu da em A definida como se segue N L K EARJE N L j 1 0 HS Sk 2 34 Onde as frases S e Sg s o representadas pelos vectores lt wi wi gt e lt wf wk gt Seja S LR hrei y O contexto de um documento As frases que podem ser removidas do contexto sem perca de informa o s o definidas pelo conjunto
245. s que a dist ncia de Hamming de ham cy Ci Cj42 CH 1 Onde E E dif ww 2 27 com Isew Wi dif Qua wi o TSE E we 0 caso contr rio 21 e E o processo de agrupar as diferentes formas flexionadas duma palavra para que possam ser representadas por um nico elemento a forma singular no caso dos nomes a forma masculina singular no caso dos adjectivos e a forma infinitiva no caso dos verbos 62 O autor fez a experimenta o sobre o corpus TREC 9 para filtros adaptativos Trata se de um corpus composto por resumos abstracts de publica es do dom nio da medicina O autor fez compara es com outras medidas de extrac o de multipalavras O output do SRE foi uma lista ordenada de n gramas dos quais n entre 100 e 10000 foram considerados em cada passo da avalia o Na Figuras 2 9 e 2 10 podemos ver os resultados de Precis o e Cobertura documentados pelo autor no seu trabalho Figura 2 9 Precis o para a extrac o de Unidades multipalavra Exemplo retirado de 33 o SRF 500 1 05 1000 1500 2 80 2000 2500 3000 4 63 3500 5 34 4000 5 94 4500 6 50 5000 94 Figura 2 10 Cobertura para a extracc o de Unidades multipalavra Exemplo retirado de 33 A precis o da extrac o de multipalavras descrita em 2 era de 81 para Portugu s 77 pata Ingl s 76 para Franc s 75 para Alem o e 73 para Portugu s Medieval utilizando o SCP Estes valores
246. s verificados entre dois avaliadores 86 Tabela 2 3 MCRE Matriz Confus o com resultados esperados entre dois avaliadores 87 Tabela 2 4 Valores de K com a medida Estat stica kapp 88 Tabela 3 1 N mero de total de termos por Lingua rrenan 94 Tabela 4 1 Lista de Termos para a medida Phi Square para o ficheiro pt 32006R0198 html Tabela 4 2 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva par O N ee UT 114 Tabela 4 3 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para EE 114 Tabela 4 4 Lista de Termos para a medida Least Tf Idf para o ficheiro pt 32006R0198 html Tabela 4 5 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Tf Idf sse 116 Tabela 4 6 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least TI Idt aaa dain caida SI ia aa e Lua sediada fada ipa 116 Tabela 4 7 Lista de Termos para a medida Least Median Rvar para o ficheiro Pi 22006 ROLOS html 5608 A a RA RS 117 Tabela 4 8 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Median Rates sccscdiccestds eege eels Eder ege eeh 118 Tabela 4 9 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Median Rvar sees 118 Tabela 4 10 Lista de Termos para a medida Least Median MI
247. sear somente nas estat sticas mas utilizar tamb m conhecimento lingu stico para melhorara extrac o Neste trabalho a autora realiza experi ncias com n gramas sintagmas nominais e com termos que coincidam com algum conjunto fixo de sequ ncias de etiquetas morfo sint ticas Utilizou quatro caracter sticas diferentes frequ ncia de termos frequ ncia dos documentos na colec o posi o relativa da primeira ocorr ncia e etiquetas morfo sint ticas associadas com o termo Este trabalho tem como objectivo o tratamento da extrac o autom tica de termos chave como uma tarefa de aprendizagem autom tica mais especificamente de classifica o o que implica que os autores treinem um classificador utilizando documentos com termos chave j conhecidos 2 4 Extrac o de Palavras Na tese de Mestrado de Ventura 27 aborda se a extrac o de palavras em oposi o a multipalavras relevantes onde o autor cria duas m tricas a primeira denominada por Score que uma medida estat stica para atribui o de relev ncia a palavras e baseia se na an lise da vizinhan a das palavras Esta medida baseia se em duas componentes distintas onde a primeira componente mede a import ncia de uma palavra num 55 56 determinado corpus baseado no estudo da relac o entre essa palavra e as palavras que Ihe sucedem imediatamente no texto O Score do sucessor de uma palavra w Ae W calculada utilizando a equa o seguinte p w y
248. seguinte defini o Seja W uma palavra ou multipalavra Ent o Least Bubbled Median MI Least Bubbled MI W Median W 3 31 3 3 Desenvolvimento Nesta secc o irei descrever o ambiente de desenvolvimento as ferramentas utilizadas os problemas encontrados bem como a descri o de op es e assun es tomadas ao longo da realiza o deste trabalho 3 3 1 Ambiente de Desenvolvimento O ambiente de desenvolvimento foi elaborado sobre o Sistema operativo Ubuntu distribui o 9 10 A linguagem de programa o utilizada foi Java na vers o 1 6 b13 Os IDE s utilizados para o desenvolvimento do prot tipo foram numa primeira fase o eclipse IDE Esta parte do desenvolvimento baseou se no desenho das classes necess rias para implementar a liga o com a classe das Suffix Arrays utilizadas as medidas utilizadas e os outputs dos primeiros testes http www ubuntu com http www java com en http www eclipse org 103 Quando surgiu a necessidade de se trabalhar a cria o de um interface gr fico foi utilizado outro IDE nomeadamente o Netbeans Houve um processo de importa o de workspace de Eclipse para netbeans mantendo a c digo fonte num s local sem ser necess ria a duplica o de workspaces 3 3 1 1 Suffix Arrays A estrutura utilizada foi constru da utilizando uma ponte em IN que permite a liga o de um m dulo em C retirado de 51 e que possibilitou a sua utiliza o nest
249. ses emails como fraude ou n o Estas abordagens s o bastantes limitativas visto dependerem de uma ontologia que na maioria das vezes espec fica a um dom nio impossibilitando o seu uso generalizado 12 Reduzir aos radicais 13 Substantivo ou nome 14 http www illc uva nl EuroWordNet S Named entities 54 2 3 3 O grande problema associado as abordagens n o estat sticas prende se com o facto de que na maior parte dos casos exigirem a utiliza o de algo externo ao pr prio texto que se esteja a analisar nomeadamente gram ticas ou etiquetadores morfo sint cticos Desta forma as abordagens n o estat sticas s o extremamente dependentes de uma l ngua ou de contextos muito espec ficos n o sendo f cil a sua adapta o para outras l nguas ou a situa es muito diferentes Hibridas Por fim temos uma categoria em que existe uma mistura que utiliza abordagens estat sticas e abordagens n o estat sticas como forma de se complementarem ou seja combina se processamento estat stico com recurso a modela o lingu stica Veja se por exemplo 26 onde os autores utilizam gram ticas probabil sticas independentes do contexto em conjun o com m todos estat sticos Lendo as palavras da autora adding linguistic knowledge to the representation such as syntactic features rather than relying only on statistics such as term frequency and ngrams identifica se claramente o objectivo deste trabalho de n o se ba
250. sobre as avalia es por parte destes avaliadores podemos constatar que as mesmas medidas que tinham melhor precis o total m dia na avalia o fo Prof Gabriel Lopes tamb m t m a melhor cobertura J no que concerne cobertura m dia nos resultados do Prof Joaquim Ferreira da Silva estes s o mais equitativos pelo que diferenciar claramente dif cil mas a medida Phi Square e Least Tf Idf mostram maior cobertura Nas sec es 8 8 e 8 14 podemos ver os resultados das coberturas para todas as medidas utilizadas nesta disserta o 127 4 3 Lingua Inglesa A an lise efectuada para a l ngua inglesa segue os mesmos moldes que o que foi abordado para a L ngua Portuguesa Ser seleccionado um documento que tenha sido avaliador por dois avaliadores de onde ser o feitas as leituras dos resultados Mais importa que referir que os resultados em ingl s oferecem a possibilidade de fazer uma compara o com os resultados obtidos para a l ngua inglesa no trabalho 1 Apresentamos de seguida as avalia es feitas pelos avaliadores Prof Joaquim Ferreira da Silva e Prof Gabriel Lopes Um documento avaliado por ambos o EN 320060804 01 Para as medidas que foram pedidas para serem avaliadas obrigatoriamente estes autores obtiveram os valores de precis o que s o apresentados para as v rias medidas ao longo das pr ximas sec es gt http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006Q0804 2801 29 EN HTML
251. sse termo aparenta ter import ncia Assumindo que um termo w aparece independentemente de termos frequentes a distribui o de co ocorr ncias do termo w e dos termos frequentes similar distribui o incondicional de ocorr ncias dos termos frequentes Os autores 66 99 dividem um documento em frases utilizando para isso possiveis separadores como Nd L ou ou Para os autores se um determinado termo w tem uma rela o com um subconjunto particular de termos g G dos termos frequentes as co ocorr ncias do termo w e g s o maiores que o esperado de onde se diz que a distribui o tem um desvio Assim para os autores um termo cuja co ocorr ncia tenha um desvio pode ter importancia no documento Por essa raz o os autores usam o grau de desvio como um indicador de 16 Agrupamento 17 Daj Paiwise term co occurrences 18 p Biased 58 194 bias s PRE 19 S E pte fios mi import ncia de um termo O grau de desvio da distribui o da co ocorr ncia calculada pelo uso da medida ao Chi Square a 2 25 AGIs py ee EE wpa a NwPg Onde w o termo a testar e g E G representa um conjunto de termos frequentes e NwPg representa a frequ ncia esperada da co ocorr ncia e freg w 9 nwPg representa a diferen a entre as frequ ncias esperadas e observadas ny o numero total de termos nas frases em que w aparece pg a soma do total de termos nas frases e
252. t stica obtido de 0 634502923976608 o que d aproximadamente 63 5 de concord ncia 8 1 6 Kappa para a Medida Least Bubbled Median Rvar Este c lculo refere se medida Least Bubbled Median Rvar para o documento pt 32006R0198 html Seja considerado o seguinte e Avaliador 1 Prof Joaquim Ferreira da Silva e Avaliador 2 Prof Gabriel Lopes Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 5 1 7 3 0 16 T Near Good 3 Descriptor 0 0 3 0 0 3 Bad Descriptor O 0 6 0 0 6 lt Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 5 1 16 3 0 25 Tabela 8 11 Matriz Confus o de Resultados Verificados para Least Bubbled Median Rvar S http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006R0198 PT NOT 182 Avaliador 2 Near Good Good Bad No Line Descriptor Descriptor Descriptor Unkown Evaluation Total Good Descriptor 3 2 0 64 10 24 1 92 0 16 T Near Good Descriptor 0 6 0 12 1 92 0 36 0 3 G Bad Descriptor 1 2 0 24 3 84 0 72 0 6 Unkown 0 0 0 0 0 0 No Evaluation 0 0 0 0 0 0 Column Total 5 1 16 3 0 25 Tabela 8 12 Matriz Confus o de Resultados Esperados para Least Bubbled Median Rvar Com estas duas matrizes o valor de Kappa ver sec o 2 8 3 sobre o c lculo da estat stica obtido de 0 2152466367713 o que d
253. t Bubbled Median Phi Square para o ficheiro cs 32006 DUOp hm sss sees eee 148 Tabela 4 54 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Phi Square sss eee 148 Tabela 4 55 Lista de Termos para a medida Least Bubbled Median Rvar para o ficheiro CSS ZOU GD ETC 149 Tabela 4 56 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Rv ar sese 149 Tabela 4 57 Precis es Totais m dias para Checo para o Avaliador Prof Gabriel Lopes 150 Tabela 4 58 Coberturas m dias para Checo para o Avaliador Prof Gabriel Lopes 150 Tabela 8 1 Matriz Confus o de Resultados Verificados para Phi Square 177 Tabela 8 2 Matriz Confus o de Resultados Esperados para Phi Sguare 178 Tabela 8 3 Matriz Confus o de Resultados Verificados para Least Tf Idf 178 Tabela 8 4 Matriz Confus o de Resultados Esperados para Least T Idf 179 Tabela 8 5 Matriz Confus o de Resultados Verificados para Least Median Rvar 179 Tabela 8 6 Matriz Confus o de Resultados Esperados para Least Median Rvar 180 Tabela 8 7 5 Matriz Confus o de Resultados Verificados para Least Median MI 180 Tabela 8 8 5 Matriz Confus o de Resultados Esperados para Least Median Rvar 181 Tabela 8 9 M
254. tations T T mez baras DMOZ data Figura 2 12 Arguitectura do sistema Snaket Exemplo retirado de 13 Ainda na rea de clustering de web snippets temos a tese de David Ferreira 12 onde o autor apresenta um trabalho onde o seu objectivo o de fazer Clustering de Web Snippets e a de propor a cria o de uma nova abordagem para a cria o de perfis dos utilizadores Pretende fazer isso ao Criar os perfis dos utilizadores a partir da an lise do hist rico das pesquisas efectuadas pelos mesmos num motor de pesquisa capaz de efectuar categoriza o dos resultados Para isso criou modelos espec ficos por utilizador e com isso construiu um sistema completamente aut nomo e independente que parte de uma nova metodologia para efectuar a categoriza o de Web snippets baseada no c lculo do valor de import ncia das palavras Para realizar este objectivo o autor decidiu Fazer uso das categorias associadas a cada pesquisa para extrair conhecimento oculto e auxiliar cria o dos perfis Ou seja em vez de analisar todos os documentos para extrair as categorias que mais 67 sobressaem para um utilizador em questdo 0 sistema analisa a estrutura das queries bem como o conjunto de categorias que est o associados Assim importa real ar a forma como o autor calcula o valor da import ncia das palavras Primeiro extrai todas as caracter sticas associadas a cada palavra ver a Tabela 2 1 O m to
255. th Threshold 20 for All Files From Evaluator gpl For Metric least tf idf 0 75 5 0 50 o gt 0 25 0 00 d A A A K aw m a at A e S ON q T G o 48 Sr A Bu opt TE 5 so n po w o opt a Kr 005 at 008 af GE a at e ZS E S D 3 e ER p Te Documents Total Precision 20 e Total Precision AVG 20 Figura 8 16 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Tf Idf com o limite 20 Total Precision vs Total Precision AVG with Threshold 5 for All Files From Evaluator gpl For Metric least_median_rvar 1 00 0 75 1 a gt o 0 50 gt 0 25 0 00 DH A AN a ON a o aa ot o on pt aot A o d e poem Pr E e at E a pob Eca 006 E no Eu a gt a d D E S a qt k Ce Ce Documents Total Precision 5 e Total Precision AVG 5 Figura 8 17 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rvar com o limite 5 204 Total Precision vs Total Precision AVG with Threshold 20 for All Files From Evaluator gpl For Metric least median rvar 0 75 3 050 5 gt 0 25 0 00 G L G A n A ae A AN sA ob a m aa BL os er pf ef oe oe ger po B we ore ar at ot at oe at E sf e we ae ge qto d Kee Documents Total Precision 20 e Total Precision AVG 20 Figura 8 18 Precis o total vs Precis o Total M dia para todos os documentos para a medida Least Median Rva
256. tology and Information Systems in Proceedings of FOIS 98 Trento Italy 1998 pp 3 15 P Velardi M MissiKoff and R Basili Identification of relevant Terms to support the construction of Domain Ontologies in Proceedings of the workshop on Human Language Technology and Knowledge Management Volume 2001 Tolouse France 2001 B Fortuna N Lavra and P Velardi Advancing Topic Ontology Learning Through Term Extraction PRICAI 2008 Trends in Artificial Intelligence Lecture Notes in Computer Science pp 626 635 Springer Berlin Heidelberg 2008 B Fortuna M Grobelnik and D Mladeni System for semi automatic ontology construction in 3rd Annual European Semantic Web Conference Budva Montenegro 2006 B Fortuna D Mladenic and M globelnik Semi automatic Construction of Topic Ontologies Semantics Web and Mining Lecture Notes in Computer Science pp 121 131 Springer Berlin Heidelberg 2006 J Brank D Mladeni M Grobelnik er al Feature selection using support vector machines in Proceedings of the Third International Conference on Data Mining Methods and Databases for Engineering Finance and Other Fields Bologna Italy 2002 pp 25 27 T Joachims Making large scale svm learning practical Advances in Kernel Methods Support Vector Learning C B B Scholkopf and A Smola ed MIT Press 1999 A Dingli F Ciravegna D Guthrie et al Mining Web Sites Using Unsupe
257. tras duas l nguas O primeiro passo foi passar os textos de html para txt em UTF 8 esta tarefa foi realizada com recurso a um comando em Linux como se indica a seguir gt html2text width 90 cs_32005D0754 html gt ce 32005D0754 txt Onde html2text um comando onde especificamos o comprimento que as linhas do ficheiro de sa da tinham de ter no m ximo width 90 seguidamente especifica se o ficheiro de entrada com a indica o do ficheiro de sa da cs 32005D0754 html gt cs 32005D0754 txt Esta tarefa foi realizada para todos os documentos do corpus Distribui o Ubuntu 9 10 http manpages ubuntu com manpages intrepid man1 html2text 1 html 93 A Dimens o do corpus em termos totais de termos para cada l ngua que foi estudada a seguinte L ngua N mero de Termos N mero de Documentos Portugu s 109449 28 Ingl s 100890 28 Checo 120787 37 Tabela 3 1 N mero de total de termos por L ngua 3 2 Novas Medidas 3 2 1 94 Nesta sec o apresentam se as contribui es realizadas com esta disserta o nomeadamente apresentando todas as variantes de medidas elaboradas no decorrer deste trabalho Abordam se primeiramente as vers es das medidas Tf Idf Phi Square Rvar e Informa o M tua modificadas pelo operador Least seguidamente as vers es dessas medidas modificadas pelo operador Bubbled foi introduzido tamb m o operador Mediana e no final
258. u multipalavras que de outra forma poderiam facilmente n o ser apanhadas devido a frequ ncias de ocorr ncia muito baixas se s levasse em linha de conta a utiliza o de palavras ou multipalavras ocorrendo de facto nos documentos com este trabalho contribui se para aumentar a cobertura sem ter diminu do a precis o Ao comparar explicitamente v rias m tricas que foram utilizadas na selec o das palavras chave a extrair e n o tendo havido anteriormente nenhuma compara o entre estas m tricas para os efeitos pretendidos neste trabalho contribu assim para um conhecimento mais profundo sobre este assunto podendo da inferir qual ais o s m todo s melhor es a utilizar e as situa es mais adequadas para o fazer Outra das contribui es ser o de abordar este problema utilizando uma estrutura de dados adequada para o fazer as Suffix Array ver sec o2 9 que acarretou maior velocidade no processo de extrac o de termos chave Conv m dizer que a sua utiliza o n o pr tica corrente em nenhum dos trabalhos estudados e apresentados no Estado da Arte cap tulo 2 1 4 Organiza o da Disserta o 34 Esta disserta o est dividida da seguinte forma no cap tulo 2 ser o apresentados diversos trabalhos relacionados com o tema desta disserta o que constituem actualmente o estado da arte na extrac o multipalavras e nas poss veis aplica es que fazem uso de termos relevantes no sentido
259. ua Checa Dada a especificidade da l ngua checa ser o somente apresentadas considera es sobre os resultados de um avaliador N o se calcular por isso valores de estat stica Kappa As listagens de termos que ser o apresentadas dizem respeito ao seguinte ficheiro cs 32006D0644 htm 4 5 1 Phi Square mnohojazy nost e laagi mnohojazy nost 0 004057029128410 Tabela 4 45 Lista de Termos para a medida Phi Sguare para o ficheiro cs 32006D0644 html http eur lex europa eu LexUriServ LexUriServ do uri CELEX 32006D0644 CS HTML 143 Precision Total Threshold Precision NearGood Precision Recall F Measure al 6 wl 1 0 500000000000000 0 545454545454545 0 833333333333333 0 625000000000000 0 357142857 0 428571429 0 785714286 0 833333333333333 0 500000000000000 0 263157895 0 421052632 0 684210526 0 833333333333333 0 400000000000000 Tabela 4 46 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Phi Sguare Umas das coisas que podemos observar pela precis o alcan ada pelo Phi Square para o checo que se mant m com bons resultados o que vai de encontro ao que aconteceu com esta medida para as outras l nguas Podemos observar que a precis o total m xima para os limites de 5 e 10 Tamb m a cobertura apresenta bons resultados 4 5 2 Least Tf Idf 0 02584501573467 podskupiny 0 01846072552476 0 01846072552476 0 013619695407680 mnohojazy
260. ue nestas l nguas n o existe o espa o em branco como separador de palavras e porque h palavras de conte do que se escrevem com um nico car cter Tal como ficou escrito acima neste trabalho extra mos palavras de comprimento m nimo de 6 caracteres sendo este par metro configur vel consoante o que quisermos avaliar ver cap tulo 3 multipalavras previamente identificadas utilizando a metodologia referida em 2 por Silva et al e prefixos de palavras com 5 caracteres que possam ser considerados como relevantes para o t pico em discuss o nos documentos onde existirem No que se refere s m tricas a utilizar para detectar as unidades textuais relevantes palavras multipalavras e prefixos foram utilizados o Tf Idf j mencionado um adapta o da m trica Rvar utilizada em 1 o Chi quadrado 3 4 o Phi quadrado e a Informa o M tua 5 Diversas variantes foram desenhadas para melhor comparar em condi es de igualdade as vantagens e desvantagens de cada uma das m tricas Ao fazer se isto constatou se que algumas medidas nos davam resultados que n o permitiam uma clara identifica o de um bom descritor visto que atribufam o mesmo valor s trinta ou quarenta primeiras palavras ou multipalavras Isto acontece claramente com o Rvar e com a Informa o M tua bem como com algumas das variantes destas medidas Outra das conclus es foi a de que o Tf Idf o Phi Quadrado juntamente com algumas das suas vari
261. ultados de Precis o Cobertura e F Measure do Avaliador Prof Gabriel Lopes para o Least Bubbled Median Rvar 139 Precision Threshold Precision NearGood Precision Recall F Measure 0 033333333333333 0 057142857142857 e RN os 0 100000000000000 0 150000000000000 0 266666667 0 4 0 666666667 0 133333333333333 0 177777777777778 Tal o2 035 06 0 166666666666667 0 200000000000000 Tabela 4 40 Resultados de Precis o Cobertura e F Measure do Avaliador Prof Joaquim Ferreira da Silva para o Least Bubbled Median Rvar O valor de Kappa obtido de 0 347826086956521 o que d aproximadamente 34 83 de concord ncia o que considerado consider vel pela Tabela 2 4 As matrizes de confus o necess rias para o c lculo deste valor s o apresentadas na sec o 8 15 6 4 4 Leitura de Resultados para a L ngua Inglesa Podemos destacar de imediato que tr s medidas apresentam um grau de concord ncia substancial nomeadamente o Phi Square o Least Tf Idf e o Least Bubbled Median Phi Square Podemos verificar uma semelhan a na listagem de termos obtidos pela medida Least Median Rvar e Least Median MI Constata se tamb m que estas mesmas medidas Phi Square Least Tf Idf Least Median RVar Least Median MI Least Bubbled Median Phi Square e Least Bubbled Median Rvar apresentam termos com maior significado sem ntico que as outras medidas avaliadas nas quais predominam muito verbos adv rbios adjectivos ou pal
262. us o de Resultados Esperados para Least Bubbled Median Phi e 221 Tabela 8 42 Matriz Confus o de Resultados Verificados para Least Bubbled Median Rvar EE eege aah O o iaa lo Job ooo opal a 222 Tabela 8 43 Matriz Confus o de Resultados Esperados para Least Bubbled Median Rvar 222 Tabela 8 44 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Phi Square 223 Tabela 8 45 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Tf Idf 224 Tabela 8 46 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Median Rvar 225 Tabela 8 47 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en_32006Q804_01 html na medida Least Median MI 226 Tabela 8 48 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Bubbled Median SE UT 227 14 Tabela 8 49 Listagem de termos com as respectivas avalia es feitas pelo avaliador Prof Gabriel Lopes para o documento en 320060804 01 html na medida Least Bubbled Median Tabela 8 50 Listagem de termos com as respectivas avalia es feitas pelo avaliador Pro
263. uster pode conter mais do que uma potencial palavra para descrever o seu conte do mas pode acontecer que os urls do cluster contenham outro tipo de palavras nesta caso multipalavras ou outro tipo de express o composta que providenciem uma etiqueta mais interessante para o cluster Da aplica o da equa o 2 32 que fornece ao autor o grau de import ncia destas express es este valor utilizado para fazer uma compara o entre as frequ ncias das etiquetas simples que identificam o cluster Caso o valor da express o seja maior que um valor de proporcionalidade com a frequ ncia da palavra etiqueta do cluster ent o a express o 2 6 2 composta promovida a etiqueta do cluster caso contr rio a palavra simples mant m se como etiqueta Uzun 34 aborda a extracc o de palavras chave que sejam palavras significantes de um documento e considera esta problem tica como sendo um problema de classificac o O m todo apresentado para identificar as palavras chave utiliza um classificador naive Bayesian que utiliza o Tf Idf para fornecer a pontuac o da palavra a dist ncia da palavra em rela o ao in cio do texto do par grafo e do frase Assume que as caracter sticas de uma palavra chave t m uma distribui o normal e que as palavras chave s o independentes O m todo segue uma linha de aprendizagem supervisionada classifica o ao utilizar palavras chave j extra das de documentos presentes no corpo do conju
264. valuation membros 0 00 15900 13299582 Evaluation grupo de alto 00 1427578939 140 Evaluation nomeados 0 00 1277643632075 Evaluation a comiss o 001269749409912 Evaluation comiss o 001189415377657 Evaluation alto nivel 000828038 104853 Evaluation jabordagem abrangente do multilinguismo 0008256078 19865 Evaluation podem ser criados subgrupos 0008256078 19865 Evaluation sobre ac es neste 000825607819865 Evaluation lordem do dia a participar 0008256078 19865 Evaluation Figura 7 24 Componente com tabs onde v o aparecer as listagens de termos para as v rias medidas populada Tendo os termos disponiveis para serem avaliados e tendo em conta 0 contetido dos documentos o que pedido ao avaliador que classifique os diversos termos apresentados na escala fornecida pelos bot es identificados na Figura 7 25 A Escala composta por 4 n veis e Good Descriptor o Se demonstra o conte do do Documento e Near Good Descriptor o Se d uma pista sobre o conte do do Documento mas falta algo mais para dar uma ideia mais concreta e Bad Descriptor o Se for adjectivo marca se como Bad Descriptor oSe contiver uma forma verbal tamb m dever ser marcado como Bad Descriptor o Se for um adv rbio tamb m dever sem marcado como Bad Descriptor e Unkown o Se tiver nomes pr prios mencionados no texto dever marcar como Unkown o Ou se n o souber se de facto descreve o conte do 166 Esta avalia
Download Pdf Manuals
Related Search
Related Contents
User manual - LD Didactic 超音波溶接機 品番 RSA-3000LC Sportline 955 User's Manual DigitalFlow™ XGM868i - GE Measurement & Control Transporter Panasonic SC-PM10 CD Shelf System BUDERUS manuale uso Logamax plus GB032 24K Bedienungsanleitung Fendt-Caravan Brillant 2015/2016 Evolis A5306 Copyright © All rights reserved.
Failed to retrieve file