Home
UNITEX 1.2 MANUAL DO USUÁRIO
Contents
1. vi Apply All default Dictionaries Go join dci ROR Cancel but tokenize text Opto JV oniyi 161 wi Nore fan amp ia l _ Construct Text Automaton Cancel and close text FIG 2 14 Pr processamento de um texto etiquetado 24 Capitulo 3 Dicionarios 3 1 Os dicion rios DELA Os dicion rios eletr nicos utilizados pelo Unitex utilizam o formalismo dos DELA Dicion rios Eletr nicos do LADL Esse formalismo permite descrever as entradas lexicais simples e compostas de uma l ngua associando lhes de modo opcional informa es gramaticais sem nticas e flexionais Distinguem se dois tipos de dicion rios eletr nicos O utilizado com maior frequ ncia o dicion rio de formas flexionadas chamado DELAF DELA de formas Flexionadas ou ainda DELACF DELA de formas Compostas Flexionadas quando se tratar de um dicion rio de palavras compostas O segundo tipo o dicion rio de formas n o flexionadas chamado DELAS DELA de formas Simples ou DELAC DELA de formas Compostas Os programas do Unitex n o fazem distin o entre os dicion rios de formas simples e compostas Ser o utilizados portanto os termos DELAF e DELAS para designar os dois tipos de dicion rios sejam as suas entradas simples compostas ou mistas 3 1 1 Formato dos DELAF Sintaxe de uma entrada Uma entrada de um DELAF uma linha de texto terminada com uma quebra de p gina que respeita o seguinte esquema mercantiles mercantile
2. FIG 5 20 Submenu Zoom A op o Fit in screen alonga ou estreita o grafo para deix lo do tamanho da tela A op o Fit in window ajusta o grafo para que ele seja completamente exibido na janela 5 3 2 Antialiasing O antialiasing um efeito gr fico que permite evitar o efeito de pixeliza o poss vel ativar esse efeito clicando sobre Antialiasing no submenu Format A figura 5 21 apresenta dois grafos um exibido de forma padr o grafo de cima e outro com o antialiasing grafo de baixo Esse efeito torna a execu o do Unitex lenta Aconselha se n o utiliz lo se a m quina for pouco avan ada 5 3 3 Alinhamento das caixas Para obter grafos harmoniosos til alinhar as caixas tanto horizontalmente quanto verticalmente Para isso selecionar as caixas a serem alinhadas e clicar sobre Alignment no submenu Format do menu FSGraph ou pressionar lt Ctrl M gt Ent o aparecer a janela da figura 5 22 73 As possibilidades de alinhamento horizontal s o Top as caixas s o alinhadas sobre a caixa que est mais alta Center as caixas s o todas centralizadas sobre um mesmo eixo Bottom as caixas s o alinhadas sobre a caixa que est mais baixa As possibilidades de alinhamento vertical s o Left as caixas s o alinhadas sobre a caixa mais esquerda Center as caixas s o todas centralizadas sobre um mesmo eixo Right as caixas s
3. PpvPr M Hm pes Essas linhas significam todos os pronomes demonstrativos lt PRO Pdem gt t m as indica es de g nero e n mero e nenhuma outra OS pronomes pessoais nominativos lt PRO PpvIL gt s o etiquetados morfologicamente por uma pessoa um g nero e um n mero os pronomes preposicionais en y n o possuem tra o flexional Todas as combina es de tra os flexionais e discriminantes que aparecem nos dicion rios devem ser descritos no arquivo tagset def sen o as entradas correspondentes ser o rejeitadas pelo ELAG No caso em que as palavras de uma mesma sub categoria difiram pelos seus tra os flexionais necess rio descrever v rias linhas na parte complete O inconveniente desse m todo de descri o que fica dif cil fazer a distin o entre certas palavras de uma gram tica ELAG Se considerarmos a descri o precedente dada como exemplo alguns adjetivos do franc s possuem um g nero e um n mero enquanto que outros n o possuem nenhum tra o flexional por exemplo o caso de seqii ncias fixas como de bonne humeur que t m um comportamento sint tico muito pr ximo daquele dos adjetivos Tais sequ ncias foram assim integradas no dicion rio do franc s na qualidade de adjetivos invari veis e portanto sem tra o flexional O problema que se quisermos fazer refer ncia exclusivamente a esse tipo de adjetivos em uma gram tica de desambig iza o o s mbolo A
4. i avoir accueillir Ce salon accueille vingt personnes avoir accuser i MaxaccuseS80 kilos avoir accuser Max amp accuseSses trente ans avoir admettre On admet 50 personnes dans cette salle lavoir affecter Ces cristauxSaffectent amp une forme g om trique lavoir afficher HE l Les valeurs ont affich un repli avoir aimer d k j kE Laplante aime l eau lavoir approcher Cette maison approche les deux millions avoir arpenter A Ce terrainSarpente 30 arpents avoir atteindre a j tele fe Max atteintS80 kilos avoir avoir MaxgaS une soeur une voiture des sous avoir avoisiner EL A i Ce sac avoisine les 20 kg i l lavoir battre Lamontre bat les secondes avoir cacher ej KE l Soncalrne cache son une grandejangoisse 7 avoir caler js jaja 12 fe E Ce bateau ScaleS80 cm 7 KIABI 32m Is mamaman FIG 8 1 Tabela de l xico gram tica 32NM 8 2 Convers o de uma tabela em grafos 8 2 1 Princ pio dos grafos parametrizados 142 A convers o de uma tabela em grafos efetuada por meio de um m
5. FOREGROUND COLOR 167772164 AUXILIARY NODES COLOR 32896514 IC COMMENT NODES COLOR 655364 MARNE AS y a sas eee qe y ya pme y As duas primeiras linhas s o linhas de coment rio As tr s linhas seguintes indicam o nome o estilo e o corpo da fonte utilizada para arquivar os textos os dicion rios as unidades lexicais as frases do aut mato do texto etc O par metro CONCORDANCE FONT NAME e CONCORDANCE FONT HTML SIZE definem o nome e o corpo da fonte utilizada para arquivar as concord ncias em HTML e deve ser compactada entre 1 e 7 Os par metros INPUT FONT e OUTPUT FONT definem o nome o estilo e o corpo das fontes utilizadas para arquivar as atribui es e as transcri es gr ficas Os 10 par metros seguintes correspondem aos par metros precisos nos cabe alhos dos gr ficos A tabela 10 3 descreve essas correspond ncias 171 Par metros no arquivo config Par metros no arquivo grf Param tres dans le fichier Conf ig Param tres dans un fichier gr f Tab 10 3 Significa o de par metros O par metro PACKAGE NODES define a cor das chamadas a sub gr ficos da rea de armazenamento O par metro CONTEXT NODES define a cor das caixas correspondentes a in cios ou fins de contextos O par metro CHABY CHAR indica se a l ngua usual deve ser tratada caractere a caractere ou n o O par metro ANTIALIASING indica se o gr fico e
6. O primeiro erro deve se ao fato de o programa n o ter encontrado o ponto O segundo ao fato de n o ter encontrado a v rgula que marca o fim da forma flexionada O terceiro erro indica que o programa n o encontrou nenhum c digo gramatical ou sem ntico 31 D My UnitexEnglishDelaitest dic agreeably ADV agreed INTJ agreed agree V i K 115 125 13s 11p 12p 13p ah aid N s FIG 3 2 Exemplo de dicion rio FIG 3 3 Verifica o autom tica de um dicion rio 3 3 Ordena o O Unitex manipula os dicion rios sem se preocupar com a ordem das entradas Entretanto para fins de apresenta o muitas vezes prefer vel ordenar os dicion rios A opera o de ordena o varia de acordo com v rios crit rios come ando pela l ngua do texto a ser ordenado Assim a ordena o de um dicion rio tailand s se realiza de acordo com uma ordem diferente da ordem alfab tica de forma que o Unitex utiliza um modo de ordena o desenvolvido especialmente para o tailand s ver cap tulo 9 Para as l nguas europ ias a organiza o realiza se geralmente de acordo com a ordem lexicogr fica com no entanto algumas variantes Com efeito certas l nguas como o franc s consideram certos caracteres como equivalentes Por exemplo a diferen a entre os caracteres e e ignorado quando se quer comparar as palavras manger e mang s pois os contextos r e s permitem decidir a ordem A distin o feita apenas
7. lt one line to give the program s name and a brief idea of what it does gt Copyright C lt year gt lt name of author gt This program is free software you can redistribute it and or modify it under the terms of the GNU General Public License as published by the Free Software Foundation either version 3 of the License or at your option any later version This program is distributed in the hope that it will be useful but WITHOUT ANY WARRANTY without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE See the GNU General Public License for more details You should have received a copy of the GNU General Public License along with this program If not see lt http www gnu org licenses gt Also add information on how to contact you by electronic and paper mail If the program does terminal interaction make it output a short notice like this when it starts in an interactive mode lt program gt Copyright C lt year gt lt name of author gt This program comes with ABSOLUTELY NO WARRANTY for details type show wi This is free software and you are welcome to redistribute it under certain conditions type show c for details 186 The hypothetical commands show w and show c should show the appropriate parts of the General Public License Of course your program s commands might be different for a GUI interface you would use an about box You should also get your e
8. Para isso necess rio clicar em Apply Lexical Resources no menu Text O Unitex exibe ent o uma janela ver figura 2 13 que permite escolher a lista dos dicion rios a serem aplicados A lista User resources enumera todos os dicion rios bine fst2 presentes no diret rio langue Dela do usu rio Graphe dictionnaire reconnaissantles chifras ramains Ce dictonnaire reconnait les chimes romains en majuscules depuis 1 jusqu 4389 Son avantage par rappor au dictonnaira Romblum bin estgu il ne prend pas comme chiffres romains L D M et Mi dans les contextes suivants Fig 2 13 Par metro da aplica o dos dicion rios Os dicion rios do sistema s o listados no quadro chamado System resources Utilizar lt Ctrl clique gt para selecionar v rios dicion rios A tecla Set Default permite definir a sele o atual de dicion rios como sele o por defini o Essa sele o por 23 defini o ser utilizada na ocasi o do pr processamento se for escolhida a op o Apply All default Dictionaries Se clicar com bot o direito sobre o nome do dicion rio aparecer no quadro inferior a sua documenta o caso exista 2 5 6 An lise das palavras compostas livres em alem o noruegu s e russo Em certas l nguas como o noruegu s poss vel formar palavras compostas livres unindo seus elementos Por exemplo a palavra aftenblad que significa jornal da noite obtida por m
9. Separate inputs and outputs as sa das agrupadas s o exibidas depois das entradas ab c AB O Merge inputs and outputs cada sa da exibida imediatamente depois da entrada que lhe corresponda a A b B c C Only paths as chamadas aos subgrafos s o exploradas recursivamente Do not explore subgraphs recursively as chamadas aos subgrafos s o exibidas sem serem exploradas recursivamente 96 Se a op o Maximum number of sequences for marcada o n mero especificado ser o n mero m ximo de caminhos gerados Se a op o n o for selecionada todos os caminhos ser o gerados Espinre Eni Hath 7 Graphe D M UniteEnglishiGraphsialace ort Ignore outputs Li Separate inputs and outputs Merge inputs and outputs 12 Maximum number of sequences 100 GO Cancel 8 Ony paths Do not explore subgraphs recursively FIG 6 18 Explora o dos caminhos de uma gram tica Eis o que se obt m para o grafo da figura 6 19 com os par metros pr definidos ignorar as sa das limite 100 caminhos lt NB gt lt boule gt de glace la pistache 97 lt NB gt lt boule gt de glace lt NB gt lt boule gt de glace lt NB gt lt boule gt de glace lt NB gt lt boule gt de glace lt NB gt lt boule gt de glace la fraise la vanille vanille fraise pistache lt NB gt lt boule gt de pistache lt NB gt lt boule gt d
10. Veja o arquivo correspondente ao texto Il mange une pomme de terre 0000000001 1 Il mange une pomme de terre q 114 2 2 q 33431 546474 8 5 9 510 5 q 116126 ieee ie ST t S lt E gt 4 6 I1 il1 PRO z1 3ms 1 lt mange manger V z1 Pls P3s Sls S3s Y2s une une N zl fs f une un DET z1 fs pomme pomme A zl ms fs mp fp pomme pomme N zl fs s pomme pommer V z3 Pls P3s Sls S3s Y2s de de DET z1 de de PREP z1 terre terre N z1l fs q terre terrer V z1 Pls P3s S1s S3s Y2s 6 4 10 5 2 Arquivo cursentence grf O arquivo cursentence grf gerado pelo Unitex no momento da visualiza o de um arquivo aut mato de uma frase a partir do arquivo text fst2 10 5 3 Arquivo sentenceN grf Quando o usu rio modifica o aut mato de uma frase esse aut mato copiado com o nome de sentence grf no qual N representa o n mero da frase 10 5 4 Arquivo cursentence txt No momento da extra o do aut mato de frase o texto da frase copiado no arquivo texto cursentence txt Esse arquivo utilizado pelo Unitex para exibir o texto da frase acima do aut mato Esse arquivo cont m o texto da frase seguido de uma quebra de linha 160 10 6 Concord ncias 10 6 1 Arquivo concord ind O arquivo concord ind o indice de ocorr ncias encontradas pelo programa Locate no momento da aplica o de uma gram tica um arquivo texto que cont m as posi
11. es de in cio e fim de cada ocorr ncia eventualmente acompanhadas de uma cadeia de caracteres se a concord ncia foi obtida levando se em conta as eventuais transdu es da gram tica Veja um exemplo de arquivo M 3036 3040 le ADJ petit salon 3071 3075 Le nouveau domestique 5600 5604 le jeune Lord 6052 6056 le second tage 6123 6127 le premier tage 6181 6185 le m me instant 6461 6465 le m thodique gentleman 7468 7472 le grand salon 7520 7524 le laborieux d pliage 7675 7679 le grand salon 8590 8594 le fait plus 7 10990 10994 le mauvais temps 13719 13723 le brave gar on 13896 13900 le modeste sac 15063 15067 le m me compartiment A primeira linha indica em qual modo ou transdu o a concord ncia foi calculada Os tr s valores poss veis s o I as transdu es foram ignoradas EM as transdu es foram inseridas nas sequ ncias reconhecidas modo MERGE R as transdu es substitu ram as seq ncias reconhecidas modo REPLACE Cada ocorr ncia descrita por uma linha As linhas come am pelas posi es de in cio e de fim da ocorr ncia As posi es s o dadas em unidades lexicais Se o arquivo comporta a linha inicial I a posi o final de cada ocorr ncia imediatamente seguida de uma quebra de linha Caso contr rio ela seguida de um espa o e de uma cadeia de caracteres Em modo REPLACE essa cadeia corresp
12. no caso de uma concord ncia constru da com o par metro glossanet o arquivo HTML obt m a mesma estrutura exceto no que se refere aos links Nessas concord ncias as ocorr ncias s o links reais reconduzindo de volta ao servidor da web da aplica o GlossaNet Para mais informa es sobre GlossaNet consultar os links sobre o website de Unitex http www igm univ mlv fr unitex Veja um exemplo de arquivo lt html lanq en gt lt head gt t ni hd nn Me m bn na ut ft 1 ml a trem on lt head gt lt body gt 4 lt font faces Courier new sizes3 gt MAAOTRE amp nbsp L lt a hrefe 104 109 2 gt AUTRE lt a gt amp nbsp COMM lt br gt 4 TRE amp nbsp COMME amp nbsp lt a hrefe 116 126 2 gt DOMESTIQUE lt a gt lt br gt 4 amp nbsp amp nbsp Al tait nbsp lt a hrefe 270 277 3 gt habitAl e lt a gt amp nbsp pa lt br gt 4 UN amp nbsp COMME amp nbsp lt a hrefe 94 100 2 gt MAAOTRE lt a gt nbsp L lt br gt 4 un amp nbsp de nbsp les amp nbsp lt a hrefe 314 321 3 gt membres lt a gt amp nbsp le lt br gt 4 la amp nbsp maison amp nbsp lt a hrefe 158 165 3 gt portant lt a gt amp nbsp le lt br gt 4 162 lt font gt 9 lt body gt lt html gt 4 A figura 10 2 mostra a p gina correspondente ao arquivo acima 3 Concordance file EiMy U T MAITRE L AUTRE COMM TRE COMME DOMESTIQUE tait habit e pa Fig 10 2 Exemplo de concord ncia 10 6 4 O
13. o do aut mato do texto Se o aut mato nao estiver completamente linear uma mensagem de erro lhe indicar o numero da primeira frase contendo uma ambig idade Sen o o programa Fst2Unambig construir o arquivo de sa da segundo os princ pios seguintes o arquivo de sa da cont m uma linha por frase todas as frases com exce o da ltima s o terminadas por S para cada caixa o programa escreve seu conte do seguido por um espa o NOTA a gest o dos espa os deixada inteiramente para o usu rio Assim se o texto de origem o do aut mato de frase da figura 7 26 o texto produzido ser 2 3 cats cat N Anl p fare be V p2s plp P2p P3p white white A 140 FST Text 1 sentence 23 cats are white Sentence Elag Frame Apply Elag Rule Fig 7 26 Exemplo do aut mato de texto linear Cap tulo 8 L xico gram tica As tabelas de l xico gram tica s o um meio compacto de representar as propriedades sint ticas dos elementos de uma l ngua poss vel construir gram ticas locais automaticamente a partir dessas tabelas gra as a um mecanismo de grafos parametrizados A primeira parte deste cap tulo apresenta a formaliza o dessas tabelas A segunda parte descreve os grafos parametrizados e o mecanismo de gera o autom tica de grafos a partir de uma tabela de l xico gram tica 8 1 As tabelas de l xico gram tica A l xico gram tica uma metodo
14. ou pela fun o de c pia integrada ao editor Deve se criar em seguida uma caixa no grafo e utilizar lt Ctrl V gt ou o comando Paste do menu Edit para col la na caixa Dessa forma aparecer a janela da figura 5 17 Choose your left and right contexts E FIG 5 17 Sele o de contexto para a c pia de uma lista Essa janela permite definir os contextos esquerda e direita que ser o acrescentados automaticamente a cada item da lista Por defini o esses contextos s o vazios Se aplicar os contextos lt et V gt lista seguinte eat sleep drink play read obt m se a caixa da figura 5 18 lt eat W gt sleep Y gt lt drink V gt lt play Y gt FIG 5 18 a Caixa obtida pela de lt read Y gt I ee c pia de uma lista com adi o de contextos 5 2 9 Simbolos especiais O editor de grafos do Unitex interpreta de maneira particular os seguintes s mbolos lt gt A tabela 5 1 resume a significa o para o Unitex destes simbolos assim como a ou as formas de identificar estes caracteres nos textos Significa o Codificac o as aspas delimitam sequ ncias que n o devem ser V nem interpretadas pelo Unitex nem sofrer vari veis de caixa o separa as diferentes linhas das caixas os servem para introduzir uma refer ncia a um oul subgrafo a indica o in cio da sa da em uma caixa lt o lt indica o in cio de motiv
15. podem reconhecer a palavra vazia Esse caso est ilustrado pela figura 6 9 se o subgrafo Adj reconhecer o psilon tem se um la o infinito que o Unitex n o pode eliminar Re 2 FIG 6 9 La o infinito devido a uma chamada a um subgrafo que reconhece o ipsilon A terceira possibilidade de la o infinito concerne as chamadas recursivas a subgrafos Consideremos os grafos Det e DetCompose da figura 6 10 Cada um desses grafos pode chamar o outro sem ler nada no texto O fato de que nenhum dos dois grafos comporta etiqueta entre o estado inicial e a chamada a um outro grafo capital De fato se houvesse ao menos uma etiqueta diferente de psilon entre o come o do grafo Det e a chamada ao DetCompose isso significaria que os programas do Unitex que exploram o grafo Det deveriam ler a chave de busca descrita por essa etiqueta no texto antes de chamar recursivamente o DetCompose Nesse caso os programas s poderiam entrar em looping infinito se eles encontrassem uma infinidade de vezes a chave no texto o que pode n o acontecer Det grf oY DetCompose grf H lt DET gt DC O FIG 6 10 La o infinito devido aos grafos que recorrem um ao outro 91 6 2 4 Detec o de erros Para evitar que os programas se bloqueiem ou travem o Unitex efetua automaticamente uma detec o de erros no momento da compila o dos grafos O compilador de grafos verifica que o grafo principal n o reconhece a pala
16. provide the Corresponding Source This alternative is allowed only occasionally and noncommercially and only if you received the object code with such an offer in accord with subsection 6b d Convey the object code by offering access from a designated place gratis or for a charge and offer equivalent access to the Corresponding Source in the same way through the same place at no further charge You need not require recipients to copy the Corresponding Source along with the object code If the place to copy the object code is a network server the Corresponding Source may be on a different server operated by you or a third party that supports equivalent copying facilities provided you maintain clear directions next to the object code saying where to find the Corresponding Source Regardless of what server hosts the Corresponding Source you remain obligated to ensure that it is available for as long as needed to satisfy these requirements e Convey the object code using peer to peer transmission provided you inform other peers where the object code and Corresponding Source of the work are being offered to the general public at no charge under subsection 6d A separable portion of the object code whose source code is excluded from the Corresponding Source as a System Library need not be included in conveying the object code work A User Product is either 1 a consumer product which means any tangible personal property which
17. rio etiquetando como nomes pr prios as palavras desconhecidas come adas por letra mai scula Como os grafos dicion rios s o aplicados pelo motor do programa Locate eles podem utilizar tudo o que Locate autoriza De modo particular poss vel utilizar os filtros morfol gicos Assim o grafo da figura 3 12 utiliza esses filtros para reconhecer os n meros em algarismos romanos Note se que da mesma forma ele utiliza contextos a fim de evitar por exemplo que D seja tomado apenas como algarismo romano quando ele for seguido de um ap strofo 3 7 Bibliografia A tabela 3 4 oferece algumas refer ncias relativas aos dicion rios eletr nicos de palavras simples e compostas Para mais detalhes consultar a p gina de refer ncias no site do Unitex http www igm univ mlv fr unitex 40 AE PAL NL LL LE Po RTE OO AAT eb DOI FIG 3 12 Grafo dicion rio que reconhece os n meros em algarismos romanos 41 Espanol o o 1 a TAB 3 4 Algumas refer ncias bibliogr ficas sobre os dicion rios eletr nicos Palavras simples Palavras compostas 1 1 1 L ngua 42 Capitulo 4 1 2 Busca de express es regulares Este cap tulo apresenta como pesquisar padr es simples em um texto utilizando express es regulares 4 1 Defini o O objetivo deste cap tulo n o fazer uma introdu o s linguagens formais mas mostrar como utilizar as express es racionais no Unitex para pesquisar padr es simples O
18. uma entrada deve conter todos os c digos autorizados pelo padr o e nenhum dos c digos proibidos O padr o lt A z3 gt reconhece portanto todos os adjetivos que n o possuem o c digo z3 ver quadro 3 2 Se desejar fazer refer ncia a um c digo que cont m o caractere necess rio desabilitar esse caractere precedendo o do caractere Assim o padr o lt N falso cognato gt poder reconhecer todas as entradas de dicion rio que contenham os c digos N e falso cognato A ordem na qual os c digos aparecem no padr o n o tem nenhuma import ncia Os tr s padr es lexicais seguintes s o equivalentes lt N Hum z1 gt lt z1 N Hum gt lt Hum z1 N gt NOTA n o poss vel utilizar um padr o que s tenha c digos proibidos lt N gt e lt A z1 gt s o portanto padr es incorretos poss vel todavia exprimir tais restri es utilizando se contextos ver se o 6 3 4 3 4 Restri es flexionais Pode se igualmente especificar restri es relativas aos c digos flexionais Essas restri es devem ser obrigatoriamente precedidas por pelo menos um c digo 45 gramatical ou sem ntico Elas se apresentam como os c digos flexionais presentes nos dicion rios Eis alguns exemplos de padr es lexicais que utilizam restri es flexionais lt A m gt reconhece um adjetivo masculino lt A mp f gt reconhece um adjetivo que seja tanto masculino plural quanto feminino lt V 2 3 gt identific
19. 10 3 Arquivo stats n Esse arquivo texto encontra se no diret rio texto e cont m uma linha da seguinte forma 3949 sentence delimiters 169394 9428 diff tokens 73788 9399 simple forms 438 10 digits Os n meros indicados podem ser assim interpretados sentences delimiters n mero de separadores de frases S tokens n mero total de unidades lexicais do texto O n mero precedente diff indica o n mero de unidades diferentes 174 simple forms n mero total no texto de unidades lexicais compostas de letras O numero entre par nteses representa o n mero de unidades lexicais diferentes que s o compostas de letras digits n mero total no texto de algarismos O n mero entre par nteses indica o numero de algarismos diferentes utilizados 10 no m ximo 10 10 4 Arquivo concord n O arquivo concord n um arquivo texto que se encontra na pasta do texto Cont m informa es sobre a ltima busca efetuada sobre esse texto e se apresenta da seguinte maneira 6 matches 6 recognized units 0 004 of the text is covered Y primeira linha indica o n mero de ocorr ncias encontradas a segunda o n mero de unidades cobertas por essas ocorr ncias A terceira linha indica a rela o entre o n mero de unidades cobertas e o n mero total de unidades do texto 175 Anexo GNU GENERAL PUBLIC LICENSE Version 3 29 June 2007 Copyright C 2007 Free Software Foundation Inc lt http fsf
20. A zl mp fp ceci est un exemple Os diferentes elementos que formam essa linha s o os seguintes e Mercantiles a forma flexionada da entrada Essa forma flexionada obrigat ria e Mercantile a forma can nica da entrada Para substantivos e adjetivos trata se de um modo geral da forma no masculino singular para verbos a forma can nica o infinitivo Essa informa o pode ser omitida como no exemplo seguinte bo te merveilles N z1 fs Ent o isso significa que a forma can nica id ntica forma flexionada A forma can nica fica separada da forma flexionada por uma v rgula e A zl a sequ ncia de informa es gramaticais e sem nticas No exemplo A designa um adjetivo e z1 indica que se trata de uma palavra comum ver tabela 3 2 Todas as entradas devem conter pelo menos um c digo gramatical ou 25 sem ntico separado da forma can nica por um ponto Se houver mais c digos estes devem ser separados pelo caractere verb mp fp a sequ ncia de informa es flexionais Essas informa es descrevem o g nero o n mero os tempos e modos das conjuga es as declina es para as l nguas declinativas etc Essas informa es s o opcionais Um c digo flexional composto por um ou mais caracteres cada um codificando uma informa o diferente Os c digos flexionais devem ser separados pelo caractere No exemplo m significa masculino p plural e f feminino ver tabela 3 3 O
21. AND OR CONVEYS THE PROGRAM AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAMAGES INCLUDING ANY GENERAL SPECIAL 185 INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE PROGRAM INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE PROGRAM TO OPERATE WITH ANY OTHER PROGRAMS EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES 17 Interpretation of Sections 15 and 16 If the disclaimer of warranty and limitation of liability provided above cannot be given local legal effect according to their terms reviewing courts shall apply local law that most closely approximates an absolute waiver of all civil liability in connection with the Program unless a warranty or assumption of liability accompanies a copy of the Program in return for a fee END OF TERMS AND CONDITIONS How to Apply These Terms to Your New Programs Ifyou develop a new program and you want it to be of the greatest possible use to the public the best way to achieve this is to make it free software which everyone can redistribute and change under these terms To do so attach the following notices to the program It is safest to attach them to the start of each source file to most effectively state the exclusion of warranty and each file should have at least the copyright line and a pointer to where the full notice is found
22. Chronicle Une demi heure plus tard divers et s absorba dans la lecture du Morning Caronicle Une demi heure plus tard divers menbres demi heure plus tard divers membres du R form Club faisaient leur entr e et s approchaiert de C taient les partenaires habituels de Mc Phileas Fogg comme lui enrag s joueurs de whist taient les partenaires habituels de Mr Phileas Fogg comme lui enrag s joueurs de whist l in es partenaires habituels de Mr Phileas Fogg comme lui enrag s joueurs de whist l ing rieur nieur Andrew Stuart les banquiers John Sullivan et Samuel Fallentin le brasseur Thomas Flanag les banquiers John Sullivan et Samuel Fallentin le brasseur Thomas Flanagan Gauthier Falph et Samuel Fallentin le brasseur Thomas Flanagan Gauthier Ralph un des administrateurs ce la nance Eh bien Ralph demanda Thomas Flanagan o en est cette affaire de vol _ Eh bien r 4 iles ont t envoy s en Am rique et en Europe dans tous les principaux ports d embarquexent e oustrait cinquante cing mille livres en bank notes 1 million 375 000 francs _ Non r rondit _ C est donc un industriel dit John Sullivan Le Mozning Chronicle assure que c est un ge ssa ts alatasa l dit Tela ETES Lirras La a and sa aa la sa asad le nam sao manto sos sms ama ft FIG 4 1 Resultado da pesquisa do meta lt DIC gt lt como comer V gt a palavra como enquanto forma conjugada do verbo comer e n o o adv rbi
23. N Fig 8 9 Grafo gerado para o verbo badauder o verbo n 11 verifica a propriedade da coluna A 146 TestGraph_0119 TestGraph_0120 TestGraph_0121 TestGraph 0127 TestGraph 0123 TestGraph 0124 TestGraph 0125 TestGraph 0126 TestGraph 0127 TestGraph 0128 TestGraph 0129 TestGraph 0130 TestGraph 0131 Fig 8 10 Grafo principal referente a todos os grafos gerados Cap tulo 9 Utiliza o dos programas externos 147 Este cap tulo apresenta a utiliza o dos diferentes programas que comp em o Unitex Esses programas que se encontram no diret rio Unitex App s o carregados automaticamente pela interface Pode se ver os comandos que foram executados clicando em Console no menu Info Pode se igualmente ver as op es dos diferentes programas selecionando os no submenu Help on commands do menu Info IMPORTANTE Muitos programas utilizam o diret rio do texto mon texte snt Esse diret rio criado pela interface gr fica ap s a normaliza o do texto Caso se trabalhe em linha de comando deve se criar esse diret rio manualmente ap s a execu o do programa Normalize IMPORTANTE 2 quando um par metro contiver espa os deve se coloc lo entre aspas para que o mesmo n o seja considerado como muitos par metros 9 1 CheckDic CheckDic dictionnaire type Esse programa efetua a verifica o do formato de um dicion rio de tipo DELAS ou DELAF O par metro dictionnaire corresponde ao no
24. Unitex Pode se ent o colar essa sele o pressionando lt Ctrl V gt ou clicando sobre Paste no menu Edit NOTA poss vel colar uma sele o m ltipla em um outro grafo diferente daquele em que foi efetuada a c pia 67 Para apagar as caixas selecion las e apagar o texto que elas cont m Para isso deve se apagar o texto presente na rea de texto localizada no alto da janela e validar com a tecla Enter O estado inicial e o estado final n o podem ser apagados E qunsaved Monday Tuesday Wednesday Thursday Friday Saturday Sunday Friday Saturday Sunday FIG 5 13 Copiar e colar de uma sele o m ltipla 5 2 6 Sa da E poss vel associar uma sa da a uma caixa Para isso utilizar o caractere especial Todos os caracteres localizados a sua direita ser o considerados como fazendo parte da sa da Assim o texto one two three number origina a caixa da figura 5 14 one two Im three number 68 FIG 5 14 Exemplo de sa da A sa da associada a uma caixa representada em negrito sob aquela VALUE varl E o 1 varl var FIG 5 15 Utiliza o de uma vari vel varl 5 2 7 Utiliza o das vari veis Pode se selecionar partes do texto identificado por uma gram tica por meio de vari veis Para associar uma vari vel varl a uma parte de uma gram tica utilizar os s mbolos especiais var1 e var1 para definir o in cio e o fim re
25. Users Legal Rights From Anti Circumvention Law No covered work shall be deemed part of an effective technological measure under any applicable law fulfilling obligations under article 11 of the WIPO copyright treaty adopted on 20 December 1996 or similar laws prohibiting or restricting circumvention of such measures When you convey a covered work you waive any legal power to forbid circumvention of technological measures to the extent such circumvention is effected by exercising rights under this License with respect to the covered work and you disclaim any intention to limit operation or modification of the work as a means of enforcing against the work s users your or third parties legal rights to forbid circumvention of technological measures 4 Conveying Verbatim Copies You may convey verbatim copies of the Program s source code as you receive it in any medium provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice keep intact all notices stating that this License and any non permissive terms added in accord with section 7 apply to the code keep intact all notices of the absence of any warranty and give all recipients a copy of this License along with the Program You may charge any price or no price for each copy that you convey and you may offer support or warranty protection for a fee 5 Conveying Modified Source Versions You may convey a work based on the Program or the
26. arquivo diff html O arquivo diff htlm uma p gina HTML que mostra as diferen as entre duas concord ncias Esse arquivo est em c digo UTF 8 Veja um exemplo de arquivo quebras de linha foram introduzidas pela diagrama o lt html gt lt head gt lt meta http equiv Content Type content text html charset UTF 8 gt lt style type text css gt a blue color blue text decoration underline a red color red text decoration underline a green color green text decoration underline lt style gt lt head gt ces lt br gt lt body gt lt ront color green gt ureen lt Iont gt sequences tnat occur in only one of the two concordances lt br gt lt table border 1 cellpadding 0 style font family Courier new font size 12 gt 10 7 Dicion rios 163 A compreens o dos dicion rios DELAF pelo programa Compress produz dois arquivos um arquivo bin que representa o aut mato m nimo das formas flexionadas do dicion rio e um arquivo inf que cont m as formas compactadas permitindo reconstruir as linhas do dicion rio a partir das formas flexionadas Essa se o descreve o formato de seus dois tipos de arquivos como o formato do arquivo CHECK DIC TXT que cont m o resultado da verifica o de um dicion rio 10 7 1 Arquivos bin Um arquivo bin um arquivo bin rio representando um aut mato Os 4 primeiros octetos do arquivo representam um inteiro mostrando o tamanho do arqu
27. atual prefer vel n o ativar essa op o se o computador n o for muito potente H uma outra op o suplementar que permite definir a posi o da barra de cones FIG 5 26 Grafo que deve ser lido da direita para a esquerda NOTA a op o Right to Left n o retomada pela janela de configura o geral dos grafos De fato os grafos de uma l ngua adotam por defini o a orienta o do texto definido por essa l ngua na aba Text Presentation da janela de prefer ncias ver figura 4 7 p gina 62 77 Preferences for English Graph Presentation Display Colors 7 Date Background Set v File Name Foreground Set Pathname Auxiliary Nodes __ sx V Frame Selected Nodes Ea Set Comment Notes E lt Enable antialising for rendering graphs Antialiasing Icon Bar Position 0 West North East South C None Fonts 1 Input Times New Roman 10 Reset to Default Output Arial Unicode MS 12 FIG 5 27 Configura o das prefer ncias por defini o 5 4 Os grafos fora do Unitex 5 4 1 Inser o de um grafo em um documento Para inserir um grafo em um documento preciso transform lo em imagem Para isso um primeiro m todo consiste em salvar o grafo como imagem no formato PNG Para isso ir at o menu FSGraph e clicar em Save as Em seguida escolher o tipo de arquivo PNG Deste modo ser ob
28. comportamento quase nico essas tabelas permitem informar a gram tica de cada elemento do l xico da o nome de l xico gram tica O Unitex permite construir gram ticas a partir de tais tabelas O Unitex um motor que permite explorar esses recursos ling sticos Estas caracter sticas t cnicas s o a portabilidade a modularidade a possibilidade de gerar l nguas que possuem os sistemas de escritas particulares como certas l nguas asi ticas e abertura gra as a uma Filosofia de Software Livre Suas caracter sticas ling sticas s o as que motivaram a elabora o dos recursos a precis o a exaustividade e a consci ncia da exist ncia dos fen menos de fixidez principalmente no que se refere ao cadastramento das palavras compostas O cap tulo 1 descreve a instala o e a inicializa o do Unitex O cap tulo 2 apresenta as diferentes etapas do processamento de um texto O cap tulo 3 descreve o formalismo dos dicion rios eletr nicos DELA assim como as diferentes opera es que podem ser aplicadas nos mesmos Os capitulos 4 e 5 apresentam os diferentes meios de efetuar buscas por padr es nos textos O capitulo 5 descreve em detalhes a utiliza o do editor de grafos O cap tulo 6 dedicado s diferentes utiliza es poss veis das gram ticas As particularidades de cada tipo de gram tica s o aqui apresentadas O cap tulo 7 introduz o conceito de aut mato do texto e descreve as particularidades desse objet
29. compostas 3 6 Aplica o dos dicion rios O Unitex pode manipular tanto dicion rios compactados bin quanto grafos dicion rios fst2 Esses dicion rios podem ser aplicados tanto em um pr processamento quanto explicitamente clicando em Apply Lexical Resources no menu Text Ser o detalhados agora as regras de aplica o dos dicion rios O caso dos grafos dicion rios ser abordado na se o 3 6 3 3 6 1 Prioridades A regra de prioridade a seguinte se uma palavra do texto foi encontrada em um dicion rio esta palavra n o mais ser levada em conta quando da aplica o de dicion rios com uma prioridade inferior Isso permite eliminar algumas ambig idades quando da aplica o dos dicion rios Por exemplo a palavra par tem uma interpreta o nominal no dom nio do golf Se n o desejar considerar esse emprego basta criar um dicion rio filtro que contenha apenas a entrada par PREP e salv la conferindo lhe a prioridade mais alta Desta maneira mesmo se o dicion rio das palavras simples contiver a outra entrada ela ser ignorada gra as ao jeu das prioridades H tr s n veis de prioridades Os dicion rios cujos substantivos sem extens o terminam em t m a maior prioridade aqueles cujos substantivos terminam em t m a menor prioridade os outros dicion rios s o aplicados com uma prioridade m dia A ordem da aplica o de v rios dicion rios que tenham a mesma prioridade n o i
30. copyright are not used to limit the access or legal rights of the compilation s users beyond what the individual works permit Inclusion of a covered work in an aggregate does not cause this License to apply to the other parts of the aggregate 6 Conveying Non Source Forms You may convey a covered work in object code form under the terms of sections 4 and 5 provided that you also convey the machine readable Corresponding Source under the terms of this License in one of these ways a Convey the object code in or embodied in a physical product including a physical distribution medium accompanied by the Corresponding Source fixed on a durable physical medium customarily used for software interchange b Convey the object code in or embodied in a physical product including a physical distribution medium accompanied by a written offer valid for at least three years and valid for as long as you offer spare parts or customer support for that product model to give anyone who possesses the object code either 1 a copy of the Corresponding Source for all the software in the product that is covered by this License on a durable physical medium customarily used for software interchange for a price no more than your reasonable cost of physically performing this conveying of source or 2 access to copy the Corresponding Source from a network server at no charge c Convey individual copies of the object code with a copy of the written offer to
31. da gram tica de sa da e criar subgrafos correspondentes aos diferentes sub diret rios como se pode ver na figura 6 21 que mostra o grafo de sa da criado para o nosso exemplo Pode se constatar que uma caixa contenha as chamadas a subgrafos correspondentes a sub diret rios aqui os diret rios Banque e Nourriture e que a outra caixa fa a remiss o a todos os outros grafos que se encontravam no diret rio aqui o grafo truc grf Grammars corresponding to sub directories Banque_dir Nourriture dir Grammars corresponding to graphs Fig 6 21 Grafo principal de uma cole o de grafos 6 6 Regras de aplica o dos transdutores Esta se o descreve as regras de aplica o dos transdutores durante opera es de pr tratamento e de busca por padr es Os grafos de flex o e de normaliza o de formas amb guas n o se aplicam ao que segue Essas caixas correspondem aos n s na terminologia geral de grafos 100 6 6 1 Inser o esquerda da chave de busca reconhecida Assim que um transdutor aplicado em modo REPLACE as sa das substituem as sequ ncias lidas no texto No modo MERGE as sa das s o inseridas esquerda das sequ ncias reconhecidas Deve se considerar o transdutor da figura 6 22 HEHE EO Adj Fig 6 22 Exemplo de transdutor Se esse transdutor for aplicado ao romance Ivanhoe de Sir Walter Scott no modo MERGE obt m se a seguinte concord ncia da figura 6 2
32. definir os alfabetos de l nguas asi ticas como o coreano o chin s ou o japon s nos quais n o h distin o de quebra e nos quais o n mero de caracteres tornaria muito trabalhosa uma enumera o completa dois caracteres X e Y indicam que X e Y s o letras e que X equivale mai scula da letra Y N um nico caractere X define x como uma letra ao mesmo tempo mai scula e min scula Esse modo til para definir um caractere asi tico de maneira precisa Para algumas l nguas como o franc s ocorre de muitas letras mai sculas corresponderem a uma min scula como o caso de que pode ter como mai scula E 2 ou Para expressar isso basta utilizar muitas linhas O inverso igualmente v lido a uma mai scula podem corresponder muitas min sculas Assim o E pode ser a mai scula de e Veja o fragmento do arquivo alfabeto do franc s que define as diferentes letras e E td Ej Ej ti D D D D D D gt D Eg EH E gt E D gt D 10 2 2 Alfabeto de ordena o O alfabeto de ordena o um arquivo texto que define as prioridades de letras de uma l ngua no momento da ordena o gra as ao programa Sort txt Cada linha desse arquivo define um conjunto de letras Se um conjunto de letras A definido antes de um conjunto de letras B n o importa que a letra de A seja inferior a qualquer letra de B 153 As letras de um mesmo conjunto s se
33. desejar instalar o Unitex em uma m quina Windows com gerenciamento de usu rios prefer vel pedir ao seu administrador para que o fa a Se voc for o nico usu rio de sua m quina voc mesmo pode efetuar a instala o Descompactar o arquivo Unitex 1 2 zip voc pode baixar este arquivo no seguinte endere o http www igm univ mlv fr unitex em um diret rio Unitex que voc previamente criou de prefer ncia em Program Files Ap s a descompacta o o diret rio Unitex conter v rios sub diret rios onde um se chamar App Este ltimo diret rio cont m um arquivo chamado Unitex jar Este arquivo o execut vel Java que aciona a interface gr fica Basta dar duplo clique nesse arquivo para acionar o programa Para facilitar a execu o do programa aconselh vel criar um atalho para esse arquivo na rea de trabalho 1 4 Instala o no Linux e MacOS Para instalar o Unitex no Linux e no MacOS recomend vel ser administrador do sistema Descompactar o arquivo Unitex 1 2 zip em uma diret rio chamado Unitex por meio do seguinte comando unzip Unitex 1 2 zip d Unitex Entrar em seguida no diret rio Unitex Src C e executar a compila o dos programas por meio do comando make install Criar em seguida um alias no seguinte modelo alias unitex cd Unitex App java jar Unitex jar 1 5 Primeira utiliza o Se trabalhar com o Windows o programa pedir que escolha uma pasta de t
34. dicio dic e produz dois arquivos meu dicio bin cont m o aut mato m nimo das formas flexionadas dos dicion rios meu dicio inf cont m os c digos que permitem reconstruir o dicion rio de origem a partir das formas flexionadas contidas em meu dicio bin O aut mato m nimo contido em meu dicio bin uma representa o das formas flexionadas onde todos os prefixos e sufixos comuns s o fatorados Por exemplo o aut mato m nimo das palavras me te se ma ta e sa pode ser representado pelo grafo da figura 3 8 FIG 3 8 Representa o de um exemplo de aut mato m nimo Para compactar um dicion rio necess rio abri lo e em seguida clicar em Compress into FST no menu DELA A compacta o independente da l ngua e do conte do do dicion rio As mensagens produzidas pelo programa s o exibidas em uma janela que n o se fecha automaticamente Assim pode se ver o tamanho do arquivo bin obtido o n mero de linhas lidas bem como o n mero de c digos flexionais produzidos A figura 3 9 mostra o resultado da compacta o de um dicion rio de palavras simples Minimization done Binary file 859660 bytes 156915 lines read 24205 INF entries created 78724 states 127271 transitions 36 FIG 3 9 Resultado de uma compacta o A t tulo indicativo as taxas de compacta o geralmente observadas de aproximadamente 95 para os dicion rios de palavras simples e de 50 para os de palavras
35. digos facultativos que s o independentes dos outros c digos como por exemplo o atributo do n vel de l ngua z1 z2 ou z3 Da mesma maneira que para os c digos flexionais igualmente poss vel negar um atributo flexional escrevendo o caractere exatamente antes do nome do atributo Assim com o nosso arquivo de exemplo o s mbolo lt A esquerda f gt reconhece todos os adjetivos no feminino que n o possuem o c digo 3 g Essa gram tica n o est completamente correta pois elimina por exemplo a an lise correta da frase J ai re u des coups de fil de ma m re hallucinants 134 Todos os c digos que n o s o declarados no arquivo tagset def s o ignorados pelo ELAG Se uma entrada de dicion rio cont m certo c digo ELAG produzir um aviso e retirar o c digo da entrada Por conseqii ncia se duas entradas concorrentes s diferirem do aut mato do texto de origem por c digos n o declarados essas entradas dever o se tornar indistingu veis pelos programas e ser o portanto unificadas em uma nica entrada no aut mato resultado Desse modo o conjunto de etiquetas descrito no arquivo tagset def pode chegar a reduzir a ambiguidade produzindo palavras que difiram apenas pelos c digos n o declarados e isso independentemente das gram ticas aplicadas Por exemplo na vers o mais completa do dicion rio do franc s cada emprego distinto de um verbo caracterizado por uma refer ncia para a tabela do l xi
36. direito CL ocorr ncia contexto esquerdo CR ocorr ncia contexto direito RL contexto direito contexto esquerdo RC contexto direito ocorr ncia NULL n o especifica nenhuma seq ncia de ordena o Esta op o deve ser utilizada quando se deseja modificar o texto ao inv s de construir uma concord ncia Para mais detalhes sobre os modelos de ordena o ver a se o 4 8 2 mode indica sob qual formato a concord ncia deve ser produzida Os quatro modos poss veis s o html produz uma concord ncia no formato HTML codificada em UTF 8 texte produz uma concord ncia no formato texto unicode glossanet produz uma concord ncia para o GlossaNet no formato HTML O arquivo HTML produzido codificado em UTF 8 149 nom_de_fichier indica ao programa que ele deve produzir uma vers o modificada do texto e salv la em um arquivo nomeado nom_de_fichier ver se o 6 7 3 alph arquivo alfab tico utilizado para a sele o O valor NULL indica a aus ncia de arquivo de alfabeto thai esse par metro facultativo Ele indica ao programa que ele manipula textos tha Essa op o necess ria para o bom funcionamento do programa em textos tha O resultado da aplica o desse programa um arquivo concord txt se a concord ncia tiver sido constru da em modo texto um arquivo concord html para os modos html e glossanet e um arquivo texto cujo nome tenha sido definido pelo usu
37. estiver seguido por um nome Deste modo na express o 5 0 7 12 esse grafo reconhecer 5 0 e 12 se TO FIG 6 16 Imbrica o de contextos As sa das que se encontram nas caixas no interior de um contexto s o ignoradas Por outro lado poss vel utilizar uma vari vel que tenha sido definida em um contexto como o caso apresentado na figura 6 17 Se esse grafo for aplicado no modo MERGE ao texto the cat is White obt m se como sa da 95 the lt pet name cat color branco gt is white sie e green C color C gt ES lt pet name FIG 6 17 Variavel definida em um contexto 6 4 Explora o dos caminhos de uma gram tica possivel criar caminhos reconheciveis por uma gram tica para verificar por exemplo se ela gera corretamente as formas esperadas Para isso abrir o grafo principal da gram tica e certificar se de que a janela do grafo mesmo a janela ativa a janela ativa possui uma barra de t tulo azul enquanto as janelas inativas t m uma barra de t tulo cinza Em seguida ir at o menu FSGraph depois at o submenu Tools e clicar em Explore graph paths A janela da figura 6 18 aparece ent o A op o superior cont m o nome do grafo principal da gram tica a ser explorada As op es seguintes concernem a gest o das sa das da gram tica assim como o modo de explora o Ignore outputs as sa das s o ignoradas
38. fATITUS wispon geya des ayy Jo aredd Sty of sem AI IS ASSENT wispon PISU0O aq JUIN pumos ayy angesod ames aus UT Jia tq aTquiep Auet Tiny aTq yoqqw ue aq of UEM Auen Y TU BTSSq sseah aya uodn Aeq yotum gaeas deagaenh buoy 212805 utaq amotoo aya ang s faTauem Diaseuom PHOT E PUNOI 91 01 ATABAU Payaead WYOTYM U1010 1007 baoT S UTEJA 343 UT PamoTTOL Gum a2asOU1 JO auo 1aul0ig MET Taneeq alma Jo 1184 1218416 aum futaanos Z83064 abIET ce pue SjimnoTTIa 1U TIA ata pautt paTios Tesp POOD 3 D4O sty 09 1234014 ssarp atoya aua pue ASE u p ob E gioM 3YQ 310J3q CSIATIIP ay u um queT Teh UOUSIX ATAII TE 14 um 3ST3 PUB pTISBTd ayo of AnWAnM Jo 20104 21432 BI WATTS UTIA PEU sy se Araderzp Jo 35374 Stisen d p g TTI Jo pre afeTnoS Jo WOTIASKS poutmasasp TU 09 S Z uu123S TEeUOTITPppe aaeh MOI sty uo 1695 daap apeT 5149 jo asprm ayy ut faseds Usado aTqelspisu ds yig THe pauwe aya Jo pesodmoo s sa rs yatm Jeqoel 26010 IUT ON STB1I13180 Jo pasoduoo ang UU Ueldial l S 2 ang UTANONES U011981116 getagenhos Jo ite NIE 190 E TUE sseui mos ETU 01 Ssawa Temor pappe au aseysel ava OL Ss smneqTos aua se suoxeg oThuy 343 Jo aouagsTxa amp HI JO asoy 2HLT 248q saaug ya 2397 ITE UATIL paraaoo sem peasy STH is 3100 pues 10 ahieya aya UT ST pus saaTtT 91h14 ay OUT UNS audi JO aouantgut awa Aq PaU010 UTU JUME PEU UOTJENI
39. leitor interessado em uma apresenta o mais formal poder lan ar m o das numerosas obras que tratam do assunto Uma express o regular pode ser uma unidade lexical Livro ou um padr o lexical lt comer V gt a concatena o de duas express es racionais eu como a uni o de duas express es racionais Pedro Paulo o asterisco de Kleene de uma express o regular muito 4 2 Unidades lexicais Em uma express o regular a unidade lexical tem a mesma defini o mostrada na se o 2 5 4 p gina 24 Note se que os s mbolos ponto adi o asterisco subtra o bem como os par nteses de abertura e fechamento t m uma significa o espec fica necess rio portanto desabilita los com o caractere de escape se desejar busca los A seguir alguns exemplos de unidades lexicais v lidas gato Ve lt N ms gt S Por defini o o Unitex tolera que palavras com min sculas reconhe am palavras escritas com mai sculas E poss vel for ar o respeito caixa utilizando aspas Assim argentina reconhece apenas a forma argentina e n o Argentina ou ARGENTINA NOTA Se desejar tornar a presen a de um espa o obrigat ria necess rio coloc lo entre aspas 43 4 3 Padr es 4 3 1 S mbolos especiais H dois tipos de padr es A primeira categoria re ne todos os s mbolos apresentados na se o 2 5 2 com exce o de lt PNC gt que identifica os sinais de pontua o e do s mbolo
40. mensagem This file is too large to be displayed Use a wordprocessor to view it exibida na janela Esta observa o diz respeito a todos os arquivos texto lista das unidades lexicais dicion rios etc Para modificar este limite v ao menu Info gt Preferences e modifique o valor Maximum Text File Size na aba Text Presentation ver figura 4 7 p gina 62 2 5 Pr processamento do texto Uma vez selecionado o texto o Unitex prop e pr process lo O pr processamento do texto consiste em aplicar lhe as seguintes opera es normaliza o de separadores segmenta o em unidades lexicais normaliza o de formas n o amb guas segmenta o em frases e aplica o dos dicion rios Se recusar o pr processamento o texto ser sempre normalizado e segmentado em unidades pois essas opera es s o indispens veis para o funcionamento do Unitex Ser poss vel efetuar o pr processamento mais tarde clicando em Preprocess text no menu Text Se aceitar o pr processamento o Unitex mostrar os par metros na janela da figura 2 8 A op o Apply FST2 in MERGE mode serve para efetuar a segmenta o do texto em frases A op o Apply FST2 in REPLACE mode utilizada para efetuar substitui es no texto na maioria das vezes a normaliza o de formas n o amb guas A op o Apply All defaut Dictionaries permite aplicar ao texto os dicion rios no formato DELA Dici
41. modifying a private copy Propagation includes copying distribution with or without modification making available to the public and in some countries other activities as well To convey a work means any kind of propagation that enables other parties to make or receive copies Mere interaction with a user through a computer network with no transfer of a copy is not conveying An interactive user interface displays Appropriate Legal Notices to the extent that it includes a convenient and prominently visible feature that 1 displays an appropriate copyright notice and 2 tells the user that there is no warranty for the work except to the extent that warranties are provided that licensees may convey the work under this License and how to view a copy of this License If the interface presents a list of user commands or options such as a menu a prominent item in the list meets this criterion 1 Source Code 177 The source code for a work means the preferred form of the work for making modifications to it Object code means any non source form of a work A Standard Interface means an interface that either is an official standard defined by a recognized standards body or in the case of interfaces specified for a particular programming language one that is widely used among developers working in that language The System Libraries of an executable work include anything other than the work as a w
42. ncia Ele pode igualmente produzir uma vers o do texto modificado baseando se nas transdu es associadas s ocorr ncias A seguir a descri o dos par metros index nome do arquivo de concord ncia Deve se indicar o caminho de acesso completo a esse arquivo pois o Unitex se utiliza do mesmo para determinar sobre qual texto a concord ncia deve ser calculada font nome da fonte de caracteres a ser utilizada quando a concord ncia dever ser produzida em formato HTML Caso a concord ncia n o esteja em formato HTML este par metro ignorado fontsize tamanho da fonte se a concord ncia estiver no formato HTML Como no par metro font este ignorado se a concord ncia n o estiver no formato HTML left n mero de caracteres do contexto esquerdo das ocorr ncias Em modo tha trata se do n mero de caracteres n o diacr ticos right n mero de caracteres do contexto direito n o diacr ticos no caso do thai Caso a ocorr ncia tenha uma extens o inferior a este valor a linha de concord ncia completada para que o contexto direito tenha a mesma extens o de right Se a ocorr ncia tiver uma extens o maior que os caracteres de right mesmo assim ser salva por inteiro order indica o modo de ordena o a ser utilizado para ordenar as linhas de concord ncia Os valores poss veis s o TO ordem na qual as ocorr ncias aparecem no texto LC contexto esquerdo ocorr ncia LR contexto esquerdo contexto
43. nome do atributo seguido do sinal e dos valores que ele pode tomar Por exemplo a linha seguinte declara um atributo pes podendo tomar os valores 1 2 ou 3 pes 1 2 3 cat essa parte declara os atributos sint ticos e sem nticos que podem ser atribu dos as entradas pertencentes s respectivas categorias gramaticais Cada linha descreve um atributo e os valores que ele pode tomar Os c digos declarados para um mesmo atributo devem ser exclusivos uns dos outros Em outras palavras uma entrada n o pode ter mais de um valor para um mesmo atributo Em contrapartida podem existir etiquetas que n o tomam nenhum valor para determinado atributo Por exemplo para definir o atributo n vel de l ngua que pode ter os valores z1 z2 e z3 aparecer a seguinte linha n vel de l ngua z1 22 z3 discr essa parte constitu da da declara o de um nico atributo A sintaxe a mesma que na parte cat e o atributo descrito aqui n o deve ser repetido Essa parte permite dividir a categoria gramatical em sub categorias discriminantes nas quais as entradas t m os atributos flexionais equivalentes Para os pronomes por exemplo uma indica o de pessoa atribu da s entradas pertencendo sub categoria dos pronomes pessoais mas n o dos pronomes relativos Essas depend ncias s o descritas na parte complete complete Nessa parte explicitada a etiquetagem morfol gica da palavra que pertence categoria gramatical corre
44. o Unitex copia uma pasta dessa l ngua para o seu diret rio pessoal com exce o dos dicion rios para economizar espa o em disco Aten o Se j possuir um diret rio de usu rio para uma determinada l ngua o Unitex n o tentar recopiar os dados do sistema Assim se uma atualiza o modificou um arquivo do dicion rio ser necess rio ou fazer uma atualiza o manual do arquivo no seu diret rio de usu rio ou apagar seu diret rio para a l ngua em quest o e deixar para o Unitex o cuidado de recri la A escolha da l ngua permite indicar ao Unitex onde encontrar certos dados como por exemplo o arquivo alfabeto Voc pode a qualquer momento mudar a l ngua no menu Text Se voc mudar de l ngua o programa fechar se houver todas as janelas relativas ao texto atual A barra do t tulo z clicando no Change Language da interface gr fica indicar a l ngua escolhida 2 2 Formato dos textos O Unitex manipula os textos Unicode O Unicode um padr o que descreve uma codifica o universal dos caracteres A cada caractere atribu do um n mero nico que permite representar os textos sem ter que considerar a c digos espec ficos das diferentes m quinas e ou sistemas operacionais Unitex utiliza uma representa o codificada em dois bytes do padr o Unicode 3 0 chamado Unicode Little Endian para mais detalhes ver 12 User spaumier Choose the language you want to work on Fi
45. o alinhadas sobre a caixa mais direita FIG 5 21 Exemplo de antialiasing Use Grid every 20 pixels oe ea 74 FIG 5 22 Janela de alinhamento A figura 5 23 apresenta um exemplo de alinhamento O grupo de caixas localizado direita uma c pia das caixas da esquerda que foi alinhada verticalmente esquerda FIG 5 23 Exemplo de alinhamento vertical esquerdo A op o Use Grid da janela de alinhamento permite colocar uma grade no plano de fundo do grafo Isso permite alinhar aproximativamente as caixas of a graph displayed with FIG 5 24 Exemplo de utiliza o de uma grade 5 3 4 Apresenta o fontes e cores Pode se configurar a imagem de um grafo pressionando lt Ctrl R gt ou clicando sobre Presentation no submenu Format do menu FSGraph o que faz com que seja exibida a janela da figura 5 25 Presentation Display Colors y R E Date Background Set E File Name Foreground Set Z Pathname Auxiliary Nodes Set vi Frame Selected Nades E 1 Right to Left Comment Nodes Set l m Tim s Now Roman 10 Es Output Times New Roman Gras 12 ca ik FIG 5 25 Configura o da imagem de um grafo As configura es de fonte s o Input fonte utilizada nas caixas assim como na rea de texto onde se edita o conte do das caixas Out
46. o caminho suprimido Se a vari vel n o remeter nem ao sinal e nem ao sinal ela ser substitu da pelo conte do da c lula Existe igualmente uma vari vel especial que substitu da pelo n mero da linha na tabela O fato de seu valor ser diferente para cada linha permite utiliz la para caracterizar facilmente uma linha Essa vari vel n o afetada pela presen a da um ponto de exclama o sua esquerda A figura 8 3 mostra um exemplo de grafo parametrizado concebido para ser aplicado tabela de l xico gram tica 31H apresentada na figura 8 4 s tre v gt OE s c vie verbe n v rifie la propri t de la colonne A N aww tre Vpp e lt cv gt vers lt N gt le verbe n ne v rifie pas la propri t de la colonne A NO V vers N FIG 8 3 Exemplo de grafo parametrizado o verbo n verifica a propriedade da coluna A o verbo n n o verifica a propriedade da coluna A S Table31H_xls Exemple avoir abandonner 1 do F Paul a amp abandonn avoir abuser Max abuse lavoir acquiescer HI F j d Max aSacquiesc s E de la t te lavoir jadouber F F do F F do PaulgadoubeS checs lavoir jagioter j jl j f Max agiote sur les changes lavoir agoniser tjl jej l tjj Ads Max agonise lavoir archaiser t t t bL Cet auteur archaise volontiers lavoir ar
47. o representadas nas caixas por linhas cujo plano de fundo pode ser tanto cinza quanto marrom no caso de subgrafos a serem buscados no diret rio de dep sito No Windows pode se abrir um subgrafo clicando sobre a Por uma quest o de clareza as refer ncias aos grafos do diret rio de dep sito est o em marrom em vez de cinza 66 linha acinzentada e pressionando ao mesmo tempo a tecla Alt No Linux a combina o lt Alt Ctrl gt interceptada pelo sistema Para abrir um subgrafo preciso clicar sobre seu nome pressionando simultaneamente o bot o esquerdo e direito do mouse 5 2 5 Manipula o das caixas poss vel selecionar v rias caixas por meio do mouse Para isso clicar e movimentar o mouse sem soltar o bot o Quando soltar o bot o todas as caixas compreendidas no ret ngulo de sele o ser o selecionadas e ent o ser o apresentadas em branco sobre um fundo azul Mister Mr FIG 5 12 Sele o de v rias caixas Quando as caixas estiverem selecionadas poss vel desloc las clicando e movimentando o cursor sem soltar o bot o Para anular a sele o clicar sobre uma rea vazia do grafo se clicar sobre uma caixa todas as caixas da sele o ser o associadas aquela E poss vel copiar e colar v rias caixas Para isso preciso selecion las e pressionar lt Ctrl C gt ou clicar sobre Copy no menu Edit A sele o m ltipla est nesse momento na rea de transfer ncia do
48. org gt Everyone is permitted to copy and distribute verbatim copies of this license document but changing it is not allowed Preamble The GNU General Public License is a free copyleft license for software and other kinds of works The licenses for most software and other practical works are designed to take away your freedom to share and change the works By contrast the GNU General Public License is intended to guarantee your freedom to share and change all versions of a program to make sure it remains free software for all its users We the Free Software Foundation use the GNU General Public License for most of our software it applies also to any other work released this way by its authors You can apply it to your programs too When we speak of free software we are referring to freedom not price Our General Public Licenses are designed to make sure that you have the freedom to distribute copies of free software and charge for them if you wish that you receive source code or can get it if you want it that you can change the software or use pieces of it in new free programs and that you know you can do these things To protect your rights we need to prevent others from denying you these rights or asking you to surrender the rights Therefore you have certain responsibilities if you distribute copies of the software or if you modify it responsibilities to respect the freedom of others For example if you distribute copi
49. partes que chamaremos parte se e parte ent o A parte se de uma gram tica ELAG divide se em duas zonas delimitadas por caixas contendo o s mbolo lt gt A parte ent o dividida do mesmo modo por meio do s mbolo lt gt O significado de uma gram tica o seguinte no aut mato do texto ser for encontrada uma sequ ncia reconhecida pela parte se ent o ela deve tamb m ser reconhecida pela parte ent o da gram tica sem o que ela ser retirada do aut mato do texto A figura 7 12 mostra um exemplo de gram tica A parte se reconhece um verbo na segunda pessoa do singular seguido por um travess o e tu seja como pronome seja como partic pio passado do verbo calar A parte ent o imp e que tu seja ent o considerado como pronome A figura 7 13 mostra o resultado da aplica o dessa gram tica na frase Feras tu cela bient t Pode se ver sobre o aut mato de baixo que o caminho correspondente a tu como partic pio passado foi eliminado 123 4055 sentences sauimedunnlaan manila Liouuausndcndauenuwalal S Gnendaaryown mala 3 Sentence Es Reset Sentence Graph Rebuild FST Text Elag Frame E AVE X KO nu CONJ wa is au FIG 7 11 Aut mato da figura 7 9 ap s limpeza Ponto de sincroniza o As partes se e ent o de uma gram tica ELAG s o divididas em duas pelo segundo simbolo lt gt na parte se e pelo segundo s mbolo lt gt na parte ent o
50. quando os contextos forem id nticos que o caso se comparar p che e p che A fim de levar em conta esse fen meno o programa de ordena o Sort Txt utiliza um arquivo que define as equival ncias de caracteres Esse arquivo chama se Alphabet sort txt e encontra se no diret rio da lingua comum do usu rio Eis as primeiras linhas do arquivo utilizado como default para o franc s AAAAaaddad Bb CCEC Dd 32 3 4 Flex o autom tica Como descrito na se o 3 1 2 uma linha de DELAS composta geralmente por uma forma can nica e por uma sequ ncia de c digos gramaticais ou sem nticos f nix N4 Anl nix N4 Conc remix N4 O primeiro c digo encontrado interpretado como o nome da gram tica a ser utilizada para flexionar a forma can nica As gram ticas de flex o devem ter sido compiladas ver capitulo 5 No exemplo acima todas as entradas ser o flexionadas com uma gram tica nomeada N4 Para ativar a flex o clicar em Inflect no menu DELA A janela da figura 3 5 permite indicar ao programa de flex o o repert rio no qual se encontram as gram ticas de flex o Por default o sub repert rio Inflection do repert rio da l ngua comum utilizado A op o Add before inflectional codes if necessary insere automaticamente o caractere antes dos c digos flexionais casos eles n o se iniciem por esse caractere A op o Remove class numbers permite substituir os c digo
51. que exibido assim que a verifica o for conclu da Al m das eventuais mensagens de erro esse arquivo cont m a lista de todos os caracteres utilizados nas formas flexionadas e can nicas a lista de c digos gramaticais e sem nticos assim como a lista de c digos flexionais utilizados A lista de caracteres permite verificar se os caracteres presentes no dicion rio s o coerentes com aqueles presentes no arquivo do alfabeto da l ngua Cada caractere vem acompanhado por seu valor em nota o hexadecimal As listas de c digos podem ser utilizadas para verificar se n o existe erro de digita o nos c digos do dicion rio O programa funciona com dicion rios n o compactados ou seja sob forma de arquivos texto A conven o geralmente utilizada dar a extens o dic a esses dicion rios Para verificar o formato de um dicion rio preciso antes de tudo abri lo clicando em Open no menu DELA Unitex 1 2 current language is English Check Format Sort Dictionary Infest Compress into FST Morph Var amp Der Append Suffixes to Stems FIG 3 1 Menu DELA preciso carregar o dicion rio da figura 3 2 Para acionar a verifica o autom tica clicar em Check Format no menu DELA E assim a janela da figura 3 3 aparecer Essa janela permite escolher o tipo de dicion rio que se deseja verificar Os resultados da verifica o do dicion rio da figura 3 2 est o na figura 3 4
52. re podem ser escritas com espa os ou com hifens Para evitar ter que duplicar todas as entradas poss vel utilizar o caractere No momento da compacta o do dicion rio o programa Compress verifica para cada linha se a forma flexionada ou a forma can nica cont m o caractere n o protegido pelo caractere de escape Se for o caso o programa substitui a entrada por duas 26 entradas uma em que o caractere substitu do por um espa o e outra em que ele substitu do por um h fen Assim a entrada a seguir grand m res grand m re N fp substitu da pelas duas linhas seguintes grand m res grand m re N fp grand m res grand m re N fp NOTA Se desejar escrever uma entrada que contenha o caractere necess rio desabilit lo com o caractere de escape como no exemplo seguinte E mc2 FORMULA Essa opera o de substitui o ocorre por ocasi o da compacta o do dicion rio Uma vez o dicion rio compactado os sinais desabilitados s o substitu dos por simples Assim se um dicion rio contendo as seguintes linhas for compactado E mc2 F RMULA grand m re N fs E for aplicado ao texto Ma grand m re m a expliqu la formule E mc2 Obt m se no dicion rio de palavras compostas do texto as seguintes linhas E mc2 FORMULI grand m re N fs Ea Fatora o das entradas Muitas entradas que apresentam as mesmas formas flexionada e can nica podem ser agr
53. rio caso o programa tenha constru do uma vers o modificada do texto Em modo htm1 a ocorr ncia codificada como um link A refer ncia associada a esse link de formato a href x y z x ey representam as posi es de in cio e fim da ocorr ncia em caracteres no arquivo nom_du_texte snt z representa o n mero da frase na qual aparece a ocorr ncia 9 4 ConcorDiff ConcorDiff concorl concor2 out font size Esse programa utiliza se de 2 arquivos de concord ncia para produzir uma p gina HTML mostrando as diferen as entre essas duas concord ncias ver se o 6 7 5 p gina 108 Os par metros s o os seguintes concorl e concor2 arquivos de concord ncia ind Os nomes dos arquivos devem ser absolutos pois o Unitex deduz da o texto sobre o qual foram calculadas out p gina HTML de sa da font fonte a ser utilizada na p gina HTML de sa da size tamanho da fonte a ser utilizada na p gina HTML de sa da 9 5 Convert Convert src dest mode text 1 text_2 text 3 Esse programa permite modificar a codifica o dos arquivos texto O par metro src indica a codifica o de entrada O par metro opcional dest indica o c digo de sa da Por defini o a codifica o de sa da ser LITTLE ENDIAN Os valores poss veis para esses par metros s o 150 GERMAN SPANISH PORTUGUESE ITALIAN NORWEGIAN LATIN p gina de c digos latinos por defi
54. rio em primeiro lugar abrir um texto ver cap tulo 2 Clicar em seguida em Locate Pattern no menu Text A janela da figura 4 4 ent o aparecer E Locate Pattern Locate pattern in the form af Regular expression ae Graph set Index Grammar outputs e O Shortest matches 8 Are not taken into account Longestmatches Merge with input text All matches E Replace recognized sequences Search limitation 0 Stop after 200 matches SEARCH gt Index all utterances in text 51 FIG 4 4 Janela de busca de express es A op o Locate pattern in the form of permite escolher entre uma express o racional e uma gram tica Clicar em Regular expression A op o Index permite selecionar o modo de reconhecimento Shortest matches d prioridade s sequ ncias mais curtas Longest matches d prioridade s sequ ncias mais longas o modo utilizado como default All matches fornece todas as sequ ncias reconhecidas A op o Search limitation permite limitar ou n o a pesquisa a um certo n mero de ocorr ncias Por defini o a busca limitada s 200 primeiras ocorr ncias As possibilidades dentro da op o Grammar outputs n o est o relacionadas s express es racionais Elas est o descritas na se o 6 7 Digitar uma express o e clicar em Search para iniciar a busca O Unitex
55. s mbolos especiais lt E gt palavra vazia ou epsilon Reconhece a seq ncia vazia lt MOT gt reconhece qualquer sequ ncia de letras lt MIN gt reconhece qualquer sequ ncia de letras min sculas lt MAJ gt reconhece qualquer seq ncia de letras mai sculas lt PRE gt reconhece qualquer seq ncia de letras que comece por uma letra mai scula lt NB gt reconhece qualquer seqii ncia de n meros 1234 reconhecida mas 1 234 n o lt PNC gt reconhece os sinais de pontua o assim como os pontos de exclama o e de interroga o invertidos do espanhol e outros sinais de pontua o asi ticos lt gt reconhece um Enter interdita a presen a de espa o 17 N ge des 9 Is ru Ponctuation suivie de cas particuliers x sigles noms symboles Ses Sigles pr noms anthroponymes E A cas Pa E fia Mots composes ou suivis d une lottre majuscule symboles a lt cas gt Cas particuliers SS a Abreviations 7 Graphe r alis par Gss Nathalie Friburger LI Tours Anne Dister Univ de Li ges Denis Maurel LI Tours Fig 2 9 Gram tica de segmenta o em frases do franc s Por defini o o espa o facultativo entre duas caixas Se quiser interditar a presen a desse separador necess rio utilizar o s mbolo especial 4 Mas se voc quiser for ar a presen a do es
56. sobre o mesmo texto Para visualizar uma concord ncia clicar no bot o Build concordance Pode se configurar o tamanho dos contextos esquerda e direita em caracteres Pode se igualmente escolher o modo de classifica o que ser aplicado s linhas da concord ncia gra as ao menu Sort According to Para mais detalhes sobre as configura es de constru o da concord ncia dirigir se se o 4 8 2 108 Locate Pattern Locate pattern in the form of Shortest matches Are not taken into account e Longest matches Merge with input text All matches Replace recognized sequences Search limitation e Stop after 200 matches Index all utterances in text Fig 6 30 Janela de busca de express es A concord ncia produzida sob a forma de um arquivo HTML Pode se configurar o Unitex para que as concord ncias sejam lidas com a ajuda de um navegador Web ver se o 4 8 2 Se as concord ncias com a janela proposta pelo Unitex forem visualizadas pode se acessar a seq ncia reconhecida no texto clicando na ocorr ncia Se a janela do texto n o estiver iconificada e se o texto n o estiver muito longo para ser visualizado a sequ ncia selecionada aparecer ver figura 6 32 109 Al m disso se o aut mato do texto foi construido e se a janela correspondente n o for iconificada o fato de clicar em uma ocorr ncia seleciona o aut mato da frase que cont m e
57. some trade names trademarks or service marks or f Requiring indemnification of licensors and authors of that material by anyone who conveys the material or modified versions of it with contractual assumptions of liability to the recipient for any liability that these contractual assumptions directly impose on those licensors and authors All other non permissive additional terms are considered further restrictions within the meaning of section 10 If the Program as you received it or any part of it contains a notice stating that it is governed by this License along with a term that is a further restriction you may remove that term If a license document contains a further restriction but permits relicensing or conveying under this License you may add to a covered work material governed by the terms of that license document provided that the further restriction does not survive such relicensing or conveying If you add terms to a covered work in accord with this section you must place in the relevant source files a statement of the additional terms that apply to those files or a notice indicating where to find the applicable terms Additional terms permissive or non permissive may be stated in the form of a separately written license or stated as exceptions the above requirements apply either way 8 Termination You may not propagate or modify a covered work except as expressly provided under this License Any attempt
58. transformar a express o em uma gram tica no formato grf Essa gram tica ser em seguida compilada em uma gram tica no formato fst2 que ser utilizada pelo programa de busca 4 8 2 Exibi o dos resultados Uma vez terminada a busca a janela da figura 4 5 aparecer indicando o n mero de ocorr ncias encontradas o n mero de unidades lexicais reconhecidas assim como a rela o desse n mero com o n mero total de unidades lexicais do texto Result Info Ea 200 matches 563 recognized units 0 273 of the text is covered FIG 4 5 Resultados da busca Depois de clicar em OK aparecera a janela da figura 4 6 que permite configurar a exibicao da lista das ocorr ncias encontradas Pode se igualmente abrir essa janela clicando em Display Located Sequences no menu Text Chama se de concord ncia a lista das ocorr ncias 52 A op o Modify text oferece a possibilidade de substituir as ocorr ncias encontradas pelas sa das produzidas Essa possibilidade ser examinada no cap tulo 6 A op o Extract units permite construir um arquivo texto com todas as frases contendo elas ou n o ocorr ncias O bot o Set File permite selecionar o arquivo de sa da Clicar em seguida em Extract matching units ou Extract unmatching units dependendo da escolha entre extrair frases contendo ou n o ocorr ncias Na op o Show Matching Sequences in Context pode se selecionar
59. transi es do grafo Um arquivo grf come a pelas linhas seguintes Unigraphq SIZE 1313 950q FONT Times New Roman 124 OFONT Times New Roman B 124 BCOLOR 16777215 FCOLOR OF ACOLOR 12632256 R R SCOLOR 1671168014 CCOLOR 2554 DBOXES y DFRAME yf DDATE yq DFILE yq D D D DDIR yq DRIG nf DRST nf 154 FITS 1004 POR ENT LY A primeira linha Unigraphf uma linha de coment rio As linhas seguintes definem os valores de par metros de apresenta o do grafo SIZE x y define a largura x e a altura y do grafo em pixels FONT name xyz define a fonte utilizada para exibir o conte do das caixas name representa o nome da fonte x indica se a fonte deve ser em negrito ou n o Se x equivale a B isso representa que a fonte deve ser em negrito Para uma fonte normal x deve ser um espa o Da mesma maneira y equivale a I se a fonte tiver que ser em it lico sen o apenas um espa o z representa o tamanho da fonte OFONT name xyz define a fonte utilizada para exibir transdu es Os par metros name x y e z s o definidos da mesma forma que para FONT BCOLOR x define a cor do segundo plano do grafo x representa a cor em formato RGB FCOLOR x define a cor do tra o do grafo x representa a cor em formato RGB ACOLOR x define a cor utilizada para tra ar as linhas de caixas que correspondem a chamadas a
60. which belonged to the gorget was engraved in characters Saxon an inscription of the nd the sufferings of the classes inferior arose from the consequ Fig 6 28 Resultado da aplica o do transdutor da figura 6 27 E NumeroMois JourNumero NumeroMois Fig 6 29 Cruzamento de vari veis Shortest matches d prioridade s sequ ncias mais curtas Longest matches d prioridade s sequ ncias mais longas E o modo utilizado como default All matches d todas as sequ ncias reconhecidas 107 A op o Search limitation permite limitar ou n o a busca a um certo n mero de ocorr ncias Por defini o a busca limitada s 200 primeiras ocorr ncias A op o Grammar outputs diz respeito ao modo de utiliza o das sa das O modo Merge with input text permite inserir as sequ ncias criadas pelas sa das O Modo Replace recognized sequences permite substituir as sequ ncias reconhecidas pelas sequ ncias geradas O terceiro modo ignora as sa das Este ltimo modo utilizado como default Uma vez que suas configura es foram fixadas clique em SEARCH para lan ar a busca 6 7 2 Concord ncia O resultado da busca um arquivo ndice contendo as posi es de todas as ocorr ncias encontradas A janela da figura 6 31 prop e lhe construir uma concord ncia modificar o texto ou comparar o resultado da busca com a busca precedente
61. 00 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 6 Jean Paul Boons Alain GuiLLET and Christian LECL RE La structure des phrases simples en fran ais classes de constructions transitives Technical report LADL Paris 1976 8 1 7 Jean Paul Boons Alain GUILLET and Christian LECL RE La structure des phrases simples en fran ais constructions intransitives Droz Gen ve 1976 8 1 8 Firefox Web browser http www mozilla com firefox 4 8 2 9 Netscape Web browser http www netscape com 4 8 2 10 Folker CAROLI Les verbes transitifs compl ment de lieu en allemand Linguistica Investigationes 8 2 225 267 1984 Amsterdam Philadelphia John Benjamins Publishing Company 8 1 11 A CHROBOT B COURTOIS M HAMMANI MC CARTHY M GROSS and K ZELLAGUI Dictionnaire electronique DELAC anglais noms compos s Technical Report 59 LADL Universit Paris 7 1999 3 7 12 Unicode Consortium http www unicode org 2 2 13 Matthieu CONSTANT and Anastasia YANNACOPOULOU Le dictionnaire lectronique du grec moderne Conception et d veloppement d outils pour son enrichissement et sa validation In Studies in Greek Linguistics Proceedings of the 23rd annual meeting of the Department of Linguistics Faculty of Philosophy Aristotle University of Thessaloniki 2002 3 7 197 14 Blandine CourTOIS Formes ambigu s de la langue fran aise Linguistica Investigationes 20 1 167 202 1996 Amster
62. 07 N Como a sequ ncia James Bond cont m tr s unidades e 007 somente uma a forma can nica codificada por _0 0 7 O caractere _ indica que as duas formas n o t m o mesmo n mero de unidades O n mero que segue aqui 10 indica o n mero de caracteres segmentados A sequ ncia 00 7 que segue esse n mero indica que devemos em seguida acrescentar a seqii ncia 007 Os d gitos s o antecedidos de caracteres para n o serem confundidos com o n mero de caracteres a serem segmentados Quando as duas formas t m o mesmo n mero de unidades as unidades s o compactadas duas a duas Se as duas unidades s o compostas de um espa o ou de um travess o a forma compactada da unidade a pr pria unidade como o caso na linha seguinte 1 1 N Hum mp Isso permite conservar certa visibilidade no arquivo inf quando o dicion rio cont m palavras compostas Quando pelo menos uma das unidades n o nem um espa o nem um travess o a forma compactada composta pelo n mero de caracteres a serem segmentados seguido da sequ ncia de caracteres a serem adicionados Assim a linha de dicion rio premi re partie premier parti N AN Hum fs codificada pela linha 3er 1 N AN Hum fs 166 O c digo 3er indica que devemos separar 3 caracteres da sequ ncia premi re e acrescentar lhe os caracteres er para obter premier O 1 indica que devemos simplesmente retirar um caractere de partie para obter a seq ncia parti O n mero 0 u
63. 3 Concordance D My Unitex EnglishiCorpusivanhoe_snticoncord html 200 matches e Enable links Allow concordance edition of pointed beams which the Adj adjacent forest supplied defe the outlaws with whom the Adj adjacent forest abounded or b es may be still seen in the Adj antique Colleges of Oxford or insolence fellow said the Adj armed rider breaking in on hi an 5 take a turn round the Adj back o the hill to gain the w ring the greater part of the Ad beautiful hills and valleys wh mantle and hood were of the Adj best Flanders cloth and fell dest wine cask 5 place the Adj best mead the mightiest ale Then sad relief from the Adj bleak coast that hears The Ger e bring to the shrine of the Adj Blessed Virgin Well you ha the son of Beowulph is the Adj born thrall of Cedric of Rothe Fig 6 23 Concord ncia obtida em modo MERGE com o transdutor da figura 6 22 101 6 6 2 Durante a aplica o Durante as opera es de pr tratamento o texto modificado ao mesmo tempo em que percorrido Para evitar o risco de entrar em looping infinito n o necess rio que as sequ ncias produzidas por um transdutor sejam reanalisadas por ele Por isso quando uma sequ ncia for introduzida no texto a aplica o do transdutor continua ap s essa sequ ncia Essa regra s concerne aos transdutores de pr tratamento pois durante a aplica o de grafos sint ticos as sa das n o modificam o texto p
64. 3 GNU General Public License http www gnu org licenses gpl html 1 1 10 10 4 24 GNU Lesser General Public License http www gnu org licenses lgpl html 1 1 10 10 4 25 Gaston Gross Les expressions _g es en francais Ophrys Paris 1996 3 7 26 Maurice Gross M thodes en syntaxe Hermann Paris 1975 8 1 27 Maurice GRoss Grammaire transformationnelle du francais 3 Syntaxe de l adverbe ASSTRIL Paris 1986 3 7 8 1 28 Alain GUILLET and Christian LECLERE La structure des phrases simples en francais les constructions transitives locatives Droz Gen ve 1992 8 1 29 IGM Lesser General Public License for Linguistic Resources http igm univ mlv unitex lgpllr html 1 1 198 30 Gaby KLARSFLED and Mary HAMMANI Mc CARTHY Dictionnaire lectronique du ladl pour les mots simples de l anglais DELASa Technical report LADL Universit Paris 7 1991 3 7 31 Tita KYRIACOPOULOU Les dictionnaires lectroniques la _exion verbale en grec moderne 1990 Th se de doctorat Universit Paris 8 3 7 32 Tita KYRIACOPOULOU Un syst me d analyse de textes en grec moderne repr sentation des noms compos s In Actes du 5 me Colloque International de Linguistique Grecque 13 15 septembre 2001 Sorbonne Paris 2002 3 7 33 Tita KYRIACOPOULOU Sa a MRABTI and Anastasia ANNACOPOULOU Le dictionnaire lectronique des noms compos s en grec moderne Lingvistice Investigationes 25 1 7 28 2002 Amsterd
65. E gt que representa a palavra vazia ipsilon E necess rio substituir esse s mbolo pelo texto It youthetshetittwetthey e validar pressionando a tecla Enter Uma caixa contendo sete linhas ver figura 5 4 ser criada Com efeito o caractere serve de separador A caixa aparece sob a forma de linhas de texto vermelho pois ela n o est at o momento conectada a nenhuma outra Utiliza se frequentemente esse tipo de caixa para inserir coment rios em um grafo Para colocar uma caixa em comunica o com a outra clicar na caixa de sa da e depois na caixa de destino Se j houver uma transi o entre as duas caixas a ltima ser apagada poss vel efetuar essa mesma opera o clicando primeiramente na caixa de destino e depois na caixa de sa da mantendo a tecla Shift pressionada Em nosso exemplo estando a caixa conectada etapa inicial e etapa final do grafo obt m se o grafo da figura 5 5 O termo caixa s corresponde ao termo n s na terminologia geral de grafos 60 Fig 5 2 Grafo vazio Unsaved 5 arme Fig 5 3 Cria o de uma caixa NOTA Ao dar um duplo clique em uma caixa esta entrar em comunica o com ela mesma ver figura 5 6 Para cancelar preciso dar um duplo clique novamente na caixa Clicar em Save as no menu FSGraph para salvar o grafo Por defini o o Unitex prop e que se fa a a c pia de seguran a no subdiret rio Graphs
66. Esses s mbolos formam um ponto de sincroniza o Isso permite escrever regras nas quais as delimita es se e ent o n o est o necessariamente alinhadas como est o por exemplo no caso sobre a figura 7 14 Essa gram tica interpretada da seguinte maneira se for encontrado um travess o seguido por il elle ou on ent o esse travess o deve ser precedido por um verbo eventualmente seguido de travess o Desse modo se for considerada a frase da figura 7 15 come ando por Est il pode se ver que todas as interpreta es n o verbais de Est foram suprimidas If tu follows a verb in the 2nd person singular and a dash then it is a pronoun and not the past participle of taire lt PRO PpyIL 2s gt lt VK gt lt PRO PpylL 2s gt 124 FIG 7 12 Exemplo de gram tica ELAG 7 3 2 Compila o das gram ticas ELAG Antes de poder ser aplicada a um aut mato de texto uma gram tica ELAG deve ser compilada em um arquivo rul Essa opera o efetuada via comando Elag Ruler no menu Text que faz com que apare a a janela da figura 7 16 Se o quadro direita j contiver gram ticas que voc n o deseje usar voc pode retir las por meio do bot o lt lt Selecione em seguida sua gram tica no buscador de arquivos situado no quadro esquerdo e clique sobre o bot o gt gt para acrescent la lista do quadro direito Clique ent o no bot o compile Isso acionar o programa ElagComp que vai
67. IC gt lt CDIC gt e lt TOKEN gt A nega o interpretada de uma maneira particular nos metas lt DIC gt lt MIN gt lt MAI gt e lt PRE gt Ao inv s de reconhecer todas as formas que n o s o reconhecidas pelo meta sem a nega o essas chaves de consulta fornecem apenas formas que s o sequ ncias de letras Assim o meta lt DIC gt permite obter as palavras desconhecidas do texto Essas formas desconhecidas s o na maioria das vezes nomes pr prios neologismos e erros de ortografia A nega o de um padr o lexical como lt V G gt reconhece todas as palavras exce o daquelas que podem ser reconhecidas por esse padr o Assim o padr o lt V G gt n o reconhecer a forma inglesa being mesmo que ela exista nos dicion rios do texto de entradas n o verbais para essa palavra 46 being A being N Abst s being N Hum s Seguem abaixo v rios exemplos de padr es que misturam os diferentes tipos de restri es _ lt A Hum s gt Adjetivo n o humano no feminino singular _ lt ler V P F gt O verbo ler no presente ou no futuro F Concordance E My UnitexiFrenchiCorpusig0jours_snticoncord html o Enable links links Allow concordance edition la Lecture de ce don spa Ph lcas E as trois res tante Ann et tre du t le d jeuner avec adjonction de royal british sauce SJA six heures noins vingt le centle d salon et s absorba dans la lecture du Morning
68. Intex esta linha ignorada pelo Unitex Ela serve para indicar o fim de informa es iniciais 155 As linhas seguintes d o o conte do e a posi o de caixas do grafo As linhas seguintes correspondem a um grafo que reconhece um algarismo 34 lt E gt 84 248 1 2 q 272 248 0 s 1 2 3 4 5 6 7 8 9 0 172 248 1 1 W A primeira linha indica o n mero de caixas do grafo imediatamente seguido de uma quebra de linha Esse n mero jamais deve ser inferior a 2 pois sensato que um grafo deva sempre possuir um estado inicial e um estado final As linhas seguintes definem as caixas do grafo As caixas s o numeradas a partir de 0 Por conven ao o estado 0 o estado inicial e o estado 1 o estado final O conte do do estado final deve ser sempre vazio Cada caixa do grafo definida por uma linha que deve ter o seguinte formato contenu X Y N transitions J contenu uma cadeia de caracteres entre aspas que representa o conte do da caixa Essa cadeia pode eventualmente ser precedida de um s no caso de um grafo Intex importado assim esse caractere ignorado pelo Unitex O conte do da cadeia o texto que foi examinado no controle de texto do editor de grafos A tabela seguinte d a codifica o de duas seq ncias especiais que n o s o codificadas do mesmo modo nos arquivos grf Sequ ncia no editor de grafo Sequ ncia no arquivo grf Tab 10 2 Codifica o de sequ ncias esp
69. LESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE LINGUISTIC RESOURCE AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAMAGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LINGUISTIC RESOURCE INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE LINGUISTIC RESOURCE TO 195 OPERATE WITH ANY OTHER SOFTWARE EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES END OF TERMS AND CONDITIONS 196 Bibliografia 1 Free Software Foundation http wwuw fsf org 10 10 4 2 Anna ANASTASSIADIS SYMEONIDIS Tita KYRIACOPOULOU Elsa SKLAVOUNOU lasson THILIKOS and Rania VOSKakI A system for analysing texts in modern greek representing and solving ambiguities In Proceedings of COMLEX 2000 Workshop on Computational Lexicography and Multimedia Dictionaries Patras 2000 3 7 3 Olivier BLANC and Anne DISTER Automates lexicaux avec structure de traits 2004 Actes RECITAL 2004 7 3 4 Xavier BLANCO Noms compos s et traduction fran ais espagnol Lingvistice Investigationes 21 1 1997 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 5 Xavier BLANCO Les dictionnaires lectroniques de l espagnol DELASs et DELACs Lingvistice Investigationes 23 2 20
70. Netscape 9 Internet Explorer etc 53 Display indexed sequences Modify text Resulting snt file Set File Go e Extract unmatching units Concordance presentation _ Use a web browser to view the concordance better for more than 2000 matches Show differences with previous concordance Show Matching Sequences in Context Lengths of Contexts Sort According to Left Col chars Center Left Col v Right Col 55 chars FIG 4 6 Configura o da exibi o das ocorr ncias encontradas Para isso marcar a op o Use a web browser to view the concordance ver figura 4 6 Essa op o ativada por defini o quando o n mero de ocorr ncias superior a 3000 Para definir o navegador clicar em Preferences no menu Info Clicar sobre a guia Text Presentation e selecionar o programa a ser utilizado na op o HTML Viewer ver figura 4 7 Ao escolher abrir a concord ncia dentro do Unitex uma janela como a da figura 4 8 ser visualizada A op o Enable links ativada por defini o permite considerar 54 as ocorr ncias como hiperlinks Assim quando se clica em uma ocorr ncia abre se a janela do texto e a sequ ncia reconhecida aparece selecionada Al m disso se o aut mato do texto for constru do e se a janela n o for minimizada em forma de cone o aut mato da frase que cont m a ocorr ncia clicada ser carre
71. Os textos assim obtidos n o cont m mais informa es de formata o fonte cores etc e est o prontos para serem utilizados com Unitex 12 Conversion de fichier Saving document in Unicode txt 2x Avertissement lenregisrement du ficher au format texte entraivera la perte de la mise en forme des mages e des objets que contient le fichier Codago de bexte C ndo par d faut MS DOS Aure codage Options PTE Unicode big endian Ins rer des sauts de ligne Unicade UTE 7 Termirer les bgnes par CR LF Unicade UTF 8 Vietnamien Windows I Autorser le remplacement de caract res Ajouter des marques bidreborneles Sevmg a document in Unxode Fig 2 4 Backup em Unicode no Office XP 2 3 Edi o de textos H igualmente a possibilidade de utilizar o editor de texto integrado ao Unitex acess vel atrav s do comando Open do menu File Edition Este editor lhe oferece as funcionalidades de busca e substitui o pr prias aos textos e dicion rios manipulados pelo Unitex Para acess lo clicar no cone Find bin culos Ent o aparecer uma janela dividida em tr s abas A aba Find corresponde s opera es de busca habituais Se abrir um texto segmentado em frases haver a possibilidade de fazer uma busca pelo n mero de frase na aba Find Sentence Enfim a aba Dictionary search vis vel na figura 2 5 permite lhe efetuar as opera es pr p
72. TE DUE uotEsagoid aTIUN 1au0109 e UTIQMeESS1 yaon uado JO 66019 E moto atua UT ano cem 313 CD PaATOAUT UT2IG Jo PIEZEU UTeAASI ava 2429 pue asuepuaa 311N21 au u um uo Jo pue STeTIS PM 1391934 JO sem MIOJ U JO JSWUEM ya UT SASpPTMOys pre PESU sy Jo 1836 peay ama do Heq ATTslC 10 de pautemar Woples au se pue S iazsyqo 10 Sg atzauas pasoT Jey Aeptaqne uy ata dn futuoieo 12232 Asuanol sty weheq oyu futaq adeys UT uotuedmoo sty Jo 3844 P Aq palaa alan Aoagjed quadns styq Jo GS Peal ap uo UIIISNE11 102 Wom QUE salta JUaTaue UL papuaaxa slay U0 13 uno LOTI UOSMII2 Jo cem ZT gs U T qa ti JeaIy audi Je paznsas atuem sty Jaag gamosaq mq nowa se UONE uamepuo uotatcoddo sat Aq aneh asuautma am Partos apnat uor Jo auen cat yata pais AQ peor Sty morg ar UTASSME ro SINEEST S 2TITu go pue afeznos go U01913X3 pau Len rtayy apem AayqQ yom oq gama J futeq aTqeuthemt MA0J ase tduts IYA jo 10 1BY SBM SS 4D sty Sj HUEI yA Jo Taya futsadstp Jo apom ya QUE sTeTIRA 338 amos uaaq PEU aia uarum uodn any STdand THBTIQ Jo pauteas uaaq PEU J12N08L SIH S asue uapa 9uPppi03u03 MOY S u Jeuu UC UpIOIU0IQUS ouugansndi02usiBu xaliur gn d aIuep10IU0 Cc ancia FIG 4 8 Exemplo de concord 56 Capitulo 5 Gramaticas locais As gram ticas locais s o um meio poderoso de representar a maior parte dos fen menos ling isticos A primei
73. Top i TsoSa nis z PRO PpvIL Implode Est donc N PR ToptPGoutIsoEg ms con Est N PR Top PPro IsoCnr ed Cd home olive unitex French Elag NewGrams SEfst2 ca Bee calla CF NewGrams NA2 fst2 C Annelisept CO olive D normalisatio C Annelast C AN fst2 D regle tst2 C louvain Qa elle fst2 regleD fst2 CI NewFolder C NAfst2 D reglec fst2 FileName Files of Type Compiled Elag rules FIG 7 16 Janela de compila o das gram ticas ELAG 127 E FST Text La porte du car se ferme automatiquement 1 sentence Sentence h E Rebuild FST Text Open Elag Frame ie N fs DET DdeT m a b Gore lt an x V Y2s S3s S1s P3s P15s Implose FIG 7 17 Janela do aut mato do texto 7 34 Conjuntos de Gram ticas poss vel reagrupar v rias gram ticas ELAG em um conjunto de gram ticas a fim de aplic las de uma s vez Os conjuntos de gram ticas ELAG s o descritos nos arquivos 1st Eles s o administrados a partir da janela de compila o das gram ticas ELAG figura 7 16 marca na parte superior esquerda indica o nome do conjunto corrente por defini o elag 1st o conte do desse conjunto que est fixado no quadro direito da janela 128 FST Text 1
74. Unirex 1 2 MANUAL DO USU RIO Universit Marne la Vall e http www igm univ mlv fr unitex unitex univ mlv fr Sebastien Paumier Tradu o para o portugu s realizada em 2007 por Amanda Lopes Pietrobom Ana Am lia Furtado Pinto Ariadne Cristina Colombo Vocci Bruno Miranda Andrade Carolina Benedicto da Gama Cibele Cristhina Santiago Fernanda Silva Rando Leticia Bonora Teles Luciana Teodoro Minei Luciane Donizeti Faustino Melina Talon Mendes Mirelli Caroline Pinheiro Silva Miri Granato Bernardes de Ara jo Renata Holdack sob supervis o das professoras Claudia Maria Xatara Maria Cristina Parreira da Silva Maria Emilia Pereira Chanut IBILCE UNESP S o Jos do Rio Preto N B Esta uma primeira vers o da tradu o que ainda necessita de revis es Caso queira divulg la pede se verificar se n o existe uma vers o mais recente na p gina web do Unitex Introdu o O Unitex um conjunto de softwares que permite processar os textos em linguas naturais utilizando recursos ling isticos Esses recursos se apresentam na forma de dicion rios eletr nicos de gram ticas e tabelas de l xico gram tica resultado de trabalhos iniciados no franc s por Maurice Gross no Laborat rio de Automa o Documental e Ling stica LADL Esses trabalhos foram estendidos a outras l nguas atrav s da rede de laborat rios RELEX Os dicion rios eletr nicos descrevem as palavras simples e compostas de
75. a o do texto em frases O resultado da normaliza o de um arquivo meu texto txt um arquivo situado no mesmo diret rio que o txt e onde o nome meu texto snt NOTA quando feito um pr processamento de um texto a partir da interface gr fica um diret rio chamado meu texto snt criado imediatamente ap s a normaliza o Este diret rio chamado diret rio do texto conter todos os dados relativos a este texto 15 Bor E Look In C Corpus gt lc cal BEI s CI ETSunic_snt ETSunic txt Ci htAprSep94_snt htaprsep94 txt CA ivanhoe_snt LD ivanhoe txt i 5 NEtasvegassundef_snt NElasvegassundef txt C res_snt D restxt CA tempcorpus_snt 5 ETSconctxt File Name livanhoe bd Files of Type Raw Unicode Texts Open Cancel Fig 2 7 Abertura de um texto Unicode aaa amp Lexical parsing e x Preproc 12 Apply FST2 in MERGE mode E Wy ET BHEE v Apply FST2 in REPLACE mo E My UnitexFrenchGraphs PreprocessingiReplaceir Set Tokenizing The text is automatically tokenized This operation is language dependant so that Unitex can handle languages with special spacing rules Lexical Parsing vi Apply All default Dictionaries GO Analyse unknown words as free compound words c I but toi this option is available only for German Norwegian amp Russian _ Construct Text Automaton Cancel and close text Fig 2 8 Ja
76. a quantidade de caracteres dos contextos esquerda e direita das ocorr ncias que ser o exibidas na concord ncia Se uma ocorr ncia tiver menos caracteres do que o contexto sua direita a linha de concord ncia ser completada com o n mero de caracteres necess rio Se uma ocorr ncia tiver maior n mero de caracteres em rela o ao contexto sua esquerda ela ser exibida por completo NOTA Em tailand s a extens o dos contextos medido em caracteres visualiz veis e n o em caracteres reais Isso permite conservar o alinhamento das linhas de concord ncia apesar da presen a de caracteres diacr ticos que se combinam com outras letras em vez de serem exibidas como caracteres comuns Pode se selecionar o modo de ordena o a ser aplicado na lista Sort According to O modo Text Order exibe as ocorr ncias na ordem em que elas aparecem no texto Os seis outros modos permitem a separa o em colunas As tr s reas de uma linha s o o contexto esquerda da ocorr ncia a ocorr ncia em si e o contexto direita dela As ocorr ncias e os contextos direita s o ordenados da esquerda para a direita Os contextos esquerda s o ordenados da direita para a esquerda O modo utilizado como default Center Left Col A concord ncia produzida sob a forma de um arquivo HTML Quando as concord ncias atingem v rios milhares de ocorr ncias prefer vel visualiz las em um navegador web Firefox 8
77. a desambig iza o o programa Elag lan ado em uma janela de processing que permite ver as mensagens emitidas pelo programa durante sua execu o Por exemplo quando o aut mato do texto cont m os s mbolos que n o correspondem ao conjunto de etiquetas do ELAG ver sess o seguinte uma mensagem indica a natureza do erro encontrado Do mesmo modo quando uma frase rejeitada todas as an lises poss veis foram eliminadas pelas gram ticas uma mensagem indica o n mero da frase Isso permite localizar rapidamente a origem dos problemas Avalia o do levantamento de ambig idades A avalia o da taxa de ambig idade n o se baseia unicamente no n mero m dio de interpreta es por palavra A fim de ter uma medida mais representativa o sistema leva igualmente em conta as diferentes combina es de palavras Durante o levantamento de ambig idades o programa Elag calcula o n mero de an lises poss veis no aut mato do texto antes e ap s modifica o isso corresponde ao n mero de caminhos poss veis no aut mato Baseando se nessa estimativa o programa calcula a ambiguidade m dia por frase e por palavra Essa ltima medida utilizada para representar a taxa de ambig idades do texto pois ela n o varia com o tamanho do corpus nem com o n mero de frases que ele possui A f rmula aplicada Taxa de ambigiiidades exp log n mero de caminhos tamanho do texto A rela o entre a taxa de ambig idades antes e
78. a substitu das no aut mato do texto pela sua vers o modificada O novo aut mato do texto em seguida recarregado automaticamente 7 4 3 Par metros de apresenta o Os aut matos de frase s o submetidos s mesmas op es de apresenta o que os gr ficos Eles compartilham as mesmas cores e fontes do mesmo modo que a utiliza o do efeito de antialiasing Para configurar a apar ncia dos aut matos de frase voc deve modificar a configura o geral clicando em Preferences no menu Info Para mais detalhes veja a se o 5 3 5 Voc pode igualmente imprimir um aut mato de frase clicando em Print no menu FSGraph ou clicando em Ctrl P Assegure se que o par metro de orienta o 139 da impressora esteja bem acertado no modo paisagem Para acertar esse par metro clique em Page Setup no menu FSGraph 7 5 Converter o aut mato do texto em texto linear Se o aut mato do texto n o contiver mais a menor ambig idade poss vel construir um arquivo texto correspondente ao nico caminho representado por esse aut mato Para isso v ao menu Texte e clique em Convert FST Texte to Texte A janela da figura 7 25 permite dessa maneira que voc defina o arquivo texto de sa da Convert Text Automaton to Text Output text file Amy Unitext nalishtCorpustlinear snt Set Cancel OK Fig 7 25 Escolha do arquivo de saida para a lineariza
79. a um verbo na 2 ou 3 pessoa isso exclui todos os tempos que n o admitam nem 2 nem 3 pessoa infinitivo impessoal ger ndio partic pio assim como os tempos conjugados na 1 pessoa Para que uma entrada de dicion rio E seja reconhecida por um padr o M necess rio que pelo menos um c digo flexional de E contenha todos os caracteres de um c digo flexional de M Consideremos o exemplo seguinte E separe separar V z1 S3s Y3s M lt V P2s Y3 gt Nenhum c digo flexional de E cont m ao mesmo tempo os caracteres P 2 es No entanto o c digo Y3s de E cont m os caracteres Y e 3 O c digo Y3 est inclu do em pelo menos um c digo de E o padr o lexical M reconhece portanto a entrada E A ordem dos caracteres no interior do c digo flexional n o importante 4 3 5 Nega o de um padr o E poss vel fazer a nega o de um padr o por meio do caractere colocado imediatamente ap s o caractere lt A nega o poss vel sobre os metas lt PAL gt lt MIN gt lt MAI gt lt PRE gt lt DIC gt bem como nos padr es que comportam apenas c digos gramaticais sem nticos ou flexionais i e lt V z3 P3 gt Os padr es e s o a nega o um da outro O meta lt PAL gt pode reconhecer todas as unidades lexicais que n o s o formadas por letras exceto o separador de frases e obviamente o marcador CI STOP A nega o n o tem efeito sobre lt NB gt lt SD
80. abbaye Concreto coletivo d combres Diplomate Vieille garde foudroyer Verbo intransitivo fraterniser on Particula pr verbal PPV obrigat ria En imposer se Verbo pronominal Se marier Verbo de nega o obrigat ria Ne pas cesser de TAB 3 2 Alguns c digos sem nticos Esses c digos t m o mesmo significado para quase todas as l nguas mesmo se alguns deles forem pr prios de certas l nguas i e marca do neutro etc Observa o as descri es dos tempos da tabela 3 3 correspondem ao franc s No entanto a maioria dessas defini es encontrada em v rias l nguas infinitivo presente partic pio etc Apesar de existir uma base comum maioria das l nguas os dicion rios cont m particularidades de codifica o pr prias para cada l ngua Assim os c digos de declina es que variam bastante de uma l ngua para outra n o foram aqui descritos Para uma descri o exaustiva de todos os c digos utilizados em um dicion rio recomenda se contatar o autor do dicion rio Significado Particularidade da l ngua francesa Particularidade da lingua francesa 29 Masculino Feminino Neutro Singular Plural 12 3 1 22 3 pessoa Es H Presente do indicativo Pret rito imperfeito do indicativo Presente do subjuntivo Imperfeito do subjuntivo Presente do imperativo Pr sent du conditionnel Pass simple Infinitivo Ger ndio Partic
81. additional permissions apply only to part of the Program that part may be used separately under those permissions but the entire Program remains governed by this License without regard to the additional permissions When you convey a copy of a covered work you may at your option remove any additional permissions from that copy or from any part of it Additional permissions may be written to require their own removal in certain cases when you modify the work You may place additional permissions on material added by you to a covered work for which you have or can give appropriate copyright permission Notwithstanding any other provision of this License for material you add to a covered work you may if authorized by the copyright holders of that material supplement the terms of this License with terms 181 a Disclaiming warranty or limiting liability differently from the terms of sections 15 and 16 of this License or b Requiring preservation of specified reasonable legal notices or author attributions in that material or in the Appropriate Legal Notices displayed by works containing it or c Prohibiting misrepresentation of the origin of that material or requiring that modified versions of such material be marked in reasonable ways as different from the original version or d Limiting the use for publicity purposes of names of licensors or authors of the material or e Declining to grant rights under trademark law for use of
82. alavra est ligada a todas as interpreta es da palavra seguinte e da anterior Em caso de concorr ncia entre uma palavra composta e uma seq ncia de palavras simples o aut mato cont m um caminho rotulado pela palavra composta paralela aos caminhos que exprimem as combina es de palavras simples Isso ilustrado pela figura 7 2 onde a palavra composta courts of law concorre com uma combina o de palavras simples Por constru o o aut mato do texto n o cont m la o Diz se que o aut mato do texto ac clico NOTA o termo aut mato do texto um abuso de linguagem Com efeito h na realidade um aut mato para cada frase do texto Contudo a concatena o de todos esses aut matos corresponderia ao aut mato de todo o texto Utiliza se portanto o termo aut mato do texto mesmo se este objeto n o for realmente manipulado por raz es pr ticas 115 FST Text 2344 sentences Elag Frame Apply Elag Rule Fig 7 1 Exemplo de aut mato de frase 7 2 Constru o Para construir o aut mato de um texto deve se abrir o texto depois clicar em Construct FST Text no menu Text recomend vel segmentar o texto em frases e aplicar nele os dicion rios Se o texto n o tiver sido segmentado em frases o programa de constru o segmentar arbitrariamente o texto em seq ncias de 2000 unidades lexicais em vez de construir um aut mato por frase Se voc n o tiver a
83. ali s observar na figura 5 8 que esse o separador utilizado internamente pelo compilador de grafo E greek delta grf Compiling graph alpha Compiling graph beta Compiling graph E greekdelta gr Recursion detection started Resolving E conditions Checking E dependancies Looking for E loops Looking for infinite recursions Recursion detection completed Compilation has succeeded bsolute path name detected windows Egreekdelta gif Absolute path names are not partablel FIG 5 8 Aviso para um nome de grafo n o transfer vel 64 5 2 4 Diret rio de dep sito Quando se pretende reutilizar uma gram tica X em uma gram tica Y o procedimento usual recopiar todos os grafos de X no diret rio onde se situa os grafos de Y o que cria dois problemas o n mero de gr ficos no diret rio torna se rapidamente muito elevado dois grafos n o podem ter o mesmo nome Para evitar que isto ocorra poss vel estocar a gram tica X em um diret rio espec fico chamado diret rio de dep sito Esse diret rio uma esp cie de biblioteca na qual pode se ordenar os grafos e em seguida recorrer a esses mesmos grafos por meio de em vez de Para utilizar esse mecanismo preciso primeiramente definir o diret rio de dep sito no menu Info gt Preferences gt Directories ver figura 5 9 Deve se escolher o diret rio no quadro Graph repository O diret rio de dep sito compat vel com a l ng
84. am Philadelphia John Benjamins Publishing Company 3 7 84 Jacques LABELLE Le traitement automatique des variantes linguistiques en fran ais l exemple des concrets Linguistica Investigationes 19 1 137 152 1995 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 35 Eric LAPORTE and Anne MONCEAUX Elimination of lexical ambiguities by grammars The ELAG system Lingvistice Investigationes 22 341 367 1998 Amsterdam Philadelphia John Benjamins Publishing Company 7 7 3 36 Ville LAURIKARI TRE home page http laurikari net tre 1 1 4 7 37 Annie MEUNIER Nominalisation d adjectifs par verbes supports 1981 Th se de doctorat Universit Paris 7 8 1 38 Sun Microsystems Java http java sun com 1 2 39 Christian MOLINIER and Fran oise LEVRIER Grammaire des adverbes description des formes en ment Droz Gen ve 2000 8 1 40 Anne MoNcEAUx Le dictionnaire des mots simples anglais mots nouveaux et variantes orthographiques Technical Report 15 IGM Universit de Marne la Vall e 1995 3 7 41 OpenOffice org http www openoffice org 2 2 8 2 2 42 Dong Ho Pak Lexique grammaire compar fran ais cor en Syntaxe des constructions compl tives PhD thesis UQAM Montr al 1996 8 1 43 Soun Nam Park La construction des verbes neutres en cor en 1996 Th se de doctorat Universit Paris 7 8 1 44 S bastien PAUMIER and Harald ULLAND Analyse automatique de mots polylexicaux
85. am a seguinte regra se eles s o aplicados com o programa Locate no modo MERGE eles devem produzir sequ ncias que correspondam s linhas do DELAF 38 Lue 39 Assim esse grafo reconhecer Fe LN3IN314 mI ET iii mt Pd Af TH OM A9 lun le nd Bd UL wn A Fe 14 WS ede Wks du oh dos elementos qu micos A figura 3 10 mostra um grafo que reconhece os s mbolos qu micos Pode se ver nesta figura uma primeira vantagem em rela o aos dicion rios compactados a FIG 3 10 Grafo dicion rio caixa utiliza o das aspas permite for ar o respeito mas n o reconhecer FE enquanto que imposs vel especificar uma interdi o como essa em um DELAF convencional A segunda vantagem dos grafos dicion rios que eles podem explorar os resultados fornecidos pelos dicion rios aplicados anteriormente Assim pode se aplicar o dicion rio geral depois etiquetar como nomes pr prios as palavras desconhecidas come adas por uma mai scula com a ajuda do grafo NPr da figura 3 11 O no nome do grafo confere lhe uma baixa prioridade a fim de que ele seja aplicado ap s o dicion rio geral Para funcionar esse grafo se baseia nas palavras que nunca s o reconhecidas depois da aplica o do dicion rio geral Os colchetes correspondem a uma defini o de contexto Para mais detalhes sobre os contextos ver a se o 6 3 5 O NPr FIG 3 11 Grafo dicion
86. am is threatened constantly by software patents States should not allow patents to restrict development and use of software on general purpose computers but in those that do we wish to avoid the special danger that patents applied to a free program could make it effectively proprietary To prevent this the GPL assures that patents cannot be used to render the program non free The precise terms and conditions for copying distribution and modification follow TERMS AND CONDITIONS 0 Definitions This License refers to version 3 of the GNU General Public License Copyright also means copyright like laws that apply to other kinds of works such as semiconductor masks The Program refers to any copyrightable work licensed under this License Each licensee is addressed as you Licensees and recipients may be individuals or organizations To modify a work means to copy from or adapt all or part of the work in a fashion requiring copyright permission other than the making of an exact copy The resulting work is called a modified version of the earlier work or a work based on the earlier work A covered work means either the unmodified Program or a work based on the Program To propagate a work means to do anything with it that without permission would make you directly or secondarily liable for infringement under applicable copyright law except executing it on a computer or
87. aneously your obligations under this License and any other pertinent obligations then as a 184 consequence you may not convey it at all For example if you agree to terms that obligate you to collect a royalty for further conveying from those to whom you convey the Program the only way you could satisfy both those terms and this License would be to refrain entirely from conveying the Program 13 Use with the GNU Affero General Public License Notwithstanding any other provision of this License you have permission to link or combine any covered work with a work licensed under version 3 of the GNU Affero General Public License into a single combined work and to convey the resulting work The terms of this License will continue to apply to the part which is the covered work but the special requirements of the GNU Affero General Public License section 13 concerning interaction through a network will apply to the combination as such 14 Revised Versions of this License The Free Software Foundation may publish revised and or new versions of the GNU General Public License from time to time Such new versions will be similar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Program specifies that a certain numbered version of the GNU General Public License or any later version applies to it you have the option of following the
88. ansmission to receive a copy likewise does not require acceptance However nothing other than this License grants you permission to propagate or modify any covered work These actions infringe copyright if you do not accept this License Therefore by modifying or propagating a covered work you indicate your acceptance of this License to do so 10 Automatic Licensing of Downstream Recipients Each time you convey a covered work the recipient automatically receives a license from the original licensors to run modify and propagate that work subject to this License You are not responsible for enforcing compliance by third parties with this License An entity transaction is a transaction transferring control of an organization or substantially all assets of one or subdividing an organization or merging organizations If propagation of a covered work results from an entity transaction each party to that transaction who receives a copy of the work also receives whatever licenses to the work the party s predecessor in interest had or could give under the previous paragraph plus a right to possession of the Corresponding Source of the work from the predecessor in interest 1f the predecessor has it or can get it with reasonable efforts You may not impose any further restrictions on the exercise of the rights granted or affirmed under this License For example you may not impose a license fee royalty or other charge for exercise of righ
89. ap s a aplica o das gram ticas mostra o tamanho de sua efic cia Todas essas informa es s o fixadas na janela de processing do ELAG 7 3 6 Descri o do conjunto de etiquetas Os programas Elag e ElagComp pedem uma descri o formal do conjunto de etiquetas dos dicion rios utilizados Essa descri o consiste grosso modo em uma enumera o de todas as categorias gramaticais presentes nos dicion rios e em rela o a cada uma delas a lista dos c digos sint ticos e flexionais que lhes s o associados al m de uma descri o de suas poss veis combina es Essas informa es s o descritas no arquivo chamado tagset def Arquivo tagset def Abaixo um trecho do arquivo tagset def utilizado para o franc s NAME franc s 130 POS ADV POS PRO inflex pes 12 3 g nero m f numero s p diser subcat Pind Pdem PpvIL PpvLUI PpvLE Ton PpvPR PronQ Dnom Ppossis completo Pind g nero n mero Pdem g nero n mero Ppossis g nero n mero Pposslp g nero n mero Pposs2s g nero n mero Pposs2p g nero n mero Pposs3s g nero n mero PpvIL g nero n mero pes PpvLE g nero n mero pes PpvLUI g nero n mero pes Ton g nero n mero pes lui elle moi PpvPR en y PronQ o qui que quoi Dnom ri
90. ar dependences Flattening Cleaning graph Determinisation Saving tags he resulting grammar is an equivalent finite state transducer FIG 6 6 Resultado da aproxima o de uma gram tica N o poss vel associar uma sa da com uma chamada a um subgrafo Tais sa das s o ignoradas pelo Unitex E preciso ent o utilizar uma caixa vazia situada imediatamente esquerda da chamada ao subgrafo para obter a sa da ver figura 6 7 89 DIET is ignored on this path ED ET ny DET but not on this one FIG 6 7 Como associar uma sa da com uma chamada de subgrafo As gram ticas tamb m n o devem comportar la os infinitos pois os programas do Unitex nunca conseguir o terminar a explora o de tais gram ticas Esses la os podem existir devido s transi es etiquetadas pela palavra vazia psilon ou s chamadas de subgrafos recursivos Os la os devido transi es pela palavra vazia podem ter duas origens sendo que a primeira delas est ilustrada na figura 6 8 FIG 6 8 La o infinito devido a uma transi o pela palavra vazia com sa da Esse tipo de la o se deve ao fato de que uma transi o por palavra vazia n o pode ser eliminada automaticamente pelo Unitex quando ela possuir uma sa da Assim a transi o pela palavra vazia da figura 6 8 n o ser suprimida e provocar um la o infinito 90 A segunda categoria de la o por ipsilon concerne as chamadas a subgrafos que
91. asducer for selecionada as chamadas aos subgrafos ser o ignoradas depois da profundidade m xima Essa op o garante assim a obten o de um transdutor de estados finitos eventualmente n o equivalente gram tica de partida Por outro lado a op o equivalent FST2 indica que depois da profundidade limite o programa deve deixar as chamadas aos subgrafos como est o Essa op o garante a estreita equival ncia do resultado com a gram tica de origem mas n o produz necessariamente um trasdutor de estados finitos Essa op o pode ser utilizada para otimizar certas gram ticas Uma mensagem indica no fim do processo de aproxima o se o resultado um transdutor de estados finitos ou uma gram tica FST2 e no caso de ser um transdutor se ele equivalente gram tica de origem ver figura 6 6 6 2 3 Restri es em rela o s gram ticas Com exce o das gram ticas de flex o uma gram tica n o pode ter um caminho vazio Isso significa que o grafo principal de uma gram tica n o deve poder reconhecer a palavra vazia mas isso n o impede que um subgrafo dessa gram tica reconhe a o ipsilon 88 Compiling graph loop Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection comp eted Compilation has succeeded Loading DAMy UnitexiEnglishiGraphsiloop fstz Computing gramm
92. bido no alto e o aut mato resultante em baixo N o se espante se o aut mato de baixo parecer mais complicado Isso explicado pelo fato das entradas lexicais fatorizadas terem sido explodidas de modo a tratar separadamente cada interpreta o flexional Para refatorizar essas entradas 1 Essas s o as entradas que reagrupam v rias interpreta es flexionais diferentes como por exemplo se PRO PpvLE 3ms 3fs 3mp 3fp 125 clique no bot o implode Um clique no bot o explode oferece uma vista explodida do aut mato do texto Se voc clicar sobre o bot o replace o aut mato resultante se tornar o novo aut mato do texto Assim se voc utilizar outras gram ticas elas ser o aplicadas sobre o aut mato j parcialmente desambig izado o que permite acumular os efeitos de v rias gram ticas Feras tu cela bient t PRO PpvIL 2ms FIG 7 13 Resultado da aplica o da gram tica da figura 7 12 dash followed by il elle or on must te preceded by a verb FIG 7 14 Utiliza o do ponto de sincroniza o 126 E FsT Text 3658 sentences Est il donc si rare que les meilleurs marcheurs des lignes transoc aniennes prouv mt des retards de deux ou trois jours Sentence 3191 Reset Sentence Graph Rebuld FST Text Elag Frame Est Explode N PR Top PDiv HsoFj E Here ADV Est N PR
93. c Resource or works based on it 7 Each time you redistribute the Linguistic Resource or any work based on the Linguistic Resource the recipient automatically receives a license from the original licensor to copy distribute link with or modify the Linguistic Resource subject to these terms and conditions You may not impose any further restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties with this License 8 If as a consequence of a court judgment or allegation of patent infringement or for any other reason not limited to patent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do not excuse you from the conditions of this License If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other pertinent obligations then as a consequence you may not distribute the Linguistic Resource at all For example if a patent license would not permit royalty free redistribution of the Linguistic Resource by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Linguistic Resource If any portion of this section is held invalid or unenforceable under any particular circumstance the balance of the section is intend
94. caractere se interpreta como um OU l gico mp fp significa ent o masculino plural ou feminino plural Como cada caractere corresponde a uma informa o in til utilizar v rias vezes o mesmo caractere Assim codificar o partic pio passado com o c digo PP seria estritamente equivalente a utilizar somente P ceci est un exemple um coment rio Os coment rios s o opcionais e devem ser introduzidos pelo caractere Os coment rios s o suprimidos quando os dicion rios s o compactados OBSERVA O IMPORTANTE poss vel utilizar o ponto e a v rgula em uma entrada de dicion rio Para isso necess rio desabilit los com o caractere de escape N Ea 3 1415 PI NUMERO Organization des Nations Unies O N U Sigla ATENCAO em uma linha de dicion rio todo caractere considerado Por exemplo se forem introduzidos espa os eles ser o considerados como parte integrante das informa es Na linha seguinte Git d sir Vtzl P3s ver ci git o espa o que precede o caractere ser considerado como parte de um c digo flexional de 4 caracteres composto por P 3 se por um espa o poss vel inserir linhas de coment rios em um dicion rio DELAF ou DELAS fazendo iniciar a linha com o caractere Exemplo A entrada nominal por par um termo do golf em franc s Par N z3 ims Palavras compostas com espa o ou h fen Certas palavras compostas como grand m
95. co gram tica que a caracteriza Consideramos at agora que essas informa es ressaltam mais a sintaxe que a an lise lexical e portanto n o integramos na descri o do conjunto de etiquetas Estas s o portanto automaticamente eliminadas no momento do carregamento do aut mato do texto o que reduz a taxa de ambig idades A fim de distinguir bem os efeitos ligados ao conjunto de etiquetas das gram ticas ELAG aconselh vel proceder a uma etapa pr via de normaliza o do aut mato do texto antes de aplicar lhe as gram ticas de desambig iza o Essa normaliza o efetua se aplicando ao aut mato do texto uma gram tica que n o imponha nenhum inc modo como aquela da figura 7 20 Note que essa gram tica est normalmente presente na distribui o do Unitex e pr compilada no arquivo norm rul Fig 7 20 Gram tica ELAG sem nenhuma restri o O resultado da aplica o dessa gram tica que o aut mato de origem est limpo de todos os c digos que ou n o est o descritos no arquivo tagset def ou n o est o de acordo com essa descri o por causa de categorias gramaticais desconhecidas ou de combina es inv lidas de tra os flexionais Trocando ent o o aut mato do texto pelo aut mato assim normalizado pode se estar certo de que as modifica es posteriores do aut mato ser o devidas unicamente aos efeitos das gram ticas ELAG Esse c digo indica que o adjetivo deve aparecer esquerda do n
96. co correspondem a ferramentas Para utilizar uma ferramenta preciso clicar sobre o cone correspondente o cursor do mouse mudar de forma e os cliques do mouse ser o dessa maneira interpretados de maneira particular Eis a descri o das ferramentas da esquerda para a direita criar caixas cria uma caixa vazia no lugar onde for clicado apagar caixas apaga a caixa sobre a qual for clicada combinar caixas a uma outra caixa esta ferramenta permite selecionar uma ou v rias caixas e tamb m a ou as combinar a uma outra Diferentemente do modo padr o a ou as transi es que v o ser criadas s o apresentadas durante o deslocamento do ponteiro do mouse combinar caixas a uma outra caixa no sentido inverso esta ferramenta efetua a mesma a o que a precedente mas l no sentido inverso as caixas selecionadas na caixa clicada abrir um subgrafo abre se um subgrafo quando clicar sobre a linha acinzentada correspondente em uma caixa 72 5 3 Op es de apresenta o 5 3 1 Ordena o das linhas de uma caixa Pode se ordenar o conte do de uma caixa selecionando a e clicando sobre Sort Node Label no submenu Tools do menu FSGraph Essa ordena o n o faz remiss o ao programa SortTxt Trata se de uma ordena o b sica que classifica as linhas segundo a ordem dos caracteres no padr o Unicode 5 3 2 Zoom O submenu Zoom permite escolher a escala na qual ser apresentado o grafo
97. compilar a gram tica selecionada para criar um arquivo nomeado como elag rul Se voc selecionou sua gram tica no quadro direito voc pode pesquisar os padr es que ela reconhece clicando no bot o locate Isso far com que seja aberta a janela Locate Pattern especificando automaticamente um nome de grafia que termine por conc fst2 Essa grafia corresponde a parte se da gram tica Voc pode obter assim as ocorr ncias do texto sobre as quais a gram tica ser aplicada NOTA o arquivo conc fst2 utilizado para localizar a parte ent o de uma gram tica gerado durante a compila o das gram ticas ELAG por meio do bot o compile preciso ent o j haver compilado sua gram tica antes de utilizar a fun o de busca do bot o locate 7 3 3 Levantamento de ambig idades Assim que voc tiver compilado sua gram tica em um arquivo elag rul voc pode aplic la no aut mato do texto Na janela do aut mato do texto clique sobre o bot o elag Uma caixa de di logo aparecer para perguntar a voc o nome do arquivo rul a ser utilizado ver figura 7 17 Como o arquivo default mesmo elag rul simplesmente clique em OK Isso acionar o programa Elag que vai efetuar o levantamento de ambig idades Uma vez que o programa for terminado voc pode consultar o aut mato resultante clicando sobre o bot o Elag Frame Como poss vel ver a figura 7 18 a janela separada em duas o aut mato de origem exi
98. contains a notice placed by the copyright holder or other authorized party saying it may be distributed under the terms of this Lesser General Public License for Linguistic Resources also called this License Each licensee is addressed as you A linguistic resource means a collection of data about language prepared so as to be used with application programs The Linguistic Resource below refers to any such work which has been distributed under these terms A work based on the Linguistic Resource means either the Linguistic Resource or any derivative work under copyright law that is to say a work containing the Linguistic Resource or a portion of it either verbatim or with modifications and or translated straightforwardly into another language Hereinafter translation is included without limitation in the term modification Legible form for a linguistic resource means the preferred form of the resource for making modifications to it Activities other than copying distribution and modification are not covered by this License they are outside its scope The act of running a program using the Linguistic Resource is not restricted and output from such a program is covered only if its contents constitute a work based on the Linguistic Resource independent of the use of the Linguistic Resource in a tool for writing it Whether that is true depends on what the program that uses the Linguistic Resource does 1 You may copy an
99. d distribute verbatim copies of the Linguistic Resource as you receive it in any medium provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice and disclaimer of warranty keep intact all 191 the notices that refer to this License and to the absence of any warranty and distribute a copy of this License along with the Linguistic Resource You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee 2 You may modify your copy or copies of the Linguistic Resource or any portion of it thus forming a work based on the Linguistic Resource and copy and distribute such modifications or work under the terms of Section 1 above provided that you also meet all of these conditions a The modified work must itself be a linguistic resource b You must cause the files modified to carry prominent notices stating that you changed the files and the date of any change c You must cause the whole of the work to be licensed at no charge to all third parties under the terms of this License These requirements apply to the modified work as a whole If identifiable sections of that work are not derived from the Linguistic Resource and can be reasonably considered independent and separate works in themselves then this License and its terms do not apply to those sections when you distribute them as separate works But when y
100. da web O bot o Add Files lhe permitir selecionar os arquivos a converter O bot o Remove Files permite retirar da lista os arquivos selecionados por engano O bot o Transcode iniciar a convers o de todos os arquivos Se um erro ocorre durante o processamento de um arquivo por exemplo um arquivo que j estivesse em Unicode o processamento continua com o arquivo seguinte 11 MM i ie 2 D My Unitex EnglishiCorpus novel txt is not a Unicode Little Endian one Do you want to transcode it from ENGLISH to Unicode Little Endian gt Rename source with suffix old o a Fig 2 2 Convers o autom tica de um texto n o Unicode Rename source with prefix Rename source with suffix Name destination with prefix gt Name destination with suffix E My Unitex French Corpus batiment txt E My UnitexFrenchiCorpus chimie txt E My UnitexiFrenchiCorpusiessaitxt Fig 2 3 Convers o de arquivos Para obter um bom formato do texto pode se igualmente utilizar um processamento de texto como o software livre OpenOffice org 41 ou Microsoft Word e fazer um backup do seu documento no formato Texte unicode No Office XP necess rio escolher o formato Texto bruto txt e em seguida selecionar o padr o Unicode na janela de configura o apresentada na figura 2 4 Por default o padr o proposto em um Pc sempre Unicode Little Endian
101. dam Philadelphia John Benjamins Publishing Company 3 7 15 Blandine Courtois and Max Silberztein editors Les dictionnaires lectroniques du fran ais Larousse Langue fran aise vol 87 1990 3 7 16 Anne DISTER Nathalie FRIBURGER and Denis MAUREL Am liorer le d coupage en phrases sous INTEX In Anne Dister editor Revue Informatique et Statistique dans les Sciences Humaines volume Actes des 3 mes Journ es INTEX pages 181 199 2000 2 5 2 17 Anibale ELIA Le verbe italien Les compl tives dans les phrases un compl ment Schena Nizet Fasano Paris 1984 8 1 18 Anibale ELIA Lessico grammatica dei verbi italiani a completiva Tavole e indice generale Liguori Napoli 1984 8 1 19 Anibale ELIA and Simoneta VIETRI Electronic dictionaries and linguistic analysis of italian large corpora In Actes des 5es Journ es internationales d Analyse statistique des Donn es Textuelles Ecole Polytechnique f d rale de Lausanne 2000 3 7 20 Anibale ELIA and Simoneta VIETRI L analisi automatica dei testi e i dizionari elettronici In E Burattini and R Cordeschi editors Manuale di Intelligenza Arti ciale per le Scienze Umane Roma Carocci 2002 3 7 21 Jacqueline GIRY SCHNEIDER Les nominalisations en fran ais L op rateur faire dans le lexique Droz Gen ve Paris 1978 8 1 22 Jacqueline GIRY SCHNEIDER Les pr dicats nominaux en fran ais Les phrases simples verbe support Droz Gen ve Paris 1987 8 1 2
102. de seu diret rio pessoal Pode se verificar se o grafo foi modificado desde o ltimo backup observando se o t tulo da janela cont m a notifica o Unsaved 61 Fig 5 4 Caixa contendo I yout he she it we they 62 Fig 5 5 Grafo que reconhece pronomes em ingl s 5 2 3 Subgrafos Para recorrer a um subgrafo necess rio indicar em uma caixa o nome dele precedido do caractere Digitando se em uma caixa a seguinte entrada alpha beta gamma E greek delta grf Fig 5 6 Caixa conectada a ela mesma Obter se uma caixa similar da figura 5 7 alpha beta gamma Elgreekidelta grf Fig 5 7 Grafo recorrendo aos subgrafos beta e delta Pode se indicar o nome completo do grafo E greek delta grf ou simplesmente o nome sem o caminho de acesso beta nesse caso sup e se que o subgrafo se encontre no mesmo diret rio que o grafo ao qual faz refer ncia desaconselh vel utilizar nomes de grafos que comportem caminhos completos pois isso danifica sua portabilidade Ocorrendo a utiliza o de um nome de grafo completo como o caso de E greek delta grf o compilador de grafo emitira uma advert ncia ver figura 5 8 63 Ainda em raz o da portabilidade desaconselhavel utilizar ou como separador nos nomes de grafos Em lugar disso seria melhor utilizar o caractere que tem o papel de separador universal v lido para qualquer sistema com o qual se trabalhe Pode se
103. do por analogia defini o de um transdutor no dom nio dos aut matos finitos 5 2 Edi o de grafos 5 2 1 Importa o de um grafo Intex Para poder utilizar grafos Intex no Unitex necess rio convert los em caracteres Unicode O processo de convers o o mesmo realizado nos textos ver se o 2 2 58 ATEN O Um grafo convertido em caracteres Unicode e utilizado com o Unitex n o poder mais ser usado com o Intex Para poder utiliz lo novamente com o Intex convert lo para texto ASCII depois abri lo com um programa de tratamento de texto e substituir a primeira linha Unigraph pela linha seguinte FSGraph 4 0 5 2 2 Cria o de um grafo Para criar um grafo clicar em New no menu FSGraph Aparecer ent o a janela da figura 5 2 O s mbolo em formato de flecha o estado inicial do grafo e o s mbolo redondo contendo um quadrado o seu estado final A gram tica reconhecer apenas express es descritas por caminhos que conectem o estado inicial ao estado final current languag 59 FIG 5 1 Menu FSGraph Para criar uma caixa preciso clicar na janela mantendo a tecla Ctrl pressionada Ent o um quadrado azul aparecer simbolizando a caixa vazia criada ver figura 5 3 Durante a cria o de uma caixa ela automaticamente selecionada Em seguida o conte do da caixa aparecer na rea de texto situada no alto da janela A caixa criada cont m o s mbolo lt
104. dos por default Esse arquivo encontra se na pasta da lingua usual e tem o mesmo formato que o arquivo system dic def Os dicion rios do m usu rio devem encontrar se na sub pasta lingua usual DELA da pasta pessoal do usu rio 10 9 4 Arquivo user cfg No Linux o Unitex considera que a pasta pessoal do usu rio tem o nome de unitex e que ela encontra se em seu diret rio raiz Home No Windows n o sempre poss vel associar uma pasta por default a um usu rio Para remediar isso a Unitex criou para cada usu rio um arquivo cfg contendo o caminho de sua pasta pessoal Esse arquivo salvo com o nome login do usu rio cfg na sub pasta do sistema Unitex Users ATEN O ESSE ARQUIVO N O EST EM UNICODE E O CAMINHO DA PASTA PESSOAL N O SEGUIDO POR UMA QUEBRA DE LINHA 173 10 10 Arquivos variados Para cada texto Unitex criou v rios arquivos contendo as informa es para serem mostradas na interface gr fica Esta se o descreve esses diferentes arquivos 10 10 1 Arquivos dlf n dlc n e err n Esses tr s arquivos s o arquivos de textos encontrados na pasta do texto Cont m respectivamente os n meros de linhas de arquivos dlf dlc e err Esses n meros s o seguidos por uma quebra de linha 10 10 2 Arquivo stats dic n Esse arquivo um arquivo de texto encontrado na pasta do texto formado de tr s linhas contendo os n meros de linhas dos arquivos dlf dlceerr 10
105. e Unitex B versionT Veja a representa o em Unicode Little Endian desse texto Gacio n o JE Je x c 5 __ v p r s Ji p P FE Tab 10 1 Representa o hexadecimal de um texto Unicode Os octetos de peso forte e peso fraco foram invertidos o que explica que o caractere inicial codificado por FFFE ao inv s de FEFF o mesmo ocorre com 000D e 000A que se transformam em 0D00 e 0A00 10 2 Arquivos de alfabeto H dois tipos de arquivos de alfabeto um arquivo que define os caracteres de uma lingua e um arquivo que indica as prefer ncias pela ordena o O primeiro designado alfabeto e o segundo alfabeto de ordena o 152 10 2 1 Alfabeto O arquivo de alfabeto um arquivo texto que descreve todos os caracteres de uma l ngua como as correspond ncias entre letras min sculas e mai sculas Esse arquivo deve se chamar Alfabet txt e deve se localizar na origem do diret rio da l ngua concernida Sua presen a obrigat ria para que o Unitex possa funcionar Exemplo o arquivo de alfabeto do ingl s deve se localizar na pasta English Cada linha do arquivo alfabeto deve ter uma das tr s formas seguintes seguidas de uma quebra de linha 5l HIS uma libra seguida de dois caracteres X e Y indica que todos os caracteres compreendidos entre os caracteres X e Y s o letras Todos os caracteres s o considerados como sendo mai sculas e min sculas ao mesmo tempo Esse modo til para
106. e fraise lt NB gt lt boule gt de vanille glace la pistache glace la fraise glace la vanille glace vanille glace fraise glace pistache 6 5 Cole o de grafos FIG 6 19 Exemplo de grafo Pode acontecer de algu m desejar aplicar v rias gram ticas situadas em um mesmo diret rio Por isso poss vel construir automaticamente uma gram tica a partir de uma arboresc ncia de arquivos Suponha se por exemplo que haja a seguinte arboresc ncia Dicos Banque 98 carte grf Nourriture eau grf pain grf truc grf Se houver o desejo de juntar todas essas gram ticas em uma s pode se faz lo com o comando Build Graph Collection no sub menu FSGraph gt Tools Configura se essa opera o por meio da janela da figura 6 20 Building Graph Collection a x Source directory Do fa Resulting GRF grammar Fig 6 20 Constru o de uma cole o de grafos No campo Source directory selecionar o diret rio ra z que deseja explorar nesse caso o diret rio Dicos No campo Resulting GRF grammar indicar o nome da gram tica gerada ATEN O n o colocar a gram tica de sa da na arboresc ncia que deseja explorar pois nesse caso o programa procurar ler e escrever simultaneamente nesse arquivo o que provocar um ABEND 99 Assim que clicar em OK o programa copiar de novo os grafos no diret rio
107. e option 4d0 the Installation Information must accompany the Minimal Corresponding Source and Corresponding Application Code If you use option 4d1 you must provide the Installation Information in the manner specified by section 6 of the GNU GPL for conveying Corresponding Source 5 Combined Libraries You may place library facilities that are a work based on the Library side by side in a single library together with other library facilities that are not Applications and are not covered by this License and convey such a combined library under terms of your choice if you do both of the following 189 a Accompany the combined library with a copy of the same work based on the Library uncombined with any other library facilities conveyed under the terms of this License b Give prominent notice with the combined library that part of it is a work based on the Library and explaining where to find the accompanying uncombined form of the same work 6 Revised Versions of the GNU Lesser General Public License The Free Software Foundation may publish revised and or new versions of the GNU Lesser General Public License from time to time Such new versions will be similar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Library as you received it specifies that a certain numbered version of the GNU Lesser General Public License or an
108. ecanismo de grafos parametrizados O princ pio o seguinte constr i se um grafo que descreve as constru es poss veis Esse grafo faz refer ncia s colunas da tabela por meio de vari veis Gera se em seguida para cada linha da tabela uma c pia desse grafo na qual as vari veis s o substitu das em fun o do conte do das c lulas situadas na intersec o das colunas correspondentes e da linha tratada Se uma c lula da tabela contiver o sinal a vari vel correspondente ser substitu da por lt E gt Se a c lula contiver o sinal a caixa contendo a vari vel correspondente suprimida o que destr i ao mesmo tempo os caminhos que passam por essa caixa Em todos os outros casos a vari vel substitu da pelo conte do da c lula 8 2 2 Formato da tabela As tabelas de l xico gram tica s o geralmente codificadas com a ajuda de uma planilha eletr nica tal como o OpenOffice org Calc 41 Para poderem ser utilizadas pelo Unitex as tabelas devem ser codificadas em caracteres Unicode de acordo com a seguinte conven o as colunas devem ser separadas por tabula o e as linhas por quebra de p gina Para converter uma tabela com o OpenOffice org Calc deve se salv la em formato texto extension csv O programa ir propor em seguida parametrar o backup por meio de uma janela como a da figura 8 2 Deve se ent o escolher o padr o Unicode selecionar a tabula o como separador de colunas e n o especi
109. eciais OBS os caracteres compreendidos entre lt e gt e e n o s o interpretados Assim o caractere conte do na cadeia le lt A Conc gt n o interpretado como um divisor de linhas pois o padr o lt A Conc gt interpretado prioritariamente X e Y representam as coordenadas da caixa em pixels A figura 10 1 mostra como essas coordenadas s o interpretadas pelo Unitex 156 Fig 10 1 Interpreta o de coordenadas de caixas N representa o n mero de transi es que saem da caixa Esse n mero sempre deve valer O para o estado final As transi es s o definidas pelos n meros de caixas em torno das quais s o mostradas Cada linha de defini o de caixa deve terminar com um espa o seguido de uma quebra de linha 10 3 2 Formato fst2 Um arquivo st2 um arquivo texto que descreve um conjunto de grafos Veja um exemplo de arquivo fst2 0000000002 1 GNI 114 22 2 2 q 3 2 q Hh ct ss se o 2 Adj 6151414 lt A gt ADJI sbeauq joliq spetitq fq 157 A primeira linha representa o n mero de grafos codificados no arquivo O in cio de cada grafo identificado por uma linha que indica o n mero e o nome do grafo 1 GN 2 Adj no arquivo acima As linhas seguintes descrevem os estados de grafo Se o estado terminal a linha iniciada pelo caractere t sen o pelo caractere sinon Para cada estado a lista de transi o uma seq ncia e
110. ed to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other property right claims or to contest validity of any such claims this section has the sole purpose of protecting the integrity of the free resource distribution system which is implemented by public license practices Many people have made generous contributions to the wide range of data distributed through that system in reliance on consistent application of that system it is up to the author donor to decide if he or she is willing to distribute resources through any other system and a licensee cannot impose that choice 194 This section is intended to make thoroughly clear what is believed to be a consequence of the rest of this License 9 If the distribution and or use of the Linguistic Resource is restricted in certain countries either by patents or by copyrighted interfaces the original copyright holder who places the Linguistic Resource under this License may add an explicit geographical distribution limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License 10 The Free Software Foundation may publish revised and or new versions of the Lesser General Public License for Linguistic Resources from time to time Such ne
111. efers to a period towards the owards the end of the reign of Richard I when his return from his long captivity had become a FIG 4 2 Resultado da busca do meta lt PAL gt 4 4 Concatenacao Pode se concatenar expressdes regulares de tr s maneiras A primeira consiste em utilizar o operador de concatena o representado pelo ponto Assim a expressao lt DET gt lt N gt reconhece um determinante seguido por um substantivo O espa o pode igualmente servir para concatenar A expressao do exemplo seguinte o lt A gt gato reconhece a unidade lexical 0 seguida por um adjetivo e da unidade lexical gato Enfim possivel omitir o ponto e o espa o antes de um par ntese de abertura ou do caractere lt bem como ap s um par ntese de fechamento ou o caractere gt Os par nteses servem para delimitar uma express o regular Todas as express es seguintes s o equivalentes o lt A gt gato o lt A gt gato o lt A gt gato 0 lt A gt gato o lt A gt gato 4 5 Uni o A uni o de express es regulares feita separando as pelo caractere A express o 48 euttu tvoc teletela n stv stelestelas lt V gt reconhece um pronome seguido por um verbo Para tornar facultativo um elemento em uma express o basta fazer a uni o desse elemento com a palavra vazia psilon Exemplos o pequeno lt E gt gato reconhece as seq ncias o gato e o pequeno gato lt E gt franco ingl s belga
112. eio da combina o entre as palavras aften noite e blad jornal O programa PolyLex 44 explora a lista das palavras desconhecidas ap s a aplica o dos dicion rios no texto e procura analisar cada uma dessas palavras como uma palavra composta Se uma palavra tiver pelo menos uma an lise retirada da lista das palavras desconhecidas e as linhas de dicion rios produzidas para esta palavra s o somadas ao dicion rio das palavras simples do texto 2 6 Abertura de um texto etiquetado Um texto etiquetado um texto que cont m entradas lexicais entre chaves como por exemplo I do not like the square bracket N sign SJ Esses tags permitem retirar as ambig idades n o permitindo qualquer outra interpreta o No exemplo anterior n o ser poss vel reconhecer square bracket como uma combina o de duas palavras simples Entretanto a presen a desses tags pode causar problemas na aplica o dos grafos de pr processamento O usu rio disp e portanto do comando Open Tagged Text no menu Text com o aux lio do qual pode abrir um texto que contenha tags sem que os grafos de pr processamento tenham sido aplicados como pode ser observado na figura 2 14 x Preprocessing Sentence and Replace graphs should not be applied on tagged texts Tokenizing The text is automatically tokenized This operation is language dependant so that Unitex can handle languages with special spacing rules Lexical Parsing
113. em quest o no seu diret rio pessoal Poder assim trabalhar com esta l ngua sem que ela seja proposta aos outros usu rios EE TC My Unitas Creation ofa new folder File Name EADatalMy Unitex Files of Type All Files lt Open cancer Fig 1 3 Cria o da pasta pessoal 1 7 Desinstala o Qualquer que seja o sistema com o qual voc trabalha basta apagar o diret rio Unitex para apagar todos os arquivos do sistema No Windows voc dever apagar em seguida o atalho para o Unitex jar se voc tiver criado um o mesmo para o Linux ou MacOS se voc tiver criado um alias Capitulo 2 Carregando um texto Uma das principais funcionalidades do Unitex a busca de express es nos textos Para isso os textos devem passar por v rias opera es de pr tratamento tais como a normaliza o das formas n o amb guas e a segmenta o do texto em frases Ap s efetuar essas opera es os dicion rios eletr nicos s o aplicados aos textos Podem se efetuar ent o as buscas nos textos aplicando lhes as gram ticas Este cap tulo descreve as diferentes etapas prepara o dos textos 2 1 Sele o da l ngua Na inicializa o do Unitex o programa pede para escolher a l ngua com a qual trabalhar ver figura 2 1 As l nguas propostas s o aquelas apresentadas no diret rio sistema Unitex assim como aquelas eventualmente instaladas no seu diret rio pessoal Se utilizar uma l ngua pela primeira vez
114. en POS adjetivos inflex g nero m f numero s p cat esquerda e direita d complete g nero n mero pour de bonne humeur A au bord des larmes A por exemplo POS V inflex tempo C F T J K P 8 T W Y G X pes 1 2 3 g nero mf n mero s p complete W G C pes n mero F pes n mero I pes n mero J pes n mero P pes n mero S pes n mero 131 NKHKX H aparecer em qualquer lugar do arquivo O arquivo come a sempre pela palavra NAME pes n mero 2 s euss duss puiss fuss je p n mero g nero n mero O s mbolo indica que o resto da linha um coment rio Um coment rio pode seguida de um significante franc s no exemplo A seq ncia do arquivo constitu da de se es POS de Part of Speech uma para cada categoria gramatical Cada se o descreve a x estrutura das etiquetas das entradas lexicais pertencentes categoria gramatical concernente Cada se o comp e se de quatro partes que s o todas opcionais inflex essa parte enumera os c digos flexionais relativos categoria gramatical Por exemplo os c digos 1 2 3 que denotam a pessoa da entrada s o os c digos pertinentes aos pronomes mas n o aos adjetivos Cada linha descreve um atributo flexional g nero tempo etc e composto do
115. en norv gien Linguistica Investigationes 28 2 2005 Amsterdam Philadelphia John Benjamins Publishing Company 2 5 6 199 45 Roger Bruno RABENNILAINA Le verbe malgache AUPELF UREF et Universit Paris 13 Paris 1991 8 1 46 Agata SAVARY Recensement et description des mots compos s m thodes et applications 2000 Th se de doctorat Universit de Marne la Vall e 3 7 47 Max SILBERZTEIN Les groupes nominaux productifs et les noms compos s lexicalis s Lingvistice Investigationes 27 2 405 426 1999 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 48 Carlos SUBIRATS RUGGEBERG Sentential complementation in Spanish A lexicogrammatical study of three classes of verbs John Benjamins Amsterdam Philadelphia 1987 8 1 49 Thomas TREIG Compl tives en allemand classi cation Technical Report 7 LADL 1977 8 1 50 Lidia VARGA Classi_cation syntaxique des verbes de mouvement en hongrois dans l optique d un traitement automatique In F Kiefer G Kiss and J Pajzs editors Papers in Computational Lexicography COMPLEX pages 257 265 Budapest Research Institute for Linguistics Hungarian Academy of Sciences 1996 8 1 51 Simoneta VIETRI On the study of idioms in italian In Sintassi e morfologia della lingua italiana Congresso internazionale della Societ di Linguistica Italiana Roma Bulzoni 1984 3 7 200
116. er baisser bambocher bander barouder batifoler h cher h tifier bigler boiter hoitiller I I Ti 1 I I I I i Er HAT Fig 8 6 Exibi o de uma tabela 145 O quadro Name of produced subgraphs permite especificar o nome dos grafos que ser o gerados A fim de assegurar se de que todos os grafos ter o nomes distintos aconselha se utilizar a vari vel essa vari vel ser substitu da em cada entrada pelo n mero da mesma garantindo assim que todos os grafos tenham um nome diferente Por exemplo se preenchermos esse quadro com o nome TestGraph grf o grafo gerado a partir da 16 linha ser nomeado TestGraph _0016 grf As figuras 8 8 e 8 9 mostram dois grafos gerados ao aplicar o grafo param trico da figura 8 3 tabela 31H A figura 8 10 mostra o grafo principal obtido Compile Lexicon Grammar to GRF Reference Graph in GRF format Do Set Resulting GRF grammar Set Name of produced subgraphs Do Set Fig 8 7 Configura o da gera o autom tica de grafos NO tre V ant le verbe n 7 ne v rifie pas la propri t de la colonne A Fig 8 8 Grafo gerado para o verbo archa ser o verbo n 7 n o verifica a propriedade da coluna A le verbe n 11 v rifie la propri t de la colonne A lt badauder V gt NO V vers
117. ercorrido mas um arquivo de concord ncias distinto do texto 6 6 3 Prioridade esquerda Durante a aplica o de uma gram tica local as ocorr ncias que se cruzam s o todas indexadas Durante a constru o da concord ncia todas essas ocorr ncias s o apresentadas ver figura 6 24 r Don there extended in ancient times a large forest covering iver Don there extended in ancient times a large forest cover here extended in ancient times a large forest covering the gre Fig 6 24 Ocorr ncias que se cruzam em uma concord ncia Em contrapartida se o texto for modificado ao inv s de se construir uma concord ncia necess rio escolher dentre essas ocorr ncias quais ser o consideradas Para isso o Unitex aplica a seguinte regra de prioridade a seq ncia situada mais esquerda prefer vel Se essa regra for aplicada s tr s ocorr ncias da concord ncia precedente a ocorr ncia in ancient concorrente com ancient times primeira portanto mantida pois a ocorr ncia que est mais esquerda e ancient times 102 eliminada A seguinte ocorr ncia times a consequentemente n o est mais em conflito com ancient times e pode ent o aparecer no resultado Don there extended in ancient times a large forest A regra de prioridade esquerda se aplica unicamente quando o texto for modificado seja durante o pr tratamento seja ap s a aplica o de um grafo s
118. ermission to practice a patent or covenant not to sue for patent infringement To grant such a patent license to a party means to make such an agreement or commitment not to enforce a patent against the party Ifyou convey a covered work knowingly relying on a patent license and the Corresponding Source of the work is not available for anyone to copy free of charge and under the terms of this License through a publicly available network server or other readily accessible means then you must either 1 cause the Corresponding Source to be so available or 2 arrange to deprive yourself of the benefit of the patent license for this particular work or 3 arrange in a manner consistent with the requirements of this License to extend the patent license to downstream recipients Knowingly relying means you have actual knowledge that but for the patent license your conveying the covered work in a country or your recipient s use of the covered work in a country would infringe one or more identifiable patents in that country that you have reason to believe are valid If pursuant to or in connection with a single transaction or arrangement you convey or propagate by procuring conveyance of a covered work and grant a patent license to some of the parties receiving the covered work authorizing them to use propagate modify or convey a specific copy of the covered work then the patent license you grant is automatically extended to al
119. es of such a program whether gratis or for a fee you must pass on to the recipients the same freedoms that you received You must make sure that they too receive or can get the source code And you must show them these terms so they know their rights Developers that use the GNU GPL protect your rights with two steps 1 assert copyright on the software and 2 offer you this License giving you legal permission to copy distribute and or modify it For the developers and authors protection the GPL clearly explains that there is no warranty for this free software For both users and authors sake the GPL requires that modified versions be marked as changed so that their problems will not be attributed erroneously to authors of previous versions Some devices are designed to deny users access to install or run modified versions of the software inside them although the manufacturer can do so This is fundamentally incompatible with the aim of protecting users freedom to change the software The systematic pattern of such abuse occurs in the area of products for individuals to use which is precisely where it is most unacceptable Therefore we have designed this 176 version of the GPL to prohibit the practice for those products If such problems arise substantially in other domains we stand ready to extend this provision to those domains in future versions of the GPL as needed to protect the freedom of users Finally every progr
120. ficar o delimitador de texto x toe RS Jeu de caract res Unicode x 5 Annuler S parateur de champ rab x S parateur de texte Aide FIG 8 2 Configura o do backup de uma tabela com o OpenOffice org Calc Durante a gera o dos grafos o Unitex salta a primeira linha considerada como cabe alho das colunas Deve se ent o assegurar se de que o cabe alho das colunas ocupe exatamente uma linha Se n o houver cabe alho a primeira linha da tabela ser ignorada e se houver v rios cabe alhos eles ser o interpretados a partir do segundo como linhas da tabela 8 2 3 Os grafos parametrizados Os grafos parametrizados s o grafos nos quais aparecem vari veis referentes s colunas de uma tabela de l xico gram tica Geralmente se utiliza esse mecanismo com grafos sint ticos mas nada impediria de construir grafos parametrizados de flex o de pr tratamento ou de normaliza o 143 As vari veis referentes s colunas s o formadas pelo caractere arroba seguido de um nome de coluna em letras mai sculas as colunas s o numeradas a partir da letra A Exemplo C refere se terceira coluna da tabela Quando uma vari vel deve ser substitu da por um ou por um o sinal corresponde supress o do caminho que passa por essa vari vel poss vel realizar a opera o contr ria colocando um ponto de exclama o antes do caractere Nesse caso quando a vari vel remete ao sinal
121. flex o para cada verbo LLLLele LLLL te et LLLLere pode se utilizar o operador R para descrever apenas um LLLLeRR C copy duplica uma letra da palavra deslocando todas as que se encontram sua direita Suponhamos por exemplo que se deseje gerar automaticamente adjetivos em able da l ngua francesa a partir de substantivos Em casos como regrettable ou r quisitionnable observamos uma duplica o da consoante final do substantivo Para evitar escrever um grafo de flex o para cada consoante final poss vel podemos utilizar o operador C a fim de duplicar a consoante final qualquer que seja ela D delete suprime uma letra da entrada deslocando todas as que se encontram sua direita Se desejar por exemplo flexionar a palavra romena european para europani a sequ ncia utilizada ser LDRi O L posicionar o cursor sobre a letra a o D ir suprimir o a deslocando o n depois Ri ir restabelecer o n e acrescentar um i Veja um exemplo que descreve a flex o de cnoose em chosen gra as sequ ncia de operadores LLDRRn Etapa 0 inicia o da pilha com a forma can nica posicionar o cursor ap s a ltima letra SE ie ie ee IS Etapa 1 deslocar o cursor para a esquerda LLDRRn EX Ea ERES ERA ne Etapa 2 deslocar uma segunda vez o cursor para a esquerda LLDRRn ERES ENA Goa e a 34 Etapa 3 deslocar tudo o que est direita do cursor para a esquerda LLDRRn l RCE EE Etapa 4 deslocar o c
122. g 2 1 Sele o da l ngua na inicializa o do Unitex Os textos fornecidos com o Unitex j est o em caracteres Unicode Se tentar abrir um texto que n o est no formato Unicode o programa lhe recomendar convert lo automaticamente ver figura 2 2 Esta convers o se baseia na l ngua corrente se trabalhar em franc s o Unitex lhe recomendar converter seu texto supondo que ele est codificado com uma p gina francesa de c digos Por default o Unitex recomenda tanto substituir o texto original quanto renomear o arquivo de origem inserindo old antes de sua extens o Por exemplo se h um arquivo ASCII nomeado balzac txt o processo de convers o criar uma c pia deste arquivo ASCII nomeado balzac old txt e substituir o conte do do balzac txt pelo seu equivalente em Unicode Se o c digo proposto como default n o for bom ou se desejar renomear o arquivo de outro modo que n o seja com sufixo old voc pode utilizar o comando Transcode Files no menu File Edition Esse comando permite escolher o c digo de origem e de destino dos documentos a converter ver figura 2 3 Por default o c digo fonte proposto aquele que corresponde l ngua corrente e o c digo de destino o Unicode Little Endian poss vel modificar essas escolhas selecionando qualquer c digo fonte ou de destino Assim ser poss vel se desejar converter os dados em outros c digos como por exemplo UTF 8 se desejar fazer p ginas
123. gado Se a op o Allow concordance edition for selecionada n o se pode deste modo clicar nas ocorr ncias mas pode se editar a concord ncia como texto Isso permite entre outras possibilidades o deslocamento no texto com um cursor o que pode ser pr tico quando se trabalha com uma concord ncia com grandes contextos Preferences for French _ Analyze this language char by char _ Right to left rendering for corpus and graphs Text Font Courier New 10 Concordance Font Courier new 12 Html Viewer Ta Maximum Text File Size 2048 Kbytes 55 FIG 4 7 Sele o do navegador para a exibi o das concord ncias Ed 330 PSY YIM lESAS STY JO ouo O UOTSESTANS ISIETUIE STY UMOp AB ITE paysear Apsawess yorum HEDTS JI0U8 Yq Wet T Tt J0 whtaz ayy oq quenbasqns aquosa sqeIedos Ou 234 ats 124080 aya Feu CL Ss ASpUueTURTH Wetaa00s BU OT PUTH Sea Jo any yatm poeg TES 3214F2S modaq nq is samweu woxes Tau Aq sao aus Shes MOXES AO aua YATA 15811009 B Burmzro1 norpa pari Waep AIJSUI E 09 PTOS al YITYM aoueuagimmoS Sty 4850 pemos Apes E Uo umop TTaJ PUE 11 ULYITM mois asole Peq pebuojoid E J 28 qpum p aTpaj3uo3 2401 Taddn STUL ic Wioy HTTTU230 aa JO UOTATQUE am Wotitpadxa usei JaAa seua UT AQaed E ES QUam olua Jo 1399480 Samosaq au uam SME emo e92 Waaq peu 924900 sty e aoueivadde OTIEEQUE 3100 E prog fETEPUES S Ataque AUSTOUE 10
124. guinte 167 1 2 et 3 INTJ abracadrabra INTJ saperlipopette INTJ zut INTJ Obtemos o arquivo CHECK DIC TXT seguinte 0020 4 1 0021 4 002C 4 0031 4 0032 4 0033 4 0049 4 004A 4 004E 9 0054 9 0061 4 0065 9 0068 9 0070 9 0072 9 DT MT p ZG H O N P lt Line 1 unprotected comma in lemma 1 2 et 3 INTJY Line 2 no point found ah INTJ4 168 s 0073 4 t 0074 4 u z 0075 007A 4 o as a a Sit St et se PE q 2 grammatical semantic codes used in dictionary mm ee eS ae eee eee q INTJY INTJ warning 1 suspect char 1 space SPACE I N T J q em ee ee ee eee q O inflectional code used in dictionary q mm TE q 10 8 Arquivo do ELAG 10 8 1 Arquivo Tagset def Ver se o 7 3 6 na pagina 127 10 8 2 Arquivo Lst OS ARQUIVOS LST N O S O CODIFICADOS EM UNICODE O arquivo 1st cont m uma lista de nomes de arquivo grf localizados em rela o pasta ELAG da l ngua usual A seguir o arquivo elag 1st fornecido para o franc s PPVs PpvIL grfq PPVs PpvLE grf PPVs PpvLUI grf4 PPVs PpvPR grff PPVs PpvSeq gr ff PPVs SE grff PPVs postpos grff 10 8 3 Arquivo elg 169 O arquivo elg contem as regras ELAG compiladas Esses arquivos est o no formato fst2 10 8 4 Arquivo rul OS ARQUIVOS RUL N O S O CODIFICADOS EM UNICODE Esses arquivos listam os diferentes arquivos elg que comp em um conjunto de regras ELAG Um arquivo rul co
125. haves de busca sint ticas que poder o em seguida ser procuradas nos textos De todos os tipos de grafos estes possuem o maior poder de express o pois permitem a refer ncia aos dicion rios As variantes min sculas mai sculas s o autorizadas conforme o princ pio descrito mais acima Contudo poss vel impor os limites de uma caixa colocando uma express o entre aspas O emprego de aspas permite tamb m que se determinem espa amentos De fato o Unitex considera por default que um espa o entre duas caixas poss vel Para impor a presen a de um espa o preciso coloc lo entre aspas Para impedir a presen a de um espa o preciso utilizar o s mbolo especial 84 Os grafos sint ticos podem recorrer a subgrafos ver se o 5 2 3 Eles geram do mesmo modo as sa das inclusive as sa das com vari veis As sequ ncias produzidas s o interpretadas como cadeias de caracteres que ser o inseridas nas concord ncias ou no texto se desejar modific lo ver se o 6 7 3 Os s mbolos especiais suportados pelos grafos sint ticos s o os mesmos que os utilizados nas express es racionais ver se o 4 3 1 Os grafos sint ticos podem utilizar contextos ver se o 6 3 N o obrigat rio compilar os grafos sint ticos antes de utiliz los para a pesquisa de chaves de busca Se um grafo n o estiver compilado o sistema o compilar automaticamente 6 1 6 Gram ticas ELAG A sintaxe das gram ticas de levan
126. hole that a is included in the normal form of packaging a Major Component but which is not part of that Major Component and b serves only to enable use of the work with that Major Component or to implement a Standard Interface for which an implementation is available to the public in source code form A Major Component in this context means a major essential component kernel window system and so on of the specific operating system if any on which the executable work runs or a compiler used to produce the work or an object code interpreter used to run it The Corresponding Source for a work in object code form means all the source code needed to generate install and for an executable work run the object code and to modify the work including scripts to control those activities However it does not include the work s System Libraries or general purpose tools or generally available free programs which are used unmodified in performing those activities but which are not part of the work For example Corresponding Source includes interface definition files associated with source files for the work and the source code for shared libraries and dynamically linked subprograms that the work is specifically designed to require such as by intimate data communication or control flow between those subprograms and other parts of the work The Corresponding Source need not include anything that users can regenerate automatically fr
127. icita a ambiguidade da seq ncia 1 Se essa gram tica for aplicada a uma frase francesa que contiver a segii ncia 1 obt m se um aut mato de frase similar quele da figura 7 5 No aut mato obtido pode se ver que as quatro regras de reescritura da sequ ncia 1 foram aplicadas o que adicionou quatro etiquetas no aut mato Essas etiquetas concorrem com os dois caminhos preexistentes para a sequ ncia 1 A normaliza o constru o do aut mato do texto permite adicionar caminhos ao aut mato e n o suprimi lo Quando a funcionalidade de levantamento de ambig idades estiver dispon vel ela permitir que sejam eliminados os caminhos que se tornarem sup rfluos 118 7 2 3 Normaliza o dos pronomes cliticos em portugu s Em portugu s os verbos no futuro e no condicional podem ser modificados pela inser o de um ou dois pronomes cliticos entre o radical e o sufixo do verbo Por exemplo a sequ ncia dir me o corresponde forma verbal completa dir o associadas ao pronome me Com vistas possibilidade de efetuar manipula es nessa forma reescrita necess rio introduzi la no aut mato do texto paralelamente seq ncia de origem la le PRO PpvLE 21 3fs FIG 7 4 Normaliza o da seq ncia 1 E PRO PpvL ZA N z1 fs accumulation des accumulation de NDET Dnom14 DET z1 ms fs 119 FIG 7 5 Aut mato normalizado com a gram tica da figura 7 4 Desse
128. int tico ver se o 6 7 3 6 6 4 Prioridade para as sequ ncias mais longas Durante a aplica o de um grafo sint tico poss vel escolher se a prioridade deve ser dada s seq ncias mais curtas ou mais longas ou se todas as sequ ncias devem ser mantidas Durante as opera es de pr tratamento a prioridade sempre dada s sequ ncias mais longas 6 6 5 Sa das com vari veis Como foi visto na se o 5 2 7 poss vel utilizar vari veis para estocar o texto que foi analisado por uma gram tica Essas vari veis podem ser utilizadas nos grafos de pr tratamento e nos grafos sint ticos Deve se nomear as vari veis utilizadas Esses nomes podem conter letras compreendidas entre A e Z n o acentuadas min sculas ou mai sculas n meros e o caractere _ underline Para definir o in cio ou o fim da rea estocada em uma vari vel criar uma caixa contendo o nome da vari vel delimitado pelos caracteres e e para o fim de uma vari vel Para utilizar uma vari vel em uma sa da colocar antes de seu nome o caractere ver figura 6 25 As vari veis s o globais Isso significa que se pode definir uma vari vel em um grafo e se remeter a ela em um outro como ilustram os grafos da figura 6 25 Se o grafo TitleName for aplicado no modo MERGE ao texto Ivanhoe obt m se a seguinte concord ncia da figura 6 26 103 As sa das com vari veis podem ser utilizadas para mover grupos de palavras Na ve
129. ion is any work that makes use of an interface provided by the Library but which is not otherwise based on the Library Defining a subclass of a class defined by the Library is deemed a mode of using an interface provided by the Library A Combined Work is a work produced by combining or linking an Application with the Library The particular version of the Library with which the Combined Work was made is also called the Linked Version The Minimal Corresponding Source for a Combined Work means the Corresponding Source for the Combined Work excluding any source code for portions of the Combined Work that considered in isolation are based on the Application and not on the Linked Version The Corresponding Application Code for a Combined Work means the object code and or source code for the Application including any data and utility programs needed for reproducing the Combined Work from the Application but excluding the System Libraries of the Combined Work 1 Exception to Section 3 of the GNU GPL You may convey a covered work under sections 3 and 4 of this License without being bound by section 3 of the GNU GPL 2 Conveying Modified Versions If you modify a copy of the Library and in your modifications a facility refers to a function or data to be supplied by an Application that uses the facility other than as an argument passed when the facility is invoked then you may convey a copy of the modified ve
130. is normally used for personal family or household purposes or 2 anything designed or sold for incorporation into a dwelling In determining whether a product is a consumer product doubtful cases shall be resolved in favor of coverage For a particular product received by a particular user normally used refers to a typical or common use of that class of product regardless of the status of the particular user or of the way in which the particular user actually uses or expects or is expected to use the product A product is a consumer product regardless of whether the 180 product has substantial commercial industrial or non consumer uses unless such uses represent the only significant mode of use of the product Installation Information for a User Product means any methods procedures authorization keys or other information required to install and execute modified versions of a covered work in that User Product from a modified version of its Corresponding Source The information must suffice to ensure that the continued functioning of the modified object code is in no case prevented or interfered with solely because modification has been made If you convey an object code work under this section in or with or specifically for use in a User Product and the conveying occurs as part of a transaction in which the right of possession and use of the User Product is transferred to the recipient in perpetuity or for a fixed term
131. issiva que a licen a GPL pois ela permite utilizar o c digo LGPL nos softwares n o livres Do ponto de vista do usu rio n o h diferen a pois nos dois casos o software pode ser livremente utilizado e distribu do Todos os dados ling sticos distribu dos com o Unitex s o submetidos licen a LGPLLR 29 O texto completo das licen as GPL LGPL e LGPLLR encontra se nos anexos no fim deste manual 1 2 Ambiente Java O Unitex composto de uma interface gr fica escrita em Java e de programas externos escritos em C C Essa mistura de linguagens de programa o permite que o aplicativo tenha rapidez de funcionamento e que seja port til sob diferentes sistemas operacionais Para poder utilizar a interface gr fica preciso instalar previamente um ambiente comumente chamado de m quina virtual Java ou JRE Java Runtime Environment Para funcionar em modo gr fico o Unitex necessita de uma vers o 1 4 ou mais recente do Java Se tiver uma vers o muito antiga do Java o Unitex se bloquear ap s escolher sua l ngua de trabalho poss vel baixar livremente a m quina virtual correspondente ao seu sistema operacional no site de Sun Microsystems 38 no seguinte endere o http java sun com Se trabalhar com Linux ou MacOS ou se utilizar uma vers o de Windows que necessita de gerenciamento de usu rios ser necess rio pedir ao seu administrador do sistema para instalar o Java 1 3 Instala o no Windows Se
132. ivo em octetos Os estados dos aut matos s o em seguida codificados da seguinte maneira OS 2 primeiros octetos indicam se o estado terminal assim como o n mero de transi es que saem da O bit mais forte vale O se o estado terminal e 1 se n o for Os outros 15 bits codificam o n mero de transi es Exemplo um estado n o terminal com 17 transi es codificado pela sequ ncia hexadecimal 8011 se o estado terminal os 3 octetos seguintes codificam o ndice no arquivo inf da forma compactada a ser utilizada para reconstruir as linhas do dicion rio para essa forma de arquivo Exemplo se o estado reconduzir a forma compactada do indice 25133 a seq ncia hexadecimal correspondente 00622D cada transi o que sai em seguida codificada em 5 octetos Os 2 primeiros octetos codificam o caractere que etiqueta a transi o e os 3 seguintes codificam as posi es em octetos de um arquivo bin do estado de chegada As transi es de um estado s o codificadas umas ap s as outras 164 Exemplo uma transi o etiquetada pelo caractere A apontando para o estado cuja descri o inicial o octeto 50106 ser representada pela seq ncia hexadecimal 004100C3BA Por conven o o primeiro estado do aut mato o estado inicial 10 7 2 Arquivo inf Um arquivo inf um a arquivo de texto descrevendo as formas compactadas associadas a um arquivo bin Veja um exemplo de arq
133. ivo snt s o codificados como espa os Nunca h ent o unidades que codifiquem a quebra de linha 10 4 5 Arquivos tok by alph txtetok by freq txt Estes dois arquivos s o arquivos de texto que cont m a lista de unidades lexicais selecionada por ordem alfab tica ou por ordem de fregii ncia No arquivo tok by alph txt cada linha composta de uma unidade seguida do caractere tabula o e do n mero de ocorr ncias dessa unidade o texto As linhas do arquivo tok by freq txt s o formadas sob o mesmo princ pio mas o n mero de ocorr ncias aparece antes do caractere tabula o e da unidade 10 4 6 Arquivo enter pos Este um arquivo bin rio que cont m a lista de posi es de quebras de linha no arquivo snt Cada posi o o ndice no arquivo text cod de uma quebra de linha substitu do por um espa o Essas posi es s o de inteiros codificados sobre 4 octetos 10 5 Aut mato do texto 10 5 1 Arquivo text fst2 O arquivo text fst2 um arquivo fst2 especial que representa um aut mato de frase Nesse arquivo cada sub grafo representa um aut mato de frase As localiza es reservadas aos nomes de sub grafos s o utilizadas para armazenar as frases a partir das quais foram constru dos os aut matos de frases 159 Com exce o da primeira unidade que deve ser sempre epsilon lt E gt as unidades devem ser ou unidades lexicais ou entradas de DELAF enquadradas pelas chaves Exemplo
134. l gicos apresentam se sob a forma de express es regulares no formato POSIX ver 36 para uma sintaxe detalhada Eis alguns exemplos de filtros elementares lt lt ss gt gt cont m ss lt lt a gt gt come a com a lt lt ez gt gt termina com ez lt lt a s gt gt cont m a seguido por um caractere qualquer seguido por s lt lt a s gt gt cont m a seguido por um n mero qualquer de caracteres seguido por s lt lt ss tt gt gt cont m ss ou tt lt lt aeiouy gt gt cont m uma vogal n o acentuada lt lt aeiouy 3 5 gt gt cont m uma seq ncia de vogais n o acentuadas de extens o entre 3 e 5 caracteres lt lt e gt gt cont m seguido por um e facultativo lt lt st aeiouy gt gt cont m st seguido por um caractere que n o uma vogal E poss vel combinar esses filtros elementares para formar filtros mais complexos lt lt ai bleS gt gt termina com able ou ible lt lt anti pro gt gt come a com anti ou pro seguido por um hifen facultativo lt lt rst aeiouy 2 S gt gt palavra formada por 2 ou mais sequ ncias come ando com um r s ou t seguido por uma vogal n o acentuada lt lt 21 1 e gt gt n o come a por 1 ou ent o a segunda letra n o um e ou seja qualquer palavra exceto aquelas que come am por le Tais restri es podem ser expressas de modo mais simples utilizando se os contextos ver 6 3 Por defini o
135. l recipients of the covered work and works based on it A patent license is discriminatory if it does not include within the scope of its coverage prohibits the exercise of or is conditioned on the non exercise of one or more of the rights that are specifically granted under this License You may not convey a covered work if you are a party to an arrangement with a third party that is in the business of distributing software under which you make payment to the third party based on the extent of your activity of conveying the work and under which the third party grants to any of the parties who would receive the covered work from you a discriminatory patent license a in connection with copies of the covered work conveyed by you or copies made from those copies or b primarily for and in connection with specific products or compilations that contain the covered work unless you entered into that arrangement or that patent license was granted prior to 28 March 2007 Nothing in this License shall be construed as excluding or limiting any implied license or other defenses to infringement that may otherwise be available to you under applicable patent law 12 No Surrender of Others Freedom If conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do not excuse you from the conditions of this License If you cannot convey a covered work so as to satisfy simult
136. lavra Sir corresponde igualmente a duas entradas do dicion rio mas como a forma can nica dessas entradas sir ela mostrada j que difere da forma flexiva por uma min scula V W Pls P2s Plp P2p P3p Fig 7 23 Aut mato da primeira frase de Ivanhoe 7 42 Modificar manualmente o aut mato do texto poss vel modificar manualmente os aut matos de frase salvo aqueles que aparecem no quadro reservado para a ELAG quadro de baixo Voc pode adicionar 138 ou suprimir as caixas ou as transi es Quando um gr fico modificado ele protegido na pasta do texto sob o nome de sentenceN grf onde N representa o n mero da frase Quando voc seleciona uma frase se um gr fico modificado existir para essa frase est mostrada Voc pode ent o reinicializar o aut mato dessa frase clicando sobre o bot o Reset Sentence Graph ver figura 7 24 Sentence 1 Reset Sentence Graph Rebuild FST Text Elag Frame Explode RED rs O N ProperNoun PREP N ProperNoun Fig 7 24 Aut mato de frase modificado No momento da constru o do aut mato de um texto todos os gr ficos de frase modificados presentes na pasta do texto s o cancelados NOTA voc pode reconstruir o aut mato do texto levando em considera o suas modifica es manuais Para isso clique no bot o Rebuild FST Text Todas as frases para as quais as modifica es foram feitas s o agor
137. logia que foi desenvolvida por Maurice Gross e sua equipe do LADL 6 7 26 28 com o seguinte princ pio cada verbo possui propriedades sint ticas quase nicas Sendo assim essas propriedades t m de ser sistematicamente descritas pois imposs vel prever o comportamento preciso de um 141 verbo Essas descri es sistem ticas s o representadas por meio de matrizes nas quais as linhas correspondem aos verbos e as colunas s propriedades sint ticas As propriedades consideradas s o propriedades formais tais como o n mero e a natureza dos complementos admitidos pelo verbo e as diferentes transforma es que esse verbo pode sofrer passividade nominaliza o extraposi o etc As matrizes mais comumente denominadas tabelas s o bin rias um sinal aparece na intersec o de uma linha e de uma coluna de uma propriedade se o verbo verificar essa propriedade caso contr rio aparece um sinal Esse tipo de descri o foi igualmente aplicada aos adjetivos 37 aos substantivos predicativos 21 22 aos adv rbios 27 39 assim como s express es cristalizadas sendo este procedimento feito em v rias l nguas 10 17 18 42 43 45 48 49 50 A figura 8 1 mostra um exemplo de tabela de l xico gram tica Essa tabela aplica se aos verbos que admitem um complemento num rico Ss Table32NM xls T Exemple accepter e salon accepte vingt personnes
138. lt gt que identifica uma quebra de pagina Tendo sido todas as quebras de p ginas substitu das por espa os esse s mbolo n o tem mais nenhuma utilidade quando da busca por padr es Esses s mbolos tamb m chamados metas s o os seguintes lt E gt palavra vazia ou psilon Reconhece a sequ ncia vazia lt TOKEN gt Reconhece qualquer unidade lexical lt MOT gt Reconhece qualquer unidade lexical formada por letras lt MIN gt Reconhece qualquer unidade lexical formada por letras min sculas lt MAJ gt Reconhece qualquer unidade lexical formada por letras mai sculas lt PRE gt Reconhece qualquer unidade lexical formada por letras e iniciada por uma mai scula lt TOKEN gt Reconhece qualquer unidade lexical exceto o espa o lt DIC gt Reconhece qualquer palavra presente nos dicion rios do texto lt SDIC gt Reconhece qualquer palavra simples presente nos dicion rios do texto lt CDIC gt Reconhece qualquer palavra composta presente nos dicion rios do texto lt NB gt Reconhece qualquer sequ ncia de algarismos consecutivos 1234 identificado mas n o 1 234 impede a presen a do espa o NOTA Como j havia sido dito na se o 2 5 4 NENHUM dos meta pode ser utilizado para reconhecer o marcador stop nem mesmo lt TOKEN gt 4 3 2 Padr es lexicais O segundo tipo de padr es re ne os que se referem s informa es contidas nos dicion rios do texto S o o
139. m a lista das unidades lexicais organizada por ordem de frequ ncia Tok by alph txt cont m a lista das unidades lexicais organizada por ordem alfab tica Stats n cont m algumas estat sticas sobre o texto O recorte do texto Un sou c est un sou origina a lista de unidades lexicais seguintes Un ESPA O sou c est un sou Pode se observar que se considerou a caixa Un e un s o duas unidades distintas mas que cada unidade codificada somente uma vez Numerando essas unidades de 0 a 7 esse texto pode ser representado pela sequ ncia de n meros descrita na tabela seguinte ndice 0 1 2 1 3 4 5 1 6 1 2 7 Unidade lexical Um sou Cc i est un so correspondente u TAB 2 1 Representa o do texto Un sou c est un sou Para mais detalhes ver o cap tulo 10 2 5 5 Aplica o de dicion rios A aplica o de dicion rios consiste na constru o do subconjunto dos dicion rios que cont m somente as formas presentes no texto Assim o resultado da aplica o dos 21 dicion rios do franc s no texto Igor mange une pomme de terre produz o seguinte dicion rio de palavras simples e DET z1 de PREP z1 de XI z1 mange Manger Vis li PTS Pos els Ses ts pomme Atzi m fS Mmpi fp pomme Whalers pomme DOMME zs PTlSsS PSS S15S S3S IS terre N zl fs terre terrer Vizl Pls P3s BlsiSas1i2s une NF ts une un DET e1sfs E tokenust oe Eu Fig 2 11 Unidades lexicai
140. ma por uma gram tica Este marcador particular pode ser utilizado para delimitar os elementos em um corpus Por exemplo se um corpus for constitu do por not cias separadas por STOP essa separa o evita que uma gram tica possa acidentalmente reconhecer uma sequ ncia que sobreponha o fim de uma not cia e o come o da seguinte FIG 2 10 Gram tica de normaliza o de formas verbais em ingl s uma etiqueta lexical aujourd hui ADV 20 uma seq ncia cont gua de letras sendo as letras definidas pelo arquivo do alfabeto da l ngua um caractere que n o seja uma letra se esse caractere for uma quebra de p gina ele substitu do por um espa o Para as outras l nguas o recorte realizado caractere por caractere com exce o do separador de frases S o marcador STOP e as etiquetas lexicais Este recorte b sico garante o funcionamento do UNITEX mas limita a otimiza o das opera es de busca por padr es Qualquer que seja o modo de recorte as quebras de p ginas presentes em um texto s o substitu das por espa os Esse recorte realizado pelo programa Tokenize Esse programa produz diversos arquivos armazenados no diret rio do texto Tokens txt cont m a lista das unidades lexicais na ordem em que foram encontradas no texto Text cod cont m uma tabela de n meros inteiros cada n mero correspondendo ao ndice de uma unidade lexical no arquivo tokens txt Tok by freg txt cont
141. ma id ntica no aut mato sem que o programa tente decompor as seq ncias que elas representam Em cada caixa a 1 linha tem a forma flexionada encontrada no texto e a 2 linha se for diferente tem a forma can nica As outras informa es s o codificadas sob a caixa ver se o 7 4 1 Os espa os que separam as unidades lexicais n o s o transcritos novamente no aut mato com exce o dos espa os no interior de palavras compostas A caixa das unidades lexicais conservada Por exemplo se for encontrada a palavra Here conserva se a mai scula ver figura 7 1 Essa escolha permite que n o seja perdida tal informa o no momento da passagem ao aut mato do texto o que poder ser til para aplica es onde a caixa importante como o reconhecimento dos nomes pr prios 7 2 2 Normaliza o de formas amb guas No momento da constru o do aut mato poss vel efetuar uma normaliza o de formas amb guas aplicando a gram tica de normaliza o Essa gram tica deve ser nomeada Norm fst2 e deve ser colocada em seu diret rio pessoal no sub diret rio Graphs Normalization da l ngua requerida As gram ticas de normaliza o de formas amb guas s o descritas na se o 6 1 3 Se uma sequ ncia do texto for reconhecida pela gram tica de normaliza o todas as interpreta es descritas pela gram tica s o inseridas no aut mato do texto A figura 7 4 mostra o trecho da gram tica utilizado pelo franc s que expl
142. me do dicion rio a ser verificado O par metro type pode passar a ter o valor de DELAS ou DELAF caso se queira visualizar o dicion rio em um ou outro formato O programa testa a sintaxe das linhas do dicion rio Ele verifica igualmente a lista dos caracteres presentes nas formas flexionadas e can nicas a lista dos c digos gramaticais e sint ticos assim como a lista dos c digos flexionais utilizados Os resultados da verifica o s o armazenados em um arquivo chamado CHECK DIC TXT 9 2 Compress Compress dictionnaire flip Esse programa toma como par metro um dicion rio DELAF e o compacta A compacta o de um dicion rio dico dic produz dois arquivos dico bin arquivo bin rio contendo o aut mato m nimo das formas flexionadas do dicion rio dico inf arquivo texto contendo formas compactadas que permitem reconstruir as linhas do dicion rio a partir das formas flexionadas contidas no aut mato Para mais detalhes sobre os formatos desses arquivos ver o cap tulo 10 O par metro opcional flip indica que as formas flexionadas e can nicas ser o invertidas no dicion rio compactado Esta op o utilizada para construir o dicion rio reverso necess rio para o programa de Reconstru o 148 9 3 Concord Concord index font fontsize left right order mode alph thai Esse programa toma como par metro um arquivo de ndice de concord ncia produzido pelo programa Locate e produz uma concord
143. mento s o destinados a serem aplicados aos textos antes que estes sejam recortados em unidades lexicais Esses grafos podem ser utilizados para inserir ou substituir sequ ncias nos textos As duas utiliza es usuais desses grafos s o a normaliza o de formas n o amb guas e o recorte em frases A interpreta o desses grafos no Unitex muito pr xima da interpreta o dos grafos sint ticos utilizados para a busca por padr es As diferen as s o as seguintes imposs vel utilizar o s mbolo especial lt gt que reconhece uma quebra de p gina imposs vel fazer remiss o aos dicion rios imposs vel utilizar os filtros morfol gicos imposs vel utilizar contextos As figuras 2 9 p gina 23 e 2 10 p gina 25 mostram exemplos de grafos de pr tratamento 6 1 3 Grafos de normaliza o do aut mato do texto Os grafos de normaliza o do aut mato do texto permitem a normaliza o das formas amb guas De fato eles podem descrever v rias etiquetas para uma mesma forma Essas etiquetas s o em seguida inseridas no aut mato do texto explicitando assim as ambig idades A figura 6 3 mostra um extrato do grafo de normaliza o utilizado para o franc s O correto n o seria formalizar formas amb guas em vez de n o amb guas 82 de DET Dind zl mp fp FIG 6 3 Extrato do grafo de normaliza o utilizado para o franc s Os caminhos descrevem as formas que de
144. modifications to produce it from the Program in the form of source code under the terms of section 4 provided that you also meet all of these conditions a The work must carry prominent notices stating that you modified it and giving a relevant date b The work must carry prominent notices stating that it is released under this License and any conditions added under section 7 This requirement modifies the requirement in section 4 to keep intact all notices c You must license the entire work as a whole under this License to anyone who comes into possession of a copy This License will therefore apply along with any applicable section 7 additional terms to the whole of the work and all its parts regardless of how they are packaged This License gives no permission to license the work in any other way but it does not invalidate such permission if you have separately received it d If the work has interactive user interfaces each must display Appropriate Legal Notices however if the Program has interactive interfaces that do not display Appropriate Legal Notices your work need not make them do so A compilation of a covered work with other separate and independent works which are not by their nature extensions of the covered work and which are not combined with it such as to form a larger program in or on a volume of a storage or distribution medium 179 is called an aggregate if the compilation and its resulting
145. modo o usu rio poder pesquisar uma ou outra forma de acordo com suas necessidades As figuras 7 6 e 7 7 mostram o aut mato de uma frase antes e depois da normaliza o dos cl ticos A ata accumulation NDET Dnom14 DET z1 ms fs FIG 7 6 Aut mato de frase n o normalizada diria pal dizer ae diria dizer WiC1s C4s C3s PRO Pes N3s ia sh Ep B V lls l2s l4s l3s V R PRO Pes R4ms R4fs R4mp R4fp FIG 7 7 Aut mato de frase normalizada 120 O programa Reconstru o permite que se construa dinamicamente para cada texto uma gram tica de normaliza o dessas formas gram tica assim produzida pode ent o ser utilizada para normalizar o aut mato do texto A janela de configura o de constru o do aut mato prop e a op o Build clitic normalization grammar ver figura 7 10 Esta op o aciona automaticamente a constru o da gram tica de normaliza o que em seguida utilizada para construir o aut mato do texto se voc tiver selecionado a op o Apply the Normalization grammar 7 2 4 Conserva o dos melhores caminhos Pode acontecer de uma palavra desconhecida vir parasitar o aut mato do texto ao estar em concorr ncia com uma seq ncia completamente separada em unidades Dessa maneira no aut mato de frase da figura 7 8 pode se ver que o adv rbio aujourd hui concorrenciado pela palavra desconhecida aujourd seguido de um ap strof
146. mployer if you work as a programmer or school if any to sign a copyright disclaimer for the program if necessary For more information on this and how to apply and follow the GNU GPL see lt http www gnu org licenses gt The GNU General Public License does not permit incorporating your program into proprietary programs If your program is a subroutine library you may consider it more useful to permit linking proprietary applications with the library If this is what you want to do use the GNU Lesser General Public License instead of this License But first please read lt http www gnu org philosophy why not lgpl html gt 187 Anexo B GNU LESSER GENERAL PUBLIC LICENSE Version 3 29 June 2007 Copyright C 2007 Free Software Foundation Inc lt http fsf org gt Everyone is permitted to copy and distribute verbatim copies of this license document but changing it is not allowed This version of the GNU Lesser General Public License incorporates the terms and conditions of version 3 of the GNU General Public License supplemented by the additional permissions listed below 0 Additional Definitions As used herein this License refers to version 3 of the GNU Lesser General Public License and the GNU GPL refers to version 3 of the GNU General Public License The Library refers to a covered work governed by this License other than an Application or a Combined Work as defined below An Applicat
147. mporta Em linha de comando a instru o Dicio ex snt alf txt Estados bin Topo bin PR fst2 Regi es bin aplicaria portanto os dicion rios na seguinte ordem ex snt o texto ao qual s o aplicados os dicion rios e alf txt o arquivo do alfabeto utilizado 1 Topo bin 2 Regi es bin 3 PR fst2 4 Estados bin 37 3 6 2 Regras de aplica o dos dicion rios Al m da regra de prioridades a aplica o dos dicion rios efetuada respeitando se as mai sculas e os espa os A regra do respeito s mai sculas a seguinte se h uma mai scula no dicion rio ent o deve haver uma mai scula no texto se h uma min scula no dicion rio pode haver tanto uma min scula quanto uma mai scula no texto Assim a entrada linda Adj fs reconhecer as palavras linda Linda e LINDA enquanto que Linda N Nome reconhecer apenas Linda e LINDA As letras min sculas e mai sculas s o definidas pelo arquivo alfabeto passado em par metro com o programa Dicio O respeito aos espa amentos uma regra bastante simples para que uma sequ ncia de texto seja reconhecida por uma entrada do dicion rio ela deve conter exatamente os mesmos espa os Por exemplo se o dicion rio cont m arco iris N a sequ ncia arco ris n o ser reconhecida por causa do espa o que se segue ao h fen 3 6 3 Grafos dicion rios O programa Dicio capaz de aplicar grafos dicion rios Trata se de grafos que respeit
148. n ado o programa Locate voltar posi o pos no texto e continuar a explora o da gram tica a partir do fim do contexto H e FIG 6 13 Utiliza o de um contexto negativo Os contextos podem ser colocados em qualquer lugar do gr fico inclusive no come o A figura 6 14 mostra deste modo um gr fico que reconhece um adjetivo no contexto de qualquer coisa que n o seja partic pio passado Em outros termos esse gr fico reconhece todos os adjetivos que n o s o ambiguos com participios lt H 0 FIG 6 14 Busca por um adjetivo nao ambiguo com um participio passado 94 Gra as a esse mecanismo pode se formular pedidos complexos Desse modo a figura 6 15 mostra um gr fico que reconhece todas as sequ ncias de dois nomes simples que n o s o amb guos com palavras compostas De fato a chave de busca lt CDIC gt lt lt gt gt reconhece uma palavra composta que cont m exatamente um espa o e a chave de busca lt N gt lt lt gt gt reconhece um nome sem espa o ou seja um nome simples Deste modo na frase Black cats should like the town hall esse grafo reconhecer Black cats mas n o town hall que uma palavra composta arr EN ESS Ne ie FIG 6 15 Utiliza o avan ada dos contextos possivel imbricar contextos Por exemplo o grafo da figura 6 16 reconhece um n mero que n o estiver seguido por um ponto exceto se esse ponto
149. n o conv m j que ele dar todos os adjetivos Para contornar essa dificuldade poss vel negar um atributo flexional escrevendo o caractere exatamente antes de um dos valores poss veis para esse atributo Dessa maneira o s mbolo lt A m p gt reconhece todos os adjetivos que n o 133 possuem g nero nem n mero Com a ajuda desse operador agora poss vel descrever as gram ticas como aquelas da figura 7 19 que imp em a concord ncia em g nero e n mero entre um nome e um adjetivo que o precede Essa gram tica conservar a an lise correta de frases como Les personnes de bonne humeur m insupportent Todavia recomend vel limitar o uso do operador pois isso nega a legibilidade das gram ticas prefer vel distinguir as etiquetas que aceitam diferentes combina es flexionais no meio de sub categorias discriminantes definidas na parte discr as 5 5 EE lt AIMS gt lt A m p gt ae ee op gt ef He Fig 7 19 Gram tica ELAG verificando a concord ncia em g nero e n mero entre um nome e um adjetivo subsequente C digos opcionais Os c digos sint ticos e sem nticos opcionais s o declarados na parte cat Eles podem ser utilizados nas gram ticas ELAG como os outros c digos A diferen a que esses c digos n o interv em para decidir se uma etiqueta deve ser rejeitada como inv lida ou n o no momento do carregamento do aut mato do texto Esses s o os c
150. n o s o modificados Desse modo se escolher por 111 modificar o texto atual as modifica es s o imediatamente efetivas Pode se ent o lan ar novas buscas no texto ATEN O se escolher por aplicar seu grafo ignorando as sa das todas as ocorr ncias ser o apagadas do texto 6 7 4 Extra o das ocorr ncias Pode se extrair todas as frases do texto que contenham ou n o ocorr ncias Para isso escolher um nome de arquivo de sa da no bot o Set File na op o Extract units figura 6 31 Em seguida clicar em Extract matching units ou Extract unmatching units se quiser ou n o extrair as frases contendo as ocorr ncias ted of yore the fabulous Dragon of Wantley 5 here were fought many of ia F DAMy Unitex English Corpus ivanhoe snt 2343 sentence delimiters 186614 9300 diff tokens 83776 9274 simple forms 25 9 digits Ivanhoe by Sir Walter Scott S IN THAT PLEASANT DISTRICT of merry England which is watered y the river Don there extended in ancient times a large for st covering the greater part of the beautiful hills and alleys which lie between Sheffield and the pleasant town of Donzaster 5 The remains of this extensive wood are still to e seen at the noble seats of Wentworth of Warncliffe Park and around Rotherham 5 Here haunted of yore the fabulous Dragon of Wantley 5 here were fought many of the most desperate battles during the Civil Wars of the Roses 5 and her al
151. nela de pr processamento 16 2 5 2 Segmenta o em frases A segmenta o em frases uma etapa importante do pr processamento pois possibilitar definir as unidades de processamento ling stico Essa segmenta o ser utilizada pelo programa de constru o do aut mato do texto Ao contr rio do que se possa pensar a busca dos limites de frases n o um problema trivial Consideremos o seguinte texto A fam lia chamou o Dr Martim com urg ncia O ponto que segue Dr seguido de uma palavra que come a por uma letra mai scula ele poderia ser considerado como um ponto de fim de frase o que seria incorreto A fim de evitar problemas desse g nero devidos ambig idade dos s mbolos de pontua o utilizam se as gram ticas que descrevem os diferentes contextos em que podem aparecer os limites da frase A figura 2 9 mostra um exemplo de gram tica de segmenta o em frases Quando o caminho da gram tica reconhece uma seqii ncia no texto e este caminho produz o s mbolo separador de frases S este s mbolo inserido no texto Assim um caminho da gram tica da figura 2 9 reconhece a seq ncia composta de um ponto de interroga o e de uma palavra que come a por uma letra mai scula e insere o s mbolo S entre o ponto de interroga o e a palavra seguinte O seguinte texto Que horas s o Oito horas torna se Que horas s o S Oito horas Uma gram tica de segmenta o pode manipular os seguintes
152. ni o windows 1252 p gina de c digos Microsoft Windows 1252 Latim I Europa Ocidental e EUA windows 1250 p gina de c digos Microsoft Windows 1250 Europa Central windows 1257 p gina de c digos Microsoft Windows 1257 B ltico windows 1251 p gina de c digos Microsoft Windows 1251 Cir lico windows 1254 p gina de c digos Microsoft Windows 1254 Turquia windows 1258 p gina de c digos Microsoft Windows 1258 Vietn iso 8859 1 p gina de c digos ISO 8859 1 Latim 1 Europa Ocidental e EUA iso 8859 15 p gina de c digos ISO 8859 15 Latim 9 Europa Ocidental e EUA iso 8859 2 p gina de c digos ISO 8859 2 Latim 2 Europa Oriental e Central iso 8859 3 p gina de c digos ISO 8859 3 Latim 3 Europa do Sul iso 8859 4 p gina de c digos ISO 8859 4 Latim 4 Europa do Norte iso 8859 5 p gina de c digos ISO 8859 5 Cir lico iso 8859 7 p gina de c digos ISO 8859 7 Grego iso 8859 9 p gina de c digos ISO 8859 9 Latim 5 Turco iso 8859 10 p gina de c digos ISO 8859 10 Latim 6 N rdico next step p gina de c digos NextStep LITTLE ENDIAN BIG ENDIAN NOTA existe um modo suplementar para o par metro dest com o valor UTF 8 que indica ao programa que ele deve converter os arquivos Unicode Little Endian em arquivos UTF 8 O par metro mode especifica como gerar os nomes dos arq
153. nstitu do de tantas partes quantos forem os arquivos elg Cada parte composta pela lista de gram tica ELAG que corresponde a um arquivo elg onde cada nome de arquivo precedido por uma tabula o seguido por uma linha contendo o nome do arquivo elg entre ngulos As linhas come am por uma tabula o tendo o valor de coment rio e s o ignoradas pelo programa Elag Segue o arquivo elag rul fornecido por default para o franc s PPVs PpvIL elg PPVs PpvLE elg PPVs PpvLUI elg4 lt elag rul 0 elg gt 4 PPVs PpvPR elg PPVs PpvSeq elg PPVs SE elg PPVs postpos elg4 lt elag rul l elg gt 4 10 9 Arquivos de Configura es 10 9 1 Arquivo Config Quando o usu rio modifica suas prefer ncias por uma l ngua determinada essas s o salvas em um arquivo de texto nomeado Config que se encontra na pasta da l ngua usual Esse arquivo tem a seguinte sintaxe a ordem das linhas pode variar 170 Unitex configuration file of paumier for English 4 Tue Jan 31 11 21 32 CET 20064 TEXT FONT NAME Courier New TEXT FONT STYLE 04 TEXT FONT SIZE 104 CONCORDANCE CONCORDANCE INPUT FONT INPUT FONT INPUT FONT FONT NAME Courier new FONT HTML SIZE 124 NAME Times New Roman4 STYLE 04 SIZE 104 OUTPUT FONT NAME Arial Unicode MS4 OUTPUT FONT STYLE 14 OUTPUT FONT SIZE 124 DATE truef SE FILE NAME trueq PATH NAME falsef FRAME true4 CH RIGHT TON LEFT false BACKGROUND COLOR 14
154. nte Cada linha descreve uma combina o v lida de c digos flexionais em fun o de sua sub categoria discriminante se uma certa categoria foi declarada Quando um nome de atributo aparece entre aspas e isso significa que qualquer valor desse atributo pode convir igualmente poss vel declarar que uma entrada n o tem nenhum tra o flexional no meio de uma linha que contenha apenas o caractere _ underscore Assim por exemplo se considerarmos as linhas seguintes como trechos da se o concernente descri o dos verbos W 132 K g nero n mero Elas permitem declarar que os verbos no infinitivo denotado pelo c digo W n o possuem outros tra os flexionais posicionados enquanto um g nero e de um n mero s o igualmente atribu dos s formas no partic pio passado c digo K 13 Descri o dos c digos flexionais A principal fun o da parte discr dividir as etiquetas em sub categorias que possuam um comportamento morfol gico similar Essas sub categorias s o em seguida utilizadas para facilitar a descri o da parte complete Para a legibilidade das gram ticas ELAG desej vel que os elementos de uma mesma sub categoria tenham todos o mesmo comportamento flexional nesse caso a parte complete composta de uma nica linha por sub categoria Consideramos o exemplo das linhas seguintes trecho da descri o dos pronomes Pdem g nero n mero PpvIL g nero n mero
155. o E preciso da mesma forma ficar atento aos espa os Pois se substituir c por ce n o seguido de espa o a frase Est ce que c tait toi ser substitu da pela seq ncia incorreta Est ce que ce tait toi Os s mbolos aceitos pelas gram ticas de normaliza o s o os mesmos que os permitidos nas gram ticas de segmenta o em frases A gram tica utilizada chama se Replace fst2 e encontra se no seguinte diret rio r pertoire personnel langue Graphs Preprocessing Replace Como na segmenta o em frases essa gram tica utilizada com o programa Fst2Txt por m nesse caso no modo REPLACE o que significa que as entradas reconhecidas pela gram tica s o substitu das pelas sequ ncias produzidas por ela pr pria Pode se observar na figura 2 10 uma gram tica que normaliza as contra es verbais em ingl s 2 5 4 Segmenta o do texto em unidades lexicais Certas l nguas em particular as l nguas asi ticas usam separadores de modo diferente das l nguas ocidentais os espa os podem ser proibidos opcionais ou obrigat rios Para melhor gerenciar essas particularidades o Unitex recorta os textos de acordo com a l ngua Assim l nguas como o franc s s o tratadas de acordo com o seguinte princ pio Uma unidade lexical pode ser 19 o separador de frases S o marcador STOP Ao contr rio do que ocorre com o separador de frases S o marcador STOP JAMAIS pode ser reconhecido de maneira algu
156. o Descreve igualmente as opera es que podem ser efetuadas neste objeto principalmente o levantamento de ambig idades lexicais por meio do programa ELAG O cap tulo 8 constitu do de uma introdu o s tabelas de l xico gram tica seguida de uma descri o do m todo que permite construir gram ticas a partir dessas tabelas O cap tulo 9 descreve em detalhes os diferentes programas externos que constituem o Unitex O cap tulo 10 fornece a descri o de todos os formatos de arquivos utilizados pelo sistema O leitor encontrar em anexo as licen as GPL e LGPL que protegem os c digos fonte do Unitex como a licen a LGPLLR que cobre os dados ling sticos distribu dos com o Unitex Capitulo 1 Instala o do Unitex O Unitex um sistema multi plataformas capaz de funcionar muito bem tanto no Windows quanto no Linux ou MacOS Este cap tulo descreve a instala o e a inicializa o do Unitex para cada um desses sistemas Apresenta igualmente os procedimentos de introdu o de novas l nguas e de desinstala o 1 1 Licen as O Unitex um software livre Isso significa que as fontes dos programas s o distribu das com o software e que qualquer um pode modific los e redistribu los O c digo dos programas do Unitex est sob a licen a LGPL 24 com exce o da biblioteca de manipula o de express es regulares TER de Ville Laurikari 36 que est sob a licen a GPL 23 A licen a LGPL mais perm
157. o e do partic pio passado do verbo huir FST Text 3649 sentences Je n ai pas le temps aujourd hui Restez r pondit Fix a Sentence 1 6426557 Implode Apply Elag Rule FIG 7 8 Ambig idade devido a uma sequ ncia contendo uma palavra desconhecida Observa se igualmente esse fen meno no tratamento de algumas l nguas asi ticas como o thai Quando as palavras n o est o delimitadas n o h outra solu o al m de considerar todas as combina es poss veis o que acarreta a cria o de numerosos caminhos que comportam palavras desconhecidas que se entrecruzam com os caminhos etiquetados A figura 7 9 mostra um exemplo de um aut mato como esse de uma frase em thai 121 4055 sentences AAMAS eunannTasan Bania tiuuuemsentiunmumnala am nny sia Ld a 142 LE Reset Sentence Graph Rebuild FST Text Elag Frame Apply Elag Rule FIG 7 9 Aut mato de uma frase thai poss vel suprimir esses caminhos parasitas Para tanto preciso selecionar a op o Clean Text FST na janela de configura o da constru o do aut mato do texto ver figura 7 10 Essa op o indica ao programa de constru o do aut mato que ele deve limpar cada aut mato de frase Essa limpeza realizada segundo o seguinte princ pio se v rios caminhos est o em concorr ncia no aut mato o programa conserva aqueles que t m o m nimo de palavras desconhecida
158. o ou a conjun o lt chaveiro N Hum gt todas as entradas nominais que t m chaveiro como forma can nica e n o t m o c digo sem ntico Hum lt ADV gt todas as palavras que n o s o adv rbios lt PAL gt todos os caracteres que n o s o letras exceto o separador de frases ver figura 4 2 47 Concordance E My Unitex EnglishiCorpus ivanhoe_snticoncord html Enable links Allow concordance edition ngland which is watered by the river Don there extended in ancient times a large forest cover extended in ancient times a large forest covering the greater part of the beautiful hills and field and the pleasant town of Doncaster 5 The remains of this extensive wood are still to be be seen at the noble seats of Wentworth of Warnclitte Fark and around Kotherham 5 Here hau e seats of Wentworth of Warncliffe Park and around Rotherham Here haunted of yore the fab of Warncliffe Park and around Potherham Here haunted of yore the fabulous Dragon of Wantle d of yore the fabulous Dragon of Wantley 5 here were fought many of the most desperate battle ttles during the Civil Wars of the Roses 5 and here also flourished in ancient times those ba ent times those bands of gallant outlaws whose deeds have been rendered so popular in English been rendered so popular in English song 5 Such being our chiet scene the date of our story lish song 3 Such being our chief scene the date of our story r
159. o ou de uma meta lt ou lt gt o gt indica o fim de um motivo ou de uma meta gt ou gt 71 a serve para impedir a presen a de espa o F a serve para despecializar a maioria dos caracteres especiais TAB 5 1 Codifica o de s mbolos especiais no editor de grafos 5 2 10 Comandos da barra de cones As barras de cones presente esquerda dos grafos contem atalhos para alguns comandos e permite manipular as caixas de um grafo utilizando as ferramentas Essa barra de cones pode ser deslocada clicando sobre a rea rugosa Ela pode ser at dissociada do gr fico e ent o aparecer como uma janela separada ver figura 5 19 Neste caso ao fechar essa janela a barra de cones volta novamente a sua posi o inicial Cada grafo tem sua pr pria barra de cones Tools oos amp Mel n x 0 C gt Bex FIG 5 19 Barra de icones Os dois primeiros icones sao atalhos que permitem salvar e compilar o grafo Os tr s seguintes correspondem as opera es Copiar Recortar e Colar Os dois seguintes correspondem s opera es Redo e Undo que permitem refazer ou desfazer as opera es O ltimo cone em forma de chave um atalho para a configura o da imagem do grafo Os outros seis cones correspondem a comandos de edi o das caixas O primeiro em forma de seta branca corresponde ao modo de edi o padr o das caixas Os outros cin
160. o texto mas a segunda ser compilada rapidamente postpos good grf Unsaved lt PRO PpvlL 3s gt lt PRO PpvlL lp gt lt PRO PpvIL 2p gt lt PRO PpvlL 3p gt lt PRO PpyLE gt lt PRO PpvLLII gt lt PRO PpvPR gt lt PRO Ton gt 7 22 Gram tica ELAG otimizada verificando a concord ncia entre verbo e pronome Utiliza o dos s mbolos lexicais E melhor utilizar os lemas apenas quando absolutamente necess rio Isso particularmente verdadeiro para as palavras gramaticais quando suas subcategorias possuem tanta informa o quanto os pr prios lemas Se utilizar apesar de tudo um lema em um s mbolo recomenda se explicitar da melhor maneira poss vel os tra os sint ticos s Por em nticos e flexionais exemplo com os dicion rios fornecidos pelo franc s prefer vel substituir os s mbolos como lt je PRO 1s gt lt je PRO PpvIL 1s gt e lt je PRO gt pelo s mbolo lt PRO Ppv reconhecer Entretanto L 1s gt De fato todos os s mbolos s o id nticos na medida em que podem apenas a ltima entrada do dicion rio je PRO PpvIL 1ms 1fs como o programa n o pode deduzir automaticamente essa informa o se 137 n o explicita se todos esses tra os o programa considerar em v o as etiquetas n o existentes tais como lt je PRO 3p gt lt je PRO PronQ gt etc 7 4 Manipula o do aut mato do texto 7 4 1 Visualiza o dos a
161. ociando c digos flexionais a cada variante Os caminhos de tal grafo descrevem as modifica es a serem aplicadas s formas can nicas ao passo que as sa das cont m as informa es flexionais que ser o produzidas matrir matrices FIG 6 1 Exemplo de gramatica de flexao 80 Os caminhos podem conter operadores e letras Os operadores possiveis s o representados pelos caracteres L R Ce D As letras s o todos os caracteres que n o s o operadores O nico s mbolo especial autorizado a palavra vazia lt E gt N o poss vel fazer remiss o aos dicion rios em um grafo de flex o Entretanto poss vel recorrer a subgrafos As sa das s o concatenadas para produzir uma cadeia de caracteres Essa cadeia em seguida concatenada linha de dicion rio produzida As sa das com vari veis n o t m sentido em um grafo de flex o O conte do de um grafo de flex o manipulado sem nenhuma varia o de caixa as letras min sculas continuam min sculas idem para as mai sculas Al m disso a liga o de duas caixas estritamente equivalente concatena o de seus conte dos provida da concatena o de suas sa das ver figura 6 2 FIG 6 2 Dois caminhos equivalentes em uma gram tica de flex o Os grafos de flex o devem ser compilados antes de serem utilizados pelo programa de flex o Para mais detalhes ver se o 3 4 6 1 2 Grafos de pr processamento 81 Os grafos de pr processa
162. om other parts of the Corresponding Source The Corresponding Source for a work in source code form is that same work 2 Basic Permissions All rights granted under this License are granted for the term of copyright on the Program and are irrevocable provided the stated conditions are met This License explicitly affirms your unlimited permission to run the unmodified Program The output from running a covered work is covered by this License only if the output given its content constitutes a covered work This License acknowledges your rights of fair use or other equivalent as provided by copyright law You may make run and propagate covered works that you do not convey without conditions so long as your license otherwise remains in force You may convey covered works to others for the sole purpose of having them make modifications exclusively for you or provide you with facilities for running those works provided that you comply with the terms of this License in conveying all material for which you do not control copyright Those thus making or running the covered works for you must do so exclusively on your behalf under your direction and control on terms that prohibit them from making any copies of your copyrighted material outside their relationship with you 178 Conveying under any other circumstances is permitted solely under the conditions stated below Sublicensing is not allowed section 10 makes it unnecessary 3 Protecting
163. ome ao qual ele se refere como o caso para bel 135 7 3 7 Otimizar as gram ticas A compila o das gram ticas efetuadas pelo programa ElagComp consiste em construir um aut mato cuja linguagem o conjunto das seq ncias de entradas lexicais ou interpreta o lexical de uma frase que n o s o rejeitadas pelas gram ticas Essa tarefa complexa e pode levar muito tempo contudo poss vel aceler la sensivelmente observando certos princ pios no momento em que as gram ticas s o escritas Limitar o n mero de ramifica es ent o recomend vel reduzir ao m ximo o n mero de partes ent o de uma gram tica Isso pode reduzir consideravelmente o tempo de compila o das gram ticas Habitualmente uma gram tica que possui muitas partes ent o pode ser reescrita com uma ou duas partes ent o sem perda de legibilidade por exemplo o caso da gram tica da figura 7 21 que imp e um contrato entre um verbo e o pronome subsequente F postpos bad g lt PRO PpviL 1s gt lt PRO PpviLi2s gt E 1 E B J lt PRO PpvLE gt lt PRO PpvLUl gt lt PRO PpvPR gt HELI 7 21 Gram tica ELAG verificando a concord ncia entre verbo e pronome Como se pode ver na figura 7 22 pode se escrever uma gram tica equivalente fatorando todas as partes ent o em uma nica parte As duas gram ticas ter o 136 exatamente muito mais o mesmo efeito sobre o aut mato d
164. on rios Eletr nicos do LADL A op o Analyse unknown words as free compound words utilizada em noruegu s para analisar corretamente as palavras compostas livres formadas por jun o de palavras simples Enfim a op o 14 Construct Text Automaton utilizada para construir o aut mato do texto Por default esta op o desativada pois consome muita mem ria e ocupa muito espa o em disco se o texto for muito grande A constru o do aut mato do texto ser abordada no cap tulo 7 NOTA Se clicar em Cancel but tokenize text o programa efetuar mesmo assim a normaliza o dos separadores e a segmenta o em unidades lexicais clicar em Cancel and close text para anular completamente a opera o Es x o Unitex 1 2 current language is English Fig 2 6 Menu Text 2 5 1 Normaliza o de separadores Os separadores usuais s o o espa o a tabula o e o retorno linha Enter Pode se encontrar v rios separadores consecutivos nos textos mas como isso n o tem nenhuma utilidade para uma an lise ling istica normaliza se os separadores de acordo com as seguintes regras toda sequ ncia de separadores contendo ao menos um Enter ser substitu da por um nico Enter toda outra sequ ncia de separadores ser substitu da por um espa o A distin o entre espa o e Enter conservada nesta etapa pois a presen a do Enter pode influenciar a segment
165. onde transdu o produzida pela seq ncia reconhecida naquela em que foram inseridas as transdu es Em modo MERGE ou REPLACE essa cadeia que exibida na concord ncia Se as transdu es foram ignoradas o conte do da ocorr ncia extra do do arquivo texto 10 6 2 Arquivo concord txt 161 O arquivo concord txt um arquivo texto que representa uma concord ncia Cada ocorr ncia codificada por uma linha composta de 3 cadeias de caracteres separados pelo caractere de tabula o e que representa o contexto esquerdo a ocorr ncia eventualmente modificada por transdu es e o contexto direito 10 6 3 Arquivo Concord html O arquivo concord html um arquivo html que representa uma concordancia Esse arquivo codificado em UTF 8 O titulo da pagina o numero de ocorr ncias que ela descreve As linhas das concordancias sao codificadas por linhas em que as ocorr ncias sao consideradas como links de hipertexto A refer ncia associada a cada um desses links da forma lt a href X Y Z gt Xe Y representam a posi o de in cio e fim da ocorr ncia em caracteres no arquivo nom du texte snt Z representa o numero da frase na qual aparece cada ocorr ncia Todos os espa os sao codificados como espa os indivisiveis amp nbsp em HTML o que permite conservar o alinhamento das ocorr ncias mesmo se uma delas encontrando se no come o do arquivo tenha um contexto esquerdo completado com espa os Nota
166. orm of the Linguistic Resource with the complete machine readable work that uses the Linguistic Resource as object code and or source code so that the user can modify the Linguistic Resource and then encrypt it to produce a modified package containing the modified Linguistic Resource b Use a suitable mechanism for combining with the Linguistic Resource A suitable mechanism is one that will operate properly with a modified version of the Linguistic Resource if the user installs one as long as the modified version is interface compatible with the version that the package was made with c Accompany the package with a written offer valid for at least three years to give the same user the materials specified in Subsection 4a above for a charge no more than the cost of performing this distribution d If distribution of the package is made by offering access to copy from a designated place offer equivalent access to copy the above specified materials from the same place e Verify that the user has already received a copy of these materials or that you have already sent this user a copy If the package includes an encrypted form of the Linguistic Resource the required form of the work that uses the Linguistic Resource must include any data and utility programs needed for reproducing the package from it However as a special exception the materials to be distributed need not include anything that is normally distributed in either s
167. os sub grafos x representa a cor em formato RGB SCOLOR x define a cor utilizada para tra ar o conte do de caixas de coment rios ou seja as caixas que n o est o ligadas a nenhuma outra x representa a cor em formato RGB CCOLOR x define a cor utilizada para tra ar as caixas selecionadas x representa a cor em formato RGB DBOXES x esta linha ignorada pelo Unitex Ela conservada pela preocupa o com a compatibilidade com os grafos Intex DFRAME x tra a ou n o um quadro em torno do grafo segundo o qual x equivale a y oun DDATE x exibe ou n o o dado embaixo do grafo segundo o qual x equivale a y ou n DFILE x exibe ou n o o nome do arquivo embaixo do grafo segundo o qual x equivale a y ou n DDIR x exibe ou n o o caminho completo de acesso ao arquivo embaixo do grafo segundo o qual x equivale a y ou n Essa op o s levada em conta se o par metro DFILE tem o valor de y DRIG x tra a o grafo da direita para a esquerda ou da esquerda para a direita segundo o qual x equivale a y ou n DRST x esta linha ignorada pelo Unitex Ela conservada pela preocupa o com a compatibilidade com os grafos Intex FITS x esta linha ignorada pelo Unitex Ela conservada pela preocupa o com a compatibilidade com os grafos Intex PORIENT x esta linha ignorada pelo Unitex Ela conservada pela preocupa o com a compatibilidade com os grafos
168. otherwise to propagate or modify it is void and will automatically terminate your rights under this License including any patent licenses granted under the third paragraph of section 11 However if you cease all violation of this License then your license from a particular copyright holder is reinstated a provisionally unless and until the copyright holder explicitly and finally terminates your license and b permanently if the copyright holder fails to notify you of the violation by some reasonable means prior to 60 days after the cessation Moreover your license from a particular copyright holder is reinstated permanently if the copyright holder notifies you of the violation by some reasonable means this is the first time you have received notice of violation of this License for any work from that copyright holder and you cure the violation prior to 30 days after your receipt of the notice 182 Termination of your rights under this section does not terminate the licenses of parties who have received copies or rights from you under this License If your rights have been terminated and not permanently reinstated you do not qualify to receive new licenses for the same material under section 10 9 Acceptance Not Required for Having Copies You are not required to accept this License in order to receive or run a copy of the Program Ancillary propagation of a covered work occurring solely as a consequence of using peer to peer tr
169. ou distribute the same sections as part of a whole which is a work based on the Linguistic Resource the distribution of the whole must be on the terms of this License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distribution of derivative or collective works based on the Linguistic Resource In addition mere aggregation of another work not based on the Linguistic Resource with the Linguistic Resource or with a work based on the Linguistic Resource on a volume of a storage or distribution medium does not bring the other work under the scope of this License 3 A program that contains no derivative of any portion of the Linguistic Resource but is designed to work with the Linguistic Resource or an encrypted form of the Linguistic Resource by reading it or being compiled or linked with it is called a work that uses the Linguistic Resource Such a work in isolation is not a derivative work of the Linguistic Resource and therefore falls outside the scope of this License However combining a work that uses the Linguistic Resource with the Linguistic Resource or an encrypted form of the Linguistic Resource creates a package that is a derivative of the Linguistic Resource because it con
170. ource or binary form with the major components compiler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable It may happen that this requirement contradicts the license restrictions of proprietary libraries that do not normally accompany the operating system Such a contradiction 193 means you cannot use both them and the Linguistic Resource together in a package that you distribute 5 You may not copy modify sublicense link with or distribute the Linguistic Resource except as expressly provided under this License Any attempt otherwise to copy modify sublicense link with or distribute the Linguistic Resource is void and will automatically terminate your rights under this License However parties who have received copies or rights from you under this License will not have their licenses terminated so long as such parties remain in full compliance 6 You are not required to accept this License since you have not signed it However nothing else grants you permission to modify or distribute the Linguistic Resource or its derivative works These actions are prohibited by law if you do not accept this License Therefore by modifying or distributing the Linguistic Resource or any work based on the Linguistic Resource you indicate your acceptance of this License to do so and all its terms and conditions for copying distributing or modifying the Linguisti
171. pa o voc deve utilizar a sequ ncia As letras min sculas e mai sculas s o definidas por um arquivo alfabeto ver cap tulo 10 Para mais detalhes sobre os grafos ver cap tulo 5 Para mais detalhes sobre a segmenta o de um texto em frases ver 16 A gram tica utilizada chama se Sentence fst2 e se encontra no seguinte diret rio r pertoire personnel langue Graphs Preprocessing Sentence A aplica o dessa gram tica a um texto se d gra as ao programa Fst2Txt em modo MERGE Isso significa que as sa das produzidas pela gram tica com a presen a do s mbolo S s o inseridas nos textos Esse programa tem como entrada um arquivo snt e o modifica 18 2 5 3 Normaliza o de formas n o amb guas Certas formas presentes nos textos podem ser normalizadas por exemplo a seq ncia on equivalente forma on Cada usu rio pode portanto realizar substitui es em fun o de suas necessidades No entanto preciso estar atento para que as formas normalizadas n o sejam amb guas ou para que o desaparecimento da ambiguidade ocorra sem consegii ncias para a aplica o planejada Se optar por substituir a forma audit por le dit a frase La cour a proc d un audit des comptes de cette soci t ser substitu da pela frase incorreta La cour a proc d un le dit des comptes de cette soci t E preciso pois ser bastante prudente quando se manipula a gram tica de normaliza
172. permite selecionar o modo de reconhecimento D My Unitex English Graphs TitleName grf 105 Fig 6 25 Defini o de uma vari vel em um subgrafo Concordance D My Unitex EnglishiCorpusiivanhoe_snticoncordhtml n e Enable links Allow concordance edition lders and was silent 5 Prince John TITLE Prince resumed his re he hermit his name is Sir Anthony of Scrabelstone TITLE Sir again passed round To Sir Athelstane of Coningsburah TITLE Sir r shall call thee Saxon Sir Baron TITLE Sir replied Cedric o to say lady answered Sir Brian de Bois TITLE Sir Guilbert ory Sir Palmer said Sir Brian de Bois TITLE Sir Guilbert sc so unsafe the escort of Sir Brian de Bois TITLE Sir Guilbert is er to be a handmaiden to Sir Brian de Bois TITLE Sir Guilbert a ghts of the Temple and Sir Brian de BoisGuilbert TITLE Sir wel have offended replied Sir Brian TITLE Sir I crave your pard Fig 6 26 Concord ncia obtida pela aplica o do grafo Tit leName 6 29 4 4 _1 _ ADJ ADJ NOUN Noun SNOUNS SADJS Fig 6 27 Invers o de palavras devido utiliza o de duas vari veis 106 stopping Which glided smoo y round when his return from his captivity long had become an event rathe heir gnarled arms over a carpet thick of the most delicious green ight as it were to the chains feudal with which they were loade arance of that wild and character rustic
173. pio Futuro TAB 3 3 C digos flexionais usuais Os c digos apresentados n o s o de forma alguma limitativos Cada usu rio pode introduzir seus pr prios c digos e criar seus pr prios dicion rios Por exemplo com um objetivo pedag gico podem ser introduzidas em dicion rios de l ngua inglesa marcas que indicam os falsos cognatos em franc s bless V faux ami b nir cask N faux ami tonneau journey N faux ami voyage Tamb m poss vel utilizar dicion rios para armazenar informa es particulares Assim a forma flexionada de uma entrada pode ser utilizada para descrever uma sigla e a forma can nica para fornecer a forma completa ADN Acide D soxyriboNucl ique SIGLA LADL Laboratoire d Automatique Documentaire et Linguistique SIGLA SAV Service Apr s Vente SIGLA 3 2 Verifica o do formato de um dicion rio Quando os dicion rios s o de tamanho consider vel torna se cansativo verific los manualmente O Unitex cont m um programa CheckDic que verifica automaticamente os dicion rios DELAF e DELAS Corresponde ao Futuro do Pret rito do Portugu s Corresponde ao Pret rito Perfeito do Indicativo do Portugu s 30 Esse programa realiza uma verifica o da sintaxe das entradas Para cada entrada mal formada o programa exibe o n mero de linha o conte do dessa linha e a natureza do erro Os resultados da an lise s o salvos em um arquivo chamado CHECK DIC TXT
174. plicado os dicion rios os aut matos de frase obtidos ser o constitu dos apenas de um nico caminho contendo somente palavras desconhecidas 116 N NPN z1 p PREP FIG 7 2 Concorr ncia entre uma palavra composta e uma combina o de palavras simples 7 2 1 Regras de constru o do aut mato do texto Os aut matos de frase s o constru dos a partir dos dicion rios do texto Logo o grau de ambig idade obtido est diretamente ligado acuidade de descri o dos dicion rios utilizados Sobre o aut mato de frase da figura 7 3 pode se ver que a palavra which foi codificada duas vezes como determinante em duas subcategorias da categoria DET Essa acuidade de descri o n o ser de nenhuma utilidade se somente interessar a categoria gramatical dessa palavra necess rio portanto adaptar a acuidade dos dicion rios utiliza o buscada DET DetQ s p p P3p PRO RelQ s p FIG 7 3 Dupla entrada para which na qualidade de determinante 117 Para cada unidade lexical da frase o Unitex busca todas as suas interpreta es poss veis no dicion rio de palavras simples do texto Buscam se em seguida todas as sequ ncias de unidades lexicais que t m uma interpreta o no dicion rio de palavras compostas do texto Todas as combina es dessas interpreta es formam o aut mato da frase NOTA quando o texto apresenta etiquetas lexicais i e lhoje ADV essas etiquetas s o reproduzidas de for
175. put fonte utilizada para exibir as sa das das caixas As configura es de cor s o Background cor de fundo Foreground cor utilizada para o texto e para o desenho das caixas Auxiliary Nodes cor das caixas remetendo aos subgrafos Slected Nodes cor utilizada para desenhar as caixas quando elas estiverem selecionadas Comment Nodes cor utilizada para desenhar as caixas que n o est o associadas a nenhuma outra 76 As outras configura es s o Date exibi o da data atual no canto inferior esquerdo do grafo File Name exibi o do nome do grafo no canto inferior esquerdo do grafo Pathame exibi o do nome do grafo com seu caminho completo no canto inferior esquerdo do grafo Esta op o s tem efeito se a op o File Name estiver selecionada Frame desenha um quadro em torno do grafo Right ou Left inverte o sentido de leitura do grafo ver exemplo da figura 5 26 Pode se reconstituir as configura es por defini o clicando sobre o bot o Default Se clicar sobre o bot o OK s o grafo atual ser modificado Para modificar as prefer ncias por defini o de uma l ngua clicar sobre Preferences no menu Info e escolher a aba Graph Presentation A janela de configura o das prefer ncias tem uma op o suplementar concernente ao antialiasing ver figura 5 27 Essa op o permite ativar o antialiasing por defini o para todos os grafos da l ngua
176. quer Het ble Max a arque toute la journ e tre arriver TE Max estSarriv S lavoir atermoyer e det jo Max atermoie avoir badauder badaud Max badaude HAITI coi lioo SSI FIG 8 4 Tabela de l xico gram tica 31H 144 8 24 Gera o autom tica de grafos Para poder gerar grafos a partir de um grafo parametrizado e de uma tabela preciso primeiramente abrir a tabela clicando em Open no menu Lexicon Grammar ver figura 8 5 A tabela deve ter sido previamente convertida em caracteres Unicode A tabela selecionada ent o mostrada em uma janela ver figura 8 6 Para gerar grafos automaticamente a partir de grafos parametrizados clicar sobre Compile to GRF no menu Lexicon Grammar Aparecer ent o a janela da figura 8 7 Na op o Reference Graph in GRF format indicar o nome do grafo parametrizado a ser utilizado Na op o Resulting GRF Grammar indicar o nome do grafo principal a ser gerado Esse grafo principal um grafo referente a todos os grafos que ter o sido gerados Ao lan ar uma pesquisa em um texto com esse grafo todos os grafos gerados ser o assim aplicados simultaneamente Edit File Edition Windows Info Compile to GRF Close FIG 8 5 Menu L xico Gram tica E EWable31H xt acquie adouber agioter agoniser archaiser arquer arriver fish ia badaud
177. r o distintas se necess rio Por exemplo caso seja definido o conjunto de letra e a palavra bahi ser considerada menor que estuaire ela pr pria menor que t Como as letras que precedem e e permitiam classificar as palavras n o se buscou comparar as letras e e pois elas pertencem ao mesmo grupo Em contrapartida se compararmos as palavras chant s e chantes chantes ser considerada a menor necess rio pois comparar as letras e e para distinguir essas palavras Como a letra e aparece primeiro no conjunto e ela considerada inferior a A palavra chantes ser portanto considerada menor que a palavra chant s O arquivo de alfabeto de ordena o permite definir equival ncias de caracteres Pode se assim ignorar as diferen as de quebra e de acento Por exemplo caso se queira ordenar as letras b c e d sem se levar em conta a quebra nem a cedilha pode se escrever as linhas seguintes Bb Cc cq DAT 4 Esse arquivo facultativo Quando nenhum alfabeto de ordena o especificado no programa SortTxt este efetua uma ordena o na ordem em que aparecem os caracteres no padr o Unicode 10 3 Grafos Esta se o apresenta os dois formatos de grafos o formato gr fico grf e o formato compilado fst2 10 3 1 Formato grf Um arquivo grf um arquivo texto que cont m informa es de apresenta o al m de informa es que representam os conte dos de caixas e as
178. ra se o apresentar o formalismo sobre o qual essas gram ticas se fundamentam Ser tratado em seguida de como se construir e se apresentar gram ticas com o Unitex 5 1 Formalismo das gram ticas locais 5 1 1 Gram ticas alg bricas As gram ticas Unitex s o variantes das gram ticas alg bricas tamb m conhecidas como gram ticas livres de contexto Uma gram tica alg brica constitu da de regras de reescrita Eis uma gram tica que reconhece qualquer n mero de caracteres a 1 2 1 1 S aS Sa Os s mbolos apresentados esquerda das regras s o chamados de s mbolos n o terminais pois podem ser reescritos Os s mbolos que n o podem ser reescritos por regras s o chamados de s mbolos terminais Os membros direita das regras s o sequ ncias de s mbolos n o terminais e terminais O s mbolo psilon notado designa a palavra vazia Na gram tica acima S um s mbolo n o terminal e a um terminal S pode ser reescrito tanto em um a seguido de um S quanto em palavra vazia A opera o de reescrita por meio da aplica o de uma regra chamada de deriva o Diz se que uma gram tica reconhece uma palavra caso exista uma sequ ncia de deriva es que produz essa palavra O n o terminal que serve de ponto de partida para a primeira deriva o chamado de axioma A gram tica mencionada acima reconhece assim a palavra aa pois se pode obter essa palavra a partir do axioma S efetuando as seguintes de
179. rabalho pessoal que voc poder modificar posteriormente em Info gt Preferences gt Directories Para criar um diret rio clicar no icone que representa uma pasta ver figura 1 3 No Linux e MacOS o programa criar automaticamente um diret rio unitex na sua pasta SHOME Este diret rio lhe permitir armazenar seus dados pessoais Para cada l ngua que utilizar o programa copiar a arboresc ncia da l ngua em seu diret rio pessoal com exce o dos dicion rios Ser poss vel assim modificar vontade sua c pia de dados sem risco de danificar os dados do sistema Wekcome x Welcome paumier To use Unitex you must choose a private directoryto store your data that you can change later if you want Click on OK to choose your directory Fig 1 1 Primeira utiliza o no Windows Welcome paumier Your private Unitex directory where you can store your own data is fhome thesards paumier unitex Fig 1 2 Primeira utiliza o no Linux 1 6 Adi o de novas l nguas H duas maneiras de adicionar as l nguas Se desejar adicionar uma nova l ngua acess vel a todos os usu rios necess rio copiar o diret rio correspondente a essa l ngua no diret rio Unitex do sistema que necessita ter os direitos de acesso a este diret rio talvez seja preciso solicitar ao administrador do sistema para faz lo Entretanto se a l ngua interessar a apenas um usu rio ele pode copiar o diret rio
180. rary and its use are covered by this License b Accompany the Combined Work with a copy of the GNU GPL and this license document c For a Combined Work that displays copyright notices during execution include the copyright notice for the Library among these notices as well as a reference directing the user to the copies of the GNU GPL and this license document d Do one of the following 0 Convey the Minimal Corresponding Source under the terms of this License and the Corresponding Application Code in a form suitable for and under terms that permit the user to recombine or relink the Application with a modified version of the Linked Version to produce a modified Combined Work in the manner specified by section 6 of the GNU GPL for conveying Corresponding Source 1 Use a suitable shared library mechanism for linking with the Library A suitable mechanism is one that a uses at run time a copy of the Library already present on the user s computer system and b will operate properly with a modified version of the Library that is interface compatible with the Linked Version e Provide Installation Information but only if you would otherwise be required to provide such information under section 6 of the GNU GPL and only to the extent that such information is necessary to install and execute a modified version of the Combined Work produced by recombining or relinking the Application with a modified version of the Linked Version If you us
181. rdade a aplica o de um transdutor em modo REPLACE s redige no texto as sequ ncias produzidas por sa das Para inverter dois grupos de palavras preciso apenas estoc los nas vari veis e produzir uma sa da com essas vari veis na ordem desejada Dessa forma o transdutor da figura 6 27 aplicado em modo REPLACE ao texto Ivanhoe d a concord ncia da figura 6 28 Se o in cio ou o fim de uma vari vel est mal definido fim de uma vari vel antes de seu in cio falta do in cio ou do fim de uma vari vel ela ser ignorada durante as sa das N o h nenhuma limita o do n mero de vari veis utiliz veis As vari veis podem estar imbricadas e at mesmo se cruzar como mostra a figura 6 7 Aplica o dos grafos aos textos Esta se o trata unicamente dos grafos sint ticos 6 7 1 Configura o da busca Para aplicar um grafo a um texto abrir o texto e em seguida clicar em Locate Pattern no menu Text ou dar o comando lt Ctrl L gt Pode se ent o configurar sua busca de acordo com a janela da figura 6 30 104 Na op o intitulada Locate pattern in the form of escolha Graph e selecione seu grafo clicando no bot o Set Pode se escolher um grafo no formato grf Unicode Graphs ou um grafo compilado no formato fst2 Unicode Compiled Graphs Se seu grafo estiver no formato grf o Unitex o compilar automaticamente antes de lan ar a pesquisa A op o Index
182. reconhece ingl s belga franco ingl s e franco belga 4 6 Asterisco de Kleene O asterisco de Kleene representado pelo caractere permite reconhecer zero uma ou mais ocorr ncias de uma express o O asterisco deve ser colocado direita do elemento em quest o A express o Faz muito frio reconhece faz frio faz muito frio faz muito muito frio etc O asterisco priorit rio sobre os outros operadores E necess rio utilizar os par nteses para aplicar o asterisco a uma express o complexa A express o 0 0 1 2 3 4 5 6 7 8 9 reconhece um zero seguida de uma v rgula e de uma sequ ncia eventualmente vazia de algarismos ATEN O proibido pesquisar a palavra vazia com uma express o regular Na tentativa de se pesquisar 0 1 2 3 4 5 6 7 8 9 o programa sinalizar um erro como mostra a figura 4 3 Expression converted Compiling graph regexp Recursion detection started Resolving lt E gt conditions Recursion detection completed ERROR the main graph regexp recognizes lt E gt 49 FIG 43 Erro quando da pesquisa de uma express o que reconhece a palavra vazia 4 7 Filtros Morfol gicos E poss vel aplicar filtros morfol gicos s unidades lexicais procuradas Para isso necess rio inserir um filtro grafado entre aspas angulares duplas imediatamente ap s a unidade lexical em quest o chave de busca lt lt chave de busca morfol gica gt gt Os filtros morfo
183. regardless of how the transaction is characterized the Corresponding Source conveyed under this section must be accompanied by the Installation Information But this requirement does not apply if neither you nor any third party retains the ability to install modified object code on the User Product for example the work has been installed in ROM The requirement to provide Installation Information does not include a requirement to continue to provide support service warranty or updates for a work that has been modified or installed by the recipient or for the User Product in which it has been modified or installed Access to a network may be denied when the modification itself materially and adversely affects the operation of the network or violates the rules and protocols for communication across the network Corresponding Source conveyed and Installation Information provided in accord with this section must be in a format that is publicly documented and with an implementation available to the public in source code form and must require no special password or key for unpacking reading or copying 7 Additional Terms Additional permissions are terms that supplement the terms of this License by making exceptions from one or more of its conditions Additional permissions that are applicable to the entire Program shall be treated as though they were included in this License to the extent that they are valid under applicable law If
184. rias aos dicion rios eletr nicos Em particular ser poss vel efetuar uma busca especificando se ela deve estar na forma flexionada o lema nos c digos gramaticais e sem nticos e ou nos c digos flexionais Assim se quiser procurar todos os verbos que possuem o tra o sem ntico t marcando a transitividade basta procurar t marcando Grammatical code Voc obter assim as entradas desejadas sem ambig idades com todas as outras ocorr ncias da letra t 13 _ Dictionary Search Find what tt Find Hext Replace Replace Next Occurrences O Replace Options Count occurrences gt Search from begining v Grammatical code Canonical form Replacea O Son tn 1 Inflected form C Hexional code dose 8 Search down Fig 2 5 Busca do tra o sem ntico t em um dicion rio eletr nico 2 4 Abertura de um texto O Unitex prop e abrir dois tipos de arquivos texto Os arquivos com a extens o snt s o os arquivos textos pr processados pelo Unitex que est o prontos para serem manuseados pelas diferentes fun es do sistema Os arquivos com a extens o txt s o os arquivos de textos brutos Para utilizar um texto necess rio come ar abrindo o arquivo txt correspondente clicando em Open no menu Text Escolha o tipo de arquivo Raw Unicode Texts e selecione o seu texto Os arquivos texto que ultrapassam 2 megabytes n o s o exibidos a
185. riva es Deriva o 1 reescrita do axioma em aS S gt as 57 Deriva o 2 reescrita do S do membro direita em as S aS gt aas Deriva o 3 reescrita do S em S gt aS gt aas gt aa Denomina se de linguagem de uma gram tica o conjunto de palavras reconhecidas por ela As linguagens reconhecidas pelas gram ticas alg bricas s o chamadas linguagens alg bricas 5 1 2 Gram ticas alg bricas estendidas As gram ticas alg bricas estendidas s o gram ticas alg bricas nas quais os contextos direitos das regras n o s o mais sequ ncias de s mbolos mas express es racionais Assim a gram tica que identifica uma sequ ncia qualquer de a pode se reescrever em uma gram tica estendida de uma s regra 1 2 1 2 S gt a Essas gram ticas tamb m chamadas de redes de transi o recursiva RTN em ingl s ou diagramas de sintaxe prestam se a uma representa o gr fica convivial Com efeito o membro direita de uma regra pode ser representado por um grafo cujo nome o membro esquerda da regra Entretanto as gram ticas Unitex n o s o exatamente gram ticas alg bricas estendidas pois elas integram a no o de transdu o Essa no o tomada por empr stimo dos aut matos finitos significa que uma gram tica pode produzir sa das Por motivo de clareza ser o adotados apesar de tudo os termos gram tica ou grafo Quando uma gram tica produzir sa das o termo transdutor ser utiliza
186. rsion a under this License provided that you make a good faith effort to ensure that in the event an Application does not supply the function or data the facility still operates and performs whatever part of its purpose remains meaningful or 188 b under the GNU GPL with none of the additional permissions of this License applicable to that copy 3 Object Code Incorporating Material from Library Header Files The object code form of an Application may incorporate material from a header file that is part of the Library You may convey such object code under terms of your choice provided that if the incorporated material is not limited to numerical parameters data structure layouts and accessors or small macros inline functions and templates ten or fewer lines in length you do both of the following a Give prominent notice with each copy of the object code that the Library is used in it and that the Library and its use are covered by this License b Accompany the object code with a copy of the GNU GPL and this license document 4 Combined Works You may convey a Combined Work under terms of your choice that taken together effectively do not restrict modification of the portions of the Library contained in the Combined Work and reverse engineering for debugging such modifications if you also do each of the following a Give prominent notice with each copy of the Combined Work that the Library is used in it and that the Lib
187. s Por exemplo a sequ ncia aujourd hui enquanto adv rbio composto suplanta a decomposi o em aujourd seguido de um ap strofo e de hui pois aujourd uma palavra desconhecida o que faz uma forma n o etiquetada contra zero no caso do adv rbio composto A figura 7 11 mostra o aut mato da figura 7 9 ap s limpeza 122 Construct the Text FST x Normalization He NOrTMANZANON qr amna YUallapie oniy Tor Ponuguese Portugal v Apply the Normalization grammar Norm4st2 v Clean Text FST phet iuctures available for Moreen 7 Normalize according to Elag tagset def Use Following Dictionaries previously constructed The program will construct the text FST according to the DLF and DLC files previously constructed for the current text Cancel Construct FST FIG 7 10 Configura o da constru o do aut mato do texto 7 3 Levantamento de ambig idades lexicais com ELAG O programa ELAG permite aplicar gram ticas de levantamento de ambig idades sobre o aut mato do texto um mecanismo poderoso que permite a cada um escrever suas pr prias regras de modo independente das regras j existentes Esta se o apresenta rapidamente o formalismo das gram ticas utilizadas por ELAG assim como o funcionamento do programa Maiores detalhes o leitor poder encontrar em 3 e 35 7 3 1 Gram ticas de levantamento de ambig idades As gram ticas manipuladas por ELAG t m uma sintaxe particular Elas comportam duas
188. s txt Os arquivos txt devem ser arquivos texto codificados em Unicode Little Endian Esses arquivos n o devem conter chave aberta ou fechada a menos que sejam utilizadas para tra ar um divisor de frase S ou uma unidade lexical v lida aujourd hui ADV As quebras de linha devem ser codificados pelos dois caracteres especiais de valores hexadecimais 000D e 000A 10 4 2 Arquivos snt Os arquivos snt s o os arquivos texto que foram pr processados pelo Unitex Esses arquivos n o devem conter tabula o espa os ou quebras de linha consecutivos As 158 nicas chaves autorizadas nos arquivos snt s o as do divisor de frases S e as das unidades lexicais aujourd hui ADV 10 4 3 Arquivo text cod O arquivo text cod um arquivo bin rio que cont m uma segii ncia de inteiros que representam o texto Cada inteiro reenvia ao token de ndice no arquivo tokens txt Esses inteiros s o codificados sobre 4 octetos OBS os tokens s o numerados a partir de 0 10 4 4 Arquivo tokens txt O arquivo tokens txt um arquivo texto que cont m a lista de todas as unidades lexicais do texto A primeira linha desse arquivo indica o n mero de unidades contidas no arquivo As unidades s o divididas por quebras de linha Quando uma seqii ncia encontrada em um texto com variantes de quebra cada variante codificada por uma unidade distinta OBS as quebras de linha eventualmente presentes no arqu
189. s chamadas padr es lexicais As quatro formas poss veis s o lt ler gt reconhece todas as entradas que t m ler como forma can nica lt ler V gt reconhece todas as entradas que t m ler como forma can nica e o c digo gramatical V lt V gt gt reconhece todas as entradas que t m o c digo gramatical V leremos ler V ou lt leremos ler V gt reconhece todas as entradas que t m leremos como forma flexionada ler como forma can nica e o c digo gramatical V Esse tipo de padr o s interessante quando se trabalha sobre o aut mato do texto em que est o explicitadas as ambig idades das palavras 44 Quando se efetua uma busca no texto esse padr o reconhece o mesmo que a simples unidade lexical leremos 4 3 3 Restri es gramaticais e sem nticas Os padr es lexicais dos exemplos acima s o simples poss vel exprimir chaves de consulta mais complexas indicando se mais c digos gramaticais ou sem nticos separados pelo caractere Uma entrada de dicion rio s ser reconhecida ent o se possuir todos os c digos presentes no padr o O padr o lt N z1 gt reconhece assim as entradas bordados bordado N z1 mp capitais europ ias capital europ ia N NA Conc HumColl z1 fp mas n o Descartes Ren Descartes N Hum NProprio ms Habituado A zl ms poss vel excluir c digos fazendo com que eles sejam precedidos pelo caractere ao inv s do Para ser reconhecida
190. s com n meros utilizados no DELAS por c digos sem n meros prontos para serem utilizados Exemplo V17 e N4 Hum ser o substitu dos respectivamente por V e N Hum A figura 3 6 apresenta um exemplo de gram tica de flex o Os diret rios descrevem os sufixos a acrescentar ou suprimir para obter a forma flexionada a partir da forma can nica e as sa das texto em negrito sob as caixas oferecem os c digos flexionais a acrescentar entrada do dicion rio Em nosso exemplo dois caminhos s o poss veis O primeiro n o modifica a forma can nica e acrescenta o c digo flexional s O segundo suprime uma letra gra as ao operador L em seguida acrescenta o sufixo ces e acrescenta o c digo flexional p 4 operadores s o poss veis E inflection Directory where inflectional FST2 are stored E Wy UnitetEnglishinfection Set w Add before inflectional codes if necessary 7 Remove class numbers Cancel Inflect Dictionary FIG 3 5 Configura o da flex o autom tica 33 matrix matnces FIG 3 6 Gram tica de flex o N4 L left retira uma letra da entrada R right reestabelece uma letra da entrada Em franc s muitos verbos do primeiro grupo se conjugam no presente na terceira pessoa do singular retirando se o r do infinitivo e trocando se a 4 letra de tr s pra frente por peler gt p le acheter gt ach te g rer gt g re etc Mais do que descrever um sufixo de
191. s de um texto em ingl s ordenadas por freq ncia enquanto que o dicion rio de palavras compostas cont m a nica entrada pomme de terre Ntzliis A seq ncia Igor n o sendo nem uma palavra simples do franc s nem uma parte de uma palavra composta foi considerada uma palavra desconhecida A aplica o de dicion rios realizada com o programa Dico Os tr s arquivos produzidos dl f para as palavras simples dlc para as palavras compostas e err para as palavras desconhecidas s o colocados no diret rio do texto Chamam se dicion rios do texto os arquivos dlf e dic Tendo sido realizada a aplica o dos dicion rios o Unitex exibe em uma janela em ordem alfab tica as palavras simples compostas e desconhecidas encontradas A figura 2 12 mostra os resultados para um texto franc s 22 g Ward Lists in Esay Unitex French Carpus La peau de chagrin_snt PT E avoir Vtzi P3s a H PRtEyd ns nn N 25ims mp mbsissent mbonisser V z1 P3Jg siga rent abaisser v si Don compte ADV4 PAC EL ces mota ADVAPDETO EL chaque instant ADV PDE a coups de PREP PCDN e1 deraur de PREP PCDN S1 d faut de s d faut PREP amp d faut ADV Ldeconga a deux ADV PC 21 distance ADV PC 21 fond ADV PC 21 a force de force PREP PrES FIG 2 12 Resultados da aplica o dos dicion rios em um texto franc s poss vel tamb m aplicar dicion rios fora do pr processamento do texto
192. sentence Sentence b Reset Sentence Graph Rebuild FST Text close elag frame Explose Implose porte Implose Porter V S3s Replace porte porter i II 4 72 KR Noms Fig 7 18 Janela do aut mato do texto separado em duas partes Para modificar o nome do conjunto clique sobre o bot o browse Na caixa de di logo que aparece nesse caso escolha o nome do arquivo 1st que voc quiser dar ao seu conjunto Para adicionar uma gram tica ao conjunto selecione a no explorador de arquivos do quadro esquerdo e clique sobre o bot o gt gt Para retirar uma gram tica do conjunto selecione a no quadro direito e clique sobre o bot o lt lt Uma vez selecionadas todas as suas gram ticas compile as clicando sobre o bot o compile Isso criar um arquivo rul contendo o nome indicado na parte inferior direita o nome do arquivo obtido substituindo a extens o 1st pela extens o rul Agora voc pode aplicar seu conjunto de gram ticas Como foi explicado mais acima clique sobre o bot o elag na janela do aut mato do texto Quando a caixa de di logo lhe pedir o nome do arquivo rul a ser utilizado clique sobre o bot o browse e selecione o seu conjunto O aut mato resultante id ntico aquele que teria sido obtido aplicando sucessivamente cada uma das gram ticas 7 3 5 Janela de processing do ELAG 129 No momento d
193. so flourished in ancient times those bands of gallant outlaws whose deeds have been rendered so popular in English sony S Such being our chief scene the date of our story ref2rs to a period towards the end of the reign of Richard I when his return from his long captivity had become an event rather wished than hoped for by his despairing subjects who 112 Fig 6 32 Sele o de uma ocorr ncia no texto 6 7 5 Compara o de concord ncias A op o Show differences with previous concordance permite comparar a concord ncia que acabou de ser calculada com a concord ncia precedente se ela existir Para isso o programa ConcorDiff constr i as duas concord ncias na ordem do texto e depois compara suas linhas O resultado uma p gina HTML que mostra as ocorr ncias em duas colunas Uma linha em azul indica que uma mesma ocorr ncia aparece nas duas concord ncias Uma linha em vermelho indica que uma ocorr ncia aparece de forma mais longa em uma concord ncia do que na outra Por fim uma linha em verde indica que uma ocorr ncia pertence somente uma concord ncia A figura 6 33 mostra um exemplo de compara o de concord ncias NOTA contrariamente a uma concord ncia normal n o se pode clicar nas ocorr ncias em uma compara o de concord ncias 113 sem YOUS1J 91048 UI S SNNU0 owes SUT ut BYIEM ISOM ay UNOUS PEU 3981 UNION SG ayy Jo quaaa y Aq A3TTT1qou UEMION SUA Jo spuey am u
194. spectivamente da rea para estocar preciso criar duas caixas contendo uma var1 e outra var1 Essas caixas n o devem conter nada al m que o nome da vari vel precedido por e seguido por um par ntese Associar em seguida essas caixas rea da gram tica desejada No grafo da figura 5 15 pode se identificar uma sequ ncia que se inicia por um n mero que se estoca em uma vari vel nomeada varl seguido de dollar ou dollars Os nomes de vari veis podem conter letras latinas n o acentuadas min sculas ou mai sculas assim como d gitos e caractere _ underline O Unitex diferencia as letras min sculas das mai sculas 69 Quando uma vari vel for assim definida pode se utiliz la nas sa das delimitando seu nome com o caractere Se desejar escrever em sa da o caractere preciso repeti lo como no caso na figura 5 15 A gram tica da figura 5 16 identifica uma data formada por um m s e por um ano e produz em sa da a mesma data mas na ordem ano m s EO year month ar month year ye November December FIG 5 16 Invers o do m s e do ano em uma data 5 2 8 C pia de listas Pode ser pr tico copiar e colar uma lista de palavras ou de express es a partir de um editor de texto para uma caixa em um grafo Para evitar a c pia manual de cada item o Unitex prop e um mecanismo de c pia de listas Para utiliz la selecionar a lista no editor de texto e copi la por meio de lt Ctrl C gt
195. ssa ocorr ncia 6 7 3 Modifica o do texto Pode se escolher modificar o texto ao inv s de construir uma concord ncia Para isso selecionar um nome de arquivo no campo Modify text da janela da figura 6 31 Esse arquivo deve ter a extens o txt Se desejar modificar o texto atual preciso escolher o arquivo txt correspondente Se escolher um outro nome de arquivo o texto atual n o ser afetado Clicar no bot o GO para lan ar a modifica o do texto As regras de prioridades aplicadas durante essa opera o s o detalhadas na se o 3 6 2 110 Display indexed sequences Modify text Resulting sn file Set File GO Extract units Set File Extract matching units Extract unmatching units Concordance presentation S _ Use a web browser to view the concordance better for more than 2000 matches Show differences with previous concordance Show Matching Sequences in Context Lengths of Contexts Sort According to Left Col 40 chars Center Left Col Right Col 55 chars Build concordance Fig 6 31 Configura o da visualiza o das ocorr ncias encontradas Uma vez que essa opera o foi efetuada o arquivo resultante uma c pia do texto na qual as sa das s o consideradas As opera es de normaliza o e de segmenta o em unidades lexicais s o automaticamente aplicadas a esse arquivo texto Os dicion rios existentes do texto
196. t ATEN O preciso ter certeza de que a configura o de orienta o da p gina para impress o retrato ou paisagem corresponde orienta o do grafo poss vel definir prefer ncias de impress o clicando em Page Setup no menu FSGraph poss vel tamb m imprimir todos os grafos que est o abertos clicando em Print All Cap tulo 6 Utiliza o avan ada dos grafos 7 A frase parece um pouco estranha pois se a imagem j est grande o Paint n o deveria perguntar se voc gostaria de aument la Talvez o correto seria se ele perguntasse se voc gostaria de aumentar o bitmap 79 6 1 Os tipos de grafos O Unitex pode manipular v rios tipos de grafos que correspondam s seguintes utiliza es flex o autom tica de dicion rios pr tratamento de textos normaliza o dos aut matos de texto grafos dicion rios busca por padr es levantamento de ambig idades e gera o autom tica de grafos Esses diferentes tipos de grafos n o s o interpretados da mesma maneira pelo Unitex Certas coisas como as sa das s o permitidas para certos tipos de grafos e proibidas para outros Al m disso conforme o tipo de grafo os s mbolos especiais n o s o os mesmos Esta se o apresenta ent o cada um dos tipos de grafos especificando suas particularidades 6 1 1 Grafos de flex o Um grafo de flex o descreve as varia es morfol gicas associadas a uma classe de palavras ass
197. t pa STTTU TNITaneag ay Jo aed 1316315 at Bura aos 962107 af Ied 13962316 ayy fUTI13400 15310 SPTST sal quatoue ut pa SAIUEPIOIUOD OM AY JO IUO Tuo UT M20 jeu sasuanhas uaars s su nb s ru r grp ing rernurs pay sasuanhas e3 nu pr nrg 114 Fig 6 33 Exemplo de compara o de concord ncias Cap tulo 7 Aut mato do texto As l nguas naturais cont m muitas ambig idades lexicais O aut mato do texto um meio visual e eficaz de representar essas ambig idades Cada frase do texto representada por um aut mato cujos caminhos exprimem todas as interpreta es poss veis Esse cap tulo apresenta os aut matos de texto o pormenor de sua constru o assim como as opera es que lhes podem ser aplicadas em particular o levantamento de ambig idades por meio do programa ELAG 35 Por enquanto n o poss vel efetuar a pesquisa de padr es sobre o aut mato do texto 7 1 Apresenta o O aut mato do texto permite exprimir todas as interpreta es lexicais poss veis das palavras Essas diferentes interpreta es s o as diferentes entradas presentes nos dicion rios do texto A figura 7 1 mostra o aut mato da quarta frase do texto Ivanho Pode se ver na figura 7 1 que a palavra Here tem aqui tr s interpreta es adjetivo adv rbio e substantivo haunted duas adjetivo e verbo etc Todas as combina es poss veis s o expressas pois cada interpreta o de cada p
198. tados finitos O formato FST2 conserva a arquitetura em subgrafos das gram ticas o que as diferencia dos estritos transdutores de estados finitos O programa Flatten permite 86 que se transforme uma gram tica FST2 em um transdutor de estados finitos quando isso poss vel ou sen o que se construa uma aproxima o entre eles Essa fun o permite assim que se obtenha objetos mais simples de serem manipulados e nos quais podem ser aplicados todos os algoritmos cl ssicos sobre os aut matos Para compilar e transformar assim uma gram tica selecionar o comando Compile amp Flatten FST2 no submenu Tools do menu FSGraph A janela da figura 6 5 permite que se configure a opera o de aproxima o Compile amp Flatten Ea Expected result grammar format 6 equivalent FST2 subgraph calls may remain E Finite State Transducer can be just an approximation Flattening depth Maximum flattening depth o o Cancel FIG 6 5 Configura o da aproxima o de uma gram tica A op o Flattening depth permite que se precise o n vel de imbrica o dos subgrafos Esse valor representa a profundidade m xima al m da qual as chamadas a subgrafos n o ser o mais substitu das pelos pr prios subgrafos A op o Expected result grammar format permite que se determine o comportamento do programa al m do limite indicado Se a op o Finite State 87 Tr
199. tains portions of the Linguistic Resource rather than a work that uses the Linguistic Resource If the package is a derivative of the Linguistic Resource you may distribute the package under the terms of Section 4 Any works containing that package also fall under Section 4 192 4 As an exception to the Sections above you may also combine a work that uses the Linguistic Resource with the Linguistic Resource or an encrypted form of the Linguistic Resource to produce a package containing portions of the Linguistic Resource and distribute that package under terms of your choice provided that the terms permit modification of the package for the customer s own use and reverse engineering for debugging such modifications You must give prominent notice with each copy of the package that the Linguistic Resource is used in it and that the Linguistic Resource and its use are covered by this License You must supply a copy of this License If the package during execution displays copyright notices you must include the copyright notice for the Linguistic Resource among them as well as a reference directing the user to the copy of this License Also you must do one of these things a Accompany the package with the complete corresponding machine readable legible form of the Linguistic Resource including whatever changes were used in the package which must be distributed under Sections 1 and 2 above and if the package contains an encrypted f
200. tamb m os aut matos da frase devem ser mostrados por default com o efeito de antialiasing O par metro HTML VIEWER indica o nome do navegador utilizado para mostrar as concord ncias Se nenhum nome de navegador for estabelecido as concord ncias ser o mostradas em uma janela Unitex N O par metro MAXTEXT FILE SIZE define o tamanho maximo dos arquivos de textos que o Unitex abre na interface gr fica Se um arquivo tiver um n mero superior a esse limite o usu rio ver a seguinte mensagem This file is too large to be displayed Use a wordprocessor to view it O valor por default 2048ko O par metro ICON BAR POSITION define a posi o da barra de cones nas janelas de gr ficos m O par metro PACKAGE PATH define a rea de armazenagem a ser utilizada para essa l ngua 172 10 9 2 Arquivo System dic def O arquivo system dic def um arquivo de texto que descreve a lista dos dicion rios do sistema a serem aplicados por default Esse arquivo encontra se na pasta da l ngua usual Cada linha corresponde a um nome de arquivo bin Os dicion rios do sistema devem encontrar se na pasta do sistema no interior da sub pasta l ngua usual DELA A seguir um exemplo de arquivo delacf bin delaf bin 10 9 3 Arquivo user_dic def O arquivo user dic def um arquivo de texto que descreve a lista dos dicion rios do usuario a serem aplica
201. tamento de ambig idades est apresentada na se o 7 3 1 p gina 120 6 1 7 Grafos parametrizados Os grafos parametrizados s o metagrafos que permitem a gera o de uma fam lia de grafos a partir de uma tabela de l xico gram tica poss vel construir grafos parametrizados para qualquer tipo de grafo A constru o e a utiliza o dos grafos parametrizados ser o desenvolvidas no cap tulo 8 6 2 Compilar uma gram tica 6 2 1 Compila o de um grafo A compila o a opera o que permite que se passe do formato grf para um formato mais f cil de ser manipulado pelos programas do Unitex Para compilar um 85 grafo preciso abri lo depois clicar em Compile FST2 no submenu Tools do menu FSGrafh O Unitex abre ent o o programa Grf2Fst2 no qual poss vel seguir a execu o em uma janela ver figura 6 4 Compiling graph DetN Compiling graph DetSimple Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E loops Looking for infinite recursions Recursion detection completed Compilation has succeeded FIG 6 4 Janela de compila o Se o grafo recorre a subgrafos estes sao automaticamente compilados O resultado um arquivo fst2 que re ne todos os grafos que comp em a gram tica A gram tica est ent o pronta para ser utilizada pelos diferentes programas do Unitex 6 2 2 Aproxima o por um transdutor de es
202. terms and conditions either of that numbered version or of any later version published by the Free Software Foundation If the Program does not specify a version number of the GNU General Public License you may choose any version ever published by the Free Software Foundation If the Program specifies that a proxy can decide which future versions of the GNU General Public License can be used that proxy s public statement of acceptance of a version permanently authorizes you to choose that version for the Program Later license versions may give you additional or different permissions However no additional obligations are imposed on any author or copyright holder as a result of your choosing to follow a later version 15 Disclaimer of Warranty THERE IS NO WARRANTY FOR THE PROGRAM TO THE EXTENT PERMITTED BY APPLICABLE LAW EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PROVIDE THE PROGRAM AS IS WITHOUT WARRANTY OF ANY KIND EITHER EXPRESSED OR IMPLIED INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU SHOULD THE PROGRAM PROVE DEFECTIVE YOU ASSUME THE COST OF ALL NECESSARY SERVICING REPAIR OR CORRECTION 16 Limitation of Liability IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MODIFIES
203. tida uma imagem pronta para ser integrada a um documento ou para ser editada em um software de edi o de imagens Para tornar a imagem mais uniforme pode se ativar o antialiasing para o grafo desejado O segundo m todo consiste em fazer uma captura de tela No Windows Em seguida pressionar a tecla Print Screen do teclado que deve se encontrar r xima tecla F12 Abrir o programa Paint no menu Acess rios do Windows p p 78 Pressionar lt Ctrl V gt O Paint dever dizer se a imagem contida na rea de transfer ncia muito grande e dever perguntar se voc gostaria de aumentar a imagem Clicar em Sim Agora poss vel editar a imagem da tela Selecionar a rea desejada Para isso passar para o modo de sele o clicando no ret ngulo pontilhado que se encontra no canto superior esquerdo da janela Agora poss vel selecionar uma rea da imagem com o mouse Quando a rea estiver selecionada pressionar lt Crtl C gt A sele o ficar na rea de transfer ncia e s ser preciso ir at o documento e pressionar lt Crtl V gt para colar a imagem No Linux Fazer uma captura de tela com o programa xv por exemplo Em seguida recortar a imagem com um editor gr fico TheGimp por exemplo e colar a imagem no documento do mesmo modo realizado em Windows 5 4 2 Impress o de um grafo Pode se imprimir um grafo clicando em Print no menu FSGraph ou pressionando lt CTRL P g
204. tilizado quando queremos identificar que n o devemos suprimir nenhum caractere 10 7 3 Arquivo CHECK DIC TXT Esse arquivo produzido pelo programa de verifica o do dicion rio Check Dic Trata se de um arquivo de texto que d informa es sobre o dicion rio analisado e se decomp e em 4 partes A primeira parte d a lista eventualmente vazia de todos os erros de sintaxe encontrados no dicion rio aus ncia da forma flexionada ou da forma can nica aus ncia do c digo gramatical linha em branco etc Cada erro descrito pelo n mero da linha referida com uma mensagem descrevendo a natureza do erro e tamb m o conte do da linha Veja um exemplo de mensagem Line 12451 no point found jardin N ms A segunda e a terceira partes d o respectivamente a lista de c digos gramaticais e ou sem nticos e flexionais A fim de prevenir erros de codifica o o programa assinala os c digos que cont m espa os tabula es ou caracteres n o ASCIL Assim se um dicion rio grego contiver o c digo ADV onde o caractere o A grego em vez do A latino o programa dar o seguinte aviso ADV warning 1 suspect char 1 non ASCII char 0391 D V Os caracteres n o ASCIL s o indicados por seus n meros de caractere hexadecimal No exemplo abaixo o c digo 0391 representa o A grego Os espa os s o indicados pela sequ ncia SPACE Km s warning 1 suspect char 1 space K m SPACE s Quando verificamos o dicion rio se
205. ts granted under this License and you may not initiate litigation including a cross claim or counterclaim in a lawsuit alleging that any patent claim is infringed by making using selling offering for sale or importing the Program or any portion of it 11 Patents A contributor is a copyright holder who authorizes use under this License of the Program or a work on which the Program is based The work thus licensed is called the contributor s contributor version A contributor s essential patent claims are all patent claims owned or controlled by the contributor whether already acquired or hereafter acquired that would be infringed by some manner permitted by this License of making using or selling its contributor version but do not include claims that would be infringed only as a consequence of further modification of the contributor version For purposes of this definition control includes the right to grant patent sublicenses in a manner consistent with the requirements of this License 183 Each contributor grants you a non exclusive worldwide royalty free patent license under the contributor s essential patent claims to make use sell offer for sale import and otherwise run modify and propagate the contents of its contributor version In the following three paragraphs a patent license is any express agreement or commitment however denominated not to enforce a patent such as an express p
206. u sem ntico ser interpretado pelo programa de flex o como o substantivo da gram tica a ser utilizado para flexionar a entrada A entrada do exemplo acima indica que a palavra cheval deve ser flexionada com uma gram tica de nome N4 poss vel acrescentar c digos flexionais s entradas mas a natureza da opera o de flex o limita o interesse dessa possibilidade Para mais detalhes ver mais adiante neste cap tulo a se o 3 4 3 1 3 Conte do dos dicion rios Os dicion rios fornecidos juntamente com o Unitex cont m descri es de palavras simples e compostas Essas descri es indicam a categoria gramatical de cada entrada seus eventuais c digos de flex o assim como informa es sem nticas diversas As tabelas a seguir fornecem um resumo dos diferentes c digos utilizados nos dicion rios fornecidos com o Unitex tv Fae O ADV JAdv xbio R ellement la longue Conjun o de coordena o Mes ss PY de smhordina o de subordina o DET O Determinante si Ses trentessix ue six Interjei o Adieu mille millions de mille sabords No Substantivo Prairie vie sociale 28 E Preposi o Sans la lumi re de Pronome Tu elle m me V verbo Continuer copier coller TAB 3 1 C digos gramaticais usuais C digo Significado Exemplo blague Linguagem especializada s pulcre 2 Linguagem muito especializada houer nel Cheval de race troupeau
207. ua de trabalho portanto n o obrigat ria a utiliza o do mesmo diret rio para v rias l nguas E Preferences for English EEE EEE EEE Directories Private Unitex directory where all user s data is to be stored Damy Unitex sete Graph repository Direpository Set 65 FIG 5 9 Configura o do diret rio de dep sito SD repository O Det A Johnson e Smith FIG 5 10 Exemplo de diret rio de dep sito UDitlobmson DEM D FIG 5 11 Refer ncia a um grafo do diret rio de dep sito Sup e se que se tenha uma arboresc ncia como aquela da figura 5 10 Se desejar remeter ao grafo DET que se localiza no subdiret rio Johnson ser preciso utilizar a nomea o Det Johnson DET ver figura 5 119 DICA para evitar colocar nos grafos um caminho complicado como Det Johnson DET poss vel criar um grafo nomeado DET que poder ser colocado na raiz do diret rio de dep sito no caso D repository NDET grf Esse grafo conter simplesmente uma refer ncia ao grafo Det Johnson DET Pode se dessa forma colocar nos grafos um simples refer ncia a DET Isto permite 1 n o ter nomes complicados e 2 poder modificar os grafos do diret rio de dep sito sem ter de modificar todos os outros grafos De fato bastar colocar em dia o grafo localizado na raiz do diret rio de dep sito As refer ncias aos subgrafos s
208. ue representam respectivamente o come o e o fim do contexto que s o representados no grafo pelos colchetes verdes O come o e o fim de um contexto devem aparecer no mesmo grafo 1 0 FIG 6 12 Utiliza o de um contexto A figura 6 12 mostra um exemplo simples de contexto Esse grafo reconhece todos os n meros seguidos por euro libra ou d lar mas sem que o s mbolo de unidade apare a nas ocorr ncias encontradas 93 Os contextos s o interpretados da seguinte maneira Suponha se que um come o de contexto seja encontrado no momento da aplica o de uma gram tica em um texto e seja marcado pos como posi o presente no texto nesse instante O programa Locate vai em seguida tentar reconhecer a express o descrita no contexto Se ele fracassar n o haver jogo Se ele conseguir ou seja se ele puder alcan ar o fim do contexto o programa voltar posi o pos no texto e continuar a explora o da gram tica a partir do fim do contexto Pode se do mesmo modo definir contextos negativos utilizando como come o de contexto A figura 6 13 mostra um grafo que reconhece n meros que n o s o seguidos por th A diferen a em rela o aos contextos positivos que quando o Locate tenta reconhecer a express o descrita no contexto o fato de alcan ar o fim do contexto considerado um fracasso pois significa que uma seq ncia proibida foi reconhecida Ao contr rio se o fim do contexto n o puder ser alca
209. uivo inf 00000000064 _10 0 0 7 N4 PREPY _3 PREPY PREP _3 PREP 1 1 N Hum mp 3er 1 N AN Hum fs A primeira linha do arquivo indica o n mero de formas compactadas que ele cont m Cada linha pode conter uma ou mais formas compactadas Se houver v rias formas essas devem ser separadas por uma v rgula Cada forma compactada formada de uma sequ ncia permitindo encontrar uma forma can nica a partir de uma forma flexionada seguida pela seq ncia de c digos gramaticais sem nticos e flexionais associados entrada O modo de compacta o da forma can nica varia em fun o da forma flexionada Se as duas formas forem exatamente id nticas a forma compactada resume se s informa es gramaticais sem nticas e flexionais como o caso da linha seguinte N Hum ms 165 Se as formas forem diferentes o programa de compacta o segmenta as duas formas em unidades Essas unidades podem ser ou um espa o ou um travess o ou uma seq ncia de caracteres que n o cont m nem espa o nem travess o Esse modo de segmenta o permite levar eficazmente em conta a flex o de palavras compostas Se as formas flexionadas e can nicas n o comportam o mesmo n mero de unidades o programa codifica a forma can nica pelo n mero de caracteres da forma flexionada que devem ser segmentados depois pelos caracteres a serem adicionados Assim a primeira linha do arquivo abaixo corresponde linha de dicion rio James Bond 0
210. uivos fonte e destino Os valores poss veis s o r a convers o danifica os arquivos fonte ps PFX os arquivos fonte s o renomeados com o prefixo PFX toto txt PFXtoto txt pd PFX os arquivos destino sao renomeados com o prefixo PFX ss SFX os arquivos fonte s o renomeados com o sufixo SFX toto txt totoSFX txt sd SFX os arquivos destino sao renomeados com o sufixo SFX Os par metros text i s o os nomes dos arquivos a serem convertidos Cap tulo 10 151 Formatos de arquivos Este capitulo apresenta os formatos de diferentes arquivos reconhecidos ou criados pelo Unitex A formata o dos dicion rios DELAS e DELAF j foram apresentadas nas se es 3 1 1 e 3 1 2 OBS Neste cap tulo o s mbolo representar quebra de linha Salvo indica o contr ria todos os arquivos texto deste cap tulo s o codificados em Unicode Little Endian 10 1 Padr o Unicode Little Endian Todos os arquivos texto utilizados pelo Unitex devem estar em Unicode Little Endian Esse padr o permite representar 65536 caracteres codificando um a cada dois octetos bytes No Little Endian os octetos est o na ordem peso fraco peso forte Quando essa ordem invertida fala se em padr o Big Endian Um arquivo texto codificado em Unicode Little Endian come a pelo caractere especial de valor hexadecimal FEFF As quebras de linha devem ser codificadas pelos dois caracteres 000D e 000A Consideremos o texto seguint
211. um filtro morfol gico por si s considerado como aplic vel meta lt TOKEN gt ou seja a qualquer unidade lexical exceto o espa o e o marcador STOP Por outro lado quando um filtro segue imediatamente uma chave de busca aplica se quilo que reconhecido pela chave de busca Seguem abaixo alguns exemplos de tais combina es lt V K gt lt lt i gt gt partic pio passado terminando em i lt CDIC gt lt lt gt gt palavra composta contendo um h fen lt CDIC gt lt lt gt gt palavra composta contendo dois espa os lt A s gt lt lt pro gt gt adjetivo feminino singular iniciado por pro 50 lt DET gt lt lt u u n gt gt determinante diferente de un lt DIC gt lt lt esS gt gt palavra que n o est no dicion rio e que termina em es lt V S T gt lt lt uiss gt gt verbo em franc s no subjuntivo passado ou presente contendo uiss NOTA Por defini o os filtros morfol gicos s o submetidos s mesmas varia es de caixa tipogr fica que as m scaras lexicais Assim o filtro lt lt gt gt vai identificar todas as palavras come ando por mas do mesmo modo aquelas que come am por E ou Para for ar a distin o exata da caixa tipogr fica do filtro preciso acrescentar f imediatamente depois dele Exemplo lt A gt lt lt gt gt _f_ 4 8 Busca 4 8 1 Configura o da busca Para poder buscar uma express o necess
212. uma l ngua associando um lema tanto a uma entrada quanto a uma s rie de c digos gramaticais sem nticos e flexionais A presen a desses dicion rios constitui uma diferen a maior em rela o a outras ferramentas usuais de busca por padr es pois pode se fazer refer ncias s informa es que eles cont m e assim descrever amplas classes de palavras com padr es muito simples Esses dicion rios s o reapresentados segundo o formalismo DELA e foram elaborados por equipes de ling istas para v rias l nguas franc s ingl s grego italiano espanhol alem o tailand s coreano polon s noruegu s portugu s etc As gram ticas s o representa es de fen menos ling isticos por redes de transi es recursivas RTN um formalismo semelhante ao dos aut matos de estados finitos Numerosos estudos evidenciaram a adequa o dos aut matos aos problemas ling sticos tanto em morfologia quanto em sintaxe ou fon tica As gram ticas manipuladas pelo Unitex retomam este princ pio baseando se em um formalismo ainda mais potente que os aut matos Essas gram ticas s o representadas por meio de grafos que o usu rio pode facilmente criar e atualizar As tabelas de l xico gram tica s o matrizes que descrevem as propriedades de determinadas palavras Tais tabelas foram elaboradas para todos os verbos simples do franc s das quais elas descrevem as propriedades sint ticas Como a experi ncia tem mostrado que cada palavra tem um
213. upadas em uma nica entrada se tiverem os mesmos c digos gramaticais e sem nticos Isso permite dentre outros agrupar as conjuga es id nticas para um mesmo verbo glace glacer Vtzl Pls Pas lt 81s S3s lt 2s Se as informa es gramaticais e sem nticas forem diferentes preciso criar entradas distintas qlatce NtzlrEs ql ce qlaser Yral PlssPassslesgasitas Algumas entradas com c digos gramaticais e sem nticos comuns podem apresentar sentidos diferentes como o caso da palavra po le que designa tanto um 27 aparelho de aquecimento e um v u no masculino quanto um instrumento de cozinha no feminino Pode se ent o distinguir as entradas nesse caso po le N z1 fs intrumento para fritar po le Nt tzl ms v u mortalha aparelho de aquecimento OBSERVA O na pr tica essa distin o causa somente o aumento do n mero de entradas do dicion rio Os diferentes programas que comp em o Unitex fornecer o exatamente os mesmos resultados se reunirmos essas entradas em po le N z1 fs ms O interesse desta distin o fica ent o a cargo dos dicionaristas 3 1 2 Formato dos DELAS O formato dos DELAS bastante semelhante ao dos DELAF A diferen a que somente uma forma can nica seguida por c digos gramaticais e ou sem nticos citada A forma can nica separada dos diferentes c digos por uma v rgula Eis um exemplo de entrada cheval N4 Anl O primeiro c digo gramatical o
214. ursor para a direita LLDRRn 1 Eee Etapa 5 deslocar uma vez mais o cursor para a direita LLDRRn 1 eee ee Etapa 6 escrever um n LLDRRn L Ee Peet Uma vez que a seq ncia utilizada toma se o conte do da pilha imediatamente anterior ao cursor para se compor a forma flexionada aqui chosen O programa de flex o Inflect explora todos os caminhos da gram tica de flex o engendrando todas as formas flexionadas poss veis A fim de evitar ter de substituir os nomes das gram ticas de flex o por verdadeiros c digos gramaticais no dicion rio obtido o programa substitui estes nomes por seus mais longos prefixos compostos por letras Assim N4 substitu do por N Ao escolher arbitrariamente os nomes das gram ticas de flex o pode se portanto produzir diretamente um dicion rio pronto para o uso Veja o dicion rio obtido ap s a flex o do DELAS do nosso exemplo 5 D My UnitexiEnglishiDelaidelasfix dic o E aviatrices aviatrix N Hum p aviatrix aviatrix N Hum s atrices matrix N Math p atrix matrix N Math s radices radix N p radix radix N s FIG 3 7 Resultado da flex o autom tica 35 3 5 Compacta o O Unitex aplica aos textos dos dicion rios compactados A compacta o permite reduzir o tamanho dos dicion rios e acelerar sua consulta Essa opera o efetuada com o programa Compress que toma uma entrada de um dicion rio sob forma de arquivo texto por exemplo meu
215. ut matos de frases Como vimos anteriormente o aut mato de um texto na realidade um conjunto dos aut matos das frases desse texto Essa estrutura pode ser representada gra as ao formato fst2 utilizado para representar as gram ticas compiladas Entretanto esse formato n o permite mostrar diretamente os aut matos de frases preciso portanto utilizar um programa Fst2Grf para converter um aut mato de frase em um gr fico para que ele possa ser visualizado Esse programa aparece automaticamente quando voc seleciona uma frase para gerar o arquivo grf correspondente Os arquivos grf gerados n o s o interpretados da mesma maneira que os arquivos grf que representam os gr ficos constru dos pelo usu rio De fato em um gr fico normal as linhas de uma caixa s o separadas pelo s mbolo Em um gr fico de frase cada caixa ora uma unidade lexical sem etiqueta ora uma entrada de dicion rio entre colchetes Se a caixa contiver apenas uma unidade sem etiqueta essa aparece somente na caixa Se a caixa contiver uma entrada de dicion rio a forma flexionada mostrada seguida de sua forma can nica se essa for diferente As informa es gramaticais e flexionais s o mostradas sob a caixa como nas transduc es A figura 7 23 mostra o gr fico obtido pela primeira frase de Ivanhoe As palavras Ivanhoe Walter e Scott s o consideradas como palavras desconhecidas A palavra by corresponde a duas entradas no dicion rio A pa
216. vem ser normalizadas As variantes min sculas e mai sculas s o levadas em conta conforme o seguinte princ pio as letras mai sculas no grafo s reconhecem as letras mai sculas no aut mato do texto as letras min sculas conseguem reconhecer as letras min sculas ou mai sculas 83 As sa das representam as sequ ncias de etiquetas que ser o inseridas no aut mato do texto Essas etiquetas podem ser entradas de dicion rios ou simples cadeias de caracteres As etiquetas que representam entradas de dicion rio devem respeitar o formato das entradas de um DELAF e estar entre os s mbolos e As sa das com vari veis n o t m sentido nesse tipo de grafo poss vel recorrer aos subgrafos N o poss vel fazer remiss o aos dicion rios para descrever as formas a serem normalizadas O nico s mbolo especial reconhecido nesse tipo de grafo a palavra vazia lt E gt Os grafos de normaliza o de formas amb guas devem ser compilados antes de poderem ser utilizados 6 1 4 Grafos dicion rios Os grafos dicion rios j apresentados na se o 3 6 3 s o grafos sint ticos aplicados pelo programa Dico de maneira gerar entradas de dicion rios Dado que o Dico utiliza o mecanismo do programa Locate para aplicar esses grafos eles t m exatamente as mesmas caracter sticas dos grafos sint ticos 6 1 5 Grafos sint ticos Os grafos sint ticos tamb m chamados de gram ticas locais permitem a descri o das c
217. ventualmente vazia de bin rio de for as de inteiros O primeiro inteiro indica o n mero de unidades ou de sub grafo correspondente transi o As unidades s o numeradas a partir de 0 Os sub grafos s o representados por inteiros negativos o que explica os n meros que precedem os nomes dos grafos serem negativos o segundo inteiro representa o n mero de estado de chegada da transi o Em cada grafo os estados s o numerados a partir de 0 Por conven o o estado 0 de um grafo seu estado inicial Cada linha de defini o de estado deve terminar com um espa o O final de cada grafo marcado por uma linha que contenha um f seguido de um espa o As unidades s o definidas ap s o ltimo grafo Se a linha come a pelo caractere O significa que o conte do da unidade deve ser procurado sem variante de quebra Essa informa o s til quando a unidade uma palavra Se a linha come a pelo caractere as variantes de quebra s o autorizadas Se uma unidade porta transdu o as sequ ncias de entrada e de sa da s o separadas pelo caractere exemplo le DET Por conven o a primeira unidade sempre deve ser a palavra vazia lt E gt mesmo se esta unidade n o utilizada em nenhuma transi o O final do arquivo indicado por uma linha contendo o caractere f seguido de uma quebra de linha 10 4 Textos Esta se o apresenta os diferentes arquivos utilizados para representar os textos 10 4 1 Arquivo
218. vra vazia e busca todas as formas de la os infinitos Se um erro encontrado uma mensagem de erro aparece na janela de compila o A figura 6 11 mostra a mensagem obtida quando se tenta compilar o grafo Det da figura 6 10 Compiling graph Det Compiling graph DetCompose Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection completed ERROR Det calls DetCompose that recalls the graph Det FIG 11 Mensagem de erro obtida com a compila o do grafo Det 92 Se uma pesquisa de chaves de busca for lan ada selecionando um grafo no formato grf e o Unitex detectar um erro a opera o de pesquisa ser automaticamente interrompida 6 3 Contextos Os gra