Home
Instituto Superior de Engenharia do Porto Engenharia Informática
Contents
1. 19 Servi os on line baseados em conhecimento Conceitos Gerais O processo para se estabelecer uma empresa na Internet que comercialize bens e servi os similar ao de uma empresa convencional Seja qual for a natureza do site estes devem estar sempre actualizados principalmente as Lojas Virtuais que est o a competir com a concorr ncia Conhecer bem o cliente e ter uma base de dados diciente para auxiliar no processo de apoio decis o s o factores muito importantes para se obter vantagens competitivas 2 2 1 B2B Business to Business Business to business o nome que se d a transac es comerciais entre empresas Muitas empresas utilizam este tipo de e commerce para se relacionar com seus fornecedores fazendo pedidos recebendo e pagando facturas e pagamentos trocando dados captando novos parceiros etc Esta rela o entre duas ou mais empresas envolvem tecnologias que utilizam o Interc mbio de Dados Electr nicos IDE O IDE permite a comunica o directa entre os sistemas informatizados das empresas sem precisar da interfer ncia do homem 2 2 2 B2C Business to Consumer Outra forma de com rcio na Internet o business to consumer Nesta categoria a empresa vende directamente ao consumidor Um determinado consumidor entra no seu site em busca de um produto Pesquisa por informa es referentes a este produto manual t cnico funcionamento pre o prazo de entrega assist ncia t cnic
2. FIGURA 6 CLUSTERS Sumarizacao Envolve m todos de procura descri es compactas para um subconjunto de dados Os m todos mais sofisticados envolvem a deriva o de regras de sumariza o t cnicas de visualiza o de multivariaveis e a descoberta de rela es funcionais entre vari veis As t cnicas de sumariza o s o aplicadas a explora o interactiva dos dados da an lise e a gera o autom tica de relat rios Modelos de Depend ncia Encontrar um modelo que descreva depend ncias significativas entre as vari veis Existem dois tipos de modelos de depend ncia o n vel estrutural e o n vel quantitativo O n vel estrutural do modelo especifica quais as vari veis que s o localmente dependentes umas das outras geralmente de forma gr fica O n vel quantitativo do modelo especifica os pesos das depend ncias usando uma escala num rica Altera es e Desvios Descobrir desvios e anomalias mais significativas nos dados a partir de valores definidos 3 2 4 Modela o Surge ent o a pergunta Como as t cnicas de Data Mining possivel achar padr es relacionamentos entre os dados de uma grande base de dados Isto poss vel atrav s da Modela o A modela o a ac o de construir um modelo numa situa o onde se sabe a resposta e aplica lo a outra situa o onde a resposta desconhecida analisando as diferen as Aplicando se t cnicas para executar a modela o poss vel achar padr
3. eee assa aaaaaaana 68 TABELA Il TIPOS DE FICHEIROS aaa aaa aaa aaa aaa 73 TABELA III TIPOS DE FERRAMENTAS aaa 79 TABELA IV METODOS DE PROMO O DO WEB SITE cccccccccccccccceeeeeeeeeeeeeeeeeeeeeeeeeees 123 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Gloss rio Ten E TE RE PRE RE PRE ee ee a a a a m a m a a a e a a a e Se me See See ee ee ee ee a m a m a a a e E E cm Gloss rio A Algoritmo um processo computacional que recebe valores de input e produz valores de output An lise de cesto de compras Market Basket Analysis uma an lise de data mining tipicamente feita pelos vendedores que tratam as compras em n mero de itens carrinho de compras como sendo uma nica transa o com o intuito de descobrir e explorar padr es de compras Aprendizagem autom tica Machine Learning Ramo de Intelig ncia Artificial que trata com o desenvolvimento de aplica es de algoritmos de aprendizagem autom tica Armaz ns de dados Um sistema de suporte decis o para armazenar grande quantidade de informa o rvores de Decis o Representa o gr fica das rela es entre as vari veis dependentes outpui e um conjunto de dados de vari veis independentes Inputs As rvores podem ser bin rias ou com m ltiplo ramos dependo do algoritmo utilizado ASCII Acr nimo de American Standard Co
4. Acesso por parte de rob ts deve ser removido 4 3 3 Distin o entre os utilizadores As actividades intervaladas de m ltiplos utilizadores do mesmo computador ou proxy s o guardadas como actividades de um nico utilizador 4 4 Avalia o dos dados Uma avalia o estrutural dos dados feita para a determinar as ferramentas de data mining a serem utilizadas para an lise Qual o r cio de atributos categ ricos bin rios na base de dados f Qual a natureza e estrutura da base de dados Qual a condi o geral do conjunto de dados f Qual a distribui o do conjunto de dados Os dados do conjunto de dados s o actuais Como regra geral as redes neuronais funcionam melhor em conjuntos de dados com um grande n mero de atributos num ricos O algoritmos de Aprendizagem autom tica incorporados nas rvores de decis o e as ferramentas de data mining geradoras de regras funcionam melhor com conjuntos de dados que tenham um grande n mero de registos e um largo numero de atributos A escolha de um tipo de algoritmos tem um impacto profundo na exactid o dos resultados do data mining 4 5 Formata o da Solu o Junto com a avalia o dos dados da Web e os objectivos de neg cio aparece a quest o da forma a dar solu o Existem diversas formas que a solu o pode tomar desde rvores de decis o regras em c digo C gr ficos mapas Tendo sempre em conta o objectivo da solu o cl
5. LookSmart cont m um directorio de web sites Para al m de ser um servi o por si s d resultados a outros motores de pesquisa como MSN Search Excite etc AltaVista formece resutados ao LookSmart quando a sua pesquisa falha LookSmart foi lan ado em Outubro de 1996 a Emo looksmart http www looksmart com Instituto Superior de Engenharia do Porto Engenharia Informatica Servi os on line baseados em conhecimento Anexos Mm E E SS LLL LLL ma a L Direct Hit uma empresa que trabalha com motores de pesquisa de forma a refinar as suas direct hit pesquisas Monitoriza os sites que s o acedidos pelos utilizadores quando estes est o a ver os TE SAM resultados da pesquisa Os sites mais acedidos hii pve nda s o classificados pelo Direct Hit Recentemente o Direct Hit passou a ser chamdo de Teoma fia so Dogpile compila resultados de pesquisa de DOGPILE diversos motores de pesquisa incluindo GoTo com About Sprinks LookSmart DirectHit http www dogpile com aie O resultados do HotBot vem do Direct Hit e os resultados secundariosvem do Inktomi A sua informa o vem do Open Directory HotBot foi http www hotbot com langado em Maio de 1996 O indice Inktomi foi criado para alimentar o HotBot Agora o motor de pesquisa Inktomi tambem alimenta outros motores de pesquisa Inktomi Nao se pode pesquisar directamente no Inktomi so atraves dos seus associados http www inkt
6. Ci ncia e Tecnologia Foram descobertos recentemente nove quasares atrav s da ferramenta de Data Mining SKICAT Seriam necess rios tr s anos para descobrir um n mero id ntico de quasares de mesmo tipo utilizando as t cnicas tradicionais de pesquisa Com o SKICAT os astr nomos de Caltech conseguiram o mesmo feito em menos de seis meses O uso de Data Mining juntamente com os armaz ns de dados na Ci ncia acelera a descoberta de novos paradigmas O tempo para descobrir rela es detect veis em ambientes vastos est o a ser drasticamente reduzidos ocasionando evolu es mais r pidas Finan as O foco principal de utiliza o das ferramentas de Data Mining na area financeira a preven o e detec o de fraudes x O Security Pacific Bank of America utiliza ferramentas de Data Mining no suporte decis o na rea dos empr stimos banc rios com intuito de prevenir fraudes x O BPP Banco Privado Portugu s sentiu a necessidade de um suporte decis o de avalia o de perfis de riscos para os investimentos financeiros dos seus clientes Com a implanta o de ferramentas de Data Mining foi poss vel criar modelos devidamente enquadrados nos segmentos alvo de cada cliente Atrav s de perguntas envolvendo caracter stica s cio econ micas risco objectivos etc foi aplicado um conjunto de t cnicas de aprendizagem a um universo de clientes definidos pelo Banco Deste processo resultou a defini
7. Intra p gina t refere se estrutura interna do documento Web em HTML ou XML que normalmente representado atrav s de uma rvore b Inter paginas f pode ser analisada por travessia dos links estruturas dos links Web t normalmente s o usados grafos em que os n s s o p ginas e os links os ramos dos grafo samptoc htm FIGURA 14 ESTRUTURA DE LINKS Instituto Sipener de Engenharia do Porto Engenharia Inform tica 56 Servi os on line baseados em conhecimento Do Data Mining ao Web Mining _ e ee ee ee ee ee ee ee See ee an 8 4 3 Web Usage Mining Web Usage Mining um campo de investiga o que se baseia no desenvolvimento de t cnicas e ferramentas que estudam o comportamento da navega o dos utilizadores Compreender as prefer ncias de navega o do utilizador um passo essencial para o estudo da qualidade de um site de com rcio electr nico Compreender os padr es de acesso dos utilizadores permite aos fornecedores personalizar e adaptar o interface do site para um utilizador I Quando os utilizadores interagem com o site os dados do seu comportamento s o guardados em ficheiros de registo de acessos Estes ficheiros de registo de acessos podem conter informa o que caracteriza a experi ncia do utilizador no site Como os ficheiros correspondem a muitos megabytes por dia h uma necessidade de t cnicas e ferramentas que permitem tirar partido desse conte do
8. f o comportamento do utilizador registado a prospec o dos registos diz como o site compreendido t adapta o do site aos utilizadores Web Usage Mining permite ajustar o site percep o do utilizador levando assim satisfa o do cliente O Web Usage Mining pode ser de dois tipos n o Personalizada o utilizador observado como uma unidade sem identidade ex An lise de cesto de compras f personalizada o utilizador observado como uma pessoa individual da qual s o sabidas a identifica o e dados pessoais ex An lise dos dados dos clientes Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ficheiros de registos de acessos e prepara o de dados O ficheiro de registo de acessos um ficheiro de texto onde s o registados todos os acessos a uma p gina do servidor Web Cada pedido corresponde a uma entrada no ficheiro que cont m normalmente a seguinte informa o o endere o IP do computador que fez o pedido a identifica o do utilizador este campo n o utilizado na maioria dos casos data e hora do pedido campo de estado que indica se o utilizador teve sucesso o tamanho do ficheiro que foi transferido o URL da p gina que gerou o pedido o nome e vers o do browser utilizado PPP 32 Esta informa o pode ser utilizada para reconstituir as sess
9. o de dados em informa o de clientes que permite tomar decis es de neg cios imediatas resultante a ac o do cliente fe Oferece interactividade com os clientes e visualiza o no website Quadstone e a unica solu o que permite a an lise da descoberto interactiva dos dados existentes usando vistas tridimensionais t Prev e modela os clientes mais lucrativos identificando os que s o mais afectados pelas diferentes t cnicas de marketing E tailers s o capazes de facilmente refinar e optimizar as t cnicas de marketing gastas e os focos principais para alcan ar os clientes mais lucrativos Melhora a flexibilidade e as escalabilidade e lan amento do CustemerConversion que tem um processamento end to end transformando os dados do click stream numa selec o dos clientes certos permite aos vendedores tomar ac o imediatas de marketing A arquitectura paralela ajuda a escalar a an lise para aumentar a velocidade e produtividade dos dados analisados Especifica es do sistema O CustemerConversion corre em servidores NT e Unix podendo se ligar a bases de dados relacionais e a outras fontes de dados Instituto Superior de Engenharia do Porto Engenharia Inform tica dhe cae on line baseados em conhecimento Anexos http www datamining com dmsuite htm O Data Mining Suite uma solu o para as empresas e oferece o suporte a decis es em larga escala Permite minar os dados em multi tabelas de SQL
10. o de um modelo capaz de identificar as perguntas mais relevantes a cada instante no sentido de conseguir uma caracteriza o adequada ao perfil de risco do cliente Al m da estrat gia de investimento o modelo devolve tamb m uma primeira an lise da distribui o das respostas dadas permitindo a identifica o de incoer ncias nas respostas e de eventuais pontos que devem ser esclarecidos para assegurar que o cliente est perfeitamente identificado com a estrat gia proposta Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ten ee ee o mm E m cm Propostas de Uso Com a devida organiza o dos dados as ferramentas de Data Mining podem ser capaz de analisar informa es de regi es estados nas mais diferentes inst ncias cultura distribui o de renda senso demogr fico etc Tomando se como base que o pa s seria como uma grande empresa poder amos ter um Data Mart estatal e atrav s da identifica o de rela es entre estes e as ferramentas de Data Mining seria poss vel agregar e planear estrat gias oe pol tica comuns aprender com erros ocorridos numa rea e aplicar solu es correctas de um estado para outro al m de poder auxiliar o controlo e liberta o de gastos p blicos No meio publicit rio seria poss vel descobrir rela es entre not cias oficiais entre as mais diversas esferas tendo catalogados todos os of cios memorandos e decis es pol t
11. 866 723 9473 01 42 21 40 80 France 212 625 9700 800 874 5866 877 722 7055 800 426 2255 952 814 9300 619 233 1400 858 509 0055 919 677 8000 44 0 20 7430 1515 UK 61 3 93482441 Switzerland 617 621 4075 617 354 8484 508 870 0300 01 53 01 49 20 France 49 6196 9599 0 Germany 44 0 789 999 2288 Uk 503 294 7025 650 696 3100 415 908 6883 353 1 648 6200 Ireland 121 Servi os on line baseados em conhecimento Anexos Motores de Pesquisa muito importante que o site seja adicionado a um motor de pesquisa Com a explos o da Internet o marketing de um site pode fazer a diferen a entre um ptimo site que ningu m v e um site que cativa os clientes e que pode ser facilmente encontrado obtendo uma boa classifica o nos motores de pesquisa A empresa deve receber relatorios que incluam a classifica o do motor de pesquisa as estat sticas mensais o n mero de p ginas que s o mais vistas pelos utilizadores No seguinte gr fico est o representadas as milh es de p ginas que s o adicionadas Internet todos os dias o marketing Internet passa a ter um papel muito importante nos neg cios na Web A escolha de motor de pesquisa pode ser igualmente importante 2000 1 200 p 45 paginas de Web indexadas lt Legenda 1 600 ii GG Google FAST FAST 1 400 AV AltaVista INK Inktomi 1 200 i NL Northern Light 1 000 Ki Percentagens divulgadas pelos motores i
12. As informa es transmitidas s o codificadas encriptadas para que somente o utilizador e o servidor possam interpretar seu conte do assegurando a privacidade da transa o Ao visitar um site o sistema envia ao Cliente uma assinatura digital atestando a autenticidade deste site ou seja que ele seguro e que o cliente pode enviar informa es que elas ser o lidas apenas pelo receptor O mesmo acontece no caso inverso assegurando ao site que este visitante existe e a 23 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais Ye Assinatura Digital A assinatura digital ou Certificado de Identidade Digital pode ser considerado a identidade virtual Esta identidade virtual pode ser utilizada toda a vez que for necess rio identificar se com absoluta seguran a clientes ou empresas De um lado certifica a exist ncia e autenticidade do cliente e do outro certifica que este cliente estar fazer neg cio com sua empresa e n o com uma empresa falsa Este certificado emitido por uma CA Autoridade Certificadora Digital Certificate Authority A CA atribui identidades a duas chaves electr nicas contendo nome do propriet rio data de expira o deste certificado assinatura n mero s rie etc que podem ser utilizadas para encriptar ou assinar informa es digitais 2 3 3 Formul rios Os formul rios s o espa os
13. Representa o da depend ncia dos dados de acordo com o objectivo do processo Utiliza o de m todos de redu o de dimens es ou transforma o com vista a reduzir o numero de vari veis a considerar e identificar representa es sem relev ncia DataMining Objectivo Definir finalidade da utiliza o do m todo de Data Mining Decidir se o objectivo do processo de extra o de conhecimento classifica o regress o clustering etc Objectivo Seleccionar o algoritmo de Data Mining Seleccionar m todo s para pesquisa de padr es nos dados Decidir os modelos e par metros apropriados de acordo com o objectivo do processo de descoberta de conhecimento Objectivo Data Mining Pesquisar padr es de interesse sob uma ou v rias formas de representa o classifica o em regras ou rvores decis o regress o clustering etc A Interpreta o Avalia o Objectivo An lise Interpretar padr es obtidos Possibilidade de retornar a qualquer etapa anterior para otimiza o dos resultados Objectivo Consolida o do conhecimento adquirido Incorpora o do conhecimento no sistema ou simples documenta o e divulga o para interessados Deve se ter a preocupa o de validar e resolver conflitos com conhecimento anteriormente obtido Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 2 Data Mining Data Mining uma das fase da descoberta de conhecimento qu
14. es de marketing a tomar Sa de Num Hospital cada um dos servi os cl nicos tem em vigor um sistema de recolha de informa o sobre os n veis de satisfa o dos seus doentes Ap s an lise dos resultados s o produzidos relat rios individuais e agregados que chegam Administra o atrav s do SmartViewer Web Server Estudos de Mercado Uma empresa internacional produz estudos de imagem sobre diversas marcas Mediante contratos com os seus clientes esta empresa disponibiliza a cada cliente a informa o vendida atrav s do SmartViewer Web Server Servi os on line baseados em conhecimento Ferramentas 5 4 Megaputer WebAnalyst ES q Es e a r Megapute http megaputer com WebAnalyst WA WA um servidor anal tico que permite a integra o dos armazenes de dados com as t cnicas de data mining com nfase no e business e aplica es de Web mining WA uma aplica o escal vel de servidor com uma arquitectura aberta que torna aut nomas as tarefas de e business de recolha de dados de transforma o an lise e personaliza o das interac es com os clientes O WA permite um ambiente visual de programa o para o analista WebAnalyst WA uma aplica o de servidor que permite Processa dados de fontes diferentes como os canais da Web HTTP de bases de dados externas e de ficheiro de acessos ao servidor bases de dados ficheiros de registo de acessos Guarda todos os dados numa b
15. tudo isto dentro de uma ferramenta de data mining Na escolha de uma ferramenta deve ter se em conta o tipo de tecnologias que suportam para que os resultados obtidos sejam optimizados Sendo assim na escolha de uma ferramenta tamb m se deve ter em considera o os seguintes factores Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web f Qual a tecnologia ou tecnologias que suportam t Se a ferramenta consegue dividir os dados em conjuntos de treino e de teste e se o utilizador consegue introduzir a percentagem de divis o que quer fe Se a an lise automatizada ou se permite algum n vel de personaliza o fe Se a ferramenta de data mining incorpora mais do que um algoritmo f Se a Interface permite uma avalia o dos resultados da an lise f Se a ferramenta de f cil utiliza o 4 6 12 Efici ncia O ultimo crit rio para a selec o de uma ferramenta a efici ncia Por exemplo quanto tempo que demora o processo de extrac o de conhecimento a chegar a uma conclus o a facilidade de chegar rapidamente a um regra geral 4 7 Constru o do Modelo s nesta etapa que a extrac o de conhecimento do website come a Este O processo que procura os padr es num conjunto de dados e gera a classifica o de regras rvores decis o clustering a determina o de resultados de pesos e a avalia
16. x Clickstream and business event x suporta multiplas moedas x Interface em ingl s franc s alem o japon s e espanhol Personaliza o x personalizacaode conte dos loggin og no g imagens produtos pre o Integra o online com Acxiom promo es Data Network x Multiplos pontos de x Bases de dados Oracle ou contacto website call center e loja Microsoft SQL Xx tecnologia wireless Rel t rios x Identifica o srs regras x Mais de 50 relat rios pre definidos no li nd ri e eae como resposta a uma campanha toc a ROI vendas sales clickstream x e mplementa o automatica de produtos mais vendidos produtos Ega menos vendidos falhas frequentes Entrada manual optional em em pesquisas Ingl s Xx Relat rios Ad hoc x Gerenciador de regras e de Representa es por tabelas e conjuntos de regras gr ficas Filtera o to bloco de regras Updates autom ticos inapropriadas ou ofertas para quais Centro de analise baseada na Web n o existe stock x Acesso por browser Reposit rio unificado para relat rios visualiza es data mining investiga es e ferramentas OLAP Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas Transforma o dos dados X Transforma es de dados Integra o agrega o adicionar add colunas x Integra o visual EJB XML apaga colunas filtra ordena e une Microsoft COM DC
17. As respostas devem ser objectivas com um leve toque de marketing Actualiza es de Conte do Existe sempre o desafio de fazer o cliente voltar ao site Para isso necess rio que este esteja constantemente acrescentando conte do que interesse ao utilizador E mail Directo Com um formul rio simples e apenas um e mail poss vel criar uma base de dados de e mails para enviar aos clientes que solicitarem as novidades ou actualiza es do site fe Outra coisa que funciona bem a pergunta Gostou deste site Se Sim envie essa p gina a um amigo Promo es e concursos Uma pesquisa indicou uma das palavras atractivas aos utilizadores a palavra gr tis Realizar promo es promover concursos com pr mios disponibilizar downloads s o atractivos que sensibilizam o utilizador a sempre voltar ao site Divulga o em media convencional e Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais Ten E E E ee ee e e ee ee e ee ET EEE ee ee ee a a a a a eE E an fe An ncios em jornais revistas r dio IVs brindes e t shirts promocionais ainda s o a maneira mais eficaz de se atingir o p blico alvo Venda de espa o para publicidade Depois de intensificar o tr fego no seu site o espa o dispon vel nele ser valorizado para a coloca o de publicidade E importante estar atento a possi
18. Ramos 1998 A inteliegencia artificial aplicada aos outros campos caracteriza se por trabalhar sobre o conhecimento Aprendizagem autom tica Sua fun o fazer com que os dados sejam aprendidos pelos programas tornando os capazes de tomarem decis es atrav s de pensamentos que se fazem mais inteligentes cada vez que s o acrescentados mais heur sticas ou dados ao seu processamento 3 2 3 Tipos de Relacionamento entre Informa es Quando se implementam as t cnicas de Data Mining procura se extrair informa o para atingir determinados objectivos S o v rios os tipos de informa o que podemos obter com as t cnicas de Data Mining Isto nao quer a 36 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining dizer que s podemos obt las atrav s destas t cnicas de Data Mining mas com elas conseguimos atingir maior agilidade e abrang ncia na an lise destes O dois principais objectivos das t cnicas de data mining s o a previs o e a descri o A previs o envolve a utiliza o de vari veis ou campos da base de dados para prever valores futuros ou outras vari veis de interesse A descri o procura encontraar padr es que descrevam os dados A previs o e a descri o utilizam as seguintes t cnicas de data mining Classifica o Classifica o uma fun o de aprendizagem que classifica os dado
19. cios on line Deve se tomar cuidado ao seleccionar o fornecedor desses servi os Quanto maior o numero de linhas e quanto maior a taxa de transmiss o menor a ocorr ncia de congestionamento Outro cuidado verificar a exist ncia de uma firewall para garantir a seguran a do seu site Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 Processo de Conhecimento do Data Mining ao Web Mining s principais caracteristicas t cnicas algc algori imos e aplica es ae uma das fases aa descoberia ae conhecimento o Data Mining Sao abordados os benificios e as aplica es do ext Mining processo ESA se pode oo conne cimen ito ii grandes E s o exp licad los as EPE E b Minin eb Content Mining Web Structure Mining Sendo referidas as usas carateristicas e reas de aplica o Este capitulo tamb m inclui as principais Linguagens utilizadas na Web e as linguagens para a extrac o de conhecimento Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ten SS m aea e aee m aeea ma aee ma aea ma aen ma aeea ma ea ma aea ma men ma aen ma mea ma aea ma men ma aea ma mena mea aen ma aen ma aea ma aeea ma ae a aen ma aen ma meeen ma aen ma aea ma aea ma aen ma aea ma aea ma aea ma aeea TITE ot ain 3 1 Processo de Conhecimento Com o avan o da tecnologia inform tica e com a descida do custo do
20. e sum rios compreensivos Pos processamento dos resultados das pesquisas da linguangem MINT filtros ordena o exporta o Exporta o de p ginas t Execu o em bach Relat rios para guardar os resultados das pesquisas e comentarios Servi os on line baseados em conhecimento ndice Remissivo A ASP 24 62 63 C C5 0 VI 79 89 118 cache IX 58 59 60 CART VII classifica o VII 13 31 40 51 52 56 68 74 75 80 122 123 Classifica o VII 37 Clustering VII 37 75 com rcio electr nico 12 25 68 Comercio electr nico VII Comercio Electr nico VII VIII D Data Mining IX XI 32 33 34 35 36 38 40 41 44 45 46 47 48 49 53 65 67 68 69 71 72 73 79 86 112 116 118 136 137 Datamart VIII 73 E EBusiness VIII H HTML VIII XI 56 58 61 62 63 70 O ODBC IX 62 PO pe Indice Remissivo OLAP IX 33 41 42 77 P PageRank 55 56 115 PMML 64 65 precis o 75 76 77 79 81 83 100 127 149 Precis o 76 Proxy IX 18 R Redes neuronais X S SQL X 16 33 62 77 78 136 T text mining 50 51 Text Mining X 50 51 52 V Vortal XI W Web Mining XI 53 121 X XML XI 56 61 64 65 70 102 118
21. hor rias pelos sites visitados URL browsers totais de p gina e visitas os totais das entradas e sa das das p ginas string de pesquisa etc As estat sticas produzidas pelo Webanalyzer s o t Acessos Hits Eesti a A LTE iiti iii Latas pianail Qualquer pedido ao servidor e registado no ee E ficheiro de registo de acessos considerado A um acesso Os pedidos podem ser de p ginas html gr ficos imagens ficheiros de audio scripts de cgi etc O n mero total de pedidos representa o n mero de pedidos feitos ao servidor em determinado per odo ppt f iii fe Ficheiros Alguns do pedidos feito ao servidor requerem que seja mandado ao cliente por exemplo uma p gina html ou um imagem Quando isto acontece considerado um ficheiro e o total de ficheiros incrementado A rela o entre os acesso e os ficheiros pode se descritos em termos de pedidos que chegam incoming requests e respostas que saiem outgoing responses fe Paginas Pageviews Geralmente um documento HTML ou algo que gera um documento em HTML considerado uma p gina Isto n o inclui os components as p ginas como imagens ficheiros de audio etc Este n mero representa o numero de p ginas pedidas MET a LO Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas Mm E ha Sites Cada pedido feito ao servidor vem de
22. m Por isso e por outros in meros exemplos das t cnicas de Data Mining este conceito cresce em import ncia principalmente nas empresas preocupadas com o futuro do neg cio As t cnicas de Data Mining acompanham o evolutivo mundo dos armaz ns de dados Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 2 2 Base das t cnicas de Data Mining As t cnicas de Data Mining est o baseadas na Estat stica em Intelig ncia Artificial e em aprendizagem autom tica conforme apresentado na figura 1 Mathematics Heuristics Statistics Artificial Intelligence Machine Learning Business Applications Data Mining FIGURA 4 BASE DE UM DATA MINING A estat stica a base de todas as outras tecnologias criadas para Data Mining Conceitos como distribui o normal vari ncia an lise de regress o desvio simples an lise de conjuntos an lises de discriminantes e intervalos de confian a s o utilizados para realizar as pesquisas nos dados bem como analisar e descobrir relacionamentos entre os mesmos Intelig ncia Artificial A Intelig ncia artificial a disciplina que tenta compreender os mecanismos atrav s dos quais os seresvivos se baseiam e que permitem que estes posssam apresentar um comportamento dito inteligente A Intelig ncia Artificial pode ser aplicada sobre dispositivos e equipamentos e equipamentos de modo que estes pare am exibir comportamentos inteligentes
23. o e compara o de taxas de erro O desenvolvimento de um modelo deve permite analisar tanto os casos negativos como os casos positivos de um conjunto de dados por exemplo os clientes compradores dos n o compradores Em alguns casos especialmente nos grandes sites de venda existem milhares de amostras a partir dos quais se podem desenvolver modelos que ajudam a prever situa es futuras No entanto num site de vendas existem m ltiplos produtos ou servi os o que trona necess ria a constru o de modelos separados para cada um Se n o existem amostras negativas ou positivas o m todo mais utilizado nestes casos o clustering ou a aprendizagem n o supervisionada Este m todo torna se mais dif cil que a classifica o mas torna se absolutamente necess rio O clustering pode ser utilizado para a descoberta de padr es de consumidores Os revendedores tamb m utilizam muitas vezes regras de associa o para definir a posi o de certos produtos que tende a ser vendidos em conjunto Por exemplo os consumidores que compram vinhos tamb m compram queijos Padr es semelhantes tamb m podem ser descobertos num website comercial Por exemplo os produtos que s o comprados ao mesmo tempo e as sequ ncias de compra ou seja um consumidor compra um produto hoje e dias mais tarde volta compr lo Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Co
24. periodicamente as p ginas mais acedidas pelos os utilizadores do servidor acelerando assim a sua AN navega o e economizando Modem computer proxy o encaminhamento do link Internet WebMail Permite a visualiza o de e mails pela Web em ch qualquer parte do mundo sem necessidade de configura o ou lt 2 E instala o de novos programas no computador em utiliza o Servi os on line baseados em conhecimento Conceitos Gerais 2 2 Natureza do Site O site a parte estrat gica principal para fazer neg cios on line Determinar a natureza do site definir se o neg cio que se quer implantar na Internet ser uma loja um site que fornece informa es business to business business to consumer etc Quanto natureza os sites podem ser classificados como Institucionais Sua finalidade apresentar a empresa ao visitante N o realizam vendas e as informa es que fornecem em geral s o apenas sobre a empresa muito utilizado por empresas que apenas querem marcar presen a na Web Lojas Virtuais Sao destinado vender produtos ou servi os Podendo ser do tipo business to business ou B2B empresas que vendem produtos ou servi os para outras empresas ou business to consumer ou B2C vendem produtos directamente ao consumidor Leil o on line Tem por objectivo intermediar a compra e a venda de mercadorias na Internet por meio de leil o Os produtos oferecidos s o relacionados por
25. t Gerador de regras O gerador de regras compara as regras para ajudar a encontras as regras com a maior ou menor variabilidade exemplo em lojas per odos de tempo tipo de cliente ft Visualiza o e explora o interactiva de regras O XAffinity suporta a explora o de regras interactiva de um conjunto de regras As regras podem ser vistas e exploradas em m ltiplas dimens es medidas e itens Exclusive Ore XAlfinity Rules Sloop SuperMPartition AQ 5 x ty File Edt wew Ega medo Toole Visualizer ander Hp at Bla Comhdence 13 048 917 O Confidence lt 26 63 622 B Confidence lt 42 52 476 Confidence lt 55 56 49 Conhdence lt 69 60 193 o Confidence lt 83 24 116 Conhderce lt 96 87 60 Du 00 z B Confidence i J6 BE 1 100 6008 1200 16 00 2400 3000 3003 Support APPLES BREADS AND HOLLT Mon 45 025 E APPLES COLD CUTS 5 Fa TABEX g ar 153 APPLES COLD CUTS T Mon Wa REA 7 ME PESE TR Then Bi srie pi be APPLES FLUID MILE T Mon 2755 Fules Data source Stoop Microsoit SQL Serer 16 2002 FIGURA 32 EXPLORACAO DE REGRAS Acesso directo aos dados A extrac o de conhecimento feito directamente nos dados eliminando a necessidade de reformatar os dados Hierarquia de suporte A extrac o de conhecimento pode ser feita nos produtos ou na p gina de Web categorias
26. Internet permitindo a comunica o em todos os outros computadores que tamb m estejam ligados rede Esse acesso pode ser de dois tipos Utilizadores individuais Em geral pessoas f sicas que se conectam Internet por diversos objectivos desde utilizar recursos de correio electr nico at divulga o de servi os pessoais Normalmente o seu acesso do tipo dial in entre seu computador pessoal e as instala es de um ISP Por utilizadores Institucionais linhas dedicadas S o empresas que conectam parte ou toda a sua rede Internet com o objectivo de fornecer acesso Internet para os seus funcion rios utilizar a Internet como meio de comunica o entre filiais e clientes ou mesmo pr tica de com rcio atrav s da Internet Para que o utilizador possa aceder Internet necess rio que atrav s do seu computador possa ligar ao ISP Quando o servidor de comunica o atende estabelecido um canal de comunica o entre ambas as partes Essa comunica o mantida atrav s de uma central telef nica Nesse processo de conversa o utilizador identifica se para o servidor com login e password e ganha um endere o IP para poder navegar na rede As informa es que deseja enviar ou receber atrav s da Internet podendo ser nesse caso uma mensagem ou uma solicita o de um site pode ficar na rede local no servidor ou sair pelo canal de comunica o do servidor para a Internet Esses dados que saem de um
27. LookSmart LY Lycos LS DP Dogpile LY 12 Source NetRatings for Classifica es de junho de 2002 SearchEngine atch com DP 2 6 123 Servi os on line baseados em conhecimento Anexos the ll the ti alitneweo http www alltheweb com A h http www yahoo com msn http search msn com search http www aol com http www lycos com Netscape ttp home netscape com AllTheWeb com tamb m conhecido por FAST Search um dos maior indexes da web FAST oferece indexes de multimedia e indexes mobile wireless Os resultados do FAST s o dados a in meros portais incluindo Terra Lycos FAST Search foi lan ado em maio de 1999 Yahoo o motor de pesquisa mais popular da web para encontrar facilmente informa o Yahoo tem mais de um milh o de sites inscritos Yahoo tamb m mostra resultados do Google Se a pesquisa falha o Yahoo compara os resultados do Google e estes s o mostrados Os resultados do Google s o mostrados depois das do Yahoo Yahoo o motor de pesquisa mais antigo tendo sido lan ado em 1994 O motor de pesquisa MSN da Microsoft uma complila o do LookSmart Directory e AltaVista Os dados do RealNames e Direct Hit tamb m est o dispon veis MSN permite aos utilizadores do Internet Explorer 5 ou superior de guardar pesquisas anteriores O motor de pesquisa AOL permite pesquisar na Web e na lista de conte dos do AOL A lista principal de catego
28. Mining que permite extrair conhecimento do conte do das p ginas web textos gr ficos imagens o Web Structure Mining que permite extrair conhecimento da organiza o de links da Web e Web Usage Mining que permite extrair padr es interessantes dos logs dos servidores web Dentro deste tr s campos existem inumeras aplica es das suas t cnicas que v o desde do com rcio electr nico a pesquisas de informa o nos motores de pesquisa Paralelamente ao desenvolvimento das t cnicas de web mining foram desenvolvidas outras tecnologias nomeadamente o XML e do RDF que vieram contribuir para para o avan o da pesquisa de informa o e para a recolha de dados Estas duas tecnologias est o na base do desenvolvimento de outros conceitos como Semantic Web que tem como objectivo compreender a informa o existente na Web Este conceito neste momento o centro da maior parte da investiga o que se faz na Web e acredita se que a curto prazo passaremos do conceito de com rcio electr nico a neg cio electr nico com os sites a negociarem directamente entre si sem interven o do utilizador No decorrer deste trabalho foram encontrados diversos obst culos sua realiza o pelo facto de ser uma rea relativamente recente e de n o temos acesso maior parte das ferramentas o que torna o estudo mais emp rico e menos pr tico Tamb m muita da informa o encontrada estava desatualizada e por vezes contradit ria dado que o
29. O Data Mining Suite trabalha directamente em reposit rios de SQL sem necessidade de amostragem ou extrac o de ficheiros Acede a grandes volumes de dados nas tabelas de um servidor consoante as descobertas cria padr es e gera automaticamente textos em ingl s e gr ficos bem como documentos explicativos na Internet Generator FIGURA 27 DATA MINING SUITE A aplica o de Data Mining Suite baseada totalmente para o suporte a decis o A implementa o do servidor baseado na arquitectura das tr s camadas que permite grande escalabilidade de descoberta nas grande bases de dados de SQL com mais de 90 de desempenho no servidor O Data Mining Suite pode ser distinguido pelas seguintes capacidades t Acesso directo a grandes bases de dados O Data Mining Suite trabalha directamente com grandes bases de dados SQL e n o requer amostras nem extrac es para ficheiros flat que perdem as funcionalidades do SQL o que leva a marginaliza o de resultados A outra vantagem de a capacidade de lidar com dados num ricos e n o Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos num ricos uniformemente O Data Mining Suite n o fixa amplitudes nos dados num ricos atecipadamente mas descobre as suas amplitudes dinamicamente t A descoberta em multi tabelas O Data Mining Suite descobre padr es em multi tabelas em bases de dados SQL sem ter que
30. Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais Tien i E es o em geral gratuito Ent o responde se a um question rio que pergunta as nossas prefer ncias habilita es sal rio etc Essa informa o vital para a sobreviv ncia das empresas Qual o empres rio que n o gostaria de saber o perfil do seu cliente o que compra como compra e quando compra Quais suas prefer ncias como encontra lo Mesmo sem preencher question rios poss vel saber outros dados como o hor rio de mais acesso Internet os sites de maior prefer ncia etc O pre o dos produtos e servi os O pre o dos produtos na Internet devem de uma forma geral ser mais baratos do que no mercado g convencional uma vez que n o existe necessidade de se manter grandes stocks ou um grande n mero de funcion rios Ao estabelecer os pre os aconselh vel que o _ seu pre o seja mais atractivo do que o do seu concorrente agora esta a um clique de dist ncia pois os clientes certamente ir o procurar as melhores ofertas O pagamento As formas de pagamento mais utilizadas s o a transferencia banc ria cart o de cr dito dep sito banc rio pagamento nos correio e outros Um factor que tem mais import ncia a seguran a nas transac es Devido aos frequentes ataques de hackers o consumidor n o se sente seguro em c
31. Uma boa ferramenta baseada em Arvore de Decis o permite que o utilizador explore a rvore de acordo com a sua vontade do mesmo modo que ele poder encontrar grupos alvo que lhe interessem mais e a ampliar o dado exacto associado ao seu grupo alvo Os utilizadores podem tamb m seleccionar os dados fundamentais em qualquer n da rvore movendo o para dentro de uma ferramenta para an lise posterior As rvores de decis o s o quase sempre usadas em conjunto com a tecnologia de Indu o de Regras mas s o muito importantes no sentido de apresentar os resultados da Indu o de Regras num formato com prioridade A regra mais importante apresentada na rvore como n raiz e as regras menos relevantes s o mostradas nos n s subsequentes Exemplos de ferramentas Alice d lsoft HyperParallel Discovery Business Objects BusinessMiner DataMind Angoss Knowledge Seeker Indu o de Regras A Indu o de Regras rege se como uma lista apresentada aos utilizadores atrav s da detec o de tend ncias dentro de grupos de dados ou de regras sobre o dado com pouca interac o do utilizador Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining O analista de neg cio neste caso tem que fazer a ordena o das regras por import ncia determinando aquelas que s o mais importantes no modelo de Data Mining e para os assuntos
32. and the RED CAR appears frame D htm on the central frame BUT THE RED CAR IS NOT THE ONLY THING IN VIEW Log Screen New File d path him _ipath B htm pat him _ pathiC Atm 4 pathi tm alpath D htm patitAchtm Jpath B htm md path D htm Conventional LogPlus inserts a Log2Screen Log File only record for each generates one registers each component thal is record of each file Sent by viewed together screen show as the web a Unit bobo ihs ee Server same format as een no Lae Ste a conventional htm log fie FIGURA 28 REGISTO DE ACTIVIDADE Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos TT OK Log visita todos os sites externos que contem um link para o site alvo e que geraram um visita e faz uma an lise exaustiva sobre o contexto do link e qual a actividade principal do site que originou a visita E tmses penile dat almada da A Googli Terbar Origem e Destino Para cada MetaScreen Ok Log gera um relat rio com a origem principal e destino do MetaScreens Ser 14 FAQ Cc Um te Um Sercen_ ET feet ee Screen 4 PRODUCTS Sereen 3 DESCRIPTION Main Origin MetaScreens ERES Main Destination MetaScreens Sercen 14 FAQ Screen 7 Download 431 24 St 139 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em
33. assunto referente a este trabalho um campo de investiga o que est em constante renova o Como as empresas ligadas a esta rea o que pretendem vender os seus Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conclus o produtos tendem a oferecer as suas solu es como solu es magicas esquecendo se que por tr s das das t cnicas de data mining existe todo um processo de apoio e que depois de aplicadas h que as integrar na empresa analisando os seus resultados Apesar das dificuldades foi feita uma an lise cr tica profunda informa o especialmente oriunda da Web tentando extrair a informa o importante e util tendo muitas vezes que limpar informa o incorrecta e completar outra inexistente Poder se ia afirmar que esta foi a parte pr tica uma vez que se realizou um pouco de web mining manual O futuro ir passar cada vez mais pela Internet e com a velocidade das inova es tecnol gicas as t cnicas que permitem prever um futuro pr ximo ser o cada vez mais necess rias aS empresas para que estas possam atrair e manter clientes e para se manterem a frente da sua concorr ncia No entanto o futuro n o se resume a isto existem outras reas de investiga o que est o correntemente a serem investigadas desde da representa o de dados a pesquisas complexas ao modo de uso de informa o complementar utiliza o de
34. base de dados formal Isto elimina a obrigatoriedade de aplicar estas ferramentas em Armaz ns de dados Deve se por m real ar que para ter maior xito na descoberta de associa es nos dados ou ainda transform los como base para tomada de decis o o mais indicado ter estas ferramentas a trabalhar dentro de dados bem organizados e abrangentes que um dos objectivos ao criarmos armaz ns de dados ou DataMaris reas de uso As tr s grandes reas de uso de um Data Mining de modo simplificado s o t Cruzamento de vendas Cross selling Identificar associa o entre produtos procurando tirar proveito dessas associa es Descobriu se numa determinada cadeia de lojas que ao comprar um brinquedo geralmente eram tamb m compradas barras de chocolate t Aumento das vendas Up selling Identificar entre os clientes actuais aqueles que tem potencial para adquirir produtos que proporcionem maior lucro para a companhia Atrav s da defini o de um perfil de utilizador que compra um produto podemos determinar que outros utilizadores do mesmo perfil e que ainda n o tem este produto venham a compr lo t Fideliza o Combinar e descobrir factores que causem a perda de clientes e como forma de economia manter estes clientes o que mais barato que conquistar novos Descrevendo alguns exemplos em determinadas reas de aplica o de notar o poder das t cnicas Data Mining e como elas podem determinar
35. campanhas podem ser usadas para criar grupos que podem fazer teste de mercado que podem testar desde mensagens de publicidade a designes de novos produtos CEPBPJBBJPAPMAA a V Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas Blue Martini Software Module Detail Data mining O modulo de data mining fornece uma an lise das capacidades para compreender os clientes e encontrar informa o relevante no meio de um amontoado de dados Data mining exp em subtis padr es que prev em e levam a personaliza o em todos os pontos de contacto Fecha uma ciclo entre an lise e as vendas que prev em a produ o de mecanismos que geram lucro e vantagens competitivas O valor das previs es O Data mining invoca algoritmos que identificam regras de significados estat sticos e associa es escondidas na hist ria das rela es dos clientes Mining produz recomenda es n o obvias baseadas no cruzamento dos dados Tamb m gera modelos que prevejam tend ncia de um indiv duo para comprar baseados nos dados demogr ficos e no historial de encomendas A personaliza o do modulo feita por regras associa es e modelos para apresenta o aos indiv duos de conte dos ofertas promo es para maximizar as vendas Resultados Quando s o analisados os resultados do mining para melhorar e compreender o comportamento do cliente Mas contudo p
36. conhecimento Anexos ie Mm ih O caminho que o utilizador utilizou Produtos OK LOG v2 01 permite responder as seguintes perguntas ft Qual a origem dos visitantes do site ft Qual o seu comportamento Benef cios t traduz a informa o do site em informa o til Converte os dados t cnicos em informa o de marketing f Identificas as reas mais visitadas do Site OK Log permite a visualiza o do que o utilizador est a ver no cran e d informa o adicional sobre Quais s o as p ginas mais vistas no site Quais os caminhos que o utilizador utiliza para navegar no site fe Qual a media de tempo gasta em cada pagina Saber quais os links que est o em baixo antes que o utilizador chegue la SZ 140 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Customer Centric pm netgencom NetGenesis tecnologia permite a identifica o de visitantes e clientes e transforma o seu comportamento em informa o til NetGenesis tecnologia permite compreender o comportamento dos utilizadores nos enumeros Web sites Suporta todos as t cnicas de recolha de dados e t cnicas de leitura de ficheiro de registo de acessos Suporta centenas de site com grande volumes de visitas e com grande escalabilidade Caracter sticas da solu o de E business ft E metrics quantifica o desempenho
37. da Web de cada empregado Poder ver em modo gr fico exportar ou e mail os relat rios do servidor firewall de proxy A informa o sobre a actividade para cada empregado na Web detalhada pelo seguintes atributos Browser data dia da semana departamento dom nio c digo da p gina erro servidor palavras chave p gina plataforma dura o de sess o Page site p gina inicial Trafego utilizador Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Requisitos de sistema Windows 95 98 Me NT 2000 XP UNIX Mac OS X v10 0 f Pentium Pentium Il Pentium Ill recomendado t 32 MB de RAM m nimo 64 MB recomendado t 40 MB de espa o disco livre mais os espa o para os ficheiros de registo de acessos Servi os on line baseados em conhecimento Anexos Prudsys ECOMMINER Q prudsys ah htto www ecomminer com index html A familia dos produtos ECOMMINER sao baseados em algoritmos de data mining que analisam base de dados INTERSHOP ficheiro de registo de acessos e outras bases de dados que contem informa o sobre o comportamento de navega o e das compras efectuadas Todos os produtos ECOMMINER tem uma arquitectura cliente servidor e s o integralmente implementadas em Java para ser independentes da plataforma em que correm BusinessReports editon uma solu o para administradores que procuram reposta a pergu
38. dados estat sticos Conjuntamente com estas areas existem outros desafios ao processo de conhecimento como a dimensionalidade e a sobreposi o dos dados o seu significado estat stico a mudan a constante dos dados e do conhecimento os dados que faltam ou que est o incompletos o ru do existente nos dados as complexas rela es entre as vari veis o pr processamento dos dados a compreens o e avalia o dos padr es descobertos a interac o homem m quina as quest es de seguran a e a integra o com outros sistemas Sendo assim este campo de investiga o est constantemente a ser alterada e est o sempre a surgir id ias novas sendo por isso o seu futuro imprevis vel Servi os on line baseados em conhecimento Refer ncias Refer ncias fe DWINFOCENTER 2000 Equipe The Data Warehousing Information Center Data Mining http www dwinfocenter org datamine html fte THEARLING 2000 THEARLING Kurt Data Mining CRM Decision Support and Database Marketing Kurt Thearling http www3 shore net kht text dmwhite dmwhite htm fe GIL amp RODIGUES 2001 Gil Nuno e Rodrigues Ricardo Text Data Mining Seminario de Analise Inteliente de Dados www dei uc pt backoffice files 1008772001 ppt fe Advisor 2002 Data Mining for E Business http Awww advisor com Articles nsf aid FRASS252 f Silva 2000 Silva Ediberto Magalh es Avalia o do estado da arte e produtos Data Mini
39. de Data Mining e asseguram que esta seja compat vel com os requerimentos dos neg cios actuais Esta modela o permite alertar para poss veis obst culos como a falta de certos dados necess rios an lise Outro benef cio a documenta o de todo o processo de extra o de conhecimento As seguintes ferramentas de modela o podem assegurar o sucesso do processo Produto Vendedor Website Corporate Modeller Casewise Systems www Casewise com ProCarta Domain Knowledge www Domainknowledgeinc com Aris Toolset IDS Scheer www lds scheer com LiveModel IntelliCorp www Intellicoro com Workflow Modeler Meta Software www Metasoftware com Designer 2000 Oracle www oracle com Aion Platinum Technology www Platinum com Provision Workbench Proforma www Proformacorp com Visio Visio www Visio com Tabela Ferramentas de modela o Identificar o potencial dos novos clientes do Website provavelmente o objectivo mais comum do processo de extra o de conhecimento A classifica o mais comum envolve a descoberta de atributos caracter sticas ou perfis dos clientes do website A classifica o t pica e a distin o dos clientes lucrativos de clientes n o lucrativos Especificar as tend ncias de venda dos produtos no Website A descoberta das tend ncias ou rela es entre certas p ginas que representam produtos individuais ou servi os ou seja o objectivo das t cnicas de Data Mining a descoberta de associa es
40. de e business f Identifica o unica de indiv duos individuais Perfil dos visitantes e previs o do seu comportamento na Web Efic cia dos seus afiliados CustomerCentric permite avaliar a efic cia dos seu afiliados capturando o identificador de um utilizador especifico ligado a um website de um parceiro e determina os canais mais lucrativos e seguir os seus clientes mais lucrativos e identificar os servidores de conte dos que eles procuram Sendo assim o CustomerCentric permite t Efectuar relat rios sobre o numero de pessoas que visitaram o site O tempo que ficaram e qual a percentagem de utilizadores que se converteram a clientes ft An lise dos servidores de conte dos gt Identifica o dos clientes mais lucrativos fe Seguir os clientes mais lucrativos e executar campanhas directamente direccionadas para esse clientes Articular o ROI com as renova es de contractos e os novos contractos resultantes das campanhas de marketing T er SK see T 1 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Efic cia do Com rcio O site que tem como obectivo as transac es comercias querem que os seus utilizadores se registem subscrevam fa am downloads comprem os seu produtos ou que fa am alguma ac o que lhes permita quantificar e optimizar OS seus neg cios O CustomerCentric permite compreender as circunst
41. de neg cios envolvidos Exemplos de ferramentas IDIS Knowledge Seeker Redes Neuronais As redes neuronais oferecem o mais profundo poder de explora o dos dados Por m a t cnica mais dif cil de ser entendida pelo utilizador final As apresenta es internas de como os padr es e os modelos foram achados nos dados n o s o mostrados Estas caixas pretas s o inexplic veis o que faz desta t cnica inaceit vel para alguns analistas de neg cios Utilizam um modelo id ntico ao dos neur nios e suas liga es sinapses do c rebro humano como suporte para trabalharem com um conjunto de dados Aprendem a partir do treino sobre esses dados generalizando padr es aplicando os internamente para classifica o e previs o de resultados conforme a figura 6 FIGURA 8 ESTRUTURA DE UMA REDE NEURONAL Cada neur nio tem geralmente um conjunto de pesos que determina como o neur nio avalia a combina o dos sinais de entrada A entrada para um neur nio pode ser positiva ou negativa A aprendizagem faz se pela modifica o dos pesos usados pelo neur nio de acordo com a classifica o de erros que foi feita pela rede como um todo As entradas s o geralmente pesadas e normalizadas para produzir um procedimento suave Durante a fase de treino a rede estabelece os pesos que determinam o comportamento da camada intermedi ria O termo propaga o retroactiva back propagation usado quando os pesos s o ajustados basead
42. detectar fraudes reduzir riscos de neg cios e aprimorar servi os e com rcio electr nico No entanto a nova vers o do software re ne uma s rie de fun es e interface mais interactiva que facilitam e agilizam todo trabalho anal tico O CRM CAT por exemplo ajuda a aumentar o lifetime value de um cliente revelando informa es que contribuem para prever taxas de resposta de ac es promocionais O software agora conta com a fun o Operation Reordering para reordenar automaticamente as opera es de modo a enviar quantidade de tarefas do Clementine para a pr pria base de dados o que resulta em melhoria do desempenho e diminui o do tr fego na rede Outra novidade o Expression Builder sistema que permite seleccionar fun es de opera o selec o de campos e manipula o de dados a partir do mouse o que minimiza erros no processo e o trabalho de digitar express es complexas A ferramenta tamb m faz subdivis o de grupos de dados de acordo com caracter sticas peculiares e apresenta um novo algoritmo sequencial para identificar padr es de informa es em ordem cronol gica e fazer previs es sequenciais O Clementine 6 5 chega com outras fun es aperfei oadas o caso da Web mining CAT usada para colher dados e fazer projec es sobre actividades do Web site O sistema vem com quatorze novos modelos de mapeamento streams com espa os para registrar logs comuns estendidos e Microsoft IIS O dispositivo p
43. do Problema Extrair o conhecimento de um website envolve um planeamento avan ado sobre o tipo e o n vel de informa o que se pretende capturar no servidor e que dados adicionais ser o necess rios Isto por si s garante os esfor os de Data Mining de forma a produzir resultados de neg cio mesur veis Por exemplo necess rio planear que tipo de informa o ficheiros de registo de acessos cookies e formul rios se pretende capturar dos visitantes De seguida necess rio envolver todos os campos de neg cio de forma a decidir que tipo de informa o necess ria para juntar aos dados vindos do servidor Uma planifica o avan ada pode poupar tempo e dinheiro na an lise de data mining e pode traduzir se em resultados r pidos e assegurar o sucesso de an lise de Data Mining do website N o esquecer o princ pio que ter muitos dados melhor que n o ter nenhuns Tamb m n o esquecer quais s o os objectivos de neg cio e de marketing e qual o tipo de dados que s o necess rios para obt los Neste passo de planeamento s o necess rias ferramentas de modela o e t cnicas para constru o de planos para a cria o de um mapa para a etapa de Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web gt L 5 aa data mining As t cnicas de modela o formam uma funda o para a aplica o das t cnicas
44. dos servidores s o enviados para o router que realiza o encaminhamento das informa es at outros pontos at que possa alcan ar o seu destino TT a Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais Antes de chegar ao destino o pedido pode passar por v rios pontos router A quantidade de pontos depende da localidade do site requisitado Os servi os extras que o fornecedor de servi os pode prestar s o E mail S o servi os que permitem a troca de mensagens entre utilizadores atrav s da Internet S o os servi os de maior alcance da Internet pois permitem a troca de mensagens tanto com utilizadores de outras redes de servi os como com utilizadores de redes internas n o totalmente interligadas Internet O funcionamento desses servi os tem como base um endere o conhecido como endere o de correio electr nico e mail address cujo formato apelido dominio onde apelido representa a identifica o de uma caixa postal para recebimento de mensagens e dom nio representa o nome do dom nio do equipamento que pode localizar essa caixa postal Servidor FTP o servi o FTP File Transfer Protocol o servi o padr o da Internet para a transfer ncia de arquivos entre computadores A partir dele utilizadores podem obter ou enviar arquivos de ou para outros computadores da Internet Servidor Proxy servidor espec fico que arquiva
45. e tipo de registos Em regra os algoritmos de aprendizagem autom tica t m melhor desempenho em conjuntos de dados com um grande n mero de atributos categ ricos e com grande n mero de campos por registo Os algoritmos de redes neuronais funcionam melhor em campos num ricos Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web ia SS 5 o 4 6 1 Escalabilidade A medida que os ficheiros de registos de acessos e os registos das base de dados aumentam tamb m o desempenho da ferramenta utilizada deve aumentar Escalabilidade significa que tirando partido das base de dados paralelas de sistema e dos processadores adicionais o utilizador capaz de trabalhar com mais dados construir mais modelos e melhorar a precis o geral adicionando processadores Com o aumento dos dados tamb m aumenta a complexidade n o s no n mero de registos mas tamb m no numero de atributos vari veis e padr es do website Se a plataforma utilizada n o tem a possibilidade de escalar a natureza computacional da ferramenta de data mining vai atrasar e eventualmente matar o sistema de suporte decis o 4 6 2 Precis o A precis o medida pela taxa de erro do algoritmo que prev os modelos Existem diversas formas de avaliar a previs o Pode ser medida como o grau de erro que determina at que ponto que as respostas bram erradas ou se houve alguma resposta Na selec o de uma ferramenta deve se procura
46. es relevantes e de interesse do utilizador 3 2 5 As t cnicas e os algoritmos mais utilizados em Data Mining rvores de Decis o Nas rvores de decis o os valores que s o encontrados com forte associa o s o os progn sticos chaves ou factores explicativos normalmente chamados de regras sobre o dados As rvores de decis o s o meios de representar resultados na forma de rvore conforme a figura 5 e que lembram um gr fico organizacional horizontal Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ten z E RE EEE CTT TT Toto a E m an Rend gt 500 Rend lt 500 Desp gt 400 Desp lt 400 Desp gt 400 Desp lt 400 Desp gt 50 Rend And Desp lt 50 Rend Desp lt 75 Rend Desp gt 75 Rend FIGURA 7 ESTRUTURA DA ARVOREDE DECISAO Possuindo um grupo de dados com numerosas colunas e linhas uma ferramenta de arvore de decisao pede ao utilizador para escolher uma das colunas como objecto de sa da e ai mostra o unico e mais importante factor correlacionado com aquele objecto de sa da como o primeiro ramo n raiz da rvore de decis o Os outros factores s o subsequentemente classificados como subn s dos n s anteriores Isso significa que o utilizador pode rapidamente ver qual o factor que mais direcciona o seu objecto de sa da e o utilizador pode entender porque o factor foi escolhido
47. es de navega o do utilizador dentro do site Num cen rio ideal para cada utilizador seria alocado um nico endere o IP cada vez que o utilizador visita o site E esperado que o utilizador visite o site mais do que uma vez e sempre com um objectivo diferente Sendo assim uma sess o de utilizador normalmente definida como uma sequ ncia de pedidos vindos do mesmo endere o IP sendo assim dois pedidos ser o separados por X minutos No entanto a identifica o de uma sequ ncia de pedidos feitos por um dado utilizador quando este visita um site uma tarefa mais complicada Nem todos os pedidos s o registados num ficheiro de registo de acessos e um utilizador pode alocar mais de que um endere o de IP durante uma nica sess o Sendo assim a etapa de prepara o de dados do Web usage mining exige um esfor o consider vel A primeira tarefa quando utilizamos um ficheiro de registo de acessos consiste em identificar todas as entradas v lidas O protocolo de transfer ncia de ficheiros utilizados na Web requer o estabelecimento de uma conex o separada para cada ficheiro pedido Sendo assim uma p gina HTML contendo imagens som ou v deo vai originar um pedido para cada ficheiro que contem Na maior parte dos casos a entrada do ficheiro de registo de acessos corresponde ao ficheiro pedido pelo utilizador e todas as outras entradas ser o ignoradas Outro aspecto relevante a ser tomado em conta quando um ficheiro de re
48. gt Processamento de sauda o ast Resposta HTML FIGURA 15 FUNCIONAMENTO DAS ASP Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Mm e PMML Predictive Model Markup Language Predictive Model Mark up Language PMML uma linguagem baseada no XML que permite s empresa uma forma r pida para definir modelos de previs o e partilhar esse modelos entre diferentes aplica es sem que quest es de propriedade sejam levantadas Permite aos utilizadores criar os modelos numa aplica o e depois visualizar analisar e avaliar noutra aplica o lt PMML version 1 1 gt lt TreeModel modelName golf gt etc lt Node score play gt etc lt TreeModel gt Base de dados lt PMML gt Algoritmo de Data Mining O modelo PMML pode ser usado em diferentes conte Formato do modelo PMML WD Visualiza o E lt PMMiy Verston 1 1 gt lt TreeModel modelName golf gt ew lt Node score play gt SEC lt TreeModel gt E lt PMML gt PMML data mining application ex previs o T a Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Vantagens fe um standard para Modelos de Data Mining Os modelo PMML s o independentes d
49. juntar ou construir um ficheiro de extracto Isto faz que o Data Mining Su te tenha um papel chave na extrac o de conhecimento em grandes bases de dados Assim as varias bases de dados multitabela podem servistas juntas numa nica vista tt Sem amostras ou extractos A amostragem foi inventada porque nao se tinha acesso a toda a informa o a ser analizada Mas os amazens de dados oferencem este acesso O Data Mining Su te trabalha com toda a base de dados mas tamb m trabalha com amostragem se utilizador insistir t Padr es O Data Mining Su te descobre padr es que v o para ale das rvores de deci o e simples afinidades As rvores de decis o s o muito limitadas e podem n o encontrar toda a informa o existente na base de dados Sendo assim o Data Mining Suite baseado em regras t Linguagens O Data Mining Suite tem uma linguagem de express es do tipo If then Tratamento uniforme de dados num ricos e n o num ricos O Data Mining Suite consegue lidade com diferentes tipo de dados Pode lidar com dado num ricos e n o numericos e automaticamente descobrir amplitudes dentros dos dados num ricos amp Arquitectura O Data Mining Suite tem uma arquitectura cliente servidor em tr s camadas O processamento feito num servidor Unix Iniciativa do sistema O Data Mining Suite inicia o processo de data mining e este automaticamente foema uma hip tese baseado nos dados e converte a hip tese em e
50. l pesquisa em 11 de dezembro de 2001 s00 a 525 www SearchEngineWatch com o LR _ o oe o N S 0 Algumas das pesquisas efectudas pelos motores de pesquisa s o feitas atrav s de palavras chave a que os produtos ou servi os dos sites est o relacionadas Se a p gina do site n o aparece no top do 10 ou 30 primeiros e a concorr ncia aparece n o importa o n mero de motores de pesquisa em que esteja inscrito a concorr ncia est a ganhar 122 Servi os on line baseados em conhecimento Anexos Ten lt lt e e o a lt em a ae a a ma aea ma aoa ma mana moa meaa ma aen ma mea ma mea Ma Tae ma aea a aoa ooo ECT as To e a a Uma das palavras que faz com que a p gina obtenha uma boa classifica o no motor de pesquisa a palavra gr tis atraindo assim tr fego para o site M todos de promo o do Web Site Classifica o de motor de pesquisa 66 E mail 54 Brochuras impressas 42 Cat logos impressos 40 Feiras 37 Tabela IV Metodos de promo o do Web Site O seguinte grafico mostra o n mero de pessoas que visitaram os motores de pesquisa durante um m s Algumas pessoas podem ter visitado mais do que um motor de pesquisa o que explica que o total das percentagens exceda os 100 Audi ncia 0 10 20 30 MSN YH GG Legenda AOL MSN MSN YH Yahoo Ad GG Gooegle AOL AOL IS AJ Ask Jeeves IS InfoSpace da OVR Overture GoTo AV AV AltaVista NS Netscape NS LS
51. link ou voltar para uma das duas p ginas anteriores ser a terceira page view Portal Porta de entrada na Internet Nome que se atribui a um conjunto de Web sites que assumem duas fun es aparentemente contradit rias mas que fazem sentido no universo ligado da World Wide Web Por um lado s o um reposit rio t o completo quanto poss vel de informa o sobretudo not cias e cr nicas e servi os correio electr nico gratuito grupos de discuss o chat etc pr prios Por outro lado proporcionam direct rios de links e ou servi os de pesquisa para acesso a Internet Prospec o de Dados Data Mining uma das fase do processo de descoberta de conhecimento que permite extrair padr es ou perfis de grandes bases de dados utilizando t cnicas de Intelig ncia Artificial t cnicas de estat stica e t cnicas de marketing Proxy um programa de cache colocado no servidor que fica entre o browser do utilizador e o site S Sistema de apoio decis o DSS Decision Suport System um sistema desenvolvido para ajudar as empresas m acesso a informa es cr ticas para os neg cios de forma r pida e segura agilizando as quest es relativas com a gest o e tornando a empresa cada vez mais competitiva Normalmente possuem interfaces gr ficas muito amig veis al m de permitirem um processo de personaliza o no sentido de atender as necessidades espec ficas de cada empresa Servi os on line baseados e
52. lise e explora o de dados em aplica es voltadas para relacionamento com cliente A SPSS l der em tecnologia de data mining e CRM anal tico lan ou um software de Data mining voltado para gest o de relacionamento com clientes O Clementine 6 5 traz como diferencial uma s rie de recursos baseados em templates CATs Clementine Application Templates que ajuda os utilizadores a montar passo a passo o mapeamento dos clientes bem como elaborar projec es de neg cios O sistema permite criar modelos que indicam migra o de clientes que produtos e servi os s o mais consumidos e utilizados em conjunto as p ginas e sequ ncias mais consultadas dentro do Website e outras informa es para incrementar as solu es de CRM Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas gt III o es a em os maos Es Neo oe E eo ER o o o e ET a E aa O Clementine 6 5 mant m as fun es b sicas do software original O programa ajuda a desenvolver modelos de previs o inclusive gr ficos indexados a cada quest o espec fica do neg cio identificar e classificar grupos de consumidores de acordo com perfil e comportamento faz agrupamento de casos entre outros Com base nessas funcionalidades os utilizadores podem tra ar o perfil do cliente identificar oportunidade de pr e p s venda atingir novo p blico alvo
53. mas mesmo assim o pre o continua a ser a principal limita o da sua utiliza o em larga escala Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining A tend ncia que estes pre os caiam devido ao amadurecimento e divulga o da tecnologia Grandes Bases de Dados O maior obst culo s t cnicas de Data Mining no passado foi a necessidade de armazenar e administrar grandes quantidades de dados e de servidores Isso por si s j dificultava bastante o crescimento no mercado das t cnicas de Data Mining No entanto a maioria dos fornecedores dessa tecnologia continua a insistir no discurso de que as ferramentas de Data Mining requerem terabytes de dados e poderosos servidores mas existem solu es mais acess veis no mercado Novidade e Complexidade Devido a ser uma nova gera o de ferramentas para a extrac o de conhecimento em grandes conjuntos de dados uma terceira barreira ainda permanece a grande maioria das ferramentas ainda continua incompreens vel para os utilizadores comuns De facto muitas ferramentas ainda fazem o seu trabalho numa caixa preta n o permitindo que se saiba como alcan aram os seus resultados Isso significa que a utiliza o da t cnicas de Data Mining ainda tem que ser feito no contexto da rea de sistemas a quem os utilizadores t m que submeter as suas solicita es esperar po
54. mesmo e dispon veis depois da an lise amp Que informa o interna e externa est dispon vel para an lise Os dados s o actualizados e relevantes para o objectivo de negocio ft Os dados de padr o de vida e demogr ficos est o dispon veis Dados do Web server log De acordo com as especifica es do HTTP do W3C um og comum cont m ft O endere o acesso de IP do cliente Data e hora de acesso t URL visitado tt Modo de pedido GET POST HEAD browser do visitante login e password se o servidor requer autentica o 128 101 228 20 10 Nov 1999 10 16 39 0600 GET HTTP 1 0 200 Mozlla 4 61 en WinNT D 128 101 228 20 10 Now 1999 10 16 39 0600 GET HEAD BEGRND jpg HATTP 1 0 304 http www es umn edu Movzilla 4 61 en WinNT I 128 101 228 20 10 Nov 1999 10 16 39 0600 GET HEAD UMN LOGO gif HTTP 1 0 304 http www cs umn edu Moglla 4 61 en WinNT D 128 101 228 20 10 Now 1909 10 16 39 0600 GET head bar jpg HTTP L 0 304 http www cs umn edu Mozilla 4 61 en WinNT 1 128 101 2328 20 10 Now 1999 10 16 39 0600 GET cs building gif HTTP 1 0 304 http verve es umn edu Movzilla 4 61 en WinNT 1 128 101 228 20 10 Nov 1999 10 16 39 0600 GET new git HTTP 1 0 304 http www cs um edu Mozilla 4 61 en WinNT I 128 101 228 20 10 Now1999 10 16 39 0600 GET ail bar jpg H
55. o estudo das t cnicas de Data mining que automaticamente extraiem informa o da Web Estas t cnicas permitem aos fornecedores de conte dos melhorar a qualidade do servi o do web site ou fornecer ao utilizador individual auxilio na navega o e na informa o contida no web site As t cnicas do web mining podem ser divididas em tr s campos de pesquisa web content mining web structure mining e web usage mining Web content mining um campo que foca o desenvolvimento de t cnicas que assistem o utilizador a encontrar documentos web que est o dentro de determinado crit rio O web structure mining procura desenvolver t cnicas para tirar partido da estrutura de links existente nas p ginas web Os links s o vistos como um mecanismo que d voto de popularidade aS p ginas que apontam Finalmente o web usage mining foca as t cnicas que procuram padr es no comportamento de navega o dos utilizadores da Web As t cnicas de Web usage mining permitem compreender as prefer ncias dos utilizadores atrav s do seu padr o de navega o ajudando a melhorar a topologia de um site de acordo como os objectivos de neg cio Esses objectivos podem ir desde da personaliza o das p ginas web a melhorar o tempo gasto no site ou introdu o de p ginas novas em lugares que possam ser facilmente vistas A popula o da Internet e o crescente progresso da tecnologia Web permitem que milhares de documentos sejam todos os d
56. o final Por isso necess rio pesar muito bem quais as op es do neg cio e do website e quais as ferramentas necess rias an lise e o tipo de an lise que se procura Muitas vezes o formato da solu o de data mining determina qual a ferramenta de data mining a utilizar fe Se necess ria uma explica o como os padr es nos dados da Web necess rio um algoritmo de aprendizagem autom tica como as rvores de decis o ou um gerador de regras amp Se for necess rio precis o e efici ncia mais adequado um algoritmo de redes neuronais Para um site de e commerce ambos os casos descrito acima ser o vantajosos Neste caso conhecer a demografia dos clientes e o aumento das venda s o os objectivos desejados 4 6 Selec o de Ferramentas A selec o das ferramentas de data mining dependem muito do objectivo que se pretende atingir Por exemplo a seguinte tabela relaciona os tipos de ferramentas de data mining com o resultado pretendido Tipos de Ferramentas Classifica o Clustering Descri o Algoritmos Gen ticos Sim N o N o Aprendizagem autom tica Sim Sim Sim Redes Neuronais Sim Sim N o Self Organizing Maps N o Sim N o Tabela Ill Tipos de Ferramentas Quando se escolhe uma ferramenta de data mining tamb m tem que se ter em conta os seguintes factores Numero de campos com valores cont nuos Numero de vari veis dependentes t Numero de campos categoricos O comprimento
57. on line Este tipo de descoberta no posicionamento na Web de p ginas ofertas incentivos e links A descoberta de associa es entre produtos nicos e servi os pode ter um impacto profundo no design do Website Identificar padr es espec ficos de compras no Website ao longo do tempo A sequencia o envolve as evolu o das tend ncias e popula es No caso de um website isto representa as vendas semanais ou mensais de certos produtos OU servi os Para os websites mais visitados como os motores de pesquisa podem representar tend ncias ou padr es hor rios Muitos dos problemas das previs es de Web marketing e de com rcio electr nico envolvem a sequencia o ou a an lise de s ries de temporais com dados amostrados em intervalos fixos de tempo Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web 4 2 Selec o dos dados Com o objectivo de neg cio definido o pr ximo passo escolher o servidor Web e os dados da empresa que satisfaz esse objectivo S o os dados adequados para descrever o fen meno de an lise de Data Mining que pretende modelar Existe algum campo comum nos dados da Web que est a ser usado para ligar a outra base de dados Os dados provenientes da Web est o a ser consolidados com os dados do armaz m de dados Se os dados utilizados na an lise de Data Mining v o ser os
58. originadas as visitas Web Mining Combina o do trafico da Web com outras bases de dados O Web site cria informa o Quando se combina os dado do trafego da Web com outras bases de dados Relacionando toda a informa o pode se transformar em informa o util para os neg cios Therefore a O sistema de Web mining deve integrar qualquer fonte de dados correndo estas em qualquer sistema operativo Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Com a informa o a mudar constantemente o sistema deve permitir ligar a outras bases de dados para gerar os relat rios O Web mining em oposto ao sistema Web log analysis tenta descobrir tendencias que de outra forma passariam despercebidas Os relat rios s o gerados com uma grande variedade de informa o desde a identifica o do cliente a informa o do produto de uma forma que que a informa o possa ser compreendida O sistema de Web mining ajuda a responder as seguintes perguntas fe Como que a informa o demogr fica e psicogr fica do utilizador relacionada com o seu comportamento de navega o fe Qual o ROI do Web site Quais os banners que trazem mais visitantes ao site Servi os on line baseados em conhecimento Anexos gt GS RBBBBB BBBBBBRBBS BE E TREE PE BS BBBBB BEBES e ai Amadea Ferramenta de Data Morphing The Ultimate Data Transfo
59. pesquisa Google determina a import ncia de uma p gina pelos votos recebidos No entanto preciso algo mais que um volume absoluto de votos ou links analisada tamb m a p gina que lan ou o voto Paginas importantes que lan am um voto s o de grande peso e ajudam a tornar outras p ginas importantes Esses resultados importantes e de alta qualidade recebem uma PageRank mais elevada e ser o colocados em posi es mais altas nos resultados Sendo 2 assim a PageRank um indicador geral de import ncia e e n o depende de uma consulta espec fica Ao contr rio E uma caracter stica da p gina baseada nos dados da Web que o analisa por interm dio de algoritmos complexos que determinam a estrutura do link Sem d vida p ginas importantes n o significam nada se n o corresponderem a consulta efectuada Por isso s o usados sofisticadas t cnicas de correspond ncia de texto para localizar p ginas que s o importantes e relevantes para a pesquisa Por exemplo quando se analisa uma p gina procura que as p ginas que a ela est o vinculadas dizem a respeito dela Qual a ordem de classifica o do motor de pesquisa Google 1 Encontra todas as p ginas que menciona as palavras chave da pesquisa 2 S o ordenadas de acordo com as palavras chave encontradas 3 Calcula no interior do texto associado s hiperliga o 4 O resultado ajustado pelo PageRank A informa o de estrutura da Web divide se em
60. quais os produtos que s o frequentemente vistos online qual o conte do que rapidamente abandonado compreender como os utilizadores utilizam o Web site Eliminar conte dos n o utilizados Ver os nomes dos produtos nos relat rios do NeitTracker desde os produtos servidos pelos servidores quer pelos cat logos online Incorporar o feedback do utilizador nas modifica es do Web site An lise de Marketing ie Pia gt dd Ajuda a fazer o or amento de marketing e de aloca o de decis es Elimina an ncios n o eficazes Identificas os motores de pesquisa a as palavras mais procuradas no site de forma a tomar decis es de compra e melhorar a optimiza o do motor de pesquisa An lise referente aos clientes mais lucrativos Assegura que o Web site esta a ser pelos os motores de pesquisa Analisa as taxas de convers o dos visitantes durante uma visita determinados as mensagens que funcionam An lise as actividades trazem maior n mero de clientes banners de publicidade links promo es por e mail An lise de e commerce dd An lise os padr es de trafego para saber quais os produtos que s o mais visitados dd tt dd Compreender a frequ ncia visitas a uma site antes de comprar Comparar os padr es de navega o dos visitantes que compram online com os que compram off line An lise dos lucros das compras dos cat logos online SS S3EE S e reses 185 Instituto Super
61. que clientes respondem as campanhas e quais as campanhas que s o mais eficazes em trazerem clientes t Melhora a usabilidade do Web site Analisa quais os clientes que passam da p gina de entrada quais os elementos que s o lentos ou que quebram a sess o do cliente e quais os erros t cnicos que levam a um decr scimo das transac es t Analisa o desempenho do e commerce Segue todas as ordens de venda e o desenvolvimento dos produtos e analisa as tend ncias de Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas visitantes que passam a clientes incluindo a actividade do cesto de compras fe Cont m relat rios m ltiplos e n veis de an lise Das estat sticas b sicas do web site as multi dimensionais an lises slice and dice relat rios pre definidos e customizados que d o informa o sobre os utilizadores tend ncias de trafego ajustar as campanhas de marketing e previs o e calculo do ROI t Recolha de dados da web data e administra o dos dados guardados WebTrends Warehouse permite importar e transformar a transac o individual de um visitante em informa o util Oferece mutilas maneiras de identificar os visitantes e de classificar os dados da web de forma de identificar ac es ou eventos fe Integra o com infrastructura existente Para uma an lise completa e precisa WebTrends Intelligence Suite permite integrar
62. que podem ser configurados apartir da lina de commandos ou utilizando ficheiros de configura o Suporta multiplas linguagens Tamanho de ficheiro de registo de acesso pode ser ilimitado distribuido pelo GNU General Public License e o c digo completo est disponivel bem como as distribui es bin rias Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conclus o DO meme eee O Conclus o Quando um sistema de extrac o de conhecimento bem planeado e est baseado em dados fi veis e bem absorvido pela institui o tem se uma das melhores previs es das ac es de um cliente que o seu hist rico de comportamento e compras realizadas O mercado de transac es ao n vel da web torna se o cen rio ideal para extrac o de conhecimento Diariamente s o adicionadas milh es de p ginas web aos motores de pesquisa e milh es de utilizadores interagem com elas todos os dias Todo o hist rico comportamental da navega o do utilizador registado nos ficheiros de registo de acessos os ficheiros de log de erros e o conte do das p ginas web e os dados existentes nos armaz ns de dados toda esta informa o torna se uma fonte de conhecimento da qual as empresa tentam tirar partido atrav s das t cnicas de Web Mining At ao momento como foi descrito as t cnicas de web mining dividem se em tr s campo principais de ac o Web Content
63. um website muitas vezes escondem padr es que revelam as condi es quando os clientes compram ou clicar em certos an ncios ou banners O software de Data mining pode revelar como um valor de um campo mma base de dados afectados por valores de outros campos Por exemplo um campo como n total de compras pode ser afectado pelos valores dos outros campos do ficheiro de registos de acessos ou dos formul rios das bases de dados como a idade do cliente sexo ou as palavras chave utilizadas Neste exemplo n total de compras pode ser explicado previsto enquanto os outros campos ser o o input para o modelo de Data Mining Todas as ferramentas aqui descritas tem por base as p ginas das empresas que as produzem Neste cap tulo s o dados exemplos de ferramentas de data mining que podem analisar dados da Web tal como o Clementine e ferramentas que s o exclusivelmente dedicadas ao web mining tal como WebAnalyst S o dados tamb m exemplos de ferramentas que apesar de n o serem ferramentas de data mining permitem extrair algum conhecimento atrav s das estat sticas que fornecem Outras ferramentas est o descritas em anexo DATA MINING SOFTWARE 2 RG Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas Blue Martini Marketing Blue Martini Marketing Blue Martini Marketing uma solu o de an lise para clientes e
64. 104 do PZ EOC ANIA GO io if 2 syoliasiatenceneanaevactiangimbanangens 107 59 WeDARAN 04 2 ae ene ee ee ee ee ee E EE 110 CONCIS Oana 112 PRCT UNG E o E A ONAA A RU AAAA A O 114 BIDNOOTA NA coina aa E ES RR 115 ANTES O KAREE E E E AEE A E 118 ndice REMISSIVO s cs cssoessesssssoessessesssessessnesessaeenesosesonsaeeaeseesoesateoesessoeeatsonesosess 155 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servicos on line baseados em conhecimento Indice Ilustra es FIGURA 1 INTELIG NCIA ARTIFICIAL SISTEMAS BASEADOS NO CONHECIMENTO 12 FIGURA 2 ETAPAS DO PROCESSO DE CONHECIMENTO sseseeeeeeeeeeeeeeeeeeeeeeeeeeaeaeees 30 FIGURA 3 CRONOGRAMA arena near ana r aaa aaa anna ana 34 FIGURA 4 BASE DE UM DATA MINING aaa aaa 36 FIGURA 5 CLASSIFICA O DE UM CONJUNTO DE DADOS eteeeecccccccceceeeeeeeeeeeseeeseeennnneees 37 FIGURA 6 CLUSTERS area a aaa ana a anna a aaa aaa aaa 38 FIGURA 7 ESTRUTURA DA RVORE DE DECIS O 39 FIGURA 8 ESTRUTURA DE UMA REDE NEURONAL cccccccececeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeess 40 FIGURA Q OLAP canst eptapm ce sews ners eneee niian 42 FIGURA 10 DATAMART ccecccceceecccccccccecceceeeseeeeeeeeeceeeeeeeceeecaaaaaaaaseesseeeeeeeeeeeeeeeeeeesaaaaaaans 43 FIGURA 11 AMBIENTE IDEAL PARA UMA FERRAMENTA DE DATA MINING 48 FIGURA 12 ACESSO WE Boviciesticsivsenctwivasntueniienctet caencece viaincteivaniedednisenscel soc
65. 310 5246 45 70 23 37 00 Denmark 800 426 2255 800 716 6770 AA IA ON TEROA COAT UA 118 Servi os on line baseados em conhecimento Anexos a Knowledge Access Suite KnowledgeMiner knowledgeSTUDIO kTree Knowledge Suite KXEN Components MineLogic ModelMAX Plus ModelQuest Enterprise Nuggets ODBCMINE Omega Oracle Data Mining Suite ORESME Pattern Poly Analyst prudsys Discoverer Rough Set Data Mining System PV FutureView S Plus Scenario SmartMiner SphinxVision SuperQuery Syllogic Data Mining Tool TeraMiner Stats ThinkBase VisiRex watson WizWhy Xaffinity Xeno XML Miner Xpert Rule Analyser Profiler Zoom n View URL http www dwinfocenter org datamine html Actualizada em 04 2 02 Information Discovery Script Software ANGOSS Software International Kbase KXEN Crusader Systems Advanced Software Application AbTech Corporation Data Mining Technologies Inc Intelligent Systems Research KiQ Oracle The Galileo Company Magnify Inc Megaputer Intelligence Ltd Prudential Systems Software GmbH sand Technology Continuum Software Inc Insightful Cognos GRIMMER Logiciels ASOC AG Azmy Thinkware Inc Syllogic NCR Science in Finance CorMac Technologies Xanalys WizSoft Inc Exclusive Ore Infocentricity Scientio Attar Software SkyGate Development ApS 310 937 3600 530 546 9005 416 593 1122 888 706 0565 650 712 1170 2
66. 7 0 21 880 1677 Africa 412 429 1003 804 977 0686 516 692 4500 773 989 0426 800 672 2531 248 258 9657 708 383 7002 812 325 3026 49 0 37153 47 1 23 Germany 514 624 1324 617 932 8400 800 569 0123 800 426 4667 33 0 1 53 09 27 50 France 49 0781 96 92 96 0 Germany 201 947 1881 310306354888 Netherlands 937 445 5000 44 1908 584130 UK 44 1625 418950 UK 508 620 4554 215 643 3110 415 209 0517 44 1908 584226 Uk 508 456 3946 45 33 339110 Denmark 119 Servi os on line baseados em conhecimento An lise da Web Esta ferramentas oferecem capacidade anal ticas para alem da usual an lise aos logs por exemplo an lise de clikstreams As ferramentas fazem um an lise de tipo Web Anexos mining data webhousing e Business intelligence e Business analysis e e intelligence http www dwinfocenter org ecommerce html actualizado 25 3 02 Accrue Insight Arc 360 Aria Enterprise Buystream Merchant C Insight Centrport Advance Clickstream Absolute Commerce Intelligence Customer Knowledge Platform CustomerConversion Delano Customer Discovery digiMine E Commerce E Commerce Reporting amp Analysis e Intelligence EasyMinerWeb eBizinsighis eChannel Advisor eConsumer ECRM eLuminate elytics com Analysis Suite EMine Enterprise ChannelMetrics Enviz eSpective Essentials Genalytics Hitbox Enterprise HitsIntoLeads Hyperion e Ma
67. Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais 2 3 4 O Marketing Como em todos os neg cios o com rcio electr nico necessita de uma boa divulga o No caso dos Web Sites o primeiro passo inscrever a Home Page em sites de pesquisa Sites de pesquisa s o sites que desempenham o mesmo papel de uma lista telef nica com a diferen a de que em alternativa de folhear o utilizador ir escrever em um formul rio uma palavra chave onde a pesquisa se ir basear o utilizador tamb m poder procurar por categorias A coloca o de banners outra forma de divulga o Banners s o publicidade paga i colocada em outros sites que ao serem seleccionadas d o acesso ao site da empresa dona deste banner Mas em mat ria de divulga o at agora nada supera os media tradicional Jornais revistas r dio televis o continuam a ser importantes para captar novos clientes e fixa o da marca Em geral cerca de 60 dos investimentos num Web site s o destinados a publicidade e maketing i i j a i r e Os neg cios virtuais criaram aquilo que se chama de Nova Economia Esta nova forma de relacionamento comercial vem propor uma nova forma de empresa de cliente de vis o do neg cio e portanto de marketing Marketing quer dizer mercado em movimento e nada pode ser mais movimentado do que o mercado virtual O que se tem como verdade ab
68. Identificar casos de fraude ou de n o conformidade para evitar a diminui o de receitas t Prever vendas ou utiliza o de servi os de modo a aplicar os recursos dispon veis onde v o ser mais necess rios Identificar grupos similares para objectivos de personaliza o gt gt Executar analises tipo market basket para descobrir que tipos de produtos ou servi os s o comprados em conjunto na e e ER Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas gt III o es a em os maos Es Neo e E eo ER o o o e ET a E aa A arquitectura do Clementine facilita o processo de descoberta O processo de an lise claro A aproxima o interactiva ao data mining atrav s de streams a chave do processo Utilizando cones que representam passos no processo de data mining analisamos os nossos dados construindo uma stream um mapa visual do processo atrav s do qual fluem os dados Comece por colocar um cone de fonte dos dados arrastando o da conjunto de objectos presente no cran na rea de acesso a dados A seguir explore os visualmente atrav s de gr ficos para conhec los Aplique um ou mais dos algoritmos dispon veis para construir o seu modelo O seu stream est constru do e o que fez foi pura e simplesmente colocar v rios cones sequencialmente ligando todo o pr
69. Instituto Superior de Engenharia do Porto Engenharia Informatica fed de da Esa 330 De Ana Raquel Silva Faria Orientador Jorge Morais 2002 000 OIT NO 0 5 Ort Servi os on line baseados em conhecimento Agradecimentos Agradecimentos Agrade o ao meu orientador de projecto Jorge Morais pela sua disponibilidade e sugest es durante o decurso do projecto Agrade o minha irm Ana Paula Silva Faria e ao meu pai Ludovino Gon alves de Faria sem os quais a realiza o deste projecto teria sido imposs vel Servi os on line baseados em conhecimento Indice ndice AGLAGeCIMENTOS asma saasi anassaaiads coreanos espada nada ad saca anais aa ninar das II To o PROD OE LB ES UAC OCS iscsi ces ERR RR e ENE RR REA EA V TADEIAS aan canis cent a E alan dan cida au adia V GIOS SOPO aana DRAGO ida VI RARE aee 5 e o E E a cst E A EE E E RR A 12 2 CONCeloOS GETAlS arrira SOS a 15 2 1 Redes e SCSLVICOSES ccccccessccesesscccsescsecsesssecsessesesessssesessesesesssecsesessesessneeeeses 16 22 INQ OZ CO SO soseer baia do bue saia 19 LS CC AN OEA devant posse id N dA A AE 21 3 Processo de Conhecimento do Data Mining ao Web Mining 29 3 1 Processo de Conhecimento cssscccceesscccsesscecsessceesessseeseseseeseusecseeseseenseess 30 de Pala MINO aE E E E E ET EE O AEA A EE dad 32 Do O MN a E 50 IN E E E E E E E nestle 53 4 Extrac o de Conhecimento na Web c
70. MS ficheiro de XML etc e descreve os passos necess rios para produzir e agregar dados para a an lise ou defini o de modelos AMADEA pode ser utilizado em diferentes dom nios como personaliza o de sites de e commerce estudos de comportamento de clientes de e commerce an lise de vendas de retalho CRM etc TT 131 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Transforma o como processo A transforma o dos dados j n o passa por um programa complexo de computador desenhado para executar longe dos utilizadores Sendo assim este processo a ser simples e compreensivo Peagi E Field Hames pa Faih E Comte Fink lrer verre ep de de A Fa sor Label rag Derana i lsn Aribe jll Ariba e Ma ai l s ji 1 f E A H ITA RO IR LIM EAD MA THOM DA TIM J set aii Fm sm IDE H i CET recadar 14 ich E ESTE rent wmi TO Pcl Far Help prea Fi A janela central permite ao utilizador desenhar e controlar a execu o do processo de transforma o Seleccionado o output de um dos operadores automaticamente actualizado a grelha de informa es para reflectir as informa es processadas pelo operador na tabela de input Na frame da esquerda do cran da acesso aos operadores de informa o Os par metros de cada operador podem ser escritos direita do cran Interactividade fe Defini o
71. OM CORBA e Osdados _________________ MQ Series da IBM Limpeza dos dados xX Adaptadores pre construidos x Detec o de anomalias STC SeeBeyond Eway Adapter RO e SAP Siebel Workflow X Cria o de tarefas seguran a x Escalonamento de tarefas ii rae o com diferentes x Redireccionamento de tarefas MK LDAP Lightweight Directory Infrastructura Access Protocol x Aplica o de servidor F cil de utilizar x Compativel com J2EE X Ferramentas divididas por x Arquitectura three tier modulos Java Server Pages x Interface gr fico Especifica es de sistema Servidores que suporta dft Sun Solaris 8 dft Microsoft Windows NT Server 4 0 fe HP UX 11 0 Base de dados que suporta fe Oracle ORACLE 8 1 7 fe Microsoft SQL Server 7 0 Servidores Web que suporta Microsoft Windows NT 4 0 and 5 0 Windows 2000 iPlanet Web Server 4 1 inclui suporte para Netscape Enterprise Server Dispositivos movies e sem fios ft Web enabled Cellular Phones WAP amp i Mode fe Palm VIIx Symbol Mobile Wireless Handheld Devices Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas 5 3 Clementine x a a emen ne Analytical solutions for yorr enterprise a http www spss com Oferece sequ ncias de associa es e clustering usado para an lise de dados da Web No dia a dia de qualquer organiza o s o produzidas grandes quantidades de inf
72. TTP 1 0 304 http www cs umn edu Mozilla 4 61 en WinNT I FIGURA 16 EXTRACTO DE DE UM FICHEIRO DE REGISTO DE ACESSOS Instituto Superior de Engenharia do Porto Engenharia Inform tica Dados de descricao do site Os dados de descri o do site permitem descrever n o s a estrutura de links existem mas tamb m a informa o contida no pr prio site Descri o da topologia do site atrav s da estrutura de links do site FIGURA 17 DESCRI O DO SITE Spiliopoulou 99 Os metadados em cada pagina Web como registos de descri o da p gina fe Tags de HTML da pagina fe Tags de XML da p gina Dados Hier rquicos As hierarquias reflectem e generalizam as sem nticas dos objectos podem ser constru das baseadas no t Conte do das p ginas Web a hierarquia criada com a informa o contida nas tags da p gina na rela o de produtos das p ginas Gelado de lim o Gelado de leite Gelado de Gelado chocolate morango F html _A htmL C html D himl E html FIGURA 18 HIERARQUIA DO CONTE DO DAS P GINAS Spiliopoulou 99 T a M Instituto Superior de Engenharia do Porto Engenharia Inform tica fe Nos hosts dos utilizadores este podem ser organizados hierarquicamente Todos os hosts Sites sd Institui o de pesquisa Autoridade publica FIGURA 19 HIERARQUIA DE UTILIZADORES Spiliop
73. a etc Satisfeito com as informa es ele come a a realizar a compra Entra no m dulo adequado para realizar esta compra escolhe o produto ou produtos O pr ximo passo ser escolher como vai pagar este produto Ele faz uma op o por um determinado cart o de cr dito Carrega no cone deste cart o preenche os dados e envia No prazo estipulado ele recebe no local indicado o produto da compra Este tipo de com rcio permite manter baixos stocks de produtos que podem ser montados ou adquiridos na medida em que s o vendidos Servi os on line baseados em conhecimento Conceitos Gerais o e _ Conhecendo se a natureza do site determina se o publico alvo Este pode ser definido por segmentos industria com rcio servi os institui es p blicas etc por grandes reas educa o medicina engenharia economia de todas as idades p blico jovem terceira idade adulto prefer ncias coleccionadores aficcionados do desporto amantes da culin ria e assim por diante Dependendo da natureza e do p blico alvo direcciona se o conte do do site 2 3 1 O conte do do Site Nessa fase dever o ser definidos quais produtos ou informa o que v o estar dispon veis do site No caso de uma loja virtual sites de leil o ou grupos de compra o momento de se caracterizar os produtos que ser o oferecidos e determinar e informa es sobre estes estar o dispon veis E conveniente colocar dados t cnico
74. a melhor escolha Nota se que as t cnicas de Data Mining apesar de se tratar duma tecnologia recente est presente no dia a dia Vendas Marketing LA xX Com a an lise de compras de seus clientes atraves dos seus cartoes a American Express oferece promo es e propagandas particulares para os seus clientes x A SONAE atrav s de seu Cart o Universo usado nas suas lojas e hipermercados guarda refer ncias de todas as compras efectuadas pelos respectivos clientes direccionando o atendimento e promo es Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining A utiliza o das t cnicas de Data Mining veio favorecer a rea de marketing pois consegue se particularizar e criar perfis de consumo e com isto criam uma liga o mais pr xima entre a empresa e o cliente Os ganhos desta rea tornam se mais evidentes quando o direccionamento das ferramentas de Data Mining sectorial dentro de uma organiza o e quando esta a auxilia em abordagens JAD Joint Application Development que consiste na evolu o a partir de um prot tipo podendo ser alterada rapidamente descobrindo tend ncias ou erros futuros Sa de x O Hospital de Problemas de Coluna Vertebral do Sul da California em Los Angeles pesquisa atrav s da sua ferramenta Data Mining o IDIS da IntelligenceWare Inc factores subtis que afectem o suce
75. a bridge pode ser a oferta de um produto a combina o entre de templates de software a personaliza es efectuadas pelos clientes ou pelo Accuer Consulting Group fe Cookie Callout Coloca o utilizador da cookie no inicio do campo da cookie Este servi o para clientes que utilizam m ltiplas cookies e querem utilizar uma das caracter sticas do Accruer Insight a monitoriza o de cookie fe Bridges Comerciais S o desenhadas para a captura de c digos de eventos e transac es dos motores de comercio e combina os com o Accruer Insight Warehouse e relat rios de comercio que d o resultados baseados em factos fe Campaign Bridges Sao desenhados para a captura de dados de publicidade dos servidores de publicidade e interagira ao dados com o Accruer Insight e os relat rios das campanhas que fazem com que o investimento seja retornado Web Log Analysis An lise de tr fego O software de an lise de ficheiro de registo de acessos tem por base os ficheiro de log dos servidores Web A analise procura compreender o que est a acontecer no Web site Qual a quantidade de trafego que o site esta a ter Quanto pedidos falharam e que tipo de erros est o a ser gerados Adicionando outro tipo de informa p como as campanhas de marketing filtros e informa o virtual do servidor Pode responder a perguntas como fe Quais as empresas que visitam o site f Quais as p ginas que s o mais menos visistadas t Que que sites s o
76. a ida dd 54 FIGURA 13 ABORDAGENS DO WEB MINING aaa 54 FIGURA 14 ESTRUTURA DE LINKS were cate asas ais isniad Di odds osasco nad edad Ee 56 FIGURA 15 FUNCIONAMENTO DAS ASP 63 FIGURA 16 EXTRACTO DE DE UM FICHEIRO DE REGISTO DE ACESSOS 69 FIGURA 17 DESCRI O DO SITE SPILIOPOULOU 99 eres 70 FIGURA 18 HIERARQUIA DO CONTE DO DAS P GINAS SPILIOPOULOU 99 70 FIGURA 19 HIERARQUIA DE UTILIZADORES SPILIOPOULOU 99 71 FIGURA 20 HIERARQUIA DE P GINAS SPILIOPOULOU 99 stress 71 FIGURA 21 ARQUITECTURA DO WEBANALYST aereas 98 FIGURA 22 ESTATISTICAS iai Dc ars cts ces ca ea cu DEAR doc Si 104 FIGURA 23 MODO GR FICO araras mn te Pom ra 104 FIGURA 24 MEDIR E MAXIMIZRO ROL 105 FIGURA 25 1 23LOGANALYZER ccceececccecececceeeececceeececceeececcaaeeeeeaaeeeseeaaseeseeaaeeeseaas 108 FIGURA 26 ACCRUE HITLIST aerea 127 FIGURA 27 DATA MINING SUITE aaa aaa aaa 136 FIGURA 28 REGISTO DE ACTIVIDADE aeee 138 FIGURA 29 SUMARIO DO PERFIL DO VISITANTE DO NETTRACKER ccecceeeeeeeeeeeeeeeeee 144 FIGURE 30 CAMPOS RELACIONADOS COM O DATA MINING 149 FIGURA 31 INTERGRA O DOS DADOSG ccccccccceeseeseeseececssnesseeeeeeseueeeeeeesesseeeeeeseesaaees 150 FIGURA 32 EXPLORA O DE REGRAS ccsccseseeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeeueeeeeueeeueueueeeess 151 Tabelas TABELA FERRAMENTAS DE MODELA O
77. a por um n mero maior de pessoas Por exemplo o fornecedor de equipamento m dico N o seria interessante para ele colocaro seu banner num grande portal por exemplo Mesmo este portal tendo milh es de visitas por dia Seu retorno seria maior se ele pusesse seu produto directo num site m dico pois l est concentrado seu consumidor final Provavelmente este site m dico cobrar um valor maior pela exposi o do banner do que um grande site de pesquisa por exemplo Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais Ten E E E ee ee e e ee ee e ee ET EEE ee ee ee a a a a a eE E an Mas nao pode passar o dia a carregar no bot o do rato para que o seu site seja bastante visitado Isto n o funciona Existem programas que analisam o desempenho dos sites fornecendo relat rios contendo n meros de Hits acessos Pager View Click Through user section unique users etc 2 3 7 Como aumentar as visitas ao site Os seguinte factores podem aumentar a frequ ncia das visitas dos utilizadores a um site A inscri o nos mecanismos de pesquisa Aten o especial na selec o de palavras chave Elas devem reflectir a natureza do site rt Actualizar sempre as informa es sobre o site nos mecanismos de pesquisa Resposta imediata a e mails t Resposta em menos de 24 horas ap s a recep o N o deixa um cliente espera
78. ados definido pelo triplo Afonso 2001 Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web 4 Extrac o de Conhecimento na Web med descritos todos OS passos necessarios sas OTIC ee des em SARNA o conne cim en lo da Web Bem como as med a as necess rias para obter resultados fi v veis numa an lise Mm Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web Extrac o de Conhecimento na Web O processo para a extrac o de conhecimento dos dados da Web come a muito antes da utiliza o de uma ferramenta de Data mining e continua depois da an lise Diversos passos est o envolvidos nas fases antes da an lise que permitem assegurar que o processo de Data Mining um sucesso e um esfor o lucrativo Apesar das ferramentas de Data Mining simplificarem e automatizarem a an lise das bases de dados conv m serem utilizadas com cuidado para que os resultados n o sejam enganosos e as conclus es erradas Sendo assim o processo de extrac o de conhecimento pode ser divido nas seguintes etapas t Especifica o do Problema Selec o dos dados Prepara o dos dados Avalia o dos dados Formata o da solu o Selec o de ferramentas Constru o do modelo gt gt gt gt gt 2 3 Valida o de resultados Por os resultados em pr tica 4 1 Especifica o
79. ancias que levam a um tipo de comportamento desej vel e avaliar a efic cia das transac es Compreender como os visitantes se tornam em clientes Efic cia dos conte dos CustomerCentric permite analisar quais os conte dos que s o mais atractivos para os clientes E quais os autores que s o mais populares com determinado segmento de clientes Sendo assim podemos fe Aplicar um determinado conte do a um cliente individual ou a um segmento de clientes Executar an lises de utilizadores baseados no conte dos fe Reduzir os custos atrav s do planeamento e minimizar o redesenvolvimento do site Identifica o dos utilizadores O CustomerCentric permite Identificar os utilizadores durante a visita ao site Constru o das defini es de segmentos de clientes f Compreender os tipo de visitas Compreender os padr es de navega o no site Comparar os padr es de comportamento com os novo utilizadores Perfil de visitante Aumentar o lucro dos cliente e ROI da Web com os perfis e as previs es dos dados podendo antecipar as necessidades dos visitantes CustomerCentric desenvolve perfis baseados no comportamento dos visitantes e identifica os conte dos mais importantes e as areas chave para os visitantes fe Aumenta a convers o dos visitantes em clientes ft aumenta a lealdade dos clientes E ex ass X s r sxsx xsxes s la Instituto Superior de Engenharia do Porto Engenharia Info
80. ara retirar o m ximo potencial das previs es estas devem ser transferidas para o dom nio das opera es Os produto de Blue Martini s o nicos nas facilidades de integra o e transferencia de regras e associa es do data mining para o ambiente de opera es O motor de mining pode gerar e transferir cross sells automaticamente Sem esta arquitectura de integra o as personaliza es em massas seriam impratic veis Servi os on line baseados em conhecimento Ferramentas SS Se 5 2 1 Caracteristicas do sistema Gest o de Campanhas Data Mining Campanhas direccionadas para os x Multiploa algoritmos C5 0 clientes e futuros clientes e Associa es GritBot associados x Motor de Indu o de regras ai Campanhas aes multipos xX Sugest es cross sell objectivos promo es e x Anal tatisti newsletters nalise estatistica x Anuncios pesquisas eventos Visualiza o dos dados convites e grupos virtuais x Tipos de visualiza o 5D x E mail e Webmail scatterplots explorador em rvore Inclus o autom tica de grupos de Renee de tempo filtros para panicle graficos histogramas graficos de barras e tabelas x Relat rios pre construidos ex Se T adia tempode resposta e ROI Lista de gest o Internacionaliza o Armaz ns de dadoa Suporta qualquer linguagem via Armazens de dados Unicode Standard x Perfil de Clientes Schema optimo para analise Multi objectivo ETL Extract Transform Load
81. armazenamento do site ou seja o utilizador digita o n mero do seu cart o e envia para a empresa fornecedora do produto Esta empresa recebe o numero deste cart o na base de dados E a que est a falha de seguran a Portando a empresa que recebe dos dados deve possuir um sistema de seguran a adequado e eficiente Sistemas de seguran a O protocolo SET SET Secure Electronic Transation um protocolo seguro desenvolvido em 1997 pela empresa de cart o de cr dito Visa em parceria com empresas de software e de Internet com o objectivo de implementar seguran a nas transac es electr nicas envolvendo o pagamento com os cart es de cr dito O SET est baseado na distribui o de assinaturas digitais para as partes envolvidas na transac o evitando se assim que seja divulgado o n mero do cart o de cr dito As assinaturas digitais s o usadas para autenticar todas as partes envolvidas na transac o O site e oconsumidor recebem as assinaturas Isto faz com que ambas as partes estejam certas de que est o a comunicar comercialmente com partes reais e id neas Do lado dos sites existe o Servidor do com rcio que onde ficam armazenados as assinaturas digitais das lojas sob a responsabilidade da empresa de cart o de cr dito Criptografia Protocolo SSL O protocolo SSL Secure Socket Layer foi criado pela Netscape para tentar solucionar o problema de seguran a que envolve as transac es com cart o de cr dito
82. as aplica es da plataforma e do sistema operativo N o se preocupa com o processo de cria o do modelo RDF Resource Description Framework Enquanto a linguagem XML define uma estrutura RDF permite expressar o significado associado aos dados O significado expresso por conjuntos de triplos que podem ser escritos utilizando marcas XML O primeiro elemento do triplo o sujeito o segundo o predicado e o terceiro o objecto O sujeito e o objecto s o identificados por URI Universal Resource Identifier O predicado tamb m identificado atrav s de um URI permitindo a defini o de um novo conceito ou verbo simplesmente pela defini o de um apontador URI para o conceito E muito importante a utiliza o de URs diferentes para conceitos diferentes ou para varia es do mesmo conceito por forma a garantir a consist ncia das infer ncias realizadas Por exemplo o conceito endere o utilizado na linguagem corrente correspondem na realidade v rios conceitos pode ser um endere o de e mail ou de um endere o f sico E pois necess rio que sejam definidos de formas distintas e que sejam identificados por diferentes URI s A unicidade da rela o conceito URI garante a unicidade dos triplos de significado Desta forma cada conceito tem uma identifica o nica e os triplos constituir o uma rede de informa o relacionada na qual podem usar se regras de infer ncia para fazer dedu es a partir do significado dos d
83. as suas pr prias marcas e us las para anotar os conte dos disponibilizados nas suas p ginas Utilizando esta linguagem poss vel definir arbitrariamente uma estrutura para um documento ainda que nenhuma informa o exista sobre o significado dessa estrutura Servi os on line baseados em conhecimento Do Data Mining ao Web Mining ASP Active Server Pages ASP Active Server Pages um ambiente para o desenvolvimento de p ginas din micas para a Web que mistura HIML e programa o A extens o destes arquivos asp e cont m combina es de Server Side c digos de programa o que executam no servidor portanto podem ser acedidos em qualquer browser scripts e tags HTML Alguns recursos que podem ser implementados via ASP Programacao em VBScript ou Jscript tAcesso a bases de dados feSessoes persist ncia de informa es no servidor As vantagens de se usar ASP Independ ncia do browser ASP poder executar as p ginas complexas no servidor e enviar somente os resultados para o cliente Todos os browsers suportam ASP Isto acontece pelo facto das paginas ASP serem processadas pelo servidor O que o cliente recebe somente c digo HTML Bases de Dados Permite visualizar actualizar e adicionar informa es nos servidores SQL Uma aplica o ASP pode ser usada com qualquer base de dados compat vel com ODBC Isto inclui dados do Access Microsoft SQL Server Oracle Sybase Informix DB2 entr
84. ase de dados unificada do WA Cont m uma ferramenta de processamento de dados fePermite ao utilizador um ambiente visual de programa o e gera procedimento anal ticos reutiliz veis Objectivos WebAnalyst ajuda Guarda todas as interac es do cliente ft Transforma e guarda os dados de num formato conveniente para uma an lise futura Utiliza os dados para aprender sobre todos os interesses preferencias do cliente ft Analisa os recursos e a arquitectura do website Gera relat rios Reconhece os clientes mais frequentes e acede ao seu perfil Recolhe informa o para personalizar as comunica es com os clientes T er a T 96 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas Os recursos de um WA ft Web Server Conte do da base de dados Base de dados de produtos e transac es Ficheiros de registo de acessos As tarefas executadas pelo WebAnalyst WA pode executar enumeras tarefas tarefas estas que est o divididas e sete grupos 1 recolhe a informa o dos diferentes canais da Web HTTP SMTP NNTP e FTP 2 Processa os ficheiros de registo de acessos do servidor 3 Executar diferentes tarefas nos armaz ns de dados extrai informa o das base de dados externas executa limpeza aos dados guarda no servidor do WA 4 Executas tarefas de processamento analitico com a ajuda do explorador do Poly A
85. aseados em Conhecimento como o pr prio nome indica baseiam o seu comportamento inteligente no conhecimento que det m sobre determinado dom nio Os Sistemas Baseados em Conhecimento s o uma subclasse da Intelig ncia Artificial em que ha uma separa o clara entre o conhecimento e o racioc nio ou seja o controlo do programa n o se mistura com a especifica o do conhecimento Intelig ncia Artificial Sistemas que exibem comportamentos inteligentes Sistemas baseados em conhecimento O conhecimento vital divis o entre o conhecimento e racioc nio FIGURA 1 INTELIG NCIA ARTIFICIAL SISTEMAS BASEADOS NO CONHECIMENTO Dos Sistemas baseados em Conhecimento surgiu um variado leque de ferramentas desde as ferramentas de Data Mining aos correctores ortogr ficos tradutores autom ticos e os agentes inteligentes Este ltimo tem a sua origem em Sistemas Multi Agente da Intelig ncia Artificial distribu da e tem como objectivo povoar a Internet auxiliando o utilizador a filtrar e mail a pesquisar not cias e informa o lembrando marca es e principalmente como mediadores no com rcio electr nico Data Mining e a Descoberta de Conhecimento uma disciplina que envolve o estudo de t cnicas que procuram pad es em grandes conjuntos de dados A Servi os on line baseados em conhecimento Introdu o aplica o das t cnicas de Data Mining Web cnamado Web Mining O Web mining definido como
86. assifica o regress o clustering segmenta o Depois do processo de extrac o de conhecimento necess rio definir como que a informa o ser distribu da e em que formatos estar dispon vel M ltiplas ferramentas ser o necess rias para chegar a um formato ideal para um website Por exemplo quando necess rio extrair regras de uma an lise de L clustering Para isso primeiro necess rio um formul rio da an lise de 1 O acesso por rob ts pode ser reconhecido pelo nome e pelo seu comportamento estranho acesso repetido a mesma p gina acesso concecutivo em intervalos muito curtos de tempo estes rob ts s o utilizados para efectuar transc es na web ou para pesquisar informa o Spiliopoulou 99 e T T A Instituto Superior de Engenharia do Porto Engenharia Informatica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web clustering usando Self Organization Map ou as redes de Kohonen De seguida correr os clusters encontrados por um algoritmo de Aprendizagem automatica para gerar regras IF THEN dos clusters Depois analisar com um algoritmo de aprendizagem automatica num conjunto de dados com grande numero de atributos para que estes sejam reduzidos ou seja para chegar a um grupo de atributos que sejam significativos para an lise e depois correr os atributos encontrados por uma algoritmo de rede neuronais para determinar o modelo de classifica
87. bhound index html http webtrends com http xore com http metadatamining com http www s ibm com software webservers http www cs ualberta ca tszhu webmining webmyreading htm http www personal umich edu wfan text_mining html http maya cs depaul edu classes ect584 lecture htm http citeseer nj nec com 231213 html htto www sims berkeley edu hearst talks data mining panel index htm htto www cs ualberta ca zaiane courses cmput690 slides Chapter9 sld001 htm http www computerman com br artigos art21 htm http www andersen com website nsf content EuropePortugaleBusiness2 OpenDocument http www sondabrasil com br internet http www estudar org htto Awww dei uc pt lei aid index body php cadeira 54 amp seccao projecto http www nri ltd com pagerank asp http hci stanford edu page papers pagerank www goodlookingcooking co uk PageRank pdf TE 115 Instituto Superior de Engenharia do Porto Engenharia Inform tica A on line baseados em conhecimento Ee http www google com br intl ot why use html http www inf ufrgs br wives portugues textmining himl http www personal umich edu wfan text_mining html Livros f Data Mining Your Website Jesus Mena Digital Press Advances in Knowledge Discovery and Data mining Usama M Fayyad Gregory Piatelsky Shapiro Padharaic Smyth Ramasamy Uthurusamy fe Programa o na World Wide Web com CGls Joao Garrott Antonio Ferreira FCA Ed
88. bilidade de vender espa o para publicidade banners 2 3 8 Onde colocar o site A coloca o do site pode ser vital para uma empresa pelas mais diversas raz es desde raz es de seguran a ao pr prio pre o das infra estruturas Sendo assim existem as seguintes alternativas Implantar infra estrutura Dependendo da necessidade da empresa essa uma alternativa vi vel O custo para se implantar essa estrutura alto envolve a instala es f sicas salas apropriadas aquisi o de equipamentos a manuten o de t cnicos especializados aquisi o de software custos da conex o com a Internet A vantagem o controle total Servidor exclusivo ou inserir um servidor de empresa fornecedora desses servi os Em ambos os casos os custos de manuten o s o altos Contratando um servidor exclusivo a empresa fica merc do software usados pelo servidor No outro caso pode utilizar software pr prio por m deve arcar com os custos destes A principal vantagem nesses dois casos n o ter que arcar com a implementa o de infra estrutura na empresa e dos custos com equipas especializadas Contratar espa o de coloca o num servidor Web Hosting A maior parte dos sites existentes na Internet s o colocados dessa maneira Nesses casos a infra estrutura compartilhada com outros sites no servidor O custo desse tipo de coloca o baixo A solu o interessante para pequenas e m dias empresas que se iniciam nos neg
89. ca ecco on line baseados em conhecimento q KPI s and Metrics Attributes and Characteristics Trends 9b Sites Web Traffic Highlights Current vs Past Dates Web Content Analysis Web Visitor Analysis Customized Web Business Insight 5 5 5 Web Traffic Highlights Web Traffic Highlights permite analisar as tend ncias e alertas nos web sites Com compara o baseadas no tempo indica se as altera es no trafego da Web s o ou n o sazonal Ao alertas s o dadas atrav s email ou outro meio Estes relat rios levam a investiga o noutras reas As perguntas que este modulo permite responder Quais as tend ncias nos website em diferentes per odos de tempo como este ano vs o ano passado Existem altera es anormais nas tend ncias sazonais que precis o de ser investigadas f Quais os cen rios de negocio que permitem um resultado positivo 5 5 6 Web Visitor Analysis Web Visitor Analysis analisa as tend ncias de comportamentos quer de utilizadores an nimos quer utilizadores registrados tamb m inclui caracter sticas dos utilizadores e a frequ ncia das visitas Esta t cnica de an lise pode ser utilizada para medir os efeitos de uma estrat gia para melhorar a atrac o convers o e reten o de clientes Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas FF or ie Site Conversion Pyramid Curre
90. campanhas de marketing para ter mais trafego vindo dos motores de pesquisa 123LogAnalyzer da um relat rio com os detalhes do visitante IP com o tempo de acesso hits e bandwidth usage 123LogAnalyzer d uma relat rio detalhado dos links partidos e as p ginas com erro no site A figura segunte mostra o ecrande entrado do 123LogAnalyzer esta ferramenta permite obter resutados r pidos apartir de um ficheiro de log a a a IMT 107 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas www 123L0p Analyzer com FIGURA 25 123LOGANALYZER O bot o Add Abre uma janela que permite escolher o ficheiro s de log Este pode estar no seguinte formato log zip gz ou txt O bot o Remove Remove o fichero de log seleccionado O bot o Analyze Abre uma janela que permite introduzir o dominio amplitude das das a utiliza o de filtros e as preferencias de output Quando o 123LogAnalyzer acaba Ide analisar o ficheiro automaticamente gera filheiros de relat riopodendo estes serem vistos num web browser O bot o Download Abre uma janela que permite fazer download do ficheiro de log de um servidor de FTP ou de um servidor Web O bot o Help Abre uma janela de ajuda Relat rios 123LogAnalyzer gera automaticamente relat rios cada vez que analisa um ficheiro de log Os relat rios s o bastantes extensivos com a informa o num formato fAc
91. categoria em muitos casos com a fotografia do produto que pode ser desde uma moeda antiga at um autom vel Os compradores escolhem o produto e fazem sua oferta Num per odo estipulado de tempo a melhor oferta leva o produto Alguns leil es cobram uma taxa do vendedor em m dia 5 do valor do produto outros n o cobram taxa Cooperativas ou grupos de compradores S o sites criados para unir os utilizadores da Web que tenham um interesse comum de adquirir um determinado bem ou servi o O utilizador liga se ao grupo de seu interesse e quando esse atinge um n mero significativo de utilizadores a compra do bem realizada A vantagem a redu o no pre o do produto pois geralmente essa compra feita por atacado muitas vezes directamente na ind stria ou com o produtor Verifica se actualmente o aparecimento de grupos de compra formado por empresas Sites de Informa o Estes tem por objectivo fornecer informa es que geralmente s o gratuitas A factura o destes sites costuma estar no espa o vendido para a publicidade Empresas compram espa o geralmente na forma de banners O que determina o valor da publicidade num site de informa o o volume de tr fego quantidade de page views Dentro desta categoria sites de informa o existem especializa es por exemplo sites de pesquisa Yahoo etc sites de not cias sites de download tucows etc sites de cursos on line sites de recrutamento de pessoal etc
92. cia enquanto os links que saiem de um documento podem indicar a variedade de t picos abrangida por um documento Isto pode ser comparado a cita es bibliogr ficas quando um documento varias vezes citado pode significar o tamanho da sua import ncia O m todo de PageRank tira partido desta informa o contida nos links para encontrar as p ginas mais citadas Os contadores de links num documento retraciam a estrutura das p ginas da Web O Web Structure Mining incide o seu campo de investiga o na an lise da estrutura de links da Web para pode identificar documento relevantes O conte do do documentos reflecte se nos documentos que cita nos documentos em que citado f artigos e livros similares PageRank PageRank o m todo pelo qual medida a import ncia de uma p gina Quando factores como o titulo palavras Google chaves s o levados em considera o ent o utilizado o a a A DB Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining PageRank para ajustar o resultados dos motores de pesquisa Ex Google os sites mais importantes s o mostrados em primeiro lugar O m todo PageRank aproveita as caracter sticas da Web usando sua vasta estrutura de links como uma ferramenta organizacional Em resumo interpreta um link da pagina A para a B como um voto da p gina A para a pagina B O motor de
93. crosoft Internet Explorer 5 0 Servi os on line baseados em conhecimento Ferramentas WEBTRENDS http webtrends com 5 7 1 WebTrends Log Analyzer Log Analyzer um software de an lise de trafego da web destinados a administradores da web e de marketing E ideal para os pequenos neg cios permite obter informa o til sobre o comportamento dos utilizadores e ajuda a melhorar o desempenho do site Configurado para um nico servidor de web de Log Analyzer produz essencialmente relat rios sobre os padr es dos visitantes referentes ao seu comportamento dados demogr ficos site Log Analyzer representa os dados de forma organizada atrav s de gr ficos colorido Tendo maior nfase em tornar a informa o f cil de ler e de interpretar FIGURA 22 ESTATISTICAS FIGURA 23 MODO GR FICO Log Analyzer v7 0 Caracter sticas ty Pia Instala o com Wizards e ajuda atrav s do Professor WebTrends tutorial e fun es de ajuda Permite um r pido acesso ao perfis dos visitante e cont m 15 relat rio pre formatados para uso imediato Expans o para 50 relat rios de perfis e permite a customiza o de formatos de relat rios Permite a programa o de fun es autom ticas de gera o de relatorios bem como o processamento de ficheiros de batch F cil reanalise de relatorios de perfis com a base de dados de FasTrends e melhora o desempenho da arquitectura de programas C Servi os on l
94. dados com a conex o e se a ferramenta suporta m ltiplos formatos como ASCII MDB XSL ficheiros delimitados por virgula ou tab SAS SPSS preciso ter em aten o quais s o as convers es que a ferramenta faz com os dados e qual a taxa de importa o e a ferramenta permite a exporta o do c digo sintaxe e regras A ferramenta deve ter a capacidade de facilmente ligar os resultados a um formato que possa ser exportado Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web 4 6 8 Administra o de memoria Normalmente a mem ria que uma ferramenta de data mining requer depende do tamanho do conjunto de dados O tempo para completar a fase de descoberta de conhecimento um factor limitador para a maior parte das ferramentas de data mining Se a utiliza o de um algoritmo o seu tempo de execu o cresce exponencialmente no tempo o tamanho do conjunto de dados de treino ser bastante limitado Quando se considera a utiliza o de mem ria por parte de uma ferramenta de data mining s a complexidade interessa Sendo assim a utiliza o da memoria pode dar uma indica o do sistema necess rio para tratar quantidade normais de dados em termos de registos 4 6 9 Desempenho A velocidade e a precis o contribuem para a avalia o do desempenho de uma ferramenta de data mining A velocidade medida pela rapidez c
95. de automa o de marketing As companhias usam o software para criar um quadro unificado de clientes a an lise do comportamento de clientes para a padroniza o e previs o da personifica o de site e de campanhas de marketing Em particular para o incremento do lucro e do retorno dos programas de marketing Segmenta o do mercado para atingir os clientes alvo Blue Martini Marketing emprega os armaz ns de dados para criar um perfil de clientes As ferramentas de an lise todos os perfileis dos clientes permitindo segmenta lo e refinar a estrat gia de marketing Com base na an lise efectuada podem ser atingidos os clientes mais valiosos e maximizar o custo efectivo de cada cliente Executar campanhas de custo efectivo para adquirir mais clientes Os resultados da an lise melhoram drasticamente os custo efectivo do programas de marketing pelo aumento a resposta a taxa convers o A aplica o executa campanhas de e mail e direct mail a clientes alvo pr seleccionados pela an lise As interac es personalizadas levam a um rendimento A an lise baseada em marketing aumenta a reten o de clientes com interac es obrigat rias Porque adquirir um cliente muito mais caro que reter um cliente o investimento recompensado Cria um grupo virtual para um r pido feedback As campanhas de marketing podem incluir controlo sobre grupos para medir o impacto e sugere pol ticas de ajuste aos grupos Para um mais r pido feedback
96. de for Information Interchange O American National Standard Institute estabeleceu um c digo de caracteres para a transfer ncia de texto entre v rios sistemas B Base de Dados Colec o de dados guardada numa unidade As bases de dados s o teis para guardar e tornar dispon vel uma grande quantidade de dados Dentro das bases de dados os dados podem ser organizados em diferentes tabelas compostas por linhas e colunas Branding Reconhecimento da marca O utilizador pode n o ter seleccionado o banner mas agora ele sabe o nome do seu produto eda sua empresa e pode ser um futuro cliente C C5 0 Um algoritmo de aprendizagem automatica Machine Learning tem um conjunto de regras que podem ser aplicadas a conjuntos de dados desconhecidos para fazer uma nova previsao Este algoritmo foi desenvolvido Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Gloss rio por J Ross Quinlan sendo o sucessor dos algoritmos C4 5 e ID3 Interative Dichotomiser CART Classification And Regression Trees Algoritmo estat stico T cnica utilizada na segmenta o de uma base de dados O algoritmo cria rvores bin rias e segmentos em duas partes Este algoritmo foi desenvolvido por L Briemen em 1984 Classifica o O processo de divis o de um conjunto de dados em grupos mutuamente exclusivos Click Through Ao entrar num banner acede se ao si
97. dministradores com base na informa o recebida pode fazer os seus coment rios num documento Word e voltar a distribui lo aos seus parceiros atrav s do SmartViewer Web Server fe Administra o Publica Os novos estilos de governo obrigam qualquer departamento governamental a disponibilizar informa o anal tica por exemplo estudos demogr ficos execu o de programas etc para acesso ao p blico em geral O SmartViewer Web Server um instrumento ideal para cumprir esta fun o mais que n o seja porque atrav s da difus o de tabelas interactivas permite a cada cidad o uma vis o personalizada da informa o Servi os Financeiros Uma das principais empresas gestoras de cart es de cr dito investe muito dinheiro em campanhas de direct mailing para atrair novos clientes Com o SPSS determina os seus melhores alvos Com o SmartViewer Web Server reporta os resultados das campanhas em curso Os gestores de cada produto t m acesso imediato ao grau de sucesso de cada campanha que gere t Telecomunica es Um operador tem em vigor tr s planos de Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas z comercializa o distintos e utiliza o SmartViewer Web Server para guardar distribuir e reportar internamente informa o v ria sobre cada um dos planos Os gestores acedem a essa informa o para melhor decidir sobre as ac
98. do utilizador dentro do site Se o utilizador se identifica durante o processo de pagamento ele permite ao fornecedor de servi os relacionar a sess o corrente com as sess es anteriores do mesmo utilizador As sess es de navega o do utilizador podem ser reconstitu das com esta t cnica e os problemas de proxy e de cache ficam diminu dos e e T 99 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Num cen rio em que browser por meio da proxy local guarda num ficheiro de registo de acessos pessoal a caracteriza o dos dados da navega o da Web de um dado utilizador estes dados podem ser guardados correctamente se a cache do browser estiver desactivada Em conclus o o relato exacto das sess es de navega o dos utilizadores podem ser afectadas pelo uso de cache servidores proxy e partilha de endere os IP Sendo assim t cnicas como as cookies e a modifica o de URLs s o essenciais na identifica o de pedidos do mesmo utilizador de forma que se possa fazer correctamente a reconstru o das sess es de navega o de um utilizador a partir do ficheiro de registo de acessos T cnicas de Web Usage Mining Hoje em dia existem diversas ferramentas de an lise comercial de ficheiros de registo de acessos No entanto estas ferramentas t m capacidade limitada de an lise produzindo apenas resultados como estat st
99. e e descobrir liga es entre eventos nas minhas bases de dados Para encontrar respostas para quest es como estas as empresas t m usado as ferramentas de Data Mining Estas Ferramentas permitem prever tend ncias e comportamentos futuros permitindo aos gestores tomarem decis es baseadas em previs es consubstanciadas e n o em suposi es A an lise automatizada e antecipada oferecida por Data Mining vai muito al m da simples an lise de eventos passados o que j fornecido pelas ferramentas de retrospectiva t picas de sistemas de apoio decis o como SQL Structured Query Language e OLAP On Line Analytical Processing Por esta caracter stica das t cnicas de Data Mining s o extremamente adequadas para analisar estes grupos de dados que seriam dif ceis de serem analisados utiliando outras t cnicas Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 2 1 Principais Caracter sticas de uma ferramenta Data Mining Os paradigmas de neg cio fizeram evoluir e mudar as quest es a serem respondidas pelos Sistemas de Informa es ao longo do tempo Por exemplo Data Collection q FIGURA 3 CRONOGRAMA t Data Collection 1960s Qual foi o total de vendas nos ltimos cinco anos fe Data Access 1980s Quanto rendeu a nossa filial B no m s passado f Data Warehousing amp Decision Support 1990s Quanto rendeu a nossa filial B no m s passado O que isto a
100. e outros Seguran a do c digo fonte Como o Servidor retorna somente o resultado HTML o c digo fonte fica preservado O recurso ASP parte integrante do IIS Internet Information Server que tem sua seguran a integrada f cil restringir o acesso a p ginas ASP usando os processos de autentica o do IIS ainda poss vel dar seguran a aos dados transmitidos usando SSL Linguagens O ASP pode utilizar de comandos em VBScript JavaScripte HTML Existem plug ins ActiveX para dar suporte para outras linguagens como PERL e Python Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining i Armazenamento de informa es Aplica es ASP podem armazenar dados que s o mantidos durante toda uma sess o Desta forma um utilizador pode fornecer seu nome somente uma vez numa pagina e as demais paginas podem obter se este dado automaticamente Este recurso ideal para aplica es de venda pela Internet ASP EM AC O No caso das p ginas ASP o funcionamento o seguinte o browser do cliente envia a requisi o de uma p gina O servidor processa o c digo desta p gina e retorna ao utilizador uma resposta em HTML SERVIDOR Saudacao asp Eo lt if Hora Now lt 12 then gt Requisi o de sauda o ASP Bom Dia lt else gt Boa Tarde Le JLSIINGISIUNIL lt HTML gt Bom dia lt HTML
101. e procura padr es escondidos e em grandes conjuntos de dados A descoberta de conhecimento em bases de dados definido como um processo de identifica o de padr es v lidos potencialmente teis e compreens veis nos dados analisados As tradicionais an lises de dados s o teis para criar relat rios a partir dos dados que confirmam as hip teses predefinidas sobre eles No entanto os grandes volumes de dados que est o a ser recolhidos criam novos desafios a essas t cnicas com o mundo de neg cios procura de novas formas de utilizar esses dados como uma vantagem sobre a concorr ncia Ao longo dos anos as organiza es acumularam milhares de dados contendo informa o que ajudaram a evoluir e conquistar mercado permitindo que os administradores baseados nelas de diferentes formas tomassem decis es Data Mining veio melhorar a perspic cia e a vis o do neg cio dos gestores possibilitando conquistar e manter clientes com maior facilidade procurando encontrar respostas para assuntos situa es futuras apartir das situa es passadas Data Mining prev ac es dos consumidores mostrando rela es entre dados antes escondidos descobre h bitos de consumo melhora os lucros da empresa e a ajuda esta a consolidar se no mercado Empresas que det m e ou fornecem com fiabilidade rapidez e de forma organizada este produto t m grandes hip teses de permanecerem de forma competitiva no mercado Ace
102. em branco para preencher que existem nos websites Eles possuem diversas fun es Servem para recolher dados e informa es que ser o preenchidos pelos utilizadores Alguns exemplos dessas informa es podem ser Pedido de compra de produtos Pedido de informa es adicionais sobre um produto ou servi o E mail por permiss o o utilizador solicita a recepc o de informa o por e mail Pesquisas on line sobre um tema espec fico geralmente uma pergunta que fica no site por um per odo determinado por exemplo Tem cart o de cr dito internacional t Perfil do utilizador que visita o site em geral um longo question rio nessa modalidade sempre h uma troca o utilizador coloca as suas informa es e a empresa fornece gr tis algum servi o ou produto de seu interesse Ap s o preenchimento o formul rio pode ser enviado para uma conta de e mail da empresa op o mais simples ou ir directamente para uma base de dados que poder estar integrada num sistema mais sofisticado de gest o que analisar esses dados e os encaminhar para efectivar a transa o Existem diversas tecnologias pr prias para a implementa o de formul rios on line dentre elas existem as linguagens de scripts CGI Common Gateway Interface muito utilizados em formul rios via e mail Os c digos ASP Actives Server Pages que podem interligar formul rios bases de dados p l T 26 Instituto Superior de
103. entas e servi os que t m como objectivo melhorar e experi ncia de navega o do utilizador Sendo assim o utilizador beneficiar do acesso a motores de pesquisa com t cnicas melhoradas e Web sites com interfaces personalizados e com ferramentas pessoais para ajudar a lidar com a grande quantidade de informa o e op es de navega o da Web A figura seguinte mostra um esquema de acesso a Web as poss veis fontes de informa o que se podem tirar deste acesso fontes estas que v o dar origem aos tr s campos de estudo deo web mining Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ma o am Linha telefonic ee A Internet E o Modem 7 i L Ei EN servidor de Cliente ISP Servidor Web conte dos Comportamento Logs do Conte do do cliente servidor do site FIGURA 12 ACESSO WEB Sendo assim o web mining divide se em Web Usage Mining Web Structure Mining e Web Content Mining Como exemplificado pela figura seguinte Abordagem Acessos do utilizade Links de um docume Conte do do Web lt Links para um docun Outros dados releva Conte do da p gin Links das p ginas FIGURA 13 ABORDAGENS DO WEB MINING T a Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhec
104. eridas as usas carater sticas e reas de aplica o Este capitulo tamb m inclui as principais linguagens utilizadas na Web e as linguagens para a extrac o de conhecimento O quarto cap tulo descreve todos os passos necess rios e as dificuldades em extrair o conhecimento da Web bem como as medidas necess rias para obter resultados fi veis numa an lise O quinto cap tulo descreve as principais ferramentas existentes no mercado para extrair conhecimento da Web As reas para que est o vocacionadas desde as an lise dos perfis de clientes a an lises de associa es de produtos Sendo assim este trabalho pretende demonstrar a import ncia das transac es na Internet e a import ncia das t cnicas de extrac o de conhecimento atrav s de dados retirados da web e o seu impacto futuro nos diversos sectores de actividade Servi os on line baseados em conhecimento Conceitos Gerais 2 Conceitos Gerais Os conc cellos gerais da dis Isponibiliza a o e recursos da Web E classifica o dos mesmos os ones de seguran a e todos os mecanismos que permitem atrair e manter os clientes pela Internet Instituto Superior de Engenhaia do Porto Baek inform tica Servi os on line baseados em conhecimento Conceitos Gerais 2 1 Redes e Servidores Uma rede local de computadores Local Area Network LAN composta por servidores de dados servidores de programas servidores Web computadores com a
105. evam tamb m uma barra de chocolate f O banco Ita conseguiu aumentar sua taxa de retorno do envio directo para 30 reduzindo a conta do correio a um quinto armazenando e analisando a movimenta o financeira de seus 3 milh es de clientes nos ltimos 18 meses f A Sprint um dos l deres no mercado de americano de telefone de longa dist ncia desenvolveu com a an lise de Data Mining no seu armaz m de dados um m todo capaz de prever com 61 de seguran a se um consumidor trocaria de companhia telef nica dentro de um per odo de dois meses Com um marketing agressivo conseguiu evitar a deser o de 120000 clientes e uma perda de 35 milh es de d lares em factura o O governo de Massachusetts no Estados Unidos compilava informa es financeiras imprimindo telas e mais telas nos terminais de grande porte S com papel foram economizados 250000 d lares por ano al m de permitir que o or amento anual fosse assinado e analisado antes do in cio do ano fiscal fe O SERPRO no Brasil implantantou um armaz m de dados e Data Mining j consegue hoje cruzar e analisar informa o em cinco minutos o que antes obrigavam quinze dias de trabalho amp E o cl ssico exemplo de uma grande rede de vendas americana que descobriu atrav s das t cnicas de Data Mining que as vendas de fraldas estavam intimamente ligadas s vendas de cerveja Explica o os pais que saiam noite para comprar fraldas compravam cerveja tamb
106. fectou na filial C f Data Mining Hoje O que realmente ir acontecer com as vendas na filial C no pr ximo m s Por qu THEARLING 2000 Data Mining uma t cnica que permite pesquisar em grandes bases de dados informa o que aparentemente esta camuflada ou escondida permitindo com isso agilidade na tomada de decis o Uma empresa que utiliza as t cnicas de Data Mining capaz de Criar par metros para entender o comportamento do consumidor Identificar afinidades entre as escolhas de produtos e servi os Prever h bitos de compras Analisar comportamentos habituais para se detectarem fraudes As ferramentas de Data Mining podem determinar padr es de comportamento como associa o de produtos durante um processo de compras Com isto as ferramentas Data Mining indicam a presen a de oportunidades e de previs es em rela o aquele p blico consumidor O diferencial Data Mining esta no facto de as descobertas de padr es de consumo se darem por uma l gica de algoritmos com base numa rede neuronal de racioc nios S o ferramentas de descoberia matem ticas feitas sobre os registos da organiza o j processados contra descobertas emp ricas Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Por exemplo A rede americana Wall Mart pioneira no uso de Data Mining descobriu ao explorar seus n meros que 60 das m es que compram uma boneca Barbie l
107. ficas W Web Mining Data Mining virado para a Web Descoberta de padr es baseada em dados recolhidos na Internet X XML eXtensible Markup Language Um termo relativo a uma especifica o de segunda gera o do padr o HTML Em termos pr ticos o XML possibilitar atrav s de tags espec ficos definidos sectorialmente uma muito maior efici ncia nas pesquisas XSL eXtensible Style Language Linguagem de formata o do XML Servi os on line baseados em conhecimento Introdu o 1 Introdu o Na ultima d cada assistiuse a um acentuado desenvolvimento das capacidades inform ticas de gera o e armazenamento de dados Avan os cient ficos na forma de recolha de dados tais como a utiliza o de sensores remotos ou sat lites espaciais introdu o de c digos de barras nos produtos comerciais e a informatiza o da maioria das transac es comercias sob a forma de cart es de cr dito contribuiram significativamente para o aumento dos dados Paralelamente os avan os da tecnologia de armazenamento de dados tornam se mais r pidas baratas e com maior capacidade de armazenamento que dando assim suporte ao aumento cresente de dados e de informa o A import ncia do conhecimento para as organiza es surge pela intergra o de sistemas de informa o e de ferramentas computacionais que trabalham directamente sobre o conhecimento aparecendo ent o os Sistemas Baseados em Conhecimento Os Sistemas B
108. fun o de esta es cliente equipamentos que permitem a troca de dados entre os computadores da rede com taxas elevadas de transmiss o e software que permite o a partilha entre computadores e perif ricos Dentro do conceito tradicional de LAN esses equipamentos devem estar restritos a uma rea geogr fica Com o avan o da tecnologia essa rea est a expandir se cada vez mais Os servidores s o computadores robustos com um ou mais processadores com grande capacidade de mem ria RAM e rea em disco dispon vel Podem trabalhar numa modalidade chamada de clustering que permite que v rios computadores possam trabalhar como se fossem um nico No caso de algum deles apresentar uma falha os outros assumem o processamento sem impacto vis vel Os servidores de dados armazenam as bases de dados Oracle Informix SQL Server e outros nos servidores de programas residem os programas que atendem as esta es clientes da LAN e os servidores Web disponibilizam software e as facilidades da World Wide Web WWW para as redes Internet e Intranet Netscape e Microsoft Web Servers As esta es clientes s o os computadores utilizados pelos utilizadores Entre os componentes que permitem a transmiss o de dados entre os computadores destacam se os routers hubs Ethernet Switches cabos e conectores especiais Os routers s o equipamentos que direccionam uma informa o de uma LAN para outra LAN atrav s de um protocolo de comunica
109. genharia Inform tica Servi os on line baseados em conhecimento Anexos B TTTT JJ it O modulo CUSTOMER PROFILER descobre os grupos de clientes que tem um comportamento de compras similares O modulo DATA BOOSTER usado para incluir dados adicionais dos clientes ou produtos de bases de dados externas para os modelos ECOMMINER e assim aumentando a precis o dos algoritmos Ps a s h Databases k e b adm Statistics Data h istics di E Artificial Intelligence j FIGURE 30 CAMPOS RELACIONADOS COM O DATA MINING O ECOMMINER baseado em cinco princ pios b sicos flexibilidade extensibilidade abertura modulariza o and escalabilidade O ECOMMINER utiliza um arquitectura aberta que baseado no EDK ECOMMINER Developer Ki Requerimentos de sistema O ECOMMINER foi completamente implementado em Java e totalmente independente da plataforma No caso do BusinessReports edition um Java SDK Sun Development Kit 1 2 plug in tem que ser instalado no browser do cliente Necessita de 64MB de RAM 128 MB s o recomendados o FuturePack edition requere uma base de dados SYBASE adicional Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Ma To S XAffininity TM E TH clusive Dre http www xore com XAffinity foi desenhado para analisar
110. gens atrav s do Usenet e de uma vers o pr pria do Open Directory Excite tem o seu pr prio index e tamb m utiliza o do LookSmart s Directory para resultado baseados em categorias Excite foi lan ado em 1995 iWon tem por base Inktomi DirectHit LookSmart e RealNames Won tamb m mostra os links pagos do Goto com http www iwon com sta NBCi http www nbci com NBCi tem um direct rio de web sites e tamb m mostra resultados do Inktomi Mostra os links pagos do Goto com GoTo vende espa o para an ncios com os _ por click O top 2 s o listados no AltaVista AOL overture 0 Search Direct Hit GoTo HotBot iWon Lycos NBCi Netscape Search Search com Mais tarde foi chamado de Overture resultados das pesquisas A publicidade paga sani pe irren http www overture com Ask Jeeves leva o utilizador a pagina exacta que corresponde a pesquisa Se a pesquisa falha o motor de pesquisa vai buscar resultados a outros motores de pesquisas Direct Hit a base das pesquisas por categoria Ask Jeeves tambem http www askjeeves com utiliza GoTo com AltaVista um dos maiores motores de pesquisa na web em termos de p ginas indexadas Tambem tem inumeras carateristicas para atrair x WA utilizadores o servi o de direct rios baseado no altavista LookSmart Directory AltaVista tamb m mostra os THE SEARCH COMPANY ee ee ae links do GoTo AltaVista foi lan ado em Dezembro de 1995
111. gisto de acessos utilizado o uso de cache e de servidores proxy utilizados na Web Como resultado nem todas as p ginas pedidas ao servidor s o guardadas no ficheiro de log Se o browser encontrar em cache uma c pia do SSGZ EALA I N Raes a Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining documento que est a ser pedido pelo utilizador o pedido n o ser feito ao servidor e a c pia guardada do documento mostrada Sendo assim embora a p gina seja vista pelo utilizador o pedido n o registado no ficheiro de registo de acessos do servidor Uma situa o parecida pode ocorrer a n vel da proxy O utilizador de proxies pode causar dificuldades na identifica o dos pedidos feitos por um computador Um servidor de proxy pode ser configurado de tal maneira que quando pedida uma c pia de uma p gina que n o est dispon vel na mem ria local esta pedida pela proxy em nome do utilizador Nestes casos o endere o IP guardado no ficheiro de registo de acessos corresponde ao da proxy e n o o do utilizador Note se que mais do que um utilizador pode utilizar a mesma proxy para ver o mesmo site ao mesmo tempo E poss vel ter dois utilizadores a partilhar o mesmo endere o IP e o mesmo fornecedor de Internet pode alocar dinamicamente endere os IP diferentes para o mesmo utilizador durante uma cone
112. gr fica dos processos de transforma o n o necess ria qualquer programa o Processo interactivo de transforma o de dados atrav s de um interface amig vel AMADEA permite tt AMADEA permite um ganho de tempo no desenvolvimento e manuten o de complexos processos de transforma o de dados Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos f O Motor ETL permite a explora o interactiva do processo de transforma o O uso de AMADEA aumentar a efici ncia na prepara o de informa o at 95 do tempo normalmente necess rio da forma tradicional Processo din mico com par metros O processo de transforma o din mico e flex vel Um datamart criado com AMADEA que posteriormente pode ser redefinido sempre que os par metros de que depende Os scripts para to selec o dos par metros s o p ginas da Web que s o geradas automaticamente pela defini o da transforma o Applying axecubon parameters Transformation Parameters fe Script Settings Amadea Com o AMADEA poss vel produzir novas variaveis filtrar dados para que a transforma o tenha apenas a informa o relevante AMADEA consegue tratar grandes volumes de dados para isso utiliza um motor para gerir a mem ria e optimizar assim o uso da mem ria do computador de acordo com o espa o livre O
113. hecimento dos dados de XML Utiliza para isso a tecnologia de Fuzzy Rule induction que gera regras que explicam e prev em valores seleccionados como input no conjunto de dados baseados em outros valores Resultando num conjunto de regras expresso em Meta regras um dialecto do XML que pode ser convertido em ingl s utilizando o XSL e tamb m compreendido pelo processador de regras do XML 5 6 2 XML Miner A vers o de single user permite uso ilimitado num nico computador sem tempo limite mas n o funciona em servidores Windous A vers o de servidor permite uso ilimitado num servidor sem tempo limite Os componentes do XML Miner constituem um kit completo a extrac o de dados e de fontes de dados em XML gerando as regras nos termos de regras f then e regras fuzzy e em XML baseado no conhecimento representa o da linguagem Metaregras e regras em ingl s em HTML e usando regras de descoberta no mundo real no Web site um browser ou em qualquer ge aplica o Windows O XML Miner tamb m inclui um objecto strucfind que uma rvore de controlo que extrai o schema tipo de informa o dos dados do XML e mostra a estrutura em forma de rvore Usando este objecto o utilizador pode facilmente seleccionar o inpute o output a ser utilizado para a extrac o de conhecimento Existem varias metodologia para a extrac o do conhecimento dos conjuntos de dados XML Miner usa um algoritmo de indu o de regras
114. ias publicados e acedidos por uma imensa comunidade de utilizadores Como consequ ncia os servidores v o acumulando os registos de acessos s suas publica es on line Existe a percep o do grande potencial destes dados como fonte de conhecimento acerca das reac es e motiva es dos utilizadores mas para os explorar s o necess rias ferramentas de an lise adequadas Pretende se neste trabalho verificar qual o actual alcance dos servi os on line baseados em conhecimento partindo da an lise de casos conhecidos e da identifica o das suas caracter sticas verificar quais as linhas de investiga o na rea e qual o impacto que poder o ter na evolu o futura desses servi os No cap tulo dois s o focados os conceitos gerais da disponibiliza o e acesso a recursos da web a classifica o dos mesmos os sistemas de seguran a e todos os mecanismos que permitem atrair e manter os clientes pela Internet No terceiro cap tulo s o referidas as principais caracter sticas t cnicas algoritmos e aplica es de uma das fases da descoberta de conhecimento o Data Mining S o abordados os benificios e as aplica es do Text Mining processo pelo qual se pode extrair conhecimento de grandes volumes de texto Servi os on line baseados em conhecimento Introdu o documentos artigos de jornal etc E s o explicados as abordagens do Web Mining Web Content Mining Web Structure Mining Web Usage Mining Sendo ref
115. ica o de outros conjuntos de documentos O processo de classifica o de documentos tamb m bastante eficaz para a classifica o de p ginas Web Outras aplica es de text mining t Execu o de sum rios consiste em sumariar textos tentando apanhar as ideias mais importantes Clustering an lise de diversos documentos e agrupamento de peda os clusters de texto de acordo com semelhan as no conte do fe Identifica o de l nguas consiste em descobrir em que linguagem determinado documento est escrito t Detec o de duplicados em arquivos Exemplos gest o de correio electr nico gest o de documentos f helo desk automatizado fe pesquisa investiga o de mercado f recolha de intelig ncia de neg cio GIL amp RODIGUES 2001 51 Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Etapas do processo de Text Mining Pesquisar informa es WEB ou seleccionar base de documentos Limpeza ou padroniza o do vocabul rio Eliminar erros ortogr ficos Eliminar stopwords Eliminar varia es morfol gicas Y Identifica o da relev ncia das palavras atrav s de estat stica ou de an lise sem ntica sint ctica ou estrutural Y Filtrar seleccionar palavras mais relevantes Y Truncar Y Aplicar algoritmo de extrac o de conhecimento Clustering classifica o indu o de regras extrac o conceitos re
116. icas E com as ferramentas de Data Mining cruzar informa es e prever situa es que ocorrem devido apos o lan amento de um an ncio oficial H registo do uso efectivo de Data Mining em pa ses como os EUA a Fran a ou a Alemanha onde estas ferramentas j est o presentes em algumas decis es tomadas pelos seus governantes 3 2 7 Dificuldades para o uso de Data Mining Existem alguns impedimentos na utiliza o das t cnicas de Data Mining O mais significativo hoje ainda o alto custo por m v rios factores podem impedir sua implanta o Organiza o De nada adianta investir nas t cnicas de Data Mining se os dados da empresa estiverem espalhados redundantes ou se n o forem fi veis Quando analisamos dados referentes a uma transac o estes n o podem ser contradit rios Geralmente a implanta o de armaz ns de dados precede a implanta o de ferramentas de Data Mining pois possibiltam agregar informa es espalhadas de diferentes estruturas formas e plataformas Para tal a defini o e organiza o destes dados devem ser minuciosas uma vez que os dados mal organizados afectam negativamente os resultados da an lise Alto Custo Este sem d vida um dos principais motivos de desist ncia na implanta o de solu es de Data Mining O alto custo da maioria das ferramentas dificulta a dissemina o desta ferramenta entre as empresas Alguns fornecedores t m introduzido produtos com custo mais baixo
117. icas sum rias e o n mero de visitas frequentes as p ginas Existem diversas t cnicas que permitem tirar partido da informa o dispon vel nos ficheiros de registo de acessos Previs o Personaliza o e Visualiza o E um modelo constru do com base na informa o passada de utiliza o e na probabilidade de transi es entre as p ginas que s o proporcionais ao n mero de vezes que ambas as p ginas s o acedidas num intervalo de tempo predefinido Note se que o uso do intervalo de tempo resulta em transa es de probabilidade maior que zero entre as p ginas que nunca foram acedidas construtivamente Os resultados que saiem das experi ncias mostram que o m todo eficaz na redu o da carga do servidor e do tempo de servi o Outro m todo similar a depend ncia gr fica que deduzida e dinamicamente actualizada enquanto o servidor recebe os pedidos Existe um n por cada pedido p gina e um arco entre dois n e se o n alvo pedido X acessos depois do n raiz o peso do arco proporcional ao n mero de pedidos As simula es feitas com os dados do ficheiro de registo de acessos mostram que a redu o na recupera o da lat ncia pode ser conseguida Este m todo n o garante transi es s apenas dentro de pedidos consecutivos Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 8 4 4 Linguagens e tecnologias HTML e XML Presentemente a maior parte das p ginas dispon ve
118. iduais ft prev o comportamento e resultados aprende e responde a preferencia de um visitante Avalia e mede o impacto de online e offline de actividades de marketing acede e melhora o designe estrutura e conte do KnowledgeWebMiner utiliza os componentes de Data mining do KnowledgeSTUDIO os algoritmos que este utiliza para an lise de streams o enriquecimento dos dados atrav s do Acxiom Data Network e o processamento online de dados geodemograficos de marketing em mais de 95 de casas nos US A ferramenta trabalha com ficheiro de registo de acessos do servidor Web e utilizando as fun es de relat rios do Web log parsing e de outra ferramentas como Net Genesis WebTrends e Accrue Software ANGOSS planeia lan ar o VisibleWeb um plug in para KnowledgeWebMiner que permite a visualiza o da actividade do site no desktop do utilizador O Knowledge WebMiner corre em ambientes como Windows NT 2000 e SUN Solaris Advisor 2002 ee M Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Quadstone CustomerConversion Pq k il htto www quadstone com QUADSTONE mememe comme E uma an lise centrada no cliente com an lise gr fica e relat rios da Web e outros tipos de dados Copyright Quadstone 2002 CustemerConversion uma solu o de software que permite aos e businesses compreender e prever o comportamento das compras de
119. il de ler O relat rios s o em formato HTM Os relat rios est o divididos por categories Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Estat sticas gerais Actividade Estat sticas por incremento de tempo f por dia da semana f por hora do dia Recurso Acedido por page views por sequ ncias de browsing por ficheiros downloaded por directorios acedidos por imagens acedidas gt gt gt 32 Referencias estatisticas Requisitos do sistema Microsoft Windows 95 98 2000 NT ME XP Pentium 90mhz ou acima 64 MB RAM 10 MB de espaco de disco O gt gt _ Ferramentas fe por referencia do dominio fe por referencia as URLs Estatisticas do motor de pesquisa Pesquisas por palavra chave fe por motor de pesquisa Regiao geografica Browsers e plataformas Informa o t cnica amp P ginas n o encontradas 404 f Erros em geral Servi os on line baseados em conhecimento Ferramentas li EE A 5 9 Webanalyzer Webalizer What is pour web server doing today http www mrunix net webalizer O Webalizer um programa de an lise de logs Produz relat rios em formato HTML que podem ser vistos em qualquer browser O Webalizer produz estat sticas anuais mensais di rias e hor rias Nos relat rios Nos rel torios mensais diversas estatistica s o produzidas so bres as utiliza es di rias
120. imento Do Data Mining ao Web Mining 3 4 1 Web Content Mining Web content mining refere se as t cnicas que assistem o utilizador a encontrar documenta o dentro de um determinado crit rio A descoberta da sem ntica dos documentos pela explora o do conte do dos links de e para o documento da sabedoria dos peritos das selec es dos utilizadores Os documentos encontrados s o utilizados para formar uma base local de conhecimento Uma das abordagens para a solu o deste problema a defini o de uma linguagem de interroga o que baseada nos recursos da Web Uma das t cnicas a utiliza o de um modelo de base de dados multi camada que transforma os dados da Web n o estruturados num formul rio de acordo com a tecnologia de base de dados As ferramentas especializadas s o utilizadas para extrac o de informa o da p gina Web com o objectivo de identificar os documentos relevantes As caracter sticas dos documentos s o guardados numa base de dados local A linguagem de interroga o permite a interroga o de um grande n mero de caracter sticas na base de dados local e se mais detalhe for necess rio os recursos actuais da Web ser o interrogados pelos motores de pesquisa 3 4 2 Web Structure Mining World Wide Web pode revelar muito mais informa o do que a informa o contida nos documentos Por exemplo os links que apontam para determinado documento indicam a sua prefer n
121. ine baseados em conhecimento Ferramentas 5 7 2 WebTrends Intelligence Suite NetlQ s WebTrends Intelligence Suite permite uma vista completa da actividade do cliente para poder medir a melhoria do desempenho A web tornou se uma parte intr nseca do dia a dia dos negocios e cada vez se torna mais crescente a necessidade de medir o retorno do investimento de e business FIGURA 24 MEDIR E MAXIMIZR O ROI WebTrends Intelligence Suite inclui t WebTrends Warehouse Transforma processa e guarda todos os detalhes da actividade do cliente da Web para uma posterior an lise fe WebTrends Reporting Center Enterprise Edition Cont m mais de 350 graficos e tabelas predefinidas WebTrends Report Designer Permite desenhar e customizar relat rios e permite a an lise comparativa de relat rios fe WebTrends OLAP Manager Contem mais de 40 modelos multi dimensionais pre definidos e permite criar novas an lise para analisar novas tend ncias ft WebTrends para Administra o de Sistemas Traduz e integrar formatos propriet rios para a an lise Caracter sticas WebTrends Intelligence Suite fe Maximo retorno de investimento no web site Medindo o sucesso da forma de dissemina o de informa o a forma como o cliente de e commerce age isto permite avaliar o que funciona e o que n o funciona no site fe Melhora a efic cia do marketing Permite identificar como que os trafego de visitante chega ao site e
122. inferir sobre grandes conjuntos de texto descobrindo relacionamentos escondidos no universo textual O Text Mining tal como o Data Mining surgiu da intersec o entre v rias reas principalmente aprendizagem autom tica da estat stica e das bases de dados Unique Users o n mero de utilizadores que visitaram o site num determinado per odo Neste caso tamb m software especializado ira fornecer a an lise do desempenho dos banners para que se possa analisar a sua efici ncia Servi os on line baseados em conhecimento Gloss rio V Valor continuo Valores cont nuos s o valores no intervalo de n meros reais S o o oposto de discretos e categ ricos Vortal Vertical Industry Portals Tamb m chamados de vertical trade communities comunidades virtuais verticais definidas em fun o de um mercado espec fico ou ainda de Net marketplaces mercados online Os vortais ou portais tem ticos em portugu s s o os lugares de encontro online de ind strias inteiras onde os trabalhadores de um determinado sector de actividade podem obter facilmente informa o espec fica ao sector not cias sobre a actualidade do segmento calend rios dos eventos previstos notas sobre os ltimos avan os tecnol gicos e estat sticas entrada em grupos de discuss o onde se trata de mat ria relevante do ponto de vista profissional e aceder a servi os orientados para as suas necessidades espec
123. ior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos tt Identifica os visitantes que vem os produtos mas nao os compram o online cria uma lista para serem alvos de campanhas An lise T cnica ft Segue os links que est o partidos e os pedidos p ginas que n o foram respondidos fe Assegura que o site optimizado de forma a se visto pelos os browsers das diferentes plataformas f Identifica o acarregamento lento de uma pagina de forma a evitar abortar o pedidos de p ginas segue o desempenho do servidor durante diferentes per odos de tempo f Diagnostico de informa o sobre as actividade de cada servidor An lise de trafego fe An lise as visitas por data de forma a ver os resultados de uma campanha de marketing desde do dia de lan amento e durante todo o seu ciclo de vida relacionando com a taxa de vendas Segue os page views do Web site para alterar a quantidade de conte do visto durante a visita fe Analisa as visitas por dia ou hora para determinar as tend ncias da utiliza o do site Analise do comportamento online dos empregados Os relatorios do servidor firewall de proxy da NetTracker permite ver actividade na Web de cada empregados Analisa o tempo total online os sites visitados as p ginas vistas em cada site An lise a da utiliza o por departamento individual ou por grupo f An lise din mica da utiliza o
124. is na Web est o escritas em HTML HyperText Mark up Language O HTML uma linguagem que consiste principalmente de um conjunto de tags que identificam diferentes tipos de componentes numa pagina ex t tulo tabelas e figuras Cada componente posicionado na p gina de acordo com o seu tipo O HTML tem sintaxe fixa e limitada em complexidade f cil de aprender e relativamente simples de implementar Estas caracter sticas permitiram o desenvolvimento da Internet mas quanto mais a Web crescia tamb m crescia a inefic cia do HTML Com o aparecimento do XML eXtensible Mark up Language os pontos fracos do HTML t m sido ultrapassados Os tr s aspectos em que o XML difere do HTML s o fe uma linguagem extens vel permitindo a defini o da estrutura l gica de um documento e impor uma estrutura de valida o A adop o do XML permite definir e validar novos tipo de documentos As defini es tipo dos documentos podem ajudar as ferramentas automatizadas a compreender a estrutura l gica dos documentos e permitem um enorme potencial para melhorar a exactid o da tecnologia dos motores de pesquisa fe XML tamb m melhora a forma como a informa o posicionada no browser do utilizador Por exemplo permite diferentes formas de ver os componentes de um documento sem ter que fazer download de diferentes vers es do documento XML uma linguagem de descri o de conte dos que permite aos programadores definir
125. ise quantitativa de grandes volumes de textos ajudando a compreender todo o conhecimento dispon vel que seria imposs vel obter de forma manual Pode ser aplicado a uma grande variedade de documentos memorandos cartas contratos patentes transcri o de discursos mensagens de correio electr nico e outras fontes similares Serve para gerir conhecimento correspondendo experi ncia colectiva conhecimento e sabedoria da organiza o O conhecimento para al m da informa o propriamente dita engloba o contexto alternativas e factos dos processos de decis o que se podem encontrar nos documentos da organiza o Apesar de o text mining ter v rias analogias com o data mining tradicional diferem na medida em que o ltimo funciona essencialmente atrav s da aplica o de algoritmos de aprendizagem e estat sticas a conjuntos de dados identificando rela es previamente desconhecidas ao passo que o text mining refere se ao processo de procura atrav s de documentos n o estruturados apesar de muitos documentos possu rem campos bem definidos como t tulo autores categoria entre outros o corpo do documento costuma n o ter uma estrutura r gida inferindo algum significado deles Benef cios do text mining amp aumentar o valor da informa o da empresa baixos custos de integra o versus outras t cnicas de processamento texto produtividade aumentada dos trabalhadores que lidam com o conhecimen
126. ispon veis para aumentar a velocidade de acesso aos dados N Neg cio Electr nico e Business Diferente do conceito de com rcio electr nico Com rcio Electr nico na lInternei diz respeito a transac es comerciais conduzidas atrav s da Internet Neg cio Electr nico uma express o usada normalmente para descrever o conjunto de procedimentos e sistemas que t m de ser implementados para que a utiliza o da Internet se torne uma compet ncia nuclear da gest o de uma dada empresa e uma caracter stica intrinseca de todas as suas cadeias de valor O e Business tem um lema customer satisfaction is everything s importa a satisfa o do cliente Servi os on line baseados em conhecimento Gloss rio O ODBC Open DataBase Connectivity uma especifica o projectada pela Microsoft para permitir as aplica es do Windows acesso a multiplos dados atraves de um metodo simples sem considerar os diversos formatos dos arquivos de dados Superando o problema das bases de dados diferentes que t m meios diversos de prover acesso para a informa o contida neles OLAP Online Analytical Processing Aplica o de base de dados que permite ao utilizador ver navegar manipular e analisar bases de dados multidimensionais Dp Pageviews p gina que est a ser carregada Por exemplo entrou num site Abriu a p gina principal 1 page view E entrou no link marketing segunda page view Se for para outro
127. itora de informatica Tecnologia de Bases de Dados Jos Luis Pereira FCA Editora de informatica Programa o Web com Active Server Pages Joao Vieira Edi es Centro Atl ntico tt Web Usage Mining for Web Site Evaluation Myra Spiliopoulou Agosto de 2000 Automatic personalization based on Web Usage Mining Bamshad Mobasher Robert Cooley Jaideep Srivastava Agosto de 2000 Prospec o dos Dados de Acesso ao P blico On line Paulo Batista M rio J Silva Agosto de 2000 fe XML Miner XML Rule and Metarule Andrew N Edmonds Maio de 2001 Instituto Sipener m Engenharia do Porto Engenhail fi ioim lica Servi os on line baseados em conhecimento Bibliografia Drinking from the Firehose Robert Cooley fe Apontamentos da disciplina de Sistemas Inteligentes t Apontamentos da disciplina de Intelig ncia Artificial tt Apontamentos da disciplina de Sistemas Periciais t Apontamentos da disciplina de Agentes Inteligentes e sistemas Cooperativos Servi os on line baseados em conhecimento Anexos Anexos Produtos Data Mining Existem in meras ferramentas para Data Mining bem como diversos fornecedores e fabricantes As principais ferramentas e respectivos fabricantes s o listados abaixo Aira ALICE d lSoft AnswerTree AT Sigma Data Chopper Athena Knowledge Server Atlas BusinessMiner Capri CCM Data Correlation Model C5 0 Clementine Clustan D Miner Data Mining Componen
128. le Clickstream Intelligence Pivotal Digital Intelligence Plexus prudsys ECOMINER RedSheriff Measurement RedTrack RTMetrics SageAnalyst SiteKeyZ SiteStat Stratum e Business Performance Management SuperStats Enterprise SurfAid Synera ePack Urchin 3 WatchWise Web Hound Web Mining Intellivisor Web Utilization Miner WebAbacus webfeedback webHancer e Business View WebHouse Weblnsight Weboscope WebSuxess WebtrafflQ Webtrends Commerce Trends WebVision Marketing WX Web Analytics Xelector Web Activity Analysis Intellitracker Appliant Key Lime Software MediaHouse Software MicroStrategy veridiem Narus net Genesis NetAuditNow Sane Solutions Oracle Pivotal Hanrick Associates Prudential Systems Software GmbH RedSheriff Red Eye International AuriQ Systems SageMetrics Complex Systems NedStat Silvon Software Inc MyComputer Com IBM synera Quantified Systems WatchWise SAS Institute Humboldt University WebAbacus Ingenieurburo Liebhart webHancer Torrent Systems Applix Weborama Exody E Business Intelligence WebtrafflQ Webirends NetAcumen White Cross Xelector 44 020 7665 1624 UK 8 7 227 7542 858 509 0055 819 776 0707 800 848 8600 978 461 2444 617 665 9200 617 665 9200 609 683 3800 800 407 3570 800 633 1071 877 748 6825 206 381 0602 49 0 3 715347123 Germany 212 297 6221 44 20 7627 9300 UK 626 564 2781
129. m conhecimento Gloss rio O DSS deve integrar grande parte das informa es das empresas provenientes de v rias fontes tanto dos sistemas como de informa es externas do mercado entre outras SQL Structured Query Language um standard das linguagens de programa o sendo utilizada para interagir com as bases de dados relacionais SQL permite obter os dados das tabelas e tamb m inserir actualizar e apagar dados Stopwords Palavras a serem ignoradas pois param o processamento da an lise R Rede neuronal com propaga o retroactiva back propagation uma arquitectura de rede que est desenhada para utilizar o input e o output uma camada escondida Durante a fase de treino a informa o propagada para tr s na rede o que permite a actualiza o dos pesos das conex es Redes neuronais de Kohonen Pode tamb m ser conhecida por Self organizing map E uma arquitectura neuronal que utiliza a aprendizagem autom tica para fazer an lise de clusters Foi desenvolvida Teuvo Kohonen ROI Retorno do Investimento Qual o valor m ximo em CPC que se deve pagar para ter um retorno T Text Mining o processo de extrair conhecimentos de grandes volumes de texto KDT Knowledge Discovery in Texts n o conhecida a sua dimens o e s o utilizados para apoiar a tomada de decis o e ou sumariar textos documentos artigos de jornais etc O Text Mining permite aos utilizadores explorar e
130. ma informa o proactiva Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Produtos Medida Saldo M dio Fev Mar y tempo lro Trimestre FIGURA 9 OLAP Drill Down up E o processo de analisar a informa o em diferentes n veis de detalhes Por exemplo uma fotografia do planeta tirada por sat lite Esta fotografia mostra o planeta terra com seus oceanos e continentes O utilizador acede fotografia e pede uma vis o mais aproximada do continente sul americano A fotografia amplia mostrando esse detalhe e assim por diante Outro exemplo a visualiza o das estat sticas de vendas de um determinado produto em um determinado ano Esta informa o pode ser ampliada para vendas por m s durante esse ano ou por dias Permite tamb m uma vis o mais global como a das vendas na d cada produtos mais vendidos em determinada regi o etc Roll UP A opera o de roll up o oposto do Drill Down up ja que fornece uma vis o dos dados cada vez mais generalizada Slice and dice Significa a redu o da amplitude dos dados Por exemplo podemos com esta caracter stica analisar as vendas apenas do produto A apenas na regi o B Exemplos de ferramentas construtores e analisadores de armaz ns de dados DATA MART Os Data Marts possuem a mesma estrutura dos Armaz ns de dados O que os difere a sua amplitude Enqua
131. mais lucrativos oy Net Tracker Microsoft internet Explorer Kendall Whaling Museum Visitor Profile Summary May 2002 Visitor Profile Last Visit Average Visit Duration Visits Repeat Rate Viewed Colechons May 31 2002 at 1131 pm 2 minutes 59 seconds 2143 39 2 255 Viewed Bibhooraphies May 31 2002 at 10 24 pm 3 minutes 37 seconds 1367 36 0 20 5 Competed Guestbook May 31 2002 Y settracker Graph Microsoft internet Esplorer a mE IE ai E O Ed S a 4 Eegtered for Lecture May 30 2002 Ll Deeded 300a ra Pa ate 5 Purchased Membership May 30 2002 1 Viewed Exhibits May 30 2002 i i Completed Tow Form May 30 2002 3 B Purchased from Sho May 30 2002 i ee DO T viana Collecting 4 Requerted Event Inte May 30 2002 1 Eo E ied Bibiepapria SC pee ed rerba 4 Aagiteied for Lecture JO Viewed Derections May 30 20021 Wisi E Puchas Membaship g B vigas Batiibits 0 T Completed Toma Fain DO a Purchased oom shop E Regquedied Ereni info O DD Viewed Dirch era Humber gf Visits Show all visitor profil 3 J r a visitor Profile Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos An lise de conte do hd ir ha gt ir Avalia a popularidade dos produtos Web site Identifica as necessidades dos clientes em conte do An lise din mica do conte do do cesto de compras
132. mentou 4 9 Entrega dos Resultados O relat rio de Data mining deve ser preparado documentando todo o processo de descoberta de conhecimento incluindo todos os passos tomados na selec o e prepara o dos dados ferramentas utilizadas e porqu as configura es efectuadas os resultados e explica o do c digo gerado Como em qualquer rea de negocio necess rio estabelecer regras gerais e procedimentos No relat rio ter que haver coment rios como foram obtidos os resultados de data mining a come ar por verificar se o objectivo do website foi conseguido ou n o e em caso afirmativo deve se explicar o porqu Tamb m deve ser inclu do no relat rio como que os resultados de data mining podem ser melhorados Pode se mencionar as ajudas que auxiliaram o processo e quais os dados adicionais que podem auxiliar a an lise recomenda es para a captura de informa o como por exemplo melhoramentos aos formul rios e as cookies de registo do website Devem ser inclu dos algumas recomenda es para mudan as subtis ao design do website O processo de descoberta de conhecimento um processo interactivo e a sua documenta o deve assegurar que os melhoramentos tenham um impacto positivo especialmente se o site for de com rcio electr nico 4 10 Por os resultados em pr tica Esta a etapa final do processo de extrac o de conhecimento dos dados de um website Esta etapa involve a incorporar os resultados encontrado
133. nalyst e com os m dulos do data mining 5 Executa v rios objectos de WASL Existentes j no WA ou criados pelos os utilizadores 6 retorna a informa o ao canal de transmiss o gerando conte dos e relat rios anal ticos 7 Permite ao utilizador um ambiente gr fico de programa o Servi os on line baseados em conhecimento Ferramentas gt SS a Arquitectura do servidor O componente principal do WA server o seu Sistema WA server pode ser dividido em tr s componentes Transaction Manager Channel Processors Manager e Virtual Machine MEGAPUTER INTELLIGENCE WA Server architecture Scrat Largue Manager SLIM FIGURA 21 ARQUITECTURA DO WEBANALYST Mm a a Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas 5 5 MicroStrategy Web Traffic Analysis Module Best In Business Intelligence o http www microstrategy com 5 5 1 Dominio da An lise Web Traffic Analysis parte integrante de uma estrat gia de negocio on line Atrav s do Web Traffic Analysis podemos medir e analisar as interac es dos clientes na Web Estas interac es podem ocorrer em m ltiplos processos de negocio tais como vendas presta o de servi os e marketing etc 5 5 2 A solu o do Modulo de An lise de trafego da MICROSTRATEGY O modulo de an lise de trafego da MicroStrategy esta inclu do na plataforma MicroS
134. ng http www mestradoinf ucb br aluno esilva Avaliagao do estado da arte html amp Afonso 2001 Afonso Margarida Maria Ramos Semantic Web Junho 2001 Borges 2000 Borges Jos Luis Cabral de Moura A Data Mining Model to Capture User Web Navigation Patterns Julho 2000 ft Ramos 1998 Ramos Carlos Introdu o Intelig ncia Artificial e aos Sistemas Baseados em Conhecimento 1998 ft Spiliopoulou 99 Spiliopoulou Myra Data mining for the Web 1999 ft Fayyad et al 1996 Usama M Fayyad Gregory Piatelsky Shapiro Padharaic Smyth Ramasamy Uthurusamy Advances in Knowledge Discovery and Data mining Servi os on line baseados em conhecimento Bibliografia A EST mt Bibliografia Links visitados http www kdnuggeis com http www w3c org http www dmqg org http www dataspaceweb net http www acm org sigkdd http www datamine co nz dm htm http www accrue com index html http www angoss com http www bluemartini com index jsp http www spss com http www quadstone com info press 2000 01 25 xm l http www datamining com dmsuite htm http www lumio com products sID 13d46b38c1ba89f7f926a360ba 76a32Ft http megaputer com http www microstrategy com Solutions Applications WTAM http Awww netgen com index cfm section solutions amp file emetrics http www netgen com http Awww ecomminer com index html http www sas com products we
135. nhecimento na Web Existem hoje em dia procuras exaustivas de associa es de compra e de padr es e venda nos grandes sites de vendas livros CDs brinquedos e software As associa es descobertas levam a oportunidades de vendas conjuntas e promo es As aprendizagens supervisionadas e n o supervisionadas requerem um conjuntos de dados de treino e teste A divis o dos dados originais pode ser feita utilizando um n mero aleat rio Quase todas as ferramentas modernas de data mining incorporam m todos para divis o dos dados e avalia o dos resultados depois do modelo criado Uma vez o modelo criado a partir do conjunto de dados de treino os dados de teste s o passados pelo modelo para avaliar a precis o do mesmo Dividindo o numero de classifica es incorrectas pelo n mero de classifica es totais obt m se a taxa de erro Dividindo o n mero de classifica es correctas pelo n mero de classifica es totais obt m se a taxa de precis o do modelo que ser 1 taxa de erro Quase todas as ferramentas actuais permitem medir a precis o do modelo constru do Elas facilitam o processo da divis o dos dados em dados de treino e teste Tamb m permitem a compara o e teste aleat rio dos resultados encontrados dos dados de treino com os dados de teste muito importante que os dados de teste sejam dados que n o entraram para a constru o do modelo para que os resultados sejam mais cred veis e por isso se d a
136. nica do Accrue Network Collector e Data Warehouse k Solu o personalizada fe Personaliza o de Relat rios Suporta a personaliza o de relat rio usando interfaces standard e processamento em batch e distribui o autom tica Oferece aos utilizadores uma an lise mais detalhada Integra o dos dados Os produtos Accrue oferecem uma an lise completa de todos os dados dos clientes da Web Os utilizadores podem integrar dados externos na base de dados de clientes e outros tipo de fonte de informa o de clientes para que os programas possam ter uma vis o geral dos seus neg cios na Web fe Servi o de Merchandising Oferece an lise e recomenda es de Web merchandising baseados na informa o dos clientes compilados pelos produtos Accuer Este servi o ajuda os clientes a aprender como ganhar previs es no seu ambientes especifico de neg cio e obter resultados que mapeiam a estrat gia de neg cio t Conte do das Bridges O conte do das Accrue Bridges asseguram que Accrue Insight e Insight possam adicionar m dulos que fornecem uma Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos compreensiva an lise de e Business para uma largo leque de tecnologias e abordagens que entregam conte dos e servi os na Web Para tirar o maior partido de cada produto o programa de bridges usam uma mistura apropriada de produtos e servi os Por exemplo
137. nt Year Last Tear 10000 BU DO Former Customers E Mumber of Unigua Wiz tors Loyal CUsTo hers O furar of Unique Wis Mors 6000 ne Time Customers E une of Unique Wis Mors 4000 Friends D Humber of Unique Wis Mors 20 00 Strangers E Humber of Unique Wis Mors 1593 2000 Perguntas que permite responder t Quais os banners de publicidade e outros tipos de links s o visitados ou n o pelos clientes registrados fe A percentagem de sucesso em converter utilizadores em utilizadores frequentes e em clientes t Quais os clientes que est o a ser perdidos 5 5 7 Web Content Analysis Web Content Analysis permite monitorizar o conte do est tico e din mico de um website conte do esse que atrai converte ret m os utilizadores da Web Isto permite optimizar o conte do o layout e a navega o do website Os utilizadores do modulo podem seguir a actividade de um cliente especifico como as palavras chave utilizadas e actividade de compras Perguntas que permite responder amp t Como que os utilizadores que visitam o site pela primeira vez o utilizam vs Os utilizadores frequentes Como se optimiza a sequ ncia de paginas no site para ter as melhores taxas de convers o de clientes Quais as p ginas que fazem o cliente desistir do site http www metadatamining com 5 6 1 Data Mining Package Analisa filtrar classifica e prev dados de XML XML Miner analisa extrai con
138. ntas como f Qual o total de vendas dos dois ltimos dias Quais os produtos que s o comprados juntos AllAnalysis editon permite formular outras perguntas sendo assim mas flex vel que BusinessReporis edition Estas duas edi es usam os mesmos algoritmos e tem a mesma estrutura O modulo SELECTION permite quest es mais complexas como Que produtos interessaram ao cliente X na ultima segunda feira O modulo STATISTICS calcula essencialmente caracter sticas estat sticas e permite facilidades gr ficas para uma interpreta o mais f cil O modulo BASKET ANALYSIS descobre regras de associa o do tipo Se os produtos A e B s o comprados juntos ent o o produto C tamb m comprado Todos os par metros escolhidos podem ser guardados em ficheiros que podem ser relacionados como macros para uma an lise sequencial e autom tica O FuturePack edition uma extens o do AllAnalysis edition adicionado lhe avan adas funcionalidades de data mining Inclui m dulos para o progn stico de futuros comportamentos de clientes bem como funcionalidades Esta ultima funcionalidade realizada pelo modulo TIME PREDICTOR que se baseia nas caracter sticas do passado para prever o futuro Por exemplo Quantos produtos A ser o vendidos na pr xima semana O modulo DIRECT MARKETING permite dirreccionar as campanhas de marketing baseado nos resultados das campanhas anteriores Instituto Superior de Engenharia do Porto En
139. ntificas a paginas que os visitantes frequentes retornam e determina os seu pontos de interesse ft Determina porque os potenciais compradores abandonam as transac es T er a AS Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos Ascential Software ry rey T bait da dd ii j nu rreare If a Edi F Ti F FEJ J F Faia ELCLITRCTI PUN PPE E htto www torrent com news torrentacquisition html A tecnologia Torrent tem uma estrutura escalavel de processamento paralelo para o desenvolvimento e execu o de armazens de dados negocios inteligentes e aplica es analiticas O processamento em paralelo aumenta o desempenho do software N Analog http www analog cx Analog descobre os padr es no servidor web procurando ser Ultra rapido escal vel configuravel com relat rios em 30 linguas podendo trabalhar em qualquer sistema operativo e um Free software Projecto WUM Web Utilization Miner O objectivo principal do WUM analisar o comportamento de navega o dos utilizadores do web site sendo apropriado para descobrir pad es e sequencias em qualquer tipo de log WUM um ambiente para prepara o de logs pesquisa e visualiza o Tem uma linguagem de pesquisa o MINT suporta a especifica o de crit rios padr es dominantes ou estat sticos O WUM tem as seguintes carateristicas Relat rios web HTML
140. nto os Armaz ns de dados englobam toda a empresa os Data Marts s o projectados para atender as necessidades de um determinado departamento rea da empresa ou grupo de utilizadores Os Data Marts podem ser usados independentemente integrados noutros Data Marts ou ainda interligados para juntos constru rem um Armaz m de dados Instituto Superior de Engenharia do Porto Engenharia Informatica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining arg Base de dados Base de dados Data Warehouse Base de dados Base de dados FIGURA 10 DATAMART Arquitectura Existem duas formas de se criar um Data Mart A primeira denominada top down e a segunda bottom up No Top down a empresa cria um Armaz ns de dados Depois divide este em reas menores gerando assim pequenas bases de dados orientados por assuntos ou departamentos No Bottom up a situa o inversa A empresa opta por criar primeiro um base de dados para um departamento ou grupo de utilizadores Com isso os custos s o bem inferiores de um projecto de Armazenagem de dados completo Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 2 6 Abordagens de utiliza o as t cnicas de Data Mining A ferramentas de Data Mining podem trabalhar em cima de qualquer agrupamento estruturado de dados n o precisa necessariamente de ser uma
141. nvers es de campos Sim N o para 1 0 Uma ferramenta gr fica ou um bom editor de texto podem assistir na inspec o f sica dos dados Uma inspec o visual permite uma vis o geral do n mero e da percentagem de campos em branco no conjuntos de dados Tamb m uma ferramenta de estat stica pode assistir na identifica o de rela es importantes entre as vari veis existentes nos dados No entanto isto pode n o ajudar em conjuntos de dados muito grandes Quando se utiliza bases de dados muito Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web grandes deve se extrair uma amostra aleat ria e executar as opera es extrair conhecimento dos dados e avaliar os resultados Se consideramos a utiliza o de ferramenta de redes neuronais para al m das convers es das datas t m que ser feitas convers es dos valores categ ricos para valores de 1 at N e todos os valores s o convertidos para valores compreendidos no intervalo de O a 1 ou em fun es logaritmicas ou de raiz quadrada Um dos m todos mais comuns para tornar os dados mais homog neos a redu o do n meros de valores distintos para uma dada caracter stica O dados que faltam apresentam um problema especialmente quando se utilizam redes neuronais porque esta n o lidam com valores em branco Os dados que faltam t m que ser analisados para saber se eles rep
142. o espec fico Os hubs s o equipamentos onde s o conectados todos os computadores de uma LAN atrav s de cabos e conectores especiais Os routers ligam as LAN tamb m atrav s dos hubs Os Ethernet Switches s o comutadores de taxas de transmiss o e protocolos permitindo a troca de informa es em alta velocidade entre dois pontos normalmente utilizando fibra ptica Para apoiar toda essa estrutura de comunica o necess rio de software de rede conhecido como sistema operativos de rede NOS Network Operating System que permitem a partilha de recursos da rede tais como controle de acesso aos dados armazenados nos servidores manter de seguran a de acesso aos dados e a Instituto Superior de Engenharia do Porto Engenharia Informatica Servi os on line baseados em conhecimento Conceitos Gerais ca ao aaa somente para pessoas autorizadas e partilha de impressoras entre outros recursos A troca de informa es entre os computadores e perif ricos est baseada num mecanismo de endere amento onde cada componente da rede possui um nico n mero conhecido como endere o IP Internet Protocol 2 1 1 ISP internet Service Provider As empresas que disponibilizam o acesso aos recursos da Web aos utilizadores finais s o denominadas tecnicamente por ISP Internet Service Provider Permitir o acesso Internet simplesmente interligar um computador ou mesmo uma rede de computadores a
143. ocesso a partir de um conjunto de objectos que lhe apresentada no ecr Os streams s o interactivos Cada passo do stream seleccionado com base em dois princ pios a informa o que obtivemos na etapa anterior e o nosso conhecimento do neg cio Deste modo podemos adaptar continuamente o nosso stream Os modelos sao facilmente criados e testados Pode construir e testar m ltiplos modelos para ver imediatamente qual o modelo que melhores resultados produz Ou pode combina los utilizando os resultados de um modelo como input de um outro modelo Estes meta modelos tomam em conta as decis es do modelo inicial e podem melhor los substancialmente Visualizar os resultados permite nos compreender as altera es ocorridas As poderosas t cnicas de visualiza o do Clementine permitem nos compreender as rela es importantes nos dados e determinar o melhor caminho de an lise a prosseguir Atrav s de gr ficos interactivos podemos ver os padr es dos dados em qualquer passo do processo E atrav s da fun o query by mouse podemos explorar esses padr es seleccionando subconjuntos dos dados directamente a partir do gr fico A PSE est apta a analisar consigo o seu problema e construir prot tipos que demonstrem os ganhos efectivos decorrentes da adop o da solu o Clementine para um processo de data minin da sua informa o 5 3 1 Clementine 6 5 Clementine 6 5 traz novos recursos que agilizam an
144. ode ser usado para agregar partes do site no modelo de previs o registrar o tempo de navega o do cliente as p ginas mais consultadas e servi os Wel mais procurados Cada vez mais as empresas est o constatando que as ferramentas anal ticas s o fundamentais para o sucesso do CRM E o lan amento da edi o 6 5 vem refor ar a posi o do Clementine como a mais pr tica e completa tecnologia de data mining para gest o de relacionamento com clientes O Clementine j utilizada por mais de 500 companhias no mundo dos segmentos de manufactura telecomunica es finan as varejo sa de governo universidades e e commerce O produto compat vel com o sistema operacional Windows 95 98 2000 XP ou NT4 0 cliente Windows 2000 NT4 0 Solaris 2 6 7 ou 8 HP UX 10 20 ou 11 AIX 4 2 2 ou 4 3 Server Dispon vel na vers o cliente servidor Servi os on line baseados em conhecimento Ferramentas ia III o es a em os maos Es Neo e E eo ER o o o e ET a E aa 5 3 2 SmartViewer Web Server O SmartViewer Web Server uma solu o para difundir os resultados anal ticas pelos administradores departamentos ou clientes a que se destinam Com esta solu o lhe poss vel distribuir os resultados anal ticos obtidos com o SPSS de um modo f cil e num meio de acesso generalizado atrav s da Internet ou da sua intranet e por utiliza o do Web browser que utiliza para outr
145. olocar os seus dados na rede nas compras on line Para a seguran a da p gina existem alguns protocolos como SET Secure Electronic Transation SSL Secure Socket Layer criptografia utilizados para realizar transac es seguras na Internet Seguran a Uma das grandes barreiras para a realiza o de compras na rede a quest o da seguran a na transmiss o dos dados principalmente dados referentes ao cart o de cr dito Esta preocupa o por parte do utilizador tem fundamento uma vez que as transmiss es de dados atrav s de redes de comunica o publicas como o caso da Internet muitas vezes s o v timas de falhas t cnicas e humanas ou interceptados por hackers o que gera grandes problemas aos sites e aos utilizadores de servi os virtuais Tudo isso pode ser evitado atrav s da utiliza o de algumas tecnologias que fornecem excelentes n veis de seguran a De uma forma geral o problema n o est na transmiss o de dados propriamente dita Ao colocar o n mero do seu cart o de cr dito num formul rio de compras num site e envia lo ao local requerido muitas vezes o utilizador imagina que esta transmiss o TT gt gt tw DD Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Conceitos Gerais possa ser interceptada por algu m durante o percurso dos dados pela Internet Isto n o acontece As falhas de seguran a ocorrem no local de
146. omi com j O Open Directory utiliza editores volunt rios para CEES catalogar a Web Tendo sido lan ado com http dmoz org NewHoo em junho de 1998 126 Servi os on line baseados em conhecimento Anexos Ferramentas Adicionais Accrue HitList Cl LJ E E Se PT a AR if http www accrue com index html uma poderosa e flex vel ferramenta de an lise de de ficheiros de registo de acessos com mais de 300 relat rios Accrue HitList uma solu o de an lise online e offline de dados em tempo real HitList optimiza o efeito das iniciativas na Web fazendo decis es de merchandising baseadas em dados em dados armazenados implicando o aumento do lucro e a satisfa o do cliente Para fazer com que as decis es de investimento na Web em neg cios fundamentais as empresas tem que medir o impacto do merchandising e da publicidade nessas decis es AS empresas precis o de capturar a informa o do trafego no website e com os dados demogr ficos optimizar os seus esfor os de marketing e merchandising Demographic Data gt Behavioral Actionable Response Information Enterp rise wide in Near from Web site View Real Time Transactions P FIGURA 26 ACCRUE HITLIST Servi os Educacionais da Accrue Accrue fornece uma gama variadas de t cnicas de treino fe Web based rt Classroom lead fe On site fe T cnicas e dicas Servi os Profissionais da Accrue A Accrue desenvolveu servi os de
147. omque o modelo constru do e a rapidez com que o modelo de previs o pode avaliar novos dados Outro factor que tem um impacto no desempenho o custo Qual o custo de arranjar um conjunto de dados e do desenvolvimento do modelo de previs o Isto inclui o custo do n mero dos exemplos necess rios e o custo de assegurar a precis o de um conjunto de dados de um modelo Por exemplo no volume de transi es de um website este problema n o se apresenta 4 6 10 Ru do A precis o da ferramenta varias vezes afectada pelo ru do que o resultado de colunas irrelevantes e de falta de dados Na avalia o da robustez de um produto de data mining deve ter se em conta a quantidade de ru do que a ferramenta pode lidar at que a sua precis o baixe Em vez de avaliar a ferramenta de Data Mining com um conjunto de dados de treino prefeito deve ser feito com um conjunto de dados que tenha em conta todo o ru do do sistema Diferentes n veis de ru do podem ser adicionados ao conjunto de dados de treino e registar se o n mero de classifica es correctas encontradas Ao adicionar o ru do deve se estudar as inconsist ncias que resultam da an lise 4 6 11 Paradigmas Um dos pontos chave para a selec o de uma ferramenta de Data mining s o as tecnologias de data mining que suporta como por exemplo ser capaz de executar as rede de Kohonen para descobrir os clusters e gerar regras usando um algoritmo de aprendizagem autom tica C5 0
148. orma o Esta informa o ret m e por vezes esconde a experi ncia passada Analisar esta informa o pode resultar numa maior capacidade de decis o e na melhoria da rela o com os nossos clientes Com o Clementine pode aprender com o passado para melhorar o seu futuro O Clementine uma ferramenta de data mining Descobrir padr es e tend ncias que nos permitam trabalhar mais eficientemente um dos objectivos do data mining O conjunto exaustivo de t cnicas dispon veis no Clementine permite encontrar respostas para os desafios anal ticos mais extremos Come ando por combinar dois dos elementos mais preciosos os nossos dados e o conhecimento que temos do neg cio podemos criar poderosos modelos de neg cio Desde redes neuronais a rvores de decis o e t cnicas de regress o log stica at procedimentos de apresenta o e prepara o dos dados o Clementine pode utiliz los para criar os melhores modelos explicativos em reas t o diversas como Prever o comportamento dos clientes analisar o risco e detectar excep es de modo a prestar lhes um melhor servi o Analisar os dados de acesso ao seu portal Internet eMine para descobrir o percurso dos visitantes e com isso personalizar e rentabilizar os acessos t Classificar os clientes em categorias espec ficas tais como rentabilidade alta ou baixa e potencial de reten o alto ou baixo para melhor defini o de estrat gias
149. os dados da web com o sistema existente de administra o sistema e commerces CRM ERP Integra o com m ltiplas bases de dados plataformas e browsers Servi os on line baseados em conhecimento Ferramentas http www 123loganalyzer com 5 6 123LogAnalyser 123LogAnalyzer permite ver o perfil dos utilizadores Como navegam no website fe Quais as paginas que s o vistas quais as que s o ignoradas Mi 4 T t Quanto tempo ficam no site De onde que vieram fe Quais as novas oportunidades para atrair mais visitantes clientes f Se existe uma mundan a no comportamento de um visitante Se algu m esta fazer algo de errado no Web site 123LogAnalyzer pode analisar ficheiros ZIP and GZ com os ficheiros de registo de acessos sem ter que os descomprimir primeiro Outro software de an lise de ficheiro de registo de acesso utilizam o reverse DNS lookup tecnologia que gera informa o geogr fica que altamente imprecisa 123Loganalyzer usa um IP interno para mapear tecnologia que identifica a regi o geogr fica do visitante pelo seu endere o de IP 123LogAnalyzer permite ver como que as pessoas utilizam os motores de pesquisa para encontrar um determinado site O relat rio de desempenho do motor de pesquisa permite saber quais as palavras utilizadas nas pesquisa quais os motores de pesquisa que tem maior ou menor trafego Estes relat rios permitem optimizar as p ginas da Web e ajustar as
150. os em considera o durante este processo como as datas das compras e o valor total das vendas efectuadas no website estes factores podem servir para classificar o cliente consoante o seu valor lucro e a sua lealdade Com a integra o do website com outros tipos de dados pode ser poss vel a identifica o dos clientes mais lucrativos e a identifica o de potenciais clientes Com base nos perfis efectuados o website pode alvejar novos clientes enquanto eles visitam o site com a compara o de v rios atributos entre os clientes e os visitantes de um site de forma a adicionar e alterar ofertas incentivos pre os banners e outras comunica es Tamb m podem ser feitas altera es a campanhas de marketing e no design do website Por exemplo os clientes podem ser comparados a visitantes do site nos seguintes atributos Idade Sexo Rendimento Passatempos Ocupa o Estado civil Resid ncia Habilita es liter rias Interesses l dicos Taxa de rendimento dispon vel Posicionamento demogr fico e psicogr ficos PIF IIIIIIIAI Os dados psicograficos caracterizam as atitudes de um individuo e caracteriza o seu estilo de vida Estes dados sao um indicador de como os clientes e os visitantes pensam do seu estilo de vidas O SRI Internacional um instituto de pesquisa nao lucrativo desenvolveu oito categorias de padrao de vida para os consumidores Assim os consumidores s o agrupados em grupos mutuamente exclusi
151. os fins O SmartViewer Web Server torna f cil e r pida a publica o dos resultados SPSS e a sua distribui o a indiv duos no interior ou fora da sua institui o Uma vez publicados lhe igualmente permitido actualiz los reflectindo de imediato qualquer altera o aos dados originais O processo de tomada de decis es torna se mais f cil Em primeiro lugar o analista cria um relat rio com base no SPSS gr ficos ou quadros de resultados De seguida tal como arquiva um ficheiro o analista publica o seu relat rio inserindo o no SmartViewer Web Server tornando o acess vel O potencial receptor atrav s do Web browser do seu computador pode a partir de agora aceder ao cat logo que estrutura a informa o disponibilizada e visualizar os relat rios que pretende Este acesso n o p blico Com o SmartViewer Web Server o acesso informa o pode ser protegido e seguro O Administrador da solu o tem controlo sobre o acesso informa o Pode especificar que documentos est o acess veis para o receptor X atrav s da atribui o de privil gios de acesso ou de restri es nos destinat rios Exemplos de aplica o t Com rcio Uma cadeia de lojas est interessada em abrir mais estabelecimentos A sua localiza o potencial foi objecto de an lise O SmartViewer Web Server utilizado para distribuir a informa o obtida a cadeia de gest o da empresa localizada em diferentes lugares Cada um dos a
152. os nas estimativas feitas pela rede suposi es incorrectas reduzem os limites para as conex es apropriadas uma t cnica excelente muito vantajosa mas que tem dois aspectos negativos O primeiro a complexidade dos modelos gerados O segundo o problema de exigir que o formato dos dados seja imut vel para diferentes representa es dos dados surgem resultados diferentes T er l T 40 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Exemplos de ferramentas SPSS Neural Connection IBM Neural Network Utility NeuralWare NeuralWorks Predict Regras de associacao Market Basket Analysis T cnica de localiza o que permite atrav s de um cesto de compras inferir regras de associa o a partir de grupos de itens ou produtos que surgem nesta transac o A an lise combinat ria dos produtos juntamente com a localiza o geogr fica do cliente permite promover investimentos em marketing espec ficos para determinados produtos e regi es Para vendas n o an nimas poss vel ainda promover investimentos em marketing para determinados perfis de clientes focando os seus tra os de compra garantindo maior retorno no investimento Racioc nio Baseado em Mem ria Usa rela es j conhecidas como templates para inferir e fazer previs es de rela es a serem descobertas A fiabilidade da op o depende
153. os padr es na associa es e sequ ncias Integra o com bases de dados ste a extrac o de conhecimento feita directamente nas tabelas ou views na base de dados t os resultados da extrac o de conhecimento colocada directamente na base de dados Exclusive Ore XAMMinity Etapa ai Kay TA CODE Proa PR lemin ITEM_CODE Arasi Gael November alfiriies for selected Partion YEEKDAY aa by WEEKDAY Dan of SEQUENCE A ereto e Group ID PRODUCT SET CODE f melo pit arail O a SET CODE Lagast item get 3 Name s PS DESC Deta source Sloop Microsoft SOL Server FIGURA 31 INTERGRACAO DOS DADOS Vantagens e Podem ser utilizadas outras ferramentas como o OLAP para examinar os resultados Muita da actividade de extrac o de conhecimento decorre na base de dados aaa Jr Instituto Superior de Engenharia do Porto Engenharia Inform tica Ren on line baseados em conhecimento Anexos fe A seguran a do DBMS preservada porque n o necess rio nenhum estrato da base de dados Com os resultados do modelo na base de dados podendo aplicar os modelos a novos dados utilizando opera es da base de dados select e join ou outras ferramentas da base de dados OLAP Caracter sticas do XAffinity ha Parti o autom tica Permite automaticamente gerar regras por atributo sendo estas guardas por hora dia
154. ou n veis departamento t Gera o selectiva de regras As regras podem ser geradas selectivamente para itens espec ficos Instituto Superior de Engenharia do Porto Engenharia Inform tica eee on line baseados em conhecimento ANEXOS Emhnhed lieri Triem Lull Ta SOLU TIMES ALHE LE DELLCOTT CHEESE AY JTRADE 4 RELA DELI BUT TER Rar ALL DEPARITHENTS CELH HEESE Bairy CARE PRODUC CELLOOUGH PROC BASY FOOD RELUAES SAG o Rap POFOAULA DELHE Gas H Baby WEEDS BELL PREPARED FO lt q EHP Se DELHS MES PAGS DELITOS T RELL DGLAT AA C DEN TAL DENTURE PACOUCTS REQDORAN TE DEDDOPIZE RS FAES DETERGENTE HARE TIC CARE HAPE RS TET CUISINE HET FODS E T SLPPLEME DIE TE TIC CLESIKE zi MEA Te HED prato MONEY ORDERS UTOA GARDEH Sa A FEA PACEILICES APE A TAA Pee PAPER T TOWELS PARATY GOES i Ra O Esu keded Herz fhem isi AOL TRIAHES SOV TAADE 4 RELA ALL DEPARTHENTS di CARE PRODUC r FOCO Err FORMAL A Bag NEEDS MO PROGUCT SET fe M ltiplos formatos de regras e texto parametrizado de regras As regras s o produzidas em formatos especificados pelo utilizador Os formatos da linguagem natural fazem com que as regras sejam f ceis de compreender As regras produzidas s o dependentes do tempo e suportam fe Depend ncias de multiplos per odos de tempo por exemplo mais tarde pr xima visita ou intervalos de tempo fe Intervalos fle
155. oulou 99 No tipo da pagina de Web E Toc html Welcome html Toc2 html Capitulo1 html Capitulo2 html FIGURA 20 HIERARQUIA DE P GINAS Spiliopoulou 99 Dados das transac es Quando se constr i um armaz m de dados h que ter em mente que os dados prov m muitas vezes de diversos sistemas e que muitas vezes isto envolve lidar com flat files tabelas relacionais e sistemas hier rquicos e relacionais de m ltiplos sistemas operativos que lidam ao mesmo tempo com m ltiplos atributos como as datas de maneiras diferentes A coordena o e selec o destes conjuntos de dados envolve consider vel esfor o e tempo sendo esta parte que demora mais tempo de todo o processo de extra o de conhecimento Os factores decisivos nas decis es da selec o dos dados da Web s o a sua portabilidade e o seu custo quer das bases de dados internas como as externas Outros factores que interv m na selec o s o a seguran a e a privacidade dos dados especialmente no uso da informa o cedida pelos Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web clientes do website N o esquecer que alguma informa o tem que ser utilizada para a cria o do perfil do utilizador e esta pode n o estar dispon vel Ao longo de todo este processo aparecem dados inconsistentes e diversos tipo de dados encri
156. ptados e valores inconsistentes quando seleccionados e comparados com dados de outras fontes Isto pode prejudicar todo o processo de extrac o de conhecimento levando a solu es erradas A necessidade de certos dados para a an lise de Data Mining est o directamente ligados com o output ou insight desejado Para a maior parte das an lises a regra geral quanto mais dados melhor A segunda regra que uma selec o de dados da Web deve conter ambos os tipos de clientes ou contas ou seja tanto os casos positivos como os casos negativos para que a previs o seja a mais realista poss vel 4 3 Prepara o dos dados Uma vez que os dados foram reunidos e visualmente inspeccionados algumas decis es tem que ser tomadas em rela o aos atributos a serem exclu dos e aos atributos a serem convertidos em formatos utiliz veis Qual a condi o dos dados e quais os passos necess rios para prepar los para an lise Quais as convers es e mapeamentos de dados necess rios antes da an lise fe SO s o processos de prepara o aceit veis para os utilizadores se produzirem solu es gt Quais a estrategias que se pretendem tomar para lidar com os dados que faltam e com os dados isolados Se s o necess rias convers es para OS campo categoricos Normaliza o de campo monet rios Se s o necess rias convers es de datas para valores cont nuos gt gt gt 2 Convers es de moradas Co
157. que gera resultados compreens veis e utilizando o XSL transforma as regras em ingl s que permite explicar exactamente o que bi descoberto e os inputs outputs fuzzy sets e as categorias derivadas dos dados XML Miner permite o utilizador especificar a percentagem dos dados que s o utilizado para o conjunto de teste e depois da indu o das regras o XML Miner calcula o desempenho dos dados teste e de treino Servi os on line baseados em conhecimento Ferramentas XML Miner trata tipos de dados primitivos e classifica inputs automaticamente converte em tipos categ ricos e num ricos O XML Miner classifica dados ou prev valores num ricos XML Miner recebe como input a URL da fonte de dados ou uma string de XML e instru es como a previs o deve ser baseada e em que itens Existem duas formas de instru es um XML baseado na defini o do ficheiro como um gerado pela utilidade strucfind ou os inputs e output podem ser individualmente especificados em Visual Basic como as colec es onde o XPath como outros paramentos podem ser especificados O resultado da an lise s o Metaregras que descrevem o conjunto de dados e dois valores descrevendo o desempenho dos dados de treino e de teste Para os dados categ ricos o output do desempenho expresso se a frac o foi classificada correctamente Requisitos de sistema Windows 9x 2000 ME XP and NT Espa o em disco 6MB tt Memoria 32MB ft Software Mi
158. r da dist ncia a que estiverem os alvos vizinhos A sua grande vantagem que pode ser utilizada com in meros tipos de dados Permite ainda aprender novas classifica es apenas com a introdu o de novas inst ncias na base de dados On Line Analytical Processing OLAP Mesmo n o sendo uma t cnica de Data Mining excelente como ferramenta para a visualiza o da informa o das bases de dados relacionais de um modo agrad vel para o utilizador Serve tamb m para a pesquisa de padr es importantes na informa o considerada uma das fun es mais sofisticadas em An lise de Dados pois permite e possibilita aos utilizadores estudarem os dados de maneira multidimensional podendo perfurar os dados at os seus detalhes drill down ou ver por es sumariadas destes dados slice and dice On Line Analytical Processing usa um modo especial de modelar os dados do Data Warehouse Mart os chamados Cubos OLAP Proporciona as condi es de an lise de dados para responder s poss veis perguntas dos analistas gerentes e executivos A funcionalidade caracterizada pela an lise multidimensional e din mica dos dados O pr prio utilizador gera consultas de acordo com suas necessidades de cruzar as informa es com m todos que o levem a descoberta daquilo que procura com simples clicks do rato Mas relat rios OLAP limita se a perguntas o que aconteceu j o Data Mining explica o porqu das coisas proporcionando u
159. r saber Como que o algoritmo da ferramenta determina se as caracteristicas encontradas se enquardam ao problema Que provid ncias s o tomadas para tratar os dados em falta ru do e os custos computacionais fe Se trata as variaveis dependentes e imdependentes f Quala quantidade de ru do suporta at baixar a precis o f Quala sensibilidade do algoritmo ao ruido e aos dados que faltam 4 6 3 Formatos Uma ferramenta de data mining que incorpora um algoritmo de aprendizagem autom tica deve permitir a visualiza o das regras mais importantes ou dos factores que descobriu A ferramenta deve n o s detectar os padr es mas tamb m dar uma ideia do que se est a passar no website e permitir um interac o f cil com os dados A explica o da actividade do website consiste em saber qual a natureza das transac es dos clientes que est o a ser analisados A ferramenta de data mining deve gerar os resultados em rvores f rmulas gr ficos ou regras devendo estes serem o mais simples poss veis para que se possa descobrir o maior n mero de objectos escondidos Para um conjunto de dados de tamanho consider vel como um de um website de vendas a descoberta de todas as regras seria imposs vel para um utilizador mesmo que todas as regras fossem simples de compreender As regras gerais devem descrever qual a actividade que est a acontecer no website a alto n vel Instituto Superior de Engenharia do Por
160. r an lises sensitivas aos resultados A ferramenta tamb m podem incluir algum interface de exporta o dos resultados dos modelos para outras ferramentas de visualiza o ou ferramentas de OLAP 4 6 5 Pr processamento A prepara o dos dados para an lise uma das etapas que consome mais tempo em todo o processo de data mining Geralmente os ficheiros de registo de acessos s o delimitados por v rgulas Sendo assim a ferramenta utilizada dever poderutilizar este formato sem dificuldade Os resultados dos formul rios do website devem ser provavelmente armazenados em bases de dados relacionais que a ferramenta utilizada deve ler sem problemas Qualquer que seja a caracter stica que as ferramentas tenham estas devem tornar mais simples e f cil todo o processo de extrac o de conhecimento e de constru o de modelos de previs o Algumas fun es a considerar na avalia o das ferramentas a utilizar f limpeza dos dados t selec o dos dados descri o dos dados t transforma o dos dados Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web A caracter stica chave de uma ferramenta de data mining a sua capacidade de lidar com os dados autonomamente ou seja como eles s o apresentados executando algumas filtragens como por exemplo os tratamento dos dados que faltam oferecendo hip teses de de
161. r dias ou semanas enquanto um perito processa os dados para ent o receberem e examinarem a sa da consolidada Se os resultados n o forem satisfat rios todo o processo tem que ser recome ado J existem por m solu es mais compreens veis e a tend ncia que se aproximem ainda mais dos utilizadores Montar um Ambiente Ideal Estruturar um ambiente ideal conforme a figura 9 uma tarefa rdua devido aos anos e anos de desorganiza o na forma de guardar as informa es nas institui es ho Ta a Sales amp Marketing Cata Warehouse End User Solutions FIGURA 11 AMBIENTE IDEAL PARA UMA FERRAMENTA DE DATA MINING Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Preparar os dados para utilizar ferramentas de Data Mining considerado como sendo 80 do trabalho geral na utiliza o de uma ferramenta de Data Mining por englobar in meras e trabalhosas tarefas O ambiente ideal deve conter dados relevantes para as necessidades dos utilizadores limpos livres de erros l gicos ou de entrada de dados consistentes e sem falta de dados Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 3 Text Mining Para tomar as decis es correctas preciso analisar muitas vezes um grande volume de informa o textual O text mining permite a extrac o do conhecimento em dados j n o estruturados texto Sendo assim o text mining faz Fuma an l
162. rca destas informa es os gestores desejam saber O que querem os nossos clientes Como anda a concorr ncia Que assuntos causam mais impacto na sociedade Qual o direc o do or amento Estas inquieta es s o necess rias para manter a empresa no mercado para organizar as sua informa o Uma das solu es encontradas para colocar ordem nos dados foi a cria o de armaz ns de dados solu es capazes de armazenar enormes quantidades de dados integrando os em reas l gicas de assuntos de neg cios armazenando os de forma a que fiquem acess veis e compreens veis para as pessoas respons veis pela tomada de decis es da empresa Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Surgem da os instrumentos tradicionais de suporte decis o que est o preparados para fornecer e discriminar informa o de acordo com as perspectivas escolhidas pelo gestor do neg cio de forma simplificada em vis o tridimensional centralizando e organizando enormes quantidades de informa o hist rica do neg cio da empresa Todavia n o basta ter informa o em quantidade qualidade e organizada O gestor necessita hoje de respostas para perguntas tais como Como obter o m ximo de informa o til para minha empresa Como descobrir padr es de dados e novos conhecimentos Como manter o meu cliente Como utilizar adequadament
163. resentam uma resposta negativa que precisa de ser corrigida Pode se substituir os campo em branco por zero mas este valor nao representa a realidade o que produz um modelo pouco realista 4 3 1 Melhorar os dados Uma das estrat gias utilizadas na prepara o dos dados para an lise de Data Mining a liga o a outras bases de dados existentes para a produ o de ficheiros Tipos de ficheiros Poss vel conte do Dados da transac es Tipos de servi os ou produtos vendidos C digos postais e disposi o demogr fica dos Sexo Idade N vel de renda Filhos clientes Outbound Mail Taxa de resposta N mero de Mailings Informa o do consumidor N mero total de vendas cliente desde Data Armaz ns de dados Perfil do cliente por produto e servi o Datamart Perfil do cliente por divisao ou regiao Relatorios de credito do consumidor Cart es de Credito Debito ocupa o hipoteca Tabela Il Tipos de ficheiros 4 3 2 Remo o de entradas indesej veis O acesso relevante a uma p gina depende do objectivo da an lise Optimiza o do desempenho do servidor Todas as entradas s o relevantes t Estudo da utiliza o do site O acesso s imagens devem ser removidas t Estudo do comportamento dos utilizadores O acesso as imagens devem ser removidas Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web
164. ries e sites vem do Open Directory Google tamb m d resultados como backup a informa o do directory A coloca o paga de links do GoTo tamb m est dispon vel no motor de pesquisa AOL Antes de ser como AOL Search em Outubro de 1999 o AOL search era Excite powered AOL NetFind Lycos come ou como um motor de pesquisa dependendo das listas da Web Em Abril de 1999 passou a ter um modelo de directorio semelhante ao do Yahoo As suas principais listas vinham do Open Directory project e as secund rias dos resultados do Fast All da Web Em Outubro de 1998 Lycos comprou o motor de pesquisa HotBot que utiliza Inktomi Os resultados do motor de pesquisa da Netscape v m principalmente do Open Directory e da base de dados Smart Browsing da Netscape que contem os site oficiais Os resultados secund rios v m do Google Instituto Superior d Engenharia do Porto Enoenharla informatics 124 Servi os on line baseados em conhecimento Anexos Ten p Google http www google com excite http www excite com 1 won America s Fovarile Web Siel O Google o motor de pesquisa mais popuar da actualidade ele pesquisa que utiliza a popularidade dos links para classificar os sites Isto pode ser muito til para encontrar sites em pesquisas gen ricas pois os utilizadores na Web votam nesse sites colocando links para eles Google mostra tamb m resultados do Yahoo O Google permite pesquisar ima
165. rketing Analysis iLux Enterprise InfoSplit Market Reports Insight Reporting IntelliLog Accrue Software Fulcrum Analytics Macromedia Buystream com MetaEdge Centrport Clickstream Technologies InterWorld comScore Networks Quadstone Delano Technology digiMine Broadbase E piphany e Intelligence MINEit Software Limited Visual Insights Active Decisions Innovative Resource Group Informatica Coremetrics elytics com SPSS OneChannel Enviz Telemate net Personify Genalytics WebSideStory Netmining Hyperion iLux InfoSplit Primary Knowledge LogMetrix 510 580 4500 888 421 6655 415 615 6400 800 261 1726 408 752 9977 203 341 8000 44 1223 233799 UK 877 326 6637 703 438 2050 617 753 7393 905 947 2222 425 896 1700 650 614 8300 650 356 3800 952 920 0478 44 0 28 90368875 UK 630 753 8600 650 342 0500 412 781 7400 800 653 387 877 721 2673 617 492 7760 312 651 3000 650 404 0120 650 298 0900 770 936 3700 415 782 2050 978 465 6373 858 546 0040 32 16 38 72 50 Belgium 408 744 9500 510 226 5600 212 683 0662 212 233 2110 33 1 44 88 93 88 France 120 Servi os on line baseados em conhecimento Anexos 7 Intellitracker Lateral Line LimeLight LiveStats MicroStrategy Web Business Analyzer Mpi Narus Intelligence net Analysis NetAuditNow NetTracker ebusiness Edition Orac
166. rm tica Servi os on line baseados em conhecimento Anexos Outras Caracter sticas ha A origem de visitas especificas e a eficacia de campanhas O ROI produzido p parcerias ou an ncios Quais as vistas feitas pelo clientes mais lucrativos gt gt 2 Quais s o as ferramentas ou aplica es que atingiram os objectivos de negocio Aplica t cnicas para a previs o de comportamentos de indiv duos Determina e recomenda o que vai ser aceite por um indiv duo Tem um tecnologia que lhe permite mandar recomenda es para o ecr do cesto de compras em tempo real quantifica o sucesso das iniciativas de cross selling Servi os on line baseados em conhecimento Anexos LELLE NetTracker Family N E TREE sane com products NetTracker An lise do Visitante Identifica onde que os visitantes abandonam a sua visita e porque t Compreens o do comportamento e das lealdades visitante clientes e como aumentar o seu n mero An lise do comportamento que leva a altera es do Web site fe Quantifica o dos visitantes Quantos visitam site que s o novos frequente cliente Ver os dados do cliente nome telefone endere o e mail directamente nos relat rios do NetTracker juntamente com o seu comportamento na Web t Segmentos de visitante ordenados por comportamento padr es de compras lucro e dados demogr ficos f Identifica o dos segmentos de clientes
167. rmation Tool www isoft com L AMADEA a primeira ferramenta de data Morphing e tamb m uma ferramenta que permite transformar os dados de diferentes proveni ncias e transforma la em dados ricos em conhecimento e pronta a ser introduzida em Sistemas de neg cios Inteligentes AMADEA permite modelar a informa o de forma adaptar aos sistemas de informa o e a evolu o de Mercado e de estrat gias O conceito AMADEA baseai se em cen rios com par meiros Estes cen rios s o graficamente implementadas de um modo interactivo e sem requer programa o A prepara o dos dados fica um processo interactivo e f cil de fazer manter e compreender Batch F execution Scripts gt Application Embedded Amadea OLAP Data Mining Analysis SOL Server Orada SOL Server Orade MS Access WS Excol MS Access MS Excel SAS SPSS ODBC AML ate SAS SPSS ODBC XML ate Uma vez conectado as fontes de dados AMADEA contem fun es pr definidas para limpeza de dados como por exemplo a substitui o de dados em falta Este passo suportado por librarias de operadores Os operadores s o graficamente unidos para que o utilizador n o necessite de programar As tabelas resultantes podem ser exportadas para os mais diferentes formatos de dados existentes no mercado AMADEA baseada em standards e pode ser conectada as mais usuais fontes de dados como ficheiro de acessos ficheiros flat RDB
168. s Difere da classifica o porque n o tem um n mero definido de classes Podem ser mutuamente exclusivos concorrentes ou hier rquicos Servi os on line baseados em conhecimento Gloss rio Formularios Forms T cnica pela qual um utilizador pode introduzir dados num pagina Web H Hist rico Registo hist rico da rela o entre consumidor e vendedor Hits O Hit uma requisi o de item como por exemplo p ginas ou imagens Ao entrar em um site gerando um hit para a p gina aberta e mais um hit para quantas figuras existirem nesta p gina Se esta p gina possuir 4 imagens ser o gerados 5 hits um por cada imagem mais um pela p gina Isto repete se a cada nova p gina que se entra HTML Hypertext Mark up Language Linguagem de codifica o utilizada para construir documentos de hipertexto consultados na WWW Mercado de dados Datamart Uma base de dados que foi desenhada para ser interrogada e para estruturar relat rios A base de dados de Datamart separada de uma base de dados de transac es Os dados derivam dos dados de uma base de dados de transac es e podem incluir dados de outras fontes Pode conter tamb m dados hist ricos O objectivo do datamart melhorar a informa o para uma segmento particular de utilizadores ou para um departamento de que uma empresa inteira Ao contr rio de uma base de dados de transac es tem menos tabelas para relacionar mais ndices d
169. s pre o garantia prazo de entrega assist ncia t cnica telefone para contacto caso o cliente queira alguma informa o adicional No caso de vendas ou leil o as fotografias dos produtos s o muito importantes Mas ter em conta que imagens gr ficas ou fotografias demoram muito tempo a carregar que torna o site lento abrir Pesquisas revelam que o tempo m dio de espera para abertura de uma p gina para um cliente de 5 segundos Se o site for de natureza informativa hora de definir as informa es que estar o dispon veis Lembrando que em ambos os casos imprescind vel colocar o e mail para contacto 2 3 2 A Informa o O que atrai as pessoas para a nternef A resposta Informa o A Informa o a moeda da Internet N o existe nada mais rico em informa o do que a Web A informa o presente na Web pode ser encontrada de diversas formas Se quer ir ao teatro basta entrar em alguns sites para saber tudo sobre as pe as em cartaz desde os actores at o pre o dos bilhetes podendo inclusive compra los on line Se um estudante necessita de pesquisar sobre um tema l est num website Informa es sobre hist ria turismo religi o ind stria e com rcio cursos dos mais diversos inclusive on line geografia m sica etc Existe ainda um tipo de informa o bastante valiosa que a informa o de perfil Quantas vezes ao fechar um site ele disp e a oferecer algum servi o Instituto
170. s em ORNER uma ou mais classes pr definidas Nao R Empr stimos Como a figura 4 mostra pode se partir os dados em duas classes apesar de esta n o ter uma fronteira que as separe prefeitamente Esta divis o permite ter numa base de decis o que pode ser aplicada a casos futuros que se enquadrem na mesma situa o Emprestimos Endividamento Rendimento FIGURA 5 CLASSIFICA O DE UM CONJUNTO DE DADOSREGRESS O A regress o uma fun o de aprendizagem que relaciona os dados com uma determinada v riavel predictiva de valor real As aplica es da regress o s o in meras desde de estima o de probabiblidades previs o da procura de um novo produto pelos consumidores ap s uma campanha de marketing Clustering O clustering uma tarefa descritiva comum que tem por objectivo identificar um conjunto finito de categorias ou agrupamentos para descrever os dados As categorias podem ser mutuamente exclusivas e exaustivas ou consistir numa representa o rica tais como categorias hier rquicas ou sobrepostas Como mostrado na Figura 5 existem 3 clusters tem que se interceptam entre si havendo dados que pertence a mais do Rendimento que um cluster C tt a i m es T Em LLI M a I III aM Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Ten E E E ee ee e e ee ee e ee eme em mm E m an
171. s meios dispon veis para a recolha e armazenamento de dados a consequ ncia imediata um aumento da informa o armazenada Os dados recolhidos durante um per odo de tempo cont m conhecimento sobre os neg cios ou padr es que caracterizam o comportamento do utilizador Segundo Fayyad et al 199 o processo de conhecimento um processo interactivo e iterativo que envolve v rios passos e com decis es a serem tomadas pelo utilizador Transforma o 8 Pr processamento Selec o e 7 Dado Dados Transform dos Dados Preprocessados DADOS alvo Padr es FIGURA 2 ETAPAS DO PROCESSO DE CONHECIMENTO O ponto de partida para a an lise do conhecimento a percep o do dom nio a analisar conhecimento existente partida e o objectivo dos utilizadores Objectivo Conjunto de dados alvo Seleccionar um conjunto de dados ou um a subconjunto de vari veis ou exemplos de dados sobre o qual se realizar o processo de conhecimento Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Objectivo Limpeza de Dados e Pr Pr processamento p Processamento ala P Opera es b sicas por exemplo a elimina o de erros estrat gias para os campos sem informa o controlo das altera es etc Objectivo Redu o e projec o dados Transforma o
172. s na an lise nos objectivos de neg cio nas campanhas de marketing e no planeamento estrat gico de empresa 4 10 1 Integra o do website e Armaz ns de dados A integra o dos dados do website com a informa o da empresa ou com a informa o de um armaz m de dados pode ajudar na actualiza o constante do mesmo de forma a manter a satisfa o dos clientes actuais e de forma a conquistar novos clientes Com a integra o do website com os resultados das an lises as bases de dados das empresa os clientes t m acesso a informa o muito mais actualizada sobre invent rios servi os e suporte a clientes Consoante as visitas dos clientes aprende se as suas prefer ncias sobre produtos e servi os Isto feito a partir da extrac o de conhecimento dos dados reunidos sobre os visitantes ao website e este pode come ar a disponibilizar informa es especificas a determinado tipo de visitantes consoante o perfil em que eles se inserem Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web As empresas podem assim comunicar com os clientes de um forma muito personalizada E com a integra o com os dados das compras efectuadas o cliente pode ser informado de produtos similares e fazendo um cruzamento de vendas relacionadas pode dar se a informa o de servi os complementares Existem diversos factores que podem ser levad
173. scartar fazer m dias alertar e excluir etc A ferramenta deve ser capaz de dar um relat rio descritivo da qualidade dos dados utilizados Tamb m h que ter em conta os seguintes factores Como que os dados s o descritos contagem de linhas e de valores a distribui o de valores fe Se consegue distinguir a diferen a entre valores cont nuos e campos categ ricos fe Se a ferramenta reconhece e trata os dados de acordo com o seu tipo ex Inteiros Reais t Como que a ferramenta trata os dados que faltam e se identificam viola es de integridade Se a ferramenta consegue executar altera es directamente nos dados Se consegue agrupar vari veis em amplitudes gt gt 2 Se a ferramenta executa calculos nas colunas existentes fe Sea ferramenta requer extensiva prepara o de dados 4 6 6 Conex es Algumas ferramentas de data mining requerem extrac o dos dados a serem analisados das bases de dados para o formato interno de ficheiros enquanto outras ferramentas trabalham directamente com as bases de dados Uma ferramenta de data mining que acede directamente ao servidor Web utilizando SQL maximiza o desempenho e tira partido do acesso a bases de dados paralelas 4 6 7 Import Export As ferramenta de data mining oferecem geralmente integra o com outros produtos e t m formas de obter a totalidade dos dados analisados no processo de descoberta de conhecimento Relacionando a importa o dos
174. separa o dos dados originais 4 8 Valida o dos resultados A an lise de um website envolve diversos departamentos como sistemas de informa o marketing vendas invent rio etc e ter que ter um conjunto de pessoas como administradores designers analistas e os respons veis pela manuten o di ria das opera es do website E importante que todo este conjunto de pessoas esteja a par dos resultados encontrados na an lise de data mining Tamb m conveniente que especialistas na rea analisem os resultados para que assegurem que estes estejam correctos e apropriados aos objectivo de neg cio do site Se os resultados da an lise foram falsos seja por causa dos dados utilizados seja por causa da ferramenta ou da metodologia ser necess rio outra an lise e a constru o de novos modelos A an lise dos resultados tamb m permitem responder a perguntas como f Se importantes rela es forem encontradas entres as vari veis dependentes e independentes Exemplo se as regi es demogr ficas descobertas s o as mesmas das an lises anteriores Se o site teve outros clientes al m dos esperados Se consoante o tempo o n mero de pessoas que estiveram ligadas aumentaram Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web gt SS 5 aa ft Se por causa de uma promo o o numero de vendas au
175. shareware livros e revistas m sica CD discos t O que pode ser vendido com sucesso servi os de impress o remota produtos de consumo servi os legais servi os financeiros venda de im veis turismo etc 2 3 5 Por que anunciar na Internet Apesar de ainda ser pequeno em rela o ao seu potencial total o n mero de utilizadores no mundo cresce de forma assustadora A Internet j esta presente em sistemas de telefone m vel wireless onde pode se aceder aos bancos e contas de e mail e em breve far parte do dia a dia dom stico com acesso inclusive de monitores instalados nas portas dos frigor ficos Esta forma de publicidade possui pre os atractivos se comparadas a outras formas como a televis o facilidade de produ o se comparada ao marketing convencional que torna poss vel o an ncio de empresas de diversos tamanhos entre outras 2 3 6 Banner Banner uma forma de publicidade em geral de forma rectangular que fica numa p gina Web Esta propaganda pode ou n o estar associadas a um link que abrir a p gina do produto ou servi o que est sendo anunciado ou conter mais informa es sobre o produto Actualmente o banner a forma de publicidade mais utilizada na Internet O interesse dos anunciantes vai depender dos objectivos deste Alguns produtos necessitam de exposi o em massa outros de exposi o segmentada Algumas vezes esta exposi o segmentada torna se mais cara apesar de ser vist
176. software adapta se facilmente as capacidade existente podendo assim oferecer uma solu o escalavel Caracter sticas Conex o a n mero variadas de fontes de dados XML ficheiro de registos de acessos RDBMS ficheiros flat Extrac o e an lise de ficheiro de registo de acessos a servidores Web amp t Possibilidade de reutiliza o de librarias Interactividade Transforma o por operadores Reuni o de informa o para o processo Possibilidade de alterar os par metros e reutiliza o em processos ft Transforma o pode ser feita pelo browser Possibilidade de seguimento do processo tt Tratamento de grandes conjuntos de dados t Tratamento de metadados t Ganho de produtividade em 90 hia E 3 Instituto Superior de Engenharia do Porto Engenharia Informatica Servi os on line baseados em conhecimento Anexos gt no e E aa http www angoss com ANGOSS KnowledgeWebMiner KnowledgeWebMiner KnowledgeWeb Miner uma de solu o de an lise para Web mining e an lise de dados resultantes de ambientes de e Business KnowledgeWeb Miner ajuda as empresas a converter os seus dados de Web log em informa o capaz de beneficiar das t cnicas de data mining sem grande investimento em software ou hardware e com baixo risco de implementa o KnowledgeWeb Miner an lise o Web log dando os seguintes resultados O perfil do visitantes por segmento e atributos indiv
177. soluta pode amanh ser classificado como obsoleto O com rcio electr nico est ainda a dar os seus primeiros passos Todas as tentativas de se movimentar nesta economia podem ser consideradas experi ncias Por m apesar de sua pouca idade j come a a coleccionar hist rias de sucesso e fracasso E com base nestas hist rias que surgir o novas tentativas Por ser novo uma das grandes dificuldades do marketing digital a de conseguir n meros que atestem a efici ncia deste ou daquele sistema simplesmente porque ainda nao se conseguiram sistemas de recolha de informa es totalmente eficientes Entre erros e acertos tenta se criar um tipo de marketing eficiente para o com rcio digital Acesso a especialistas pesquisa por peritos nas suas areas de interesse contacto e contrata o destes peritos f obten o de informa es pagas ou gratuitas Servi os on line baseados em conhecimento Conceitos Gerais Ten E E E ee ee e e ee ee e ee ET EEE ee ee ee a a a a a eE E an Avalia o de novos mercados fe a Internetcomo fonte de feedback imediata ft influ ncia da Internetna cultura moderna fe a Internetfunciona como uma extens o dos Media convencional Vendas via Internet f Vender permitido na Internet Um m todo de expandir a presen a no mercado fe poss vel modificar o resultado das vendas on line O que vendido com sucesso na Internet hoje Software
178. sso ou o insucesso das interven es cir rgicas coluna vertebral Esta ferramenta est a ser utilizada tamb m pela U S Gymnastics Federation em pesquisa de factores que a longo prazo contribuam para o rendimento de um atleta Ainda nos EUA o IDIS utilizado para pesquisas e abordagens nos registos m dicos em factores que contribuam ou que tenham rela o no tratamento do cancro A redu o de custos obtidas pelo Health KEFIR nos cuidados com a sa de e o simult neo melhoramento desses mesmos cuidados parece contradit rio por m segundo Gregory Piatetsky Shapiro investigador principal no Knowledge Discovery in Databases Project nos GTE Laboratories Os relat rios gerados pelo KEFIR s o mais completos gerados em menos tempo e significativamente mais baratos do que relat rios id nticos de uma consulta m dica tradicional isto ap s a implanta o das ferramentas de armaz m de dados e Data Mining Com este sistema poss vel seleccionar apenas condi es interessantes de sa de como por exemplo mulheres com gravidez normal n o s o seleccionadas enquanto que as que tiverem nascimentos prematuros s o canalizando os esfor os para interven es m dicas de rotina que promovam a redu o da taxa de nascimentos prematuros evitando as despesas maiores dos cuidados excepcionais necess rios para este tipo de ocorr ncia Servi os on line baseados em conhecimento Do Data Mining ao Web Mining
179. sssccsssssssesseeesseessseeenseeenseensees 66 4 1 Especifica o do PLODICINAL ccssessccceseesssccesesceecssssssecesesscsecssessseesenssseeeens 67 42 DGC DOS COS tai pi 69 4 5 Prepara o dos dados uuu eee ccssessscccssescecesessceccssessseccsseseecssessseceseesassecsenseseeeens 2 4 4 Avalia o dos dados 1sssccssssssccsssssssecsssssssenssnscseessussusecssnsassensensaseessanensensens 74 45 Formata o Ga 50 U CaO soseen rennir Enr E EE 74 AG Selec o de Felramentas sissioni iiai i 75 47 CoONstru cao CO Model enipiinabias iai nisso Liss dinda 80 4 6 Valida o dos OSUILACOS 1 ccccccessscccsesscceccsesscsccssessnscesesscsecssessseeseessseeeees 81 4 9 Entrega dos NOSUNA OS pene een ne eee dass eter ne no ee ere arc eT earn 82 4 10 Poros resultados em pr tica ccccessccesesscccsesssecsesssecsesesecsescseesesseesessseeseeees 82 9 Ferrament s ir 85 Dl VEGO e A A E E RE E O EAE 86 de Blue Manin MAKONGA T ao menaale 87 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servicos on line baseados em conhecimento Indice TT gt gt gt o 5 3 CICIMONTING 1 essecccccceesnccecceseesscceeeeseeseneeseesseessenseeesensusseseeseeassassessensiansteesenenaes 91 5 4 Megaputer WeDANALYSL ccsscccccsssccssssecsesssessesssessesssessesssessesasessesssessesnseess 96 5 5 MicroStrategy Web Traffic Analysis Module ires 99 DO AML MDO ea A A E A E S 102 roy fame A 00 610 eee ee
180. sumos Servi os on line baseados em conhecimento Do Data Mining ao Web Mining 3 4 Web Mining O Web Mining tem sido definido como uma aplica o de t cnicas de Data Mining aos dados da Web O objectivo do Web mining encontrar ON ee CoV algo de interessante no amontoado de informa o lal E Tr tanto para o utilizador como para o dono do site gyei re fk m Sendo assim pode se dividir em dois objectivos O iT p l I H desenvolvimento de t cnicas que ajudem o utilizado a navegar na Web Objectivo para o utilizador ft Encontrar documentos de um tema fr descobrir documentos semanticamente relacionados t prevenir a desorienta o do utilizador E o desenvolvimento de t cnicas que ajudam no desenvolvimento de produtos e servi os e no design de sites da Web Objectivo do dono do site f aumentar o contacto com o cliente Web Marketing direccionar promo es de produtos desenvolvimento de servi os personalizados Sendo assim existe a necessidade de t cnicas que ajudem as decis es de suporte a neg cios e no comercio electr nico Um exemplo a necessidade de compreender o comportamento do utilizador para que se possa focar a publicidade na Web Outro exemplo o design dos sites que consegue atingir o objectivo de neg cio o site que leva o utilizador s p ginas com os produtos que d o mais lucro Por outro lado existe uma comunidade inteira que visa dar ao cliente ferram
181. suporte para o cliente como setup treino e manuten o de sistema Instala o fe Servi o de instala o r pida Permite que o cliente instale e configure correctamente os produtos da Accuer assegurando que o sistema carrega para a base de dados toda a informa o bem como a demonstra o como correr os relat rios Tn a a AT Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos fe Servi os de Implementa o A instala o de servi os come a com uma an lise completa e instala o dos relat rios dos produtos plano de trabalho cria o do grupo da URL filtros configura o de setup administra o de sistema e an lise de neg cio O resultado uma instala o configurada e personalizada k Servi os de Manuten o preventiva fe QuickTune QuickTune inclui um upgrade da corrente instala o do Accuer Insight ou Hit List devido a mudan a do volume de trafego ou a forma como os dados s o capturados e reportados f QuickCollector QuickCollector inclui instala o e ou configura o de uma nica Accrue Insight ou Hit List Network Collector QuickWarehouse A QuickWarehouse inclui Instala o e ou configura o de uma nica Accrue Insight e Hit List Data Warehouse ft QuickUpgrade A QuickUpgrade inclui um update da ultima vers o do Accrue Insight e Hit List Este servi o inclui Instala o e ou configura o de uma
182. te do anunciante ou tem acesso a mais informa es sobre o produto ou servi o Clicks O n mero de cliques que foram feitos no banner Pode se vender uma quantidade determinada de cliques num determinado banner como um cart o de telefone quando acabam o n mero de cr ditos o cart o deixa de valer Por exemplo podem ser vendidos mil cliques Ao serem realizados mil cliques neste banner termina o contrato que pode ser renovado Cota uma quantidade de CPM que se compra como no caso do cart o telef nico Com rcio Electr nico Com rcio electr nico ou ecommerce electronic commerce nome dado ao sistema comercial com a capacidade de realizar transac es envolvem a troca de bens ou servi os entre duas ou mais partes de forma autom tica utilizando se da Internet CPA Custo Por Ac o Outra forma de cobran a a CPA que cobra por opera o bem sucedida ou seja ao ser realizada uma compra ou efectuado um servi o com origem no clique do banner A CPA calculada dividindo se o produto da multiplica o do custo por cliques pelas opera es bem sucedidas ou ac es actions Resumindo CPA CPC Clicks Actions CPC Custo por clique calculado dividindo se o custo por mil banners CPM por Clicks ou seja CPC CPM Clicks CPM Custo por mil pageviews de um banner D Descoberta de agrupamentos Clustering um processo pelo qual um conjunto de dados dividido em conjuntos ou cluster
183. to t competitividade melhorada Text Mining associa o por palavras chave Pegar num documento e construir uma tabela com as palavras mais relevantes desse mesmo documento para depois tentar encontrar associa es entre essas palavras Ex Universidade Coimbra Portugal Fado Am lia T er T T Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Do Data Mining ao Web Mining Text Mining classifica o de documentos O test mining permite organizar automaticamente grandes quantidades de documentos por classes para posteriormente serem utilizados em pesquisa documental constru do um conjunto de documentos pr classificados para conjunto de treino sendo este conjunto analisado de modo a gerar modelos de classifica o Estes modelos s o geralmente refinados atrav s de processos de testes O modelo assim gerado utilizado para a classifica o de outros documentos Um modo eficaz de classifica o de documentos explorar o m todo anteriormente referido classifica o por associa o classificando os documentos da seguinte forma fe extrac o de palavras chave e termos por pesquisa de informa o e outras t cnicas de associa o cria o de hierarquias de palavras chave e termos usando classes de termos ou outra base de conhecimento depois de definido este modelo trata se de aplica lo para a classif
184. to Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web gt nL 5 aa Se a ferramenta incorporar prioridades de resultados deve ter se em aten o como utilizado qual o seu n vel import ncia qual a percentagem probabilidade e precis o de xitos e qual o n mero de casos que incorporam nas regras A ferramenta pode tamb m oferecer formas de visualiza o como histogramas de erros ou localizar em mapas geogr ficos segmentos de mercado A ferramenta pode ser desenhada para trabalhar no desktop do utilizador ou em ambiente cliente servidor 4 6 4 Solu es As ferramentas de data mining devem ajudar a compreender os resultados da an lise dando medidas simples mas exactas como de previs o da taxa de erros n vel de signific ncia e ou a taxa de precis o Os tipos de output que a ferramenta gera s o rvores de decis o c digo C regras IF THEN relat rios narrativos gr ficos sintaxe SQL Algumas ferramentas produzem resultados que s o relativamente simples de interpretar como as rvores de decis o que podem ser traduzidas em regras Outras ferramentas como redes neuronais s o muito boas nas previs es mas s o dif ceis de compreender Sendo assim o formato dos resultados de uma ferramenta devem ser balanceadas entre a compreens o e a precis o Uma ferramenta deve tamb m incorporar instrumentos adequados que permitam ao utilizador executa
185. trategy 7 que permite a an lise de terabytes de trafego da Web e tamb m os dados dos utilizadores O modulo cont m 64 packaged reports com a possibilidade de estes serem alterados O modulo de an lise de trafego alterado para conter de forma a conter outros reports ou outra facilidade para a an lise de dados 5 5 3 reas chave da an lise Foi desenhado para ser modular O modulo de an lise de trafego da Web facilita a obten o de insight em v rios processos dentro da Web O modulo permite a sumariza o de detalhes nos relat rios que contem Os relat rios s o divididos em tr s grandes reas tt Web Traffic Highlights 10 reports fe Web Content Analysis 22 reports fe Web Visitor Analysis 32 reports 5 5 4 Organiza o da an lise As tr s reas de an lise tem um n mero de relat rios associados Estes relat rios contem atributos e indicadores de desempenho KPIs que se encontram pr constru dos em MicroStrategy 7 Os dados podem ser divididos e serem vistos por perspectivas diferentes como produtos conte do e caracter sticas dos utilizadores permitindo identificar os pontos fracos do negocio O gr fico seguinte ilustra os atributos e caracter sticas em conjunto com as m tricas do negocio e as KP s que servem como blocos an lise Estes blocos podem ser combinados para produzir mais dos 64 relat rios que vem no modulo Instituto Superior de Engenharia do Porto Engenharia Inform ti
186. ts DataBase Mining Marksman DataDetective DataEngine DataLogic R DataMite DataX DBMiner Decision Force Decision List Learner Decision Series Dowser Enterprise Miner Galvano Genio Miner Heatseeker iData Analyzer Intellix Analyzer Intelligent Miner iUnderstand Vanainantan GoDigital gt lice 0 2 PS op Advanced Technologies Triada Sofresud Business Objects Inc MinelT Software Ltd Applied Technical Systems RuleQuest Research SPSS Clustan Ltd Dialogis Numerical Algorithms Group HNC Software Inc Sentient Machine Research MIT GmbH REDUCT amp Lobbe Technolgies Inc Logic Programming Associates Zaptron DBMiner Technology Pro Action schenley Park Research Accrue Software Redshed Software SAS PMSI Hummingbird Communications WhiteCross Systems Information Acumen Intellix IBM BioComp Systems InfArQAannan 55 051 982 5124 Brazil 33 1 69 35 37 37 France 800 543 2185 805 872 4807 313 663 8622 33 4 94 11 57 10 France 800 705 1515 44 0 1232 368875 UK 360 478 2710 61 2 9449 6020 Australia 800 543 2185 44 131 337 1448 UK 49 2241 206421 Germany 630 971 2337 619 546 8877 31 20 6186927 Holland 49 2408 94580 Germany 306 586 9408 0181 871 2016 UK 650 966 8700 604 291 537 30 1 5254518 Greece 412 687 4478 510 580 4500 919 677 8000 33 1 45 35 87 99 France 416 496 2200 310 577 8188 612
187. um cliente e leva o cliente a ter o m ximo lucro CustemerConversion um produto que analisa a Web e outros tipo de dados relativos ao comportamento do cliente e situa o actual do mesmo contrario a gerar relat rios est ticos de trafego da Web Compreende o comportamento do cliente e o que leva as compras on line ajustando os e marketer a optimizar a aquisi o de recursos alvejando os segmentos de clientes mais lucrativos e converte os visitantes da Web em clientes leais e de longo prazo O CustemerConversion preenche o espa o entre o e commerce e informa o do cliente Em vez da solu o que apenas relata os links das p ginas que foram visitados O CustemerConversion permites as empresa a investiga o com a utiliza o de gr ficos sofisticados e interactivos que mostram como os clientes se comportam O estudo dos perfileis de cliente em termos de comportamento valor lucro e prefer ncias CustemerConversion entrega a informa o do comportamento do cliente Quadstone CustemerConversion permite aos vendedores entender prever administrar e influenciar o comportamento do cliente Os benef cios do CustemerConversion tt Coloca click streams no indicador de comportamento para cada cliente o CustemerConversion d uma vista do customer centric de toda a informa o dos e commerces e do sistema de e marketing registos de transac es da Web e fontes de dados de informa o de clientes A r pida e autom tica transforma
188. um unico site que pode ser referenciado pelo nome ou um endere o IP O numro de sites mostra quanto enderecos IP podem fazer pedidos ao servidor durante o periodo em que se realiza a an lise No entanto este numero nao corresponde ao n mero de pessoas individuais que visitaram o site Visitas Quando um pedido um endere o IP site ao servidor o tempo que demora desde do ultimo pedido calculado e se for maior do que o tempo configurado aparece o valor de visit timeout ou nunca foi pedido antes considerado como uma visita nova e o total incrementado tanto os n mero de sites e de endere os de IP KBytes O valor dos KBytes kilobytes mostra a quantidade de dados em KB que foi enviado para for a do servidor durante o per odo da an lise As p ginas mais utilizadas para entrada e saida do servidor As p ginas mais utilizadas para entrada e saida do servidor d o uma estimative de quias as URLs utilizadas para entra no site e quais as p ginas do site que causaram a sa da do site Caracteristicas ty ir gt Instituto O Webanalyzer foi constroido em C o que o torna rapido e protavelto be extremely fast and highly portable Suporta os standards dos formato dos ficheiro de registo de acessos bem como outras varia es deste tipo de ficheiro Permite gerar estat sticas referindo o tipo de sites e browsers e tamb m supotas formatos de ficherios de log do wu ftpd xferlog FTP e squid Gera relat rios
189. vi os on line baseados em conhecimento Ferramentas Mm STS EEE La 5 Ferramentas A AS ferramentas existentes no mercado para extrair conhecimento da Web AS gt d areas para que estao vocacionadas desde de associa es de produtos Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Ferramentas 5 1 Vis o Geral As ferramentas de Data Mining completam outros software para an lise de dados As ferramentas estat sticas as ferramentas de visualiza o de dados sistemas de informa o geogr fica OLAP As ferramentas de Data Mining fazem parte do conjunto de interfaces para extrair conhecimento dos Cada uma com suas funcionalidades complementares adequadas a diferentes tipos de utilizadores e de an lises Enquanto as ferramentas tradicionais das bases de dadoss o capazes de mostrar o que est na base de dados o software anal ticos ajudam o utilizador a descobrir muito mais do porqu dos acontecimentos Ao passo que numa ferramenta estat stica o utilizador pode apenas gerar hip teses as ferramentas de Data Mining estende a capacidade de gerar e validar hip teses descobrindo conhecimento Resumindo Data Mining um processo indutivo de an lise Quando os dados s o demasiado grandes e complexos para serem analisados a diminui o a forma de r cio ou formulas que podem levar a padr es O grande volume de dados gerados de
190. vos baseados na sua psicologia e diversos factores demogr ficos Olhando para o lado humano da equa o por exemplo as prefer ncia por certos valores tais como a liberdade tradi o novidade informa o ou simula o Aparecem novos grupos que s o teis na avalia o d qualidade dos ambientes para determinados utilizadores Assim podem criar se perfis de utilizadores da Web e criar clusters partindo dessas categorias Esta etapa final da extrac o do conhecimento requer uma monitoriza o dos modelos gerados Todos os modelos gerados com o tempo iram tornar se obsoletos sendo por isso a monitoriza o t o importante para manter a precis o Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Extrac o de Conhecimento na Web A an lise de Data mining pode sugerir algumas altera es a n vel da organiza o e como os recursos do website s o desenvolvidos ou quais as recomenda es que ser o feitas ger ncia e quais as alian as e sociedades que ser o consideradas A integra o dos resultados da an lise de data mining no website vai ter um impacto na forma como o invent rio vai ser organizado on line ou como as promo es s o planeadas ou quais os visitantes ou clientes que ter o determinadas ofertas Isto tamb m poder envolver a integra o de um sistema de e mail para uma notifica o personalizada de produtos ou servi os Ser
191. x o Existem t cnicas que ajudam a superar estes problemas Por exemplo o uso de um campo em conjun o com a topologia do website que permite identificar os pedidos que faltam na sess o por causa do uso da cache Duas sess es separadas podem permitir identificar as duas sess es simult neas mas com um endere o IP comum O uso da entrada no ficheiro de registos de acessos que identifica o browser util para distinguir utilizadores com browsers diferentes O uso de cookies permite identificar um utilizador individual dentro do site Se as cookies est o activas quando o documento pedido por um novo utilizador a resposta inclui um identificador nico o qual guardado no disco do utilizador pelo browser Todos os subsequentes pedidos feitos pelo browser para o mesmo site v o incluir a informa o da cookie e por isso permitem que o fornecedor de servi os reconhe a o utilizador No entanto o uso de cookies s poss vel quando o utilizador consente o seu uso o que levanta problemas de privacidade E de notar que a cookie apenas identifica browsers e n o utilizadores individuais Outra t cnica utilizada por lojas online consiste em adicionar um identificador nico URL da primeira p gina acedida dentro do site Todas as URLs na p gina acedida s o modificados de forma a incluir o identificador nico Assim cada URL pedida vai identificar a sua origem permitindo a um fornecedor de servi os seguir os passos
192. x veis Os intervalos de tempo podem ser medidos Interval times can be measured in seconds minutes hours days months or years or other arbitrary user specified units XAffinity com integra o com bases de dados corre em Windows 2000 Windows NT Windows 98 e Windows 95 Instituto Superior de Engenharia do Porto Engenharia Inform tica Servi os on line baseados em conhecimento Anexos SS _ ie RE dela eJ Ihtto www lumio com Lumio Re cognition suite foi desenhado para responder as seguintes perguntas f Qual o comportamento dos clientes O que o cliente quer fe O que cliente precisa Como manter os clientes Como recompensar os clientes Re cognition suite inclui produtos para recolha de dados para determina o dos perfis de cliente an lise off line e real time dos dados http www sas com products webhound index html WebHound permite seguir deixados pelos visitantes do Web site permitindo assim determinar quais as paginas que atraiam mais os visitantes e os pontos que em que os clientes sa ram do site Permite capturar todos os dados gerados pela visita ao site conjuntamente com os dados da transac o Sendo assim o WebHound permite Determina quais as partes do Web site que s o mais usadas quais as partes que os utilizadores acham mais ou menos interessantes e quais as partes que est o demasiado longe para os utilizadores as encontrarem lIde
193. xpress es de SQL O Data Mining Suite selecciona os padr es significativos e filtra os que n o s o importantes t Transpar ncia da descoberta e previs es O Data Mining Suite da explica es como os prad es est o a ser encontrados O mesmo acontece quando faz previs es fe N o sens vel ao ru do O Data Mining Suite n o sens vel ao ru do internamente utiliza a an lise de l gica fuzzy Se os dados tem ru do o Data Mining Suite reduz o nivel de confian a associado aos resultados Servi os on line baseados em conhecimento Anexos http www oklog biz amp A an lise realizada a partir dos ficheiros gerados automaticamente pelo servidor Web ficheiro de registo de acessos fe OK Log gera dois novos ficheiros logplus log e metalog log com a mesma estrutura que o anterior mas contendo mais informa o e organizada pelo que o cliente esta a ver no browser fe OK Log contem um ficheiro que descreve o que o utilizador esta a ver no cran num dado momento fe OK Log permite visualizar relat rios de actividade e estat sticas o que permite reconhecer as reas do site mais atractivas para os clientes A figura seguinte compara as diferentes maneiras de registar a actividade do site pela maneira convencional do ficheiro de registos e depois pelos ficheiros LogPlus logplus log e Log2Screen Metalog log Clicking Ina link of the top bar frame A hbm the BLUE CAR disappears frame C htm
Download Pdf Manuals
Related Search
Related Contents
Proseptine® plus 125 ml Bande élastique spécialisée pour le dos PDFファイル BODE100 Quickstart for Spectrum Analysis Moen INS1913D-8/10 User's Manual 取扱説明書 - i kitchen Owners Manual - Dealer E Samsung MC28H5013AK microwave Computer- und Trainingsanleitung Copyright © All rights reserved.
Failed to retrieve file