Home
CMIN - herramienta case basada en CRISP-DM
Contents
1. I 50 INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 In English CARTA ig Ve dania peta del A mra peye gre pavan pi Pap bbn ipri dl dal rr el A rr Pe eira hi dl y ji Po A A A ll oi rl pois do eri al aora Tie pari di rad ar al a di ddr rias bars rd ad rial dio da poi do a ds de ac copy al ba CHAPA a RAPHY O Brel L rad rad Cir haran bir Pekp Arp Waldi Pobla art A A Duuren Do bend ATMS PET H Dire das r pool a Fisha pih pi m Paa ice ade Dala p o o i biodein J mo tirit a problema asa ag Mtro Curtona La area Directa dll ocita La proble ir poracal lors Check ds ouni aL o E prat la g Ehh dde ala che ear de ira ral al ms e pt dl Parr Det dr de rea Pata E ais dar merg i a lo eron n de barau t Tiy parodias al de pre e al de Ad e pat iai e burma abad jos a rr o E recsam pepan prrordabora mid poscart daa Pare ho he barata r E dea e Fiyi dawae aj re Pipihi iry mp Pass poi Figure 3 Steps in a process left and CRISP DM in CMIN right Later the editing of the fields of the step is done Figure 4 depicts a form that asks the editor or expert in mining to register the various fields which can be many for each step For each field a descript tion must be registered for example if it is an activity it explains what needs to be done and if it is a suggestion then this is described The field type that defines whether the field is an activity or sugge
2. res del Problema Sok ci n enCurso Nombre Pazo rea cel Problema Objetivos del negoco nterna ce exto desde el regacio Vakrar lo Situaci n E Deleminar los objetvos dela miner a de catos a Regex el Aon del wopecb Orden Paso Conocimenta de los datos Pieparaci n de bs datos Modelado Descripci n Paso 4 qu se aguan les actividades que permir n establecer la infomaci n que se Evaluaci n bene sobre el rea en la quese presenta el problema dento de laorgaraci n Tipo Paso Divisicn de laea especialzada y A a a B aa A Daspliegue E Decgiegue del plan t Supavisi n y marterimientb del p n gt Infome linal dal producto Proyecto derevisi n Figura 3 Edici n de pasos de un proceso izquierda y CRISP DM en CMIN derecha Despu s se lleva a cabo la edici n de los campos del paso La Figura 4 contiene un formulario en el que se le solicita al editor o experto en miner a el registro de los campos pueden ser varios para cada paso En cada campo se debe incluir una descripci n si es una acti vidad explica qu se debe hacer y si es una sugerencia la descrip ci n de sta el tipo de campo que define si es una actividad o su gerencia y si utiliza workflow indicando si para realizar la actividad o Campo es necesario utilizar el WF a CRISP DM1 0 E Connciriento del negocio E Determina Jos chyetivos del negocio Establecer Visualizar E Background hastazol O Q O Pagina 2 Diganzaci n Aroa del Pi
3. In English association rules to be met by DLLs before being added to the set of objects to be used by the WF DLLs represent the set of DLLs that CMIN currently holds in its array or algorithms set WF objects Workflow objects the set of objects added to CMIN and which can be used in the workflow which can grow in such a way that users make new implementations of any of the types of WF ob jects specified in CMIN and CMIN server the server that hosts new process definitions and new implementations of workflow objects algorithms by way of DLLs so that users can upgrade CMIN if that is what is desired because CMIN is able to run independently of the server M dulo de Procesos Definici n d Procesos Act alizamn Osad ario s O s arrollar O Fa Repoanez Genera Se V E P ro ces os M da o de Proyectos Pueden utilizar Proy edos Agre g an Tipos de objetos del Actu a TT TT y y wr orb Flo Figura 1 Modelo conceptual de CMIN Z o mno rmn rm Iatertaces Objetos de wark Flow Process Module Process Definition Field or AAA Projects Figure 1 CMIN conceptual model Generate are based Processes Project Module E Generate Eu Activities Results poz i A l Lo rk Fi o w Addition of PLLls Part of Implement Provides Interfaces Workflow objects E 48 INGENIER A E INVESTIGACI N VOL 30 No 3 DEC
4. en seis pasos de la siguiente manera 1 a plicaci n de un test previo para valorar los conocimientos del gru po sobre CRISP DM 2 presentaci n b sica de la herramienta CMIN 3 desarrollo de un taller de miner a de datos consistente en resolver un problema t pico de clasificaci n para el cual se se leccion el data set IRIS disponible en el repositorio de la UCI Asuncion amp Newman 2007 mientras que los usuarios emplea ron el workflow y obtuvieron el resultado desplegado en la Figura 12 4 interacci n con el grupo a trav s de preguntas y sugeren cias 5 aplicaci n de un test posterior para valorar el nuevo nivel de conocimientos del grupo sobre CRISP DM el contenido del test no cambi con respecto al del paso 1 y 6 aplicaci n de un test de usabilidad basado en un cuestionario de la Universidad Po lit cnica de Catalu a Borges de Barros Pereira 2002 En t rminos generales la prueba fue exitosa ya que la herramienta no tuvo errores y todos los participantes lograron resolver el proble ma de clasificaci n presentado Los resultados del test de usabilidad fueron muy buenos Se puede afirmar que la CMIN cuenta con una interfaz amigable entendible y sobre todo que el manejo de los proyectos que contemplan aspectos repetitivos y en cierta medida complejos pueden ser manejados con facilidad La interfaz minimiza lo que el usuario debe aprender y en cada paso lo orienta para llevar a feliz t rmino cada una de la
5. lay ungand de diecan y ponos sn ls montego Idari la irudiari da rapero ma en aderct aca fer el prnyedo de ninera de delos pa eemplo Marketing Ventas Financas Figura 5 Gesti n de proyectos en CMIN Workflow de miner a de datos en CMIN En la Figura 6 se presenta el workflow de la CMIN el n mero 1 re gistra los tipos de objetos del workflow fuentes de datos algoritmos de clasificaci n algoritmos de descripci n de datos filtros visualiza dores y algoritmos de agrupamiento o clustering el 2 exhibe un objeto ofrecido del tipo fuente de datos y el 3 un objeto en eje cuci n en el marco del workflow Fuentes de Datos Agoritinos de Jesficacon 4 L h 9 Fuente de alos CMIN Fuerte de Datos Elemento que permie cargue los datos pobre los cuales se desea Algorimos de Descripcion de Dtos Algortimos de Agrupamiento el puces de mnona de datos Figura 6 Workflow de miner a en CMIN Para adicionar algoritmos u objetos a los tipos de objetos en tiempo de ejecuci n se defini para cada tipo de objeto del workflow una interfaz de software o contrato Microsoft Corporation 2009a que agrupa los m todos necesarios para su uso y otros m todos de inte racci n con los dem s tipos de objetos del workflow Cuando se crea INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 COBOS ZU IGA GUARIN LE N MENDOZA In English 4 shows how to create a cycle of any step in the proc
6. previa INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 COBOS ZU IGA GUARIN LE N MENDOZA In English The developer implements the algorithm in the library project ful filling the contract generates the new DLL and compresses it in a zip file see Figure 9 When a user needs to use the new algorithm in CMIN the zip file with the DLL should first be selected then verified that it complies with the contract this comparison is done using reflection Sys tem Reflection Microsoft Corporation 2009b loading the assemblies and comparing the methods An image is then uploa ded to represent the new algorithm and finally loaded into CMIN see Figure 10 and Clustering dll Clustering pdb gt k 1 0 0 0 i p am Debug Database SMI Clustering K means CMIM dll 1 0 0 0 js poa _CMIN 1 0 zip Means K meansCMIN pdb l Utilities dll Pro US 1 0 0 0 MLUtils e gi xml ML Document 7 KB Utilities pdb Pro sd Debug Database Figure 9 DLL result of the VS NET library project est dll Step 1 A Select the Zip file for the algorithm A Load ZO Step 2 M Select the dll file for the algorithm YemeansCMIN di Step 3 Select the image for the algorithm la G Wocumentos WuanC1CMIN_V1 0 FINAL_FUEN f Y R lt lt Use gt gt WORK FLOW Module REFLECTION Load Load Y Compare Se l a K meansCMIN dll Clustering dll A 1 0 0 0 A 1 0 0 0 ad
7. the tool fulfilled CRISP DM requirements 100 although some tem plates for collecting information in some phases needed to be im proved Given the positive results of this evaluation a description of the tool was sent to a project presentation meeting in March 2008 to be submitted to the Demofest of the Microsoft Research Academic Summit The project was selected by Microsoft and a scientific poster on CMIN was presented in Panama City on May 16 2008 A tool was presented in person to the teachers and re searchers who attended the event Despite the fact that many pro jects presented at the Demofest boasted investments much higher than that of CMIN the tool received excellent reviews and Micro soft decided to include it in publicity that appeared on CNN tele vision Spanish language in their program ADVANCES see copy of the video http www unicauca edu co ccobos condelantos wmv En espa ol Evaluaci n de la usabilidad de la herramienta Esta evaluaci n fue hecha en marzo de 2009 con una prueba beta donde participaron ingenieros y estudiantes del programa de Ingenier a de Sistemas de la UC que trabajan en miner a de datos Esta prueba tuvo dos objetivos la revisi n completa de la CMIN en un ambiente dife rente al de desarrollo a trav s de un test de usabilidad y verificar con un experimento si mediante el uso de la CMIN se pod a me jorar el conocimiento que los usuarios tienen de CRISP DM El experimento se efectu
8. y las instrucciones paso a paso que se deben llevar a cabo Las fases definidas por el modelo de referencia son comprensi n del negocio an lisis de datos preparaci n de los datos modelamiento evaluaci n y despliegue Cada una de estas fases nivel 1 est com puesta de tareas gen ricas nivel 2 que se dividen en tareas espec ficas nivel 3 y finalmente en el nivel 4 se encuentra la instancia del proceso que describe las actividades espec ficas a efectuar en un proyecto de miner a de datos La gu a del usuario brinda consejos detallados pistas por cada fase y cada operaci n dentro de una fa se y ejemplifica c mo hacer un proyecto de miner a de datos Esta gu a de usuario es una excelente opci n para desarrolladores que tienen poca experiencia en el desarrollo de este tipo de proyectos Modelo conceptual de CMIN Para comprender mejor el funcionamiento de la CMIN primero se presenta el modelo conceptual del sistema con los principales con ceptos y las relaciones existentes entre stos Figura 1 Usuarios comprende a las personas que pueden utilizar el sistema los cuales pueden ser novatos o expertos en proyectos de miner a de datos M dulo de procesos es el que permite la gesti n de procesos entre ellos CRISP DM La definici n de procesos representa la acci n de registrar un proceso mediante la agregaci n y definici n de sus pasos campos o actividades que se proponen para el desarrollo de un
9. Figura 2 tambi n se presentan los casos de uso de los editores expertos Estos usuarios adem s de usar la funcionalidad de un u suario final pueden gestionar procesos crearlos modificarlos y eli minarlos y los pasos y campos asociados a ellos gestionar plantillas personalizaciones de un proceso en un rea espec fica de aplica ci n eliminando pasos que no son apropiados en esa rea y gestio nar las librer as de enlace din mico DLL que se utilizan en el siste ma La divisi n de funciones es l gica ya que la herramienta permi te a cualquier usuario desempe ar el papel de editor experto pero este usuario debe poseer buenos conocimientos de los procesos de miner a para definirlos y personalizarlos en plantillas as como cono cer la forma apropiada de crear y cargar nuevos algoritmos de mine r a de datos en la CMIN Finalmente la CMIN cuenta con un con junto de servicios web XML que permiten centralizar nuevos proce sos y DLL de algoritmos de miner a de datos y estos recursos pueden trasladarse a los clientes con una opci n sencilla de sincronizaci n haciendo que el trabajo del experto sea m s sencillo Registro de CRISP DM en CMIN El m dulo de gesti n de procesos permite definir nuevos procesos de miner a de datos A continuaci n se explica de modo general la forma como se registr CRISP DM V1 0 en la CMIN Primero el edi tor experto registra la informaci n b sica del proceso nombre esta do y descri
10. Mal 1 0 0 0 Se Eb MLULils Utilities pdb 5 Utilibes mi Pengam eh Parshiase MA Minari imen J EE 7 KE Figura 9 DLL resultado del proyecto de librer a li ip q in Le da iai i La Faso 1 Tanga ef Zip e Algarra Paso 2 Selecciona de di oel Algoritmo Paso 3 Sabloci na de image dae Alqorino iodulo WORK FLOW N F a a el lt lt Utiliza gt gt REFLECTION Y Compara y A K meansCMIN dl Clustering dll A 1 0 0 0 Pad 1 0 0 neane MAIN Clus er na Figura 10 Adici n de un nuevo algoritmo izquierda y validaci n de la DLL derecha en CMIN Si el nuevo algoritmo cumple con la interfaz del tipo de objeto se registra en la base de datos y los archivos del zip son descompri midos y almacenados en la carpeta local de CMIN denominada al goritmos quedando listo para ser utilizado en el workflow Figura 11 Invocaci n de los algoritmos en tiempo de ejecuci n Para la invocaci n de los m todos de los algoritmos que est n im plementados en las DLL se debe tener en cuenta que la CMIN alma cena los ensamblados Assemblys o DLL de los algoritmos en carpe tas locales y que tiene tambi n almacenados los ensamblados de los tipos de objetos es decir las interfaces Estos tipos de objetos del workflow son est ticos y la parte din mica la conforman los algorit mos u objetos de cada uno de los tipos los cuales pueden crecer en tiempo de ejecuci n Con este precedente el grupo defini
11. el cual se encuentra el 3 muestra el bot n que guarda la informaci n resultante del campo o actividad el 4 refiere c mo se puede crear un ciclo de cualquier paso del proceso siendo esto muy importante ya que la mayor a de proyectos necesitan re procesar o repetir ciertos pasos en un momento espec fico de su e voluci n en el 5 se rese a c mo se visualizan los ciclos Gesti n de Proyectos OIOICIO EOI Primero Atras Adelante ltimo Adicionar Eliminar Modificar Pasos Reportes Ayuda Mostrar Proyectos Gestionar Proyectos Nombre Proyecto Proyecto de Analisis Estado Proyecto En Edicion v Proceso Base RISP DM 1 0 BASE CRISP DM 2 0 Descripci n Proyerto GA A d Goia del proyecto Payaso de Mercedes Process Precios Cesi n Verianes Astres y AAM 10 Loonen de mosooo 3 Detener los obetros del ner pOr MON A avo dipo E CHE WCIN a Cbyervos deinezoco HAD y SS INS Pena Bari ground vistazo Poseo Mia Adearta Uhmo se Paginas Campos delpaso Personas daves del Negocio Estado 254 gJ t Healzar si Man del OPEET D Cusaamento de dos dat a Preparan de los debos a Mariat Enaluaci n a Despliegue Identificar a las personas clawe en el negocio y sus Roles Idert om as personas claes en el negono y as roles Persona Clawe Urganzaci n Flabirise agaigai aderbbere dl dns deprtrwrerbra y pupos de poporo Enunatabla debe doric ke pera adds uzaro percgal doniis de epertos
12. proyecto de miner a de datos Los reportes son los documentos o entregables que se deben proveer durante un proyecto y que son soporte de la ejecuci n de l Procesos son los pasos que se han agregado a la CMIN y que sirven como base para gestionar los proyectos de miner a con la herramienta M dulo de proyectos representa el m dulo de gesti n de proyectos de miner a de datos basado en uno de los pasos previamente adicio nado en el m dulo de procesos Los proyectos comprenden el con junto de procesos que se han creado en la CMIN y que est n en curso o han sido terminados Los campos o actividades de un paso son las tareas espec ficas que se deben realizar para cumplir con el objetivo del paso al que pertenecen Los resultados representan los productos de la realizaci n de una actividad que pueden ser una sugerencia un texto explicativo o una plantilla de informaci n que se debe diligenciar Workflow WP entorno gr fico que permite a los usuarios ges tionar modelos de miner a de datos basados en las tareas de mi ner a definidas en la CMIN Agregaci n din mica de DLL librer as de enlace din mico o por las siglas en ingl s de Dynamic Link Library es el m dulo que permite la gesti n de objetos nuevos algoritmos que sirven para la ejecuci n del WF por medio de DLL Los tipos de objetos del flujo de trabajo representan el conjunto de tipos de objetos reco nocidos por la CMIN para ser agregad
13. with its main concepts and the relationships amongst them see Figure Users people who use the system They may be experts or novi ces in data mining Process module this is the module that allows process manage ment among which is found CRISP DM Process definition re presents the action of registering a process during aggregation and defining its steps fields or activities required for carrying out a data mining project Reports are the documents or deliverables that need to be provided in the course of a project and which aid executing such project Processes processes that have been added to CMIN and that serve as a basis for managing data mining projects in the tool Project module the module for managing data mining projects based on one of the processes previously added to the process module Projects represent the set of projects already created in CMIN and can be found in two stages in progress or comple ted The fields or activities of a step are the specific activities that have to be carried out to meet the objective of the step to which they belong The results represent the products of carrying out an activity which may comprise a suggestion an explanato ry text or an information template that needs to be observed Workflow WPF a graphical environment that allows users to ma nage data mining models based on mining tasks defined in CMIN Adding dynamic link libraries DLL this modu
14. Data Source CMIN Element that adows to load data from a dalabase unng MS SQLServer connection Figure 6 Data mining workflow in CMIN A software interface or contract Microsoft Corporation 2009a must be defined for each type of object in the workflow to add algo rithms or objects to types of objects in run time this groups the methods necessary for its use and other interaction methods with other types of workflow objects When a new type of object is 51 E CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE En espa ol un nuevo tipo de objeto ste se debe reportar a la CMIN con el for mulario que se ofrece en el lado izquierdo de la Figura 7 La interfaz del nuevo tipo se desarrolla previamente con Visual Studio NET Chand 2000 se compila como un ensamblado que se carga en la CMIN La informaci n del tipo de objeto es almacenado en la base de datos y el archivo DLL es copiado y almacenado en la carpeta local de la CMIN denominada Assemblies_CMIN Des pu s de ingresar el tipo de objeto se debe definir con qui n se pue den establecer enlaces es decir definir qu tipo de objeto puede entregarle informaci n y a qu tipo de objeto se le puede brindar ver lado derecho de la Figura 7 TECNICA ALGORITMOS Nombie Algortiroz de Agiupsmento A Guardar Descrpci n Algotmor de gupamienta Seleccione la DLL Interface Para la Tecnica Look tt CO Aesmblizeh ererados 3 Clzccificaio
15. EMBER 2010 45 56 En espa ol Casos de uso de la CMIN En la CMIN se consideran dos tipos de usuario funciones usuarios finales y editores expertos Figura 2 Los casos de uso del sistema son entrar al sistema precondici n para usar la herramienta y ges tionar procesos proyectos plantillas y DLL Los usuarios al ingresar al sistema deben configurar el servidor de bases de datos de SQL Server con la finalidad de cargar la informaci n necesaria para el funcionamiento del sistema puede ser una versi n express que es gratuita Al gestionar proyectos los usuarios pueden desarrollar los pasos propuestos por el proceso en el que se basa el proyecto de tal manera que ejecutan los campos que se definen para cada paso y en algunos campos se puede utilizar el flujo de trabajo workflow si se necesita utilizar t cnicas o algoritmos propios de miner a de da tos PA Q Configurar Servidor P AAA 4Induye gt gt e gt lt lt Induye gt gt 44 A a lt lt Induye E aa aiaa Pa ia P E Y a Gestionar Proyectos gt A Desarrollar Pasos gt gt Ejecutarcampos Y A NE 7 a e k m a e o a o e Utilizar WF a E lt lt Induye gt gt e Da pE TN po Gestionar Pasos T N Gestionar Campos y Gestionar Procesos Di pr A a mt A lt lt Induye gt gt maaa lt lt Induye gt gt p ppp A o 5 Gestionar Pasos de Plantilla a Figura 2 Casos de uso de CM N En la
16. INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 En espa ol CMIN herramienta case basada en CRISP DM para el soporte de proyectos de miner a de datos Carlos Cobos Jhon Zu iga Juan Guarin Elizabeth Le n y Martha Mendoza RESUMEN En este art culo se presenta la CMIN una herramienta CASE Computer Aided Software Engineering integrada que sopor ta todas las fases de un proceso basada en CRISP DM 1 0 Cross Industry Standard Process for Data Mining para so portar el desarrollo de proyectos de miner a de datos Prime ro se expone la funcionalidad general de CMIN lo que inclu ye la gesti n de procesos plantillas y proyectos y se destaca la capacidad de CMIN para realizar el seguimiento de los proyectos de una forma f cil e intuitiva y la manera como CMIN posibilita que el usuario incremente su conocimiento en el uso de CRISP DM o de cualquier otro proceso que se defina en la herramienta a trav s de las ayudas e informa ci n que se ofrece en cada paso del proceso Despu s se detalla c mo CMIN permite enlazar en tiempo de ejecuci n sin necesidad de volver a compilar la herramienta nuevos algoritmos de miner a de datos que apoyen la labor de mo delado basada en un flujo de trabajo o workflow en un pro yecto de miner a de datos Finalmente se ofrecen los resulta dos de dos evaluaciones de la herramienta las conclusiones y el trabajo futuro Palabras clave miner a de datos CRI
17. K meansCMIN Clustering Figure 10 Adding a new algorithm left and validating the DLL right CMIN If the new algorithm meets the requirements of the type of object interface it is registered in the database and the zip file is decompressed and stored in the local CMIN folder called algorithms ready to be used in the workflow Figure 11 Invoking algorithms in run time CMIN stores the algorithm assemblies or DLLs in local folders and it also stores the assemblies of the types of objects i e the interfaces These types of workflow objects are static and the dynamic part is made up of the algorithms or objects for each type which can be ex tended in runtime Taking this into account the group first defines software interfaces contracts that each type of object must fulfil fo cusing on methods allowing algorithm interaction with the user and the CMIN core This means that the CMIN core the nerve centre of 53 E CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO En espa ol mente las interfaces de software contratos que cada tipo de objeto deb a cumplir teniendo en cuenta m todos que permitieran la inte racci n de los algoritmos con el usuario y el n cleo de la CMIN Esto quiere decir que el n cleo de la CMIN el coraz n del workflow funciona basado en la informaci n de las interfaces software El n cleo sabe qu m to
18. MIN can be said to have a friendly interface that is understandable and through which most importantly the management of projects that may involve repetitive and somewhat complex aspects can be han dled easily The interface minimizes what the user needs to learn in the tool At each step it provides guidance for successfully carrying out data mining project tasks Figure 13 shows the main results of usability testing wherein for each indicator the users expressed an assessment mainly consisting of excellent and good Usability Test Results 90 80 70 60 50 40 30 20 10 0 General Structural Accessibility Structural Performance Aids Opinion Organization Consistency MExcellent EGood BAcceptable DRegular DBad Content Appearance Understanding Organization of Content Figure 13 Main results of usability test As regards the CRISP DM knowledge test an increase of between 5 and 10 in knowledge of the process was achieved in the short period of the workshop 1 hour noting that it was not intended that users memorize CRISP DM phases and its generic and specific tasks Most important was the change seen in the terminology in test users responses Compared to the pre test responses proved to be more accurate more technical and more directly related to the phases of the process Conclusions and future work CMIN is an integrated CASE tool that guides the carrying out of p
19. SP DM herramientas CASE workflow reflexi n Recibido julio 21 de 2009 Aceptado noviembre 15 de 2010 Ingeniero de Sistemas M Sc en Inform tica Universidad Industrial de Santander Colombia Candidato a Ph D en Ingenier a de Sistemas y Computaci n Universidad Nacional de Colombia Bogot Colombia Docente de Planta Tiempo Completo Categor a Titular Universidad del Cauca Colombia Investigador del Grupo de I D en Tecnolog as de la Informaci n GTI Universidad del Cauca Colombia ccobos unicauca edu co Ingeniero de Sistemas Universidad del Cauca Colombia Programador Inform tica y Gesti n S A Colombia Auxiliar de investigaci n del Grupo de I D en Tecnolog as de la Informaci n Universidad del Cauca Colombia jzunigaparedesOunicauca edu co Ingeniero de Sistemas Universidad del Cauca Colombia Programador Solsoft S A Colombia Auxiliar de investigaci n del Grupo de I D en Tecnolog as de la Informaci n Universidad del Cauca Colombia jguarin VDunicauca edu co Ingeniera de Sistemas M Sc en Ingenier a de Sistemas Universidad Nacional de Colombia Colombia M Sc in Electrical and Computer Engineering University of Memphis EEUU Ph D in Computer Science and Computer Engineering University of Louisville EEUU Docente de Planta Tiempo Completo Categor a Asistente Universidad Nacional de Colombia sede Bogot Colombia Investigadora del Laboratorio de Investigaci n en Sistemas Inteligente
20. ach activity Cost re ports can thus be produced for each step of the project the group thus recognises the need for integrating suitable project management methodology within CMIN Additionally the intention is to focus efforts on building up the tool development community This ought to allow rapid growth in the existing battery of algorithms that can be used in CMIN and thus enhance workflow use Khabaza T Shearer C Data mining with Clementine Paper presented at the Knowledge Discovery in Databases IEE Colloquium on 1995 Mai C K Krishna V M Reddy A V Polyanalyst application for forest data mining Paper presented at the Geoscience and Remote Sensing Symposium 2005 IGARSS 05 Proceedings 2005 IEEE International 2005 Megaputer PolyAnalyst 6 0 simplify your analytics 2009 from http www megaputer com MetaGroup METAspectrum Market Summary 2004 from http www oracle com technology products bi odm pdt odm_m etaspectrum 1004 pdf Microsoft Corporation interface C Reference 2009a from http msdn microsoft com en us library 87d83y5b aspx Microsoft Corporation Reflection Overview Electronic Version NET Framework Developers Guide 2009b from http msdn microsoft com en us library f7ykdhsy aspx Miren Bego a A R A retrospective view of CASE tools adoption SIGSOFT Softw Eng Notes 25 2 2000 pp 46 50 Rippa S Lendyuk T Selection of Alternative Projects Using Data Min
21. alford System 2009 PolyAnalyst Mai Krishna amp Reddy 2005 Megaputer 2009 Rippa amp Lendyuk 2007 and SAS Enterprise Miner SAS 2009a The ge neral criteria for such evaluation were its access cost of the tools its user interface how easy or complex the tool was to use accor ding to the user the process or methodology on which it was ba sed its extensibility the capacity to easily and dynamically expand the set of algorithms it offers and support in project development for individuals to work together in groups It thus came to light that not one of the tools fully complied with the cross industry standard pro cess for data mining CRISP DM CRISP DM 2006 Chapman et al 2000 a process for carrying out data mining projects that is at once iterative open customisable and widely recognised by industry and academia It also emerged that none of the tools allowed dynamic real time expansion without recompiling the tool of the set of algo rithms the tool initially produced and that despite the fact that some of the tools boasted an easy user interface not one of them properly guided the carrying out of a project much less aided the user to learn and deepen their knowledge of process management in con ducting a data mining project As such the research group GTI de cided to develop an integrated CASE tool based on CRISP DM CRISP DM 2006 Chapman et al 2000 easily extensible in run ti me easy to use and
22. cblema Primero Atras Adelante Ultimo a 5 Proceso CRISP_DM_1 0 f O Soluci n en Cursa Pagina J Dbgtivos del negocio Establecer Carcel Citsiio de sto deade el nagocio Paso Organizaci n E Vaar la Stuaci n Hombre Personas claves del Negocio H Determinar los objetivos de la miresia de datos Paso Campos del paso Nombie Personat claves del Negocio E Realizar el Plan del proyecto ea pe las poreotae ages Descripcion Identficar las personas claves en el negocio y zus roles E Connciriento de los datos fe Preparaci n de los datos w Modelado He Evaluaci n E Despliegue Identificar a las personas cla Persona Clave Uilza wok Flow v Juan Esteban a Wok Flow Y Orden fi Tipo de campo Plantila ATF Nro Pagina 2 Modificar Campo E DRJ Figura 4 Edici n de campos de un paso Gesti n de un proyecto en CMIN La CMIN permite desarrollar un proyecto de miner a de datos basa do en un proceso Para hacer esto los proyectos heredan la estructura del proceso que el usuario selecciona previamente En la Figura 5 parte izquierda se muestra la adici n de un nuevo proyec to a la CMIN lo que implica seleccionar un proceso base o una plantilla si se ha definido previamente una y a su derecha se pre senta el desarrollo de un proyecto En el numeral 1 se puede ob servar la estructura del proceso base que es recorrida por el usuario en la medida en que desarrolla el proyecto de miner a en la CMIN
23. cimien to de la bater a de algoritmos que se puedan usar en la CMIN y po tenciar de esta forma el uso del workflow Bibliograf a References Asuncion A Newman D J UCI Machine Learning Repository 2008 2007 from http www ics uci edu mlearn ML Repository html Borges de Barros Pereira H An lisis experimental de los criterios de evaluaci n de usabilidad de aplicaciones multimedia en entornos de educaci n y formaci n a distancia Unpublished Doctoral Universitat Politecnica de Catalunya Barcelona 2002 Britos P Fern ndez E Ochoa M Merlino H Diez E Garc a R Metodolog a de Selecci n de Herramientas de Explotaci n de Datos Paper presented at the Il Workshop de Ingenier a del Software y Bases de Datos XI Congreso Argentino de Ciencias de la Computaci n 2005 CRISP DM CRoss Industry Standard Process for Data Mining 2006 from http www crisp dm org Chand M Creating C Class Library DLL Using Visual Studio NET Electronic Version C Corner 2000 from http www c harpcorner com UploadFile mahesh dll 12222005 064058AM dll aspx Chapman P Clinton J Kerber R Khabaza T Reinartz T Shearer C CRISP DM 1 0 Step by step data mining guide CRISP DM Consortium 2000 Gondar Nores J E Metodolog as para la Realizaci n de Proyectos de Data Mining Electronic Version 2004 from http www estadistico com arts html220040426 Holmes G Donkin A Wit
24. ding the DLL that defines the contract or software interface Microsoft Corporation 2009a as a reference for the type of object that will be implemented In other words the developer adds the clustering dll to the project if the k means algorithm is going to be implemented see Figure 8 D kK meansCMIN cs a 4 Clustering dll cH visual CX Source file A 1 0 0 0 5KB ll lustering SN Aer ci Class Library A Ue Implements Clusteringintertace K meansCMIN K means CIN dll 1 0 0 0 K meansCMiIN Generates a Figure 8 Relationships between assemblies and class diagram in the VS NET library project En espa ol El programador implementa el algoritmo en el proyecto de librer a cumpliendo con el contrato genera la nueva DLL y la comprime en un archivo zip Figura 9 Cuando un usuario necesite usar el nuevo algoritmo en la CMIN primero selecciona el archivo zip con la DLL luego verifica que cumpla con el contrato esta comparaci n se lleva a cabo utili zando reflexi n System Reflection Microsoft Corporation 2009b cargando los ensamblados y comparando los m todos crea una imagen que represente el nuevo algoritmo y finalmente la carga en la CMIN Figura 10 dlustering dil i Clustering pob Fh 1 0 0 0 Procram Debug Database 1 dustering 5 KB R Meare CHI AI 1 0 0 0 k means hilt k means CMIND1 0 zip 44 KE K meareCHIN pdb a Utilities dll Program Debug Database
25. dos debe invocar en los objetos ya que ellos cumplen con los contratos de cada tipo de objeto Para la creaci n de objetos la carga y la invocaci n de los m todos se us reflection Microsoft Corporation 2009b Adem s el n cleo valida las relacio nes que se pueden dar entre los objetos basado en las reglas que se registran en la parte derecha de la Figura 7 Como resultado el workflow funciona como se muestra en la Figura 12 Kmeans lasificacion Visualizadores Algoritmos de grupamiento K means es un aboritmo que separa un Data Seten conjuntos clusters de datos cada uno con elementos de caracteristicas similares Utiliza la distancia Euclidania para el calculo de las distancias petal length ta vajh Ps TUS kotoa 0330303 0064562541 AOHOEIGOSEGI birsstora ayana ASSN SENSSA kirvescoo n NETENM 4 MTNMIAEFERIFL horarias Figura 12 Workflow desarrollado en el taller usando CMIN Evaluaci n de la CMIN La CMIN ha sido sometida a dos evaluaciones Evaluaci n preliminar de la gesti n de procesos y la gesti n de pro yectos Realizada en febrero de 2008 con 16 estudiantes de la asignatura electiva de miner a de datos en la Universidad del Cau ca UC En esta evaluaci n se asign cada fase de CRISP DM a dos estudiantes del curso y basados en la versi n 1 0 de CMIN realizaron una evaluaci n general del cumplimiento de las fases de CRISP DM por parte de la herramienta y adem s evaluaro
26. ess This last point is very important because most projects need to re process or repeat certain steps at a specific moment along the way and 5 in dicates how the cycles are displayed Hainaga Propecla O S S O Fait Buck Forai We Peai Piopeca Hamz biek ntr Project Piip Sha E ie Pivberi Paopao e CAI PARA Y T memea e DM 1 MASE Managemert 7 a Ila A Process Projecte CRISP DM V 10 Buiress Under tindro Produce proect plan Step Fields CMEA QOQ QJQ r Fez Bok Fowad Last Ol Pagos identify key persons State 25 E Data undentandng identity key persons in the business and ther roles Dala preparahon Modeling Evaluation Deploymerl 2003120 Organization 031204 Dervelop organizations chats identiying denmiory department end project groups The chest Shadd aho dertiy manages namas and responiibdibes daa mring poed lag Makano Sales Francal Figure 5 Managing a project in CMIN Data mining workflow in CMIN Figure 6 shows the workflow of CMIN The types of objects in the workflow are outlined at 1 data sources classification algorithms data description algorithms filters displays and grouping or cluste ring algorithms 2 shows an offered object of the Data Source ty pe and 3 presents an object in execution within the workflow Data Source E Y Cassfication algorkhms az Qusrtering algorkthms Dota Description algorithms 2
27. est with the participation of the University of Cauca UC Engineers and Systems Engineering students who work in data mining This test had two objectives a thorough revision of CMIN in a different environment to that of its development by way of a usability test and the verification through an experiment of whether or not using CMIN could in crease the knowledge users had of CRISP DM The experiment was conducted in six steps as follows 1 a pre test evaluated the group s initial knowledge of CRISP DM 2 a basic presentation of the CMIN tool was given 3 a workshop on data mining was held the aim of the workshop was to set a typical classification problem for the group to solve The IRIS data set available from the UCI repository Asuncion amp Newman 2007 was selected for the workshop The participants used the workflow and obtained the result shown in Figure 12 4 interaction with the group was done by questions and suggestions 5 a further test was taken to eva luate the group s new level of knowledge regarding CRISP DM the content of this test did not change regarding the pre test and 6 a usability test was set based on a questionnaire from the Uni versidad Polit cnica de Catalu a Borges de Barros Pereira 2002 Overall the test was successful in that the tool did not throw up any errors while all participants were able to resolve the classification problem presented The usability test results were very good C
28. ing Paper presented at the 4th IEEE Workshop on Intelligent Data Acquisition and Advanced Computing Systems Technology and Applications IDAACS 2007 Salford System Classification And Regression Trees CART 2009 from http www salfordsystems com cart php SAS Data mining with SASO Enterprise Miner 2009a from http www sas com technologies analytics datamining miner SAS SAS Enterprise Miner SEMMA 2009b from http www sas com offices europe uk technologies analytics da tamining miner semma html SPSS Inc Clementine 2009 from http www spss com es clementine University of Waikato Weka 3 Data Mining Software in Java 2009 from http www cs waikato ac nz ml weka
29. l de Colombia Bogot Colombia Laboratory researcher in Intelligent Systems Research LISI Universidad Nacional de Colombia Bogot Colombia eleonguzOunal edu co 12 Systems Engineer M Sc in Computer Science Universidad Industrial de Santander Colombia Ph D student in Engineering Systems and Computing Universidad Nacional de Colombia sede Bogot Colombia Plant Teachers Full Time Category Holder Universidad del Cauca Colombia GTI Researcher Universidad del Cauca Colombia mmendozaGunicauca edu co 45 CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO En espa ol Introducci n En ingenier a de software se han establecido diversos procesos me todolog as y herramientas para estandarizar y facilitar el desarrollo de sus productos Entre las herramientas se cuentan las CASE las cuales soportan en forma autom tica varios o todos los pasos de dichas me todolog as y se enmarcan en la ingenier a del software asistida por computador o Computer Aided Software Engineering INEl 1999 Las herramientas CASE ayudan a reducir el tiempo empleado en el desarrollo de un sistema lo que mantiene el costo estable y contri buye a mejorar su calidad Miren Bego a 2000 Adem s permiten al analista documentar y modelar un sistema desde la definici n de requerimientos hasta el dise o implementaci n y prueba Miren Bego a 2000 Hoy
30. le allows the ma nagement of objects new algorithms that serve to implement the workflow using DLLs Types of workflow objects or types of objects represents the set of object types recognised by CMIN to be added and in turn used by the WF Interfaces represents the set of software contracts e g for classification clustering or INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 47 CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE En espa ol zados por el WF Las interfaces abarcan el conjunto de contratos de software por ejemplo en clasificaci n agrupaci n o reglas de asociaci n que deben cumplir las DLL para agregarlas al conjunto de objetos que ser n utilizados por el WF Las DLL son el conjunto de logaritmos que posee actualmente la CMIN en su bater a objetos del WP Objetos de WF comprenden el conjunto de objetos que se a gregan a la CMIN y pueden utilizarse en el WF el cual puede crecer a medida que los usuarios hagan nuevas implementacio nes de cualquiera de los tipos de objetos del WF especificados en la CMIN Servidor CMIN es el que aloja nuevas definiciones de procesos as como nuevas implementaciones de objetos algoritmos del WF por medio de DLL para que los usuarios actualicen la CMIN si as lo requieren ya que ella se ejecuta independientemente de este servidor Actualiza e stio n a nni CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO
31. n dl EG My Receni Jbatasource dl Documents 3 Fikers cll 3Jutities dl Y Visuclitations di a37 Agregar Relaciones Seleccionar Objeto 4lgoritmos de Agrup Relaciones Origen Relaciones Destino CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO In English created it should be reported to CMIN using the form seen on the left in Figure 7 The interface of the new type is developed beforehand using Visual Studio NET Chand 2000 it is compiled as an assembly and this assembly is loaded into CMIN The information about the object ty pe is stored in the database and the DLL file is copied and stored in the local CMIN folder called Assemblies CMIN After entering the type of object the links which can be established must be defined i e define to which type of object you can give information and which type of object can give you information see the right hand si de of Figure 7 TECHNIQUE ALGORITHMS Wiii Clustering Algorithms v La Save aa Description Clustering eN eracedor Jecimaque Algorithms Buscar en 1 8c6131a9 0752 4486 Jaee 2cecf4e812e4 Q 5 Er K3 Documentos i recientes Filters dll Utilities cl visualitations cll A Add Relations Select Object Clustering Algoritht E Origen Objects Destination Objets C Algoritmos de Agrupamiento Filtros _ Agoritmos de Clasificacion _ Visualizadores _ Algorimo
32. n la faci lidad de uso de sta Como conclusi n general la herramienta cumpli en un 100 con CRISP DM pero se detect la necesidad de mejorar algunas plantillas de recolecci n de informaci n en al gunas fases Teniendo en cuenta los resultados positivos de dicha evaluaci n en marzo de 2008 se particip en una convocatoria de proyectos a ser presentados en el Demofest del Microsoft Re search Academic Summit En el proyecto seleccionado por Micro soft se present un p ster cient fico de CMIN el 16 de mayo de 2008 en Ciudad de Panam y se ofreci directamente la herra mienta a los profesores e investigadores que participaron en el evento A pesar de que en el Demofest se presentaron proyectos con inversiones muy superiores a la hecha por la CMIN el proyec to recibi excelentes comentarios y Microsoft lo incluy en una nota publicitaria que se present en el programa Adelantos de CNN en espa ol ver copia del video en http www unicauca edu co ccobos con adelantos wmv I 54 INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 In English the workflow functions in a way that is based on the information from the software interfaces The core knows which methods it must invoke on the objects so that they comply with the contracts for each type of object For creating and loading objects and invoking methods the core uses reflection Microsoft Corporation 2009b The core also validates the relati
33. ne como foco central los objetivos empresariales del proyecto Debido a ello CRISP DM comienza realizando un an lisis del problema em 46 INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 In English Introduction A variety of processes methodologies and tools have been establish hed in software engineering to standardise software product deve lopment and make it simpler CASE tools are among the available tools they automatically support a number or all of the aforementio ned methodologies steps and together are known as computer ai ded software engineering CASE INEI 1999 CASE tools help redu ce the time required for developing a system in turn helping to sta bilise costs and contribute to quality enhancement Miren Bego a 2000 CASE tools further allow an analyst to document and model a system from initially defining the requirements through to design implementation and testing Miren Bego a 2000 A range of software tools are available today that help in carrying out data mining software projects Britos et al 2005 Kdnuggets 2005 MetaGroup 2004 Based on the list of such tools that appear in MetaGroup MetaGroup 2004 and Kdnuggets Kdnuggets 2005 an evaluation was made of the most representative including Cle mentine Khabaza amp Shearer 1995 SPSS Inc 2009 Insightful Mi ner Insightful Corporation WEKA Holmes Donkin Witten 1994 University of Waikato 2009 CART S
34. onships that can occur between objects based on the rules presented in the right hand part of Figure 7 As a result the workflow functions as shown in Figure 12 Kmeans k means is an algorithm that separates a data set into clusters of data each one of gc them with elements of similar EY characteristics Kmeans P lassification viewers Clustering Algorithms Figure 11 New algorithm ready to be used sepal_length sepal_widgth petal_lengih petal_vidgh class 0 13839396936898 0 416656666656 0 067796610169 0 Ins setosa 0 222222222222 0 583333333333 0 084745762711 0 0411665665666 Ins setoss Filters Classification Al 0472222222222 0 374999999999 0 593220338963 0 583333333333 Ins versicalor 0 386586886888 0208333333333 0 677966101694 0 791666666666 Ins vegiruca o a KNN Classification Aigorthm _1 Data Instences _3 Figure 12 Workflow developed in the workshop using CMIN CMIN assessment CMIN has undergone two evaluations A preliminary assessment of process management and project ma nagement was held in February 2008 with sixteen students from the University of Cauca s optional Data Mining course In this eva luation each CRISP DM phase was assigned to two students on the course Based on version 1 0 of CMIN they made an overall assessment of the tool s compliance with CRISP DM phases and also evaluated the ease of use thereof As a general conclusion
35. os y posteriormente utili COBOS ZU IGA GUARIN LE N MENDOZA In English blem for transforming it into a technical data mining problem CRISP DM can also be integrated with a specific project manage ment methodology complementing administrative and technical tasks It is also widely distributed at no cost unlike SEMMA SAS 2009b CRISP DM defines a structure for data mining projects and provides orientation for their execution It serves both as a reference model and a user guide Chapman et al 2000 The reference mo del gives a general view of a data mining project s life cycle contain ning each phase with its objective the tasks the relationships be tween them and the step by step instructions that must be carried out The phases defined for the reference model are understanding the business data analysis data preparation modelling evaluation and display Each phase level 1 is composed of generic tasks level 2 divided into specific tasks level 3 and an instance of the process is found in level 4 describing the specific activities to be done in a data mining project The user guide offers detailed advice tracks for each phase and each operation within a phase and provides an example of how to do a data mining project The user guide is an excellent option for researchers having little experience of data mi ning CMIN conceptual model The conceptual model is presented first to understand better how CMIN works
36. pci n y luego define los pasos y campos del proceso La Figura 3 en el lado izquierdo despliega un men contextual que permite crear dichos pasos fases tareas gen ricas tareas espec ficas etc tera En cada paso se define su nombre el tipo de paso en la je rarqu a del proceso una descripci n que sirve de ayuda al usuario de la CMIN y el conjunto de campos informaci n que el desarrolla dor del proyecto de miner a de datos deber registrar en ese paso En el lado derecho de la figura se ofrece el resultado de la edici n de los pasos del proceso CRISP DM 1 0 seguidos en la CMIN INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 e qq E K lt 4 lt y nn DN COBOS ZU IGA GUARIN LE N MENDOZA In English CMIN use cases Two types of users roles are considered in CMIN end users and ex pert editors see Figure 2 The system s use cases are as follows logging into the system a pre condition for using the tool managing processes managing projects managing templates and managing DLLs On logging into the system the users must configure the data base server to SQL server to load the information necessary for the system s operation possibly an Express version which comes free of charge When managing projects users can carry out the steps suggested by the process that the project is using in such a way that they implement fields that are defined for each step In some fields the wo
37. rkflow can be used if the user needs to use particular data mi ning techniques or algorithms lt lt indude gt gt lt lt indude gt gt lt lt indude gt gt y m Manage Projects Development Steps Execute Fields 3 Using WorkFlow lt lt indude gt gt lt lt indude gt gt Manage Fields Camas mz Manage Steps Q A lt lt indude gt gt Manage Templates Manage Templates Steps Expert Editor BS lt lt indude gt gt Manage DIl s Manage Data mining task Figure 2 Diagram of CMIN use cases Figura 2 also shows expert editors use cases These users as well as making use of the functionality available to an end user are also able to manage processes create modify and delete processes and their associated steps and fields manage templates customisations of a process in a specific area of application eliminating steps that are not appropriate in that area and manage the DLLs used in the sys tem The division of roles is a logical abstraction since the tool allows any user to take on the role of expert editor but such user must have a good knowledge of mining processes to define templa tes and customise them as well as learn the proper way to create and load new data mining algorithms in CMIN CMIN has a set of XML web services that enable the centralisation of data mining algo rithms new processes and DLLs These resources processes and al gorithms can be synchronised to customer
38. ro jects through processes facilitates the integration of the process with 55 E CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO En espa ol proceso con el proyecto y asegura el cumplimiento del proceso en la ejecuci n del proyecto su funcionalidad extensible ampliaci n di n mica y en tiempo de ejecuci n de la bater a de algoritmos motiva y facilita el desarrollo en comunidad ya que una nueva funcionali dad puede ser programada por miembros de la comunidad y des pu s puede ser probada y evaluada por un grupo de expertos y fi nalmente incluida y distribuida a los dem s miembros de la comuni dad de usuarios de la herramienta a trav s de la opci n de sincroni zaci n Mediante la informaci n detallada y apropiada en cada paso de un proceso y de un proyecto en la CMIN se posibilita que el u suario conozca progresivamente sobre un proceso de miner a de da tos por ejemplo CRISP DM Como trabajo futuro el grupo de investigaci n planea implementar una versi n mejorada del componente de seguimiento a proyectos que tenga en cuenta la administraci n de los recursos para cada ac tividad de tal forma que se puedan hacer reportes de costos en ca da paso del proyecto y en general integrar a la CMIN una m todo log a de gesti n de proyectos adem s centrar esfuerzos en el establecimiento de la comunidad que permita un r pido cre
39. s LIS Universidad Nacional de Colombia sede Bogot Colombia eleonguzOunal edu co gt Ingeniera de Sistemas M Sc en Inform tica Universidad Industrial de Santander Colombia Estudiante de Ph D En Ingenier a de Sistemas y Computaci n Universidad Nacional de Colombia sede Bogot Colombia Docente de Planta Tiempo Completo Categor a Titular Universidad del Cauca Colombia Investigadora del GTI Universidad del Cauca Colombia mmendoza Dunicauca edu co In English CMIN a CRISP DM based case tool for supporting data mining projects Carlos Cobos Jhon Zu iga Juan Guarin Elizabeth Le n Martha Mendoza ABSTRACT This paper introduces CMIN an integrated computer aided software engineering CASE tool based on cross industry standard process for data mining CRISP DM 1 0 designed to support carrying out data mining projects lt is integrated in the sense that it supports all phases of a process A general overview of how CMIN works is presented first including a treatment of processes templates and project management CMIN s capacity for easily and intuitively monitoring projects is highlighted as is the manner in which CMIN allows a user to increase knowledge regarding using CRISP DM or any other process defined in the CASE tool through the help and information presented in each step Next it is shown how CMIN can bind new data mining algorithms in runtime without the need to recompile the
40. s tion is also registered as is uses workflow indicating whether or not in order to perform the activity or field it is necessary to use the WF gt PDU 1A ali a Barai ds Jirar y Dare Era a a JE Faret Fazat Tr De h ldi s batari FOR 1 l ghi TRA IS l a a ll ar TEE O M Pak F ssd Lai uirri iaid Fap Pao 1 w E Frecce CRIEP DA Y 1 0 Step Drganizalion Hare 29 Le j Hes hirii ka paa Std Pa mem ore po Biely ley partora in Bos baara art Depis jet big p r Pa hiriari ma Pai ii a Bries ppal p a Dea riro ldentily key persons in the bu KEY PERSON Lion lali E F i yh Figure 4 Editing of the fields of the step Management of a Project in CMIN CMIN allows a data mining project based on a process to be carried out In order to do this the projects inherit the structure of the pro cess that the user selected previously The left hand part of Figure 5 shows the addition of a new project to CMIN This process involves selecting a base process or template if one has been defined pre viously The right hand part of Figure 5 shows how a project is con ducted At 1 the structure of the basic process can be seen which is executed by the user in such a way that the mining project is con ducted in CMIN at 2 the fields or activities to be performed per En espa ol en el 2 se aprecian los campos o actividades a desarrollar pertene cientes al paso en
41. s de Descripcion de Datos Fuentes de Datos L clustering Algorithms Filters C Classification Algorithme Viewers Data Description Algorithme Data Sources Figura 7 Edici n de tipos de objetos izquierda y relaciones de los tipos derecha en el workflow Adici n de un nuevo algoritmo a la CMIN El proceso para adicionar un nuevo objeto a un tipo de objeto de CMIN es el siguiente Un programador crea un proyecto de librer a en Visual Studio NET Chand 2000 adicionando como referencia la DLL que define el contrato o interfaz de software Microsoft Corporation 2009a pa ra el tipo de objeto que va a implementar Es decir agrega al pro yecto la interfaz de clustering dll si va a implementar el algoritmo k means Figura 8 H l K maansCMIN cs C visual C Source File 3 SKE A Veterenca Clustering cl 1 0 0 0 Clustering implementa 3 Slusteringlrtertace dass Library K meansChiN K meansChiir cl 1 3 0 0 Kmeanscmi Figura 8 Relaci n de ensamblados y diagrama de clases dentro del proyecto de librer a de VS NET E 52 INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 Figure 7 Editing types of objects left Relationships among types right in workflow Adding a new algorithm in CMIN The process for adding a new object algorithm to a type of CMIN object is as follows A developer creates a library project in Visual Studio NET Chand 2000 ad
42. s tareas correspondientes a un proyec to de miner a de datos En la Figura 13 se indican los principales re sultados del test de usabilidad donde los usuarios expresan para ca da uno de los indicadores de evaluaci n una valoraci n mayoritaria mente excelente y buena Resultados del Test de Usabilidad Opini n Organizaci n Accesibilidad Consistencia Desempe o Ayudas Organizaci n Apariencia Comprensi n Estructura Estructural del Comerido de Contenico Figura 13 Principales resultados del test de usabilidad En cuanto al test de conocimiento sobre CRISP DM se logr un in cremento del 5 al 10 en el conocimiento del proceso en el poco tiempo que dur el taller 1 hora destacando que ste no ten a co mo objetivo que los usuarios memorizaran las fases las tareas gen ricas y espec ficas de CRISP DM y lo m s importante de esto el cambio en los t rminos de las respuestas dadas por los usuarios en el test posterior las cuales fueron m s precisas t cnicas y directamente relacionadas con las fases del proceso Conclusiones y trabajo futuro La CMIN es una herramienta CASE integrada que orienta el desarro llo de los proyectos a trav s de procesos facilita la integraci n del INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 COBOS ZU IGA GUARIN LE N MENDOZA In English An evaluation of the usability of the tool This evaluation was ca rried out in March 2009 using a Beta t
43. s through a simple syn chronisation option making the job of the expert that much easier CRISP DM register in CMIN The process management module allows new data mining processes to be defined The following presents how to register CRISP DM V1 0 in CMIN First the expert editor registers the basic information regarding a process name status and description then defines the steps and process fields Figure 3 shows on the left hand side how to create a shortcut menu with these steps phases generic tasks specific tasks etc Four things are defined in each step the name the type of step in the process hierarchy a description which helps the CMIN user and the set of fields information that the person carrying out the data mining project must register in that step The result of editing the steps of CRISP DM 1 0 registered in CMIN are shown on the right hand side of the Figure 49 CMIN HERRAMIENTA CASE BASADA EN CRISP DM PARA EL SOPORTE DE CMIN A CRISP DM BASED CASE TOOL FOR SUPPORTING DATA MINING PRO En espa ol Campos del paro CRISP OM V10 Motodoeoia Proceso standa que deime sen 6 etapa para dasanola Proyectos de mrana de Datos tlapss Comprensi n del regoco Comprerm n de los Daton Preparaci n de los Datos Modelado E valuacon y demplage CRISP DM 10 Conocimiento del negocio E Deleminar los objetvos de negoco Camoos del paso gt Eackorcund vitazo Organizaci n
44. se encuentran diversas herramientas software para apoyar el desarrollo de proyectos de miner a de datos Britos et al 2005 Kdnuggets 2005 MetaGroup 2004 Basado en el listado de herra mientas que aparecen en MetaGroup 2004 y Kdnuggest 2005 se realiz una valoraci n de las m s representativas entre ellas Clementine Khabaza Shearer 1995 SPSS Inc 2009 Insightful Miner Insightful Corporation WEKA Holmes Donkin amp Witten 1994 University of Waikato 2009 CART Salford System 2009 PolyAnalyst Mai Krishna amp Reddy 2005 Megaputer 2009 Rippa amp Lendyuk 2007 y SAS Enterprise Miner SAS 2009a Los criterios generales para dicha valoraci n fueron el acceso costo de las herra mientas la interfaz de usuario facilidad o dificultad que puede lle gar a tener el uso de la herramienta por parte de los usuarios el proceso o metodolog a en la que se basan la extensibilidad capaci dad de ampliar f cil y din micamente el conjunto de algoritmos que ofrece la herramienta y el soporte al desarrollo del proyecto por parte de equipos de trabajo Como resultado se encontr que ningu na de las herramientas cumple completamente con CRISP DM Cross Industry Standard Process for Data Minning CRISP DM 2006 Chapman et al 2000 un proceso para el desarrollo de pro yectos de miner a de datos iterativo abierto personalizable y de gran reconocimiento por la industria y la academia que ninguna de e
45. stas herramientas permite la ampliaci n din mica y en tiempo de ejecuci n sin volver a compilar el c digo del conjunto de algorit mos de miner a que se entregan inicialmente con la herramienta y que a pesar de que algunas herramientas cuentan con una interfaz f cil de usar ninguna de ellas gu a apropiadamente el desarrollo de un proyecto y mucho menos ayudan a sus usuarios a conocer y pro fundizar en el manejo del proceso y en general del desarrollo de proyectos de miner a Por lo anterior el grupo de investigaci n GTI decidi desarrollar una herramienta CASE integrada que soporta to das las fases de un proceso basada en CRISP DM CRISP DM 2006 Chapman et al 2000 f cilmente extensible en tiempo de ejecuci n f cil de usar y que ayude al usuario a mejorar sus conoci mientos y habilidades en el desarrollo de proyectos de miner a CRISP DM Cross Industry Standard Process for Data Mining Existen varias metodolog as para orientar el proceso de miner a de datos ellas pretenden facilitar la realizaci n de nuevos proyectos con caracter sticas similares optimizar la planificaci n y direcci n de stos reducir su complejidad y permitir hacerle un mejor seguimien to a ellos Gondar Nores 2004 Entre esas metodolog as se destacan CRISP DM 2006 y SEMMA Sample Explore Modify Model Assess SAS 2009b SEMMA se centra en las caracter sticas t cni cas del desarrollo del proceso mientras que CRISP DM mantie
46. ten I H WEKA a machine learning workbench Paper presented at the Intelligent Information Systems 1994 Proceedings of the 1994 Second Australian and New Zealand Conference on 1994 INEI Herramientas CASE Lima Per Instituto Nacional de Estad stica e Inform tica 1999 Insightful Corporation Insightful Miner from http www insightful com products iminer default asp Kdnuggets Tools data mining 2005 from http www kdnuggets com polls 2005 data mining tools htm 56 INGENIER A E INVESTIGACI N VOL 30 No 3 DECEMBER 2010 45 56 In English the project and ensures the process s compliance in the execution of the project CMIN is a tool with expandable functionality capable of dynamic extension of the algorithm array in runtime that encoura ges and facilitates cooperation within the development community as new functionality can be programmed by community members then tested and evaluated by a panel before being finally included and distributed to other members of the tool user community through the synchronisation option Using detailed and appropriate information in each step of any process or in any project in CMIN it is likely that the user will progressively come to know more about any data mining process for example CRISP DM Regarding future work the research group plans to implement an improved version of the component for project monitoring that takes into account the management of resources for e
47. tool to support modelling tasks based on a Workflow and evaluate data mining pro jects Finally the results of two evaluations of the tool some conclusions and suggestions for future work are presented Keywords Data mining CRISP DM CASE tools workflow reflection Received july 21th 2009 Accepted november 15th 2010 e Systems Engineer M Sc in Computer Science Universidad Industrial de Santander Colombia Ph D candidate in Computer and Systems Engineering Universidad Nacional de Colombia Bogot Colombia Plant Teachers Full Time Category Holder Universidad del Cauca Colombia Researcher ID Group on Information Technology GIT Universidad del Cauca Colombia ccobos unicauca edu co Systems Engineer Universidad del Cauca Colombia Programmer Inform tica y Gesti n S A Colombia Research Assistant Group ID in Information Technology Universidad del Cauca Colombia jzunigaparedesDunicauca edu co Systems Engineer Universidad del Cauca Colombia Programmer Solsoft S A Colombia Research Assistant Group ID in Information Technology Universidad del Cauca Colombia jguarinWunicauca edu co Systems Engineer M Sc in Systems Engineering Universidad Nacional de Colombia Colombia M Sc in Electrical and Computer Engineering University of Memphis EEUU Ph D in Computer Science and Computer Engineering University of Louisville EEUU Plant Teachers Full Time Category Assistant Universidad Naciona
48. which helps a user to increase his her knowled ge and abilities in carrying out data mining projects Cross industry standard process for data mining CRISP DM A variety of methodologies exists for directing data mining These aim at facilitating new projects having similar characteristics optima se their planning and management reduce their complexity and allow smoother execution Gondar Nores 2004 Two of these me thodologies stood out CRISP DM CRISP DM 2006 and sample explore modify model assess SEMMA SAS 2009b The latter concerns itself with the technical characteristics or process develop ment while CRISP DM mainly focuses on a project s business objec tives CRISP DM begins by carrying out an analysis of a business pro En espa ol presarial para su transformaci n en un problema t cnico de miner a de datos CRISP DM puede ser integrada con una metodolog a de gesti n de proyectos espec fica que complemente las tareas adminis trativas y t cnicas adem s es de libre distribuci n sin costo alguno a diferencia de SEMMA SAS 2009b CRISP DM define una estruc tura para proyectos de miner a de datos y suministra la orientaci n para su ejecuci n Consta de un modelo de referencia y una gu a de usuario Chapman et al 2000 El modelo de referencia da una vi si n general del ciclo de vida de un proyecto de miner a de datos contiene las fases con sus objetivos las tareas y las relaciones entre stas
Download Pdf Manuals
Related Search
Related Contents
STUFA A PELLET Sony CDX-M800 CD Player DC-630 - Plawa Kambrook KVC23 User's Manual Moen KINGSLEY T3112 User's Manual 改善箇所説明図 So stellen Sie die Helligkeit ein i istruzioni d`uso gb user instructions f manuel d`utilisation d Operating instructions Mode d`emploi Manual de instrucciones Copyright © All rights reserved.
Failed to retrieve file