Home
TABLA DE CONTENIDOS
Contents
1. A parte de las opciones Entrenar Modelo Train Model y Testear Modelo Testear Modelo la opci n Crear modelo Create Model ofrece la posibilidad de desplegarse hacia la derecha dando paso a las opciones de creaci n de modelos de razonamiento Classification yy Create Model Support Vector Machine Cost Support Vector Machine Train Model K Nearest Neighbor Nu Support Vector Machine Test Model Naive Bayes Kernel ILUSTRACI N 6 MEN CREACI N DE MODELOS DE RAZONAMIENTO 10 MANUAL DE USUARIO Operaciones disponibles en bioclass 2 2 1 CREAR MODELO K NEAREST NEIGHBOR KNN La operaci n de K Nearest Neighbor permite al usuario crear un clasificador del tipo supervisado Este tipo de clasificador se basa en el c lculo de distancias entre documentos para la posterior clasificaci n en base a su vecindad con el conjunto de entrenamiento Una vez seleccionada la opci n desde el Men se la lanzar la siguiente ventana K Nearest Nelghbor creates a K Nearest Neighbor classifier model Classifier Name Le My Knn Neighbors number integer values greather or equal to Cross Validate Distance Type Cancel ILUSTRACI N 7 CREAR MODELO KNN Los par metros de los que dispone la operaci n son los siguientes 2 2 2 Classifier Name Se corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones Neighbors number
2. Linear Kernel creates a linear kernel using the following eguation u w t doesn t have parameters to configure Kernel name ie My kernel ILUSTRACI N 12 CREAR KERNEL LINEAL Como se puede ver en este caso al intervenir solamente los vectores de las instancias no posee ning n par metro adicional Por tanto s lo se tiene en cuenta el nombre del elemento e Kernel name Se corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones ENI 294 BioClass Rub n Romero Gonz lez 2 2 5 2 CREAR KERNEL POLINOMIAL Esta operaci n permite crear un Kernel Polinomial para una Support Vector Machine Este se basa en la siguiente ecuaci n Kernel u v gamma u v coef e9ree Los par metros u y v representaran cada una de las instancias pertenecientes al Corpus Veamos el resto de par metros una vez seleccionada la operaci n desde el Submen Polynomial Kernel Creates a Polynomial kernel using the following equation qammatu v coebdegree Kernel name feMykernel Gamma value to use Float values greather or equal to 0 0 Coeficient to use coef 10 0 Float values greather or equal to 0 0 Degree value to use 3 Integer values greather or equal to 0 ILUSTRACI N 13 CREAR KERNEL POLINOMIAL e Kernel name Se corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones e Gamma value to use El valor de
3. La tabla dispone de varias caracter sticas importantes pues permite ordenar las tuplas por orden ascendente o descendente como tambi n seleccionar aquellas de deseen desechar e No indica el n mero de instancia a mostrar seg n el orden de la matriz de dispersi n e Selected permite al usuario seleccionar aquellas instancias en las cuales este interesado en destacar por alg n motivo como por ejemplo eliminarlas e PMID En caso de haber cargado el corpus especificando el par metro de identificaci n de documento se a adir a la tabla y al desplegable de filtrado pudiendo operar sobre ello El nombre del identificador variar en funci n del que se haya especificado 45 46 MANUAL DE USUARIO e Real Indica el valor real de relevancia que deber a tener la instancia Este campo servir como contraste del proceso de clasificaci n e Predicted Indica el valor de relevancia predicho por el clasificador 3 3 3 SUMARIO La secci n de sumario recoge el an lisis estad stico realizado una vez terminado el proceso de clasificaci n Este se encuentra separado a su vez en dos partes bien diferenciadas estad sticos a la izquierda generaci n de gr ficos a la derecha Veamos una instant nea de la secci n Summary aqi Var Plots X W TP Rate 4 le TP Rate 4 v Export Total Attributes 5 So di E Y Es AA Correctly Classified Instances 3 0 100 0 1 05 incorrectly Classified Instance
4. Usando el desplegable el usuario podr seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual e Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual e Select OUTPUT train sparse matrix Representa el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro e Select OUTPUT test sparse matrix Representa el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro e Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff e Ranker Dado que el filtro necesita establecer un rango de valores aceptados por el usuario a trav s de esta opci n el usuario puede seleccionar uno creado con anterioridad o servirse del men contextual para generar uno nuevo ENI 294 BioClass Rub n Romero Gonz lez 2 3 10 CREAR UN RANKER Esta operaci n permite al usuario crear una ordenaci n de atributos que sirva como umbral de valores en combinaci n con algunos tipos de filtros Esta opci n se encuentra disponible a trav s de los men s contextuales de los filtros o tambi n desde el Submenu Attributes perteneciente al grupo Filtering
5. A continuaci n se muestra una imagen de la interfaz de usuario asociada Makes a ranker to discrimate attributes based on evaluator s values Number of attributes to sele 1 Values greather than 0 1 means ignore this option Attributes to ignore Separated by comas atti att 2 Attributes value threshold o o Floating value ILUSTRACI N 30 OPERACI N CREAR RANKER Como se puede observar en la figura esta posee varias opciones de configuraci n e Number of attributes to select Permite al usuario establecer el n mero m ximo de atributos a considerar en el conjunto final Los valores est n restringidos a enteros iguales o mayores que 0 considerando de forma especial el valor 1 el cual permite ignorar la opci n En caso de introducir valores err neos se notificar al usuario mediante una ventana de informaci n Por defecto la opci n se encuentra a 1 e Attributes to ignore Conjunto de atributos separados por comas que se ignorar n del ranking Por tanto significa su directa exclusi n del subconjunto final e Attributes value threshold Opci n m s importante del Ranker pues establece el umbral de discriminaci n de valores del subconjunto final Todos aquellos valores de atributos que no lo superen son discriminados Permite valores flotantes sin restricci n de valores num ricos En caso de introducir valores no num ricos se notificar al usuario mediante una ventana de informaci n 29 30 MANUAL DE US
6. SVC Float values between 0 0 to 0 5 Tolerance of Termination The tolerance of the termination criterion Kernel Type Kernel type to use is possible to select between Linear Poplynomial RBF or Siamoid It must be instanciated in a previous step Mormalize Whether to normalize the data Probability Estimates Whether to generate probability estimates instead ofl 1 1 for classification problems Shrinking Whether to use the shrinking heuristic Update Reset Nu Svm Classifier Model Viewer A j ILUSTRACI N 34 VISOR NU SUPPORT VECTOR MACHINE Como se puede observar en la imagen el visor presenta dos tipos de opciones generales y especificas esto es debido a que BioClass soporta m ltiples tipo de SVMs sobre la misma API Aun as estas no dejan de corresponderse con las que se pod an configurar mediante la operaci n de creaci n En este caso particular se han a adido dos botones New y Edit asociados al par metro Kernel Type e Bot n New Haciendo uso de este bot n el usuario puede crear nuevos Kernels pues enlazan directamente con las operaciones disponibles a trav s de los men s e Boton Edit Este bot n lanza el visor asociado al tipo de Kernel seleccionado en el desplegable que se encuentra a su derecha 2 2 1 ENI 294 BioClass Rub n Romero Gonz lez 35 3 1 5 VISOR KERNEL LINEAL Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a
7. Se corresponde con el n mero de vecinos a utilizar por el clasificador Este par metro afecta directamente al n mero de vecinos que se utilizar durante el proceso votaci n y asignaci n de una instancia a una determinada clase Los valores permitidos son enteros mayores que O en caso de introducir valores incorrectos se notifica al usuario a trav s de la correspondiente ventana de error Cross Validate Este par metro permite al modelo clasificar las instancias en funci n del algoritmo Hold One Out Ver secci n 3 1 Soluciones t cnicas adoptadas del manual t cnico De esta manera se selecciona al mejor K valor de entre todos ellos en vez de realizar una votaci n entre los vecinos Distance Type El desplegable permite seleccionar el algoritmo del c lculo de distancias entre los vecinos Las opciones disponibles son Ninguna Inversa de la distancia y 1 Distancia Reversa CREAR MODELO NAIVE BAYES La operaci n de Naive Bayes permite al usuario crear un clasificador probabil stico basado en el teorema de Bayes Una vez se selecciona la opci n del Men se lanza la siguiente ventana ENI 294 BioClass Rub n Romero Gonz lez Naive Bayes Creates a Naive Bayes classifier model Classifier Name Le My NE Use supervised discretization L Use kernel estimator L ILUSTRACI N 8 CREAR MODELO NAIVE BAYES Como se puede ver en la imagen la operaci n dispone de tres par metros definidos Veamos el significado con
8. Visor matriz de dispersi n Instancias oooononnnonanannannnonanonos 39 Ilustraci n 40 vista general visor matriz de dispersi n atributos ooonooonnanaanananannnannnon 39 Ilustraci n 41 barra de botones de visor matriz de dispersi n cocccccconononnnnnnnnanncanononnnnnnoss 40 lustracion 42 tabla de MM tan C aS idad 41 ll straci n 43 sumario de Millar AAA A da 41 ustraciona4 tabla de atributos tecnica dado 42 Ilustraci n 45 tabla de estadisticos por atributo occcccncccccnnnnnnnnnnnnnnnnnnnnnnonononnnannnannnancnnnnnnnnoss 42 Ilustracion 46 pralicas de dt DUO ad ca 43 Ilustraci n 47 vista general panel de resultados cccccoconocccncnnnnnonononancnnnnnnnnononnnococnnnnnonononanonos 44 Ilustraci n 48 barra de botones de visor de resultados o occocnocnocncnonnncnocnnnnocnnnnrcnrnncnnnnonnss 45 Ilustraci n 49 tabla de predicciones coooooooocoononanananoncncnononnonononnonnnnnnnnnnononononnnnnnnnnnnnnrnncncnnnnnnoss 45 Ilustraci n 50 sumario de resultados y gr ficas oooonncnncnnonnnnnnnnnnnnnnnnnnnnonnnnonononnnannnannncncncnnnnnnoss 46 lustracion s escenario de clas iMac Murias 47 Ilustraci n 52 esceanario de filtrado ooocoocornornonnononnnonornon noc onononorononoc nro nrn nro nnrnncnonnannss 48 ENI 294 BioClass Rub n Romero Gonz lez 1 INSTALACI N Y PUESTA EN MARCHA Los requisitos m nimos tanto hardware como software para pod
9. configurar mediante la operaci n Crear modelo K Nearest Neighbor ENI 294 BioClass Rub n Romero Gonz lez 3 1 3 VISOR COST SUPPORT VECTOR MACHINE Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un modelo Cost Support Vector Machine El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard Es decir es necesario seleccionar un objeto del tipo Cost Support Vector Machine para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Generic options Help Classifier Name Svm_cost1 SYNOPSIS z gt z A wrapper class for the libsvm tools the libsvm classes typically the jar Tolerance of Termination gt 0 0 10 0010 file need to be in the classpath to use this classifier A LibSVM runs faster than SMO since it uses LibSVM to build the SVM Normalize classifier Probability Estimates LibSVM allows users to experiment with One class SVM Regressing SVM EN and nu 5VM supported by LibSVM tool LibSVM reports many useful Shrinking w statistics about LibSVM classifier e g confusion matrix precision recall c ROC score etc Kernel type New Edit Linear_linearl M i Yasser EL Manzalawy 2005 WLSVM URL http www cs iastate edu yasser wlswm Chih Chung Chang Chih Jen Lin 2001 LIBSVM A Library for Support Specific options Vector Machines URL http www csie n
10. corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones e Gamma value to use El valor de este par metro sustituir al Gamma existente en la ecuaci n del Kernel Solamente se permiten valores flotantes mayores o iguales a 0 0 En caso de no supeditarse a las restricciones se mostrar una ventana informativa 2 2 5 4 CREAR KERNEL SIGMOIDAL La operaci n permite crear un Kernel Sigmoidal para una Support Vector Machine Este se basa en la siguiente ecuaci n Kernel u v tanh gamma u v coef Los par metros u y v representan cada una de las instancias pertenecientes al Corpus Veamos el resto de par metros una vez seleccionada la operaci n desde el Submen sigmoid Kernel creates a 5ijgmoid kernel using the following equation tanh gamma u w coef Kernel mame LeMykernel Gamma value to use lo Float values greather or equal to 0 0 Coeficient to use coef o o Float values greather or equal to 0 0 ILUSTRACI N 15 CREAR KERNEL SIGMOIDAL e Kernel name Se corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones e Gamma value to use El valor de este par metro sustituir al Gamma existente en la ecuaci n del Kernel Solamente se permiten valores flotantes mayores o iguales a 0 0 En caso de no supeditarse a las restricciones se mostrar una ventana informativa e Coeficient to use El valor de est
11. del Clipboard ENI 294 BioClass Rub n Romero Gonz lez e El panel de logs permite al usuario tener conocimiento de los procesos llevados a cabo y va mostrando los mensajes relativos a las operaciones que se est n realizando Adem s de los paneles principales existen otros dos adicionales anexados al de log el monitor de memoria el cual muestra un gr fico con los niveles de memoria ocupada y el panel AlBench Shell permitiendo al usuario cargar guardar y borrar flujos o experimentos BARRA DE MEN S Ca y F ri Chips ara Ai HE fingrd in neme ime Y o P lara ts au P o Reset hermas lyon PANEL DE CLIPBOARD PANELDE LOG PANELDE RESULTADOS ILUSTRACI N 2 INTERFAZ GENERAL MANUAL DE USUARIO Operaciones disponibles en bioclass 2 OPERACIONES DISPONIBLES EN BIOCLASS Las operaciones en BioClass est n agrupadas por categor as Corpus Clasificaci n y Filtrado Las operaciones disponibles bajo el Men Corpus permiten cargar los conjuntos de datos que ser n procesados por la aplicaci n A trav s de Clasificaci n se pueden crear modelos de razonamiento entrenarlos o testearlos de diferentes maneras Por ltimo el Men de Filtrado contiene aquellos algoritmos que permitan ajustar los conjuntos de datos en funci n de sus dimensiones 2 1 GRUPO CORPUS Como se ha comentado el grupo corpus permite la carga de conjuntos de datos a partir de diferentes fuentes En este caso concreto se ha co
12. en el Panel del Clipboard como tambi n para las operaciones e Tolerance of termination Este par metro permite establecer un valor como criterio de terminaci n del algoritmo Los valores permitidos son flotantes mayores que 0 0 En caso de introducir valores incorrectos se notifica al usuario e Normalize En caso de que el usuario decida utilizar este par metro el clasificador normalizar los datos correspondientes a los vectores e Probability Estimates El proceso de estimaci n de una m quina de soporte vectorial por defecto atribuye valores 1 o 1 a cada una de las instancias en funci n de la pertenencia a una clase o a otra Si la estimaci n probabil stica es seleccionada se calculan probabilidades de pertenencia de cada una de las instancias respecto de las clases en vez de atribuir valores absolutos e Shrinking Este par metro permite al clasificador utilizar la heur stica de Shrinking en el proceso de clasificaci n Por defecto esta activado e Kernel type usando este desplegable el usuario puede seleccionar el Kernel a usar con la M quina de Soporte Vectorial El Kernel puede crearse Submen de Kernels en un paso anterior o mediante el men contextual a la derecha del desplegable e Nu Este par metro permite ajustar el l mite superior del margen de error adem s de comportarse tambi n como l mite inferior de la fracci n de vectores Los valores permitidos est n comprendidos entre 0 5 y 0 0 En caso d
13. m s detenimiento e Classifier Name Se corresponde con el identificador que se le dar al elemento en el Panel del Clipboard como tambi n para las operaciones e Use supervised discretization Si se elige esta opci n el clasificador discretiza los valores del conjunto de datos para obtener valores nominales en vez de num ricos e Use kernel estimator Si el usuario selecciona esta opci n se utiliza un estimador basado en n cleo en vez de una distribuci n normal Cabe destacar que los par metros Use supervised discretization y Use kernel estimator son mutuamente excluyentes por tanto solo se puede seleccionar una de las dos opciones 2 2 3 CREAR MODELO COST SUPPORT VECTOR MACHINE La operaci n de Crear Cost Support Vector Machine Cost Support Vector Machine a la cual se puede acceder desde el Submen de Support Vector Machine que a su vez se encuentra recogido dentro del grupo de Clasificaci n permite crear una Maquina de soporte vectorial con par metro de Coste Una vez seleccionada la opci n del men se lanza la siguiente interfaz Cost Support Vector Machine creates a Cost 5VM classifier model Classifier name LeMySW Tolerance of termination 9 0010 Float values greather than 0 0 Normalize Ll Probability Estimates Shrinking Kernel type po y Kernel type to use Linear Poplynomial RBF or Sigmoid Cost to use 11 0 Values greather than 0 0 in floating point type ILUSTRACI N
14. n ENI 294 BioClass Rub n Romero Gonz lez 3 3 1 BARRA DE BOTONES Como se ha comentado previamente la barra de botones permite al usuario interactuar con los datos contenidos en la matriz Real v Filter Reset Remove Export s o JS i f J J 1 ILUSTRACI N 48 BARRA DE BOTONES DE VISOR DE RESULTADOS El bot n Reset Reiniciar permite al usuario restablecer la configuraci n Reset la inicial de la ventana activa Instancias o atributos Pp Remove Eliminar elimina aquellas tuplas Instancias o atributos que se Remove 1 encuentren seleccionadas en la tabla de la ventana activa Export Permite exportar los datos actuales del visor generando un nuevo m conjunto de datos Los formatos soportados son CSV y Arff Filter El bot n de filtrado permite establecer filtros recursivos sobre los datos contenidos en la ventana activa Predicciones Este desplegable sirve para especificar el campo por el cual se desea Real vw filtrar el contenido de los datos El bot n de filtrado es dependiente de este 3 3 2 TABLA DE PREDICCIONES Como se coment la tabla de predicciones muestra los resultados obtenidos de la clasificaci n a nivel de instancias en contraposici n de los resultados reales en caso de que existieran La siguiente ilustraci n muestra lo comentado _ Yno Ezi A PMID Ep Real _Predicted eMU elol O EP ILUSTRACI N 49 TABLA DE PREDICCIONES
15. n Romero Gonz lez Cfs Subset Eval Evaluates the worth of a subset of attributes by considering the individual predictive ability of each feature along with the degree of redundancy between them Select INPUT train sparse matrix le ts Select INPUT test sparse matrix Select OUTPUT train sparse matrix Select OUTPUT test sparse matrix Output format Files ILUSTRACI N 24 OPERACI N CFS SUBSET EVAL Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar como conjunto de entrenamiento Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select OUTPUT train sparse matrix Representa el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro Select OUTPUT test sparse matrix Representa el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff OPERACI N CHI SQUARED La siguiente operaci n permite al usuario realizar un
16. se pod an configurar mediante la operaci n Crear Kernel con base radial 37 38 MANUAL DE USUARIO Visores 3 1 8 VISOR KERNEL SIGMOIDAL Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un Kernel Sigmoidal El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard Es decir es necesario seleccionar un objeto del tipo Kernel Sigmoidal para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Options Help Kernel Name Sigmoid_sig1 It is a Polynomial kernel which is compouned by the following RI equation gamma u v coef4degree Gamma value Foat gt 0 0 10 0 5 z Gamma value corresponds to gamma parameter in the ecuation Coeficient Float gt 0 0 10 0 Float viaues areather or equal to 0 0 Coeficient to use coef corresponds to coef parameter in the lecuation Float Waues greather or equal to 0 0 Update Reset i Sigmoid kernel Viewer ILUSTRACI N 38 VISOR KERNEL SIGMOIDAL Como se puede observar en la imagen el visor presenta las mismas opciones que se pod an configurar mediante la operaci n Crear Kernel Sigmoidal ENI 294 BioClass Rub n Romero Gonz lez 3 2 VISOR DE LA MATRIZ DE DISPERSI N El visor de la matriz de dispersi n permite al usuario inspeccionar los datos contenidos en un corpus determinado El m todo de lanzamiento es a trav s d
17. un Kernel Lineal El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard Es decir es necesario seleccionar un objeto del tipo Kernel Lineal para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Options Heip Kernel Name Linear linear1 lt is a Linear kernel which is compouned by the following equation u v In this case we don t have any specific parameter Update Reset i Lineral kernel Viewer i ILUSTRACI N 35 VISOR KERNEL LINEAL Como se puede observar en la imagen el visor presenta las mismas opciones que se pod an configurar mediante la operaci n Crear Kernel Lineal 36 MANUAL DE USUARIO Visores 3 1 6 VISOR KERNEL POLINOMIAL Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un Kernel Polinomial El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard es decir es necesario seleccionar un objeto del tipo Kernel Polinomial para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Options Help Kernel Name Poly polyl It is a Polynomial kernel which is compouned by the following POly_ pol equation gamma u v coefdegree 1 Gamma value Foat gt 0 0 o 0 E 3 Gamma value corresponds to gamma parameter in the ecuation Coeficient Float gt 0 0 0 0 Float v
18. un paso anterior o mediante el men contextual a la derecha del desplegable e Cost El par metro de coste permite al usuario ajustar los m rgenes del hiperplano de la SVM afinando la pertenencia de cada una de instancias en relaci n a las clases Los valores permitidos son flotantes mayores que 0 0 en caso de introducir valores incorrectos se no notificara se notificar al usuario 2 2 4 CREAR MODELO Nu SUPPORT VECTOR MACHINE La operaci n de Crear Nu Support Vector Machine Nu Support Vector Machine a la cual se puede acceder desde el Submen de Support Vector Machine que a su vez se encuentra recogido dentro del grupo de Clasificaci n permite crear una M quina de Soporte Vectorial con par metro Nu para el control del margen del hiperplano Una vez seleccionada la opci n del men se lanza la siguiente interfaz ENI 294 BioClass Rub n Romero Gonz lez Nu Support Vector Machine Creates a Nu 5WM classifier modal Classifier name E O Tolerance of termination 9 9010 Float values greather than 0 0 Normalize L Probability Estimates L Shrinking es po ly Kernel type to use Linear Poplynomial RBF or Sigmoid Nu parameter 0 5 Float values between 0 0 to 0 5 ILUSTRACI N 10 CREAR MODELO NU SVM Como se puede ver en la imagen la operaci n dispone de m ltiples par metros configurables Veamos el significado con m s detenimiento e Classifier Name Se corresponde con el identificador del elemento
19. 9 CREAR MODELO COST SVM II 12 MANUAL DE USUARIO Operaciones disponibles en bioclass Como se puede ver en la imagen la operaci n dispone de m ltiples par metros configurables Veamos el significado con m s detenimiento e Classifier Name Se corresponde con el identificador del elemento en el Panel del Clipboard como tambi n para las operaciones e Tolerance of termination Este par metro permite establecer un valor como criterio de terminaci n del algoritmo Los valores permitidos son flotantes mayores que 0 0 en caso de introducir valores incorrectos se notifica al usuario e Normalize En caso de que el usuario decida utilizar este par metro el clasificador normalizar los datos correspondientes a los vectores e Probability Estimates El proceso de estimaci n de una m quina de soporte vectorial por defecto atribuye valores 1 o 1 a cada una de las instancias en funci n de la pertenencia a una clase o a otra Si la estimaci n probabil stica es seleccionada se calculan probabilidades de pertenencia de cada una de las instancias respecto de las clases en vez de atribuir valores absolutos e Shrinking Este par metro permite al clasificador utilizar la heur stica de Shrinking en el proceso de clasificaci n Por defecto se encuentra activado e Kernel type usando este desplegable el usuario puede seleccionar el Kernel a usar con la M quina de Soporte Vectorial El Kernel puede crearse Submen de Kernels en
20. CTOR MACHINE Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un modelo Nu Support Vector Machine El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard Es decir es necesario seleccionar un objeto del tipo Nu Support Vector Machine para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Generic options Help Pa E q EVIA DCH Classifier Name ISvm_nul SYNOPSIS HE z A wrapper class for the libsvm tools the libsvwm classes typically the jar Tolerance of Termination gt 0 0 0 0010 file need to be in the classpath to use this classifier R r LibSVM runs faster than SMO since it uses LibSVM to build the SVM Normalize m E EAT R classifier Probability Estimates L LibSVM allows users to experiment with One class SVM Regressing SVM eo P and nu SVM supported by LibSVM tool LibSVM reports many useful Shrinking e statistics about LibSVM classifier e g confusion matrix precision recall ROC score etc al Kernel type New Edit Linear_linearl M i Yasser EL Manzalawy 2005 WLSVM URL http www cs astate edu yasser wlsvm T Chih Chung Chana Chih Jen Lin 2001 LIBSVM A Library for Support Specific options Vector Machines URL http www csie ntu edu tw cjlin libswmn Nu 0 0 lt Float values gt 0 5 10 5 OPTIONS Nu parameter The value of nu for nu
21. Filter Reset Remove Export P M ID Re al TER P redicted y No E jl ji SAR 300 AS RloOlol mn Wf jc SA Lra E 1200 00 1100 Summary s Total Documents 3 Var Plots X Y TP Rate w TPRate A w Export Total Attributes 5 n Correctly Classified Instances 3 0 100 0 1 05 incorrectly Classified Instances 0 0 0 0 Mean absolute error 0 020 Root mean squeared error 0 031 Relative absolute error 4 456 Root relative squared error 6 516 Class TP Rate FP Rate Precision Recall F MeasureROC Area Relevan 1 0 1 1 1 1 0 95 Non Rel al ol 3 EN 1 0 95 1 1 05 l i Classification Result Viewer ILUSTRACI N 47 VISTA GENERAL PANEL DE RESULTADOS Como se puede ver en la ilustraci n la interfaz cuenta con varias secciones agrupadas por funcionamiento e Barra de botones Esta barra permite al usuario manipular los datos obtenidos como resultados del proceso de clasificaci n Desde aqu se podr n realizar acciones de filtrado eliminaci n reinicio o exportaci n de los datos actuales e Tabla de predicciones La tabla de predicciones recoge los resultados comparativos del proceso de clasificaci n de cada instancia e Sumario Esta secci n recoge todos los datos estad sticos asociados con el proceso de clasificaci n permitiendo tambi n generar y exportar gr ficos de dispersi
22. IO ATTRIBUTE EVAL La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo Gain ratio attribute eval Este eval a el peso de cada caracter stica del conjunto de atributos original teniendo en cuenta la ganancia de informaci n con respecto a la clase Una vez obtenidos los valores de cada atributo se aplicar un Ranker reduciendo el conjunto inicial Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original 25 26 MANUAL DE USUARIO Operaciones disponibles en bioclass Esta operaci n se encuentra disponible dentro del Submenu Attributes el cual se encuentra contenido dentro Menu de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles Gain Ratio Attribute Eval Evaluates the worth of an attribute by measuring the gain ratio with respect to the class Select INPUT test sparse matrix select OUTPUT train sparse matrix Select OUTPUT test sparse matrix Output format Files Select a ranker ILUSTRACI N 27 OPERACI N GAIN RATIO ATTRIBUTE EVAL e Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de entrenamiento Usando el desplegable el usuario podr seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual e Select INPUT test sparse matrix Este par metro s
23. Reset i Naive Bayes Model Classifier Viewer ILUSTRACI N 31 VISOR NAIVE BAYES Como se puede observar en la imagen el visor presenta las mismas opciones que se pod an configurar mediante la operaci n Crear modelo Naive Bayes 31 32 MANUAL DE USUARIO Visores 3 1 2 VISOR K NEAREST NEIGHBOR Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un modelo K Nearest Neighbor El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard es decir es necesario seleccionar un objeto del tipo K Nearest Neighbor para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Options Help Classifier Name Knn_knn1 SYNOPSIS AA AAA K nearest neighbours classifier Can select appropriate value of K based Neighbors number 1 lon cross validation Can also do distance weighting E D Aha D Kibler 1991 Instance based learning algorithms Machine Distance Type None w Learning 6 37 66 OPTIONS Neighbors number The number of neighbours to use Coss Validate Whether hold one out cross validation will be used to select the best k value Distance Weighting Type Gets the distance weighting method used ls Update Reset i Knn Model Classifier Viewer ILUSTRACI N 32 VISOR K NEAREST NEIGHBOR Como se puede observar en la imagen el visor presenta las mismas opciones que se pod an
24. TABLA DE CONTENIDOS 1 Instalaci n y puesta en marcha 1 1 Aspectos generales de la interfaz 2 Operaciones disponibles en bioclass 2 1 Grupo Corpus 2 1 1 Cargar corpus a partir de fichero 2 2 Grupo Clasificaci n 22A Crear modelo K Nearest Neighbor KNN 222 Crear modelo Naive Bayes ZAS Crear modelo Cost Support Vector Machine 2 2 4 Crear modelo Nu Support Vector Machine 2 2 5 Kernels para M quinas de Soporte Vectorial 2 2 6 Entrenar modelo X2 Testear modelo 2 3 Grupo Filtrado 2 3 1 Operaci n de Subsampling Da Operaci n de Resampling 2 3 3 Operaci n de conjuntos 2 3 4 Operaci n Cfs Subset Eval 200 Operaci n Chi Squared 2 3 6 Operaci n Consistency subset Eval 23l Operaci n Gain Ratio Attribute Eval 2 3 8 Operaci n One R attribute Eval 2 3 9 Operaci n Principal Components 2 3 10 Crear un Ranker 3 Visores 3 1 Visores de operaciones 3 1 1 Visor Naive Bayes 32 Visor K Nearest Neighbor 31 3 Visor Cost Support Vector Machine 3 1 4 Visor Nu Support Vector Machine rS Visor Kernel Lineal 3 1 6 Visor Kernel Polinomial F7 Visor Kernel Radial 3 1 8 Visor Kernel Sigmoidal 3 2 Visor de la matriz de dispersi n IA Barra de botones I2 Panel de datos Instancias 323 Panel de datos Atributos 3 3 Visor de resultados de clasificaci n _______ o o 3 3 1 Barra de botones 3 3 2 tabla de predicciones 3 3 3 sumario 4 Escenarios 4 1 Escenario de clasificaci n 4 2 Escenario de filt
25. UARIO Visores 3 VISORES Como se coment en los aspectos generales de AlBench los visores cubren la parte relacionada con las interfaces de usuario De esta manera se han creado visores para dar soporte a la modificaci n de los elementos creados o a los resultados de las operaciones llevadas a cabo En esta secci n se ha considerado el separar los visores en dos tipos diferentes de operaciones y de resultados para su mejor compresi n 3 1 VISORES DE OPERACIONES Los visores de operaciones permiten al usuario interactuar con objetos creados mediante el uso de operaciones permitiendo entre otras cosas su modificaci n para usos posteriores Dentro de estos Visores se engloban los de creaci n de modelos de clasificaci n y tipos de Kernel Estos visores poseen caracter sticas homog neas con el fin de mejorar la usabilidad e Todos los visores poseen paneles que agrupan la informaci n en funci n de su tipo a saber opciones ayuda y panel botones de acci n e Panel de opciones Recogen las opciones que se puede modificar del elemento en algunos casos el visor puede poseer opciones de car cter explicito e Panel de ayuda Este panel presenta la ayuda asociada al elemento y a todas sus opciones e Botones de acci n Mediante los botones de acci n Update y Reset el usuario puede actualizar los valores del elemento a los actuales o volver a su estado original Si el usuario decide actualizar los datos se realiza un proceso d
26. ado Cfs Subset Eval El algoritmo de filtrado de atributos que se ha utilizado durante el proceso ha sido Cfs Subset Eval A el se accede a trav s de la operaci n Cfs Subset Eval del men Filtering 3 Ver resultados Una vez terminado el proceso de clasificaci n se pueden utilizar los visores de resultados para analizar los datos obtenidos En este caso se usar n aquellos asociados a las matrices de dispersi n ya que el resultado de la operaci n produce nuevas matrices filtradas
27. al 100 de la muestra Output format files Permite elegir entre dos tipos de salida CSV y Arff Por defecto el formato se ha preestablecido a Arff OPERACI N DE CONJUNTOS La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos en funci n de la relaci n de existencia de los mismos Utilizando la teor a de conjuntos y las relaciones de Intersecci n diferencia y uni n se ha conseguido reducir la dimensionalidad de aquellos conjuntos extremadamente grandes e imposibles de procesar Esta operaci n se encuentra disponible a trav s Men de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles 21 22 MANUAL DE USUARIO Operaciones disponibles en bioclass 2 328 Operations Sets Procluces a new datasets based on operation sets Select INPUT train sparse matrix lr 5 Select INPUT test sparse matrix OO DA a select OUTPUT train sparse matrix select OUTPUT test sparse matrix Output format Files ILUSTRACI N 23 OPERACI N DE CONJUNTOS Operaci n set El usuario puede seleccionar la operaci n de conjuntos a utilizar con los corpus Las opciones disponibles son Intersecci n Diferencia y Uni n La opci n por defecto est preestablecida a Intersecci n Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar como conjunto de entrenamiento Usando el desplegable el usuario puede seleccio
28. ar modelo de razonamiento KNN El modelo de clasificaci n que ha usado esta basado en algoritmo de proximidad por vecindad KNN para ello se ha utilizado la operaci n K Nearest Neighbor del men Classification Entrenar modelo Para entrenar el modelo se ha utilizado la operaci n Train model del men Classification haciendo uso del modelo creado Cargar corpus de testeo al igual que en el 12 paso se ha utilizado la misma operaci n para cargar conjunto de datos a testear Testear modelo Para testear el modelo ya entrenado sobre un conjunto de datos a testear se ha utilizado la operaci n Test model del men Classification Ver resultados Una vez se ha terminado el proceso de clasificaci n se pueden utilizar los visores de resultados para analizar los datos obtenidos Para ello se debe hacer click sobre los objetos de tipo resultado en el Panel del Clipboard 47 48 MANUAL DE USUARIO Escenarios 4 2 ESCENARIO DE FILTRADO La Ilustraci n 52 muestra un escenario de uso de la herramienta BioClass en la cual se lleva a cabo un proceso completo de filtrado de atributos A continuaci n se detallan cada uno de los pasos que se han llevado a cabo ILUSTRACI N 52 ESCEANARIO DE FILTRADO 1 Cargar corpus de entrenamiento A trav s de la operaci n Load corpus from file del men Corpus se ha cargado el conjuntos de datos de sobre el cual se desea aplicar un algoritmo de filtrado de atributos 2 Seleccionar operaci n de filtr
29. atos El panel de datos representa el contenido de la matriz de dispersi n separando esta por los tipos de datos que gestiona Atributos e Instancias 3 2 1 BARRA DE BOTONES Como se ha comentado previamente la barra de botones permite al usuario interactuar con los datos contenidos en la matriz Veamos m s detenidamente la funci n de cada uno de los botones _ Ranged Reset Remove Export Filter F ATL name v _ Ranged 51 gt dl A NAS pa pas Sl mp Att name v Filter Reset Remove Export ILUSTRACI N 41 BARRA DE BOTONES DE VISOR MATRIZ DE DISPERSI N El bot n Reset Reiniciar permite al usuario restablecer la configuraci n inicial de la ventana activa Instancias o atributos Remove Eliminar eliminar aquellas tuplas Instancias o atributos que se encuentren seleccionadas en la tabla de la ventana activa Este bot n permite exportar los datos actuales del visor generando un nuevo conjunto de datos Los formatos soportados son CSV y Arff El bot n de filtrado permite establecer filtros recursivos sobre los datos contenidos en la ventana activa Instancias o atributos Este desplegable servir para especificar el campo por el cual se desea filtrar el contenido de los datos El bot n de filtrado es dependiente de este Al activarse permite al usuario introducir rangos de valores Por tanto extender la funci n de fil
30. ccionar uno de los modelos anteriormente entrenados Estos deben estar disponibles a trav s del Panel del Clipboard De no ser as se puede utilizar el men contextual o la opci n correspondiente de la Barra de men s 2 3 GRUPO FILTRADO El men de filtrado permite al usuario realizar operaciones sobre la dimensionalidad de los datos De esta manera el usuario puede redistribuir el n mero de instancias pertenecientes a cada una de las clases como tambi n comprimir el conjunto de atributos relevantes a cada corpus Filtering Instances Auributes b Operations Sets ILUSTRACI N 18 MENU FILTRADO Como se puede ver en la imagen los submen s de los que se dispone se corresponden directamente con la definici n dada pues el Submenu Instances permite redistribuir el n mero de instancias por clase y el Submenu Attributes realiza operaciones similares pero a nivel de atributos Por ltimo se ha a adido una Operaci n basada en conjuntos Operations Sets a nivel de atributos para permitir el procesado de las matrices en caso de que su tama o sea elevado A continuaci n se muestran unas instant neas de ambos submen s ENI 294 BioClass Rub n Romero Gonz lez y pa Ll Instances b AA Ee r e r A ER e y ibhsat o gt ATIT JU bi SE Cfs Subset Eval Chi Squared Consistency Subset Eval Gain Ratio Attribute Eval info Gain Attribute Eval OneRAttributeEval Principal Co
31. cooccccccnnnnnnonannncncnnnnnnnnononnnnnnnnnnnnnnnnnnnnonnnnnnnnnannnncnnnnaninoss 22 ilustracion 24 Operacion ets Subset EV aa 23 Ustracion 25 operaci n ch Sadar eO osie e id 24 Ilustraci n 26 operaci n consistency subset eval cccccccccnccnccnnnnnnnnnnnnonnnnononononanonannnancnnnnnnnnoss 25 Ilustraci n 27 operaci n gain ratio attribute eval occcccccccncnnnnnnnnnnnnnononononnnnnnnnnannnncnccncnannnoss 26 Ilustraci n 28 operaci n One R attribute eval oonnnnnnnnccccnnnnnnnnnnnnnnnnnonnnnnonnnnnnnnnnannncncncnnnnanoss 27 Ilustraci n 29 operaci n principal COMPONENTS oooooconcnoncncncnnnnnnnnnnnnnnnonnnnnnnononononnnnnnnnnannncrcnnnnnnoss 28 l stracion 0 Operacion creat Taker add 29 Ilustraci n 31 visor naive DayesS iiinn ei aain AEE Ain ana adra TN ASANA 31 l stracion 32 visor K NearestNelenbOoresdns oia A a 32 Ilustraci n 33 visor Cost Support Vector Machine essesssssssserressesssssrrrrereessssserrreeeesssssrrrrereesssees 33 Ilustraci n 34 visor nu Support Vector Machine ooooonnnnnoncccncnnnnnnnnnnnnnnnnnonnnonnononnnnnnnananancnncnnnonoos 34 Ilustracion 35 VISOr KenellINS alma 35 Ilustraci n 36 visor kernel polinomial ooooocononcnnnncncnnnnnnnnonnnnnnnnonnnnnnonnnnonononnnnnnnnnncnncncnnnnonoss 36 Ustraci on 37WisSoOr kernel 37 Ilustraci n 38 visor kernel sigmoidal oooococnoononoonnocncnonononcnnonnnnnnnnnnnnnonnnnnononnnanananancnncncnnnnnnnss 38 Ilustraci n 39 vista general
32. e corresponde con el corpus que se utilizar a como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual e Select OUTPUT train sparse matrix Representa el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro e Select OUTPUT test sparse matrix Representa el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro e Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff e Ranker Dado que el filtro necesita establecer un rango de valores aceptados por el usuario a trav s de esta opci n el usuario puede seleccionar uno creado con anterioridad o servirse del men contextual para generar uno nuevo 2 3 8 OPERACI N ONE R ATTRIBUTE EVAL La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo One R attribute Eval Este eval a el peso de cada atributo utilizando el algoritmo One R Una vez obtenidos los valores de cada atributo se ENI 294 BioClass Rub n Romero Gonz lez aplica un Ranker reduciendo el conjunto inicial Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original Esta operaci n se encuentra disponible dentro del Submenu Attribu
33. e introducir valores incorrectos se notifica al usuario 13 14 MANUAL DE USUARIO Operaciones disponibles en bioclass 2 2 5 KERNELS PARA M QUINAS DE SOPORTE VECTORIAL Las M quinas de Soporte Vectorial utilizan funciones Kernel para trasladar los vectores representativos de cada instancia al espacio de caracter sticas La calidad de la SVM vendr caracterizada por la parametrizaci n y tipo de kernel pues influir de directamente los modelos de resoluci n lineal a aplicar BioClass soporta varios tipos de Kernel Lineal Polinomial Radial o Sigmoidal El usuario debe tener en cuenta cada uno de los par metros de los que disponen los Kernels para afinar al m ximo la SVM El acceso al Submen de Kernels se pude observar a trav s de la siguiente imagen Classification Create Model Support Vector Machine gt Cost Support Vector Machine Train Model K Nearest Neighbor Nu Suppon Vector Machine Test Model Naive Bayes Linear Kernel Polynomial Kernel Radial Basis Function kernel Sigmoid Kernel ILUSTRACI N 11 SUBMENU KERNELS 2 2 5 1 CREAR KERNEL LINEAL Esta operaci n permite crear un Kernel Lineal para una Support Vector Machine bas ndose en la siguiente ecuaci n Kernel u v u v Los par metros u y v representaran cada una de las instancias pertenecientes al Corpus Una vez seleccionada la opci n desde del Submen se lanza la siguiente ventana
34. e par metro representa a la variable Coef perteneciente a la ecuaci n del Kernel Solamente se permiten valores flotantes 2 2 6 ENI 294 BioClass Rub n Romero Gonz lez mayores o iguales a 0 0 En caso de no supeditarse a las restricciones se mostrar una ventana informativa ENTRENAR MODELO La operaci n de Entrenar modelo Train Model a la cual se puede acceder desde el grupo de Clasificaci n permite entrenar un modelo de razonamiento creado con anterioridad sobre un conjunto de datos determinado Este ltimo tambi n debe cargarse mediante la opci n correspondiente en el Men Corpus Una vez seleccionada la opci n del men se lanza la siguiente interfaz Train Model Train a created model Select a TRAIN sparse matrix o e a ILUSTRACI N 16 ENTRENAR UN MODELO Como se puede ver en la imagen la operaci n dispone de dos par metros definidos Veamos el significado con m s detenimiento 2 2 7 Select a TRAIN sparse matrix A trav s de este par metro el usuario puede seleccionar entre los distintos corpus cargados con anterioridad para utilizar como conjunto de entrenamiento Cada uno de ellos se encuentra como se ha comentado en el Panel del Clipboard En caso de no disponer de ning n conjunto de datos cargado previamente se puede optar por hacerlo a trav s de las opciones del Men Corpus o usando el acceso directo que se encuentra a la derecha del desplegable Select a model Al igua
35. e verificaci n de los mismos en el cual si se produce alg n error se notificar mediante una ventana informativa ENI 294 BioClass Rub n Romero Gonz lez 3 1 1 VISOR NAIVE BAYES Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un modelo Naive Bayes El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard es decir es necesario seleccionar un objeto del tipo Naive Bayes para que se cargue el visor A continuaci n se muestra una imagen de dicho visor Options Help Classifier Name INaiveBayes_nb1 SYNOPSIS Class for a Naive Bayes classifier using estimator classes Numeric estimator precision Use supervised discretization Ly values are chosen based on analysis of the training data For this reason the classifier C is not an UpdateableClassifier which in typical usage are initialized with zero training Use kernel estimator instances For more information on Naive Bayes classifiers see George H John Pat Langley Estimating Continuous Distributions in Bayesian Classifiers In Eleventh Conference on Uncentainty in Artificial Intelligence San Mateo 338 345 1995 OPTIONS N Use hernel estimator Use a kernel estimator for numeric attributes rather than a normall distribution Use supervised discretization Use supervised discretization to convert numeric attributes to nominal ones Update
36. el Panel del Clipboard Para ello es necesario seleccionar cualquier elemento de tipo matriz Previo a una explicaci n de la interfaz se muestran a continuaci n unas vistas generales de la misma com x L Ranged Att name ES Filter Reset Remove Export Instances Attributes j _Y No pa Selected _ _PMID _Relevant _ O hal 13 00 Ly E w 1200 l w 2 100 Summary Total Documents 3 Total Attributes 5 Total of Relevant Documents 1 Total of No Relevant Documents 2 l Sparse Matrix Viewer ILUSTRACION 39 VISTA GENERAL VISOR MATRIZ DE DISPERSION INSTANCIAS coni x f Ranged zj Att name v Filter Reset Remove Export Instances Attributes r A T Selected Attribute Y No J Selected Name iig no z o 1 VAKT Statistic Value d 2 Q JaP 1_ 3 l Abeta VI Plot type Bar plot Export I Sparse Matrix Viewer ILUSTRACI N 40 VISTA GENERAL VISOR MATRIZ DE DISPERSI N ATRIBUTOS 39 40 MANUAL DE USUARIO Visores Como se puede ver en las ilustraciones la interfaz cuenta con varios paneles de funcionamiento e Barra de botones Esta barra permite al usuario manipular los datos contenidos dentro de la matriz Desde aqu se pueden realizar acciones de filtrado eliminaci n reinicio o exportaci n de los datos actuales e Panel de d
37. elegir entre dos tipos de salida CSV y Arff Por defecto el formato se ha preestablecido a Arff 2 3 2 OPERACI N DE RESAMPLING La operaci n de Re muestreo Resampling combina las t cnicas de Sub muestreo y Sobre muestro de modo que permite al usuario redistribuir las instancias pertenecientes a cada una de las clases hasta conseguir una distribuci n binomial entre ambas Veamos la interfaz de usuario que se presenta al seleccionar la operaci n A esta se puede acceder a trav s del Submen Instances y perteneciente al grupo de Filtrado Resampling xX Produces a random resample of a dataset This operation includes a mix among Oversampling and Subsampling at the same time Input Sparse matrix E tc Output Sparse matrix q Make a bias to uniform class 0 0 Float values between 0 0 to 1 0 e value equal to 1 0 means a binomial distribution Invent selection No replacement Random Seed 1 Integer values greather than 1 Sample size percent 100 0 Float values between 0 0 to 100 0 Output format Files art v Cancel ILUSTRACI N 22 OPERACI N RESAMPLING e Input Sparse Matrix usando el desplegable el usuario puede seleccionar entre los corpus que han sido cargados en la aplicaci n Este corpus se utilizar como conjunto de datos a ser filtrado Mencionar que se puede utilizar el men contextual disponible a la derecha del desplegable para carga
38. er ejecutar la aplicaci n son los siguientes Requisitos Hardware CPU 400 MHz o superior recomendable 1 5GHz El tipo de procesador es indiferente Lo nico necesario es que exista una distribuci n de la M quina Virtual Java para dicho procesador 512 MB recomendable 1GB 3 MB libres sin JRE TABLA 1 REQUISITOS HARDWARE Requerimientos Software Sistema operativo Cualquier sistema operativo para el que se exista una M quina Virtual Java M quina Virtual Java Java SE 6 0 o superior http java sun com TABLA 2 REQUISITOS SOFTWARE Los pasos para la instalaci n y puesta en marcha se detallan a continuaci n 1 Copiar el contenido de la carpeta BioClass a una carpeta en el disco duro El contenido de esa carpeta es el siguiente e conf Contiene los archivos de configuraci n de AlBench e lib Contiene todas las librer as usadas para el desarrollo del proyecto e plugins bin Contiene los archivos jar del proyecto e plugins src Contiene el c digo fuente del proyecto e Resto de ficheros para su correcto funcionamiento entre los cuales se encuentran lanzadores para los distintos sistemas operativos 2 Para la puesta en marcha se debe ejecutar el archivo run bat si el usuario se encuentra en un sistema operativo tipo Windows o run sh en caso de Unix Una vez el usuario lanza la aplicaci n se mostrar una imagen de precarga Durante este proceso se verifica el buen funcionamiento de la aplicaci n
39. este par metro sustituir al Gamma existente en la ecuaci n del Kernel Solamente se permiten valores flotantes mayores o iguales a 0 0 En caso de no supeditarse a las restricciones se mostrar una ventana informativa e Coeficient to use El valor de este par metro representa a la variable Coef perteneciente a la ecuaci n del Kernel Solamente se permiten valores flotantes mayores o iguales a 0 0 En caso de no supeditarse a las restricciones se mostrar una ventana informativa e Degree value to use Valor del par metro Degree que ser sustituido en la ecuaci n del Kernel Solamente se permiten valores enteros mayores o iguales a O En caso de no supeditarse a las restricciones se mostrar una ventana informativa 2 2 5 3 CREAR KERNEL CON BASE RADIAL Esta operaci n permite crear un Kernel de base radial o RBF para una Support Vector Machine Este se basa en la siguiente ecuaci n z Jio Kernel u v e790mma uv Los par metros u y v representan cada una de las instancias pertenecientes al Corpus Veamos el resto de par metros una vez seleccionada la operaci n desde el Submen 15 16 MANUAL DE USUARIO Operaciones disponibles en bioclass Radial Basis Function kernel creates a Radial Basis Function kernel using the following equation exp qamma u 442 Kernel name LeMykernel Gamma value to use lo Float values greather or equal to 0 0 ILUSTRACI N 14 CREAR KERNEL RADIAL e Kernel name Se
40. filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo Chi Squared Este eval a cada atributo mediante el c lculo del valor estad stico Chi cuadrado con respecto a la clase Una vez obtenidos los valores de cada atributo se aplica un Ranker reduciendo de este modo el conjunto inicial Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original Esta operaci n se encuentra disponible dentro del Submenu Attributes el cual se encuentra contenido dentro Men de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles 23 24 MANUAL DE USUARIO Operaciones disponibles en bioclass 2 3 6 Chi Squared Evaluates the warth of an attribute by computing the value of the chi squared statistic with respect to the class Select INPUT train sparse matrix Select INPUT test sparse matrix Select OUTPUT train sparse matrix select OUTPUT test sparse matrix Output format Files Select a ranker ILUSTRACI N 25 OPERACI N CHI SQUARED Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de entrenamiento Usando el desplegable el usuario podr seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de testeo Usando el desp
41. filtro necesita establecer un rango de valores aceptados por el usuario a trav s de esta opci n el usuario puede seleccionar uno creado con anterioridad o servirse del men contextual para generar uno nuevo OPERACI N PRINCIPAL COMPONENTS La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo Principal Components Este realiza un an lisis de 27 28 MANUAL DE USUARIO Operaciones disponibles en bioclass componentes principales generando un nuevo conjunto de datos m s reducido y con pesos asociados Una vez acabado el proceso se aplicar un Ranker reduciendo el conjunto en funci n de los umbrales establecidos Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original Esta operaci n se encuentra disponible dentro del Submenu Attributes el cual se encuentra contenido dentro Menu de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles Principal Components Performs a principal components analysis and transformation of the data Select INPUT train sparse matrix Select INPUT test sparse matrix Select OUTPUT train sparse matrix Select OUTPUT test sparse matrix Output format Files Select a ranker ILUSTRACI N 29 OPERACI N PRINCIPAL COMPONENTS e Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de entrenamiento
42. iaues greather or equal to 0 0 Degree dnteger gt 0 3 Coeficient to use coef corresponds to coef parameter in the ecuation Float viaues greather or equal to 0 0 Degree value corresponds to degree parameter in the ecuation Integer viaues greather or equal to 0 f Update Reset Polynomial kernel Viewer ILUSTRACI N 36 VISOR KERNEL POLINOMIAL Como se puede observar en la imagen el visor presenta las mismas opciones que se pod an configurar mediante la operaci n Crear Kernel Polinomial ENI 294 BioClass Rub n Romero Gonz lez 3 1 7 VISOR KERNEL RADIAL Utilizando este visor el usuario puede modificar y visualizar los par metros asociados a un Kernel Radial El proceso de visualizaci n viene determinado por el proceso de interacci n del usuario con el Panel del Clipboard Es decir es necesario seleccionar un objeto del tipo Kernel Radial para que se cargue el visor A continuaci n se muestra una imagen de dicho visor a Options Help Kernel Name RBF _radial1 lit is a Radial kernel which is compouned by the following Sa 7 lequation exp gamma Ju 442 Gamma value Foat gt 0 0 0 0 Gamma value corresponds to gamma parameter in the lecuation Float viaues greather or equal to 0 0 Update Reset L Radial kernel Viewer ILUSTRACI N 37 VISOR KERNEL RADIAL Como se puede observar en la imagen el visor presenta las mismas opciones que
43. l que en el par metro anterior este tambi n se presenta como un desplegable desde el cual se puede seleccionar un Modelo de razonamiento creado con anterioridad Este modelo ser entrenado en base al corpus seleccionado como par metro en el paso anterior TESTEAR MODELO La operaci n de testeo del modelo permite clasificar un corpus secundario en funci n del conjunto de entrenamiento sobre el cual se entren el modelo de razonamiento Al igual que Entrenar modelo Train Model Testear modelo Test Model forma parte de las operaciones englobadas bajo el Grupo de clasificaci n Por tanto se podr acceder a ella a trav s de dicho Men Una vez seleccionada la operaci n se presentar al usuario la siguiente ventana 17 18 MANUAL DE USUARIO Operaciones disponibles en bioclass Test Model Test atrained model Select a TEST sparse matrix po TF Select a trained model OOo F ILUSTRACI N 17 TESTEAR MODELO Como se puede ver en la imagen la operaci n dispone de dos par metros definidos Veamos el significado con m s detenimiento e Select a TEST sparse matrix Usando este desplegable el usuario puede seleccionar entre los corpus que han sido cargados en la aplicaci n Este corpus se utilizar como conjunto de datos a ser clasificado Mencionar que se pude utilizar el men contextual disponible a la derecha del desplegable para cargar nuevos Corpus e Select a trained model Este par metro permite sele
44. legable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select OUTPUT train sparse matrix Representa el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro Select OUTPUT test sparse matrix Representa el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff Ranker Dado que el filtro necesita establecer un rango de valores aceptados por el usuario a trav s de esta opci n el usuario puede seleccionar uno creado con anterioridad o servirse del men contextual para generar uno nuevo OPERACI N CONSISTENCY SUBSET EVAL La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo Consistency Subset Eval Este eval a el conjunto de atributos original en funci n de la coherencia de valores existentes en la clase descartando aquellos que aporten poco valor a la misma Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original ENI 294 BioClass Rub n Romero Gonz lez Esta operaci n se encuentra disponible dentro del Submenu Attributes el cual se encuentra contenido dentro Men de Filtrado A continuaci n se muestra u
45. mponents Ranker a e Operations Sets b bi E e ILUSTRACI N 20 SUBMEN FILTRADO DE ATRIBUTOS 2 3 1 OPERACI N DE SUBSAMPLING La operaci n de Sub muestreo Subsampling permite realizar una redistribuci n del n mero de instancias pertenecientes a cada una de las clases El proceso podr disminuir los documentos pertenecientes a la clase mayoritaria en funci n de la envergadura de la minoritaria Este tipo de algoritmos s lo puede aplicarse a conjuntos de Corpus que vayan a servir de conjunto de entrenamiento para un clasificador La operaci n se encuentra accesible a trav s del Submen Instances dentro del grupo Filtering A continuaci n se muestra la ventana de configuraci n Subsampling Produces a random subsample of a dataset Input Sparse matrix DA Output Sparse matrix Adjust Weights Distribution spread loo Values greather than 0 0 i e value equal to 10 means 10 1 ratio between the classes Maxcount 00 Maximum count for class Float values greather than 0 0 Random Seed 1 Imegervalues greather than 1 Output format Files ILUSTRACI N 21 OPERACI N SUBSAMPLING e Input SparseMatrix usando el desplegable el usuario podr seleccionar entre los corpus que han sido cargados en la aplicaci n Este corpus se utiliza como conjunto de datos a ser filtrado Mencionar que se puede utilizar el men contextual disponible a la derecha del desplegable para cargar
46. na instant nea de las opciones disponibles 2d Consistency Subset Eval Evaluates the worth of a subset of attributes bythe level of consistency in the class values when the training instances are projected onto the subset of attributes select INPUT train sparse matrix Select INPUT test sparse matrix Select OUTPUT train sparse matrix Select OUTPUT test sparse matrix Output format Files ILUSTRACI N 26 OPERACI N CONSISTENCY SUBSET EVAL Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de entrenamiento Usando el desplegable el usuario podr seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select OUTPUT train sparse matrix representar el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro Select OUTPUT test sparse matrix representar el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff OPERACI N GAIN RAT
47. nar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select OUTPUT train sparse matrix representar el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro Select OUTPUT test sparse matrix representar el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff OPERACI N CFS SUBSET EVAL La siguiente operaci n permite al usuario realizar un filtrado de atributos sobre un conjunto de datos haciendo uso del algoritmo Cfs Subset Eval Los atributos seleccionados se eval an teniendo en cuenta la capacidad predictiva de cada uno de ellos y su grado de redundancia com n Por consiguiente se consigue un subconjunto final que poseer un nivel expresivo similar al original Esta operaci n se encuentra disponible dentro del Submenu Attributes el cual se encuentra contenido dentro Men de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles 2 3 5 ENI 294 BioClass Rub
48. nsiderado solamente la carga de datos a partir de ficheros de texto plano Es por ello que s lo se ha incluido una operaci n Cargar corpus desde fichero Load corpus from file La siguiente imagen muestra una instant nea de dicho men Load corpus from file ILUSTRACI N 3 MEN GRUPO CORPUS 2 1 1 CARGAR CORPUS A PARTIR DE FICHERO El conjunto de datos representa los documentos que se desean procesar a trav s de la aplicaci n BioClass Soporta matrices de dispersi n de datos como medio representativo en formato CSV o Arff siendo este ltimo formato propio de la API de Weka Este proceso de operaci n se lleva a cabo mediante la opci n de men Load corpus from file Una vez seleccionada se muestra la siguiente interfaz Load corpus from file Load a corpus from a Sparse Matrix Matrix Name e My Corpus Sparse Matrix File PMID Identifier Attribute FMID Case sensitive Has PMID identifier OK Cancel ILUSTRACI N 4 INTERFAZ CARGAR CORPUS ENI 294 BioClass Rub n Romero Gonz lez Como se puede observar la ventana de operaci n presenta diferentes opciones de configuraci n Veamos con m s detenimiento cada una de ellas e Matrix Name Representa el nombre mediante el cual se visualizar el Corpus en el rbol Clipboard sirviendo como identificador del mismo ante operaciones y visores e Sparse Matrix File Este par metro contiene la ruta al conjunto de datos que se desea procesar Actualmen
49. nuevos Corpus 19 20 MANUAL DE USUARIO Operaciones disponibles en bioclass e Output Sparse Matrix Este par metro representa el fichero de datos en el cual se escribir el corpus una vez filtrado Es decir ser el dato de salida de la operaci n e Adjust Weights El ajuste de pesos permite al filtro redistribuir el peso global de las clases entre cada una de las instancias que la conforman Por tanto se ha de tener especial cuidado en su utilizacion ya que podr a ocasionar un incremento del error e Distribution spread A trav s de este par metro se podr establecer la distribuci n del n mero de instancias pertenecientes a cada una de las clases Un valor igual a 10 equivaldr a a establecer una distribuci n 10 a 1 teniendo en cuenta que la clase mayoritaria seria 10 veces mayor a la otra La restricci n de valores queda supeditada a mayores o iguales a 0 0 No obstante si el usuario selecciona un valor igual a 0 0 el filtro no afectar a a los datos e Max count Mediante este par metro se especifica el n mero m ximo de instancias por clase La restricci n de valores queda supeditada a mayores o iguales a 0 0 Un valor igual a 0 0 implica ilimitado e Random Seed Dado que el proceso de eliminaci n de instancias se realiza de forma pseudo aleatoria valores pertenecientes a este par metro servir n como semilla para la generaci n de los n meros de instancias que se desechar n e Output format files Permite
50. os documentos relevantes y no relevantes Summary Total Documents 3 Total Attributes 5 Total of Relevant Documents 1 Total of No Relevant Documents 2 ILUSTRACI N 43 SUMARIO DE MATRIZ 41 42 MANUAL DE USUARIO Visores 3 2 3 PANEL DE DATOS ATRIBUTOS La segunda parte del parte del panel de datos esta reservado a los atributos relevantes a cada documento Al igual que el panel de Instancias este tambi n posee varias secciones bien diferenciadas Ilustraci n 44 tabla de atributos Ilustraci n 45 tabla de estadisticos por atributo e Ilustraci n 46 gr ficas de atributo Veamos detenidamente cada una de esas ilustraciones junto con una explicaci n de cada una de las opciones que ofrece _Y No Selected Name ti p JAKT 2 AP 1 3er ILUSTRACI N 44 TABLA DE ATRIBUTOS e No indica el n mero de instancia a mostrar seg n el orden de la matriz de dispersi n e Selected permite al usuario seleccionar aquellos atributos en los cuales este interesado en realizar alguna acci n como por ejemplo eliminarlos e Name Representa el nombre del atributo en cuesti n En este caso concreto la tabla de atributos se encuentra ntimamente ligada a la tabla de estad sticos pues el usuario puede seleccionar un atributo en la primera para que se muestren los estad sticos de este en la segunda Statistic i Value Minimum 0 0 Maximum 10 776 Mean 0 463 y s
51. r nuevos Corpus 2 3 3 ENI 294 BioClass Rub n Romero Gonz lez Output Sparse Matrix Este par metro representa el fichero de datos en el cual se escribir el corpus una vez filtrado Es decir ser el dato de salida de la operaci n Make a bias to uniform class A trav s de este par metro se puede establecer la distribuci n del n mero de instancias pertenecientes a cada una de las clases Un valor igual a 1 0 equivaldr a a establecer una distribuci n binomial entre las dos clases La restricci n de valores queda supeditada entre 0 0 y 1 0 Si el usuario selecciona un valor igual a 0 0 el filtro no afectar a a los datos Invert selection Si el usuario activa esta opci n el filtro invierte el proceso de selecci n que se utiliza como base para redistribuir el n mero de instancias de las clases Este par metro s lo es efectivo si no se produce reemplazo No replacement Este par metro deshabilita el reemplazo de las instancias en el proceso de redistribuci n Random Seed Dado que el proceso de eliminaci n de instancias se realiza de forma pseudo aleatoria los valores pertenecientes a este par metro servir n como semilla para la generaci n de los n meros de instancias que se desechar n Sample size percent Este par metro permite al usuario establecer el porcentaje de la muestra sobre la que se trabajar La restricci n de valores queda supeditada entre 0 0 y 100 0 El valor por defecto se encuentra establecido
52. rado TABLA DE ILUSTRACIONES ustracionii pantalla de cata oi 6 UStrACION Zimmern iz con o 7 ll straci on MENUDO CAUSA adi 8 Ilustraci n 4 interfaz Cargar COrPUS ccccoocccnnnnnnnonnnnncononnnnnononnnnnnnnnnnnnnnnnonnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnoss 8 Ustracion S menu clasificaci n PARC desidia 9 Ilustraci n 6 men Creaci n de modelos de razonamiento cccccccccccnnnnnanonnnnnncnnnnnnnnnonononnnononoss 9 Ustracion crear modelo Nit 10 ilustraci n 8 Crear modelo Naive DaVes ci id 11 lustraci n 9 crear modelo Cost SVM huisen a lord 11 l straciom tO crear modelo M ssiMs aia I 13 ll straci nm 11 submenu kernels ocio 14 Ilustracion 12 crear kernellineakosnisnisnisineeniin aea a aaa i 14 ilustracion 13 crear kernel polinomial dado 15 lustracion 14 crear kernelitadila a a A E ia 16 Ilustraci n 15 crear kernel sigmoidal oooooocooononcanoconcnonononnnnnnnnnnnnnnnnnnonnnnnnononnnnnnananconcrcnnnnonoss 16 llustracion 16 entrenar UN Mode ini iio 17 Uustracion testear model ica ar ada 18 lastracion te menu tad dia 18 Ilustraci n 19 submen filtado de instancias ooooncnnnnnncnnnonnnnnnnnnnnnnnnononnnnnonononononnnnnnnnancncnnnnonoss 19 Ilustraci n 20 submen filtrado de atributoS oooccnnnnnncnnnonnnnnnnnnnnononnnnnnonononnononnnannnannncncrcnnnnnnoss 19 llustraci n 21 operaci n SUBS IMPINE Sri aa 19 Ustracion 220peraci n Fes amplN8 ancianidad 20 Ilustraci n 23 operaci n de CONJUNTOS c
53. rafico asociado a los datos el cual si se desea se puede exportar La opciones gr ficas por tanto ser an las siguientes Combinando los dos desplegables del mismo tipo el usuario puede TP Rate A e establecer los datos que utilizan en los ejes de coordenadas Mencionar L que los estad sticos se encuentran separados por clase haciendo uso del siguiente nemot cnico Estad stico CLASE Este bot n permite exportar el gr fico actual a un fichero de imagen Los formatos soportados son PNG y JPEG ENI 294 BioClass Rub n Romero Gonz lez 4 ESCENARIOS En esta secci n se han recogido escenarios de uso de la aplicaci n Se ha dividido en dos subsecciones las cuales tratar situaciones espec ficas acerca de la utilizaci n de BioClass La finalidad de esta peque a gu a es servir como introducci n al uso de la aplicaci n pudiendo el usuario servirse de los ejemplos propuestos y crear los suyos propios 4 1 ESCENARIO DE CLASIFICACI N La Ilustraci n 51 muestra un escenario de uso de la herramienta BioClass en la cual se lleva a cabo un proceso completo de clasificaci n A continuaci n se detallan cada uno de los pasos que se han llevado a cabo 1 2 3 4 5 6 Cee 2 2 ws ILUSTRACI N 51 ESCENARIO DE CLASIFICACI N Cargar corpus de entrenamiento A trav s de la operaci n Load corpus from file del men Corpus se ha cargado el conjuntos de datos de entrenamiento Cre
54. s 0 0 0 0 Mean absolute error 0 020 Root mean squeared error 0 031 Relative absolute error 4 456 Root relative squared error 6 516 _ Class TP Rate FP Rate Precision Recall F MeasurgROC Area Relevan 1 ol 1 H 1 1 1 95 Non Rel 1 ol 1 1 1 1 1 95 i ILUSTRACI N 50 SUMARIO DE RESULTADOS Y GR FICAS Seg n la ilustraci n la parte izquierda mostrar a los siguientes estadisticos e Total documents indica el n mero total de documentos contenidos en el corpus e Total Attributes indica el n mero total de atributos que contiene el corpus e Correctly Classified Instances n mero y porcentaje entre par ntesis de instancias correctamente clasificadas e Incorrectly Classified Instances n mero y porcentaje entre par ntesis de instancias incorrectamente clasificadas e Mean absolute error indica el error medio absoluto e Root mean squared error indica el error cuadr tico medio e Relative absolute error indica el error absoluto relativo e Root relative squeared error indica el error cuadr tico relativo e Tabla de estad sticos por clase Indica los estad sticos m s utilizados en los procesos de clasificaci n organizados por clase TP Rate Porcentaje de verdaderos positivos FP Rate Porcentaje de verdaderos negativos Precision Recall F Measure y Area ROC La parte derecha en cambio permite al usuario combinar los distintos estad sticos de cada clase para generar un g
55. tdDev 10 409 v ariance 0 167 ILUSTRACI N 45 TABLA DE ESTADISTICOS POR ATRIBUTO Como se puede ver en la ilustraci n de estad sticos se han recogido aquellos m s conocidos y relevantes para este tipo de estudio M nimo M ximo Media Desviaci n t pica y Varianza Por ltimo el panel de atributos tambi n dispone de una secci n destinada a la generaci n de gr ficas Esta permite al usuario observar los experimentos desde una perspectiva m s visual e intuitiva La siguiente imagen muestra como se ver a dicha secci n ENI 294 BioClass Rub n Romero Gonz lez Plot type Bar plot Ed Export A 0 64 0 91 1 13 ILUSTRACI N 46 GR FICAS DE ATRIBUTO El desplegable permitir seleccionar el tipo de grafico que se desee Bar plot mostrar Actualmente est n soportados los gr ficos de barras y dispersi n Export Este bot n permite exportar el gr fico actual a un fichero de imagen Los formatos soportados son PNG y JPEG 43 44 MANUAL DE USUARIO Visores 3 3 VISOR DE RESULTADOS DE CLASIFICACI N Se ha creado un visor asociado a la salida de un clasificador Del mismo modo que se han lanzado otros visores este se ejecuta de la misma manera Bastar con seleccionar un elemento de tipo resultado sobre el Panel del Clipboard La siguiente ilustraci n muestra una visi n general del panel de resultados Naive NaiveBayes_nbl Knn_knn1 Svm_nul Svm_costl Real y
56. te est n soportados dos tipos de formato CSV y Arff Tal como se ha mencionado el sistema es capaz de distinguir el tipo de fichero por el contenido del mismo e PMID Identifier Attribute El corpus de datos al estar formado por atributos Palabras e instancias Documentos en algunos casos se necesita identificar cada uno de los documentos a trav s de un atributo clave En el caso de los documentos Medline se utiliza el PMID Este campo recoge el nombre de dicho identificador e Has PMID Identifier Este par metro es sumamente importante si se desea especificar un identificador de documento En caso de haberse seleccionado el algoritmo de carga tiene en cuenta el contenido del par metro PMID Identifier Attribute y lo utiliza como clave En caso de que el atributo no se encuentre contenido en el conjunto de datos se notifica al usuario de la no existencia a trav s una ventana informativa 2 2 GRUPO CLASIFICACI N A trav s del grupo de clasificaci n el usuario puede realizar tareas relacionadas con la creaci n de modelos de razonamiento entrenamiento o testeo BioClass soporta el diferentes clasificaciones K vecinos m s pr ximos Naive Bayes o dos implementaciones diferentes de Maquinas de Soporte Vectorial SVM Las opciones principales disponibles bajo el Men de clasificaci n se muestran a Classification Create Model Train Model Test Model ILUSTRACI N 5 MEN CLASIFICACI N PRINCIPAL continuaci n
57. tes el cual se encuentra contenido dentro Men de Filtrado A continuaci n se muestra una instant nea de las opciones disponibles 2 3 9 OneRAttributeEval Evaluates the worth of an attribute by using the OneR classifier Select INPUT train sparse matrix Select INPUT test sparse matrix Select OUTPUT train sparse matrix Select OUTPUT test sparse matrix Output format Files Select a ranker ILUSTRACI N 28 OPERACI N ONE R ATTRIBUTE EVAL Select INPUT train sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de entrenamiento Usando el desplegable el usuario podr seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select INPUT test sparse matrix Este par metro se corresponde con el corpus que se utilizar a como conjunto de testeo Usando el desplegable el usuario puede seleccionar entre los corpus existentes en la aplicaci n o cargar uno nuevo usando el men contextual Select OUTPUT train sparse matrix Representa el fichero que se crear como nuevo corpus de entrenamiento una vez aplicado el filtro Select OUTPUT test sparse matrix Representa el fichero que se crear como nuevo corpus de testeo una vez aplicado el filtro Output format files El usuario puede seleccionar mediante el desplegable el tipo de fichero de salida CSV o Arff Por defecto el formato se ha preestablecido a Arff Ranker Dado que el
58. trado a la vez que activa el segundo campo de texto ENI 294 BioClass Rub n Romero Gonz lez 3 2 2 PANEL DE DATOS INSTANCIAS El panel de instancias se encuentra dividido en dos secciones una tabla que recoge las instancias existentes de la matriz de dispersi n y otra que muestra un resumen estad stico Veamos con detenimiento la primera tal y como se muestra en la siguiente ilustraci n Y No Selected T PMID Relevant ol m 300 ll pi m 200 m 2 100 iz ILUSTRACI N 42 TABLA DE INSTANCIAS La tabla dispone de varias caracter sticas importantes pues permite ordenar las tuplas por orden ascendente o descendente como tambi n seleccionar aquellas de deseen desechar e No indica el n mero de instancia a mostrar seg n el orden de la matriz de dispersi n e Selected permitir al usuario seleccionar aquellas instancias en las cuales este interesado en realizar alguna acci n como por ejemplo eliminarlas e PMID En caso de haber cargado el corpus especificando el par metro de identificaci n de documento se a adir a la tabla y al desplegable de filtrado pudiendo operar sobre ello El nombre del identificador variar en funci n del que se haya especificado e Relevant Indicar la relevancia de esa instancia en relaci n al corpus La segunda secci n del panel como se coment muestra un peque o resumen estad stico de la matriz de dispersi n a saber N mero de documentos atribut
59. tu edu tw cjlin libswn Cost Float values gt 0 0 11 0 OPTIONS Cost to use The cost parameter C Float values greather than 0 0 Tolerance of Termination The tolerance of the termination criterion Kernel Type Kernel type to use is possible to select between Linear Popimomial RBF or Sigmoid lt must be instanciated in a previous step Normalize Whether to normalize the data Probability Estimates Whether to generate probability estimates instead of 1 1 for classification problems Shrinking Whether to use the shrinking heuristic 1 Update Reset Cost Svm Classifier Model Viewer ILUSTRACI N 33 VISOR COST SUPPORT VECTOR MACHINE Como se puede observar en la imagen el visor presenta dos tipos de opciones generales y especificas Esto es debido a que BioClass soporta m ltiples tipo de SVMs sobre la misma API Aun as estas no dejan de corresponderse con las que se pod an configurar mediante la operaci n de creaci n En este caso particular se han a adido dos botones New y Edit asociados al par metro Kernel Type e Bot n New Haciendo uso de este bot n el usuario puede crear nuevos Kernels pues enlazan directamente con las operaciones disponibles a trav s de los men s e Boton Edit Este bot n lanza el visor asociado al tipo de Kernel seleccionado en el desplegable que se encuentra a su derecha 2 2 1 33 34 MANUAL DE USUARIO Visores 3 1 4 VISOR NU SUPPORT VE
60. y el estado de los plugins actuales Dado que AlBench es un Framework basado en plugins uno de ellos es BioClass MANUAL DE USUARIO Instalaci n y puesta en marcha Initializing plugins ILUSTRACI N 1 PANTALLA DE CARGA Una vez finaliza la carga de m dulos se mostrar la ventana principal de la aplicaci n 1 1 ASPECTOS GENERALES DE LA INTERFAZ El Framework de AlBench permite configurar la disposici n de las ventanas de acci n en funci n de los deseos de desarrollador Para este caso particular se ha reducido el n mero de las mismas mostrando una visi n m s clara de los datos a mostrar Como se puede ver en la llustraci n 2 la interfaz est formada por la Barra de Men s el Panel del Clipboard el Panel de log y el Panel de resultados Veamos m s detenidamente cada uno de los componentes de la Interfaz principal e La Barra de men s permite acceder a cada una de las operaciones disponibles en Bioclass cargar datos filtrarlos o clasificarlos en funci n de los deseos del usuario e El Panel del Clipboard contiene los elementos generados o utilizados por las operaciones es decir representa los datos a procesar por cada uno de los algoritmos Tambi n sirve como medio de lanzamiento de las vistas asociadas a datos e El Panel de resultados muestra las vistas asociadas a un determinado tipo de dato El proceso de Visualizaci n es sencillo basta con seleccionar el elemento que se desee visualizar en el Arbol
Download Pdf Manuals
Related Search
Related Contents
VSX-420-S/-K - Vandenborre 2014 Sistema de navegação Chevrolet Cruze M User Manual Gunnar Optiks RPG C.A.S. - Thitronik GmbH Buscador de Orina Mini LED Urine-Off (Luz Negra Ultra Regulamento dos Quartéis de Santa Justa Copyright © All rights reserved.
Failed to retrieve file