Home

DESARROLLO DE PLUGIN PARA EL ANÁLISIS DE DATOS

image

Contents

1. 4 4 1 1 B3np SAM ies A MAA IA AAA AA 4 4 1 2 A A Wee F A IS 5 4 1 3 Pool info configuration file Configuration for pool data oconcocanancncnnnconononnnnnnnonananannnnn nennen nennen nennen 5 cr MENS icio a ep gb r cata EE 6 4 2 1 Target regions Ded o AAA 6 4 2 2 UDSNP database AAA 6 SEES Sr oclo eMe PP ORE 6 5 1 SNVerGUI for qiii le ee a a tit 6 5 1 1 Los DUO ion tio is idas 6 5 1 2 Parameter Setting More Options atico 6 5 1 3 III ri E EE E EEE AE 7 5 2 SNVerGUI for Pooled fis cl 1 Se eh on he 8 5 4 1 dong n PTT hv 8 5 2 2 Parameter Setting More Options is 9 5 2 3 Output RA A 9 Ilustraci n 25 ndice del manual de usuario de SNVer Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 La Tabla 5 contiene las calificaciones otorgadas para las tres herramientas por un usuario con pleno conocimiento del contexto de herramientas bioinform ticas 48 Heur stica Visibilidad del estado del sistema Control y libertad del usuario Correspondencia entre el sistema y el mundo real Reconocer antes que recordar Prevenci n de errores Est tica y dise o minimalista Ayudar a los usuarios a reconocer diagnosticar y recuperar erro
2. esses eene nnns 89 llustraci n 73 Grafica de calculate Quality Statistics ocean 89 llustraci n 74 Archivo de estad sticas de calidad generado por Quality Statistics 90 llustraci n 75 accediendo al proceso Calculated Coverage Statistics cooocccconicccnnoccnnnonnononnonannonanonos 90 llustraci n 76 pantalla de Calculated Coverage Statistics osos 91 llustraci n 77 ejecuci n de calculate Coverage Statistics seen 91 lluStracior 76 Grallca de CODONDFA A E A pancia A eed ia oed e IM bac 92 llustraci n 79 archivo de estad sticas de cobertura sessi iisssee sese n enne ann ns 92 llustraci n 80 Pantalla de NGSEP para detectar SNPs e Indeles oooccccccconcnccconcnnccocnnnccnanononnnonos 94 llustraci n 81 Barra de progreso del proceso Find Variants de NGSEP eese 95 Ilustraci n 82 Log generado por el proceso de NGSEP con informaci n relevante del proceso 95 llustraci n 83 Pantalla del proceso calcular estad sticas de calidad de NGSEP abierto y en iteraci n con el usuario mientras se ejecuta el proceso de detecci n de variantes de NGSEP usssss 96 llustraci n 84 Botones para arrancar o cancelar la ejecuci n de detecci n de variantes proceso de NOSE LETTER IETA E 96 Ilustraci n 85 Bot n para cancelar
3. Plot Coverage Statistics 203 Screen Calculated Quality Statistics A Calculated Quality Statistics File D Yeastseguencina Mappina CBS6412 bowtie sorted bam Reference File DAYeastsequencinalReferencelsacCer SGD refaenome 20110301 fa Output File Prefix D YeastSequencina Mappina CBS6412 bowtie sortedReadPos Read Lenght Graphical output E Multiple alignments Statistics 4 This screen is composed by 5 field File In this field you can see the path of the input file that you selected It could be the output file of the Sort Alignment function of NGSEP You can also use the browser on the right in case you want to change the input file Our advice is to have all the input files in the project directory Reference File This field is mandatory because the reference genome is going to be used to compare our reads File The first time that you execute this functionality this text field will be blank you must browse for a fasta file with the genome reference For further executions the field will display the last reference used File D YeastSequencina Mappina CBS6412 bowtie2 sorted bam Remember the system always will suggest as default project location however you can select another one if you want Reference File D YeastSequencina Reference sacCer SGD refaenome 20110301 fa m Output File In this field you should enter the name and path where you want your output file we recomm
4. 4 amp Lecturas gt sortDirectory Paso Dos EOS SPP V 2 Samplen4 3 Samplen47 Cleandata 1MappingFile sar Sampien47 Cleandata 1MappingFile vcf X Samplen47 Cleandata 2 fq 2 VDSamplen47 Cleanda oryFileVCF ini nces projectNGSEP Paso Uno ncesMap projectNG P E SASampien47_Cleandata 1MappingFile sorted log Paso Tres Open With Show In Copy Copy Qualified Name Paste Delete Build Path Refactor s Import 214 Export Refresh Assign Working Sets Run As Debug As Team Compare With Replace With NGSEP Menu Properties Sampien47 Cleandata 1MappingFile vcf PruebaLevadura Lecturas Alt Shift W Ctrl C Ctrl V Delete Alt Shift T Alt Enter RIA I A ATA y E NGSEPView Create Index Bowtie Map Reads Sort Alignment Find Variants Merge VCF VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics View VCF Sam Pairing In Progress Ilustraci n 51 accediendo a Variants Functional Annotation a Variants Functi VCF Variants File GFF Gene Annotation File Fasta Genome Reference VCPOutput File Ilustraci n 52 pantalla de Variants Functional Annotation 77 Variants Functional rm Quick Access B Outline El An outline is not available D Desarrollo runtime EclipseApplication Pr
5. EN 107 Tabla 8 resultados de la evaluaci n realizada en la Tabla 7 sisse 108 Tabla 9 requerimiento n mero Uno eiiis eese enne enn ninnnn sese thnns sese t tans ases atia assess atas a ases asas assa anas snas 118 Tabla TU TEQUueniMiGRIO n mero dOS oo de RM o RENDUM prada CREE ade t nde EDU 118 Tabla 11 requerimiento n mero MeS oriniai a AEAEE AANA ETE O a 119 Tabla 12 requerimiento n mero cuatro u ccccccccccessssccceessscsccesessceccesesssecccceesseeseeseesseeecseessesesseesseeeeesensaeeeceeeaaesessns 119 Tabla TG TOeguemiento numero CIDBCO 5 meu a e E TA eos 120 Tabla 14 requerimiento n mero Seis csscccccssessscccssessncsecssessceccesesuseecsessauesecseesaeeecesesaesecseaaaseseseaaaseceeenaaeseesgs 121 Tabla 15 requerimiento n mero Siete cccccscccceessccesessccceensesccessssccsessescessesecsessecesuseecsessesccesusseceesaesesesseeeesaaees 122 Tabla 16 requerimiento n mero OCHO csccccsesssseseessscceesscccsesscscssssescesssecesessescsessecseasescsesesceesssecceeaseeeeesseseeseaaees 122 INDICE DE ILUSTRACIONES llustraci n 1 Marco de trabajo de la librer a NGSTools 40 essere 22 llustraci n 2 Cat logo de variantes estructurales 46 oooncccccconcnccconnonoconnnnnonononononnnnnononnnnnnnanonnnnonons 23 llustraci n 3 SNP cambio de un nucle tido de la hebra amarilla Tiamina por guanina y cambio de nucle tido en la hebra azul
6. 164033 164427 165987 177153 188700 189840 202800 206300 204441 204626 206104 208056 221900 218836 220315 220795 221421 223474 225500 226896 230300 227974 228377 29 2 53 0 0 0 294 0 71 15 0 0 14 18 1 21 261 9 3 61 255 0 15 2 12 0 27 12 0 26 14 0 36 k 18 0 55 1 11 0 18 12 0 34 22 0 36 2 10 2 04 226 0 06 14 0 29 k 11 0 24 8 0 10 7 0 12 8 1 82 e 85 1 22 10 2 21 1 255 0 10 k 110 0 29 12 0 37 bi 8 0 20 16 0 48 e 11 2 32 255 0 19 2 11 0 22 22 0 91 18 0 83 20 0 94 12 3 13 1 213 0 03 28 2 75 2 255 0 14 11 90 42 14 0 40 4 0 71 678 90 0 49 0 0 0 51 14 0 0 4 14 1 0 7 23 0 0 1 135 2 0 20 13 0 0 0 16 0 0 6 0 0 0 4 516 53 0 23 0 0 0 0 26 0 0 0 13 0 0 0 5 0 0 0 4 0 0 0 114 20 0 3 0 0 0 63 831 104 0 54 0 0 0 4 0 0 0 50 16 0 0 11 6 0 0 3 43 0 0 25 628 60 0 62 0 0 0 9 13 0 0 0 151 0 0 2 62 0 0 0 92 0 0 3 921 56 0 24 0 0 0 10 624 1 0 8 0 0 0 5 13 0 0 0 24 0 0 3 Ilustraci n 48 archivo CNV generado por Find Variants En esta fila por ejemplo se puede observar que en la comparaci n se encontr que en el cromosoma uno de la muestra de la posici n 204502 a la 204626 hay una secuencia de nucle tidos que se repite ocho veces en diferentes partes del genoma este tipo de variante conocida como CNV es importante para los bi logos porque pueden
7. Eclipse downloads mirror selection AR downloads are provided under the terms and condibons of he Eclipse Foundation Software User Agreement unless otherwise specified Download ectipse SDK 4 2 2 win32 x86 64 zip from Edugraf INE CTC UFSC http MD5 SHA1 Or pick a mirror site below Get It Faster Here EclipseSource Warp speed from the Amazon cloud plus a choice of hundreds of plug ins with managed dependencies BLU AGE Free and fast direct Eclipse downloads Get more BLU AGE Eclipse plugins for your Legacy Application Modernization Reverse Modeling and Forward Engineering Dyos auae Obeo Download Eclipse Juno easily and discover how to create your OWN modeling solutions Yatta Solutions GmbH Get your Eclipse Juno download and have a look at our modeling solutions made in Germany yatta SpringSource Rapid downloads of Eclipse packages Free downloads of SpringSource Tool Suite for Spring AspectJ Groovy and Grails Genuitec Native installers for ali OS platforms lightning fast downloads Manage plugins and dependencies For tree Polarion Software huma SOL Quhuareia EsetTrark COCE integrated Tracker SVN wvaw eclipse org downloads download php file eclipse downloads drops4 R 4 2 2 201302041200 eclipse SDK 4 2 2 win32 x86_64 zip amp umirror_id 575 162 Cuttom Search V e Get Up and Running Faster Suppor and Mamtenance for Eclipse versions 3 5 to 3 7 KE EcipseSo
8. Samplen47 Cleandata 1 D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen47 Cleandata_1MappingFile vcf D Desarrollo runtime EclipseApplication PruebaLevadura Ilustraci n 50 archivo de historial con la ltima muestra genoma de referencia y archivo vcf de salida generado por Find Variants 4 3 5 ANOTACI N DE GENES Despu s de finalizar el proceso de detecci n de variantes en el cuarto proceso se procede a verificar si las variantes encontradas tienen alg n tipo de influencia en la funci n de los genes esta verificaci n para esta prueba es el resultado de comparar un cat logo de genes del genoma de la levadura el genoma de levadura y el archivo VCF con variantes gen micas detectadas por Find Variants para la muestra Sample47 de levadura Para acceder a esta funci n se repiten los pasos anteriores se ubica el archivo VCF Samplen47 Cleandata 1MappingFile vcf luego se da clic derecho en este y se busca la opci n Variants Functional Annotation dentro de NGSEP Menu 76 ja Eclipse SD File Edit Source Refactor Navigate Search Pr ive lA O HC I Package Explorer El 4 3 PruebaLevadura 4 GenomaReferencia 5 sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 b 4 sacCer SGD refgenome 20110301 fa 2 b sacCer_SGD_refgenome_20110301 fa 3 b 4 sacCer_SGD_refgenome_20110301 fa4 b sacCer_SGD_refgenome_20110301 fa rev xo sacCer SGD refgenome 20110301 fa rev
9. j Variants Detector File DA Desarrollo runtime EclipseApplication PruebalLevaduralpruebalSample08 ve asi C Reference File D Desarrollo runtime EclinseApplication TestNGSEP Reference sacCer SGD refi Output File Prefix DA Desarrollo runtime EclipseApplication PruebaLevaduralpruebatSample0sS ve Execution Parameters CNVs Detection Parameters E Skip Repetitive Regions Detection Genome Size E Skip New CNV Detection PS Bin Size E Skip Structural Variants Detection E Skip SNVs Detection SNVs Detection Parameters Common Parameters Genomic Location Ploidy 2 Heterozygosity Rate 0 001 sample Id SampleO8 veastl Minimun Genotype Quality Score 40 Maximun Base Quality Score 20 Alternative Allele Coverage Min Al Ignore Lower Case Reference Al Include Secondary Alignments E Genotype All Covered Sites Maximun Alignment Per Start Position Ignore Bases 5 o Ignore Bases 3 O Known CNWVs File Known Variants File Ilustraci n 94 Interfaz gr fica del proceso de detecci n de variantes de NGSEP La Ilustraci n 94 muestra como la pantalla del proceso de detecci n de variantes de NGSEP tiene una interfaz simple ya que tiene entradas con t tulos de tama os grandes y claros a la vista del usuario adem s de contener botones acordes para arrancar el proceso y para cancelarlo la aplicaci n en la llustraci n 93 muestra c mo se accede de manera f cil al men del aplicativo y las funciones
10. n 2 b 0 25 het 0 001 Start Input bam file is D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412 bowtie2 sorted bam Output files are D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter vcf D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter csv Collecting total number of reads Ready for pileup Progress D gt 10 gt 20 gt 30 gt 40 gt 50 gt 60 gt M gt 80 gt 90 gt 100 11559389 SNVs and 25793 indels have been tested Filtering variants based on Bonferroni correction at 0 05 Time usage s 598 seconds Done Ilustraci n 18 Informaci n relevante del proceso de detecci n de variantes de SNVer en ejecuci n Reference Setting Problems Summary Target S x Error in the input Browse Target R dbSNP Setting Ilustraci n 19 Mensaje de excepci n en un capo de entrada de la pantalla de detecci n de variantes de SNVer Si el usuario no ingreso o ingreso mal un par metro la pantalla genera mensajes de excepci n marcando donde fue el error en un idioma entendible para el usuario final Ilustraci n 19 Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica
11. sacCer SGD refgenome 20 s Import sacCer_5GD_refgenome_20 4 Export sacCer SGD refgenome 20 Refresh sacCer SGD refgenome 20 Assign Working Sets Run As Debug As Team Compare With Replace With NGSEP Menu Map Reads Sort Alignment Properties Alt Enter Sam Pairing Find Variants Merge VCF Ste p two Population VCF Filter VCF Converter Ste p t h ree Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics CBS6412 bowtie2 sorted bam YeastSequencing Mapping Screen Variants Detector 189 B Variants Detector o File D YeastSequencing Mapping CBS641 bowtie sorted bam Reference File DA YeastSequencina Reference sacCer SGD refaenome 20110301 fa Output File Prefix D YeastSequencina Mapping CBS6412 bowtie Execution Parameters CNVs Detection Parameters E Skip Repetitive Regions Detection Genome Size E Skip New CNV Detection mU Bin Size Skip Structural Variants Detection Skip SNVs Detection SNVs Detection Parameters Genomic Location Heterozygosity Rate 0 0010 Common Parameters Ploidy 2 sample Id CBS6412 Minimun Genotype Quality Score 40 Maximun Base Quality Score 30 Alternative Allele Coverage Min E Ignore Lower Case Reference E Include Secondary Alignments Maximun Alignment Per Start Position Ignore Bases 5 0 Ignore Bases 3 0
12. 130 5 Si el formato del genoma de referencia esta errado 1 Si el formato del genoma de referencia esta errado se genera un mensaje de error en el archivo log creado por la aplicaci n de igual forma la barra de progreso no arranca su ejecuci n ARA AA Casos de uso CU_9 Ingresar archive FASTQ relacionados CU_13 Generar Log CU_33 Generar archivo SAM CU_10 Ingresar archivo Fasta CU_14 Generar historial de referencias Requerimiento El sistema debe de permitir La comparaci n entre un genoma de referencia y lecturas gen micas esto con el fin de poder realizar resecuenciaci n Fuente A Juan Camilo Quintero Fecha Octubre 18 del 2012 Creaci n Fecha de Octubre 18 del 2012 Ultima Modificaci n 131 GUION CASO DE USO 2 CU_2 Ordenar archivo SAM Ordenar archivo SAM Descripci n La funci n de este caso de uso es ordenar el archivo SAM producto de la ejecuci n del caso de uso 1 Bi logo An lisis respecto a una posici n del genoma de referencia Sistemas CC 2 Luego de seleccionar el archivo SAM da clic derecho sobre este y busca la opcion NGSEP Menu dentro de la ventana desplegada al lado derecho de la seleccion 3 Una vez encontrado el menu de NGSEP ubica el puntero encima del men 4 El sistema valida la ubicaci n de puntero y procede a mostrar una seri de submen s 5 El usuario ubica la opci n de NGSEP llamada Sort Alignmet y panta
13. 15 16 17 18 19 20 21 22 pirimidinas la adenina A y la guanina G son p ricas y la timina T la citosina C y el uracilo U son pirimidinicas Por comodidad cada una de las bases se representa por la letra indicada Las bases A T G y C se encuentran en el ADN mientras que en el ARN en lugar de timina aparece el uracilo 16 Lectura gen mica sequence read lectura de la secuencia nucleot dica 24 Resecuenciaci n La secuenciaci n de parte del genoma de un individuo con el fin de detectar diferencias de secuencia entre el individuo y el genoma de referencia de las especies 20 Formato Fasta es un formato basado en texto para la representaci n de cualquiera de las secuencias de nucle tidos o secuencias de p ptidos en el que est n representados los nucle tidos o amino cidos mediante c digos de una sola letra 31 Formato FASTQ se ha convertido en un formato de archivo com n para compartir los datos de secuenciaci n de lectura que combinan la secuencia y se asocia al nivel de calidad de base 31 Alineamiento de secuencias en bioinform tica es una forma de representar y comparar dos o m s secuencias o cadenas de ADN ARN o estructuras primarias proteicas para resaltar sus zonas de similitud que podr an indicar relaciones funcionales o evolutivas entre los genes o prote nas consultados Las secuencias alineadas se escriben con las letras representando amino cidos o nucle
14. 3 ButtonStart process l 3 1 setQ udrySeq g E 3 2 setQueryFirst Ihteger parselnt h 3 3 setQueryL ast Ihteger parselnt j 3 4 seiKnownCNWsPile tyiKnownCNV getText 3 5 setReferenceFile txtteference File getText 3 6 setAlianmedntsFile ali File 151 I 3 7 set amp nownVariantsFile txtKnownVariantsF ile getText 3 8 setHaploidAverageCoverage Double barseDou ble txtHapAwgCov getText 3 14 setMinQuality Short parseShort txtMinQuality getText 3 15 setMaxBaseOS Short Rasa hart txtMaxBaseQs getText 3 16 setMaxAlnsPerStartPos Integer parselnt txtMaximu nAJIignmentStartP osition get Text 3 117 setvd vd 3 18 setLog Name logFilename 3 19 shil 19 og File log File 3 20 setName Progress Bar srt NameLogger 4 runJob llustracion 103 Diagrama de secuencia Encontrar Variantes Este diagrama es una extracci n del diagrama original de este caso de uso 152 4 1 job schedule Biologo 3 startidProcess pE 5 1 createContesii i 7 historial ariantsDe tector 8 SelectHistorial VD 9 determinateV ariants process l l 9 3 setOutputPile Output File 153 Hu SelectHistorg vL l i I i 9 determinate ariants proce
15. Bad Boys all possible alelles gt chrI 114 C 48 CNV 1 TA Upstream TGN YALO0O68W A TID YALO68W A mRNA GT GL G 43 2 41 17 39 0 48 0 48 8 0 chrI 115 A 77 CNV 1 TA Upstream TGN YAL068W A TID YAL068W A mRNA GT GL G 91 3 01 20 86 0 77 0 77 10 4 rI E30 4 A 255 CNV 1 TA Upstream TGN YALO6SW A TID YALOGSW A_ mRNA GT GL GP GQ DP AAC e l 0 0 0 0 45 45 6 6 0 0 0 rI 141 T 166 CNV 1 TA Upst ream TGN YAL068W A TID YALO68W A mRNA GT GL G 4 4 27 82 0 255 0 255 15 0 8 0 I 254 C T 48 CNV 1 TA Upstream TGN YAL0G68W A TID YAL0G8W A_ mRNA GT GL G 43 41 17 39 0 48 0 4 0 YI 251 A C 109 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA T GL G 39 1 20 86 0 109 0 109 11 rI A G CNV 1 TA Upstream TGN YAL068W A TID YALO68W A_ mRNA GT GL G ens 01 0 84 84 19 0 0 19 0 rI T 1 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA 3T GL G 35 45 2 152 0 20 1 rI A C 255 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA GT GL GP G 78 3 J 255 ri C A 255 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA GT GL G 25 3 5 rI C T 499 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA GT GL 78 38 0 FI ES T 255 CNV 1 TA Upstream TGN YALO068W A TID YALO068W A mRNA GT GL Q 76 0 0 2 rI 142 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A_mRNA GT GL GP GQ DP AAC 0 1 24 35 55 28 rI 30 T C 188 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA GT GL GP GQ DP AAC 3 S 76 19 ri 305 C G
16. Gi TestNGSEP llustracion 53 barra de progreso generada por Variants Functional Annotator perpe E amp Java a Outline An outline is not available Variants Functional Annotator 4 El proceso de ejecuci n lleva a cabo la comparaci n entre el genoma de levadura y la muestra o lectura Sample47 que es una extracci n de la secuenciada de una planta de levadura y un cat logo de genes del genoma de levadura esta comparaci n va arrojar un archivo VCF con todas las variantes gen micas encontradas durante la comparaci n posici n a posici n del genoma de referencia y su efecto en los genes de la levadura 4 Lecturas Ilustraci n 54 Archivo generado por Variants Functional Annotator gt sortDirectory MPSamplen47 Cleandata 1MappingFile log Samplen4 Cleandata 1l fq pu uj pug puj pu uj pup uj uj wy uj Du ug Samplen4 Cleandata 1MappingFile SV gff Samplen4 Cleandata 1MappingFile cnv Samplen4 Cleandata 1MappingFile sam Samplen4 Cleandata 1MappingFile vcf Samplen4 7 Cleandata 2 fq VDSamplen47 Cleandata 1MappingFile log HistoryFileVCF int References projectNGSEP ReferencesGff3 projectNGSEP ReferencesMap projectNGSEP pu pu mj mj Samplen47 Cleandata 1Ma ppingFile Annotated vcf Samplen4 Cleandata 1MappingFile sorted bai Samplen4 Cleandata 1MappingFile sorted bam SASamplen4 7 Cleandata 1MappingFile sorted log E VFASamplen47 Cleandata 1MappingFile Annotated
17. Tabla 4 Escala para evaluar la usabilidad de la GUI Para utilizar la tabla propuesta se debe calificar el criterio o heur stica conforme a la columna calificaci n de la tabla de Escala de evaluaci n para heur sticas de usabilidad para elegir una calificaci n se debe leer la fila correspondiente a la columna descripci n que m s se asemeje al valor que cree el evaluador que corresponde para dicho criterio de esta manera el valor tomado representara un porcentaje descrito en la tabla este porcentaje representa un valor del total del criterio o heur stica a calificar La f rmula para calcular el porcentaje de cumplimiento de una heur stica o criterio es Valor de cumplimiento valor calificado peso heur stica Total Efectividad Donde cada una de las variables significa Valor calificado corresponde al valor de calificaci n proporcionado por la tabla de evaluaci n para heur sticas de usabilidad que se toma de acuerdo a la descripci n que m s se ajuste al estado actual de la herramienta con respecto a esta heur stica este valor representa un porcentaje de total para heur stica Peso heur sticas corresponde al peso de cada una de las heur sticas justificada en el p rrafo anterior Este valor equivale a dividir cien sobre ocho que son la cantidad de heur sticas a evaluar el valor es 12 5 Total Efectividad corresponde al porcentaje total de efectividad de la heur stica 36 Valor de cumplimiento es el valor t
18. 0 90 p MM M P I 0 85 ERES EE RE is RN ee E E E 0 80 A ae E M os MN 075 dE EE e E rZ emacs un i c 0 70 7 ng ET TT poem 20 aamesNSINSINSIE e gom po MEE MEE ae eee 2 060 A A A cd cd odd odd odd hdc Er j o A A O LE EE TTT TT TP TP dy A L Mem 0 0 dE dE TE TT TT TT TT ee m EUEGCEIL DO HS HT DS NB S TB A TD DS IB BUDENSIS IDOL T T A 0 0 of E TT dE dE dE Te dL dE aa oh E EOS dd oH og Hog TE TET T M TPT HM d um weee A d O GB B B B ap qb a ap dp d GU GI dL IE a 25 TEER A A TEE EET HET EE a dt dd ec 0 20 1 TERR TURTLE ELTE LEE EE ELE ELE ETE ETE ETE TTE ELTE EEG O A 0 15 IU TE aaa aa oa or cr o co IER IER aaa aoa on oa or dcr a as 1 Tt a aaa a dd cer 0 00 10 20 30 40 SO 60 ZO a0 a0 100 Read Position 5 to 3 Ilustraci n 73 Grafica de calculate Quality Statistics 89 Samplen47_Cleandata_1MappingFile_sortedReadPos stats EJ 1 35974 29622 2 32245 26542 3 31556 25949 4 31392 26101 5 28183 23699 6 27190 23078 7 26855 22896 8 26215 22371 9 26131 22306 10 26990 23079 11 25987 22349 12 25988 22284 13 25924 22390 14 25445 21873 15 25306 21907 16 25759 22359 17 25437 22030 18 25502 22016 19 25750 22309 20 25364 21934 21 25615 22188 22 25911 22477 23 25983 22461 24 26067 22484 25 26273 2275 26 26083 22645 27 26049 22 28 26355 22 29 26352 22 30 25
19. 2 75 0 0 124 124 37 35 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 151 92 14 2 chrI 138 CT 255 CNV 3 GT GL GP GQ DP AC 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 73 64 32 29 30 01 52 26 14 3 52 97 0 0 0 0 127 0 255 40 2 21 11 1 1 1 1 1 2 2 2 chrI 141 e CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 55 65 12 66 90 41 0 255 0 255 42 0 26 0 16 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 121 71 14 7 chrI 172 A CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 9 94 114 35 126 0 0 126 33 33 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 45 99 8 45 chrI 176 CGA CNV 3 GT QL GP GQ DP AC 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 43 72 19 75 16 16 29 73 5 76 27 64 0 0 0 0 74 0 72 19 0 12 7 Dada dI ed chrI 181 C P CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 52 16 6 63 24 35 0 145 0 145 22 0 7 0 15 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 26 62 9 81 chrI 241 C T CNV 3 GT GL GP GQ DP AAC JL 31 09 3 01 3 48 0 0 27 0 10 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 13 91 3 62 27 12 0 71 chrI 249 T E CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 3 62 41 23 63 0 0 63 12 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 13 32 5 43 47 chrI 250 G A CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 3 62 41 13 63 0 0 63 12 0 0 12 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 36 83 5 49 20 chrI 254 CTT CT CNV 3 GT GL GP GQ DP AC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 3 61 24 0 63 0 0 63 12 12 0 0
20. 30 30 558615 542032 31 31 531957 516162 32 32 498321 482808 33 33 462881 447084 34 34 421204 406181 35 35 379964 365995 36 36 338447 325091 37 37 298233 285452 38 38 259446 247996 Ilustraci n 79 archivo de estad sticas de cobertura Una vez realizados estos ocho procesos se estar a cumpliendo con orden establecido por el pipeline de NGSEP para detecci n de variantes gen micas 92 4 4 COMPARATIVA DE NGSEP CONTRA LA HERRAMIENTA SNVER GANADORA DE LA EVALUACI N REALIZADA EN EL CAP TULO 2 En este apartado se realizar la comparativa entre la herramienta NGSEP expuesta en este cap tulo contra la herramienta ganadora producto de la comparaci n realizada en el cap tulo 2 p g 52 Esta comparaci n se hace con el fin de conocer que tanta usabilidad tiene la GUI de NGSEP respecto a la herramienta n mero uno actualmente en implementaci n de usabilidad Teniendo en cuenta la escala de la Tabla 4 para calificar la usabilidad definida en el cap tulo 2 p g 35 se procede a calificar la herramienta NGSEP bajo los mismos criterios de evaluaci n por los cuales fueron sometidos SNVER GATK Y SAMTOOLS Las calificaciones para la evaluaci n fueron otorgadas por un usuario con pleno conocimiento del contexto de herramientas bioinform ticas Para una mayor apreciaci n de las calificaciones obtenidas por NGSEP se elabora una muestra con im genes del proceso de detecci n de variantes gen micas de NGSEP Las calificaci
21. 4 amp Mapping CBS6412 bowtie2 sorted bam CBS6412 bowtie2 sortedCoverage stats BS6412 bowtie2 sc New CBS6412 bowtie2 sc Open F3 CBS6412 bowtie2 SX CBS6412 bowtie2 S Open With CBS6412 bowtie2 cn es Show In Alt Shift W gt CBS6412 bowtie2 vc CBS6412 bowtie2An Copy Ctrl C ER7A_bowtie2_sortec Copy Qualified Name ER7A bowtie2 SV gf Paste Ctrl V ER7A_bowtie2 cnv X Delete Delete ER7A bowtie2 vcf Build Path PSCBS6412_bowtie2_ Refactor Alt Shift T gt Unselected_bowtie2 Import Unselected bowtie2 A Export Unselected bowtie2 Refresh F5 Unselected bowtie2 VDCBS6412 bowtiez Assign Working Sets VDER7A bowtie2 vcf Run As VDUnselected bowt Debug As VFACBS6412 bowtie Team gt Reads Compare With LI LJ LI amp Reference Replace With HistoryFileVCF ini NGSEP Menu Y Map Reads HistoryFileVCFMerGeFil Sort Alignment M p t References projectNGSE roperues Alt Enter Sam Pairing ReferencesGff3 projectNGSEP Find Variants e Merge VCF No operatio Y Population VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics Screen Plot Coverage Statistics 214 8 Plot Coverage Statistics File D YeastSequencina Mappina CBS6412 bowtie sortedCoveraae stats Output File D YeastSegauencina Mappina CBS6412 bowtie sortedCoverage pna Graphical Output Multiple alig
22. Adem s esta biblioteca ofrece dos caracter sticas nicas es nativa y portable a la vez Dota a las aplicaciones escritas con ella de una mayor velocidad en su ejecuci n y un menor consumo de recursos respecto a las aplicaciones escritas con Swing o AWT 59 3 12 JFACE Es un conjunto de widgets para realizar interfaces de usuario construido sobre SWT Fue desarrollado por IBM para facilitar la construcci n del entorno de desarrollo Eclipse pero su uso no est limitado a ste JFace proporciona una serie de construcciones muy frecuentes a la hora de desarrollar interfaces gr ficas de usuario tales como cuadros de di logo evitando al programador la tediosa tarea de lidiar manualmente con los widgets de SWT 29 3 13 PLUG IN Es un m dulo de hardware o software que a ade una caracter stica o un servicio espec fico a un sistema m s grande Un Plug in es la unidad minima de funcionalidad de Eclipse que puede ser distribuida de manera separada Herramientas peque as se escriben como un nico Plug in mientas que en las complejas la funcionalidad est en varios Plug ins Para a adir un Plug in a la plataforma de Eclipse existe un unico modo los puntos de extensi n En conformidad con el paradigma orientado a objetos un punto de extensi n no deja de ser una interfaz que puede ser implementada por alg n desarrollador dispuesto a extender la plataforma 27 60 CAP TULO 4 EVALUACI N DE NGSEP EN UN ESTUDIO
23. Ilustraci n 19 Mensaje de excepci n en un capo de entrada de la pantalla de detecci n de variantes de SNVer adem s de crear un dialogo de mensajes de error que indica que hay errores en una entrada de la pantalla sin embargo SNVer no genera ning n tipo de comentario acerca de c mo solucionar el error Calificaci n obtenida La heur stica evaluada cumple con faltas menores en la pregunta realizada calificaci n igual a 4 Heur stica Ayuda y documentaci n Pregunta La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea SNVerGUI Manual A Desktop Tool for Variant Analysis of Next Generation Sequencing Data 8 19 2012 Ilustraci n 24 Manual de usuario de SNVer 47 El manual de usuario de SNVer llustraci n 24 ofrece un contenido de f cil navegaci n tambi n la posibilidad mediante links de ir al cap tulo que el usuario desea Ilustraci n 25 ademas explica en cada cap tulo o secci n del manual detalladamente para que sirve cada proceso y cada entrada que dato recibe Content EB a AAA A 3 2 Downloads and FU TUES cui di lid 3 WEE C ASA 3 EE ocu on MAA E AAE EAE A S AEA EE E AAA EAA EE AA AE A 3 dd MAIN AA ani aiii id dedican 4 4 S ppo rted Input Data EE Oe P 4 SEE i idi dro REPE
24. No file selected or Paste variant calls Reference genome O hg19 human Y hg18 human v Input format VCF genotype calling format o ANNOVAR input format Complete Genomics TSV format o O SOLID GFF3 input format o Complete Genomics masterVar format o Gene definition 9 RefSeq Gene v me Pantalla proceso anotaci n de genes de SNVer Calificaci n obtenida la heur stica evaluada cumple parcialmente lo descrito en la pregunta para realizada la calificaci n es igual a 3 Heur stica Prevenci n de errores Pregunta La Aplicaci n tiene un buen dise o de mensajes de error que den la posibilidad al usuario de retraerse antes de que se realice la acci n y se comprometan los datos Si el usuario no ingreso o ingreso mal un par metro la pantalla genera mensajes de excepci n marcando donde fue el error en un idioma entendible para el usuario final y que permite parar el proceso si el usuario lo desea llustraci n 19 Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Est tica y dise o minimalista 44 Pregunta Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n Cons
25. Plug ins Configuration amp Tracing PB Environment Common 4 Eclipse Application Eclipse Application ES Java Applet G1 Java Application Ju JUnit J JUnit Plug in Test Y OSGi Framework Program arguments os target os ws target ws arch target arch nl target nl consoleLog a workspace metadata log VM arguments Xms1500m Xmx3000m PA 7 Working directory Q Default D Desarrollo Juno 64 bits eclipse O Other Workspace File System Variables Apply Revert Filter matched 9 of 9 items o o In the option VM arguments indicate how much memory you want to dedicate The values should indicate the minimum and maximum memory allowed For example Xms1500m Xmx3000m This means that you want to grant 1500 Mb as minimum and 3000 Mb or 3 Gb at top Save and close the file and launch again the eclipse 167 NGSEP plugin installation After downloading the NGSEP jar file you need to paste it in the dropins folder in the eclipse directory vaa a gg Computer DATA 62423 D Desarrollo Juno gt eclipse gt v Search eclipse p Organize Include in library Share with Burn New folder E y 9 k Favorites Name Date modified Type Size Wi Desktop J configuration 6 28 2013 9 11 AM File folder Jy Downloads dropi 6 28 2013 911AM File folder gt Recent Places J feat 3 12 2013 220 M File folder kp 3 1
26. SNVer cuanta con una interfaz gr fica de usuario llamada SNVerGUl mediante la cual se puede acceder a la detecci n de variantes gen micas despu s de configurar varios par metros 15 SNVer se encuentra disponible para los siguientes sistemas operativos Windows win32 x86 64 Windows win32 x86 Mac OSX cocoa x86 64 Mac OSX cocoa x86 Linux gtk x86 64 Linux gtk x86 En la Ilustraci n 8 se puede visualizar la interfaz gr fica de la aplicaci n SNVer Navigation mms a Y File Help Individual Pool X LR Console Path Settings Reference Setting Target Setting Target Regions Browse dbSNP Setting dbSNP Path Browse Chromosome Column 1 Position Column 2 SNP_ID Column 3 RESET RUN 0000000 06 09 2013 10 04 Ilustraci n 8 Interfaz Gr fica de usuario de SNVer 15 2 8 3 2 Flujo de trabajo de SNVer El flujo de trabajo presentado por SNVerGUI en an lisis de datos NGS puede utilizar un pool o datos individuales de secuenciaci n la Ilustraci n 9 muestra el pipeline ofrecido por SNVer 1 Mapeo de lecturas 2 Eliminaci n de datos duplicados 34 3 Detecci n de SNPs 4 Anotaci n de genes con respecto a las variantes encontradas Genoma de Lecturas i Referencia Detecci n de Eliminar SNVs y Small duplicados I
27. Shift Q C ER7A bowtie2 sorted bam Customize Perspective B Declaration Alt Shift Q D Unselected bowtie2 sorted bam Save Perspective As 9 Error Log Alt Shift Q L 4 iz Reads Reset Perspective Javadoc Alt Shift Q J NG 5197 CBS6412 read 1 fq Close Perspective amp Navigator NG 5197 CBS6412 read 2 fq Close All Perspectives c Outline Alt Shift Q O NG 5197 ER7A read 1 fq Navigation Y Package Explorer Alt Shift Q P NG 5197 ER7A read 2 fq Problems Alt Shift Q X a gt Reference _ Preferences Progress sacCer SGD refgenome 20110301 1 bt2 Project Explorer sacCer SGD refgenome_20110301 2 bt2 Search Alt Shift Q S sacCer SGD refgenome 20110301 3 bt2 Tasks sacCer_SGD_refgenome_201103014 bt2 i Templates sacCer_SGD_refgenome_20110301 fa fa Type Hierarchy Alt Shift Q T sacCer SGD refgenome 20110301 rev 1 bt2 Other Alt Shift Q Q sacCer SGD refgenome 20110301 rev 2 bt2 f GEN NGSEPView No operations to display at this time YeastSequencing 172 3 Click on the folder General and choose NGSEPView A C type filter text 2 General ll Bookmarks 4 Classic Search El Console Error Log 9 Internal Web Browser El Markers ts Navigator LJ NGSEPView Outline i Palette 4 You will be able to see a new tab next to the console and problems log i Problems Javadoc amp Declaration Search El Console 8 Diagrams History GG NGSEPView 2 w No operations to display
28. cccccecceccccccccccccccccccccccccccccccccccccccccccccccccccccsccccccees 166 NGSEP PLUGIN INSTALLATION ccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccecccccccccccccccccccccccccccccccccccccsccccccsocs 168 USING NGSEP PLUGIN naaa aid 169 ENABLE ME FROGRESS BAR tiara 172 PAE 173 cbgqgli tc tq AP PO 186 ps pega mrt ROT 188 uisa Q 194 VARIANTS FUNCTIONAL ANNOTATOR ssccinioiisniaric adan EN REA 201 AAA scieh Demnewers ised ens ieecree cette enlociels awe aace cio aeioemine insane ena taleuee ONNA 203 CALCULATE COVERAGE ATi 208 E taras ca 210 pai e A O O eee ee 214 A A RE o E EEEE a 217 Ver wl vda E A T 217 158 Introduction Next Generation Sequencing NGS technologies have increased exponentially the understanding of the genomic structure and function of different organisms within the last decade including the CIAT mandate crops In order to handle the vast amount of data produced by these technologies several bioinformatics tools have been developed to carry on different kinds of analysis However most of these tools are not easy to operate integrate and customize without the technical support of experts in bioinformatics which produces a bottleneck for several research efforts This situation poses the
29. chri A b 25 CNV GT GL GP GQ DP AAC 0 1 34 6 03 34 78 0 255 0 255 20 10 1 chrI 269 cC A 25 CNV GT GL GP GQ DP AAC 0 1 38 6 03 1 3 0 2 0 5 20 11 9 c CNV GT GL GP GQ DP AAC 0 1 34 6 33 25 0 255 0 255 21 0 11 1 A T CNV 1 GT GL GP GQ DP AAC 1 79 9 93 1 0 0 9 6 23 0 0 0 23 c 14 CNV GT GL GP GQ DP AAC 1 24 35 6 93 64 0 142 0 142 0 16 T 18 CNV 1 GT GL GP GQ DP AAC 0 1 31 9 34 0 255 0 255 31 P 25 NV 1 GT GL GP GQ DP AAC 0 1 69 12 5 41 73 0 255 0 255 31 11 T 18 CNV GT GL GP DP AAC 0 1 31 3 9 34 0 255 0 255 31 T 25 CNV GT GL GP GQ DP AAC 0 1 34 78 10 24 46 0 255 0 255 34 1 T y CNV GT GL GP GQ DP AAC 1 59 11 5 12 1 0 0 78 78 0 A CNV GT GL GP GQ DP AAC 0 1 17 39 4 B 0 97 0 97 15 1 A NV GT GL GP GQ DP AAC 1 52 16 4 52 1 0 7 j 5 15 T CNV GT GL GP GQ DP AAC 1 41 73 3 62 1 0 6 0 NV GT GL GP GQ DP AAC 1 17 3 1 53 412 42 5 0 5 0 0 T C CNV GT GL GP GQ DP AAC 1 17 3 1 3 42 4 T CNV GT GL GP GQ DP AAC 0 1 13 1 4 0 1 1 4 Ilustraci n 47 archivo VCF generado por Find Variants con variantes SNPs e Indels En esta fila por ejemplo se puede observar que en la comparaci n se encontr un variante gen mica SNP para el cromosoma n mero uno del genoma de referencia en la posici n 291 donde la muestra tiene un nucle tido Timina en la secuencia de ADN y la referencia tiene un nucle tido Citosina la siguiente informaci n contenida para ese registro es respecto al genotipo donde se infiere que
30. cilmente accesibles cuando sea apropiado La flexibilidad y eficiencia de uso El sistema se debe dise ar para que lo puedan manejar diferentes tipos de usuarios en funci n de su experiencia con la aplicaci n De esta manera se aumentar la productividad del usuario y se ganar en usabilidad Permitiendo a los usuarios adaptarse a las acciones frecuentes Dise o est tico y minimalista Los di logos no deben contener informaci n que es irrelevante para la tarea que est realizando el usuario Cada unidad adicional de informaci n en un di logo compite con las unidades relevantes de informaci n y disminuye su visibilidad relativa Ayude a los usuarios a reconocer diagnosticar y recuperaci n de errores Los mensajes de error deben ser expresados en un lenguaje sencillo sin c digos indicar con precisi n el problema y sugerir una soluci n constructiva Ayuda y documentaci n A pesar de que es mejor si el sistema puede ser utilizado sin la documentaci n puede ser necesario proporcionar al usuario ayuda y documentaci n Dicha informaci n debe ser f cil de buscar enfocada en la tarea del usuario Se deben listar s lo los pasos necesarios para la realizaci n de la tarea 27 La IEEE define un conjunto de reglas para que los aplicativos tengan alta usabilidad este conjunto de reglas son definidos de esta manera 43 Advertencia del estado y o retroalimentaci n La aplicaci n debe mostrar los indicadores de esta
31. complained about constant lack of space error message in the server We are looking into a solution possibly moving vANNOVAR to another host that provides more storage space 02 24 2013 The annotation column is also updated from ESP5400 to ESP6500 11 26 2012 The NHLBI ESP 5400 exomes is updated to the latest NHLBI ESP 6500 exomes A new custom filtering step is added to remove common variants from 46 whole genomes sequenced by Complete Genomics ME 4 417471 Aduanera a antinnr Welcome to ANNOVAR web server ANNOVAR is a rapid efficient tool to annotate functional consequences of genetic variation from high throughput sequencing data wANNOVAR provides easy and intuitive web based access to the most popular functionalities of the ANNOVAR software to facilitate biologists without bioinformatics skills taking full advantage of the sequencing data Given a list of single nucleotide variants SNVs and insertions deletions in VCF or ANNOVAR input format wANNOVAR annotates their functional effects on genes such as amino acid changes for non synonymous SNPs calculate their predicted functional importance scores such as SIFT and PolyPhen scores retrieve allele frequencies in public databases such as the 1000 Genomes Project and NHLBI ESP 6500 exomes and implement a variants reduction protocol to identify a subset of potentially deleterious variants Sample identifier w Your email v Input file name GZ ZIP okay
32. ere cr 25 CNV 3 GT GL GP GQ DP AC 0 0 0 0 0 0 0 0 0 1 6 92 46 0 125 0 0 255 23 23 0 1 1 1 1 1 1 1 1 1 34 01 6 02 6 07 0 0 56 56 22 3 17 0 0 0 0 0 0 30 chrI 176 CGA CA CCA 255 CNV 3 GT GL GP GQ DP AC 1 1 1 1 1 2 2 2 43 72 19 75 16 16 29 73 5 76 27 64 0 0 0 0 44 0 44 19 0 12 7 2 2 2 2 2 2 2 2 2 6 9 6 9 6 9 0 31 chrI 181 c T 255 CNV 3 GT GL GP GQ DP AAC 0 0 0 1 1 1 1 1 52 16 6 63 24 35 0 115 0 115 22 0 7 0 15 0 0 0 0 0 0 1 1 1 26 62 9 81 52 17 0 106 0 106 22 1 14 0 7 32 chrI 192 c T 255 CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 24 34 2 41 3 48 0 0 51 51 8 0 1 0 7 34 27 9 67 10 44 0 0 22 0 11 3 1 33 chrI 197 A G 25 x CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 9 53 0 91 0 0 0 0 66 66 3 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 2 71 31 29 84 0 0 84 10 9 0 0 0 dal at d 34 chrI 198 T 85 CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 8 53 0 93 0 04 0 0 66 66 3 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 2 71 31 29 84 0 0 84 10 0 9 0 0 TP af af 35 chrI 199 T G 70 CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 8 13 1 78 1 18 0 0 55 55 3 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 2 71 30 79 84 0 0 84 10 0 0 0 9 e PT PR PT 36 chrI 204 A G 70 CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 6 95 0 6 0 0 0 0 61 61 2 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 2 71 31 29 84 0 0 84 10 9 0 0 0 of sf od uf al ad 37 chrI 213 c T 174 CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 9 9 93 66 0 0 66 3 0 3 0 0 1 1 1 1 1 1 1 1 1 20
33. puntero encima del men 4 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submen s El usuario ubica la opci n El sistema valida el clic y despliega de NGSEP llamada la pantalla de Calculated Quality Calculated Quality Statistics con la ruta del archivo Statistics seleccionado y con una sugerencia para un archivo de salida Selecciona si desea el grafico con m ltiples alineamientos si no selecciona esta opci n el sistema toma por defecto alineamientos nicos Ingresa el tama o de las lecturas si lo conoce de no ser as el sistema captura por defecto 50 147 Excepciones 9 Da clic en el bot n statistics 10 Valida las entradas 11 Buscan en el archivo BAM las parejas de lecturas que coincidan en la misma posici n del genoma y igual 148 que tenga tama o de inserci n 12 Genera barra de progreso que indica el avance del proceso y elimina la barra cuando finaliza 13 Genera archivo log 14 Genera grafica de calidad con alineamientos nicos o m ltiples de acuerdo a lo seleccionado por el usuario 15 Genera archivo de estad sticas con la calidad y el n mero de alineamientos en cada posici n del genoma donde esta una lectura Si no se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo File obligatorio Si se borra la ruta del archivo de salida el sistema despliega el mensaje campo output
34. tidos en filas de una matriz en las que si es necesario se insertan espacios para que las zonas con id ntica o similar estructura se alineen 22 Alineamiento m ltiple de secuencias es un alineamiento de tres o m s secuencias biol gicas generalmente prote nas ADN o ARN En general se asume que el conjunto de secuencias de consulta que se ingresa como entrada conjunto problema tienen una relaci n evolutiva por la cual comparten un linaje y descienden de un ancestro com n 23 Formato vcf es un formato de archivo que soporta la llamada de variantes es flexible y extensible para los datos de variaci n tales como SNP inserciones deleciones las variaciones del n mero de copias y variantes estructurales 24 Genoma es la totalidad de la informaci n gen tica que posee un organismo o una especie en particular El genoma en los seres eucari ticos comprende el ADN contenido en el n cleo organizado en cromosomas y el genoma mitocondrial El t rmino fue acu ado en 1920 por Hans Winkler profesor de Bot nica en la Universidad de Hamburgo Alemania como un acr nimo de las palabras gene y cromosoma 16 NGSTools Librer a creada por Jorge Duitama Es un marco integrado para el descubrimiento de variantes gen micas que utiliza los datos producidos por NGS Pipeline Flujo de trabajo compuesto por determinados procesos para trabajar con los datos de NGS 10 23 24 25 26 27 28 29 bowti
35. 001 fastq gz GATCAG CGATGT L002 R2 001 fastq gz ATCACG TGACCA L002 R1 001 fastq gz ATCACG TGACCA L002 R2 001 fastq gz GATGT ATCACG L002 R1 001 fastq gz CGATGT ATCACG L002 R2 001 fastq gz CGATGT TGACCA L002 R1 001 fastq gz CGATGT TGACCA L002 R2 001 fastq gz TTAGGC TGACCA L002 R1 001 fastq gz TTAGGC TGACCA L002 R2 001 fastq gz TGACCA TGACCA L002 R1 001 fastq gz TGACCA TGACCA L002 R2 001 fastq gz ACAGTG TGACCA L002 R1 001 fasta az No operations to display at this time G9 NGSEPView 1 8 Map Read File 1 DaADesarrolloWuntime EclipseApplication RiceMappinaTest Reads Sample ID 9 m File 2 DaDesarrollolruntime EclipseApplicationiRiceMappinaTestiReadsiSample ID 9 SIndex Bowtie2 Output File Sam LL Input Phred 64 Trim5 Trim3 Read Group data Read group ld ID 94 1 ATCACG ATCA Sample ld ID 94 1 ATCACG ATCA Platform ILLUMINA X Reporting E Number of alignments to report E Report all alignments Effort Give up extending after Sorting parameters E Skip sorting Keep unsorted sam file D Desarrollo runtime EclipseApplication RiceMappinaTest Reference nipponb lt ua D Desarrollo runtime EclipseApplication RiceMappingTest Reads Sample_ID_9 mu Paired end Alignment Minimun insert size Maximun insert size Alignment Length of seed substrings Interval between seed substrings Disallow gaps within Include int
36. 0113525E chri 250 G A PASS 12 11 1 0 0 033 1 8599909E chri 286 A T PASS 14 14 10 0 029 3 521312E chrl 458 E A PASS 19 13 10 10 1 4093227E chrl 476 G T PASS 25 16 1 0 0 002 7 4365754E chri 481 C CACTT PASS 28 9 10 10 1 9705674E chrl 485 T C PASS 28 19 10 0 0 9 527E 41 chri 509 G A PASS 70 69 10 0 0 0 0 chri 518 A PASS 98 37 1 0 10 4 0104316E chri chil 519 C T PASS 101 43 0 133 0 0 0 0 chri 521 A G PASS 108 49 0 038 0 0 0 0 chrl 531 C T PASS 117 58 0 002 0 0 0 0 chrl 558 C T PASS 128 63 0 0 0 0 1 110223E chrl 562 C T PASS 132 52 0 208 0 002 0 0 chri 573 G T PASS 124 59 0 002 0 0 1 110223E chri 588 C A PASS 127 125 10 0 429 0 0 chri 594 T C PASS 132 56 0 358 0 114 0 0 chri 595 C G PASS 127 125 10 0 0 0 0 chrl 610 G A PASS 134 134 1 0 0 0 0 0 chri 633 T C PASS 141 78 0 0 0 286 0 0 chri 681 G T PASS 72 46 0 002 0 151 0 0 chri 688 A C PASS 62 44 0 005 0 048 0 0 chrl 693 T A PASS 52 52 1 0 0 063 0 0 chrl 694 A T PASS 52 39 0 0 0 0 0 0 chri 701 C A PASS 57 57 10 0 002 0 0 y Functional Annotation with wANNOVAR Ilustraci n 20 bot n para acceder al proceso de anotaci n e genes a partir de la finalizaci n del proceso de detecci n de variantes 43 wANNOVAR WEB SERVER ar usc edu i E 2a UNA RS o HEB USC C E Google University of Southern California Ilustraci n 21 HOME ABOUT TUTORIAL EXAMPLE CONTACT US Recent Updates 11 06 2013 Many users have
37. 201 2 12 01 group 5 exome analysis project pipeline 2 Consultado el 25 de junio del 2013 115 36 3 38 39 40 41 42 43 44 45 46 ALCALA M 2007 medida de la usabilidad Disponible en http www issi uned es CalidadSoftware Noticias PFC 2 pdf Consultado el 24 de marzo del 2013 SANGER INSTITUTE 2013 Sanger method Disponible en http www sanger ac uk about people biographies ftsanger html Consultado el 2 de marzo del 2013 LIFE SEQUENCING 2008 La secuenciaci n 454 es el poder en el que se basa el sistema de secuenciaci n de Genomas FLX Disponible en http www lifesequencing com phttp www lifesequencing com pages tecnologiaages te cnologia Consultado el 2 de marzo del 2013 BOWTIE 2 2013 Table of Contents Disponible en http bowtie bio sourceforge net bowtie2 manual shtml Consultado el 23 de julio del 2013 DUITAMA J QUINTERO J CRUZ D QUINTERO C HUBMANN G FOULQUIE MORENO M VERSTREPEN K J THEVELEIN J M AND TOHME J 2013 An integrated framework for discovery and genotyping of genomic variants from high throughput sequencing experiments KRUG S 2006 No me hagas pensar Una aproximaci n a la usabilidad en la Web Disponible en http www disenomovil mobi multimedia_un 01_intro_ux no_me hagas _pensar_steve 20 krug_2da 20ed pdf Consultado el 8 de noviembre del 2013 PRESSMAN ROGER 2002 Ingenieria del Software un enfoque
38. 24 INDEL INSERCIONES Y DELECIONES DE NUCLEOTIDOS 24 25 CNV VARIANTES DE N MERO DE COPIA 24 26 USABILIDAD 25 2 7 HERRAMIENTAS QUE TRABAJAN CON AGS coccocccoccoccconcnnconnconcnononnnonnnnncanncnncnnnnnos 29 2 8 HERRAMIENTAS RELACIONADAS eceene eene eterne trente etes 30 2 8 1 GATK UnifiedGenotyper rne a a a A 30 28 2 SAMTOOL Soon rra 32 2 8 3 SNVer Single Nucleotide Variants Caller ccoooccconncconncocnccocnonanoconnncncnnnons 33 2 9 ESCALA A UTILIZAR PARA CALIFICAR LA USABILIDAD DE GATK SAMTOOLS Sn E E ee 35 2 10 COMPARATIVA DE HERRAMIENTAS cemere tenens 37 2 11 GR FICA COMPARATIVA DE LA TABLA 4 ccccccseccesccercesecereeeesereesesereesevreeseereess 51 242 GR FICA TOTAL DE USABILIDAD eren 52 3 1 FRONTERAS DEL SISTEMA ccecccccsecccesseccesseseeecserseeesereceesereeeevreesesauseeesnreeseereess 53 3 2 ACTORES DEL SISTEMA cccccccecccsssecceesseccessereessvereesesreesevreeeesreeeevreesevnreeseereess 53 3 8 REQUERIMIENTOS FUNCIONALES eene treni 53 3 4 LISTA DE REQUERIMIENTOS FUNCIONALES eene 54 3 5 LISTA DE REQUERIMIENTOS NO FUNCIONALES ecce 55 de EGEIPSEIBDES tte Ead EE 56 3 7 ARQUITECTURA DE LA PLATAFORMA ECLIPSE eene 57 3 8 PLATAFORMA DE EJECUCI N PLATFORM RUNTIME eene 57 3 9 WORKSPACE ccccoccccnccnconcononnonnononnnncn conocieran
39. Dos P NGSEP Menu 2 items selected Ilustraci n 36 accediendo al proceso Map Reads 66 File 1 D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen47 File gt D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 Index Bowtie2 la d Output File Sam D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 _ la Input Paired end Alignment E Input Minimun insert size Phred 64 Maximun insert size Trim Alignment Trim3 Read Group data Length of seed substrings Read group Id Samplen47 Cleandata Interval between seed substrings Sample Id Samplen47 Cleandata 1 Disallow gaps within Platform ILLUMINA Include int extra ref chars Reporting Func for max non Max mismatches in seed alignment Number of alignments to reports E E Report all alignments IgnoreQuals E Nofw E Norc Effort Give up extending after Maximum number of times will re seed Sorting parameters Delete Sam file of sorting Perform sorted Map Reads Ilustraci n 37 pantalla de Map Read 67 111 Java Eclipse SDK File Edit Navigate Search Project File Run Window Help ei LA breOrOAr yO vu is v Te Quick Acce t3 3 Java 3 Package Explorer 29 n D Outline a 4 i Pruebalevadura An outline is not available 4 GenomaReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refge
40. El siguiente archivo es el GFF este archivo contiene las variantes CNVs encontradas durante la detecci n de variantes y los indeles largos te Samplen47 Cleandata 1MappingFile SV off Ci 2 chri chrI 1 chrI 5 chrI chrI chrI chrI chri chrI 11 chrI 2 chrI chrI chrI chrI 6 chrI 7 chrI 18 chrI 39 chrI y chrI 21 chri chrI Haff version NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools NGSTools 3 CNV 1 11800 29 REPEAT 78 21712 REPEAT 230 1553 1 REPEAT 1594 2819 CNV 11801 27100 2 REPEAT 12289 12662 REPEAT 12698 12908 REPEAT 12957 13256 REPEAT 24078 25673 REPEAT 25983 26324 REPEAT 26609 26920 CNV 27401 27800 2 Deletion 51247 5 Deletion 113004 1 REPEAT 139589 14143 CNV 160201 162300 2 Deletion 160203 1 REPEAT 163228 16376 REPEAT 163787 16403 REPEAT 164263 16442 REPEAT 165872 16598 REPEAT 176651 17715 Deletion 182512 1 CNV 183901 188700 8 Insertion 184620 1 REPEAT 187330 18984 CNV 198401 202800 2 CNV 204001 206300 1 REPEAT 204290 20444 REPEAT 204502 20462 REPEAT 205674 20610 REPEAT 206187 20805 CNV 208001 221900 2 REPEAT 218596 21883 REPEAT 219321 22031 REPEAT 220384 22079 REPEAT 2208
41. Genomic Location Heterozygosity Rate 0 001 Sample Id Sample08 veast1 Minimun Genotype Quality Score 49 Maximun Base Quality Score 30 Alternative Allele Coverage Min Max E Ignore Lower Case Reference E Include Secondary Alignments Genotype All Covered Sites Maximun Alignment Per Start Position 2 Ignore Bases 5 0 Ignore Bases 3 0 Known CNV File m Known Variants File m Cancel Ilustraci n 91 validaciones de campos y mensajes que advierten al usuario antes de ejecutar cualquier proceso 101 nl Variants Detector _ n File Di Desarrollo runtime EclipseApplication PruebaLevaduralpruebal Sample08 ve A Reference File DADesarrollo runtime EclipseApplication TestNGSEP Reference sacCer SGD refi fu Output File Prefix D Desarrollo runtime EclipseApplication PruebaLevadura prueba salida im Ploidy should have an integer number Maximun Alignment Per Start Position should have an integer number E Skip Repe Minimun Genotype Quality Score should have an integer number Execution Maximun Base Quality Score should have an integer number Skip New Genomic Location Invalid format Skip Strud E Skip SNV SNVs Det Genomic Location sd Ploidy 3 5458 Heterozygosity Rate 0 001 sample Id Sample08 yeastl Minimun Genotype Quality Score qg Maximun Base Quality Score a Alternative Allele Coverage Min Max E Ignore Lower Case Reference E Include S
42. NGSTools con respecto a los criterios definidos en la p gina 17 para evaluar la usabilidad La calificaci n obtenida por cada interfaz para determinado criterio es justificada en la p g 18 y 19 Criterios de Stand Alone Plug in evaluaci n Tabla 2 tabla con el resultado de la evaluaci n de tres Interfaces Despu s de llevar a cabo esta comparaci n se ha tomado la decisi n de dar usabilidad a la librer a NGSTools mediante la implementaci n de interfaces Plug in se ha denominado como nombre para la interfaz de usuario GUI a NGSEP acr nimo del t rmino en ingl s NGST ools Eclipse Plug in Teniendo en cuenta el contexto anterior a continuaci n se presentan los objetivos definidos para la realizaci n de este trabajo 1 3 OBJETIVO GENERAL Dise ar y construir una interfaz gr fica que proporcione una mejor usabilidad y accesibilidad a la librer a NGSTools 1 3 1 OBJETIVOS ESPEC FICOS v Definir el contexto para el cual se va implementar la interfaz 20 v Implementar la interfaz gr fica en NGSTools v Evaluar la usabilidad de la interfaz gr fica implementada en NGSTools CAP TULO 2 ESTADO DEL ARTE Y MARCO TEORICO En este apartado se explicar los conceptos m s relevantes que involucran el desarrollo de la herramienta De igual forma se expone cada una de las herramientas actuales que cumplen con el mismo flujo de trabajo presentado por la librer a NGSTools Una vez expuesta cada una de las herra
43. Notepad r el Desktop A configurati File Edit Format View Help J Downloads I dropins startup gt Recent Places IL features plugins org eclipse equinox launcher_1 3 0 v20120522 1813 jar s launcher library h p2 plugins org eclipse equinox launcher win32 win32 x86 64 1 1 200 v20120913 144807 3 Libraries showsp lash A plugins e pse platform Documents Kk readme launcher XxMaxPermSize Music d 512m eciipsepro launcher defaultAction Pictures artifactsxml OpenF 1 le vmargs B videos eclipse exe 1 xms1500m Xmx3500m 3 eclipse ini amp Computer A B eclipsecexe amp System Reserved 62423 C epl v10 html DATA 62423 D N notice html amp Network eclipse ini Date lified 4 19 2013 2 50 PM Date created 2 4 2013 2 02 PM Note Before editing this file make sure that eclipse is closed otherwise the changes will not be applied Inside that file find the line that says Xmx m This line indicates how much memory eclipse is allowed to use In this example we put Xmx3500m It is recommended to use 3 Gb if your RAM memory is higher than 6 Gb otherwise you can try with 1500mb or start decreasing until the eclipse launch successfully Save and close the file and launch again the eclipse Note The next step is no required if you did the previous one It only affects the execution of a single application 165 Increasing eclipse memory for one application In order to increase
44. Number G Type Float Description Genotype likelihoods gt 9 FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities 10 FORMAT lt ID GQ Number 1 Type Integer Description Genotype quality gt 11 FORMAT lt ID DP Number 1 Type Integer Description Read depth gt 12 FORMAT lt ID AC Number A Type Integer Description Counts for observed alleles gt 13 FORMAT lt ID AAC Number Type Integer Description Counts for all possible alelles gt 14 CHROM POS ID REF ALT QUAL FILTER INFO FORMAT BS6412 ER7A Unselected 15 chrI 75 a c T 104 CNV 3 GT GL GP GQ DP M 0 0 0 0 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 10 43 0 9 0 0 0 0 66 66 3 0 0 0 3 1 2 88 16 chrI EXE ACE 139 CNV 3 GT GL GP GQ DP s 0 0 0 0 0 0 1 0 1 0 0 1 1 1 1 1 1 1 1 13 91 1 21 0 0 0 0 69 69 4 0 0 0 4 1 6 85 17 chrI 84 G A 139 CNV 3 GT GL GP GQ DP AMC 0 0 0 0 0 0 1 0 1 0 0 1 1 1 1 1 1 1 1 13 91 1 21 0 0 0 0 69 69 4 4 0 0 0 5 75 18 chrI 90 A C 41 CNV 3 GT GL GP GQ DP 0 0 0 0 0 0 0 0 0 04 1 83 18 96 75 0 P 75 6 6 0 0 0 0 0 0 0 0 0 1 1 1 13 91 3 62 27 62 0 41 0 41 12 8 4 0 0 19 chrI 100 GG GA GAT 255 CNV 3 GT GL GP GQO MP AC 2 2 2 2 2 2 2 2 9 2 9 2 9 2 1 21 1 21 0 02 0 0 0 0 0 69 69 10 0 0 4 1 1 1 1 1 2 2 2 2 43 72 23 74 20 75 25 7 20 chrI 103 E T 235 a CNV 3 GT GL GP GQ DP MM 31 0 3
45. Project Run Window Help L1 v Y ES Y F v Q v H amp vi a E c v y v Quick Access ES Java HE Package Explorer 3 ap cer Bs Outline 22 s E 4 gt PruebaLevadura An outline is not available 4 amp GenomaReferencia sacCer SGD refgenome 20110301 fa 4 gt Lecturas gt Samplen47_Cleandata_1 fq Samplen47_Cleandata_2 fq 23g NGSEPView 23 0 No operations to display at this time sacCer SGD refgenome 20110301 fa PruebaLevadura GenomaReferencia Ilustraci n 31 proyecto PruebaLevadura con dos lecturas de levadura y el genoma de referencia de levadura 4 3 EJECUTANDO NGSEP 4 3 1 CREAR INDICE DE BOWTIE2 El primer paso para realizar detenci n de variantes gen micas en NGSEP es indexar el genoma de referencia con el que se va trabajar Se debe crear un ndice para la referencia porque en NGSEP el proceso de mapear lecturas lo hace Bowtie2 un programa especializado en realizar alineamientos mapeo de secuencias haciendo uso de datos NGS Seg n las especificaciones de Bowtie2 se debe indexar la referencia por rendimiento en t rminos de tiempo y funcionamiento en la memoria del sistema que haga uso de la herramienta Bowtie2 construye un ndice a partir de un conjunto o de una sola secuencia de ADN y con Bowtie2 build genera un conjunto de seis archivos con sufijos 0 1 BT2 0 2 BT2 0 3 BT2 0 4 BT2 rev 1 bt2 y rev 2 bt2 Estos archivos juntos constitu
46. Read group ld NG 5197 CBS6412 reac sample ld NG 5197 CB56412 read Platform SOMO URC n seleci one Reporting ILLUMINA CAPILLARY Number of alignmen c454 l SOLD Report all alignments HELICOS IONTORRENT Effort PACBIO 7 Effort Give up extending after Maximum number of times will re seed D lt int gt By selecting the Give up extending after option D you can choose the number of consecutive seed extension attempts that can fail before Bowtie 2 moves on using the alignments found so far A seed extension fails if it does not yield a new best or a new second best alignment The default value is 15 R lt int gt With the For reads w repetitive seeds R option you can choose the maximum number of times Bowtie 2 will re seed reads with repetitive seeds When re seeding Bowtie 2 simply chooses a 183 new set of reads same length same number of mismatches allowed at different offsets and searches for more alignments A read is considered to have repetitive seeds if the total number of seed hits divided by the number of seeds that aligned at least once is greater than 300 In this case the default value is 2 8 Alignment Alignment Length of seed substrings Interval between seed substrings Disallow gaps within Include lt int gt extra ref chars Func for max non Max mismatches in seed alignment IgnoreQuals Nofw Norc AA Length of seed substrings L lt int g
47. Reconocer antes que recordar 42 Pregunta El dise o de la interfaz permite reducir la carga de memoria para un usuario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n SNVer se compone nicamente de dos procesos detecci n de variantes y anotaci n de genes a partir de un archivo vcf llustraci n 20 En este sentido SNVer muestra de manera independiente las pantallas que pertenecen a los procesos mencionados el proceso de anotaci n de genes se abre en el navegador de internet explorer por defecto llustraci n 21 lo cual genera problemas a la hora de recordar informaci n importante del proceso de detecci n de variantes puesto que el usuario debe ir del aplicativo al navegador y viceversa para ver la informaci n que necesita recordar Result D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2 sorted 00 00 0 0 00 0 0 00 0 0 CHROM POS ID REF ALT QUAL FILTER DP AC FS SP PV chri 174 C q PASS 11 11 10 10 5 645029E 3 chri 177 G C PASS 11 11 1 0 0 006 9 570426E chri 201 A C PASS 9 9 10 0 02 8 4107725E chri 209 T c PASS 9 8 1 0 0 035 1 7488753E chri 210 C A PASS 9 8 10 0 035 1 8148089E chri 220 T C PASS 13 6 10 10 1 9223467E chri 220 i C PASS 13 8 0 491 0 035 2 5996194E chri 245 C T PASS 12 10 10 10 1 05101034 chri 249 T PASS 12 12 10 0 019 5
48. Skip Repetitive Regions Detection Genome Size Skip New CNV Detection am Bin Size 100 E Skip Structural Variants Detection Skip SNVs Detection SNVs Detection Parameters Common Parameters Genomic Location Ploidy 2 Heterozygosity Rate 0 001 Sample Id Sample08 veastl Minimun Genotype Quality Score 40 Maximun Base Quality Score 30 Alternative Allele Coverage Min Max E Ignore Lower Case Reference E Include Secondary Alignments _ Genotype All Covered Sites Maximun Alignment Per Start Position 2 Ignore Bases 5 0 Ignore Bases 3 0 Known CNVs File m Known Variants File ss Cancel Ilustraci n 80 Pantalla de NGSEP para detectar SNPs e Indeles 94 E Problems Javadoc 2 Declaration 55D NGSEPView 23 O D Sample yeastl Eo d 8 Sample08_yeastl 1 Ilustraci n 81 Barra de progreso del proceso Find Variants de NGSEP B Sample08_yeast_VD log 5 O amp Outline X 6 Nov 7 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Reference file D Desarrollo runtime EclipseApplication TestNGSEP Reference sacCer_SGD_refgeno Nov 7 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Alignments file D Desarrollo runtime EclipseApplication PruebaLevadura prueba Sample 8_yeast_ Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Heterozygocity rate 0 001 Nov 07 2013 3 39 39 PM net sf ngstools
49. anterior la usabilidad es considerada un atributo de calidad importante a la hora de desarrollar y utilizar un sistema de software A continuaci n y teniendo como referente las diez heur sticas propuestas por Jakob Nielsen y expuestas en el libro Usability Engineering se propone una evaluaci n para calificar la usabilidad de las herramientas 8 En este sentido la siguiente Tabla 3 describe las herramientas actuales que utilizan secuenciaci n de alto rendimiento y detectan variantes estructurales con igual flujo de trabajo a NSGT ools Nombre Sistema Archivos de Otros Archivos de Variantes Herramienta Operativo entrada archivos de salida Identificadas entrada Linux Mac BAM SAM Fasta VCF SNP INDEL Windows Linux Mac BAM SAM Fasta Fasta VCF BAM SNP INDEL Windows SAM Tabla 3 Herramientas que trabajan con datos de NGS y tienen igual flujo de trabajo o pipeline 29 2 8 HERRAMIENTAS RELACIONADAS En este apartado se describe el estado del arte de cada una de las herramientas que se asemejan a NGSTools posteriormente se realiza una comparaci n de usabilidad de interfaces entre estas herramientas y se genera un an lisis de resultados A partir de la llustraci n 6 se puede resaltar que las herramientas GATK UnifiedGenotyper SAMtools y SNVer tienen un flujo de trabajo similar al que ofrece NGSTools puesto que reciben como entrada un archivo SAM BAM y generan archivos de salida en formato VCF al igual que
50. bowtie2 Picard y BreakDancer antiguamente separadas y poco f ciles de manejar para los investigadores en este sentido NGSEP ofrece una soluci n completa que garantiza un flujo de trabajo secuencial Y La integraci n de NGSEP a Eclipse garantiza que ofrezca un excelente sistema de organizaci n de archivos permitiendo de esta manera mantener un orden a la hora generar informaci n a partir de datos NGS v Alintegrar NGSEP a Eclipse se garantiza que proporciona un entorno multiplataforma f cil de usar y extensible para el an lisis de datos de NGS 111 Y La integraci n de NGSEP a Eclipse permite monitorear de principio a fin la ejecuci n de cada uno de los procesos contenidos dentro del men de NGSEP 5 2 TRABAJOS FUTUROS Y Mejorar los algoritmos de detecci n de CNV y SNVs Desarrollar la opci n de sincronizar autom ticamente el editor de Plug ins de Eclipse con las nuevas actualizaciones que se generen en NGSEP sustituyendo la necesidad de descargar y volver a instalar cada vez que se genere una versi n nueva sino que Eclipse autom ticamente descargue las actualizaciones y las instale Actualmente se est construyendo la opci n de realizar m ltiples mapeos con un solo clic a una carpeta contenedora de lecturas de un mismo organismo de esta manera se estar a realizando un multi mapeo en paralelo ahorrando much simo tiempo De igual forma se est construyendo la opci n de realizar detecci n de varian
51. caso de uso 154 llustraci n 105 Diagrama de secuencia Identificar el efecto de variaciones en los genes 155 LISTA DE ANEXOS A Matriz de requerimientos casos de uso diagramas de casos de uso diagramas de secuencia diagrama de clases guiones de casos de uso 118 C Manual de instalaci n de seguimiento de NGSEP 156 10 11 12 GLOSARIO DE T RMINOS Formato SAM seg n lo descrito por Samtools en Sequence Alignment Map Format Specication 2013 SAM acr nimo en ingl s de Sequence Alignment Map format Se trata de un formato de texto delimitado por tabuladores que consiste en una secci n de encabezado que es opcional y una secci n de alineaci n Si est presente el encabezado debe ser antes de la las alineaciones Las l neas de cabecera empiezan con Mientras que las l neas de alineaci n no Cada linea de alineaci n tiene 11 ELDs obligatorios de informaci n esencial de la alineaci n como la posici n de mapeo y n mero variable de opciones de informaci n espec fica a cerca de una secuencia 14 Formato BAM es el mismo formato SAM que se comprime en el formato BGZF 14 Error No se encuentra el origen de la referencia ADN el cido desoxirribonucleico frecuentemente abreviado como ADN es un cido nucleico que contiene instrucciones gen ticas usadas en el desarrollo y funcionamiento de todos los organismos vivos conocidos y algunos virus y es responsable de su tran
52. contener botones acordes para arrancar el proceso y para cancelarlo adem s posee un men lateral que permite navegar dentro de las otras pantallas que contiene SNVer La generaci n de mensajes con respecto a la informaci n de los procesos es concisa y con informaci n importante del estado actual del proceso Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Ayudar a los usuarios a reconocer diagnosticar y recuperar errores 45 Pregunta La aplicaci n tiene mensajes de error en lenguaje entendible por el usuario y sin c digo de lenguajes de programaci n los mensajes indican el error y sugieren como solucionarlo 5 P li I li id 1 reee Path Settings Aligned Data D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples ER7A_bowtie2_sorted bam Browse Output Directory D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples Browse Reference Setting Target Setting Target Regions Browse dbSNP Setting dbSNP Path Browse Chromosome Column 0 mn 2 SNP_ID Column 3 More Options Ilustraci n 23 Pantalla para detecci n de variantes de SNVer marcando errores SNVer genera mensajes de error en un lenguaje entendible para el usuario final marca las caja de texto donde se genere el error por los datos ingresados del usuario Ilustraci n 23
53. de trabajo de la librer a NGSTools 40 El flujo de trabajo de NGSTools se compone actualmente de las siguientes opciones Mapeo Alineamiento de lecturas Detector de variantes e Mapeo Es el proceso inicial de NGSTools donde se lleva a cabo la comparaci n entre un genoma de referencia y lecturas de secuencias que son el resultado de secuenciadores como illumina y 454 esta comparaci n se hace para realizar alineamientos de lecturas respecto al genoma de referencia e Alineamiento de lecturas Es el segundo proceso de NGSTools se lleva a cabo despu s del mapeo y se encarga de organizar un archivo SAM producto del proceso anterior Mapeo e Detector de variantes Es el componente principal de NGST ools implementa los ltimos algoritmos para la detecci n de SNVs CNVs y variantes estructurales Se enfoca en la comparaci n de un archivo de entrada BAM con las lecturas de un genoma producto de secuenciadores como illumina Sanger 454 contra un genoma de referencia con el fin de encontrar variantes gen micas 40 22 NGSTools tambi n proporciona utilidades para calcular estad sticas de calidad y cobertura lo que facilita llevar a cabo la anotaci n funcional de variantes El formato elegido para procesar las alineaciones de todos los componentes de NGSTools es SAM o BAM que permite integrar NGSTools con programas de mapeo de uso com n como bowtie2 7 La siguiente Ilustraci n 2 muestra el cat logo de var
54. denominado secuenciaci n Sanger el cual perdur por m s de 25 a os siendo utilizado en la gran mayor a de laboratorios gen ticos alrededor del mundo 9 Este m todo permiti secuenciar el Genoma Humano Gracias a la eficacia de Sanger para secuenciar ADN en proporciones de quinientos nucle tidos por lectura y con una tasa de error de alrededor del 1 Adem s contribuy a la comunidad cient fica en la abstracci n de informaci n esencial de sus estudios de caso Pese a que Sanger es eficaz a la hora de secuenciar ADN y genera pocos errores es demasiado costoso llevar a cabo su implementaci n Por este motivo fue necesario el surgimiento de una nueva era de secuenciaci n que obtuviera resultados similares o mejores a Sanger a menor precio de implementaci n Esta nueva era se denomin NGS siglas en ingles de Next Generation Sequencing 18 Desde la introducci n de NSG como tecnolog a se ha visto una gran transformaci n en la forma como los cient ficos extraen informaci n gen tica de los sistemas biol gicos revelando una visi n sin l mite acerca del genoma de cualquier especie 10 Las soluciones alrededor de NGS han aumentado de manera exponencial El desarrollo de soluciones ha mejorado la comprensi n de la estructura gen mica y la funci n de los distintos organismos con ayuda de los ltimos avances en hardware y software lo que ha permitido realizar resecuenciaci n sobre informaci n obtenida en el pasa
55. dentro de una secuencia de ADN porque esto les permite diagnosticar e identificar genes para determinada especie 4 3 6 MEZCLAR VCFS Este proceso es el encargado de mezclar la informaci n con respecto a variantes gen micas de varias muestras que compartan relaci n gen tica con el fin de generar un solo archivo VCF con dicha informaci n Para acceder a este proceso se debe seleccionar el historial de variants detector luego dar clic derecho encima de la selecci n y buscar dentro de NSGEP Menu la opci n Merge VCF Antes de comenzar este proceso se tienen que tener por lo menos tres muestras con informaci n gen tica relacionada por ejemplo el caso de dos pap s y un hijo de levadura Con estas muestras se debe proceder a realizar el cuarto proceso de detecci n de variantes en caso de que se encuentren ya secuenciadas y alineadas con 79 respecto al genoma de referencia de levadura en un archivo BAM sino se debe comenzar desde el primer proceso con las lecturas crudas En este ejemplo se van utilizar las siguientes muestras de levadura 4 gt TrioLevadura CBS6412 bowtie sorted bam ER7A_bowtie2_sorted bam B Unselected_bowtie2_sorted bam Ilustraci n 56 archivos usados para ejecutar Merge VCF Siendo CBS6412 bowtie2 sorted bam y ER7A bowtie2 sorted bam los papas de Unselected bowtie2 sorted bam Primer paso Y Detecci n de variantes gen micas para la muestra papa CBS
56. eene 48 llustraci n 26 Grafica producto de los valores obtenidos por cada una de las herramientas evaluadas respecto a las 8 heur sticas de usabilidad eise sese 51 llustraci n 27 Grafica producto del porcentaje total obtenido por cada una de las herramientas evaluadas respecto a las 8 heur sticas de usabilidad ccccconccccconcnnccoononocoonononnononnnnononnnnnanononnanonnss 52 llustraci n 28 Entorno de trabajo de Eclipse 32 enirar eese eene nnns 56 llustraci n 29 Arquitectura de la Plataforma Eclipse 32 isses eene 57 Ilustraci n 30 creando un general Project de Eclipse para empezar a trabajar con NGSEP 62 llustraci n 31 proyecto PruebaLevadura con dos lecturas de levadura y el genoma de referencia de suce Ter 63 Ilustraci n 32 accediendo al proceso crear ndice de bowtie ossis nnns 64 llustraci n 33 pantalla de create index bowtie ooccooncccnnoconoconoconoconoconoconoconnonononononononononononononanennnnnnnnns 64 llustraci n 34 barra de progreso generada por Create index bowtie ooccconcconcconnoconoconeconoconiconinonnns 65 Ilustraci n 35 archivos generados por el proceso Create index bowtie occcconccconccccnncconoconncconncconnonons 65 llustraci n 36 accediendo al proceso Map Reads coooncccocccccnnccccncoononocnononnocnnnnnonononnonnnnonnnnnnnnnnnnnonannonannnns 66 ll
57. file obligatorio Si se ingresa un dato diferente a entero en el campo read lenght el sistema despliega el mensaje campo read lenght solo recibe tipo de datos enteros Casos de uso CU 13 Generar Log Iotactonados CU 11 Ingresar archivo BAM organizado CU 23 Generar archivo de estad sticas de cobertura CU 25 Generar grafica de estad sticas de calidad Requerimiento El sistema debe permitir Determinar la cantidad de lecturas que cubre cada posici n del genoma Fuente Juan Camilo Quintero Fecha Creacion Octubre 18 del 2012 Fecha Ultima 1 2012 Modificaci n MOBILE 149 DIAGRAMAS DE SECUENCIA Biologo Ti startidProcess 1 1 Execute event 1 1 1 setAlfiefesAli 1 1 2 open 2 createContents i 3 ButtonStart process 3 1 syncMapRead name 3 2 setCommandPrefix command 3 3 setKeepUnSorted KeepUnSorted 3 4 setSkipSorting SkipSorting 3 5 setSample sample alt 4 schedule llustracion 102 Diagrama de secuencia Mapear lecturas con respecto a un genoma de referencia 150 bd igm for UML Community Edito Biologo 1 start idProcess 1 1 Exedute event 1 1 1 setAlifile resAli i 1 1 2 open 2 createContents
58. fin de organizar las lecturas alineadas con respecto a la referencia generando un archivo de salida con los alineamientos nicos y simples de cada lectura Descripci n El sistema debe permitir comparar las lecturas presentes en un archivo BAM con el genoma de referencia del organismo posteriormente se procede a indicar el n mero de errores de secuenciaci n para cada posici n del genoma en que se encuentre una lectura Se debe tener una distribuci n homog nea alrededor de cada lectura 121 Tabla 15 requerimiento n mero siete Descripci n ID Reg Prioridad Requerimiento Mezclar tres archivos Padre Alta con variantes y comparar contra la referencia en b squeda de las posiciones que se encuentran con variaci n Descripci n Fecha DD MMM YY YY 18 03 2013 Casos de Uso relacionados CU_1 Mapear lecturas con respecto a un genoma de referencia CU_2 Ordenar archivo SAM CU_4 Encontrar Variantes El sistema debe permitir Mezclar tres archivos con variantes y comparar contra la referencia en b squeda de las posiciones que se encuentran con variaci n gen tica y facilitar su an lisis desde ancestros al organismo como los padres generando concordancia de genotipos Tabla 16 requerimiento n mero ocho Descripci n ID Reg Prioridad Requerimiento Determinar la cantidad Padre Alta de lecturas que cubre cada posici n del genoma Descripci n Fecha DD MMM Y
59. from the NGSEP menu 3 Make sure that you only select one Bam file Java Eclipse SDK e e ml File Edit Source Refactor Navigate Search Project Run Window Help r amp x vO Qv 490 9595 k ES amp Java Package Explorer 8r Outline 4 amp YeastSequencing An outline is not available 4 Mapping CB56412 bowtie2 sorted bam ER7A bowtie2 sorted bam New Unselected_bowtie2_sorted Open F3 Reads Open With NG 5197 CBS6412 read 1 fc ES Show In Alt Shift W gt NG 5197 CBS6412 read 2 fc NG 5197 ER7A read 1 fq Copy Ctri C Copy Qualified Name Paste CtrieV NG 5197 ER7A read 2 fq 4 amp Reference sacCer SGD refgenome 201 X Delete Delete sacCer SGD refgenome 201 Build Path sacCer SGD refgenome 201 Refactor Alt Shift T gt sacCer SGD refgenome 201 5 ay Import sacCer SGD refgenome 201 sacCer SGD refgenome 201 L3 Export sacCer SGD refgenome 201 E E HM fresh sacCer SGD refgenome 201 o Refres FS Assign Working Sets Run As Debug As Team Compare With Replace With LI LI LI NGSEP Menu Map Reads Properties Alt Enter Sort Alignment Sam Pairing Find Variants I Merge VCF K Population VCF Filter sto di e p WO VCF Converter Variants Functional Annotation Ste p t h ree Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics CBS6412_bowtie2_sorted bam YeastSequencing Mapping 4 The fi
60. in DNA by primed synthesis with DNA polymerase J Mol Biol 94 3 441 448 ILLUMINA INC 2011 2013 An Introduction to Next Generation Sequencing Technology Disponible en http www illumina com Documents products lllumina Sequencing Introduction pdf Consultado el 20 de marzo del 2013 BIOO SCIENTIFIC CORP 2013 NGS Spotlight Single Nucleotide Polymorphisms Disponible en http blog biooscientific com ngs spotlight single nucleotide polymorphisms Consultado el 20 de agosto del 2013 JOSE A PEREZ 2004 Mutaci n ADN disponible en http press2 nci nih gov sciencebehind cancersp cancersp42 htm Consultado el 24 de Mayo de 2013 113 13 14 15 16 17 18 19 20 21 22 23 24 BROAD INSTITUTE 2012 GATK Disponible en http www broadinstitute org gatk index php Consultado el 15 de Julio del 2013 LI H HANDSAKER B WYSOKER A FENNELL T RUAN J HOMER N MARTH G ABECASIS G Durbin R and 1000 Genome Project Data Processing Subgroup 2009 The Sequence alignment map SAM format and SAMtools Bioinformatics 25 2078 9 PMID 19505943 WEI Z WANG W HU P LYON GJ AND HAKONARSON H SNVer a statistical tool for variant calling in analysis of pooled or individual next generation sequencing data Nucleic Acids Research 2011 PMID 21813454 WATSON JAMES D AND FRANCIS H C CRICK 1953 a structure for deoxyribose nucleic acid nature 171 7
61. la variante es un genotipo heterocigoto para la muestra Con esta informaci n los bi logos pueden mirar que tan cercanas son las muestras analizadas entre ellas para mirar por ejemplo relaciones ancestrales y familiares mirar la diversidad gen tica de las muestras la cantidad de heterocigotos si hay estructuras poblacionales Otro archivo generado por el proceso fue el archivo CNV a diferencia del archivo VCF este archivo contiene solamente el cromosoma donde encontr variantes CNVs las posiciones de inicio y de fin dentro del genoma de referencia donde est ocurriendo la variante el n mero de veces que se repite la variante dentro de diferentes posiciones del genoma e informaci n de calidad la siguiente imagen muestra una parte del CNV generado por Find Variants para la secuencia de levadura analizada 74 tel Samplen47 Cleandata 1MappingFile cnv lx 1 chrI ChrI 3 chrI chrI chrI chrI chrI chrI chrI 1 chrI A chrl chrI chrI 14 chrI 15 chrI 1 chrI chrI chrI chrI chrI 21 chrI 22 chrI 1 1180 78 217 230 1553 1594 11801 12289 12698 12957 24078 25983 26609 27401 139589 160201 163228 163787 164263 165872 176651 183901 187330 198401 204001 204290 204502 205674 206187 208001 218596 219321 220384 220814 221428 223501 225413 226901 221854 228074 0 12 2819 27100 12662 12908 13256 25673 26324 26920 27800 141435 162300 163767
62. llevan a cabo demasiados procesos para acceder a la informaci n que desean utilizar en sus experimentos de laboratorio generando excesivo consumo de tiempo y desgaste Por otra parte el hecho que estas herramientas bowtie2 Picard y SAMTools se encuentren separadas dificulta much simo el orden causando p rdida de datos En este sentido la librer a NGSTools es importante en tres aspectos 16 1 Calidad de datos 2 Tiempo de respuesta eficiente 3 Posibilidad de uso en software y hardware de computadores corrientes Un factor determinante para la comunidad cient fica de CIAT e industria es poder acceder y utilizar esta librer a NGSTools de manera f cil y muy intuitiva que les permita llevar el proceso de an lisis de datos NGS sin necesidad de tener muchos conocimientos en otro tipo de estudio diferente al que conocen En consecuencia y despu s de analizar el poco tiempo para desarrollo requerido por el cliente los est ndares actuales para desarrollo de herramientas NGS y el conocimiento del desarrollador se ha llegado a la conclusi n que la mejor manera de dar usabilidad a la librer a NGSTools bajo una de las siguientes interfaces 1 Usabilidad mediante la implementaci n de interfaces Stand Alone 2 Usabilidad mediante la implementaci n de interfaces Web 3 Usabilidad mediante la implementaci n de interfaces Plug in DEFINICI N DEL CONTEXTO DE NGSTOOLS En la actualidad con la revoluci n de la tecnolog a N
63. log 78 El resultado de la ejecuci n de Functional Variants Annotation arroja el Samplen47 Cleandata 1MappingFile Annotated vcf ti Samplen47_Cleandata_1MappmgFile_Annotated vcf EJ archivo Hifileformat VYCFv4 1 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs INFO lt ID TA Number 1 Type String Description Variant annotation based on a around this variant gene model gt INFO lt ID TID Number 1 Type String Description Id of the transcript related to the variant annotation gt INFO lt ID TGN Number 1 Type String Description Name of the gene related to the variant annotation gt INFO lt ID TC don position of the FORMAT lt ID GT Number 1 Type String Description Genotype gt FORMAT lt ID GL Number G Type Float Description Genotype likelihoods gt HIFORMAT lt ID GP FORMAT lt ID GQ Number 1 Type Integer Description Genotype quality gt FORMAT lt ID DP Number 1 Type Integer Description Read depth gt FORMAT lt ID AC Number A Type Integer Description Counts for observed alleles FORMAT lt ID AAC Number Type Integer Description Counts for CHROM POS ID REF ALT QUAL FILTER INFO FORMAT O Number 1 Type Float Description One based co Samplen47 Cleandata 1 Number G Type Integer Description Genotype posterior probabilities gt start of the variant The decimal is the codon position Bob Marley
64. los alelos Bi logo An lisis Selecciona el historial de variants detector Luego de seleccionar el historial de variants detector da clic derecho sobre este y busca la opci n NGSEP Menu dentro de la ventana desplegada al lado derecho de la selecci n Una vez encontrado el men de NGSEP ubica el puntero encima del men 4 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submen s El usuario ubica la opci n El sistema valida el clic y despliega de NGSEP llamada Merge la pantalla de Merge VCF con una VCE tabla de cinco columnas y con los registros del numero de muestras ejecutadas en variants detector organizando la tabla con el nombre de la muestra archivo BAM genoma de referencia y archivo generado con variantes VCF adicionalmente se crear un combo box que va permitir al usuario seleccionar si quiere mezclar la muestra 141 7 El sistema sugiere un archivo de salida con la misma ruta y nombre del archivo de entrada pero la agregaci n de MergeFile vcf 8 Selecciona las muestras que desea mezclar clic en el bot n 10 Valida el n mero de muestras determine list of variants seleccionadas 11 Mezcla todas las variantes comunes en las muestras seleccionadas y crea un archivo VCF con todas estas variantes 12 Genera barra de progreso que indica el avance del proceso y elimina la barra cuando finaliza 13 Una vez finalizado e 14 Valida
65. muestra Unselected bowtie2 sorted bam 81 Ejecuci n de Find Variants para las tres muestras B Java Eclipse SOK file Edit Navigate Search Project File Run Window Help eA x Hv OvrQriGore bd Oy 13 Package Explorer B 99 4 15 Pruebalevadura i amp GenomaReferencia Lecturas 4 iz TnolLevadura CBS6412 bowtie2 sorted bam ER7A bowtie2 sorted bam Unselected bowtie2 sorted bam 2 HistoryFileVCF ini References projectNGSEP ReferencesGff3 projectNGSEP Problems Javadoc i Declaration Gl NGSEPView ReferencesMap projectNGSEP Variants Detector Process Uy TestNGSEP q A A Ka VDER7A_bowtie2 Variants Detector Process Ce me VDCBS6412_bowtie2 Variants Detector Process 13 amp Outline A An outline is not available VDUnselected_bowtie2 Ilustraci n 60 ejecuci n de Find Variants con las tres muestras Variants Detector Process 7 y Y A continuaci n se accede por primera vez a la pantalla de Merge VCF para acceder a este proceso se debe seleccionar el historial de Find Variants con las tres muestras ya ejecutadas file Edit Source Refactor Navigate Search Project File Run Window Help cmo A 86vOvrQar r Gry 1 Package Explorer 4 mc 4 5 Pruebalevadura i GenomaReferencia Lecturas 4 amp TrioLevadura CBS6412 bowtie2 sorted bam ER7A bowtie2 sorted bam Unselected bowtie2 sorted bam HistoryFil New E Reference Open F3 Referen
66. objetivo ser un formato que v Sea lo suficientemente flexible como para almacenar toda la informaci n generada por los programas de alineaci n como bowtie2 Y Sea lo suficientemente simple para ser f cilmente generado por los programas de adaptaci n o conversi n de formatos de alineaci n existentes v Compacto en tama o del archivo v Permita que el archivo que se indexa sea por posici n gen mica para recuperar de manera eficiente todas las lecturas para su posterior alineaci n a un locus 14 2 8 2 1 Interfaz SAMTOOLS no cuenta con interfaz gr fica de usuario El acceso a todas sus herramientas es por l nea de comandos Actualmente se encuentra disponible para el sistema operativo Linux para Windows tambi n aunque no ofrece mayor documentaci n para su uso en este sistema operativo Todas las herramientas de SAMTOOLS se llaman utilizando la misma estructura b sica de comando He aqu un ejemplo sencilo que detecta SNP e Indeles de una secuencia de levadura oamtools mpileup uf home juan workspace TestPlugin src sacCer SGD refgenome 20110301 fa home juan Desktop Samtools Unselected bowtie2 sorted2 bam bcftools view vcg home juan Desktop Samtools UnselectSamtools vcf El argumento Samtools se utiliza para acceder a las funcionalidades de SAMTOOLS mpileup sirve para utilizar el flujo de trabajo para detectar variantes gen micas uf se utiliza para referenciar la ruta que contiene el genom
67. posee m s de 40 clases 126 AbstractHandler org eclipse core commands a PlugMultiVariantsDetector Java Class gt gt lt lt Java Class gt gt lt lt Java Class gt gt netsf ngsep control PlugMultiMapping PlugMapRead PlugVariantsFunctionalAnnotator net sf ngsep control net sf ngsep control net sf ngsep control AbstractUlPlugin org eclipse ui plugin A lt lt Java Class gt gt Activator netsfnosep activator zara Class Plug Statistics net sf ngsep control lt lt Java Class PlugCoverage Statistics Java Class _ PlugMergeVCF net sf ngsep control net sf ngsep control Java Class gt gt lt lt Java Class MainVariantsFunctionalAnnotator net sf ngsep view Java Class gt gt Java Class MainPosition Statistics net sf ngsep view lt lt Java Class MainMergeVCF net sf ngsep view MainMultiMapping net sf ngsep view MainCalculateCoverage Statistics net sf ngsep view MainMultiVariantsDetector net sf ngsep view b I ShellVariantsDetector net sf ngsep view lt lt Java Class SyncCalculateCoverage Statistics lt lt Java Class SyncVariantsFunctional net sf ngsep control lt lt Java Class gt gt MainMapRead net sf ngsep view lt lt Java Class gt gt lt lt Java Class gt gt lt lt Java Class gt gt SyncMergeVCF SyncDetermineVariants SyncStatistics net sf ngsep control netsfng
68. pr ctico Mc Graw Hill SOFTWARE ENGINEERING 2004 ICSE Disponible en http resources sel cmu edu asset files Presentation 2009 017 001 24441 pdf Consultado el 8 de noviembre del 2013 CENTRO DE BIOLOG A MOLECULAR 2011 SECUENCIACI N MASIVA Nuevas tecnolog as y sus aplicaciones Madrid Espana WEB RADA G 2007 Estudios de cohortes Disponible en http escuela med puc cl Recursos recepidem epiAnal3 htm Consultado el 15 de Julio del 2013 SNYDER M DU J amp GERSTEIN M 2010 Personal genome sequencing current approaches and challenges Genes amp Development 24 5 423 431 116 47 WILEY J amp SONS 1996 Practical Software Maintenance New York 48 ISO 9126 1997 The ISO 9126 Standard Disponible en http www issco unige ch en research projects ewg96 node14 html Consultado el 23 de julio de 2013 117 ANEXO A FORMATO DE MATRIZ DE REQUERIMIENTOS FUNCIONALES Tabla 9 requerimiento n mero uno ID Reg Prioridad Fecha DD MMM YY YY La comparaci n entre Padre Alta 18 10 2012 un genoma de referencia y lecturas gen micas esto con el fin de poder realizar resecuenciaci n Descripci n Requerimiento Descripci n Casos de Uso relacionados CU_1 Mapear lecturas con respecto a un genoma de referencia El sistema debe permitir comparar un genoma de referencia contra lecturas que provienen de secuenciadores como lllumina y 454 Esto con el fin de hacer al
69. refgenome 2011 4 Refresh FS Assign Working Sets Run As Debug As Team gt Compare With gt Replace With NGSEP Menu gt Map Reads Properties Alt Enter Sort Alignment Sam Pairing Find Variants Merge VCF i Population VCF Filter VCF Converter Variants Functional Annotatio CBS6412_bowtie2_sorted bam YeastSequencing Mapping Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics Screen Sam Pairing 217 8 Sam Pairing Les a File D YeastSequencina Mappina CBS6412 bowtie sorted bam Output File D YeastSequencina Mappina CBS641 bowtie sortedSamPairina Library Type Max Difference Distance Best Hit Avg Insert Lenath Standard Deviation Read Group 4 The first field File holds a text field with the path of the selected file However you can also use the browser on the right in case you want to change the input file A File y D NeastSeauencina Mappina CBS6412 bowtie sorted bam A 5 Below you will find Output File this text field holds the output file that you browsed we recommend using the same project directory E File MESSI E LH Lec du rt Ris ES bowtie sortedSamPairina 6 Library Type When you choose this option you have to select from Forward reverse and Reverse Forward e Forward reverse used when the insert length is less than 1000 is called paired end e Reverse forward used when
70. s Plug ins que corren sobre la plataforma de ejecuci n Ilustraci n 28 Entorno de trabajo de Eclipse 27 llustraci n 28 dichos subsistemas definen puntos de extensi n para permitir agregar funcionalidad a la platatorma 27 3 8 PLATAFORMA DE EJECUCI N PLATFORM RUNTIME Se trata del nico componente de eclipse que no es un Plug in Al iniciar la plataforma de ejecuci n se descubren de manera din mica el conjunto de Plug ins disponibles Se leen sus archivos de manifiesto y se construye en memoria un registro de Plug ins que est disponible a trav s de la API de la plataforma La plataforma mantiene un registro de aquellos Plug ins instalados as como de las funcionalidades que proveen no podr n ser a adidos nuevos Plug ins despu s del inicio Para agregar nuevas funciones al sistema se usa un modelo de extensi n comun Los puntos de extensi n son lugares bien definidos dentro del sistema que permiten ser extendidos por Plug ins cuando una herramienta contribuye con una implementaci n para 57 determinado punto de extensi n se dice que agrega una extensi n a la plataforma A su vez cada Plug in puede definir sus propios puntos de extensi n de tal forma que puedan ser extendidos por otros Este mecanismo de extensi n es la nica manera de agregar funcionalidad a la plataforma Un objetivo muy importante del runtime es que usuarios finales no sufran desventajas a causa del uso de memoria por aquellos Plug i
71. the insert length is more than 1000 is called mate pair Library Type select one 218 select one A torward Reverse 7 feverse forward 7 Max Difference Distance Best Hit In this field enter the number of the maximum distance accepted among the best hit and the rest The best is taking into account as the position of a couple of reads in a genome with netter acceptance AS Max Difference Distance Best Hit 8 Avg Insert Length Enter the size of the fragments that you hired The default is 500 bps wg Insert Length 9 Standard Deviation Enter a number that represents a measure of dispersion which means how much can the values move away from the average entered in the previous field Avg Insert Length Standard Deviation A 10 Read Group Enter the name of the set of reads for the output files Read Group Y 11 Use the button with the label Sam Pairing to execute if you want to close the window click on cancel Final Result for Sam Pairing At the end of this process you will see a Bam file with the best sets of paired reads 219
72. 0 Alternative Allele Coverage Min Max El lgnore Lower Case Reference Include Secondary Alignments Maximun Alignment Per Start Position 2 Ignore Bases 5 0 Ignore Bases 3 0 Known CNVs File m Known Variants File Find Variants Cancel jJ Genomic Location optional In this field enter a specific location in the genome in order to detect SNPs This is the format accepted chr21 33 031 197 33 041 570 A Note you must be aware of the number of chromosomes and range of detection Heterozygosity Rate This field is intended to enter the probability of finding in every certain position an heterozygous SNPs Minimun Genotype Quality Score Indicate the minimum accepted value of probability to consider an error Phred Score 192 10 Maximun Base Quality Score Maximum score allowed by allele Alternative Allele Coverage Maximum and minimum number of alleles that can present a position Ignore Lower Case References Select this option if you want to skip bases in lower case Maximun Alignment Per Start Position Use this quality filter to allows to correct some errors produced by PCR Amplificaction Artefacts Known CNVs File In this file you can enter the path of a CNV file that can be used in you detection Common Parameters This section holds some parameters that are related to all processes in the Variants detection Common Parameters Ploidy 2 sample Id CBS6412
73. 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 14 05 5 72 24 03 0 chrI 257 A c CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 39 4 26 43 16 60 0 0 60 15 13 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 30 0 6 34 40 24 chrI 262 A G CNV 3 GT GL GP GQ DP AAC 1 1 1 1 6 96 4 52 44 7 8 1 0 0 15 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 125 18 11 45 6 77 0 0 7 chrI 266 7 lt A CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 01 4 52 51 86 72 0 0 72 15 0 0 0 15 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 75 01 12 97 73 chrI 268 A C CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 5 4 53 46 48 42 0 0 42 16 14 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 49 01 14 07 99 chrI 269 C A CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 48 4 52 48 68 42 0 0 42 16 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 52 17 14 77 117 iil D Normal text file length 20959530 1ines 10 1n 27 Col 49 Sel 0 0 Dos Windows ANSI INS Final Result for Merge VCF In this final VCF file with genomic variants should see matching each mutation to VCF file for the selected genotype 200 Variants Functional Annotator This process is aimed to compare a catalog of genomic variants such as SNPs and Small indels with a catalog of gene annotations and a reference genome will obtain variants but also adding the gene function ACCESS TO VARIANTS FUNCTIONAL ANNOTATOR 1 The first step in order to access to Variants Functional Annot
74. 0 0 1 1 1 1 1 1 66 93 29 24 49 63 0 255 0 255 42 12 19 0 8 31 chrI 93 T c r A A CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 2 17 15 35 110 77 255 0 0 255 50 0 0 1 44 32 chri 100 GG GA GAT 255 CNV GT GL GP GQ DP AC 1 1 1 1 1 1 1 2 2 177 08 55 31 37 08 145 11 23 35 140 33 0 0 0 0 77 0 255 81 0 61 16 33 chrI 102 ES 133 CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 14 24 21 3 158 59 255 0 0 255 74 0 64 0 6 34 chrI 103 c G 433 CNV GT GL GP GQ DP AC M l l 4 7 91 88 70 51 178 33 0 0 0 0 93 52 17 35 chrI 105 A T 46 CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 18 05 34 96 224 75 255 0 0 255 99 89 4 0 5 36 chrI 107 c A 61 CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 5 41 32 22 257 63 255 0 0 255 107 2 104 0 0 37 chri 114 T A C 255 CNV GT GL GP GQ DP AC 0 0 0 0 0 0 0 0 0 17 92 40 74 313 82 55 96 315 92 331 13 255 0 0 0 0 0 255 137 127 7 0 38 chrl 115 E AIT CNV GT GL GP GQ DP AC 0 0 0 0 0 0 0 0 0 64 89 82 93 322 06 80 76 306 77 319 58 154 0 0 0 0 0 255 141 111 7 8 39 chrI 117 A G 255 CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 1 1 1 106 97 43 47 247 3 0 255 0 255 150 100 0 43 0 Normal text file length 15811558 4lines 15 1n 18 Col 105 Sel 0 0 Dos Windows ANSIas UTF 8 INS After performing this step with the three selected files proceed to click on the List Merge screen and select the new VCF files and click on Merge vcf i Merge VCF O List Merge For VCF Sample ID VCF File Name BAM Name Refere
75. 013 1 05 PM late created 2 4 2013 1 05 PM 7 Application Size 305 KB Eclipse will look for your java virtual machine If it is not recognized please follow the next directions Once installed you must edit the PATH variables In windows you can access them trough MY PC PROPERTIES ADVANCED OPTIONS Click on environment variables search for PATH Variable and edit it adding a and the path for the bin folder from the java folder where you can find the executable files of eclipse for example C Program Files Java jdk1 6 0_20 bin Restart your PC so that the change will be applied and Java will be available for all the system and therefore for eclipse 164 Increasing eclipse memory It is highly recommended to increase the values of memory granted for eclipse because NGSEP runs processes which are demanding producing exceptions in some functionalities when there is not enough memory assigned to eclipse The most common error that reflects this issue would be Exception in thread main java lang OutOfMemoryError Java heap space In order to be able to increase these values of memory locate eclipse folder and edit a file called eclipse ini which looks like something like the following picture Je i gt Computer DATA 62423 D Desarro gt gt Juno 64 bits eclipse EPA p NL m c E 2 Organize a Open Print Burn New folder z i e Favorit j z eclipse ini
76. 0301 fa sacCer SGD refgenome 20110301 rev 1 bt2 sacCer SGD refgenome 20110301 rev 2 bt2 HistoryFileVCF ini References project NGSEP D NGSEPView No operations to display at this time Mapping YeastSequencing Merge VCF This process is divided in two phases the first one is intended to determine a list of variants found in at least one of the VCF files that were generated in the variants detection process creating one common VCF file Afterwards the process requires running again Variants Detector for every sample but using the mentioned common file in the known variants field Finally you will be able to merge those new VCF files showing the inheritance from parents to offspring in terms of changing alleles ACCESS TO MERGE VCF 1 The first step is making sure that you have the detector variants history file with three samples otherwise you have to execute Variants detector for the target samples 2 Click on the file named HistoryFileVCF ini and choose the Merge VCF option from the NGSEP menu 3 Make sure that the selected file is Detector Variants history with more than three samples otherwise the process will not work properly 194 O Java Eclipse SUC co C s Damet 800000009005 Lo El ed File Edit Source Refactor Navigate Search Project Run Window Help AENA fquckacces HER I Package Explorer New amp Outine A 4 amp YeastSequencing Open F3 An outline is not available 4 gt
77. 14 22142 ID SV_1 LENGTH 11800 SOURCE CNVnator NSF 4797 NC 2 53 HET 294 ID SV_2 LENGTH 140 SOURCE MultiAlns NSF 15 NC 0 71 HET 14 8 ID SV 3 LENGTH 1324 SOURCE MultiAlns NSF 261 NC 1 21 NUF 4 HET 71 9 ID SV_4 LENGTH 1226 SOURCE MultiAlns NSF 678 NC 3 61 NUF 90 HET 49 55 ID SV 5 LENGTH 15300 SOURCE CNVnator NSF 366 NC 0 15 HET 51 12 ID SV_6 LENGTH 374 SOURCE MultiAlns NSF 14 NC 0 27 HET 4 12 ID SV 7 LENGTH 211 SOURCE MultiAlns NSF 14 NC 0 26 NUF 1 HET 7 14 ID SV 8 LENGTH 300 SOURCE MultiAlns NSF 23 NC 0 36 HET 1 18 ID SV_9 LENGTH 1596 SOURCE MultiAlns NSF 135 NC 0 55 NUF 2 HET 20 11 ID SV 10 LENGTH 342 SOURCE MultiAlns NSF 13 NC 0 18 HET 0 12 ID SV_11 LENGTH 312 SOURCE MultiAlns NSF 16 NC 0 34 HET 6 2 t ID SV 12 LENGTH 400 SOURCE CNVnator NSF 23 NC 0 36 HET 4 1406 21 ID SV_13 LENGTH 34 SOURCE Readpairs NSF 6 13060 46 ID SV_14 LENGTH 36 SOURCE Readpairs NSF 10 5 10 ID SV_15 LENGTH 18 47 SOURCE MultiAlns NSF 516 NC 2 04 NUF 53 HET 23 29 t ID SV_16 LENGTH 2100 SOURCE CNVnator NSF 20 NC 0 06 HET 0 66205 160 ID SV 17 LENGTH 5935 SOURCE Readpairs NSF 53 7 14 ID SV 18 LENGTH 540 SOURCE MultiAlns NSF 26 NC 0 29 HET 0 3 ll ID SV 19 LENGTH 247 SOURCE MultiAlns NSF 13 NC 0 24 HET O 7 8 ID SV 20 LENGTH 165 SOURCE MultiAlns NSF 5 NC 0 1 HET 0 7 7 T ID SV 21 LENGTH 116 SOURCE MultiAlns NSF 4 NC 0 12 HET 0 3 8 ID SV 22 LENGTH 503 SOURCE MultiAlns NSF 114 NC 1 82 NUF 20 H
78. 1o0g IDBsacCer SGD refgenome 20110301 09g Ick sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 4 gt Lecturas 4 Problems Javadoc Declaration GG NGSEPView Samplen47 Cleandata 1f 4 E q Create Index Bowtie Process Samplen47_Cleandata_2 fq a a Ej TestNGSEP IDBsacCer SGD refgenome 20110301 Create Index Bowtie Process 27 Ilustraci n 34 barra de progreso generada por Create index bowtie Una vez finalizado el proceso se podr observar el ndice de bowtie2 repartido en los seis c archivos generados 4 PruebaLevadura 4 2 GenomahReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 bt sacCer SGD refgenome 20110301 fa 2 bt sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt sacCer SGD refgenome 20110301 fa rev 1 bt sacCer SGD refgenome 20110301 fa rev 2 bt2 pug pug pug pug ug wp ug Ilustraci n 35 archivos generados por el proceso Create index bowtie Este proceso es vital para poder realizar el mapeo de las lecturas sin tener la referencia indexada no es posible realizar mapeo 65 4 3 2 MAPEO DE LECTURAS Luego de terminar el proceso anterior donde se cre el ndice para el genoma de levadura se procede a continuar con el segundo paso en el pipeline de NGSEP que es realizar el mapeo de las
79. 2 2013 220 PM File folder WO Libraries T plugins 3 12 2013 221PM File folder Documents J readme 3 12 2013 221PM_ File folder 4 Music eclipseproduct 9 14 2012 6 13 PM ECLIPSEPRODUCT 1KB8 5 Pictures artifactsxml 6 28 2013 9 11 AM XML Document 113 KB B videos eclipse exe 9 14 2012 650 PM Application 312 KB eclipse ini 6 28 2013 9 11 AM Configuration setti 1 KB We Computer E3 eclipsec exe 9 14 2012 650PM Application 24 KB amp System Reserved 62423 C W epi viOhtm 9 14 2012 6 13 PM Firefox HTML Doc 17 KB ow DATA 62423 D amp noticehtml 9 14 2012 6 13 PM Firefox HTML Doc 9 KB E KINGSTON urDrive F amp Network A 13 items Ex GO gt Computer DATA 62423 D gt Desarrollo Juno gt eclipse gt dropins v 4010 Search dropins p Organize Include in library Share with Burn New folder X v se k Favorites Name Date modified Type Size Wi Desktop 2 nets ngsep 1 0 0 201306280910 jar 28 2013 9 10 AM JAR File 3 674 KB J Downloads 4 Recent Places Libraries lt Documents Music Pictures B Videos Computer amp System Reserved 62423 C ew DATA 62423 D I KINGSTON urDrive F Network Lk litem 168 do Computer DATA 62423 D Desarrollo Juno gt eclipse gt v 6 Search ec 2 Organize Include in library Share with Burn New folder 4 e X Favorites Name Type Wi Desktop J configuration J Downloads JL dropins Rece
80. 255 CNV 1 TA Upstream TGN YALO68W A TID YALO68W A mRNA GT GL 55 p 0 ol rI 308 C T 188 CNV 1 TA Upstream TGN YALO68W A TID YALO6 8W A mRNA GT GL GP G 3 Ose 22 rI 313 C 25 CNV 1 TA Upstream TGN YALO68W A W A mRNA GT GL GP GQ 78 8 0 10 rl 349 gt T 255 CNV 1 TA Synonymous TCO 5 LO69W TID YALO69W_mRNA C 1 5 5 Lis 17 rI 35 A 97 CNV 1 TA Missense TCO N YAL0 69W TID YALOG9W_mRNA GT GL GP GQ DP AAC 0 1 17 39 4 52 0 ri 3 A 255 CNV 1 TA Synonymous TCO 8 3 TGN YAL069W TID YALO69W mRNA 1 52 16 4 4 0 0 rI 373 T 255 CNV 1 TA Synonymous TCO 35 W TID YALO69W mRNA 1 3 t 0 3 12 1 ri 476 G C 174 CNV 1 TA Missense TCO 48 1 TGN YAL TID YALO69W mRNA GT GL 7 35 1 51 5 0 cari 485 T C 174 CNV 1 TA Missens TG T YAL W mRNA GT G me Pt 42 4 5 0 507 C 62 CNV 1 TA Missense TCO 58 2 TGN YALO69W TID YALO69W mRNA GT GL GP GQ DP AAC 0 1 13 91 4 52 38 25 0 62 0 62 15 0 11 0 4 Ilustraci n 55 archivo vcf con variantes y la regi n donde fue encontrada la variante En esta fila del archivo de anotaci n de genes se encuentra una variante gen mica de tipo SNP en el cromosoma uno en la posici n 141 del genoma de levadura esta variante se detect en una regi n codificante de gen se denominan Upstream a las regiones codificantes de genes dentro del genoma de referencia En este sentido es importante para los bi logos conocer que tipo influencia tienen las variantes gen micas
81. 37 738 ALBERTS B JOHNSON A LEWIS J RAFF M ROBERTS K 8 WLATER P 2002 Molecular Biology of the Cell 4th ed Garland Science ISBN 0 8153 3218 1 pp 120 121 ANSORGE W J 2009 Next generation DNA sequencing techniques M GONZALO CLAROS 2006 Vocabulario ingl s espa ol de bioqu mica y biolog a molecular Disponible en http www biorom uma es contenido Glosario Consultado el 30 de Julio de 2013 NCBI 2007 Resequencing Disponible en http www ncbi nim nih gov genome probe doc TechResequencing shtml Consultado el 23 de marzo del 2013 PETER J A COCK CHRISTOPHER J FIELDS NAOHISA GOTO MICHAEL L HEUER PETER M Rice Nucleic Acids Res 2010 April 38 6 1767 1771 Published online 2009 December 16 PMCID PMC2847217 WANG L JIANG T 1994 On the complexity of multiple sequence alignment J Comput Biol 1 337 348 JUST W 2001 Computational complexity of multiple sequence alignment with SP score J Comput Biol 8 6 615 23 1000 GENOMES 2013 VCF Variant Call Format version4 1 Disponible en http www 1000genomes org wiki Analysis Variant 20Call 20Format vcf variant call format version 41 Consultado el 30 de junio del 2013 114 20 26 2f 28 29 30 31 32 33 34 35 INFORMATICASONS 2011 Disponible en http www sosinformatica net evi VisualBasic guia_rapida vb_guia_bd01 htm Consultado el 24 de mayo del 2013 ECLIPSE 2013
82. 5 Mensaje de excepci n de error en NGSEP oocooonccnccccccccococcnncocononocoocnononnonononnononnnnnanoninnns 105 Ilustraci n 96 Grafica producto de los valores obtenidos por las herramientas evaluadas respecto a las o NECUNSICAS OG US ADMITA RENI RETE 109 Ilustraci n 97 Grafica producto del porcentaje total obtenido por cada las herramientas evaluadas respecto a las 8 Tieursucas de US ADMIRO 1 A A A aA aes 110 llustraci n 98 Diagrama de caso de uso de NGSEP generar archivo Sam ingresar archivo Fastq generar HISIONAl ge referencias arborea 124 llustraci n 99 Diagrama de casos de uso de NGSEP encontrar variantes ordenar archivo SAM generar cirea om VCG GFR PLAT A A A AA A A ia ia dic 125 Ilustraci n 100 Diagrama de casos de uso de NGSEP generar graficas de cobertura generar historial de GFF mezclar en un solo archivo informaci n de diferentes muestras analizadas 125 llustraci n 101 Diagrama de clases de NGSEP sss essen riens naar nnns nn arn n aan 127 llustraci n 102 Diagrama de secuencia Mapear lecturas con respecto a un genoma de referencia 150 llustraci n 103 Diagrama de secuencia Encontrar Variantes Este diagrama es una extracci n del diagrama original de ESTO caso DE USO te n RR EOS 152 llustraci n 104 Diagrama de Secuencia Mezclar en un solo archivo la informaci n de diferentes muestras analizadas Este diagrama es una extracci n del diagrama original de este
83. 58 340 WOBKBENGCEL ine i eite nte NM eM Ae EE EM 58 3 11 STANDARD WIDGET TOOLKIT SWT eeeeeteeeenene rennen 59 PAM e c m 60 318 PLUG Mes r 60 4 1 INTRODUCCI N A NGSEP cooccccncccoccnnconncnnconnonononnonononnonn conc cnn cnn n enn ono nena nn cananea ens 61 4 2 ARCHIVOS GEN TICOS coccocccconoccnnonncnnnonnconconncnn con ncnn conc con cnn cnn cancer nan can cancer cnn 62 4 3 EJECUTANDO NGSEP eene treten trenes tritt tns trenes 63 436 MEZCLAR VCFS uta 79 4 3 7 CALCULAR ESTADISTICAS DE CALIDAD eene 88 4 3 8 CALCULAR ESTADISTICAS DE COBERTURA eene 90 4 4 COMPARATIVA DE NGSEP CONTRA LA HERRAMIENTA SNVER GANADORA DE LA EVALUACI N REALIZADA EN EL CAP TULO 2 93 45 GRAFICA COMPARATIVA DE LA TABLA 14 ns 109 4 6 GR FICA TOTAL DE USABILIDAD nnne nns 110 5 1 CONCLUSIONES eene eres tne a arar 111 5 2 TRABAJOS FUTUROS ececcesecsecescescessescecescesserservacceceseusarsaesaceeseusarsarsareeseesneaneas 112 REFERENCIAS BIBLIOGR FICAS eene reete rara trennen 113 ANEKO RR 8 ANEXO A ERR Tee eRe Tee a ed rar 118 FORMATO DE MATRIZ DE REQUERIMIENTOS FUNCIONALES ene 118 CASOS DE USO DEL SISTEMA cceccessecsecescessersessecescersersacseseeservarsarsaseesevarsarsatersereneas 123 DIAGRAMA DE CASOS DE USO cececsessssessessesseceeceecersersaeseceeseusarsarsaseeserseren
84. 61 e Java Eclipse SDK Search Project Run Window Help File Edit Refactor Navigate Sea Proj R W H mo REY Or AA EGG Quick Access ES S Java Package Explorer 52 SG Yo Be Outline 22 El Select a wizard An outline is not available Create a new project resource Wizards 2 Java Project E Java Project from Existing Ant Buildfile 2 Plug in Project 4 gt General 1 Project amp cvs gt Java 25 Plug in Development Cancel a vor No operations to display at this time Ilustraci n 30 creando un general Project de Eclipse para empezar a trabajar con NGSEP 4 2 ARCHIVOS GEN TICOS En este caso de estudio se opt por trabajar con un par de lecturas que son complementarias de una secuencia de levadura A partir de este par de lecturas se generan diferentes archivos de forma secuencial en cada uno de los diferentes procesos ofrecidos por NGSEP Y Nombre de las lecturas Samplen47 Cleandata 1 fq Samplen47 Cleandata 2 fq Como se puede ver en la llustraci n 31 est n en formato FASTAQ el cual es explicado en las primeras p ginas de este documento Para tener en cuenta es indispensable tener el genoma de referencia para lecturas a las cuales se dese detectar variantes gen micas en este caso el genoma de referencia de levadura es Y Nombre genoma de referencia sacCer SGD refgenome 20110301 fa 62 e Java Eclipse SDK File Edit Source Refactor Navigate Search
85. 6412 Y Detecci n de variantes gen micas para la muestra papa ER7A Y Detecci n de variantes gen micas para la muestra hijo Unselected 4 3 6 1 DETECCI N DE VARIANTES PARA LA MUESTRA DE LEVADURA PAP CBS6412 bowtie2 sorted bam Java Eclipse File Edit Source Refactor Navigate Search Project File Run Window Help 3 ia 6 w PrOrUv tiG Byes ow i 8 Java 3 Pac e Explorer ee sebalevadur vot av gt GenomaRet i Lecturas 4 TrioLevadura CBS6412 bowtie2 sorted bam ER7A bowtie2 sorted bam New gt Unselected_bowtie2_sorted b Es es Open F3 HistoryFileVCF in gu Open With leferences projectNGSEP HM x Show In Alt Shift W leferencesGff3 projectNGSEP i LE NGSEPView x Pa SO l J n O eeferencesMap projectNGSEP Copy Ctri C ae NNGSEP Copy Qualified Name Jay at this time Paste CtrieV X Delete Delete Build Path M Refactor It S I s Import 13 Export amp Refresh Assign Working Set Run As Debuc g As b Replace With NGSEP Menu Create Index Bowtie Paso Dos Properties Alt Enter Map Reads y m Sort Alignment V J gt Find Varian M VO Merge VCF VCF Fi ter P T VCF Converter a SO re S Variants Functional Annotation Calculate Quality Statistics Ca Statistics Calculate Coverage Stat Plot Quality Statistic nce Plot Coverage Statist CB56412 bowtie2 sorted bam Pruebalevadura TrioLevadura mantienen ID an M u VC Ilustraci n 57 accediendo a F
86. 86 4 98 3 48 0 0 45 45 9 0 0 1 5 i l l uda t II QY c llustraci n 69 archivo VCF con cada una de las muestras y sus variantes comunes con el respectivo genotipo 87 Este proceso tiene como fin conocer la herencia de variantes gen micas entre descendientes y ancestros 4 3 7 CALCULAR ESTADISTICAS DE CALIDAD Este proceso es el encargado de comparar el archivo BAM con el genoma de referencia de yuca para esta prueba se procede a indicar el n mero de errores de secuenciaci n si lo hay para cada posici n de las lecturas alineadas Se debe tener una distribuci n homog nea alrededor de cada lectura para esta prueba se continua utilizando la muestra Sample47 que es con la que se realiz la mayor a de los procesos anteriores Java Eclipse SDK File Edit Source Refactor Navigate Search Project File Run Window Help EL A T 0v r OA Ar Se Quick Access Es Bava Package Explorer 7 n 8 Outline El B 4 3 PruebaLevadura An outline is not available gt GenomaReferencia 4 amp Lecturas gt sortDirectory MPSamplen47 Cleandata 1MappingFile log Samplen47 Cleandata 1 fq Samplen47 Cleandata 1MappingFile Annotated vcf Samplen47 Cleandata 1MappingFile sorted bai Samplen47_Cleandata_1MappingFile_sorted ban New z n Samplen47 Cleandata 1MappingFile SV gff NGSEPView idi A Samplen47 Cleandata 1Ma
87. 92 13 21 0 31 0 13 0 0 0 0 0 1 1 1 1 41 74 8 74 57 62 0 255 0 255 31 0 17 0 12 21 chrI 107 c A Lo s CNV 3 GT GL GP GQ DP 0 0 0 0 1 1 1 1 27 82 5 42 34 27 0 25 0 255 18 8 10 0 0 0 0 0 0 0 0 0 0 0 6 97 10 55 114 75 98 0 0 98 35 2 33 0 0 22 chrI 114 T A 2955 CNV 3 GT GL GP GQ DP 0 0 0 0 1 1 1 1 55 04 11 91 48 69 0 2 5 0 255 29 15 1 0 13 sf ef faf f f d 20 88 13 26 132 13 0 15 0 0 45 wif d 23 chrI 117 A G 255 CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 04 9 36 104 59 149 P 0 149 33 31 0 0 0 0 0 0 0 0 0 1 1 1 46 29 13 26 103 43 0 255 0 255 45 30 0 14 C 24 chrI 118 c T 255 CNV 3 GT GL GP GQ DP AAC 0 0 0 0 1 1 1 1 54 94 10 25 62 6 0 255 0 255 35 0 18 0 16 MM l l l l 20 88 13 26 132 13 0 15 0 0 45 af ail 25 chrI 136 G A 255 CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 98 7 12 66 2 75 0 0 154 154 37 35 1 1 0 1 1 1 1 1 1 1 1 1 151 92 14 28 0 2 0 0 255 255 47 47 0 0 0 26 chrI 138 CT CCAC CTT 235 a CNV 3 GT GL GP GQ DP AC 1 1 1 1 2 2 2 2 13 64 32 29 30 01 52 26 14 3 52 97 0 0 0 0 97 0 255 40 2 21 11 1 1 2 2 2 2 2 2 2 59 83 3 27 chrI 141 c T A553 CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 1 1 1 55 64 12 05 83 46 0 255 0 255 40 0 24 0 16 0 0 0 1 1 1 1 1 1 121 71 14 76 48 69 0 255 0 255 49 0 14 28 chrI 172 A G 255 CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 01 9 94 114 35 255 0 0 255 33 33 0 0 0 0 0 0 0 0 1 1 1 1 45 99 8 45 48 01 0 255 0 255 28 14 0 14 0 29 chrI 173
88. 941 22 31 26134 2 32 25837 2 33 25989 2 34 26351 2 35 26205 2 36 26616 2 37 26425 2 38 26583 2 X Ilustraci n 74 Archivo de estad sticas de calidad generado por Quality Statistics 4 3 8 CALCULAR ESTADISTICAS DE COBERTURA Este proceso es el encargado de generar un gr fico a partir de analizar el archivo BAM con los datos sobre la cobertura de las lecturas para cada posici n del genoma teniendo en cuenta las alineamientos nicos y m ltiples Java Eclipse SDK File Edit Source Refactor Navigate Search Project File Run Window Help ee PDA ABONA o o v Quick Access ES Java Package Explorer 345 59 HM B Outline 2 4 i PruebaLevadura An outline is not available GenomaReferencia 4 i Lecturas sortDirectory 3 MPSamplen47 Cleandata 1MappingFile log PSSamplen47 Cleandata 1MappingFile sortedReadPos Ic Samplen47 Cleandata 1 fq Samplen47 Cleandata 1MappingFile Annotated vcf Samplen47 Cleandata 1MappingFile sorted bai 2 Samplen47 Cleandata 1MappingFile sorted b ENS NGSEPView a A Samplen47_Cleandata_1MappingFile_sortedR New z molens Cleandata 1MappingFile sortedR Open F3 47 Cleandata 1MappingFile SV gff Open With Pa SO U n O 7 Cleandata 1MappingFile cnv Show In Alt Shift W gt 7 Cleandata 1MappingFile sam CEN Crise 47 Cleandata 1MappingFile vcf Samplen47 Cleandata 2 fq CODY NT me s gt E Paste Ctrl V SASamplen47 Cleandata 1MappingFile sorte X Delete Delete Create Index Bow
89. 95 5773 ER7A bowtie2 SV gff 14 2708 5636 ER7A bowtie2 cnv 15 2895 5446 ER7A bowtie2 vcf 16 2814 5247 PSCBS6412 bowtie2 sortedReadPos log 17 2719 5372 Unselected bowtie2 sorted bam T re ane Unselected_bowtie2_SV gtf 3 shite s gt Unselected_bowtie2 cnv Ss sida d Unselected bowtie2 vcf 22 3398 5083 VDCBS6412 bowtie2 vcf log 23 3703 6424 VDER7A bowtie2 vcf log 24 4019 6689 VDUnselected_bowtie2 vcf log 25 4450 7005 26 5161 7523 27 5939 8298 28 6621 9150 VFACBS6412 bowtie2Annotatorfile log v Reads amp Reference 29 7757 9956 HistoryFileVCF ini 30 8872 11287 HistoryFileVCFMerGeFile vcf 31 29940 12352 References projectNGSEP ReferencesGff3 projectNGSEP GD NGSEPView a No operations to display at this time Writable Insert 12 17 Plot Quality Statistics With this function you are going to generate a plot from the quality statistics file previously generated in Calculate Quality Statistics INPUT FILE e File stats Format tab delimited compose by 3 columns first one number of reads second one number of multiple alignment and third one number of unique alignments In the end of this file you will find a summary ACCESS TO PLOT QUALITY STATISTICS 1 The first step in order to access to Plot Quality Statistics is having the statistics file generated by the Calculate Quality Statistics option 2 Click on the stats file and choose the Calculated Quality Statistics option from the NGSEP menu 210 3 M
90. DE CASO REAL En este cap tulo conforme al contexto explicado en el cap tulo uno dos y tres el lector encontrar un estudio de caso real en el que se ha puesto a prueba la herramienta NGSEP con secuencias del organismo levadura Al finalizar este cap tulo se realiz una comparativa de usabilidad de GUI entre la herramienta NGSEP descrita en este cap tulo cuatro y la herramienta SNVer ganadora de la comparaci n realizada en el capitulo dos p g 37 4 1 INTRODUCCI N A NGSEP El primer paso para comenzar a utilizar NGSEP es definir los archivos con los que se va trabajar el pipeline ofrecido por la herramienta en este sentido la prueba que se mostrar a continuaci n se va realizar con secuencias de levadura Definidos los archivos con los que se va trabajar se debe instalar NGSEP en Eclipse en caso de que no est instalado para esta prueba se supone que ya est instalado NGSEP en Eclipse Se utiliza como entorno de trabajo el sistema operativo Windows v El Eclipse que se va utilizar es Juno 4 2 2 Lista de pasos 1 Abrir Eclipse Juno 4 2 2 despu s de tener instalado el Plug in NGSEP 2 Crear un proyecto en este caso se va crear un simple Project porque vamos a manipular archivos no hacer programaci n o cualquier otro tipo de proyecto de desarrollo en Eclipse 3 El nombre del proyecto sera prueba Levadura 4 Luego de crear el proyecto se procede a ingresar los archivos con los que se realiz esta prueba
91. DESARROLLO DE PLUGIN PARA EL AN LISIS DE DATOS GENERADOS POR SECUENCIACI N DE ALTO RENDIMIENTO JUAN CAMILO QUINTERO LOPEZ Director PhD C SAR JES S PARDO CALVACHE Codirector PhD JORGE DUITAMA CASTELLANOS UNIVERSIDAD DE SAN BUENAVENTURA FACULTAD DE INGENIER A PROGRAMA INGENIER A DE SISTEMAS SANTIAGO DE CALI 2013 DESARROLLO DE PLUGIN PARA EL AN LISIS DE DATOS GENERADOS POR SECUENCIACI N DE ALTO RENDIMIENTO JUAN CAMILO QUINTERO LOPEZ TRABAJO DE TESIS PARA OPTAR EL T TULO DE INGENIERO DE SISTEMAS Director PhD C SAR JES S PARDO CALVACHE Codirector PhD JORGE DUITAMA CASTELLANOS UNIVERSIDAD DE SAN BUENAVENTURA FACULTAD DE INGENIER A PROGRAMA INGENIER A DE SISTEMAS SANTIAGO DE CALI 2013 Nota de Aceptaci n Aprobado por el Comit de Trabajos de Grado en cumplimiento de los requisitos exigidos por la Universidad de San Buenaventura Seccional Cali para optar al t tulo de Ingeniero de Sistemas PhD C sar Jes s Pardo Calvache Director Proyecto de Grado Jurado 1 Jurado 2 Santiago de Cali 21 de noviembre de 2013 DEDICATORIA Quiero dedicarle esta tesis principalmente a mi mam gracias mam por tu apoyo incondicional estos 22 a os sin tu ayuda no ser a posible ning n de los xitos que he conseguido hasta ahora te quiero con todo mi coraz n AGRADECIMIENTOS En este cap tulo de mi tesis quisiera extender mis m s sinceros agradecimientos a Jorge Duitama por su inmen
92. Disponible en http www eclipse org documentation Consultado el 22 de Marzo del 2013 FONTANILLO L GONZ LEZ R 2005 proyecto eclipse Disponible en http zarza usal es fgarcia docencia poo 04 05 Trabajos Eclipse pdf Consultado el 22 Marzo del 2013 ECLIPSE 2013 SWT The Standard Widget Toolkit Disponible en http www eclipse or http www eclipse org swt g swt Consultado el 22 de Marzo del 2013 ECLIPSE 2013 JFace Disponible en http wiki eclipse org JFace Consultado el 22 de Marzo del 2013 SANTOS J 2011 EPIDEMIOLOGIA gen tica Disponible en http contacto med puc cl interconsulta intercon_marzo_2011 Indice Libro paf Consultado el 25 de junio del 2013 NCBI 2007 FASTA Disponible en http es wikipedia org wiki Formato_FASTA Consultado el 25 de junio del 2013 QIU F Y XU K LI Z LI Y LIU H DUANMU S ZHANG Z LI Z CHANG Y ZHOU R ZHANG S ZHANG C LI Y ZHANG M LIU AND X LI 2012 CNVD Text mining based copy number variation in disease database Hum Mutat 33 11 E2375 2381 PubMed ID 22826268 MOLICH R AND NIELSEN J 1990 Improving a human computer dialogue Communications of the ACM 33 3 March 338 348 NEIL LAMB 2008 Copy Number Variation Disponible en http www hudsonalpha org education outreach basics cnv Consultado el 25 de junio del 2013 BIOLOGY COMPUTES 2012 Pipeline Disponible en http gtbinf wordpress com
93. ET 3 82997 95 ID SV_23 LENGTH 350 SOURCE Readpairs NSF 16 5 ID SV 24 LENGTH 4800 SOURCE CNVnator NSF 939 NC 1 22 HET 63 87104 28 ID SV_25 LENGTH 472 SOURCE Readpairs NSF 3 0 10 ID SV 26 LENGTH 2511 SOURCE MultiAlns NSF 831 NC 2 21 NUF 104 HET 54 55 ID SV 27 LENGTH 4400 SOURCE CNVnator NSF 74 NC 0 1 HET 4 10 ES ID SV_28 LENGTH 2300 SOURCE CNVnator NSF 107 NC 0 29 HET 50 1 12 ID SV 29 LENGTH 152 SOURCE MultiAlns NSF 16 NC 0 37 HET 11 6 8 ID SV_30 LENGTH 125 SOURCE MultiAlns NSF 6 NC 0 2 HET 3 4 16 ID SV 31 LENGTH 431 SOURCE MultiAlns NSF 43 NC 0 48 HET 25 6 11 ID SV 32 LENGTH 1870 SOURCE MultiAlns NSF 628 NC 2 32 NUF 60 HET 62 55 ID SV_33 LENGTH 13900 SOURCE CNVnator NSF 426 NC 0 19 HET 9 6 11 ID SV_34 LENGTH 241 SOURCE MultiAlns NSF 13 NC 0 22 HET 0 5 22 ID SV_35 LENGTH 995 SOURCE MultiAlns NSF 151 NC 0 91 HET 2 5 18 ID SV 36 LENGTH 412 SOURCE MultiAlns NSF 62 NC 0 83 HET 0 1 20 ID SV 37 LENGTH 608 SOURCE MultiAlns NSF 92 NC 0 94 HET 3 Ilustraci n 49 archivo GFF generado por Find Variants 75 mi En esta fila por ejemplo se encontr un indel largo que para este caso es una deleci n o eliminaci n de nucle tidos en la secuencia de ADN de la posici n 182512 a la 182997 de 485 nucle tidos Por ltimo se encuentra el archivo de historial de Find Variants llustraci n 50 que almacena la muestra el genoma de referencia y el resultado de la detecci n de variantes
94. GS se est n generando archivos gen ticos de tama os enormes estos archivos gen ticos son indispensables a la hora de realizar cualquier an lisis en bioinformatica Se hace preciso crear aplicativos que puedan soportar la carga y almacenamiento de este tipo de archivos Por ejemplo los alineamientos de secuencias con respecto a una referencia es un tipo de proceso llamado mapeo este proceso utiliza archivos gen ticos con gran tama o y que genera datos de igual o mayor tama o Los datos generados por este proceso son vitales en lo dem s an lisis bioinformaticos como detecci n de variantes En este sentido las herramientas de c digo abierto a crear para trabajar con NGS deben poder mantenerse y distribuirse de manera f cil el mantenimiento de software es la modificaci n de un producto de software despu s de la entrega para corregir errores mejorar el rendimiento u otros atributos Una distribuci n de software es un conjunto de software espec fico ya compilado y configurado que puede ser descargado desde Internet 47 Conociendo el tipo de investigaciones que se desarrollan en CIAT y las necesidades de la comunidad investigativa con respecto a la creaci n de nuevas herramientas bioinformaticas Es indispensable que la futura interfaz gr fica que se integre a la librer a NGSTools soporte la carga de archivos gen ticos como los utilizados en CIAT en ese sentido es importante que la respuesta del aplicativo para cargar lectura
95. IS Typically by Lana Typically Multiple Samples SPL re ore y Raw Variants External Data Raw Reads SNPs Pedigrees 4 Duplicate ka Marking Call Variants A Base Quality SNPs indelis Structural Recalibration L Jk J Variations i l SVs Population Structure indeis i Known Variation Structural Variations Known Ve Genotypes J Local Realignment i E variant Quality Recalibration I T 1 CEE EEE EE E EE sss w l Genotype Refinement 4 Variant Evaluation Analysis ready Variants Reduce Reads i Raw Variants k Fi j Analyss read y Reads AAA Mo o a e el Ilustraci n 6 Flujo de trabajo de GATK 13 31 2 8 2 SAMTOOLS Es una herramienta que trabaja con datos NGS y que permite detectar variantes como SNPs e indeles peque os El flujo de trabajo ofrecido por SAMTOOLS se describe en la llustraci n 7 Seg n la descripci n de la p gina del proyecto SAMTOOLS es una herramienta que proporciona varias utilidades para la manipulaci n de las alineaciones en el formato SAM incluida la selecci n la fusi n la indexaci n y la generaci n de alineaciones en un formato por cada posici n 14 En ese sentido el formato Sam por descripci n explicita de los creadores de SAMTOOLS es un formato gen rico para almacenar grandes alineamientos de secuencias de nucle tidos SAM tiene como
96. IbI ME eet Veg DM SERE A BS S O A O D n DINE Ee REEL WERE d UE d gH MEME E E E E ETE TN B GM GB BB gg Gg gg gg gg LLL APA O A Ty TT d E LEO HB TP gd gg O m E 0 0 Percentage of non reference calls 10 20 30 40 S 60 ZO zu 90 100 Read Position 5 to 3 213 Plot Coverage Statistics With this function you are going to generate a plot based on the file Coverage stats that holds the data about the coverage for each position considering unique and multiple alignments It should have a normal distribution centered on the expected Coverage INPUT FILES File coverage stats Is tab delimited file composed by 3 columns the first one has the number of reads the second one the number of multiple alignments and the third one number of unique alignments In the end of this file you will find a summary ACCESS TO PLOT COVERAGE STATISTICS 1 The first step in order to access to Plot Coverage Statistics is having the coverage stats file generated by the Calculate Coverage Statistics option 2 Click on the coverage stats file and choose the Plot Coverage Statistics option from the NGSEP menu 3 Make sure that the selected file is a statistics file otherwise the process will not work E Java Eclipse SDK cis M File Edit Source Refactor Navigate Search Project Run Window Help rw 6 Ww vOwv QritGr Srv o lick Acce e a Java I Package Explorer i l 3 Outline 4 55 YeastSequencing An outline is not available
97. Known CNVs File Known Variants File Cancel 4 File In this field you can see the path of the sorted Bam file that you selected It could be the output file of the Sort Alignment of NGSEP Note that you can also use the browser on the right in case you want to change the input file File D YeastSequencina Mappina CBS6412 bowtie2 sorted bam 5 Reference File This field is mandatory because the reference genome is going to be used to compare your reads The first time that you execute this functionality this text field will be 190 blank you must browse for a fasta file with the reference genome However for further executions the field will display the last reference used ps Reference File D YeastSequencina Reference sacCer SGD refaenome 20110301 fa 6 Output File Prefix This field refers to the output files you will generate with this function In total you will generate 3 files that will be named with the same output prefix that you type The generated files will be VFC For SNPs and Small indels CNV For Copy Number Variations GFF For SNVs and large indels You can change the prefix and the destination directoryof your output file using the browser on the right Output File Prefix C Users icauintero workspace TestinaNGSEP X4035 5000 bfast d5 pa A Notice that the output directory suggested is the same of the input file as well as the name of the tested sample Output File Prefix D Ye
98. Mapping Open With gt E CBS6412 bo Show In Alt Shift W gt A CBS6412_bo _ a i Copy Ctri C x a 2 Copy Qualified Name a Paste Ctrl V iX ER7A_bowti 2 Delete Delete ES Unselected t a vpcBS6412 Build Path E 4 Reads Refactor Alt Shift T gt B NG 5197 CB i Import B NG 5197 CB 4 Export B NG 5197 ER NG 5197 ER 4 amp Reference B sacCerSGD RunAs B sacCer SGD Debug As B sacCer_SGD Team B sacCer SGD Compare With B sacCer SGD Replace With A sacCer SGD NGSEP Menu sacCer_SGD y step one A A i References projectNGSEP Ez A a Vite e ACSA Map Reads Sort Alignment Sam Pairing Find Variants Merge VCF Population VCF Filter VCF Converter Variants Functional Annotation Prd Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics Alt Enter Step three un HistoryFileVCF ini YeastSequencing FIRST OPTION WITH BUTTON DETERMINE LIST OF VARIANTS i Merge VCF ie X List Merge For VCF Sample ID VCF File Name BAM Name Reference CBS6412 CBS6412 bowtie2 vcf CBS6412 bowtie2 sorted b sacCer SGD refgenome 20110301 ER7A ER7A bowtie2 vcf ER7A bowtie2 sorted bam sacCer SGD refgenome 20110301 Unselected Unselected bowtie2 vcf Unselected bowtie2 sorte sacCer SGD refgenome 20110301 D YeastSeauencina HistoryFileVCFMerGeFile vcf 195 Output File this field mean
99. OG 37 CNV GT GL GP GQ DP AC l l l l 2 0 0 3 0 0 0 0 20 0 1 0 1 16 chrI 27 os CC CCA 80 CNV GT GL GP GQ DP AC l l l l Ll 0 0 0 3 2 0 20 0 0 0 1 1 0 17 chrI 30 ES UN 22 CNV GT GL GP GQ DP AC eA lud I I fLi 0 0 0 3 2 40 20 0 0 0 1 1 0 18 chrI 31 A C 7 CW GT GL GP GQ DP AC 0 0 0 3 2 48 20 0 0 0 1 1 0 19 chrI 3A AC ACACC 33 CNV GT GL GP GQ DP AC M l l 2 0 0 3 0 0 0 0 20 0 1 0 1 20 chrI 38 ACC CC 44 CNV GT GL GP GQ DP AC l l l l 0 0 0 3 2 0 20 0 0 0 1 1 0 21 chrI 48 ACC AC 31 CNV GT GL GP GQ DP AC I l l l 2 0 0 3 0 0 0 0 20 0 1 0 1 22 chrI 56 A c 46 CNV GT GL GP GQ DP AC el eu of af fJ 7 0 0 0 0 0 0 2 0 2 0 4 70 0 23 chrI 60 ACA AA 41 CNV GT GL GP GQ DP AC el fad eh ch I I 0 0 0 0 0 0 3 0 3 0 5 0 0 2 chrI 63 T c 81 CNV GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 1 4 95 0 61 0 01 0 0 45 45 7 0 2 0 0 25 chrI 65 E TE We i CNV GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 03 2 13 17 34 255 0 0 255 13 0 7 0 0 26 chri 72 TA TATCTCAA 11 X CNV GT GL GP GQ DP AC MI 6 03 3 01 14 01 27 0 0 0 16 7 3 27 chrI 75 E lt 2 187 CNV GT GL GP GQ DP AAC 0 0 0 0 0 1 1 1 1 17 37 4 26 17 37 0 66 0 66 18 0 7 0 7 28 chri 82 CA CT CTA 255 CNV GT GL GP GQ DP AC 1 1 1 1 1 1 1 1 1 48 32 6 37 0 09 48 32 6 37 48 32 0 0 120 0 0 0 255 26 0 21 0 29 chri B4 G A 2535 5 CNV GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 1 50 62 6 43 0 16 0 0 255 255 26 21 0 0 0 30 chri 90 A ta CNV GT GL GP GQ DP AAC 0
100. Ploidy For Haploid type 1 for diploid type 2 Sample ID You can type a specific ID to label the header of the VFC Find Variants Cancel Use the button with the label Find Variants to execute if you want to close the window click on cancel N Note When you execute the variants detector a progress bar will be displayed on the bottom it represents the percentage of completed process This is important because many times this process can takes several minutes depending on how complex is your organism If you want to stop the process you are able to do it by pressing the red button in the right side of the progress view At the end of the process you will see the output files in the directory that you selected 193 9 NGSEPView 2 X Variants Detector Process ED D d Variants Detector is running 9 Variants Detector Process 65 Try Java Eclipse SDK e lis File Edit Source Refactor Navigate Search Project Run Window Help e Ex vOr Qrtaor y X k Acce E E Java I Package Explorer i Sta 2 Outline 4 5 YeastSequencing An outline is not available 4 amp Mapping H CB56412 bowtie2 sorted barr CBS6412_bowtie2_SV off CBS6412 bowtie2 cnv CBS6412 bowtie2 vcf ER7A bowtie2 sorted bam sacCer SGD refgenome 20110301 1 bt2 sacCer SGD refgenome 20110301 2 bt2 sacCer SGD refgenome 20110301 3 bt2 sacCer SGD refgenome 20110301 4 bt2 sacCer SGD refgenome 2011
101. Projects About Us Googk Custer Search Downloads Home E Eclipse Classic 4 2 2 Indigo Packages Mw Ha mos Package Details Download Links gt Galileo Packages ER S a Windows 32 bit Ganymede Packages The classic Eclipse download the Ectipse Platform Java Development Tools and Windows 64 bit e Europa Packages Plug in Development Environment including source and both user and programmer Mac OS X Cocoa 32 E documentabon Please look also at the Eclipse Project download page Mac OS X Cocoa 64 Linux 32 bit Feature List ee Downloaded 909 404 Times 4 M gt Checksums Package Testers Bugzilla Ecupye Project Open Bugs 0 Maintained by Edigse Platform Team Resolved Bugs 0 File Bug on this Package New and Noteworthy Eclipse 42 Home Privacy Policy WO gn Ecipse downloads mirror sete PSE Downloads Home Bit Torrents Source code w More Packages Give Back to Eclipse s s 5 Donate 35 or more and Become a Friend of Eclipse PayPal The Sctipwe Foundation la a nottor peli orgenizatien not e chartiable ganicaborn ac we are unable to prueds onantable las soos Amounts shown are jn US collar downloads download php filez eclipse downloads drops4 R 4 2 2 201302041200 eclipse SDK 4 2 2 win32 x86 64 zip Terms of Use CopyrightAgent Legal ContactUs Log Ur Y e B Google PAHAD P B wace Home Downloads Users Members Committers Resources Projects About Us Google
102. R7A_bowtie2 vcf a Unselected_bowtie2_sorted bam MVCFHistoryFileVCFMerGeFile 3 Unselected bowtie2 SV gff 3 Unselected bowtie2 cnv 3 Unselected bowtie2 vcf i3 VDCBS6412 bowtie2 log B VDER7A bowtie2 log B VDUnselected bowtie2 log iX HistoryFileVCF ini D HistoryFileVCFMerGeFile vcf iX References projectNGSEP E ReferencesGff3 projectNGSEP L ReferencesMap projectNGSEP Bj TestNGSEP Ilustraci n 68 ejecuci n de la opci n Merge VCF Files del proceso Merge VCF Quick Access m ava B E Outline E o An outline is not available Merge VCF Process 0 S Este proceso va generar un archivo VCF con todas las variantes genomicas entre las muestras seleccionadas con su respectivo genotipo por muestra Ei HistoryFileVCFMerGeFile vcf 13 1 fileformat VCFv4 1 2 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs around this variant gt 3 INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model 4 INFO lt ID TID Number 1 Type String Description Id of the transcript related to the variant annotation gt 5 INFO lt ID TGN Number 1 Type String Description Name of the gene related to the variant annotation 6 AHINFO lt ID TCO Number 1 Type Float Description 0ne based codon position of the start of the variant The decimal is the codon position 7 FORMAT lt ID GT Number 1 Type String Description Genotype gt 8 FORMAT lt ID GL
103. Target Setting Target Regions Browse dbSNP Setting dbSNP Path Browse Chromosome Column 1 Position Column 2 SNP_ID Column 3 More Options RESET RUN Ilustraci n 10 Pantalla de SNVer para detectar SNPs e Indeles Una vez ingresados los datos correspondientes como se puede observar en la llustraci n 10 autom ticamente la aplicaci n abre la pantalla de consola y muestra al usuario una retroalimentaci n visual de las entradas para el proceso y de los archivos que se van a generar Ilustraci n 13 Ilustraci n 14 as mismo como el estado de la ejecuci n del proceso mediante una barra de progreso llustraci n 12 y la impresi n de informaci n relevante del proceso Ilustraci n 11 Collecting total number of reads Ready for pileup Ilustraci n 11 Impresi n de SNVer en pantalla del estado actual de proceso ejecutado M 7596 s 0000000 07 11 2013 11 07 Ilustraci n 12 Barra de progreso generada por SNVer marca que porcentaje de progreso se ha ejecutado 38 Navigation File Help Pipeline Initialize the pileup task Console ooo argments list i D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted bam 0 D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_ bowtie2 sorted r D Desarro
104. Y YY 04 01 2013 Casos de Uso relacionados CU_1 Mapear lecturas con respecto a un genoma de referencia CU_2 Ordenar archivo SAM CU_4 Encontrar Variantes El sistema debe permitir generar un gr fico y un archivo de estad sticas de acuerdo a la muestra ingresad con el fin de encontrar la cobertura para cada posici n del genoma donde hay una lectura alineada este proceso tiene en cuenta los alineamientos nicos y m ltiples 122 CASOS DE USO DEL SISTEMA CU_1 Mapear lecturas con respecto a un genoma de referencia CU_2 Ordenar archivo SAM CU_3 Emparejar pares de lecturas CU_4 Encontrar Variantes CU_5 Identificar el efecto de variaciones en los genes CU_6 Mezclar en un solo archivo la informaci n de diferentes muestras analizadas CU_7 Cantidad de posiciones cubiertas por el genoma CU_8 Qu proporci n de llamadas diferentes a la referencia se encuentran CU 9 Ingresar archivo FASTQ CU 10 CU 11 Ingresar archivo Fasta Ingresar archivo BAM organizado CU 12 Generar archivo BAM CU 13 CU 14 CU 15 CU 16 CU 17 CU 18 CU 19 CU 20 CU 21 CU 22 CU 23 CU 24 CU 25 Generar Log Generar historial de referencias Generar archivo VCF Generar archivo GFF Generar historial de variants detector Generar archivo CNV Generar archivo Coverage stats Generar historial de GFF Generar archivo bai Generar archivo sam pairing Generar archivo de estad s
105. a facilidad de las herramientas actuales y no solo contribuyo a esta soluci n da la garant a o la posibilidad de hacerse extensible mediante el Plug in NGSEP a las ideas que a futuro se planten con respecto a visualizaci n y manipulaci n de archivos producidos por NGS 3 11 STANDARD WIDGET TOOLKIT SWT SWT siglas en ingl s de Standard Widget Toolkit es un conjunto de componentes para construir interfaces gr ficas en Java widgets desarrollados por el proyecto Eclipse Recupera la idea original de la biblioteca AWT de utilizar componentes nativos con lo que adopta un estilo m s consistente en todas las plataformas pero evita caer en las limitaciones de sta La biblioteca Swing por otro lado est codificada enteramente en Java y frecuentemente se le acusa de no brindar una experiencia id ntica a la de una aplicaci n nativa Sin embargo el precio a pagar por esa mejora es la dependencia a nivel de aspecto visual y no de interfaz de programaci n de la aplicaci n resultante del sistema operativo sobre el cual se ejecuta La interfaz del workbench de eclipse tambi n depende de una capa intermedia de interfaz gr fica de usuario GUI llamada JFace que simplifica la construcci n de aplicaciones basadas en SWT 28 Por estos motivos se elegido como biblioteca grafica para NGSEP a SWT siguiendo la exigencia del mercado de herramientas multiplataforma porque garantiza su excelente integraci n al sistema operativo nativo
106. a de referencia luego se deja un espacio y se ingresa 32 la ruta donde se encuentra la secuencia que se desea comparar la opci n bcftools view vcg gt se utiliza para generar el archivo de salida producto de la comparaci n en un formato vcf La llustraci n 7 muestra el pipeline o flujo de trabajo que ofrece SAMtools para hacer detenci n de variantes 2 8 2 2 Flujo de trabajo de SAMtools Referencia Lectura Samtools mpileup Samtools detecci n de BCFtools variantes Ilustraci n 7 Marco de trabajo o pipeline de Samtools para detectar variantes 14 2 8 3 SNVer Single Nucleotide Variants Caller SNVer es una herramienta estad stica para detectar a las variantes gen micas SNPs e indeles peque os en el an lisis de muestras individuales o multi muestras Seg n la descripci n de la p gina del proyecto SNVer corre muy r pido por lo que es factible para el an lisis de datos de secuenciaci n de todo el genoma de un organismo secuenciado es una de las pocas herramientas existentes que son capaces de detectar variantes tanto la variaci n de un solo nucle tido SNP como la de peque os indeles 33 Hay m s herramientas existentes de NGS para realizar detecci n de variantes 2 5 incluyendo SNVer sin embargo se basan en una interfaz de l nea de comandos Los usuarios deben ejecutar comandos no interactivos para el funcionamiento de estos programas seguidos de an lisis 15 2 8 3 1 Interfaz
107. aci n 58 accediendo a Find Variants con la muestra ER7A bowtie2 sorted bam 4 3 6 3 DETECCI N DE VARIANTES PARA LA MUESTRA DE LEVADURA HIJO Unselected bowtie2 sorted bam Java Eclipse T file Edit Source Refactor Navigate Search Project File Run Window Help we xybYOrOA EG As 5 F NL NE Quick Acces E amp Java gt MES nm ox 1 n Package Explorer c Outline a 5 Pruebalevadura An outline is not available i GenomaReferencia Lecturas 4 amp TrioLevadura CB56412 bowtie2 sorted bam ER7A bowtie2 sorted bam Unselected bowtie2 sorted bam HistoryFileVC New gt References pr Open F3 ReferencesGf Open With GD NGSEPView E n Pa SO U no inci OR Alt Shift W gt briants Detector Process stNGSEP e Copy n ee Copy Qualified Name Paste Ctri amp V Priants Detector Process X Delete Delete Create Index Bowtie f a Build Path Map Reads Alt Shift Sort Alignment gt Find Variants Paso Tres ve VCF Filter FS VCF Converter Assign Working Sets Variants Functional Annotation Run As Calculate Quality Statistics Debug As b Calculate Coverage Statistics Team gt Plot Quality Statistics Compare With gt Plot Coverage Statistics Replace With gt View VCF NGSEP Menu id Sam Pairing In Progress Properties Alt Enter Paso Dos Unselected_bowtie2_sorted bam PruebaLevadura TrioLevadura Variants Detector Process 22 E Ilustraci n 59 accediendo a Find Variants con la
108. ado en la pantalla una vez terminado el PROCESO iia 39 llustraci n 15 botones dentro de la interfaz gr fica de SNVer para cancelar y arrancar el proceso de CETECCION OS VAS ER 40 llustraci n 16 Pantallas que se pueden visualizar dentro de SNVer cuando un proceso est en iteraci n I 40 llustraci n 17 Bot n para cancelar el proceso de detecci n de variantes de SNVer en la pantalla 41 llustraci n 18 Informaci n relevante del proceso de detecci n de variantes de SNVer en ejecuci n 42 llustraci n 19 Mensaje de excepci n en un capo de entrada de la pantalla de detecci n de variantes de IV m ICH Ace ct cect ct ete 42 llustracion 20 bot n para acceder al proceso de anotaci n e genes a partir de la finalizaci n del proceso de deleccion de vatiantes li AO a ia 43 Ilustraci n 21 Pantalla proceso anotaci n de genes de SNVer sessi eene nnne nana nns 44 llustraci n 22 Mensajes de la SNVer respecto a la ejecuci n del proceso de detecci n de variantes 45 llustraci n 23 Pantalla para detecci n de variantes de SNVer marcando errores euuusss 46 llustraci n 24 Manual de usuario de SNVer 1cccccccecccccseecensececeeseeeecssseecessueeecssseeseessececessneeeessaeeeessanenees 47 Ilustraci n 25 ndice del manual de usuario de SNVer eeeeteee
109. ake sure that the selected file is a statistics file otherwise the process will not work O Java Eclipse SDK File Edit Source Refactor Navigate Search Project Run Window Help vyOray 6 ADA Y AAA e mme occ o EX 1 Package Explorer 3 4 amp YeastSequencing 4 amp Mapping 4 CBS6412 bowtie2 sorted bam CBS6412 bowtie2 sortedCoverage stats CBS6412 bowtie2 sortedReadPos png CBS6412 bowtie2 sortedReadPos sta Be n Quick Access D Outline Y IS An outline is not available CBS6412_bowtie2_SV gff New BS6412 bowtie2 cnv Open F3 CBS6412 bowtie2 vcf Open With b peed bowtie2Annotatorfile vcf ve Show In Alt Shift W ips gi i Copy S Ctrl C Ste p one ve a Copy Qualified Name E Paste Ctri V je2 vct X Delete Delete MM bowtie2 sortedReadPos I B Unselected bowtie2 sorted bam Build Path 3 Unselected bowtie2 SV gff Refactor Alt Shift T 2 Unselected bowtie2 cnv s Import 3 Unselected bowtie2 vcf EA Export i3 VDC8S6412 bowtie2 vcf log 2 Refresh ES VDER7A bowtie2 vcf log Assign Working Sets i3 VDUnselected bowtie2 vcf log B VFACBS6412 bowtie2Annotatorfile Ic Run As p amp Reads Debug As gt amp Reference Team E HistoryFileVCF ini Compare With 2 HistoryFileVCFMerGeFile vcf Replace With E References projectNGSEP NGSEP Menu Map Reads 2 ReferencesGff3 projectNGSEP Properties Alt Enter Sort Alignment on Sam Pairing Find Variants Merge VCF im St
110. alificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Reconocer antes que recordar Pregunta El dise o de la interfaz permite reducir la carga de memoria para un usuario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n NGSEP se compone de ocho procesos En este sentido NGSEP muestra de manera independiente las pantallas que pertenecen a los procesos llustraci n 90 pero las pantallas siguen estando en el mismo aplicativo no se abren en otra parte por fuera de la aplicaci n como en SNVer por otro lado el Men de procesos de NGSEP est organizado de manera 98 secuencial llustraci n 89 permitiendo navegar de un proceso a otro lo que genera que el usuario reconozca la informaci n necesaria para comenzar el siguiente proceso al que actualmente ejecuta B ER7A bowtie2 sorted bar ER7A_bowtie2_sortedCow E ER7A bowtie2 sortedCov B ER7A bowtie2 sortedCov El Unselected bowtie2 sorti HistoryFileVCF ini HistoryFileVCFMerGeFile_A 1 HistoryFileVCFMerGeFile An HistoryFileVCFMerGeFile An HistoryFileVCFMerGeFile An HistoryFileVCFMerGeFile MN HistoryFileVCFMerGeFile vcf References projectNGSEP ReferencesGff3 projectNGSB ReferencesMap projectNGSE EE ceMapping Test stDanielFields stFluidep stingNGSEP SENGSEP New Open Open Wit
111. all INDELs CNVs and structural variants For more information of the file format see http www 1000genomes org wiki Analysis Variant9620Call9020Format vcf variant call format version 41 188 e Gff General format of characteristics created by Sanger composed by 9 mandatory fields separated by tabs For more information see http www sanger ac uk resources software gff spec html e CNVs format For copy number variations ACCESS TO VARIANTS DETECTOR 1 The first step in order to access to Variants Detector after installing Eclipse and NGSEP is having the Sorted Bam file 2 Clickonthe sorted Bam file and choose the Find Variants option from the NGSEP menu 3 Make sure that the selected file is a Sorted Bam File otherwise the process will not work e Java Eclipse SDK m jin LA File Edit Source Refactor Navigate Search Project Run Window Help EA BODA AGA or x Quick Acces rt E Java Package Explorer gt a Outline 4 ic YeastSequencing An outline is not available 4 5 Mapping CBS6412 bowtie2_sorted be Ste p O n e ER7A_bowtie2_sorted bam New Unselected_bowtie2_sorted Open F3 4 amp Reads Open With NG 5197 CB56412 read 1f Show In Alt Shift W gt NG 5197_CBS6412 read 21 OS Copy Ctrl C NG 5197 ER7A read 1 fq NG 5197 ER7A read 2 fq iN ae eme T z D Paste Cul V Uy Reference X Delete Delete sacCer SGD refgenome 20 sacCer SGD refgenome 20 Build Path sacCer SGD refgenome 20 Refactor Alt Shift T
112. ar historial de referencias Generar historial de GFF Generar archivo vcf con anotaciones de genes Ingresar archivo VCF de variants gen micas Ingresar archivo GFF Requerimiento El sistema debe permitir Comparar un cat logo de variantes un cat logo de anotaciones de genes y un genoma referencia con el objetivo de buscar posibles variaciones o cambios con respecto al genoma de referencia y como pueden influir en la funci n de los genes m Juan Camilo Quintero Fecha Fuente Creaci n Diciembre 21 del 2012 Fecha Ultima Dici 21 del 2012 Modificaci n Ld 140 GUION CASO DE USO 6 MEE CU 6 Mezclar en un solo archivo la informaci n de diferentes muestras analizadas Mezclar en un solo archivo la informaci n de diferentes muestras analizadas Descripci n La funci n de este caso de uso es este proceso se divide en dos fases la primera tiene por objeto determinar la lista de las variantes encontradas en al menos uno de los archivos VCF que se generaron en el proceso de detecci n de variantes posteriormente generar un archivo VCF com n entre las muestras seleccionadas Despu s el proceso requiere la ejecuci n de nuevo de variants Detector para todas las muestras seleccionadas pero utilizando el archivo com n generado anteriormente este proceso genera nuevos archivos VCF Por ltimo podr fusionar esos nuevos archivos VCF que se generaron en uno solo que muestra la herencia de padres a hijos en
113. arga de memoria para un usuario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n Prevenci n de errores Est tica y dise o minimalista Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n Ayudar a los usuarios a reconocer diagnosticar y recuperar errores Ayuda y documentaci n La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea Tabla 7 Evaluaci n realizada con la escala de la Tabla 4Tabla 3 aplicada a las herramientas NGSEP y SNVer 107 Heur stica Visibilidad del estado del sistema Preguna INGSEP SNVer Control y libertad del usuario La interfaz de la aplicaci n permite controlar la iteraci n de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos en la pantalla Correspondencia entre el sistema y el mundo real Reconocer antes que recordar El dise o de la interfaz permite reducir la carga de memoria para un usu
114. ario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n Prevenci n de errores Est tica y dise o minimalista Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n Ayudar a los usuarios a reconocer diagnosticar y recuperar errores Ayuda y documentaci n La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea Total Tabla 8 resultados de la evaluaci n realizada en la Tabla 7 108 4 5 GRAFICA COMPARATIVA DE LA Tabla 8 De acuerdo a lo definido en el apartado GR FICA COMPARATIVA DE LA Tabla 6 de la p g 51 del cap tulo 2 se procede a graficar los valores obtenidos por las herramientas NGSEP Y SNVER en la Tabla 8 con respecto a las heur sticas establecidas en el apartado de la p g 35 en el cap tulo 2 Ilustraci n 96 expresa de manera gr fica las distancias entre los valores reales Permite evaluar el desempe o de una herramienta respecto a las heur sticas establecidas en el apartado de la p g 35 en el cap tulo 2 Porcentaje calificado por
115. astSeauencina Mappina CBS6712 bowtie2 les 7 Execution Parameters This section is compose by 4 parameters that represent the whole variant detection process Execution Parameters 7 Skip Repetitive Regions Detection Skip New CNV Detection Skip Structural Variants Detection Skip SNVs Detection Skip Repetitive Regions Detection this option is intended to set aside repetitive regions for detecting the other genomic variants Skip New CNV Detection This option is intended to set aside CNVs for detecting the other genomic variants Skip SNVs Detection This option is intended to set aside SNVs or SNPs for detecting the other genomic variants Skip Structural Variants Detection This option is intended to set aside structural variants for detecting genomic variants such us Insertions deletions inversions A Note If you don t select any option from Execution Parameters NGSEP will execute all the findings of variants detector 191 8 SNVs Detection Parameters This section is composed by parameters that represent many adjustments that can improve the SNVs detection A Note By default some fields can hold values however if you are aware about their meaning you can change on demand according to your sample on research SNVs Detection Parameters Common Parameters y Genomic Location 2 lady 2 ye Heterozygosity Rate 0 0010 Sample Id CBS6412 2 Minimun Genotype Quality Score 40 Maximun Base Quality Score 3
116. at this time N A Note This tab contains the progress bars of NGSEP If you haven t triggered any process you should not see anything there however sometimes eclipse uses that tab to report processes of projects and its environment Do not worry if that happens Now with the progress bar view activated you are ready to use the different options that NGSEP offers Map Reads This process executes the matching between a reference genome and reads that come from sequencers such as Illumina and 454 REQUIREMENTS 173 e Bowtie2 Open source tool that is able to map up to 25 million of short reads 35 pb per hour The first step to use Map reads is downloading and installing bowtie2 in your PC You can download bowtie2 in the following link http sourceforge net projects bowtie bio files bowtie2 2 1 0 For installing bowtie2 in windows operating system follow these steps 1 Download Bowtie2 and extract the code to a location on your disk 2 Find the executable bowtie2 align exe bowtie2 build exe 3 Add bowtie2 to your PATH environment variable To do this follow your operation system s instructions for adding the directory to your Path For Windows follow these steps e Make a right click on Computer and choose Properties gt Advanced System Settings gt Advanced Options gt System Variables gt Path gt Edit In the option Variable Value add a each semicolon adds a new path for variables and write the path where
117. ator after installing Eclipse and NGSEP is having the VCF file It could be the output of the Variant Detector 2 Click on the VCF file and choose the Variants functional annotator option from the NGSEP 3 Make sure that the selected file is a VCF File otherwise the process will not work e Java Eclipse SDK File Edit Source Refactor Navigate Search Project Run Window Help e EX e S A E E C S E G 2 Package Explorer 4 i YeastSequencing 4 Mapping CBS6412 bowtie2 sorted b CBS6412 bowtie2 SV gff CBS6412 bowtie2 cnv CBS6412 bowtie2 vcf ER7A bowtie2 sorted bam ER7A bowtie2 SV gff ER7A bowtie2 cnv ER7A bowtie2 vct Unselected bowtie2 sortec X Unselected bowtie2 SV gff Unselected bowtie2 cnv Unselected bowtie2 vcf VDCBS6412 bowtie2 vcf loi VDER7A bowtie2 vcf log u VDUnselected_bowtie2 vcf gt gt Reads v Reference HistoryFileVCF ini HistoryFileVCFMerGeFile vcf References projectNGSEP 34 New Open Open With Show In Copy Copy Qualified Name gt Paste Delete Build Path Refactor import Export Refresh Assign Working Sets Run As Debug As Team Compare With Replace With NGSEP Menu Properties CBS6412_bowtie2_sorted bam YeastSequencing Mapping Screen for Variants Functional Annotation 0278 F3 Alt Shift W gt Ctri C Ctri V Delete gt Alt Shift T gt Alt Enter No operations to d Map Reads Sort Alignment Sam Pairing Find Variants Merge VCF Po
118. base individual C At CT C A T M TTTTTTTTTTTT CATCA GG T CAT TTTTTTT CA TOR AT Ilustraci n 4 Ejemplo de variaciones gen micas en una cadena de ADN se pueden apreciar las siguientes variaciones SNP inserci n o adici n deleci n o supresi n 12 2 5 CNV VARIANTES DE N MERO DE COPIA Una variaci n del n mero de copia CNV es cuando el n mero de copias de un gen en particular var a de un individuo a otro 24 Es una forma de variaci n estructural son alteraciones del ADN de un genoma que se traduce en la c lula que tienen un n mero anormal de copias de una o m s secciones de la ADN CNV corresponden a las relativamente grandes regiones del genoma que se han eliminado menos de la cantidad normal o duplicados m s que el n mero normal en ciertos cromosomas 34 La llustraci n 5 es un ejemplo de los diversos tipos de CNV que pueden presentarse en el ADN A B C D Reference A B C C D Segmental Duplication Biallelic CNV C 2 T o gt A B C C C D Multiallelic Copy Number Variant C o n A BCDODDDCDCDIC D Complex CNV D CD s A C B D Inversion CB pl j Chromosome Ilustraci n 5 Variaci n CNV en la secuencia ABCD de un locus de un cromosoma 34 2 6 USABILIDAD La usabilidad en un producto de software Es La capacidad que tiene dicho producto para ser atractivo entendido aprendido y usado por el usuario cuando es utilizado bajo unas condicion
119. blemas de poca usabilidad integraci n y personalizaci n que se presentan a la hora de implementar el uso de las herramientas NGS como bowtie2 Picard NGSTools Actualmente la comunidad cient fica de CIAT accede a las herramientas NGS de manera desordenada y poco eficiente lo que genera perdida de datos y la imposibilidad de continuar con un flujo de trabajo continuo ya que las diferentes herramientas no se encuentran integradas Esto genera resultados faltantes de informaci n valiosa para su posterior an lisis Esta situaci n provoca frustraci n para los cient ficos vi ndose obligados a capacitarse en cursos de programaci n que les permitan adquirir los conocimientos suficientes para interactuar con las herramientas NGS Por otra parte se aumentan los costos asociados a la contrataci n de personal experto y dificulta la realizaci n de los estudios de caso a los cient ficos en tiempos adecuados En este sentido el Dr Jorge Duitama Castellanos ha desarrollado y puesto al servicio de CIAT una librer a denominada NGSTools la cual se apoya en un flujo de trabajo o pipeline para garantizar la integraci n de herramientas que utilizan la tecnolog a NGS como Bowtie2 esto con el fin de generar calidad en los datos a producir con un tiempo eficiente NGSTools representa una soluci n importante para los problemas de integraci n y tiempos de respuesta poco eficientes Sin embargo el hecho que su uso sea por consola no soluciona la p
120. cCer SGD refgenome 20110301 rev 1 bt2 2 sacCer SGD refgenome 20110301rev 2 bt2 on GNE NGSEPView 2 n No operations to display at this time YeastSequencing 171 Now NGSEP should be working in your eclipse If you do right click on any input file for example the Bam you will see several options and you should be able to see NGSEP among them If you put the mouse cursor on it you will see the bioinformatics options that NGSEP can execute from map reads to variants detection and statistics plots Enable NGSEP Progress Bar Enabling the NGSEP view in eclipse will allow you to see the progress bar of the NGSEP tasks In order to enable the progress bar go to the task bar at the upper part of the IDE and select the following options Windows gt Show view gt Other gt NGSEPView Note you could find some differences among Eclipse versions Remember you have to paste the plugin in the droprins folder otherwise the progress bar will not be displayed 1 First click on window option in the task bar 2 Then click on the option Show view and click in the option Other B Java Eclipse SDK Le ria File Edit Source Refactor Navigate Search Project Run Window Help DEC P XW6 0 Q dGov 5 New Window duick Acce Et 1f java I Package Explorer n dil Hide Toolbar a o Outline 4 Open Perspective An outline is not available A Show View gt Ant CBS6412 bowtie2_sorted bam z amp Console Alt
121. cCer_5GD_refgenome_20110301rev 2 b 5 7 2013 11 55 AM BT file 2 969 KB Croce WE GR RS 0000 oT om Fite Edit Source Refactor Navigate Search Project Run Window Help o XxMPpbvrO0rUr yO is X l Quick Acces Et amp Java boa i3 Package Explorer 2i t 82 Outline 4 5 YeastSequencing An outline is not available 4 25 Mapping CBS6412 bowtie2 sorted bam ER7A bowtie2 sorted bam Unselected bowtie2 sorted bam 4 i2 Reads NG 5197 CBS6412 read 1 fq NG 5197 CBS6412 read 2 fq NG 5197 ER7A read 1 fq NG 5197 ER7A read 2 fq 5 Reference sacCer SGD refgenome 20110301 1 bt2 sacCer SGD refgenome 20110301 2 bt2 sacCer SGD refgenome 20110301 3 bt2 sacCer SGD refgenome 201103014 bt2 sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 rev 1 bt2 sacCer SGD refgenome 20110301 rev 2 bt2 GS NGSEPView E No operations to display at this time Reference YeastSequencing For more information about the indexing process in bowtie2 we recommend these links http bowtie bio sourceforge net bowtie2 manual shtml http sauron cs umd edu bowtie2 doc manual html the bowtie2 build indexer USING MAP READS After completion of indexing the reference genome you can execute the Map Reads function in NGSEP You will need your input files in FASTQ format fq or fastq uploaded in your eclipse IE You can select a unique file or two files in case that you have complementary data Doing a right click in
122. ce GB NGSEPView El ce Open With Mee I Show In Alt Shifts w No operations to display at this time Paso Uno a coec Es Copy Qualified Name D Paste CtrleV X Delete Delete Create Index Bowtie Build Path Hu Meme AlteShifteT gt Sort Alignment Find Variants Paso Tres m ee VCF Filter FS VCF Converter Assign Working Sets Vanants Functional Annotation Run As b Calculate Quality Statistics Debug As b Calculate Coverage Statistics Team Plot Quality Statistics Compare With b Plot Coverage Statistics Replace With View VCF NGSEP Menu Sam Pairing In Progress Properties Alt Enter HistoryFileVCF ini PruebaLevadura Ilustraci n 61 accediendo a Merge VCF 82 Quick Access ri amp Java 8 Outline 1 0 An outline is not available LB Merge VCF List Merge For VCF Check Sample ID VCF File Name BAM Name Reference select all files a Samplen47 Clean Samplen47 Cleandata 1 Samplen47 Cleandata 1M sacCer_SGD_refgenome_20110301 Deselect all files CBS6412 CBS6412 bowtie2 vcf CBS6412 bowtie2 sorted b sacCer SGD refgenome 20110301 ER7A ER7A bowtie2 vcf ER7A bowtie2 sorted bam sacCer SGD refgenome 20110301 Unselected Unselected bowtie2 vcf Unselected bowtie2 sorte sacCer SGD refgenome 20110301 Output File D Desarrollo runtime EclipseApplication PruebaLevadura HistorvFileVCFMerGeFile vcf Determine list of variants Merge vcf files Il
123. cia en b squeda de las posiciones que se encuentran con variaci n Determinar la cantidad de lecturas que cubre cada posici n del genoma 54 3 5 LISTA DE REQUERIMIENTOS NO FUNCIONALES El sistema debe de permitir 1 2 10 11 12 13 14 Tener procesos Sincr nicos Ser multiplataforma Tener un registro de las actividades de los procesos comprendidos dentro de NGSTools Integrarse a Eclipse IDE Debe tener interfaz grafica Integrar la interfaz gr fica a NGSTools Recordar ltimos archivos utilizados en los diferentes procesos Crear Jobs que monitoreen los diferentes procesos de comienzo a fin de la ejecuci n de los mismos Crear historial de los archivos utilizados en el proceso de detecci n de variantes de NGSTools Cargar rutas de los archivos que se van a utilizar dentro del aplicativo Generar archivos con los datos generados en cada proceso Generar graficas de cobertura Generar graficas de calidad Correr el proceso de mapeo si est instalado Bowtie2 en el ordenador 55 3 6 ECLIPSE IDE Como es definida en la p gina Web oficial www eclipse org la Plataforma Eclipse es un IDE para todo y nada en particular una poderosa herramienta que permite integrar diferentes aplicaciones para construir entornos de desarrollo integrado IDEs que pueden ser utilizados para la construcci n de aplicaciones Web JavaTM C C entre otras dando a los desarrolladores la libertad de elegir
124. con el fin de generar un archivo que contenga si las variantes encontradas en el caso de uso cuatro tiene un efecto en los genes de dicho organismo Bi logo An lisis Selecciona un archivo VCF con variantes gen micas Luego de seleccionar el archivo VCF da clic derecho sobre este y busca la opci n NGSEP Menu dentro de la ventana 137 desplegada al lado derecho de la selecci n 3 Una vez encontrado el men de NGSEP ubica el puntero encima del men 4 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submenus 5 El usuario ubica la opcion 6 El sistema valida el clic y despliega de NGSEP llamada Variants la pantalla de Variants Functional Functional Annotation Annotation con la ruta del archivo VCF seleccionado cargada en la caja de texto que acompa a a la entrada VCF Variants File 7 El sistema sugiere un archivo de salida con la misma ruta y nombre del archivo de entrada pero la agregacion Annotated 8 Ingresa la ruta donde se encuentra el archivo del genoma de referencia 9 Ingresa el catalogo de genes archivo GFF de la especie del genoma de referencia 10 Da clic en el boton Variants 11 El sistema valida las entradas y Functional comienza la ejecucion 12 Crea una barra de progreso en la vista de procesos de NGSEP esta barra de progreso indica el avance de la ejecucion del proceso actual lanzado en Variants Functional Annotation de igual forma p
125. coonccconncccnnoccnnoconononnononnonannononnononononnonannonannnns 79 llustraci n 50 archivo de historial con la ltima muestra genoma de referencia y archivo vcf de salida generado por Find VariantS cccccccssccccescnsuscnsuecsescauecnsusensusessusssusensuscnausensusesansnsusensusensuseaausssueessuseneusensass 6 Ilustraci n 51 accediendo a Variants Functional Annotation esses sees 77 Ilustraci n 52 pantalla de Variants Functional Annotation coonccocciccniconoconoconoconoconnconnononononononononononinannns 77 Ilustraci n 53 barra de progreso generada por Variants Functional Annotator occooncccnnccnnicnniconiconiconons 78 llustraci n 54 Archivo generado por Variants Functional Annotator cssc eene 8 llustraci n 55 archivo vcf con variantes y la regi n donde fue encontrada la variante 79 Ilustraci n 56 archivos usados para ejecutar Merge VCP ccccscccssccseccseccseetsnecsuersuessuessuessuesseessnessnesens 80 llustraci n 57 accediendo a Find Variants con la muestra CBS6412 bowtie2 sorted bam 80 Ilustraci n 58 accediendo a Find Variants con la muestra ERTA _bowtie2_sorted bam 81 Ilustraci n 59 accediendo a Find Variants con la muestra Unselected _bowtie2_sorted bam 81 Ilustraci n 60 ejecuci n de Find Variants con las tres muestras occocccccncc
126. de Adenina a Citosina 11 sees esee 24 llustraci n 4 Ejemplo de variaciones gen micas en una cadena de ADN se pueden apreciar las siguientes variaciones SNP inserci n o adici n deleci n o supresi n 12 sssssssussl 24 llustraci n 5 Variaci n CNV en la secuencia ABCD de un locus de un cromosoma 34 25 ll straci n 6 Flujo Ge Trabajo de GATK TTG sue a eee 31 llustraci n 7 Marco de trabajo o pipeline de Samtools para detectar variantes Imagen modificada por Juan Camilo Quintero original de 14 ooocccccccccccooononenonnncononononononnnononononnnnnnnnnnnnnoonnnnnnnnnnonononnnnnnns 33 llustraci n 8 Interfaz Gr fica de usuario de SNVer 15 esses sese 34 llustraci n 9 Pipeline o flujo de trabajo de SNVerGUl oooooonccccccncicccocncnccconconccocnonoonononnonononnnonononnonanonnnnonons 35 llustraci n 10 Pantalla de SNVer para detectar SNPs e Indeles o cccccoccoccccononocconnnnccocnonccnononnnnnnons 38 llustraci n 11 Impresi n de SNVer en pantalla del estado actual de proceso ejecutado 38 llustraci n 12 Barra de progreso generada por SNVer marca que porcentaje de progreso se ha JA A A ss eg ed eee 38 llustraci n 13 Pantalla de SNVer con informaci n relevante del proceso de detecci n de variantes 39 llustraci n 14 Archivo de salida autom ticamente despleg
127. de Merge VCF llustraci n 67 se debe seleccionar de nuevo el historial de Find Variants HistoryFileVCF Ini e ingresar a Merge VCF en las opciones de NGSEP Menu a Merge VCF ol S List Merge For VCF Check Sample ID VCF File Name BAM Name Reference Select all files Deselect all files Samplen47 Clean CBS6412 ER7A Unselected Samplen47 Cleandata 1 CBS6412 bowtie2 vcf ER7A bowtie2 vcf Unselected bowtie2 vcf Samplen47 Cleandata 1M CBS6412 bowtie2 sorted b ER7A bowtie2 sorted bam Unselected bowtie2 sorte sacCer SGD refgenome 20110301 sacCer SGD refgenome 20110301 sacCer SGD refgenome 20110301 sacCer SGD refgenome 20110301 D Desarrollo runtime EclipseApplication PruebaLevadura HistorvFileVCFMerGeFile vcf Determine list of variants Merge vcf files Output File Ilustraci n 67 Pantalla de Merge VCF con las nuevos VCFs 86 Se seleccionan las mismas muestras que fueron seleccionadas para determinar el archivo de variantes comunes y se da clic en el bot n Merge VCF files O I Package Explorer 32 4 W PruebaLevadura amp GenomaReferencia gt Lecturas 4 Triolevadura 3 CBS6412 bowtie2 sorted bam CBS6412 bowtie2 SV gff 3 CBS6412 bowtie2 cnv CB56412 bowtie2 vcf ER 7A bowtie2 sorted bam ER7A bowtie2 SV gff it Problems Javadoc Declaration EED NGSEPView 2 ER7A bowtie2 cnv J Merge V Process 3 E
128. do o de alerta cuando no se cumplan ciertas condiciones dentro de la aplicaci n Perfil de usuario Cada usuario deber a ser capaz de establecer varios par metros que controlan la ejecuci n de un proceso Agregaci n de comando El usuario debe ser capaz de invocar un archivo con una colecci n de comandos en l y ejecutarlos Recuperaci n de un fallo Cuando el sistema el procesador o la red fallen el usuario debe estar en la capacidad de no perder ning n trabajo Apoyo al usuario internacional El usuario debe tener capacidad de utilizar el sistema en un idioma y un formato de pantalla que sea familiar Ayuda El usuario debe poder acceder a documentaci n de la herramienta que le permite comprender mejor las diferentes pantallas Despu s de analizar las definiciones de los criterios Jakob Nielsen Steve Krug y la IEEE Se pueden obtener los principios b sicos en los que se afirma la usabilidad v Facilidad de Aprendizaje v Flexibilidad v Robustez En la implementaci n de usabilidad a un producto de software aporta importantes beneficios referentes a los costes de desarrollo la calidad del producto y la satisfacci n del cliente Adem s de estos beneficios se encuentran v Incremento del uso de la aplicaci n v Reducci n de los costes de soporte a la aplicaci n ya que resulta un producto facil de instalar de aprender y de usar v Reducci n de los costes de mantenimiento de la aplicaci n 28 v Aumen
129. do por la tecnolog a CE basado en secuenciaci n de Sanger Con la llegada de NGS como nueva tecnolog a de secuenciaci n se ha generado una enorme cantidad de datos como por ejemplo lecturas de ADN genomas secuenciados y archivos con identificaci n de variantes gen micas Estos datos son indispensables a la hora de realizar un an lisis por parte de los cient ficos Bajo esta caracter stica varias herramientas 13 bioinform ticas se han desarrollado para llevar a cabo diferentes tipos de an lisis Sin embargo la mayor a de estas herramientas no son f ciles de instalar ejecutar integrar y personalizar sin el apoyo t cnico de expertos en bioinform tica lo que produce un cuello de botella para los diferentes esfuerzos de investigaci n En este sentido el CIAT Centro internacional de agricultura tropical ubicado en la zona rural de Palmira a 17 km de la ciudad de Cali en Colombia Con sus cultivos Yuca Arroz Frijol y Forrajes utiliza la tecnolog a NGS para las investigaciones de mejora de cultivos Al hacer uso de las herramientas NGS se enfrenta con la problem tica de poca usabilidad y de falta de integraci n entre las herramientas por ejemplo picardtools y bowtie2 entre otras esta problem tica origina gastos para la organizaci n porqu debe costear capacitaciones para los cient ficos en programaci n lo que causa perdida de tiempo para los cient ficos en la elaboraci n de sus estudios de casos Teniendo e
130. dos lecturas de una secuencia de levadura explicadas en las p ginas anteriores Realizar mapeo es importante porque permite alinear cada una de las lecturas en la posici n adecuada utilizando el genoma de referencia como gu a esta opci n se realiza con Bowtie2 que es llamado por NGSEP Para acceder a esa opci n se selecciona las dos lecturas Samplen47 Cleandata 1 fq y Samplen47_Cleandata_2 fq luego se da clic derecho y se accede a la opci n Map Reads de NGSEP Men amp Java Eclipse SDK File Edit Source Refactor Navigate Search Project Run Window Help TN DEE E G S RR Ge ele Quick Access ES av I Package Explorer 3 EISE gt B Outline 22 E 4 12 PruebaLevadura An outline is not available a 2 GenomaReferencia sacCer_SGD_refgenome_20110301 fa 4 2 Lecturas 2 Samplen47_Cleandata_1 fq P Ej Samplen47 Cleandata 2 fq New gt Open F3 Pa SO U n O Show In Alt Shift W gt ES Copy Ctrl C Es Copy Qualified Name j Paste Ctrl V Xie Create Index Bowtie Paso Tres BP Map Reads Alt Shift T gt Sort Alignment g Import Find Variants RA Export Merge VCF VCF Filter eS da VCF Converter Pa Wong Se Variants Functional Annotation Run As Calculate Quality Statistics He vU Debug As Calculate Coverage Statistics Team Plot Quality Statistics Plot Coverage Statistics View VCF Sam Pairing In Progress Y T F P Y Y Compare With Replace With Paso
131. e 91 Samplen47 Cleandata 1MappingFile sortedCoverage 600 000 E E E 575 000 O Scene M c M o o id E M O MH M 525 000 N ul uc uu c et 500 000 ME Ux uL IEEE 275 000 BERE ne ee 450 000 N EE UL d E 425 000 EE A 200 000 oe ee ee ee ee ee M 375 000 M E DER EE CERES EE NES MEE E MEI CREE EE EE M 350 000 ES II ALL 325 000 ERN V PU e DUM UN UNUM SPUR PN UU EN 300 000 1 MIENNE n 275 000 c MM ae oe ee ee es 250 000 A O le s ls S cid IE 225 000 EE E DAE I E MESES NL MEC Du MEI EN 200 000 ON e e a 175 000 A EI c c ea pee 150 000 ERE EE cu i m c 125 000 E EM MIR 100 000 4E soy hasc LSU 75 000 Es ess e a e eee erem soooo aAa eee 25 000 al Por Gee mu MEE MOI reli MEE annie g i i H H H i P Number of reference positions 3 10 15 20 25 30 35 40 45 30 55 60 65 0 75 80 85 90 Coverage Ilustraci n 78 Grafica de cobertura E stats 1 59038 25394 2 2 44298 16987 3 3 37801 13861 4 4 32701 13541 5 5 29436 13350 6 6 28824 14709 7 7 27655 16351 8 8 30066 19816 9 9 32368 23858 10 10 38564 31306 11 11 47872 42813 12 12 60221 56564 13 13 78229 74354 14 14 100359 97731 15 15 129344 127089 16 16 163449 160806 17 17 202467 199242 18 18 244113 239704 19 19 293348 287432 20 20 342850 335856 21 21 394905 386635 22 22 444549 435464 23 23 485990 476710 24 24 520422 509954 25 25 550623 537520 26 26 574078 560809 27 27 584006 570558 28 28 586842 572526 29 29 574687 560449
132. e copias de una nica mol cula de ADN de hebra sencilla son secuenciadas en paralelo Si un nucle tido es complementario a la cadena molde en alg n pocillo la polimerasa extiende la hebra existente de ADN mediante la adici n de nucle tido s La adici n de uno o m s nucle tido s resulta en una reacci n que genera una se al de luz que es recogida por la c mara CCD del equipo La intensidad de la se al es proporcional al n mero de nucle tidos incorporados en un solo flujo de nucle tidos 38 Ilumina Es un m todo de secuenciaci n que consta de la fragmentaci n de la muestra de DNA y la uni n de los adaptadores una vez los fragmentos de DNA se unan a los adaptadores se hace una corrida de PCR en puente para determinar la reacci n de la secuencia este proceso se le llama terminadores reversibles este m todo utiliza una l mina cubierta por secuencias espec ficas Los nucle tidos son detectados uno a uno mediante la luminiscencia que emiten a medida que se van uniendo a la cadena en formaci n 44 Estudio de cohorte Estudio epidemiol gico en el que se hace una comparaci n de la frecuencia de enfermedad entre dos poblaciones una de las cuales est expuesta a un determinado factor de exposici n o factor de riesgo al que no est expuesta la otra 45 11 RESUMEN Esta tesis presenta el desarrollo de la herramienta NGSEP en este sentido NGSEP es un plugin de software programado en el lenguaje Java con SWT bibl
133. e la implementaci n de interfaces Web no es factible Interfaz Plug in Criterio 1 Satisface el criterio la implementaci n de un Plug in en un entorno de trabajo como Eclipse permite que el usuario maneje locamente los archivos gen ticos que va utilizar en el aplicativo facilitando la carga y generaci n de archivos Criterio 2 Satisface el criterio la implementaci n de un Plug in en un entorno de trabajo como Eclipse permite que el usuario maneje locamente los archivos gen ticos que va utilizar teniendo presente los recursos y limitantes de hardware 19 Criterio 3 Satisface el criterio debido a que la implementaci n de un Plug in tiene f cil integraci n a una plataforma de desarrollo como Eclipse Por otra parte la f cil distribuci n que ofrece Eclipse para Plug in permite mantener un buen control de versiones y de instalaci n porque al generar una nueva versi n del aplicativo el entorno de trabajo de Eclipse reconoce estas nuevas actualizaciones permitiendo instalarlas de una manera relativamente f cil para usuarios con pocos conceptos de programaci n Criterio 4 Satisface el criterio la implementaci n de interfaz Plug in permite acceder y modificar funcionalidades ya desarrolladas dentro de la plataforma Eclipse ahorrando tiempo en desarrollo y permitiendo cumplir con el criterio n mero cuatro La siguiente tabla muestra el cumplimiento o no de las tres interfaces elegidas para dar usabilidad a la librer a
134. e p tw O Population VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics CBS6412_bowtie2_sortedReadPos stats YeastSequencing Mapping Plot Coverage Statistics Coverage Statistics Calc r Process 62 Step three Screen Plot Quality Statistics iR Plot Quality Statistics File D YeastSequencina Mappina CB56412 bowtie sortedReadPos stats Output File D YeastSeauencina Mappina CBS6412 bowtie sortedReadPos pna Graphical Output Multiple alignments Statistics 211 File In this field you can see the path of the input file that you selected The output file of the Calculate Quality Statistics function of NGSEP You can also use the browser on the right in case you want to change the input file Our advice is to have all the input files in the project directory Output File In this field you should enter the name and path where you want your output file we recommend using the same project directory ya File D YeastSeauencina Mappina CBS6412 bowtie sortedReadPos stats outpif ie D YeastSequencina Mappina CB56412 bowtle2 sortedReadPos pna Multiple alignments Choose this option if you want to generate the graphic using multiple alignment data If you don t choose it by default the system will take unique alignments Graphical io MM Tum alignments 4 Use the button with the Plot Quality Statistics t
135. e strand In paired end mode nofw and norc pertain to the fragments i e specifying nofw causes bowtie2 to explore only those paired end configurations corresponding to fragments from the reverse complement Crick strand Default both strands enabled 9 Paired end Alignment Paired end Alignment Minimun insert size Maximun insert size Finally the Map Reads is the one that performs the process invoking Bowtie2 after validating the data entered 3 Map Reads Final Results for Map Read At the end of the process you will generate a Bam file that you named previously with all the reads matched against the reference Sort Alignment 186 This option sorts the Bam file which is the output of the Map reads function This process is required because sequencers such as Illumina 454 and Sanger among others produce files that match randomly in the genome Sort Alignment uses internally Picards Tools a library which already contains an option for this purpose INPUT FILES Bam Text format tab delimited file which consist in a header section that is optional and a section of alignment The header begins with while the alignment lines don t Each aligned line has 11 optional information fields that make it flexible ACCESS TO SORT ALIGNMENT 1 The first step in order to access to Sort Alignment after installing Eclipse and NGSEP is having the Bam file 2 Click on the Bam file and choose the Sort Alignment option
136. e va comprimir el archivo SAM en un archivo BAM de menor tama o y en formato entendible para la m quina Para acceder a la opci n se debe seleccionar el archivo SAM y dar clic derecho sobre l Luego de esto se procede de igual forma que en los procesos anteriores a buscar NGSEP men y luego la opci n Sort Alignment Java Eclipse SDK file Edit Source Refactor Navigate Search Project File Run Window Help ewe XA G6 OvQr it Or Bay v Ci Quick Access El E java Package Explorer 24 7c m S outline pa 4 3 PruebaLevadura An outline is not available 4 GenomaReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa4 bt2 sacCer SGD refgenome 20110301 fa rev 1 bt2 sacCer SGD refgenome 20110301 fa rev 2 bt2 4 Lecturas EE NGSEPView o sortDirectory MPSamplen47 Cleandata 1MappingFile log Samplen47 Cleandata 1 fq Samplen47 Cleandata 1MappingFile sam Samplen47 Cleandata 2 fq New No operations to display at this time BetesencesMap projectNGSEP p Open F3 Open With Pa SO U n O Show In Alt Shift W gt Copy Ctri C Copy Qualified Name gt Paste Ctri V X Delete Delete Create Index Bowtie gt Map Reads gt Sort Alignment Paso Tres Nina Variants Merge VCF ess VCF Filter 4 Refresh F5 VCF Converter Assign Working Sets Variants Functi
137. e variant annotation INFO lt ID TCO Number 1 Type Float Description One based codon position of the start of the variant The decimal is the codon position gt FORMAT lt ID GT Number 1 Type String Description Genotype gt FORMAT lt ID GL Number G Type Float Description Genotype likelihoods FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities gt FORMAT lt ID GO Number 1 Type Integer Description Genotype quality gt FORMAT lt ID DP Number 1 Type Integer Description Read depth gt FORMAT lt ID AC Number A Type Integer Description Counts for observed a FORMAT lt ID AAC Number Type Integer Description Counts e leles on Counts for all possible alell CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Samplen47 Cleandata 1 chrI 114 T D 48 n NV 1 GT GL GP GQ DP AAC 0 1 10 4 2 41 17 0 48 0 48 8 0 3 0 5 chrI C A 77 CNV GT GL GP GQ DP AAC 0 1 13 91 3 01 0 1 0 77 10 4 6 chrI 136 G A 255 NV GT GL GP GQ DP AAC 1 20 8 1 81 45 45 6 6 0 0 0 chrI 141 T 166 CNV 1 GT GL GP GQ DP AAC 0 1 24 34 4 52 27 82 0 255 0 255 15 0 8 chrI 254 T 48 CNV 1 GT GL GP GQ DP AAC 0 1 10 43 2 41 17 39 0 48 0 48 8 0 5 0 3 chrI 7 A 10 CNV 1 GT GL GP DP AAC 0 1 17 3 31 20 86 0 3 0 109 11 6 5 chrI 262 A 25 CNV GT GL GP DP AAC 1 66 07 73 0 01 0 0 84 84 19 0 0 19 0 chrI T E 151 NV GT GL GP GQ DP AAC 0 1 24 6 03 45 21 0 0 152 20 7 0
138. e2 Es una herramienta ultrarr pida y con memoria eficiente para la alineaci n de la secuencia de lecturas con largas secuencias de referencia 39 SNPs Polimorfismo de un nucle tido nico es la forma m s sencilla de mutaci n gen tica ya que consisten en el cambio de un sol nucle tido en una secuencia CNV Una variaci n del n mero de copia CNV es cuando el n mero de copias de un gen en particular var a de un individuo a otro SANGER El m todo de secuenciaci n por dideoxinucle tidos mejor conocido como el m todo Sanger se basa en el proceso biol gico de la replicaci n del DNA El m todo de secuenciaci n ideado por Sanger est basado en el empleo de dideoxinucle tidos que carecen del grupo hidroxilo del carbono 3 de manera que cuando uno de estos nucle tidos se incorpora a una cadena de DNA en crecimiento esta cadena no puede continuar elong ndose Esto es as ya que la DNA polimerasa necesita un grupo terminal 3 OH para a adir el siguiente nucle tido y el dideoxinucle tido incorporado carece de este grupo hidroxilo 37 454 La secuenciaci n 454 basada en la secuenciaci n por s ntesis es posible mediante la plataforma de secuenciaci n de segunda generaci n Genome Sequencing FLX Los nucle tidos fluyen de forma secuencial en un orden fijo a trav s del soporte de la placa PicoTiter durante una carrera de secuenciaci n Durante el flujo de nucle tidos cientos de miles de perlas unidas a millones d
139. ead has an alignment we mean that it has a valid alignment When we say that a read has multiple alignments we mean that it has multiple alignments that are valid and distinct from one another If you choose Numbers of Alignments to report k mode you will find another field available where you can input the number of alignments you which to report 7 Numbers of Alignments to reports 2 Using this option Bowtie 2 searches for up to N distinct valid alignments for each read where N is the integer specified in the Number of Alignments to report field If for example 2 is specified 182 Bowtie 2 will search for at most 2 distinct alignments It reports all alignments found in descending order by alignment score The alignment score for a paired end alignment equals the sum of the alignment scores of the individual mates Each reported read or pair alignment beyond the first has the SAM secondary bit which equals 256 set in its FLAGS field See the SAM specification for details Bowtie 2 does not find alignments in any specific order so for reads that have more than N distinct valid alignments Bowtie 2 does not guarantee that the N alignments reported are the best possible in terms of alignment score Still this mode can be effective and fast in situations where the user cares more about whether a read aligns or aligns a certain number of times than where exactly it originated 6 Read Group data Read Group data
140. eandata 1MappingFile sorted bam Samplen47 Cleandata 1MappingFile sam New R Samplen47 Cleandata_2 fq B SASamplen47 Cleandata 1Mappingrile sorted OP B ReferencesMap projectNGSEP a i estNGSEP Show In Alt Shift W gt Paso Uno m m amp Copy Qualified Name Paste Ctrl V X Delete Delete Create Index Bowtie gt Map Reads Paso Uno Nest SA me 00 Find Variants Merge VCF pinum VCF Filter Refresh FS VCE Comerier Mg Wo ses Variants Functional Annotation Run As gt Calculate Quality Statistics Debug As gt Calculate Coverage Statistics Team gt Plot Quality Statistics Compare With Plot Coverage Statistics Replace With View VCF Paso Uno e mr erem FU Poni Ilustraci n 43 accediendo al proceso Find Variants 71 mE File D Desarrollo runtime EclipseApplication PruebalLevadura Lecturas Samplen4 7 m Reference File DADesarrollotruntime EclipseApplication PruebaLevaduralGenomaReferenciars Output File Prefix D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 fws Execution Parameters CNVs Detection Parameters E Skip Repetitive Regions Detection Genome Size E Skip New CNV Detection Bin Size 100 E Skip Structural Variants Detection E Skip SNVs Detection SNVs Detection Parameters Common Parameters Genomic Location Ploidy 2 Heterozygosity Rate 0 001 Sample Id Samplen4 Clear Minimun Genotype Quality Score 40 Maximun Base Quality Score 30 Alter
141. econdary Alignments E Genotype All Covered Sites Maximun Alignment Per Start Position EN Ignore Bases 5 0 Ignore Bases 3 0 Known CNVs File Known Variants File lu Cancel Ilustraci n 92 Errores en campos de la pantalla del proceso de detecci n de variantes Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Est tica y dise o minimalista 102 Pregunta Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n Sample08 yeast VD log X INFO Calculating bin band 7 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 8 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 10 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 12 Nov 08 2013 8 11 24 M net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 14 Nov 08 2013 8 11 24 M net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 16 Nov 08 2013 8 11 24 M net sf ngstoo
142. el proceso de detecci n de variantes de NGSEP en la pantalla 97 Ilustraci n 86 Mensaje de informaci n para ayudar al usuario a digitar los datos en una entrada en el formato correcto como muestra la SUYQOrenCIa ccococccocononocononeconnnonnnnnnonononononononononanononannnonnnnnnnononanenenanos 97 Ilustraci n 87 Mensaje para informar al usuario el comienzo de la ejecuci n del proceso 97 Ilustraci n 88 Mensaje de excepci n al no ingresar un par metro obligatorio para la ejecuci n del le faoc clo ee E TELE 98 Ilustraci n 89 Men de procesos de NGSEP organizado de manera que el usuario empiece el pipeline o flujo de trabajo de arriba hacia abajo si aes oto odas 99 Ilustraci n 90 Dos procesos abiertos a la misma vez el proceso de mapeo depende de la informaci n generada por el primero crear ndice de bOWtie2 ooccccccoconnconccooonononcoooonnonnnononnnnnnnnnnannnnnnonononnnnnononons 100 llustraci n 91 validaciones de campos y mensajes que advierten al usuario antes de ejecutar cualquier lees MEE EE ERE 101 llustraci n 92 Errores en campos de la pantalla del proceso de detecci n de variantes 102 llustraci n 93 Interfaz gr fica de NGSEP cccccccsssssesecccnaseeeeeesnaueeecsssaueeecessauueeessnaueneeesssauceeeesssaannseess 103 Ilustraci n 94 Interfaz gr fica del proceso de detecci n de variantes de NGSEP ooccconcinccconinncnoonononno 104 llustraci n 9
143. elopers 260 us Windows 32 Bit AA Downloaded 163 900 Times Detads Windows 64 Bit Make a Donation At Eclipse IDE for Java and Report Developers 267 ma Windows 32 Bit a fommna JARI Downloaded 91 752 Times Details Windows 64 Bit Eclipse Juno 4 2 Eclipse indigo 3 7 Eclipse for RCP and RAP Developers 228 ne Windows 32 But Older Versions Downloaded 87 734 Times Dotais Windows 64 Bit Hint Eclipse Modeling Tools 275 me Windows 32 Bit You will need a Java runtime Downloaded 86 551 Times Detais Windows 64 Rit environment JRE to use Eclipse Java SE 6 or greater is recommended All downloads are provided under the terms D Eclipse for Testers 95 us Windows 32 Bit and conditions ot the Eclipse Foundation Downloaded 80 533 Times Oetats Windows 64 Bit Software User Agreement unless otherwise specified Eclipse IDE for Automotive Software Developers includes Incubating Y Windows 32 Bit components 184 ma Windows 64 Bit Downlosded 79 071 Times Details Eclipse for Parallel Application Developers 190 ms Windows 32 Bit loaded 73 016 Times Details Windows 64 Bit In this page select Eclipse classic and choose the right file according to your operative system and your system architecture 32 or 64 bits 161 MI ml ecipse cosi 4221 tcipse ra e A AH ES www eclipse org dovwnloads packages eclipse classic 422 junosr2 P Visit other Eclipse Stes m Y E Home Downloads Users Members Committers Resources
144. en un entorno multilenguaje y multiplataforma Es un proyecto de desarrollo de software open source que est dividido en tres partes v The Eclipse Project es un proyecto de desarrollo de software libre destinado a proporcionar una plataforma de desarrollo de herramientas integradas robusta completa y comercial Se subdivide a su vez en tres subproyectos v La propia plataforma que contiene las herramientas Eclipse v JDT Java Development Toolkit a ade a la plataforma un IDE de Java completamente equipado incluyendo editor refactor a permite preservar la sem ntica de un programa compilador y depurador v PDE Plug in Development Environment es un conjunto de herramientas dise adas para ayudar al desarrollador de Eclipse en las tareas de desarrollo prueba depuraci n construcci n y distribuci n de Plug ins 26 Eclipse Platform Java Development Tooling Plug in Developer Environment PDE Eclipse SDK Ilustraci n 28 Entorno de trabajo de Eclipse 27 56 Eclipse Platform Workspace Platform Runtime Ilustraci n 29 Arquitectura de la Plataforma Eclipse 27 3 ARQUITECTURA DE LA PLATAFORMA ECLIPSE Considerandola desde terminos de diseno la plataforma eclipse no ofrece gran funcionalidad por si sola si no que su valor real yace en el modelo de Plug ins con lo cual eclipse esta estructurada como un conjunto de subsistemas los cuales son implementados en uno o m
145. end using the same project directory Output File Prefix D YeastSeauencina Mappina CBS6412 bowtie sortedReadPos lus 204 Read Length Enter the length generated by the sequencer this number must be an integer By default the system will consider a length of 100 Read Lenght Multiple alignments Choose this optio if you want to generate the graphic using multiple alignment data If you don t choose it by default the system will take unique alignments Graphical output 7 Multiple alignments 5 Use the button with the label Statistics to execute if you want to close the window click on cancel Statistics Cancel E Calculated Quality Statistics File D YeastSequencina Mappina CBS6412 bowtie sorted bam Reference File D YeastSequencina Reference sacCer SGD refaenome 20110301 fa Output File Prefix D YeastSequencina Mappina CBS6412 bowtie sortedReadPos Read Lenght 100 Graphical output Multiple alignments Cancel A Note When you execute the Calculated Quality Statistics a progress bar will be displayed on the bottom it represents the percentage of completed process this is important because many times this process can takes several minutes depending on how complex is your organism If you want to stop the process you are able to do it by pressing the red button in the right side of the progress view In the end of the process you will see the 2 output files in the directory in the folder that you se
146. entradas en variants detector proceso de determinar la y procede a detectar las variantes lista de variantes comunes con su respectivo selecciona las muestras que JehioUpp selecciono en la pantalla de Merge e ingresa a variants detector y lo ejecuta de nuevo pero ingresado el archivo com n en la entrada know variants File L ERE v comunes y sus genotipos 16 Genera archivo 16 Generaarhivolog 17 Li Geren ache ov archivo CNV J Et avance de principio a fin 19 Una vez termine de correr 20 Crea de nuevo la tabla con las 4 variants detector por cada columnas y la informaci n del una de las muestras que historial de variants detector selecciono para mezclar selecciona el historial generado por variants detector y le da clic derecho y procede a ingresar de nuevo a Merge VCF Selecciona las muestras 22 Valida las muestras seleccionadas que desea mezclar y crea un archivo VCF con todas las muestras seleccionadas mezcladas con sus respectivos genotipos 23 Genera barra de progreso de principio a fin de la ejecuci n del proceso 142 Excepciones 1 Si no se ingresa archivo BAM 3 Si no se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo File obligatorio 7 Si se borra la ruta del archivo de salida el sistema despliega el mensaje campo output file obligatorio 3 Si no es ingresa el genoma de referencia el sistema despliega el me
147. ermite finalizar el proceso si el usuario lo desea dando clic en el boton rojo que acompa a la barra de progreso 13 Compara el genoma de referencia con el archivo VCF y el cat logo de genes con el fin de detectar el efecto en los genes de las variantes 14 Genera un archivo log con el registro de la ejecuci n del proceso actual de Variants Functional Annotation 15 Genera un archivo con el historial de la referencia usada como genoma de referencia 16 Genera un archivo de historial con el GFF usado como cat logo de genes 138 a LI y a 18 Finaliza la ejecucion y elimina la barra de progreso 17 Genera un VCF con las variantes la posicion en el genoma y la region o calificativo del gen que afecta Excepciones Si no se ingresa archivo VCF Si no se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo VCF Variants File obligatorio 5 Si se borra la ruta del archivo de salida el sistema despliega el mensaje campo output file obligatorio 6 Vuelve al paso 2 Si no es ingresa el genoma de referencia el sistema despliega el mensaje de excepci n campo reference file obligatorio Si no se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo GFF Gene Annotation File 2 Vuelve al paso 4 139 Casos de uso CU 13 Generar Log relacionados Ingresar archivo Fasta Gener
148. es gt CHROM POS ID REF ALT QUAL FILTER INFO FORMAT None chrI TO a C T 104 GT GL GP GQ DP AC edo 207070 chri 83 A T 139 x GT GL GP GQ DP AC NET IL A chrI 84 G A 139 a GT GL GP GQ DP AC E PRA A chrI 90 A C 41 e GT GL GP GQ DP AC doce chri 100 GG GA GAT 255 gt GT GL GP GQ DP AC chrI 103 E T ZO x GT GL GP GQ DP AC f 040 chri 107 E A 162 GT GL GP GQ DP AC sfetasag chri 114 T A 255 GT GL GP GQ DP AC SRA chrI LLE A G 255 GT GL GP GQ DP AC IL L chrI 118 C T ans GT GL GP GQ DP AC 0M0 chri 136 G A 255 GT GL GP GQ DP AC 4 1 2 0 0 chrI 138 CT CCAC CTT 255 GT GL GP GQ DP AC chri 141 a T 255 GP GQ DP AC chrI 172 A G 255 3Q DP AC 0 J chrI LIS o CTC CT 255 GP GQ DP AC 2 2 chrI 176 CGA CA CCA 255 3T GL GP GQ DP AC E chrI 181 C T 255 GT GL GP GQ DP AC oF AA A chrI 192 C T 499 s GT GL GP GQ DP AC foco 050 chri 197 G 95 GT Q DP AC E A chrI 198 C T 85 GT GL GP GQ DP AC uf PERA A chri 199 T G 70 GT GL GP GQ DP AC sf AAA chrI 204 A G 70 GT GL GP GQ DP AC af SC E chrI ELS o C T 174 GT GL GP GQ DP AC fut 0 0 chrI 21T C A 104 a GT GL GP GQ DP AC ul A i i X Ilustraci n 64 archivo VCF con las variantes comunes de las tres muestras 84 Ilustraci n 64 archivo de variantes comunes entre las muestras CBS6412 ER7A y Unselected Sin informaci n de genotipos por var
149. es espec ficas 48 En este sentido la usabilidad est directamente relacionada con la satisfacci n de un cliente que adquiere un producto de software Esto indica que un sistema usable debe poseer los atributos capacidad de aprendizaje eficiencia en el uso facilidad de memorizar tolerante a errores y satisfactorio 8 Por otra parte el autor del libro de usabilidad no me hagas pensar de Steve Krug afirma que para que un software sea f cil de utilizar o tenga alta usabilidad no se trata de que nada importante est a m s de dos clics de distancia de hablar el lenguaje del usuario o incluso de ser coherente Se trata de entender que es y c mo funciona una herramienta sin necesidad de agotar esfuerzos pensando en ella 41 oteve Krug expresa en su libro un conjunto de normas para evaluar si una aplicaci n web tiene usabilidad El conjunto de normas son 1 No me hagas pensar En una aplicativo web cualquier cosa puede detenernos y hacernos pensar innecesariamente Por ejemplo los nombres de las cosas Los t picos culpables son los nombres bonitos o ingeniosos los producidos por el departamento de 25 marketing los nombres espec ficos de la empresa y los nombres t cnicos que no nos son familiares 2 Todo no se puede hacer obvio El objetivo para cada aplicativo web deber a ser que fuera evidente que el usuario final con tal s lo con mirar supiera de lo que se trata y la forma de usarse No obstante alguna
150. ete Rename Properties 3 13 2013 1203 PM Application 10 7 2011 5 06 PM Application 4 9 2013 11 38 AM File folder Date created 3 13 2013 1 44 PM Executable Jar File vito Search Downloads P 190 Size AS 12 KB 26 615 KB 35 219 KB 5 567 KB 41 912 k 6 853 KB 13 410 KB 5 215 KB bat ord 97 ord 97 2 Ki d 97 K Extract to Extract to here Extract to folder C Users jcquintero Downloads eclipse SOK 4 2 2 win32 x86_64 3 Extract to folder p E Mail eclipse SDK 4 2 2 win32 x86 64 zip Encrypt Create Self Extractor Exe Configure 5 044 KB 92 592 KB 187 765 KB 5 790 KB 669 KB When the file is extracted you are going to have a regular folder in which you will find many files Your focus should be an executable file called eclipse exe Once you click on that file the eclipse program will be launched and immediately it will ask you for a work folder called workspace You can select the suggested one or assign a specific one Now eclipse is ready to be used 163 go ho gt 1 p Organize Op B New folder 9 X Favori tes Mi Desktop E configuration l Downloads Lk dropins x Recent Places I features h p2 J Libraries h plugins Documents L readme 4 Music eclipseproduct 5 Pictures artifacts xml E videos eclipse exe eclipse ini amp Computer E eclipsecexe amp System Reserved 62423 C epi viOhtm DATA 62423 D notice html Network eclipse exe Date modified 2 4 2
151. extra ref chars Func for max non Max mismatches in seed alignment E IgnoreQuals C Nofw Maximum number of times will re seed Length of seed substrings Map Reads Ilustraci n 90 Dos procesos abiertos a la misma vez el proceso de mapeo depende de la informaci n generada por el primero crear ndice de bowtie2 Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Prevenci n de errores Pregunta La Aplicaci n tiene un buen dise o de mensajes de error que den la posibilidad al usuario de retraerse antes de que se realice la acci n y se comprometan los datos El manejo de mensajes de error de NGSEP da la posibilidad al usuario de retraerse antes de que se realice cualquier acci n que genere fallos en los datos a generar llustraci n 91 Ilustraci n 92 100 a Variants Detector File Dai Desarrollo runtime EclipseApplication PruebaLevaduralpruebalSample08 ve ua Reference File D Desarrollo runtime EclipseApplication TestNGSEP Reference sacCer SGD refi OutputFilePrefe aaa Execution Parameters CNVs Detection Parameters Skip Repetitive El Skip New CNV d Can not find eclipse project for the chosen output directory Please use as output a directory located within an eclipse project Skip Structural V Skip SNVs Dete SNVs Detection HP
152. f 198 Generated file ERI Aa m Archivo Editar Buscar Vista Codificaci n Lenguaje Configuraci n Macro Ejecutar Plugins Ventana x Codi oi 4 2 Ci M u i3 03 8 Ij e ie i ie i 7 1 fileformat VCFv4 1 pa 2 INFO lt ID CNV Number 0 Type Flag Description Variant in CNV gt 3 INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model gt 4 INFO lt ID TID Number 1 Type String Description Id of the transcript related to the variant annotation gt 5 INFO lt ID TGN Number 1 Type String Description Name of the gene related to the variant annotation gt 6 INFO lt ID TCO Number 1 Type Float Description One based codon position of the start of the variant The decimal is the codon position gt 7 FORMAT lt ID GT Number 1 Type String Description Genotype gt 8 FORMAT lt ID GL Number G Type Float Description Genotype likelihoods gt 9 FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities 10 FORMAT lt ID GQ Number 1 Type Integer Description Genotype quality gt 11 FORMAT lt ID DP Number 1 Type Integer Description Read depth gt 12 FORMAT lt ID AC Number A Type Integer Description Counts for observed alleles 13 FORMAT lt ID AAC Number Type Integer Description Counts for all possible alelles gt 14 CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample 15 chrI 5 s AC
153. ff 308422 68508 CB56412 bowtie2 cnv 301892 64868 CBS6412 bowtie2 vcf 9 314168 83605 10 289368 68382 11 306154 81084 12 295882 81949 13 267694 67481 CBS6412 bowtie2AnnotatorFile vcf vcf ER7A bowtie2 sorted bam ER7A bowtie2 SV gff ER7A bowtie2 cnv 14 263327 65699 ER7A bowtie2 vcf 15 258177 66253 PSCBS6412 bowtie2 sortedReadPos log 16 243229 67872 Unselected_bowtie2_sorted bam 17 256782 65012 Unselected bowtie2 SV gff 18 244571 67035 I 19 255457 68047 20 234902 65422 Unselected_bowtie2 cnv Unselected_bowtie2 vcf 21 252396 68073 VDCBS6412 bowtie2 vcf log 22 246590 69654 VDER7A bowtie2 vcf log 23 298190 93469 VDUnselected_bowtie2 vcf log 24 243418 69292 VFACBS6412 bowtie2AnnotatorFile Jog 25 315874 118151 Reads 26 260521 86638 27 234799 70543 T 28 252763 72650 HistoryFileVCF in 29 231359 68878 HistoryFileVCFMerGeFile vcf 30 237622 71448 References projectNGSEP 31 299982 106956 ReferencesGff3 projectNGSEP iz Reference Gd NGSEPView No operations to display at this time Writable Insert 12 18 206 Percentage of non reference calls CBS6412 bowtie2 sortedReadPos 10 20 30 40 S 60 ZO zu 90 100 Read Position 5 to 3 207 Calculate Coverage Statistics This process compares a reference genome with a sample looking the number of readings for the sample for covering a position in the reference genome ACCESS TO CALCULATE COVERAGE STATISTICS 1 The first step in order to access to Calculated C
154. fgenome 20110301rev l b 5 30 2013 11 17 A BT2File 8 054 KB Music Y sacCer_SGD_refgenome_20110301 rev 2 b 5 30 2013 11 17 A BT2 File 2 969 KB Platform Pictures Reportinll amp videos Numbe amp Computer Report amp System Reserved gt DATA 62423 D Effort E KINGSTON urDriv B Index Bowtie2 select the reference genome previously indexed by bowtie2 order Next time that you open this screen you will see the last file that you entered C Output File Sam Enter the name and the path where you want to save your output file Output File Sam 2 Input Input D YeastSequencing Reads NG 519 CB56412 read 1MappingFile sam Input select one 180 Select the Input flag if you know the format of your input files and choose the adequate option select one Fasta p umina s qseq format rasta A one sequence per line The different file formats are explained in the chart below Input File Format FastaQ Reads specified with lt m1 gt lt m2 gt lt s gt are FASTQ files FASTQ files usually have extension fq or fastq FASTQ is the default format See also solexa quals and int quals Ilumina qseq format Reads specified with m1 m2 lt s gt are QSEQ files QSEQ files usually end in qseq txt See also solexa quals and int quals Reads specified with m1 m2 lt s gt are FASTA files FASTA files usually have exten
155. formaci n integral En especial al profesor C sar Pardo de la Universidad Aut noma de Occidente por su enorme colaboraci n en la revisi n y direcci n de esta tesis gracias totales C sar Por ltimo quiero darles las gracias a todos y cada uno de mis familiares que me han apoyado en las diferentes etapas de mi vida en especial a Gloria Lopez y Camilo Montes este logro tambi n pertenece a todos ustedes TABLA DE CONTENIDO Contenido do A ee M 1 AGRADECIMIENTOS cceccseccececescesecereececereerecereeecarsereearsrecarsersesesnreesesareesevnneesesereeeenreee 2 TABLADECON TENIDO torero errado etc i ies ata 3 INDICE DE ILUSTRACIONES cccccccsecsecscerceceeersereeareerecarserecseserecarsuseaesrecaevaneeaevnreesevareess 5 INDICE DE TABLA Scene a nieta iii 5 GLOSARIO DE T RMINOS oae eben ite tu bea Rte uc te Brest ttu e te eva 9 1 14 PROBLEMA Y NECESIDAD cceccceccesccescececersesecersesecarseresareeeecarsrecarsnreeevereeanerees 15 A APP ned S 16 1 2 1 COMPARATIVA DE INTERFACES UTILIZANDO LOS CRITERIOS DEFINIDOS EN LA Ann PP 18 1 3 OBJETIVO GENERAL cccceccecccecesccescesecereesecareerevarserecareresauserevarserecansereeeesreeevanees 20 1 3 1 OBJETIVOS ESPEC FICOS ococonccnncconicononoccnnncnnncnn conc nnnncnn cnn nano nn cnn cnn cnn ranas 20 2 4 DIVERSIDAD GEN TICA ooocccicccoconocinononnncnnnonnnonnnonncnnn conc nnn crono arcano 21 2 2 WIBREBRIANGSTOOLS surtir nctcaehduactts eat 21 Do SNP UL M D Lu E 23
156. genome is going to be used to compare your data The first time that you execute this functionality this text field will be blank you must browse for a fasta file with the genome reference For further executions the field will display the last reference used Y tasta Genome Reference D WeastSequencina Reference sacCer SGD refaenome 20110301 fa Ti 7 VCF Output File In this field you should enter the name and path where you want your output file we recommend using the same project directory 2 CE Output File DiYeastsequencinaiMappina1CB56412 bowtie sorted Annotated vct pu 8 Use the button with the label Variants Functional Annotator to execute if you want to close the window click on cancel Cancel Variants Functional 202 Final Result for Variants Functional Annotator At the end of this process you will see a VCF file holding the information about genes changes and their variations Calculate Quality Statistics This process basically compares the reads held in the Bam file according to the reference genome and then NGSEP will be able to indicate the number of sequencing errors for each position of the reads as one set It should have a homogenous distribution around one ACCESS TO CALCULATE QUALITY STATISTICS 1 The first step in order to access to Calculated Quality Statistics after installing Eclipse and NGSEP is having the Sorted Bam file 2 Click on the Sorted bam file and choose the Calculated Qua
157. h Show In Copy Ey Copy Qualified Name Paste Delete Build Path Refactor Refresh Assign Working Sets Run As Debug As Team Compare With Replace With FLUIDEP Menu NGSEP Menu F3 Alt Shift W Ctrl C Ctrl V Delete Alt Shitt T F5 k k Li Create Index Bowtie Map Reads sort Alignment Find Variants Merge VCF VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics Sam Pairing In Progress Ilustraci n 89 Menu de procesos de NGSEP organizado de manera que el usuario empiece el pipeline o flujo de trabajo de arriba hacia abajo 99 ctor Navigate Search Project File Run Window 9 6 amp a E E Create index Bowtie2 Help NY OV Qari Gri e co Reference Index Bowtie2 Create Index D Desarrollo runtime EclipseApplication RiceMappingTest Reference nipponbz m D Desarrollo runtime EclipseApplication RiceMappingTest Reference nipponbz m TGACCA CGATGT L002 R1 001 fastq gz TGACCA CGATGT L002 R2 001 fastq gz ACAGTG CGATGT L002 R1 001 fastq gz ACAGTG CGATGT L002 R2 001 fastq gz GCCAAT CGATGT L002 R1 001 fastq gz GCCAAT CGATGT L002 R2 001 fastq gz CAGATC CGATGT L002 R1 001 fastq gz CAGATC CGATGT L002 R2 001 fastq gz ACTTGA CGATGT L002 R1 001 fastq gz ACTTGA CGATGT L002 R2 001 fastq gz GATCAG CGATGT L002 R1
158. he user The generated file is important for the execution of the second process Merge VCF because this file is necessary to execute again variants detector for each sample in order to associate the variant allele with their corresponding sample genotype After finishing the list variants process proceed to right click on each BAM file using the known variants field to run variants detector as follows 196 Step one Step two Alt Shift T gt Step three 197 E Outline An outline is not available e D B Variants Detector ucak X File D Yeastsequencina Mappina CBS6412 bowtie sorted bam Reference File DAYeastsequencinalReferencelsacCer SGD refaenome 20110301 fa Output File Prefix D YeastSequencina Mappina CBS6412 bowtie2 Execution Parameters CNVs Detection Parameters Skip Repetitive Regions Detection Genome Size Skip New CNV Detection Bin Size E Skip Structural Variants Detection E Skip SNVs Detection SNVs Detection Parameters Common Parameters Genomic Location Ploidy Heterozygosity Rate 0 0010 sample Id Minimun Genotype Quality Score 40 Maximun Base Quality Score 30 Alternative Allele Coverage Min E Ignore Lower Case Reference E Include Secondary Alignments Maximun Alignment Per Start Position Ignore Bases 5 0 Ignore Bases 3 0 Known CNVs File Known Variants File DAYeastSeauencinaMHistoryFileVCFMerGeFile vc
159. heur stica exp eNGSEP am SN Ver Ilustraci n 96 Grafica producto de los valores obtenidos por las herramientas evaluadas respecto a las 8 heur sticas de usabilidad De acuerdo a los resultados presentados en la llustraci n 96 se puede observar que NGSEP es superior a SNVER respecto a la heur stica 4 Reconocer antes que recordar y en la heur stica 7 Ayudar a los usuarios a reconocer diagnosticar y recuperar errores en las dem s heur sticas presentan similar porcentaje de eficacia 109 4 6 GR FICA TOTAL DE USABILIDAD Porcentaje de usabilidad BINGSEP E SNVer Ilustraci n 97 Grafica producto del porcentaje total obtenido por cada las herramientas evaluadas respecto a las 8 heur sticas de usabilidad A partir de los resultados presentados en la Ilustraci n 97 se concluye que el porcentaje obtenido por NGSEP respecto SNVER es mayor en las heur sticas Ayudar a los usuarios a reconocer diagnosticar y recuperar errores y Reconocer antes que recordar estos aspectos hace de NGSEP la mejor elecci n para un usuario final a la hora de trabajar con datos NGS puesto que ofrece mayor usabilidad que SNVer en un aspecto tan importante como ayudar al usuario final a recuperar los errores producidos en cualquier proceso NGSEP proporciona al usuario una serie de interfaces muy intuitivas f ciles de entender y que permiten al usuario mantener el control de la ejecuci n de cada uno de los procesos contenidos en e
160. iante 4 3 6 4 DETECCI N DE VARIANTES PARA LAS MUESTRAS SELECCIONADAS EN MERGE Esta nueva ejecuci n de Find Variants llustraci n 65 para cada muestra con la adicci n del archivo de variantes comunes tiene como fin generar un nuevo archivo VCF con las variantes comunes para la muestra que se est ejecutando con informaci n del genotipo de dicha variante 8 Variants Detecto File D Desarrollo runtime EclipseApplication PruebaLevadura TrioLevadura CBS641 fen Reference File D Desarrollo runtime EclipseApplication PruebaLevadura GenomaReferencia sz Output File Prefix D Desarrollo runtime EclipseApplication PruebaLevadura TrioLevadura CBS641 Execution Parameters CNVs Detection Parameters C Skip Repetitive Regions Detection Genome Size Skip New CNV Detection m Bin Size Skip Structural Variants Detection C Skip SNVs Detection SNVs Detection Parameters Common Parameters Genomic Location Ploidy 2 Heterozygosity Rate 0 001 Sample Id CBS6412 Minimun Genotype Quality Score 40 Maximun Base Quality Score 30 Alternative Allele Coverage Mlin C Ignore Lower Case Reference C Include Secondary Alignments Maximun Alignment Per Start Position Ignore Bases 5 D Ignore Bases 3 0 Known CMVs File m Known Variants File D Desarrollo runtime EclipseApplication PruebaLevadura HistoryFileVCFMerGel Lad Ilustraci n 65 ejecuci n de Find Variants por cada muestra del trio ingresando co
161. iantes gen micas de las cuales NGSTools es capaz de detectar en uno de sus procesos Variantes Genomicas Mutaciones de Inserciones y Variantes estructurales un solo deleciones nucle tido SNP menores a 1kb a Inversiones Numero de translocaciones copias repetitivas Inserciones y deleciones mayores a e Ilustraci n 2 Cat logo de variantes estructurales 46 2 3 SNPs Es un tipo de variaci n gen mica estructural acr nimo del t rmino en ingl s Single Nucleotide Polymorphism polimorfismo de un nucle tido nico es la forma m s sencilla de mutaci n gen tica ya que consisten en el cambio de un solo nucle tido en una secuencia la Ilustraci n 3 es un ejemplo de este tipo de variante gen mica Su distribuci n es de manera heterog nea a lo largo del genoma y se encuentran en regiones codificantes de prote nas denominadas exones como en la no codificantes que son los intrones 23 Ilustraci n 3 SNP cambio de un nucle tido de la hebra amarilla Tiamina por guanina y cambio de nucle tido en la hebra azul de Adenina a Citosina 11 2 4 INDEL INSERCIONES Y DELECIONES DE NUCLEOTIDOS Es un tipo de variaci n gen mica son las ganancias o p rdidas de nucle tidos en la secuencia del ADN una inserci n es la adici n de uno o varios nucle tidos y la deleci n es la perdida de uno o varios nucle tidos como se muestra en la Ilustraci n 4 ADN una cadena SO TED ES A Cambio UTTTTTTTT en una
162. icas con la cobertura y el n mero de alineamientos en cada posici n del genoma donde esta una lectura Excepciones Si no se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo File obligatorio Si se borra la ruta del archivo de salida el sistema despliega el mensaje campo output file obligatorio Casos de uso CU_13 Generar Log relacionados CU_11 Ingresar archivo BAM organizado CU_19 Generar archivo Coverage stats CU_24 Generar grafica de cobertura Requerimiento El sistema debe permitir Determinar la cantidad de lecturas que cubre cada posici n del Fuente namas Juan Camilo Quintero Enero 4 del 2013 Fecha de Ultima Enero 4 del 2013 Modificaci n 146 GUION CASO DE USO 8 MEE CU 8 Qu proporci n de llamadas diferentes a la referencia se encuentran Qu proporci n de llamadas diferentes a la referencia se encuentran Descripcion La funcion de este caso de uso es analizar un archivo BAM con lecturas del genoma de un organismo en busqueda de unir las parejas de lecturas contenidas en el y que coinciden en la misma secci n del genoma de acuerdo a una longitud de inserci n definida por usuario Bi logo An lisis 2 Luego de seleccionar el archivo BAM da clic derecho sobre este y busca la opci n NGSEP Menu dentro de la ventana desplegada al lado derecho de la selecci n Una vez encontrado el men de NGSEP ubica el
163. ind Variants con la muestra CBS6412 bowtie2 sorted bam 80 4 3 6 2 DETECCI N DE VARIANTES PARA LA MUESTRA DE LEVADURA PAP ER7A bowtie2 sorted bam B Java Eli pse SD file Edit Source Refactor Navigate Search Project File Run Window Help Pio m SX DbrOrQo Gov is oe uick Access nt f java 3 Package Explorer Mo B Outline 5 PruebaLevadura An outline is not available i GenomaReferencia gt Lecturas 4 amp TrioLevadura CBS6412 bowtie2 sorted bam Pp 4 ER7A bowtie2 sorted t New b Unselected bowtie2 sc HistoryFileVCF in Open F3 References project NGSEP Open With ReferencesGff3 projectNG Show In Ait Shift W gt GNU NGSEPView p n Pa SO U n O ReterencesMap projectNG Copy Ctrl C br Poo TestNGSEP 4 Copy Qualified Name gt Paste Ctrl V lowtie2 X Delete Delete Build Path Retactor Alt Shift T s import 132 Export amp Refresh FS Assign Working Sets Run As Debug As b Team Compare With Replace With gt NGSEP Menu Create Index Bowtie P a S O D O S Properties Alt Enter Map Reads Sort Alignment Find Variants Merge VCF VCF Filter Pa SO Tres VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics ER7A bowtie2 sorted bam Pruebalevadura TriolLevadura Plot Coverage Statistics Variants Detector Process 1 a t View VCF Sam Pairing In Progress Ilustr
164. ineamientos de cada lectura para una posici n del genoma de referencia Tabla 10 requerimiento n mero dos ID Reg Prioridad Fecha DD MMM YYYY Comparar un archivo Padre Alta 01 03 2013 BAM con las lecturas de un genoma y un genoma de referencia con el fin de encontrar variabilidad gen tica Descripci n Descripci n Requerimiento Casos de Uso relacionados CU_1 Mapear lecturas con respecto a un genoma de referencia CU_2 Ordenar archivo SAM CU_4 Encontrar Variantes El sistema debe permitir comparar un archivo BAM ordenado contra una referencia con el fin de detectar variaciones diferentes as como SNPs CNVs y Variantes estructurales 118 Tabla 11 requerimiento n mero tres Descripci n ID Reg Prioridad Fecha Casos de Uso relacionados Requerimiento DD MMM YY YY Llevar a cabo el Padre Alta 18 10 2012 CU 1 Mapear lecturas con respecto a ordenamiento de un un genoma de referencia archivo BAM Descripci n El sistema debe permitir ordenar un archivo BAM para que pueda ser compacto y de f cil acceso para los dem s procesos de NGSEP Tabla 12 requerimiento n mero cuatro Descripci n ID Req Prioridad Fecha Casos de Uso relacionados Requerimiento DD MMM YY YY El emparejamiento de Padre Alta 18 10 2012 CU_1 Mapear lecturas con respecto a pares de lecturas que un genoma de referencia encajan en una posici n de un mismo CU_2 Ordenar archivo SAM fragme
165. ios a reconocer diagnosticar y recuperar errores H8 Ayuda y documentaci n LAN NASS NON La Ilustraci n 26 expresa de manera gr fica las distancias entre los valores reales Permite evaluar el desempe o de una herramienta respecto a las 8 heur sticas definidas Porcentaje calificado por heur stica em mmGATK emeSAMTools eammmSNVer llustraci n 26 Grafica producto de los valores obtenidos por cada una de las herramientas evaluadas respecto a las 8 heur sticas de usabilidad 51 De acuerdo a los resultados obtenidos se puede concluir que SNVer es muy superior respecto a la heur stica uno Visibilidad del estado del sistema al contrario que GATK y SAMTools en este criterio tan relevante para una aplicaci n como lo es mantener siempre informado al usuario del estado del sistema En otro aspecto importante resaltar la excelente calificaci n obtenida por las tres herramientas en la heur stica 5 Prevenci n de errores de igual forma las tres herramientas obtienen igual resultado para la heur stica 8 Ayuda y documentaci n Conforme estas calificaciones se pueden obtener el porcentaje total de usabilidad que tienen las herramientas SNVer GATK y SAMTools En este sentido la Ilustraci n 27 representa dichos porcentajes 2 12 GR FICA TOTAL DE USABILIDAD Porcentaje de usabilidad MGATK mSAMToo s i4SNVer Ilustraci n 27 Grafica producto del porcentaje total obtenido por cada una de las herramientas evaluadas res
166. ioteca de componentes gr ficos Con esta esta herramienta un usuario final puede realizar diferentes procesos de NGS Next generation Sequencing Adem s ofrece una soluci n importante para los problemas de integraci n y usabilidad presente en las actuales herramientas de bioinformatica 12 CAP TULO 1 INTRODUCCI N Desde finales del siglo XVIII el hombre ha indagado sobre las diferencias tanto f sicas como de comportamiento de los habitantes del planeta tierra entre ellos plantas animales bacterias y los propios seres humanos A partir de la indagaci n han surgido interrogantes como En qu radican las diferencias f sicas y de comportamiento y por qu nos hacen tan diferentes unos de otros Este interrogante ha sido abordado por diferentes cient ficos a lo largo de los a os dejando infinidades de aportes valiosos en el campo de la gen tica y la biolog a como la identificaci n de cidos nucleicos en 1919 y de bases nitrogenadas en 1930 etc Estos aportes se pueden encontrar por medio de art culos bases de datos para marcadores moleculares entre otros Ante la necesidad de dar respuestas cada vez m s acertadas al interrogante del porqu somos tan diferentes fenotipicamente y genotipicamente unos a otros es necesario analizar el ADN de cualquier sistema biol gico Bajo esta consigna surgi uno de los primeros y m s efectivos m todos de secuenciaci n del ADN seg n la comunidad cient fica del mundo este m todo se
167. ivo de salida Si se borra la ruta del archivo de salida el sistema despliega el mensaje campo output file obligatorio 3 Si el archivo BAM no est el formato adecuado Paso 3 Mensaje 1 Si el archivo SAM no est en formato adecuado el archivo log genera una excepci n NENNEN ae 4 Si no se ingresa el genoma de referencia Nombre Mensaje ln 1 Si no es ingresa el genoma de referencia el sistema despliega el mensaje de excepci n campo reference file obligatorio Casos de uso CU 13 Generar Log pelecionedes CU_15 Generar archivo VCF CU 16 Generar archivo GFF CU 17 Generar historial de variants detector CU_18 Generar archivo CNV CU_10 Ingresar archivo Fasta 136 CU_11 Ingresar archivo BAM organizado CU_14 Generar historial de referencias Requerimiento El sistema debe permitir Comparar un archivo BAM con las lecturas de un genoma y un genoma de referencia con el fin de encontrar variabilidad gen tica A Juan Camilo Quintero Fecha Creaci n Enero 03 del 2013 Fecha Ultima Modificaci n Enero 03 del 2013 GUION CASO DE USO 5 O CU_5 Identificar el efecto de variaciones en los genes Identificar el efecto de variaciones en los genes Descripcion La funci n de este caso de uso es comparar un archivo vcf con variantes gen micas un cat logo de genes y un genoma de referencia pertenecientes a la secuencia de un organismo
168. k time 00 00 01 Returning block of 2059906 Exited Ebwt loop fehr A 0 fchr C 3766349 fehr G 6086925 fchr T 8404025 fehr 12157105 Exiting Ebut buildToDisk Returning from initFromUector Wrote 8247244 bytes to primary EBWT file D Desarrollo sacCer_SGD_refgenome_201 10301 reu 1 bt2 Wrote 3039284 bytes to secondary EBUT file D Desarrollo sacCer_SGD_refgenome_2 0110301 rev 2 bt2 Re opening inl and _in2 as input streams Returning from Ebwt constructor Headers len 12157105 bwtLen 12157106 sz 3039211 butSz 3039277 lineRate 6 offRate 4 offMask Oxfffffff0 ftabChars 10 eftabLen 20 eftabSz 80 ftabLen 1048577 ftabSz 4194308 offsLen 159820 offsSz 3039280 lineSz 64 sideSz 64 sideBwutSz 48 sideButLen 192 numSides 63319 numLines 63319 ebwtTotLen 4052416 ebutTotSz 4052416 color O reverse 1 Total time for backward call to driver for mirror index 00 00 08 C Users E E 176 At the end of the indexing process you should have the following files in the path that you previously indicated for your output sacCer SGD refgenome 20110301 1 bt sacCer SGD refgenome 20110301 2 bt sacCer SGD refgenome 20110301 3 bt sacCer SGD refgenome 20110301 4 bt sacCer SGD refgenome 20110301 rev 1 b 3 7 2013 11 53 AM 3 7 2013 11 53 AM 3 1 2013 11 53 AM 3 7 2013 11 53 AM 3 7 2013 11 53 AM BI2 File BI2 Hle BI2 File BI2 Hle BI2 File 8 054 KB 2 969 KB 1 KB 2 969 KB 8 054 KB sa
169. l almacenamiento de archivos es controlado por el usuario Criterio 3 No satisface el criterio debido que las aplicaciones Stand Alone requieren la elaboraci n de un nuevo archivo jar o ejecutable cada vez que se genere un cambio dentro del aplicativo obligando al usuario a tener que descargar y reinstalar la aplicaci n Criterio 4 No satisface el criterio debido que las aplicaciones Stand Alone no ofrecen ningun tipo de reutilizaci n de componentes gr ficos por lo cual se obliga al desarrollador a comenzar desde cero la mayor parte de las funcionalidades requeridas por el cliente 18 En este sentido luego de evaluar la implementaci n de interfaces Stand Alone se ha llegado a la conclusi n que a pesar de cumplir con los criterios de evaluaci n uno y dos se encontr con la dificultad para su distribuci n en t rminos de instalaci n y desarrollo de esta forma estar a incumpliendo con los criterios de evaluaci n tres y cuatro Al no cumplir con los cuatro criterios de evaluaci n fue descartado el uso de interfaces Stand Alone Interfaz Web Criterio 1 No satisface el criterio debido a la dependencia de la red al ser dependiente de la red la arquitectura web presenta un gran inconveniente para el criterio n mero uno en la carga de archivos gen ticos que por lo general son de tama os bastante considerables hablamos de genomas completamente secuenciados con la tecnolog a NGS que pueden llegar a tener un tama o mayor a
170. l men de NGSEP 110 CAP TULO 5 CONCLUSIONES Y TRABAJOS FUTUROS 5 1 CONCLUSIONES v NGSEP representa una opci n importante para cient ficos y dem s usuarios con pocos conocimientos de programaci n y que desean utilizar una herramienta f cil de entender para trabajar con datos de secuenciaci n de alto rendimiento v Las interfaces gr ficas de NGSEP permiten f cilmente sugerirle al usuario par metros por defecto en caso de que este no conozca los conceptos que se relacionan dentro de la herramienta v Utilizar interfaces gr ficas para NGSEP hace posible dividir por pantallas los diferentes procesos contenidos dentro del pipeline de NGSTools Esta divisi n permite al usuario final tener un orden a la hora de ejecutar el pipeline v El uso de las heur sticas propuestas por Jakob Nielsen para evaluar la usabilidad en el dise o de interfaz gr fica de usuario permite medir que tan f cil es de usar NGSEP para un usuario final de igual forma permiti realizar una comparativa de NGSEP con respecto a otras herramientas con un flujo de trabajo similar obteniendo resultados positivos que justifican por que NGSEP est en un nivel superior a otras herramientas como GATK SNVer SAMTools respecto a usabilidad v NGSEP va permitir a los cient ficos acelerar sus investigaciones en la mejora de cultivos gracias al manejo de datos de tecnolog a de secuenciaci n de alto rendimiento esto se debe a que NGSEP integra herramientas como
171. lable GenomaReferencia 4 5 Lecturas E sortDirectory 1 MPSamplen47 Cleandata 1MappingFile log 3 PSSamplen47 Cleandata 1MappingFile sortedReadPos Ic Samplen47 Cleandata 1 fq Samplen47 Cleandata 1MappingFile Annotated vcf Samplen47 Cleandata lMappingFile sorted bai Samplen47 Cleandata 1MappingFile sorted bam Problems Javadoc Declaration EEB NGSEPView len47 CI ingFil P Sp COM A soredResd osing Coverage Statistics Calculator Process Samplen47 Cleandata 1MappingFile sortedReadPos stat m a Samplen47 Cleandata 1MappingFile SV gff CSSamplen47 Cleandata 1MappingFile sortedCoverage Sampien47 Cleandata 1MappingFile cnv Samplen47 Cleandata 1MappingFile sam Samplen47 Cleandata 1MappingFile vcf Samplen47 Cleandata 2 fq 3 SASamplen47 Cleandata 1MappingFile sorted log B VDSamplen47 Cleandata 1Mappingfile log VFASamplen47 Cleandata 1MappingFile Annotated log amp TrioLevadura HistoryFileVCF ini HistoryFileVCFMerGeFile vcf B MVCFHistoryFileVCFMerGefile log References projectNGSEP ReferencesGff3 projectNGSEP ReferencesMap projectNGSEP Bj TestNGSEP Coverage Statistics Calc r Process 13 Ilustraci n 77 ejecuci n de calculate Coverage Statistics Coverage Statistics corriendo una vez finalizado este proceso se generar un archivo con las estad sticas sobre la cobertura de las lecturas para cada posici n del genoma y la gr fica con respecto a los alineamientos nicos o m ltiples de acuerdo a lo que el usuario ingres
172. lculate Quality Statistics Lo S File D Desarrollo runtime EclipseApplication PruebaLevadura veastSamples CBS64 P Reference File D Desarrollo runtime EclipseApplication TestNGSEP Reference sacCer SGD refi P Output File Prefix D Desarrollo runtime EclipseApplication Pruebalevadura veastSamples CBS64 Read Lenght Graphical output Y Multiple alignments Statistics Cancel GG NGSEPView X Yo Sample08_yeastl O A a Sample08_yeast1 55 TH Ilustraci n 83 Pantalla del proceso calcular estad sticas de calidad de NGSEP abierto y en iteraci n con el usuario mientras se ejecuta el proceso de detecci n de variantes de NGSEP Ilustraci n 84 Botones para arrancar o cancelar la ejecuci n de detecci n de variantes proceso de NGSEP 96 Sample yeastl D um Sample08_yeastl 1 Ilustraci n 85 Bot n para cancelar el proceso de detecci n de variantes de NGSEP en la pantalla Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Correspondencia entre el sistema y el mundo real Pregunta La interfaz muestra mensajes en el idioma del usuario cuando se habla de idioma se refiere a palabras frases y conceptos familiares para el usuario siempre en el contexto de la aplicaci n NGSEP maneja una cantidad de mensajes de diferente ndole tiene mensajes de er
173. lected or the default location 205 i Problems Javadoc 2 Declaration ED NGSEPView 53 X ELI Statistics Quality Process ux Quality Statistics is running 4 Statistics Quality Process 296 a E Final Result for Calculate Quality Statistics At the end of this process you will generate two files with the same prefix but with different endings The first file stats holds the statistics of unique and multiple alignments and the second one png is the plot To open the statistics you can use any text editor and for opening the plot you can use any visual program The output quality statistics file will have the format stats and is tab delimited format composed by 3 columns first one number of reads second one number of multiple alignments and third one number of unique alignments In the end of this file you will find a summary File stats B Java YeastSequencing Mapping CBS6412 bowtie2 sortedReadPos stats Eclipse SDK el Fite Edit Navigate Search Project Run Window Help e e AN 0 5 OviSsay oo nu vw o iick e m E Java i Package Explorer 34 7 CBS6412 bowtie2 sortedReadPos stats 8 Outline 4 5 YeastSequencing 1 398344 85287 An outline is not available 368628 75650 333487 70483 341332 72110 4 3 Mapping B 3 4 5 302157 68841 6 7 8 CBS6412 bowtie2 sorted bam CBS6412 bowtie2 sortedReadPos png BS6412 wtie Doc ct CBS6412 bowtie2 sortedReadPos stats 296616 69950 CBS6412 bowtie2 SV g
174. lipse SDK 4 2 2 win32 x86 64 zip Date modified 3 13 2013 1 51 PM wW linZip File EO Print Burn New folder Name Date mod fied Type Me magevu1 png 3713 201 2b PM PNG Image WV image001 1 png 4 15 201 56PM PNG image M bowtie2 2 1 0 mingw win32zip 4 15 2013 12 15 PM WinZip File Sl bowtie2 2 1 0 mingw win64 1 zip 5 2013 9 37AM WinZip File Sl bowtie2 2 1 0 source zip 1 15 2013 X16 AM WinZip File 3 tdm64 gcc 4 7 1 3 exe mingw w64 v2 0 8 tar gz A gcc 47 1 tdm64 1 c zip S bowtie2 2 1 0 mingw win64 zip ay jre 6u43 windows x64 exe javacalltracer zip Tracert 0 1 3 setup jar S SNVerGULwin32 win32 x86 64 zip PFC 2 1 pdf S toolkit2000zip he ckist doc testckdoc 2 jer_svp doc PFC_2 pdt picard tools 1 88zip 80011 11 doox 4 Hotmailzip amp WB8 v15 2 UpdateSite for Eclipse4 comandogatk 4 BOS 5 62zip prey 0 5 9 win exe ay jdk 7u17 windows x64 exe Rl eclipse SDK 4 2 2 win32 x86 64zip npp 6 3Installer exe ES Paint NET 3 5 10 Install exe J SNVerGUI Size 183 MB 4 15 2013 8 44 AM Application 4 12 2013 3 57 PM WinZip File 4 12 2013 3 30 PM WinZip File 4 12 2013 310 PM WinZip File 4 11 2013 1003 A Application 13 2 26 PM WinZ p File 4 9 2013 2 24 PM ADO AA rm on Open with WinZip Print Edit with Notepad rie Scan with OfficeScan Client Open with Share with gt WinZip b Restore previous versions Send to Cut Copy Create shortcut Del
175. lity Statistics option from the NGSEP menu 3 Make sure that the selected file is a Sorted Bam File otherwise the process will not work Java Edipse SDK gt 2 ea File Edit Source Refactor Navigate Search Project Run Window Help e W6 0vQ 460 DA v T Sw y Quick Acces es Java 1 Package Explorer zl nii z Outline i 4 i YeastSequencing An outline is not available 4 amp Mapping CBS6412 bowtie2 sorted ham 6412 bowtiez SV New 6412 bowtie2 cm Open F3 56412 bowtie2 vcf Open With 6412 bowtie2Anr Show In Alt Shift W A bowtie2 sortec i A_bowtie2_SV gff inse Bed N Ctrl C op alified Name 7A bowtie2 cnv p py Quatifi CtrisV aste ne ER7A bowtie2 vcf E X Delete Delete Unselected bowtie2 Unselected bowtie2 Build Path Unselected bowtie2 Refactor Alt Shift T Unselected_bowtie2 y Import VDCB8S6412 bowtie2 4 Export VDER7A bowtie2 vct VDUnselected bowtit O VFACBS6412 bowtie p Refresh F5 Assign Working Sets amp Reads Run As v Reference Debug As HistoryFileVCF ini Team HistoryFileVCFMerGeFile Compare With References projectNGSE Replace With ReferencesGff3 projectN NGSEP Menu Map Reads Sort Alignment Properties Alt Enter CBS6412 bowtie2 sorted bam YeastSequencing Mapping Sam Pairing Find Variants Merge VCF Population VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics
176. lla de Sort Alignmet con la ruta de da clic sobre esta archivo SAM seleccionado cargada en caja de texto que acompa a a la entrad File SAM 7 El sistema sugiere un archivo de salidia con la misma ruta y nombre del archivo de entrada pero con la agregaci n sorted bam 8 El usuario da clic en el bot n 9 valida el clic y da comienzo a Sort Alignmet ejecucion 10 Crea archivo log W 11 Ordena archivo SAM para comprimirl en un archivo de menor tama o y qu sea de entendimiento para la m quina 132 A 12 Genera un archivo BAM a partir del d ordenado 1 Si no se ingresa archivo SAM Excepciones Si no se carga una ruta en la caja de texto de File Sam el sistema despliega el siguiente mensaje campo File Sam obligatorio oi se borra la ruta del archivo de salida el sistema despliega el mensaje campo output file obligatorio Paso 3 1 Siel archivo SAM no est en formato adecuado el archivo log genera una excepci n Casos de uso CU 12 Generar archivo BAM relacionados CU 13 Generar Log Requerimient El sistema debe permitir Llevar a cabo el ordenamiento de un archivo BAM o Fuente Juan Camilo Quintero Fecha Octubre 18 del 2012 Creaci n Fecha de Ultima Octubre 18 del 2012 Modificaci n 133 GUION CASO DE USO 4 CU_4 Encontrar Variantes Encontrar Variantes Descripci n La funci n de este caso de uso es comparar un archivo BAM c
177. llo runtime EclipseApplication TestingNGSEP Reference sacCer_SGD_refgenome_20110301 fa Start Input bam file is D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted bam Output files are D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter vcf D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter csv Ilustraci n 13 Pantalla de SNVer con informaci n relevante del proceso de detecci n de variantes Functional Annotation with wANNOVAR Ilustraci n 14 Archivo de salida autom ticamente desplegado en la pantalla una vez terminado el proceso FILTER PASS 5 645029E PASS i 9 570426E PASS 8 4107725E 1 7488753E 1 8148089E 1 9223467E 2 5996194E 1 05101034 5 0113525E 1 8599909E 3 521312E 1 4093227E 7 4365754E 1 9705674E 9 527E 41 0 0 4 0104316E 0 0 0 0 0 0 1 110223E 0 0 1 110223E 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0325 1A gt 20 gt 510000000_ _ gt gt 0 gt 207000 gt 0 10 7 40 4 gt 00 Pa E ES O CO 2 Stet St o y a 39 ms 0000000 07112013 1100 Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Control y libertad del usuario Pregunta La interfaz de la aplicaci n permite controlar la i
178. los 6 Gigabytes GB ejemplo el genoma de yuca completamente secuenciado pesa 550 000 Megabytes MB las lecturas de arroz pueden pesar 2 5 GB y las de frijol 3 5 GB Lo que dificulta en gran medida su manejo por la red al tener el usuario que subir cada archivo con el que va trabajar y posteriormente descargar los archivos que se generan en los diferentes procesos Criterio 2 No satisface el criterio la concepci n de aplicativos Web es mantener en un servidor el repositorio de datos e informaci n con esta restricci n teniendo en cuenta el n mero de posibles usuarios y el tama o de los archivos gen ticos hace factible que se presenten fallos en los servidores a la hora de almacenar los archivos con los que trabajen los usuarios del aplicativo Criterio 3 Satisface el criterio las aplicaciones web son de f cil distribuci n y mantenimiento ya que al estar instaladas en un servidor independiente del usuario final pueden ser f cilmente actualizados los cambios que se generen y posteriormente montar estos cambios en la web donde el usuario final puede acceder mediante la web sin necesidad de instalar ni borrar el aplicativo Criterio 4 Satisface el criterio muchos de los actuales generadores de c digo como Zathura permiten generar y reutilizar componentes gr ficos facilit ndole al desarrollador la creaci n de interfaces graficas desde cero Al no cumplir con los primeros dos primeros criterios se lleg a la conclusi n qu
179. ls variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 20 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 24 Nov 08 2013 8 11 24 M net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 28 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 32 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 40 Nov 08 2013 8 11 24 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 48 Nov 08 2013 8 11 25 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 56 Nov 08 2013 8 11 25 M net sf ngstools variants CNVnatorAlgorithm calculatePartition INFO Calculating bin band 64 Nov 08 2013 8 11 25 AM net sf ngstools variants CNVnatorAlgorithm calculatePartition EE Package Explorer X B8 8B 4 5 Pruebalevadura amp GenomaReferencia 3 Lecturas 4 amp prueba Sample0B yeast sortedba Heyy B Sample08 yeast sortedRec Sample08 yeast sortedRe Open E 3 Sample08 yeast sortedRe OPen With j 3 Sample08 yeast SV gff Show In Alt Shift W gt Sample0B yeast Dog Copy Cris 3 Sample08 yeast VDJog ck amp Copy Qualified Name 3 Sample08 yeastcnv Paste Ctrl V 5 Sample08_yeastucf Delete Delete 3 Sample yeast sortedba p 4 Pa
180. ltiple alignments Statistics Ilustraci n 71 pantalla de calculate Quality Statistics 88 Ona cise st Ble Edit Navigate Search Project Fle Run Window Help I Package Explorer eg 65 B GF Outline 3 B 4 5 PruebaLevadura An outline is not available amp GenomaReferencia 4 Lecturas sortDirectory MPSamplen47 Cleandata 1MappingFile log 3 Samplen47 Cleandata 1 fq 3 Samplen47 Cleandata 1MappingFile Annotated vcf A Samplen47 Cleandata 1MappingFile sorted bai Sampien47 Cleandata 1MappingFile sorted bam 3 Samplen47 Cleandata 1MappingFile SV gff B Samplen47 Cleandata 1MappingFile cnv 2 Samplen47 Cleandata 1MappingFile sam B Samplen47 Cleandata 1MappingFile vcf Samplen47 Cleandata 2 fq B SASamplen47 Cleandata 1MappingFile sorted log B VDSamplen47 Cleandata 1MappingFile log B VFASamplen47 Cleandata 1MappingFile Annotated log TrioLevadura B HistoryFileVCF ini B HistoryFileVCFMerGeFile vcf 3 MVCFHistoryFileVCFMerGefile log B References projectNGSEP iX ReferencesGff3 projectNGSEP E ReferencesMap projectNGSEP Ey TestNGSEP Ilustraci n 72 ejecuci n de calculate Quality Statistics Al finalizar la ejecuci n de Quality Statistics se generan un archivo con las estad sticas y otro con la gr fica con la calidad de la secuencia presente en el BAM Samplen47 Cleandata 1MappingFile sortedReadPos 1 00 XE E pre EE po E SENE n n 0 95 a Iu uu o o
181. main VariantsDetector printParameters INFO Minimum Coverage Alternative Allele 0 0 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Maximum Coverage Alternative Allele 0 0 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Minimum probability score 40 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Maximum base quality score 30 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Maximum number of alignments starting at the same position 2 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Ignore variants in lower case reference positions false Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Process secondary alignments for SNV detection false Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Bases to ignore in the 5 end 0 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Bases to ignore in the 3 end 0 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Bin size 100 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Input genome size 0 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Ignore proper pair flag false Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetect
182. mientas se presenta una comparativa para determinar que herramienta presenta mayor usabilidad 2 1 DIVERSIDAD GEN TICA El conocimiento de la diversidad gen tica de las especies resulta fundamental para dise ar estrategias de conservaci n adecuadas y desde 1992 es considerado como prioridad en el Programa de Medio Ambiente de las Naciones Unidas 4 La diversidad gen tica juega un papel relevante en el mejoramiento de los cultivos 6 Esto se debe a la contribuci n de genes valiosos para resistencia a enfermedades insectos y tolerancia a estr s abiotico 2 2 LIBRER A NGSTOOLS Es un marco integrado para el descubrimiento de las variantes gen micas de los datos producidos por NGS Integra algoritmos desarrollados anteriormente para la detecci n SNPs CNV con implementaciones en Java esta librer a fue desarrollada por el Dr Jorge Duitama Castellanos investigador en bioinformatica de CIAT 40 NGSTools proporciona un modelo de objetos para permitir diferentes tipos de an lisis de los datos de secuenciaci n de alto rendimiento como se muestra en la llustraci n 1 21 Genoma de referencia P U Fasta 95e MP Lecturas Fasta o Fastq Mapeoo alineamiento de Paso Dos lecturas l Paso Tres Ordenamiento de lecturas Detecci n de variantes Paso Cuatro BET SOHESY Numero de copias aue ae Variantes SNPs deleciones 36s CHE deleciones repetitivas mayores a 1kb menores a 1kb Ilustraci n 1 Marco
183. mo par metro adicional el archivo con la lista de variantes comunes entre las tres muestras 85 Java Edipse SD File Edit Navigate Search Project File Run Window Help mm A rOn For Ms eo o A ri E Java t Package Explorer 25 gt p B 8 Outline E 2 8 4 W PruebaLevadura An outline is not available GenomaReferencia gt Lecturas 4 Triolevadura CBS6412 bowtie2 sorted bam CB56412 bowtie2 SV gff CBS6412 bowtie2 cnv CBS6412_bowtie2 vcf ER7A bowtie2 sorted bam ER7A bowtie2 SV gff 2 Problems Javadoc Declaration GB NGSEPView MEE ERJA Dowllez on Variants Detector Process ER7A bowtie2 vcf o a Unselected_bowtie2_sorted bam VDERTA_bowtie2 A rette spo Variants Detector Process Unselected bowtie2 cnv os Unselected bowtie2 vcf VDUnselected bowtie2 VOCBS6412_bowtie2 log Variants De tor Process 3 VDER7A_bowtie2 log DS a 3 VDUnselected bowtie2 log HistoryFileVCF ini HistoryFileVCFMerGeFile vcf References projectNGSEP ReferencesGff3 projectNGSEP ReferencesMap projectNGSEP Ej TestNGSEP VDCBS6412_bowtie2 Variants Detector Process 1 Ilustraci n 66 ejecuci n de Find Variants por cada muestra con el archivo VCF de variantes comunes Ejecuci n de Find Variants Ilustraci n 66 para las tres muestras con el archivo com n de variantes cuando finaliza los procesos de Find Variants para las tres muestras se puede proseguir con el proceso final de Merge VCF Para iniciar el proceso final
184. n Find Variants de igual forma permite finalizar el proceso si el usuario lo desea dando clic en el bot n rojo que acompa a la barra de progreso 13 Compara el genoma de referencia con el archivo BAM posici n a posici n con el fin de encontrar diferencias en las secuencias una vez encontradas estas diferencias la clasifica de acuerdo al tipo de variaci n gen mica que es y las ingresa un archivo que se genera como salida con extensi n vcf el cual contiene las variaciones en el cromosoma que ocurri la posici n inicial y final del genoma donde encontr la variaci n el nombre de la variaci n el cambio que ocurri en los nucle tidos y el genotipo de la muestra donde est la variante 14 Genera un archivo log con el registro de la ejecuci n del proceso actual de Find Variants 15 Genera un archivo con el historial de la referencia usada como genoma de referencia 16 Genera un archivo con los CNVs detectados en las posiciones del genoma 18 Genera un archivo con el historial del genoma de referencia usado el vcf generado y la muestra ingresada archivo BAM 19 Finaliza la ejecuci n y elimina barra de progreso 1 Si no se ingresa archivo BAM Nombre Mensje lt Gd EE RS 135 Excepciones 1 Sino se carga una ruta en la caja de texto de File el sistema despliega el siguiente mensaje campo File obligatorio AAA 2 Si se borra o no se ingresa la ruta del arch
185. n cuenta lo anterior el cient fico Jorge Duitama Castellanos doctor en bioinform tica e investigador en bioinformatica del CIAT ha desarrollado una librer a en java que actualmente se accede por consola denominada NGSTools NGSTools se apoya en un flujo de trabajo o pipeline que garantiza la integraci n de herramientas NGS como bowtie2 garantizando la calidad en los datos producidos en tiempos eficientes 40 Los resultados producidos por NGSTools contienen la informaci n necesaria de forma actualizada lo que facilita que dicha informaci n pueda ser posteriormente analizada por los investigadores Actualmente NGSTools representa una soluci n importante para los problemas de integraci n y tiempos de respuesta pocos eficientes sin embargo el hecho que su uso sea por consola no soluciona la problem tica de poca usabilidad presente en las herramientas NGS En ese sentido surge la necesidad de implementar una interfaz gr fica de usuario GUI que integre a NSGTools y garantice aumentar la usabilidad para los usuarios finales A grandes rasgos se considera que los bi logos con problemas en la ejecuci n de comandos en consola son usuarios finales y potenciales clientes de la librer a NGSTools con implementaci n de GUI 14 1 1 PROBLEMA Y NECESIDAD Considerando que la comunidad cient fica incluyendo a CIAT est n haciendo uso de la tecnolog a NGS y sus diferentes tipos de herramientas se hace indispensable resolver los pro
186. n la pantalla Correspondencia entre el sistema y el mundo real Reconocer antes que recordar El dise o de la interfaz permite reducir la carga de memoria para un usuario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n Prevenci n de errores Est tica y dise o minimalista Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n Ayudar a los usuarios a reconocer diagnosticar y recuperar errores Ayuda y documentaci n La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea Total 0B 925 Tabla 6 resultados de la evaluaci n realizada en la Tabla 5 50 2 11 GR FICA COMPARATIVA DE LA Tabla 6 Para realizar la gr fica se denominan a las ocho heur sticas de la siguiente forma S H1 Visibilidad del estado del sistema H2 Control y libertad del usuario H3 Correspondencia entre el sistema y el mundo real H4 Reconocer antes que recordar H5 Prevenci n de errores H6 Est tica y dise o minimalista H7 Ayudar a los usuar
187. n47 Cleandata 1 fq B Samplen47 Cleandata 2 f Open F3 Paso Uno gc E Open With Show In Alt Shift W gt E Copy Ctrl C ES Copy Qualified Name S Paste Ctrl V X Delete Delete dx ME reate Index ie Build Path gt Map Reads P a S O T re S Refactor Alt Shift T Sort Alignment g Import Find Variants tA Export Merge VCF A VCF Filter E patie B VCF Converter A Variants Functional Annotation Run As gt Calculate Quality Statistics Debug As Calculate Coverage Statistics e Teg Team gt Plot Quality Statistics Compare With Plot Coverage Statistics Replace With View VCF P a S O D O S j NGSEP Menu Sam Pairing In Progress Properties Alt Enter sacCer_SGD_refgenome_20110301 fa PruebaLevadura GenomaReferencia llustracion 32 accediendo al proceso crear indice de bowtie m p A Create index Bowtie2 wj Reference Ci Users Juan waorkspace PruebaLevadura GenomaReferencia sacCer SGD refgenome 20110301 fa Index Bowtie Prefix Ic Users Juan workspace PruebaLevadura GenomaReterencia sacCer_ GD_refgenorne_20110301 fa llustracion 33 pantalla de create index bowtie 64 M 8 Java Eclipse SD A ARA Mos file Edit Navigate Search Project File Run Window Help Shaw w amp OvrQr tories gt ww Ouick Acce e Java Package Explorer 29 O O amp Outline 4 5 PruebaLevadura An outline is not available 4 GenomaReferencia IDBsacCer SGD refgenome 20110301
188. native Allele Coverage Min Max E lgnore Lower Case Reference Include Secondary Alignments Maximun Alignment Per Start Position 2 Ignore Bases 5 0 Ignore Bases 3 0 Known CNVs File Known Variants File Ilustraci n 44 pantalla de Find Variants 72 Java Eclipse Fite Edit Navigate Search Project File Run Window Help PY w6 O Qvlsd 93v a v Quick Acce es ER Java i Package Explorer 379 a Outline 4 i Pruebalevadura An outline is not available 4 i GenomaReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 sacCer SGD refgenome 20110301 fa rev 1 bt2 sacCer SGD refgenome 20110301 fa rev 2 bt2 4 amp Lecturas i Problems Javadoc Declaration 233 NGSEPView 32 x amp sortDirectory MPSamplen47_Cleandata_1MappingFile log a Samplen47 Cleandata 1 fq VDSamplen47 Cleandata 1MappingFile Samplen47 Cleandata 1MappingFile sorted ba Samplen47 Cleandata 1MappingFile sorted bam Variants Detector Process Samplen47 Cleandata 1MappingFile sam Samplen47 Cleandata 2 fq SASamplen47 Cleandata 1MappingFile sorted log ReferencesMap projectNGSEP Us TestNGSEP Variants Detector Process 48 amp Ilustraci n 45 barra de progreso generada por el proceso Find Variants Ejecuci n de Find Variants El proceso de ejecuci n lleva a cabo la comparaci n en
189. nce CBS6412 856412 bowtie2 vcf CBS6412 bowtie2 sorted b sacCer_SGD_refgenome_20110301 ER7A Y RIA bowtie2 vcf ER7A_bowtie2_sorted bam sacCer SGD refgenome 20110301 Unselected Y Unselected bowtie2 vcf Unselected bowtie2 sorte sacCer SGD refgenome 20110301 199 Output file for Merge vcf Files al DAYeastSequencing HistoryFileVCFMerGefile vcf Notepad im X oo SHS si 4 amp iD 23 E t a Eie 9 nie gi y 1 44fileformat VCFv4 1 2 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs around this variant gt 3 INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model gt 4 44INFO ID TID Number 1l TypesString Descriptions Id of the transcript related to the variant annotation 5 INFO lt ID TGN Number 1 Type String Description Name of the gene related to the variant annotation gt 6 INFO lt ID TCO Number 1 Type Float Description One based codon position of the start of the variant The decimal is the codon position gt 7 FORMAT lt ID GT Number 1 Type String Description Genotype gt 8 FORMAT lt ID GL Number G Type Float Description Genotype likelihoods gt S FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities gt FORMAT lt ID GQ r 1 Type Integer Description Genotype quality gt FORMAT ID DP N Integer Description Read depth gt e Integer Description Counts for
190. ndels Catalogo de Anotaci n de genes Ilustraci n 9 Pipeline o flujo de trabajo de SNVerGUI 2 9 ESCALA A UTILIZAR PARA CALIFICAR LA USABILIDAD DE GATK SAMTOOLS SNVER De acuerdo al contexto explicado en el cap tulo uno y las herramientas descritas en los p rrafos anteriores se propone una escala para evaluar los criterios descritos para calificar la usabilidad propuestos por Jakob Nielsen s en ese sentido los criterios elegidos para calificar la usabilidad de estas cuatro herramientas de acuerdo al contexto de bioinformatica son v Visibilidad del estado del sistema Control y libertad del usuario Prevenci n de errores Correspondencia entre el sistema y el mundo real Reconocer antes que recordar Est tica y dise o minimalista Ayudar a los usuarios a reconocer diagnosticar y recuperaci n de errores Ayuda y documentaci n LYNN NNN S 35 A continuaci n se crea una tabla con escalas para evaluar los 8 criterios establecidos de acuerdo al contexto de bioinform tica descritos en el p rrafo anterior El criterio evaluado no cumple con la especificaci n descrita para este El criterio evaluado cumple levemente con la especificaci n descrita para este El criterio evaluado cumple parcialmente lo descrito en la especificaci n para este El criterio evaluado cumple con faltas menores en la especificaci n descrita para este El criterio se cumple completamente con la especificaci n descrita para este
191. ne Delimiters To E JUnit Test Case Print Chis P F3 Other Switch Workspace gt Restart import 14 Export Properties Alt Enter Exit on EE NGSEPView W n No operations to display at this time YeastSequencing S New Project FE Select a wizard Create a new project resource type filter text E Java Project X Java Project from Existing Ant Buildfile ue Plug in Project gt b Java 170 New Project Project Create a new project resource gt Project name YeastSequencing W Use default location Location DADesarrolloWorkspaceluno lYeastsequencing Browse Working sets Add project to working sets Now you can add your input files to the new project The input files could be BAM SAM and Fasta formats Java Eclipse SDK o gt o 00 e maA File Edit Source Refactor Navigate Search Project Run Window Help SRE DO R ER C IA E ad i3 Package Explorer El 6 0 Outline 2 4 iz Y qu An outline is not available 4 gt Mapping i5 CBS6412 sorted bam I ER7A bowtie2 bam 12 Unselected bowtie2 sorted bam 4 2 Reads 2 NG 5197 CBS6412 read 1 fq 2 NG 5197 CBS6412 read 2 fq i NG 5197 ER7A read 1 fq 2 NG 5197 ER7A read 2 fq 4 ie Reference i sacCer SGD refgenome 20110301 1 bt2 i sacCer SGD refgenome 20110301 2 bt2 i sacCer SGD refgenome 20110301 3 bt2 i sacCer SGD refgenome 20110301 4 bt2 i sacCer SGD refgenome 20110301 fa E sa
192. need for integrated data analysis pipelines with user friendly interfaces available to the scientific community We have developed NGSEP NGSTools Eclipse Plugin an integrated framework for variants discovery from NGS data NGSEP is based on Eclipse which is one of the leading development environments for Java We integrated previously developed algorithms for SNV detection available in the NGSTools package with Java implementations of state of the art algorithms for CNV and structural variation discovery NGSEP provides an intuitive interface in which the user has a rich control over the files produced during the different stages of the analysis These files follow current standard formats such as BAM and VCF which makes NGSEP results easy to integrate with genome visualization tools NGSEP can also be integrated with bowtie2 to allow the user to follow all the steps needed to obtain genomic variants from raw reads without scripting NGSEP will be distributed as an open source project under GPL license to make it available to the scientific community 159 System Requirements In or order to install and execute NGSEP plugin properly you must have installed at least the following components Operative system Windows Macintosh or Linux Java dk 1 6 or higher Eclipse IDE 3 7 or higher See instructions for how to download and install Eclipse in page 4 Bowtie2 is required only for the Map Reads function See instructions for how to dow
193. nload and install Bowtie2 in the section Map Reads on page 16 WinRar or WinZip Text editor We recommend notepad You can downloaded in the following link http notepad plus plus org 160 Installing Eclipse IDE Installing Eclipse Juno 4 2 2 First download the compressed file from the download page of http www eclipse org downloads eclipse organization ME eo Home Downloads Users Members Committers Resources Projects About Us Eclipse Downloads Packages Developer Builds Projects W Follow QEclipseFdn El me gusta 41 Eclipse Juno 4 2 SR2 Packages to Installing Eclipse a Install Guide sl Eclipse IDE for Java EE Developers 228 me Windows 32 Bit ARE Downloaded 1 405 102 Times Dotais Windows 64 Bit s Compare Combine Packages s Known issues 2 Eclipse Classic 4 2 2 183 u8 Windows 32 Bit Updating Eclipse Downloaded 905 404 Times s Other Downloads Windows 64 Bit Ji Eclipse IDE for Java Developers 150 me Downloaded 568 302 Times Detads Windows 32 Bit Windows 64 Bit 3S Actuate BIRT Hub Evaluation Package Y Download ULTIMATETOOL LERS Schedule distribute amp secure BIRT output plus dashboards analytics and more FOR ECLIPSE UI TESTING G Eclipse IDE for C C Developers 130 mB Windows 32 Bit FREE Down Detais Windows 64 Bit 49 Eclipse for Mobile Developers 144 ua Windows 32 Bit Downloaded 193 408 Times Detass Windows 64 Bit Related Links A Eclipse IDE for Java and DSL Dev
194. nments Statistics File In this field you can see the path of the input file that you selected The output file of the Calculate Quality Statistics function of NGSEP You can also use the browser on the right in case you want to change the input file Our advice is to have all the input files in the project directory Je D YeastSequencina Mappina CBS6412 bowtie2 sortedCoveraae stats 4 Output File In this field you should enter the name and path where you want your output file we recommend using the same project directory Output File D YeastSequencina Mappina CBS6412 bowtie sortedCoverage pna gt Y T Multiple alignments Choose this option if you want to generate the graphic using multiple alignment data If you don t choose it by default the system will take unique alignments Graphical LT Mum alignments 5 Use the button with the label Statistics to execute if you want to close the window click on cancel Statistics Cancel 215 Plot Coverage Statistics CEN File D YeastSequencina Mappina CB 641 bowtie sortedCoverage stats Output File D YeastSequencina Mappina CBS6412 bowtie sortedCoveraae pna Graphical Output Multiple alignments Final Result for Plot Coverage Statistics At the end of this process you will generate a file png To open it you can use any visual program The x axis represent the coverage and the Y axis the number of reference positions Outpu
195. nome 20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 sacCer SGD refgenome 20110301 fa rev 1 bt2 sacCer SGD refgenome 20110301 fa rev 2 bt2 4 gt Lecturas 2 Problems Javadoc G Declaration GG NGSEPView a Samplen47 Cleandata 1 fq Map Reads Process Samplen47 Cleandata 2 fq a Ej TestNGSEP MPSamplen47 Cleandata 1MappingFile Map Reads Process 196 Ilustraci n 38 barra de progreso generada por el proceso Map Reads 4 PruebaLevadura 4 2 GenomahReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refgenome 20110301 fa 1 bt sacCer SGD refgenome_20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt sacCer SGD refgenome 20110301 fa rev Lbt2 sacCer SGD refgenome 20110301 fa rev 2 bt2 4 Lecturas sortDirectory IB MPSamplen47 Cleandata 1MappingFile log B Samplen47 Cleandata 1 fq B Samplen47 Cleandata 1MappingFile sam B Samplen47 Cleandata 2 fq pup up up up wp wp y Ilustraci n 39 archivos generados por el proceso de Map Reads Una vez finalizado el proceso de Map Reads se genera el archivo SAM con el resultado de alinear las lecturas en las posiciones del genoma en las que empaten 68 4 3 3 ORDENAMIENTO DE ARCHIVO SAM Luego de llevar a cabo el proceso de mapeo y tener el archivo SAM con los alineamientos se procede a comenzar el tercer proceso de NGSEP donde s
196. ns que si bien est n instalados no est n siendo usados De esta manera un Plug in puedo ser instalado y agregado al registro pero el mismo no ser activado a menos que se requiera mediante la actividad de usuario 27 3 9 WORKSPACE Se trata del bloque central o espacio de trabajo para los archivos regulares que son espec ficos de cada usuario y sobre los que act an las diferentes herramientas instaladas en la plataforma El espacio de trabajo del usuario consta de uno o m s proyectos donde cada uno se mapea a un directorio especificado por el usuario en el sistema de archivos Cada proyecto contiene los archivos que son creados y manipulados por el usuario Todos los archivos en el espacio de trabajo son directamente accesibles por programas est ndar y herramientas del sistema operativo El conjunto de proyectos archivos y carpetas que son generados por herramientas y almacenados en el sistema de archivos constituye los recursos del workspace Est n organizados en una estructura de rbol con los proyectos arriba y los archivos y carpetas abajo 27 3 10 WORKBENCH Implementa el aspecto visual que permite al usuario navegar por otros recursos y utilizar las herramientas integradas El workbench es simplemente un frame donde se presentan varias partes visuales estas partes se pueden dividir en dos categor as mayores editores y vistas 27 Ante la necesidad de integrar un flujo de trabajo para el an lisis de dato
197. nsaje de excepci n campo reference file obligatorio 4 Si no selecciona ninguna muestra Paso 4 1 Si no se selecciona ninguna muestra en la pantalla Merge VCF se despliega el siguiente mensaje Al menos debe seleccionar dos muestras de manera obligatoria para ejecutar este proceso 2 Vuelve al paso 4 143 Casos de uso CU 13 Generar Log relacionados CU_10 Ingresar archivo Fasta CU_14 Generar historial de referencias CU_4 Encontrar Variantes CU 15 Generar archivo VCF CU 16 Generar archivo GFF CU 17 Generar historial de variants detector CU 18 Generar archivo CNV CU 11 Ingresar archivo BAM organizado CU 32 Ingresar archivo de historial variants detector CU 34 Generar VCF con informaci n mezclada de varias muestras CU 31 Generar VCF con informaci n mezclada de varias muestras y sus correspondientes genotipos Requerimiento El sistema debe permitir Mezclar tres archivos con variantes y comparar contra la Fuente referencia en b squeda de las posiciones que se encuentran con variaci n R Juan Camilo Quintero Fecha Creaci n Marzo 18 del 2013 Fecha Ultima Marzo 18 del 2013 Modificaci n 144 GUION CASO DE USO 7 CU_7 Cantidad de posiciones cubiertas por el genoma Cantidad de posiciones cubiertas por el genoma Descripci n La funci n de este caso de uso es generar un gr fico y un archivo de estad sticas de acuerdo a la muestra ing
198. nt extra ref chars dpad int Pads dynamic programming problems by int columns on either side to allow gaps Default 15 i AT Func for max non n ceil lt func gt Sets a function governing the maximum number of ambiguous characters usually Ns and or s allowed in a read as a function of read length For instance specifying L 0 0 15 sets the N ceiling function f to f x 0 0 15 x where x is the read length See also setting function options Reads exceeding this ceiling are filtered out Default L 0 0 15 Max mismatches in seed alignment N int Sets the number of mismatches to allowed in a seed alignment during multiseed alignment Can be set to 0 or 1 Setting this higher makes alignment slower often much slower but increases sensitivity Default 0 185 C IgnoreQuals ignore quals When calculating a mismatch penalty always consider the quality value at the mismatched position to be the highest possible regardless of the actual value I e input is treated as though all quality values are high This is also the default behavior when the input doesn t specify quality values e g in f r or c modes bn Mofw C Morc nofw norc If nofw is specified bowtie2 will not attempt to align unpaired reads to the forward Watson reference strand If norc is specified bowtie2 will not attempt to align unpaired reads against the reverse complement Crick referenc
199. nt Places d features 3 12 2013 2 20 PN le folde h p2 3 12 2013 220 PM File folde I Libraries plugins 2112 2013 221 PA File folde Documents J readme 4 Music eclipseproduct 1 14 2012 13 PM ECUPSEPRODU 5 Pictures artifacts xml 6 28 2013 9 11 AM amp videos eclipse exe 14 20 PM a eclipseini Date created 3 12 2013 2 19 PM 4013 911 AM IM Computer E eclipsec ex Size 312 KB 14 M amp System Reserved 62423 C epl v10 htmi gt DATA 62423 D notice html KINGSTON urDrive F J 23 04 2013 J CIAT A Inicio J Oracle Express J Plantillas J urDrive h USB Network A 13 items You need to start eclipse again and the NGSEP will be integrated with eclipse IDE Using NGSEP plugin The first thing that you need to do after starting eclipse is to create a new project To do so go to the task bar at the upper part of eclipse and select File gt New Project and choose General gt Project Immediately a window to name the project will show up where you can type the name of your new project 169 Java Eclipse SOK c c oll RT 0 000 090 o Aoc MlM 6 md Open File T3 Project j i bx 17 m Close Package Osi i tii o sa An outline is not available Cul 5 Enum ides Annotation MM Cut Stit S 53 Source Folder roe 1 Java Working Set Move L3 Folder Rename e File Refresh gg 4 Untitled Text File Convert Li
200. ntateesertnneates 124 DIAGRAMA DE CLASES ececccsescescessecseceecesserseesaeseceeceesarsarsecaseesarvaesacsesertanenvasseeeesereanes 126 GUIONE eee eee did UM eee ee eee ere ee E ere ere 128 GUION CASO DE USO PORN LIA LEE te LU LE 128 GUION CASO DE USO 2 tremens treten ens treten stretti 132 GUION CASON USO Ai 134 GUION CASO DE USO rita 137 GUIONGSGASO DE USO e i MM 141 QUIEN SAS DE VSOT aa 145 GUION CASO DE USOS sra 147 DIAGRAMAS DE SECUENCIA oO 150 ANEXO B Manual de instalaci n de seguimiento de NGSEP ccccecceceeeeeeeeeeeeeeeeeeeeenees 156 INDICE DE TABLAS Tabla 1 Caracter sticas del contexto de implementaci n de una interfaz gr fica en NGSTools 18 Tabla 2 tabla con el resultado de la evaluaci n de tres Interfaces eene 20 Tabla 3 Herramientas que trabajan con datos de NGS y tienen igual flujo de trabajo o pipeline 29 Tabla 4 Escala para evaluar la usabilidad de la GUI esee 36 Tabla 5 Evaluaci n realizada con la escala de la Tabla 3 aplicada a las herramientas GATK SAMtools VIN AAA reo En eect Dead ieee eda ae eden ule alte ete cate a a nas hee eae ea 49 Tabla 6 resultados de la evaluaci n realizada en la Tabla 5 sss eene 50 Tabla 7 Evaluaci n realizada con la escala de la Tabla 4 aplicada a las herramientas NGSEP y SNVer
201. nto secuenciado Descripci n El sistema debe permitir analizar un archivo BAM con lecturas del genoma de un organismo en b squeda de unir las parejas de lecturas contenidas en l y que coinciden en la misma secci n del genoma de acuerdo a una longitud de inserci n definida 119 Tabla 13 requerimiento n mero cinco Descripci n ID Req Prioridad Fecha Casos de Uso relacionados Requerimiento DD MMM YY YY Comparar un cat logo Padre Alta 21 12 2012 CU_1 Mapear lecturas con respecto de variantes un a un genoma de referencia cat logo de l anotaciones de genes CU_2 Ordenar archivo SAM y un genoma referencia con l objetivo de buscar posibles variaciones o cambios con respecto al genoma de referencia y como pueden influir en la funci n de los genes Descripci n El sistema debe permitir comparar un cat logo de variantes un cat logo de anotaciones de genes y un genoma de referencia con el objetivo de buscar posibles variaciones o cambios con respecto al genoma de referencia y como pueden influir en la funci n de los genes 120 Tabla 14 requerimiento n mero seis Descripci n ID Req Prioridad Fecha Casos de Uso relacionados Requerimiento DD MMM YYYY Llevar a cabo la Padre Alta 04 01 2013 CU 1 Mapear lecturas con respecto a comparaci n de un genoma de referencia lecturas de un genoma archivo BAM contra CU 2 Ordenar archivo SAM su referencia archivo Fasta con el
202. ntro de NGSEP Bi logo su rol dentro de NGSEP es de usuario final el cual tendr a su disposici n todas las funcionalidades brindadas para descubrimiento de variantes gen micas 3 3 REQUERIMIENTOS FUNCIONALES Un requerimiento funcional define una funci n del sistema de software o sus componentes Una funci n es descrita como un conjunto de entradas comportamientos y salidas 42 53 3 4 LISTA DE REQUERIMIENTOS FUNCIONALES El sistema debe de permitir 1 La comparaci n entre un genoma de referencia y lecturas gen micas esto con el fin de poder realizar re secuenciaci n Comparar un archivo BAM con las lecturas de un genoma y un genoma de referencia con el fin de encontrar variabilidad gen tica Llevar a cabo el ordenamiento de un archivo BAM El emparejamiento de pares de lecturas que encajan en una posici n de un mismo fragmento secuenciado Comparar un cat logo de variantes un cat logo de anotaciones de genes y un genoma referencia con el objetivo de buscar posibles variaciones o cambios con respecto al genoma de referencia y como pueden influir en la funci n de los genes Llevar a cabo la comparaci n de lecturas de un genoma archivo BAM contra su referencia archivo Fasta con el fin de organizar las lecturas alineadas con respecto a la referencia generando un archivo de salida con los alineamientos nicos y simples de cada lectura Mezclar tres archivos con variantes y comparar contra la referen
203. nza y cuando finaliza de igual forma permite terminar el proceso si el usuario lo desea d ndole clic en el bot n rojo que acompa a la barra El sistema alinear cada una de las lecturas en una posici n del genoma de referencia El sistema genera un log en la ra z del proyecto con informaci n relevante a la ejecuci n actual del proceso Map Reads que envi el usuario El sistema crea un archivo de historial para la referencia usada como genoma de referencia ee 21 El sistema genera un archivo SAM en la ruta donde se encuentran las lecturas con el resultado de los alineamientos El sistema da por finalizado el proceso y desaparece la barra de progreso 1 Si no se ingresa referencia Excepciones Si no se carga una ruta en la caja de texto de referencia el sistema despliega el mensaje campo referencia obligatorio Si se borra la ruta de las lecturas en las cajas de texto de file 1 y file 2 el sistema despliega el mensaje campo obligatorio file 1 o filez2 Si se borra la ruta del archivo de salida o no se ingresa en las cajas de texto de output file el sistema despliega el mensaje campo obligatorio Output File 4 Si el formato de las lecturas esta errado Paso 4 Si el formato de las lecturas esta errado se genera un mensaje de error en el archivo log creado por la aplicaci n de igual forma la barra de progreso no arranca su ejecuci n 2 Vuelve al paso 4
204. o execute if you want to close the window click on cancel Statistics Cancel t 8 Plot Quality Statistics mm File D Yeastsequencina Mappina CBS6412 bowtie sortedReadPos stats Output File D Yeastsequencina Mappina CBS6412 bowtie sortedReadPos pna Graphical Output Multiple alignments Statistics 212 Final Result for Plot Quality Statistics At the end of this process you will generate a file png To open it you can use any visual program The x axis represent the Read Position From 5 to 3 and the Y axis the Percentage of non reference calls Output image CBS6412 bowtie2 sortedReadPos 26 mee deeem ient dete MEME Ee Mde ENTER Ee PENES A dls on tete A I E IE A gt 4 7 m acini ae A A e ONE NODI EA A 23 a uu A eee ee gt 1 MEM NCC MM pp NH M RS 2 0 A eerie iem A M 1 9 1 S EE EE PEL E M PM ee E ci cas eee 134 a aan V e e i o oo a oe EL THEME 1 7 MA d ec ME E oe Lan NU pa M M A M zs MN AL EIL EL LH E M 1 4 TEES ar m N t UMATA eet SENE 1 3 E H E BE RI a a a KON IERI i dl d b ee ee ee A TIL JL dL gd gd db gH S rd O EL IL A BIB A Y E as A d dH d d d E N III B Gd JB Gg Gg dl jd m SPEC IL A B aaa do ee Ee Vance qu WERE 0 LI TE TTT gd 1 ene NRI IIb A T O O O aa at tt O mE EE TO 0 A BH O O A D O Y a E 05 A A A A ay a m jd D SEE IL db Ib Ib ID pa IpDPpDIU
205. observed alleles gt FORMAT D AAC Type Integer Description Counts for all possible alelles gt CHROM POS FILTER INFO FORMAT CBS6412 ER7A Unselected chrI 90 CNV 3 GT GL GP GQ DP 0 0 0 9 0 0 0 0 0 0 0 0 0 0 04 1 83 18 96 45 0 0 45 6 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 13 91 3 62 27 chrI 100 a CNV 3 GT GL GP GQ AC of of af ak of ad PASA 9 2 9 2 9 2 1 21 1 21 0 02 0 0 0 0 0 39 0 10 0 0 4 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 chrI 103 c CNV 3 GT GL GP GQ DP AA 0 0 0 1 1 1 1 1 1 9 1 1 1 31 0 3 92 13 21 0 61 0 61 13 0 4 0 9 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 41 74 8 74 57 chrI 107 c CNV 3 GT GL GP GQ DP 0 0 0 0 8 0 0 0 1 1 1 1 1 1 1 27 82 5 42 34 27 0 255 0 255 18 8 10 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 97 10 55 chrI 114 T CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 55 04 11 91 48 69 0 255 0 255 29 15 1 0 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 20 88 13 26 chrI 115 c CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 17 4 8 74 83 35 0 55 0 55 30 5 24 0 0 J A AAAA SA Ld A 2 20 88 25 96 14 chrI 117 A CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 04 9 36 104 59 120 0 0 120 33 31 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 46 29 13 26 ChrI 118 c CNV 3 GT GL GP GQ DP AAC 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 54 94 10 25 62 6 0 255 0 255 35 0 18 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 20 88 13 26 chrI 136 G CNV 3 GT GL GP GQ DP AAC 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 98 7 12 66
206. oducir nueva variaci n en las poblaciones y en las especies 5 Seg n Suzuki la variaci n gen tica es esencial en la t cnica del an lisis gen tico ya que se puede caracterizar a una especie o una poblaci n y se pueden desarrollar marcadores gen ticos que sirven para indicar la presencia cercana de un gen de inter s en un cromosoma dado La diversidad gen tica juega un papel relevante en el mejoramiento de los cultivos 6 Esto se debe a la contribuci n de genes valiosos para resistencia a enfermedades insectos y tolerancia a estr s abiotico Teniendo presente el contexto y la importancia de estudiar la diversidad gen tica o variaci n gen tica y su relevancia dentro de CIAT resulta primordial crear una herramienta que apoye un flujo de trabajo que garantice el uso de los datos producidos por las nuevas tecnolog as de secuenciaci n la cual permita analizar los datos que se generan y facilite la obtenci n de resultados conforme a la b squeda de los diferentes tipos de variaci n presentes en un organismo La creaci n de esta herramienta debe unificar los conceptos biol gicos en una herramienta de software que no solo garantic la gesti n de datos NGS si no que reemplace las t cnicas actuales poco eficientes en tiempo y coste para una organizaci n dedicada a la investigaci n en gen tica y mejora de cultivos Actualmente el uso de herramientas NGS por parte de la comunidad cient fica de CIAT es poco eficiente ya que
207. ofrecen detenci n de variantes gen ticas como SNPs e Indeles 2 8 1 GATK UnifiedGenotyper GATK es una herramienta que permite identificar variantes gen micas del ADN de un organismo en su descripci n dice digamos que usted tiene diez exones y desea identificar las mutaciones que todos tienen en com n con GATK puede hacer eso Asimismo permite saber qu mutaciones son espec ficas de un grupo de pacientes en comparaci n con una cohorte sana En GATK puede hacer eso tambi n De hecho la GATK es el est ndar de la industria para este tipo de an lisis 13 Debido a la forma en que est construido la GATK es muy gen rico y se puede aplicar a todos los tipos de conjuntos de datos y a los problemas de an lisis de genomas Se puede utilizar para el descubrimiento as como para la validaci n En s lo exones puede tener manipulaci n tan feliz como con genomas completos A pesar que GATK en un principio fue creado para ser utilizado con el genoma humano se puede utilizar para realizar de detecci n de variantes SNPs Indel en cualquier secuencia de cualquier organismo generando datos importantes 13 2 8 1 1 Plataforma y requisitos para la instalaci n de GATK GATK est dise ado para ejecutarse en Linux y Mac Os X En el caso de Windows se puede instalar mediante Cygwin aunque no lo recomiendan ya que no pueden dar ning n tipo de apoyo espec fico para este sistema operativo Se dice que en un futuro estar di
208. ofrecidas por NGSEP La generaci n de mensajes con respecto a la informaci n de los procesos es concisa y con informaci n importante del estado actual del proceso Ilustraci n 82 Ilustraci n 87 Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Ayudar a los usuarios a reconocer diagnosticar y recuperar errores 104 Pregunta La aplicaci n tiene mensajes de error en lenguaje entendible por el usuario y sin c digo de lenguajes de programaci n los mensajes indican el error y sugieren como solucionarlo NSGEP genera mensajes de error en un lenguaje entendible para el usuario final tambi n marca las caja de texto donde se genere el error por los datos ingresados del usuario adem s de crear un dialogo de mensajes de error que indica que hay errores en diferentes entradas de la pantalla adem s sugiere al usuario mediante los mensajes que tipo de dato deber a de ingresar en un lenguaje entendible llustraci n 95 File A Reference File A Output File Prefix D Desarrollo runtime EclipseApplication PruebaLevadura prueba Sample0s8 ve Variants Detector File can not be opened or is empty S Reference File can not be empty Ilustraci n 95 Mensaje de excepci n de error en NGSEP Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregun
209. ole s i DADesarrollolruntime EclipseApplicationPruebaLevaduralyeastSamples1CBS6412 bowtie2 sorted bam o0 D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted r D Desarrollo runtime EclipseApplication TestingNGSEP Reference sacCer_SGD_refgenome_20110301 fa bq 20 mq 17 s 1 0E 4 f 10E 4 p bonferroni 0 05 a 1 u 30 n 2 b 025 het 0 001 Start Input bam file is D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted bam Output files are D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter vcf D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter csv Collecting total number of reads Ready for pileup Progress Dh gt 10 gt 2M gt 3M gt 40 gt 35 gt b0 gt 10 gt 80 gt 9 gt 100 11559389 SNVs and 25793 indels have been tested Filtering variants based on Bonferroni correction at 0 05 Time usage is 598 seconds Done Ilustraci n 22 Mensajes de la SNVer respecto a la ejecuci n del proceso de detecci n de variantes Las llustraci n 22 y muestran como la pantalla del proceso de detecci n de variantes de SNVer tiene una interfaz simple ya que tiene entradas con t tulos de tama os grandes y claros a la vista del usuario adem s de
210. on lecturas secuenciadas que se encuentran alineadas contra el genoma de referencia del organismo secuenciado en las lecturas esta comparaci n se realiza con el fin de encontrar variantes gen micas presentes en la secuencia de las lecturas Bi logo An lisis 1 Selecciona un archivo BAM 2 Luego de seleccionar el archivo BAM da clic derecho sobre este y busca la opci n NGSEP Menu dentro de la ventana desplegada al lado derecho de la selecci n 3 Una vez encontrado el men de NGSEP ubica el puntero encima del men 4 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submenus 5 El usuario ubica la opci n El sistema valida el clic y despliega de NGSEP llamada Find la pantalla de Find Variants con la Variants ruta del archivo BAM seleccionado cargada en la caja de texto que acompa a a la entrada File El sistema sugiere un archivo de salida con la misma ruta y nombre del archivo de entrada pero con la extension vcf 8 Ingresa la ruta donde se encuentra el archivo del genoma de referencia 134 9 Ingresa dem s opciones si as lo desea y si est n comprendidas en la pantalla de Find Variants 10 Da clic en el bot n Find 11 El sistema valida las entradas y Variants comienza la ejecuci n 12 Crea una barra de progreso en la vista de procesos de NGSEP esta barra de progreso indica el avance de la ejecuci n del proceso actual lanzado e
211. onal Annotation Run As Calculate Quality Statistics Debug As Calculate Coverage Statistics Team Plot Quality Statistics Compare With Plot Coverage Statistics Replace With View VCF Pa SO Dos gt NGSEP Menu Sam Pairing In Progress Properties Alt Enter Samplen47 Cleandata 1MappingFile sam Pruebalevadura Lecturas Ilustraci n 40 accediendo a Sort Alignment File Sam D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 Mm Output File D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen47 SortAligment Cancel Ilustraci n 41 pantalla de Sort Alignment 69 4 12 PruebaLevadura 4 2 GenomahReferencia sacCer SGD refgenome 20110301 fa B sacCer SGD refgenome 20110301 fa 1 bt2 B sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 sacCer SGD refgenome 20110301 fa rev 1 bt2 B sacCer SGD refgenome 20110301 fa rev 2 bt2 4 Lecturas sortDirectory MPSamplen47 Cleandata 1MappingFile log B Samplen47 Cleandata 1 fq B Samplen47 Cleandata 1MappingFile sorted bai B Samplen47 Cleandata 1MappingFile sorted bam B Samplen47 Cleandata 1MappingFile sam Samplen47 Cleandata 2 fq ReferencesMap projectNGSEP Ilustraci n 42 resultados arrojados por el proceso de Sort Alignment Una vez finalizado el proceso de SORT ALIGNMENT se generan el archivo BAM con las lectura
212. oncconnconncoonononononononononinoninonnns 82 HUSTFACI N OT aCcecediendo a Merge VOF suoi nr A Ai Me 82 WUStaCION o2 Pantala de METEO VEA a ae sata brava ts pe Mal avails 83 llustraci n 63 ejecutando la opci n determine list of variants dentro del proceso Merge VCP 84 Ilustraci n 64 archivo VCF con las variantes comunes de las tres muestras cccoonccnccconcnncnoononconanonnononos 84 Ilustraci n 65 ejecuci n de Find Variants por cada muestra del trio ingresando como par metro adicional el archivo con la lista de variantes comunes entre las tres muestras oonccccconcnncononcononononnconanonoss 85 Ilustraci n 66 ejecuci n de Find Variants por cada muestra con el archivo VCF de variantes comunes H X eta 86 llustraci n 67 Pantalla de Merge VCF con las nuevos VCFs occocccccccccncconoconoconoconoconncoonononononononononononnns 86 llustraci n 68 ejecuci n de la opci n Merge VCF Files del proceso Merge VCP 87 llustraci n 69 archivo VCF con cada una de las muestras y sus variantes comunes con el respectivo 9 2 61 61 OO METTE tase emia ae 87 llustraci n 70 Accediendo a Calculate Quality Statistics ossis 88 llustraci n 71 pantalla de calculate Quality Statistics sessi sees 88 Ilustraci n 72 ejecuci n de calculate Quality Statistics
213. ones obtenidas por SNVer son justificadas en la p g 38 Herramienta NGSEP Heur stica Visibilidad del estado del sistema Pregunta La aplicaci n mantiene siempre informado al usuario del estado del sistema as como de los caminos que este pueda tomar con una retroalimentaci n visual apropiada en tiempo razonable Una vez se d clic derecho sobre el archivo BAM autom ticamente la aplicaci n se activara en el men de opciones desplegadas por Eclipse dentro de esas opciones se encuentra NGSEP Menu dentro del men de NGSEP se busca la opci n Find Variants y se da clic sobre esta inmediatamente se abre la pantalla del proceso llustraci n 80 luego de ingresados los datos correspondientes autom ticamente la aplicaci n crea una barra de progreso en la vista de procesos de NGSEP y muestra al usuario una retroalimentaci n visual de la ejecuci n del proceso de principio a fin de la misma llustraci n 81 tambi n se genera un archivo log con informaci n relevante del proceso lo cual mantiene informado al usuario del estado del sistema 93 a Variants Detector Ek x File Di Desarrollo runtime EclipseApplication PruebaLevaduralpruebalsample08 ve m Reference File D Desarrollo runtime EclinseApplication TestNGSEP Reference sacCer SGD ref Output File Prefix DADesarrolloruntime EclipseApplicatiomPruebaLevaduralpruebalSampleD08 ve m Execution Parameters CNVs Detection Parameters
214. ons One based codon position of the start of the variant The decimal is the codon position FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities gt FORMAT lt ID GQ Number 1 Type Integer Description Genotype quality FORMAT lt ID DP Number 1 Type Integer Description Read depth gt FORMAT lt ID AC Number A Type Integer Description Counts for observed alleles gt FORMAT lt ID AAC Number Type Integer Description Counts for all possible alelles CHROM POS ID REF ALT QUAL FILTER INFO FORMAT None chrI 90 A C TA 4 GT GL GP GQ DP AC APA LIH chrI 100 GG GA GAT 255 eje chrI 103 T 2 GT GL GP GQ DP AC chrI 107 A 192 GT chrI 114 T A 255 GT chrI 115 A 55 GT G chrI 117 A G 2433 GT chri LAB C T uns a GT GL chrI 136 G A 255 GT GL GP GQ DP AC chrI 138 CT CCAC CTT 255 chrI 141 T 255 GT GL chri 172 A G 255 GT GL GP GQ DP AC chrI 176 CGA CA CCA 255 e 3 chrI 181 C T 255 GT G hrI 241 C T 71 GT hrI 249 T C 47 GT hrI 50 G A 55 GT hrI 54 CTT CT 8 GT ir I 257 A C 255 GT hrI 6 A G 255 GT ari 266 T A 255 GT hrI 6t A C IS a GT hrI 6 B A 39 GT chrI 270 C T 255 GT G Normal text file length 6319679 lines 104 Ln 22 Col 70 Sel 0 0 Dos Windows ANSI as UTF 8 INS This option is used to generate VCF file information for genetic mutations that are present at least in one of the files selected by t
215. or printParameters INFO Normal ploidy 2 Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters INFO Sample id Sample08 yeasti Nov 07 2013 3 39 39 PM net sf ngstools main VariantsDetector printParameters An outline is not available m gt INFO File with known CNVs null 4 7 7 ETE y z gt Javadoc Declaration IB NGSEPView X Y Oo Sample08_yeastl eee a Writable Insert 27 68 Sample08_yeast1 32 E E Ilustraci n 82 Log generado por el proceso de NGSEP con informaci n relevante del proceso Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 95 Heur stica Control y libertad del usuario Pregunta La interfaz de la aplicaci n permite controlar la iteraci n de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos en la pantalla La interfaz gr fica de NGSEP permite controlar la iteraci n de cada proceso mediante botones como los de correr el aplicativo o cancelar la ejecuci n llustraci n 84 llustraci n 85 tambi n ofrece la posibilidad de visualizar al usuario una serie de pantallas pertenecientes a otros procesos una vez este corriendo el proceso actual llustraci n 83 permitiendo al usuario interactuar con los elementos que contiene las pantallas a Ca
216. otal que corresponde al porcentaje de cumplimiento de la heur stica calificada 2 10 COMPARATIVA DE HERRAMIENTAS En la Tabla 5 y Tabla 6 se pretende comparar las herramientas GATK SAMtools y SNVer con el fin de conocer cu l de todas estas herramientas tiene mejor usabilidad para un usuario final Las calificaciones para la evaluaci n fueron otorgadas por un usuario con pleno conocimiento del contexto de herramientas bioinform ticas Para una mayor apreciaci n de las calificaciones obtenidas por SNVer la nica de las tres herramientas con interfaz gr fica con la cual se va comparar NGSEP se elabora una muestra con im genes del proceso de detecci n de variantes gen micas de SNVer Herramienta SNVer Heur stica Visibilidad del estado del sistema Pregunta La aplicaci n mantiene siempre informado al usuario del estado del sistema as como de los caminos que este pueda tomar con una retroalimentaci n visual apropiada en tiempo razonable 37 Navigation File Help gt Individual Pool A Console Path Settings Aligned Data D Desarrolio runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted bam Browse Output Directory D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples Browse Output Prefix CBS6412 bowtie2 sorted Reference Setting Reference Genome D Desarrollo runtime EclipseApplication TestingNGSEP Reference sacCer_SGD_refgenome_20110301L fa Browse
217. overage Statistics after installing Eclipse and NGSEP is having the Sorted Bam file 2 Click on the Sorted bam file and choose the Calculated Coverage Statistics option from the NGSEP menu 3 Make sure that the selected file is a Sorted Bam File otherwise the process will not work a Java Eclipse SDK m p file Edit Source Refactor Navigate Search Project Run Window Help Co EN BvOvQyv Gry Sry oe 7 Gy Quick Acces rt Java Package Explorer 38 7 8 Outline 53 4 ic YeastSequencing An outline is not available 4 amp Mapping CB56412 bowtie2 sorted bam CBS6412 bowtie2 sorte New CBS6412 bowtie2 sortet Open F3 CBS6412 bowtie2 SV gf Open With CBS6412 bowtie2 cnv Show In AltsShift W gt 856412 bowtie2 vcf BS6412 bowtie2Annot Copy Ctrl C 7A_bowtie2_sorted be Copy Qualified Name 7A bowtie2 SV gff Paste Ctri V 7A bowtie2cw X Delete Delete ER7A bowtie2 vct Build Path PSCBS6412 bowtie2 sor Refactor Alt Shift T gt Unselected_bowtie2_sor ix Import Unselected bowtie2 SV Export Unselected_bowtie2 cnv Unselected_bowtie2 vcf Refresh ES VOCBS6412 bowtiezwch 9 Working Sets VDER7A bowtie2 vcf loq Run As VDUnselected_bowtie2 x Debug As VFACBS6412 bowtie2Ar Team gt Reads Compare With gt Reference Replace With HistoryFileVCF ini NGSEP Menu Map Reads ena Pr mel me iring ReferencesGff3 projectNGSEP Find Variants Merge VCF w 7e Population VCF Filter No operations t VCF Converter Variants F
218. pecto a las 8 heur sticas de usabilidad Acorde a los resultados presentados en la llustraci n 27 se concluye que SNVer presenta mayor usabilidad puesto que es la nica de las tres herramientas que implementa una interfaz gr fica de usuario GUI no obstante GATK y SAMtools presentan una usabilidad buena sin tener que hacer uso de una interfaz gr fica sin embargo la implementaci n de una interfaz gr fica de usuario permite subir en gran porcentaje la usabilidad de la herramienta cualquiera que la implemente 52 CAP TULO 3 DESARROLLO DE NGSEP A continuaci n se presenta la Especificaci n de Requisitos de Software ERS de NGSEP NGSTools Eclipse Plug in con el objetivo de definir las funcionalidades y fronteras del sistema a construir Se definen usuarios y su papel dentro de la herramienta listado de requerimientos funcionales y no funcionales adem s se proporciona informaci n del desarrollo de NGSEP dentro de Eclipse IDE 3 1 FRONTERAS DEL SISTEMA v El sistema garantiza su uso en plataformas como Windows Ubuntu y Mac v El sistema se encargar de encontrar variantes gen micas v El sistema se encargar de acoplarse a la arquitectura de Eclipse Plug in 3 2 ACTORES DEL SISTEMA El sistema consta de un solo tipo de usuario ya que se ejecutar en la m quina del usuario final de forma independiente a otras m quinas o sistemas El usuario se denominara v Bi logo A continuaci n se explica el papel del usuario de
219. plication PruebaLevadura yeastSamples CBS6412 bowtie2 sorted bam Output files are D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter vcf D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted all filter csv Cancel _ Initialize the pileup task 5 7112013 1100 Ilustraci n 17 Bot n para cancelar el proceso de detecci n de variantes de SNVer en la pantalla Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 Heur stica Correspondencia entre el sistema y el mundo real Pregunta La interfaz muestra mensajes en el idioma del usuario cuando se habla de idioma se refiere a palabras frases y conceptos familiares para el usuario siempre en el contexto de la aplicaci n Pantalla de SNVer con mensajes relevantes del proceso de detecci n de variantes Ilustraci n 18 estos mensajes se muestran en un idioma familiar al usuario entendi ndose que es bi logo o bioinform tico 41 A i D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412 bowtie2 sorted bam 0 DiDesarrolloyruntime EclipseApplicationPruebaLevaduralyeastsamples CBS6412 bowtie2 sorted r D Desarrollo runtime EclipseApplication TestingNGSEP Reference sacCer_SGD_refgenome_20110301 fa bq 20 mq 17 s 10E4 f 10E4 p bonferroniz0 05 a 1 u 30
220. ppingFile cnv Open F3 a mplen47 Cleandata 1MappingFile sam Open With bmplen47 Cleandata 1MappingFile vcf Show In Alt Shift W gt Pa SO U n O mplen47 Cleandata 2 fq Copy Ctrisc Samplen47_Cleandata_1MappingFile_sorted lt Copy Qualified Name DSamplen47 Cleandata 1MappingFile log Paste Ctrl V VFASamplen47 Cleandata 1MappingFile Annot X amp TrioLevadura Delete Delete Create Index Bowtie HistoryFileVCF ini tns ee Refactor Alt Shift T gt ort Alignment HistoryFileVCFMerGeFile vcf Find Variants 3 MVCFHistoryFileVCFMerGefFile log a Import Merge VCF References projectNGSEP 14 Export WF Fines ReferencesGff3 projectNGSEP Refresh ES VCF Converter ReferencesMap projectNGSEP AR Variants Functional Annotation Ej TestNGSEP Pa SO Tres Calculate Quality Statistics gt Calculate Coverage Statistics gt Plot Quality Statistics Compare With Plot Coverage Statistics Replace With View VCF NGSEP Menu Sam Pairing In Progress Properties Alt Enter Sampien47 Cleandata 1MappingFile sorted bam PruebaLevadura Lecturas Ilustraci n 70 Accediendo a Calculate Quality Statistics D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 Reference File D Desarrollo runtime EclipseApplication PruebaLevadura GenomaReferencia s lt m Output File Prefix D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen47 Read Lenght Graphical output C Mu
221. pulation VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics 201 es S Java a Outline An outline is not available A Variants Functional Annotator VCF Variants File D YeastSequencina Mappina CBS6412 bowtie sorted bam m GFF Gene Annotation File C Users icquintero workspace NasepYeastSequencing est Reference saccharom lua Fasta Genome Reference DaYeastSequencinalReferencelsacCer SGD refaenome 20110301 fal VCF Output File DiYeastsequencinaiMappina1CB56412 bowtie sorted Annotated vcf Variants Functional Cancel 4 VCF Variants File In this field you can see the path of the VCF file that you selected It could be the output file of the Variants Detector function You can also use the browser on the right in case you want to change the input file gt VCF Variants File D Yeastsequencina Mappina CBS6412 bowtie sorted bam A 5 Gene Annotation File This field is mandatory because it is the basic input of annotations At the beginning it will be blank you have to browse a GFF file with the sample annotations For further executions the field will display the last file used GFF Gene Annotation File CAUsersycauinteroWworkspaceyNasepYeastSeauencina Test ReferenceNsaccha re 6 Fasta Genome Reference This field is mandatory because the reference
222. res Ayuda y documentaci n GATK SAMtoois SNVer La interfaz de la aplicaci n permite controlar la iteraci n de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos en la pantalla El dise o de la interfaz permite reducir la carga de memoria para un usuario final se refiere a que si la interfaz ayuda al usuario a no tener que recordar informaci n para ir de un proceso a otro a la hora de realizar una iteraci n Los mensajes de la aplicaci n contienen informaci n relevante para la tarea que est realizando el usuario por otro lado el dise o de la interfaz es simple f cil de aprender f cil de usar y con f cil acceso a las funcionalidades que ofrece la aplicaci n La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea Tabla 5 Evaluaci n realizada con la escala de la Tabla 4 aplicada a las herramientas GATK SAMtools y SNVer 49 Heur stica GATK SAMtools__ SNVer _ Visibilidad del estado del sistema a ee Control y libertad del usuario La interfaz de la aplicaci n permite controlar la iteraci n CA de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos e
223. resad con el fin de encontrar la cobertura para cada posici n del genoma donde hay una lectura alineada este proceso tiene en cuenta los alineamientos nicos y m ltiples Bi logo An lisis 1 Selecciona el archivo BAM Sistema 2 Luego de seleccionar el archivo BAM da clic derecho sobre este y busca la opci n NGSEP Menu dentro de la ventana desplegada al lado derecho de la selecci n 3 Una vez encontrado el men de NGSEP ubica el puntero encima del men 4 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submen s 5 El usuario ubica la opci n de 6 El sistema valida el clic y despliega la NGSEP llamada Calculated Coverage Statistics pantalla de Calculated Coverage Statistics con la ruta del archivo seleccionado y con una sugerencia para un archivo de salida 7 Selecciona si desea el grafico con m ltiples alineamientos si no selecciona esta opci n el sistema toma por defecto alineamientos nicos 8 Da clic en el bot n statistics 9 Valida las entradas 10 Buscan en el archivo BAM las lecturas que tengan alineaciones con cobertura superior o igual a 50 pb pares bases 11 Genera barra de progreso que indica el avance del proceso y elimina la barra cuando finaliza 12 Genera archivo log 145 13 Genera grafica de cobertura con alineamientos nicos o m ltiples de acuerdo a lo seleccionado por el usuario Genera archivo de estad st
224. roblem tica de poca usabilidad presente en las herramientas NGS En consecuencia se desarroll un Plug In el cual presenta un conjunto de interfaces usables para el trabajo con datos de NGS haciendo uso de la librer a NGSTools estas interfaces permiten al usuario monitorizar los procesos una vez est n en ejecuci n y posteriormente cuando termina la ejecuci n como tambi n el manejo de archivos localmente 15 1 2 JUSTIFICACI N Teniendo en cuenta la importancia de analizar la variaci n gen tica o diversidad gen tica de un organismo por diferentes motivos que se contextualizan a continuaci n es importante resaltar que CIAT con sus cultivos Yuca Arroz Frijol y Forrajes est en constante b squeda de mejorar los actuales an lisis gen ticos con la finalidad de procurar una mayor seguridad alimentaria reducir el hambre la pobreza y mejorar la salud humana la diversidad gen tica es la variedad de alelos y genotipos presentes en una poblaci n especie o grupo de especies y su importancia radica en que esta es necesaria para que las poblaciones evolucionen y se adapten a las caracter sticas o cambios en su entorno 1 La variaci n gen tica se origina principalmente de la mutaci n y la recombinaci n que puede dar lugar a mejores o peores caracter sticas adaptativas a las siguientes generaciones 3 No obstante la deriva gen tica el flujo de genes y la selecci n que act a sobre los alelos tambi n pueden intr
225. roblems Javadoc B Declaration GG NGSEPView 2 p Coverage Statistics Calculator Process LO Coverage Statistics Calculator is running Coverage Statistics Calc r Process 10 209 Final Result for Calculate Coverage Statistics At the end of this process you will generate one file with the same prefix as your input file but with ending coverage stats The file coverage stats is a file tab delimited composed by 3 columns the first one has the number of reads the second one the number of multiple alignments and the third one number of unique alignments In the end of this file you will find a summary File coverage stats Java YeastSequencing Mapping CBS6412 bowtie2 sortedCoverage stats Eclipse SDK e eel File Edit Navigate Search Project Run Window Help e 3 amp Mx RU N Ga EFG Ds oa A y wE 1 K E Java Package Explorer 19g 7 CBS6412_bowtie2_sortedCoverage stats g Outline 10302 113535 An outline is not available 7054 40953 6014 22465 3438 14762 4 5 YeastSequencing 1 2 3 4 5 3197 10652 6 7 8 4 Mapping CB56412 bowtie2 sorted bam CBS6412 bowtie2 sortedCoverage stats CBS6412 bowtie2 sortedReadPos png 3051 8701 CB56412 bowtie2 sortedReadPos stats 3178 7174 CBS6412 bowtie2 SV gff 3961 6837 CBS6412 bowtie2 cnv 9 2359 6154 CBS6412 bowtie2 vcf 19 2529 5664 CBS6412 bowtie2AnnotatorFile vcf vcf 11 2164 5728 12 2365 5329 7A bowtie2 sorted bam ER7A_bowtie2_sorted barr 13 23
226. ror Ilustraci n 88 mensajes de ayuda al usuario Ilustraci n 86 y mensajes de informaci n Ilustraci n 87 SNVs Detection Parameters Common Parameters Genomic Location Ploidy 2 Position coordinate ranges Heterozygosity Rate 0 001 bp Example chr21 33 031 597 33 041 570 sample Id CB56412 Minimun Genotype Quality Score Maximun Base Quality Score 30 Alternative Allele Coverage Min Max Ilustraci n 86 Mensaje de informaci n para ayudar al usuario a digitar los datos en una entrada en el formato correcto como muestra la sugerencia Ilustraci n 87 Mensaje para informar al usuario el comienzo de la ejecuci n del proceso 97 ia Variants Detector e TT T TT gt ee T E S File DA Desarrollo runtime EclipseApplication PruebaLevadura veastsamples CB5641 Reference File DADesarrollo runtime EclipseApplication TestNGSEP Reference sacCer SGD refi Output File Pref es Execution Parameters CNVs Detection Parameters _ Skip Repetitive Regions Detection Genome Size Skip New CNV Detection mE Bin Size 100 E Skip Structural Variants Detection E Skip SNVs Detection Can not find eclipse project for the chosen output directory Please use as output a directory located within an eclipse project Sect ee eos ees E E AS Ilustraci n 88 Mensaje de excepci n al no ingresar un par metro obligatorio para la ejecuci n del proceso Calificaci n obtenida la m xima c
227. rst field is the File Sam which shows the path of the input file that you browsed The next one is Output file This text field holds the same input name with the addition of the word sorted just before the extension Also you can change the output destiny directory Our advice is to use the same directory because further processes will require them 187 A Sort Alignment File Sam D YeastSequencina Mappina CBS6412 bowtie2 bam Output File D YeastSequencina Mappina CBS6412 bowtie sorted bam SortAligment 5 Usethe button with the label Sort Alignment to execute if you want to close the window click on cancel Cancel Sort Aligment Final Result for Sort Alignment At the end of the process you will see a similar file than the input but organized and ready to continue with the pipeline Variants Detector This is the main functionality of NGSEP which using a Bam file against a reference genome will detect different genomic variations such as SNPs CNVs and structural variants INPUT FILES e BAM Text format tab delimited which consist in a header section that is optional and a section of alignment The header begins with while the alignment lines don t Each aligned line has 11 optional information fields that make it flexible For more information see http samtools sourceforge net OUTPUT FILES e VCF Variant call format Is flexible and extensible file for variation data such as SNPs sm
228. s bioinform ticos con el uso de interfaces f ciles de manejar y que est n disponibles para la comunidad cient fica Se hizo indispensable el uso del workbench de eclipse como la herramienta de visualizaci n y manipulaci n de los archivos que se utilizan para cada uno de los procesos de NGSTools y para los cuales se desarroll una serie de comandos encapsulado estos comandos bajo interfaces intuitivas y muy f ciles de usar para un usuario final El uso de workbench no solo aporto el ingreso a la aplicaci n por medio de interfaces si no que permiti visualizar y controlar el proceso de ejecuci n de todos los procesos de NGSTools mediante la implementaci n y manipulaci n de la vista contenida en eclipse 58 denominada progress y en la cual se aplic el patr n de dise o observador observado logrando ver el estado en tiempo real de la ejecuci n avance de dichos procesos y su posterior fin Por medio de esta implementaci n tambi n se logr detener si as deseara el usuario el avance de los procesos Workbench facilito adicionar en forma de men y submen s todos los procesos que contiene NGSTools en una estructura organizada y entendible para el usuario que va hacer uso del pipeline Permitiendo nombrar cada proceso y encapsular en vistas con entradas de muy f cil entendimiento para un usuario con pocos conocimientos o nulos de programaci n El uso de workbench fue de gran ayuda para la resoluci n de la problem tica de la poc
229. s comprimidas y un archivo bai Este archivo bai es un ndice que permite a los programas que puedan acceder y leer el archivo BAM de una manera eficiente 4 3 4 DETENCCI N DE VARIANTES Este proceso es el m s importante dentro del pipeline de NGSEP porque aqu es donde se realiza la detecci n de variantes gen micas producto de la comparaci n del archivo BAM generado en el proceso tres contra el genoma de referencia de levadura Para acceder a este proceso se selecciona el archivo BAM de nombre Samplen47 Cleandata 1MappingFile sorted bam y dar clic derecho sobre este luego buscar la opci n Find Variants dentro de NGSEP men 70 d CUIDE 2 file Edit Source Refactor Navigate Search Project File Run Window Help E Package Explorer a 7 20 gt O E Outline X e 4 5 PruebaLevadura An outline is not available 4 amp GenomaReferencia sacCer SGD refgenome 20110301 fa sacCer SGD refgenome_20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 sacCer SGD refgenome 20110301 fa rev L bi2 sacCer SGD refgenome 20110301 fa rev 2 bt2 my my mo QD UD my Lecturas i Problems Javadoc Declaration Bl NGSEPView X a 8 Na E No operations to display at this time MPSamplen47 Cleandata 1MappingFilelog Samplen47 Cleandata 1fq Samplen47 Cleandata 1MappingFile sorted bai Samplen47 Cl
230. s de frijol arroz o yuca sea r pida en cuesti n de tiempo teniendo presente que este tipo de archivos tiene tama os mayores a 1 GB 17 Otro aspecto importante es soportar el almacenamiento de estos archivos Por otro lado es necesario garantizar una f cil distribuci n y mantenimiento de versiones del software cada vez que se genere un cambio nuevo en el aplicativo esto concebir a alta usabilidad al aplicativo ya que facilita el proceso de instalaci n para el usuario final adem s la correcci n o mejora de los procesos ofrecidos dentro los aplicativos algo muy com n en la comunidad cient fica que hace uso de herramientas de c digo abierto Estos elementos son utilizados para definir claramente el contexto sobre el cual Se va implementar la interfaz gr fica en NGSTools La anterior descripci n se relaciona en la tabla Criterio Caracter stica No 2 Almacenamiento local de archivos gen ticos 4 Reutilizaci n de componentes gr ficos Tabla 1 Caracter sticas del contexto de implementaci n de una interfaz gr fica en NGSTools 1 2 1 COMPARATIVA DE INTERFACES UTILIZANDO LOS CRITERIOS DEFINIDOS EN LA Tabla 1 Interfaz Stand Alone Criterio 1 Satisface el criterio debido que al ser la aplicaci n Stand Alone se ejecuta localmente lo que genera que el tiempo de carga de archivos sea bastante r pido Criterio 2 Satisface el criterio debido que al ser la aplicaci n Stand Alone se ejecuta localmente y e
231. s the output file Merge VCF and is mandatory Select all files This option is equivalent to select all rows Deselect all files This option is equivalent to deselect all rows Determine list of variants This option is used to mix in one VCF without genotypes all variant alleles found in at least one of the files Merge Vcf files This option is used to mix in a single VCF file all genomic variants found in VCF file matching each corresponding mutation with their genotype Output file using the Determine list of variants option lar DAYeastSequencingMHistoryFileVCFMerGeFile vcf Notepad e lees E Archivo Editar Buscar Vista Codificaci n Lenguaje Configuraci n Macro Ejecutar Plugins Ventana X o cJ o e 2 el GGI n la 2 OR Bley E HistoryFile VCFMerGeFile vcf E Hifileformat VCFv4 1 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs around this variant gt INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model gt INFO lt ID TID Number 1 Type String INFO lt ID TGN Number 1 Type Strin INFO lt ID TCO Number 1 Type Float FORMAT lt ID GT Number 1 Type String Description Genotype gt FORMAT lt ID GL Number G Type Float Description Genotype likelihoods gt Description Id of the transcript related to the variant annotation Description Name of the gene related to the variant annotation escripti
232. s veces si hace algo en concreto que es realmente original o innovador o incluso algo bastante complicado debe conformarse con la claridad En una p gina f cil de entender hay que pensar incluso un poquito para entenderla La apariencia de las cosas sus nombres bien escogidos la disposici n de la p gina y los textos peque os y cuidadosamente elaborados tienen que funcionar bien en su conjunto para conseguir un reconocimiento casi instant neo 3 Por qu es todo esto tan importante En ocasiones esto es cierto pero se sorprender a al conocer el tiempo que algunas personas tardan en abandonar los sitios que les frustran Muchas personas que se encuentran con problemas en un sitio tienden a culparse a s mismas y no al propio sitio 41 Con este conjunto de normas Steve Krug propone evaluar la usabilidad de una interfaz gr fica de un aplicativo web En este sentido a continuaci n se presenta la definici n de cada una de las heur sticas propuestas para evaluar la usabilidad del dise o de interfaz gr fica de usuario del autor Jakob Nielsen 8 10 heur sticas de usabilidad para el dise o de interfaz de usuario Resumen Los 10 principios m s generales para el dise o de interacci n Se les llama heur stica ya que est n m s en la naturaleza de las reglas generales de las directrices de usabilidad espec ficos Visibilidad del estado del sistema El sistema siempre debe mantener a los usuarios informados sobre lo q
233. sa comprensi n y colaboraci n gracias Jorge por darme la oportunidad de hacer parte de una empresa maravillosa como lo es el CIAT por ser m s que un jefe un l der del cual he aprendido much simas cosas que me servir n tanto para mi vida laboral como en sociedad No ha sido un camino f cil desde que llegue a CIAT me enfrentado al reto de aprender conceptos de una carrera que no estudie como biolog a y sumar mayores conocimientos para mi carrera sistemas logrando una unificaci n de ambas carreras en una rama fant stica desde mi concepto como es la bioinform tica En este sentido debo agradecerte Jorge por permitirme hacer parte de tu proyecto de bioinformatica proyecto con el cual se gener esta tesis De igual forma quiero hacer parte de este agradecimiento a Daniel Cruz gracias Daniel por tu colaboraci n a mi formaci n acad mica sin tu ayuda no ser a posible la culminaci n con xito de esta tesis Tambi n a todos los bi logos con los que he interactuado en CIAT de alguna manera me han ayudado a resolver dudas con respecto a diferentes temas que se abordan en esta tesis No puedo dejar de mencionar a CIAT como empresa gracias por brindarme la oportunidad de trabajar y aprender a diario nuevos conceptos por un tranquilo ambiente de trabajo que sin duda hace de CIAT una empresa fant stica Tambi n debo agradecer a la universidad San Buenaventura y todos los docentes que aportaron sus conocimientos para lograr una adecuada
234. selecciones y busca la 128 opci n NGSEP Menu dentro de la ventana desplegada al lado derecho de la seleccion Una vez encontrado el menu de NGSEP ubica el puntero encima del menu El usuario ubica la opcion de NGSEP llamada Map Reads y da clic sobre esta El usuario ubica la entrada para el genoma de referencia y da clic en el bot n de cargar El usuario elige el genoma de referencia y carga la ruta en el wizard desplegado por NGSEP El usuario carga la ruta donde desea generar el archivo de salida El usuario ingresa las opciones que dese de m s y que est n comprendidas en la pantalla de Map Reads 129 7 El sistema valida la ubicaci n del puntero y procede a mostrar una serie de submenus El sistema valida el clic y despliega la pantalla de Map Reads con las rutas de las lecturas cargadas en las cajas de texto de nombre file 1 y file 4 2 en caso de que el usuario seleccione 2 lecturas si no solo carga file 1 El sistema valida el clic y despliega un wizard para cargar la ruta donde se encuentra el genoma de referencia El sistema valida la ruta del genoma de referencia y pinta la ruta en la caja de texto que acompa a el titulo reference El sistema valida los valores en las entradas de la pantalla Map Reads y comienza la ejecuci n El sistema activa una barra de progreso en la vista de NGSEP esta barra marcara el avance del proceso indicando cuando comie
235. sep control net sf ngsep control net sf ngsep control Java Class SyncMapRead net sf ngsep control uniqueData lt lt Java Class gt gt l ic o SampleData net sf ngsep control sampleData Java Class SyncThreadMapping lt net sf ngsep control Ilustraci n 101 Diagrama de clases de NGSEP Este diagrama es un extracto del diagrama original de NGSEP 127 GUIONES A continuaci n se presentan los guiones para los casos de uso m s relevantes del Plug in NGSEP GUION CASO DE USO 1 CU_1 Mapear lecturas con respecto a un genoma de referencia Mapear lecturas con respecto a un genoma de referencia La funci n de este caso de uso es alinear cada una de las lecturas ingresadas por el Descripci n usuario en una posici n del genoma de referencia Bi logo An lisis 1 Crea un general Project en Eclipse 2 Copia las lecturas de secuencias en las que desea encontrar variantes gen micas con respecto al genoma de referencia y las pega en el proyecto creado estas lecturas deben estar en formato FASTAQ 3 Copia el genoma de referencia con el que se van a comparar las lecturas este archivo debe estar en formato Fasta 4 Selecciona una o dos lecturas si selecciona dos lecturas estas deben ser complemento una de la otra 5 Luego de seleccionar las lecturas o lectura da clic derecho sobre cualquiera de las
236. sion fa fasta mfa fna or similar FASTA files do not have a way of specifying quality values so when fis set the result is as if ignore quals is also set Raw one sequence Reads specified per line with m1 m2 lt s gt are files with one input sequence per line without any other information no read names no qualities When r is set the result is as if ignore quals is also set 181 3 Phred Phred 64 phred64 Input qualities are ASCII chars equal to the Phred quality plus 64 This is also called the Phred 64 encoding If you don t select the phred64 flag the default will be phred33 Input qualities are ASCII chars equal to the Phred quality plus 33 This is also called the Phred 33 encoding which is used by the very latest Illumina pipelines 4 Trim Trims E Trim3 trim5 Trim int bases from 5 left end of each read before alignment default 0 trim3 Trim int bases from 3 right end of each read before alignment default 0 5 Reporting Reporting Numbers of Alignments to reports Report all alignments The reporting mode allows for the search for one or more alignments and to report each one Bowtie2 has three distinct reporting modes The default mode is similar to the default reporting mode of many other read alignment tools including BWA It is also similar to Bowtie 1 s M alignment mode In general when we say that a r
237. smisi n hereditaria El papel principal de la mol cula de ADN es el almacenamiento a largo plazo de informaci n 16 locus gen tico es una localizaci n gen tica determinada dentro de una secuencia de ADN 1630 Alelo se define como cada una de las formas alternativas de un gen que pueden existir en una localizaci n espec fica o locus 16 Genotipo combinaci n de alelos en un locus gen tico 16 Genotipo Homocigoto un organismo que posee dos copias del mismo alelo Cuando en un mismo locus gen tico no hay diferencia de secuencia entre la copia heredada del padre y la copia heredada de la madre se dice que el sujeto es homocigoto en esa posici n 16 Genotipo Heterocigoto si coexisten dos alelos diferentes dentro de un mismo sujeto en ese locus se dice que el sujeto es heterocigoto 16 Secuenciaci n de ADN sequencing Procedimiento anal tico que permite determinar la secuencia de amino cidos de un polip ptido o la secuencia de nucle tidos de una hebra de ADN o de ARN 18 Oligonucle tido es una secuencia corta de ADN o ARN con cincuenta pares de bases o menos Nucle tidos son mol culas org nicas formadas por la uni n covalente de un monosac rido de cinco carbonos pentosa una base nitrogenada y un grupo fosfato 16 bases nitrogenadas son compuestos org nicos c clicos que incluyen dos o m s tomos de nitr geno se clasifican en tres grupos bases p ricas o purinas bases 13 14
238. so para determinar variantes estas tres muestras son los dos pap s y el hijo pero esta vez la ejecuci n de Find Variants tiene un par metro de entrada nuevo que es el archivo de variantes comunes HistoryFileVCFMerGeFile vcf este archivo se debe cargar en la opci n Known Variants File 1 4ffileformat VCFv4 1 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs around this variant gt INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model gt INFO lt ID TID Number 1 Type String Description Id of the transcript related to the variant annotation gt INFO lt ID TGN Number 1 Type String Description Name of the gene related to the variant annotation gt INFO lt ID TCO Number 1 Type Float Description One based codon position of the start of the variant The decimal is the codon position FORMAT lt ID GT Number 1 Type String Description Genotype gt FORMAT lt ID GL Number G Type Float Description Genotype likelihoods gt FORMAT lt ID GP Number G Type Integer Description Genotype posterior probabilities FORMAT lt ID GQ Number 1 Type Integer Description Genotype quality gt FORMAT lt ID DP Number 1 Type Integer Description Read depth gt FORMAT lt ID AC Number A Type Integer Description Counts for observed alleles FORMAT lt ID AAC Number Type Integer Description Counts for all possible alell
239. sponible para Android 2 8 1 2 Interfaz GATK no tiene una interfaz gr fica de Usuario se accede a todas sus herramientas mediante l nea de comandos seg n la p gina de GATK para hacer uso de esta herramienta no se necesita ning n tipo de conocimiento en programaci n 13 30 2 8 1 3 Comando estructura y los argumentos de la herramienta Todas las herramientas del flujo de trabajo de GATK se llaman utilizando un comando de f cil acceso por ejemplo el siguiente comando cuenta el n mero de lecturas en una secuencia y genera un archivo BAM con el resultado java jar GenomeAnalysisTK jar T CountReads R example_reference fasta example reads bam El argumento de java jar invoca el motor GATK y el argumento de la T le dice a la herramienta qu desea ejecutar Argumentos como R para la referencia del genoma y I para el archivo de entrada tambi n se dan al motor GATK y se puede utilizar con todas las herramientas del mismo modo 2 8 1 4 El flujo de trabajo b sico El flujo de trabajo o pipeline de GATK se compone de el mapeo inicial Mapping refinamiento de lecturas iniciales Aligned Reads detenci n de Indel y SNP con una o varias lecturas y por ultimo recalibraci n a nivel de calidad para variantes Estos pasos son los mismos que se especifican para resecuenciaci n 13 J Calling Variants with the GATK NGS DATA VARIANT DISCOVERY PROCESSING AND GENOTYPING INTEGRATIVE ANALYS
240. ss i i I 9 1 sett istFijes ListV CF E 9 5 1 job schedule PE 6 1 createContesti 12 Selects toralvo i I 13 Merge VCF i Ilustraci n 104 Diagrama de Secuencia Mezclar en un solo archivo la informaci n de diferentes muestras analizadas Este diagrama es una extracci n del diagrama original de este caso de uso 154 i di mu EN B APA pum E Biologo 1 start id 1 1 execute event 1 1 1 setAlifile alifile E 1 1 2 1 createContets 2 boton Start 2 1 setTranscriptomeMap txtReferenceF ile OneGff3 getText 2 2 setGenomeReference txtReferenceFileTwo Fasta getText 2 3 setVariantsF ile txtFile get Text 2 4 setOutput txtOutPutFile getTe xt 3 runJob 3 1 Status OK STATUS 3 2 takeExceptionMessage e Ilustraci n 105 Diagrama de secuencia Identificar el efecto de variaciones en los genes 155 ANEXO B Manual de instalaci n de seguimiento de NGSEP 156 Centro Intarnacional de AgriculHura Tropi al li Ei Tie Fees ere hae Tiger a gn lar Contents INTRODUCTION PT rv aire 159 SYSTEM REQUIREMENTS nuria 160 INSTALLING ELLIPSE IDE saic 161 INCREASING ECLIPSE MEMORY sssssssssssssssssssosssssssssssosessssssosssssssssssosoosssssssossssssssssssososssssssossssssssssssososssssssssssoo 165 INCREASING ECLIPSE MEMORY FOR ONE APPLICATION
241. t Sets the length of the seed substrings to align during multiseed alignment Smaller values make alignment slower but more sensitive Default the sensitive preset is used by default which sets L to 20 both in end to end mode and in local mode A Interval between seed substrings i func Sets a function governing the interval between seed substrings to use during multiseed alignment For instance if the read has 30 characters and seed length is 10 and the seed interval is 6 the seeds extracted will be Read TAGCTACGCTCTACGCTATCATGCATAAAC Seed 1 fw TAGCTACGCT Seed 1 rc AGCGTAGCTA Seed 2 fw CGCTCTACGC Seed 2 rc GCGTAGAGCG 184 Seed 3 fw ACGCTATCAT Seed 3 rc ATGATAGCGT Seed 4 fw TCATGCATAA Seed 4 rc TTATGCATGA Since it s best to use longer intervals for longer reads this parameter sets the interval as a function of the read length rather than a single one size fits all number For instance specifying i S 1 2 5 sets the interval function f to f x 1 2 5 sqrt x where x is the read length See also setting function options If the function returns a result less than 1 it is rounded up to 1 Default the sensitive preset is used by default which sets i to S 1 1 15 in end to end mode to i S 1 0 75 in local mode gt Disallow gaps within gbar lt int gt Disallow gaps within lt int gt positions of the beginning or end of the read Default 4 i Include ei
242. t and Output Files A File 1 y File 2 fields show the path of your input files You can also switch your input files using the browser option File 1 File 2 D YeastSeauencina Reads NG 5197 CBS6412 read 1 fa D Yeastsequencina Reads NG 5197 CB56412 read 2 fa 179 E Map Read File 1 File 2 Index Bowtie2 Output Fjle San Open D YeastSeauencina Reads NG 5197 CBS6412 read 1 fa D YeastSequencina Reads NG 5197 CBS6412 read 2 fa D YeastSequencina Reference sacCer SGD refaenome 20110301 fa e i i m a 4 e M DEI ate se El B Outline 22 An outline is not Give up ex z File name Input Le o GIO E gt computer DATA 62423 0 gt YeastSequencing gt Reference al Input Organize New folder gt FW Phred 6 x A s i l k Favorites s Name Date modified Type Size Mss HE Desktop sacCer_SGD_refgenome_20110301 1bt2 5 30 2013 11 17 A BT2 File 8 054 KB Trim3 J Downloads sacCer SGD refgenome 20110301 2 bt2 5 30 2013 11 17 A BT2 File 2 969 KB A Recent Places sacCer SGD refgenome 20110301 bt2 5 30 2013 11 17 A BT2 File 1 KB sacCer_SGD_refgenome_20110301 4 bt2 5 30 2013 11 17 A BT2 File 2 969 KB Read gro a Libraries sacCer_SGD_refgenome_20110301 fa 10 16 2012 8 38 A FA File 12 071 KB Sample Id lt Documents P dd sacCer SGD re
243. t image 325 000 300 000 275 000 250 000 225 000 200 000 175 000 150 000 125 000 Number of reference positions 100 000 75 000 50 000 35 000 29 50 fa 100 125 150 175 Coverage 216 Optional Process Sam Pairing With this function you will define the couples of reads that match in the same section of the genome according to an insert length defined ACCESS TO SAM PAIRING 1 The first step in order to access to Sam Pairing after installing Eclipse and NGSEP is having the Sorted Bam file 2 Click on the sorted Bam file and choose the Sam Pairing option from the NGSEP menu 3 Make sure that the selected file is a Sorted Bam File otherwise the process will not work Java Eclipse SDK a tamcn 5 x File Edit Source Refactor Navigate Search Project Run Window Help s GWNUeTOTQ NUNT Un Quick Access es ava 1 Package Explorer 2 6 799 m B Outline E gt E 4 15 YeastSequencing An outline is not available 4 gt Mapping CB56412 bowtie2 sorted bam R7A bowtie2 sorted bam New Unselected_bowtie2_sorted b Open F3 Open With E T fa Show In Alt Shift W read 2 fq lead 1fq Copy Ctrl C ead 2 fq tm Copy Qualified Name Paste Ctrl V f enome 2011 X Delete Delete sacCer SGD refgenome 2011 Build Path sacCer SGD refgenome 2011 Refactor Alt Shift T gt P sacCer SGD refgenome 2011 s Import sacCer SGD refgenome 2011 24 Export sacCer SGD refgenome 2011 sacCer SGD
244. ta realizada calificaci n igual a 5 Heur stica Ayuda y documentaci n Pregunta La aplicaci n tiene manual de usuario la informaci n es f cil de encontrar y enfocada a la tarea que el usuario realiza se listan los pasos necesarios para la realizaci n de la tarea NGSEP tiene un manual de usuario p g 156 con contenido de f cil navegaci n ofrece la posibilidad mediante links de ir al cap tulo que el usuario desea adem s explica en cada cap tulo o secci n de forma detalla para que sirve cada proceso y cada entrada que dato 105 recibe Tambi n lista cada uno de los pasos necesarios para ejecutar los diferentes procesos de la aplicaci n Calificaci n obtenida la m xima calificaci n cumple con la heur stica de manera acorde a la pregunta realizada calificaci n igual a 5 La Tabla 7 contiene las calificaciones otorgadas para las tres herramientas por un usuario con pleno conocimiento del contexto de herramientas bioinform ticas 106 Pregunta INGSEP SNVer Heur stica Visibilidad del estado del sistema Control y libertad del usuario La interfaz de la aplicaci n permite controlar la iteraci n de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos en la pantalla Correspondencia entre el sistema y el mundo real Reconocer antes que recordar El dise o de la interfaz permite reducir la c
245. teraci n de los procesos de esta manera dejando el control de la aplicaci n al usuario y permiti ndole interactuar con los elementos contenidos en la pantalla La interfaz de SNVer permite controlar la iteraci n de cada proceso mediante botones como los de correr el aplicativo o cancelar la ejecuci n llustraci n 15 Ilustraci n 17 Tambi n ofrece la posibilidad de visualizar al usuario una serie de pantallas pertenecientes al proceso una vez este corriendo llustraci n 16 permitiendo al usuario interactuar con los elementos que contiene las pantallas More Options RESET RUN 0000000 07 11 2013 11 19 Ilustraci n 15 botones dentro de la interfaz gr fica de SNVer para cancelar y arrancar el proceso de detecci n de variantes sl Individual el Pool Console Result D De Ilustraci n 16 Pantallas que se pueden visualizar dentro de SNVer cuando un proceso est en iteraci n 40 Navigation File Help Pipeline o A argments list i D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted bam 0 D Desarrollo runtime EclipseApplication PruebaLevadura yeastSamples CBS6412_bowtie2_sorted t DADesarrollo runtime EclipseApplication TestingNGSEP Reference sacCer_SGD_refgenome_20110301 fa bq 20 mq 17 s 10E 4 f 10E 4 p bonferroni 0 05 al u 30 n2 b 0 25 het 0 001 Start Input bam file is D Desarrollo runtime EclipseAp
246. tes gen micas a muchas muestras con tan solo un clic Actualmente se construye un visor de archivos vcf que permita conocer el estado actual de un vcf que se est generando un proceso del Plug in 112 REFERENCIAS BIBLIOGR FICAS 10 11 12 FRANKHAM R BALLOU J BRISCOE D 2002 Introduction to Conservation Genetics Cambridge University Press united kingdom RAMANATHA R V HODGKING T 2002 Genetic diversity and conservation and utilization of plant genetic resources Plant Cell Tissue and Organ Culture 68 1 19 BRACK A 2000 Diversidad biol gica y mercados en Per el problema agrario en debate SEPIA VIII Lima Per 443 501 FAO CSFD IPGRI 2002 Conservaci n y ordenaci n de recursos gen ticos forestales en bosques naturales ordenados y reas protegidas in situ Instituto Internacional de Recursos Gen ticos DAVID T SUZUKI 2002 Gen tica MCGRAW HILL INTERAMERICANA DE ESPANA S A 2002 7 Ed P gs 67 99 VALLEJO A ESTRADA E 2002 Mejoramiento gen tico de plantas Palmira Colombia Universidad Nacional de Colombia P 65 70 DUITAMA J SRIVASTAVA P K AND MANDOIU I I 2012 Towards accurate detection and genotyping of expressed variants from whole transcriptome sequencing data BMC Genomics 13 Suppl 2 S6 NIELSEN J 1993 Usability Engineering Elsevier Science ISBN 13 9780125184069 SANGER F COULSON AR 1975 A rapid method for determining sequences
247. th J E Sampleld yeast sorted a oc AlteShitsT Sample54 yeast sorted ba B Unselected bowtie sorte EY Import Unselected bowtie2 sortet 4 Esport Unselected bowtie2 sorte Refresh F5 B Unselected bowtie2 sorte Assign Working Sets Urselected bowtie sorte qa Unselected bowtie2 sortet Debug As x Team amp HistoryFileVCF ini B HisoyFieVCHMerGefie Am opa Win B HistofilevCFMerGefile Any Place Wim B HistoryFileVCFMerGeFile Ann PUDEP Menu 2 2 HistoryfileVCFMerGeFile Am NOSEP Menu 4 B HistoryFileVCFMerGeFile MV Properties Alt Enter HistoryFileVCFMerGeFile vcf References projectNGSEP ReferencesGff3 projectNGSEP ReferencesMap projectNGSEP B RiceMappingTest 8 TestDanielFields E TestFluidep iS TestingNGSEP E TestNGSEP i Sample08 yeast sorted bam PruebaLevadura prueba INFO Calculating bin band 80 Create Index Bowtie Map Reads Sort Alignment Find Variants Merge VCF VCF Filter VCF Converter Variants Functional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics Sam Pairing In Progress Ilustraci n 93 Interfaz gr fica de NGSEP Nov 08 2013 8 11 26 M net sf ngstools variants CNVnatorAlgorithm calculatePartition 6 sf ngstools variants CNVnatorAlgorithm calculatePartition 12 I E NGSEPView 2 103 DB Outline X A An outline is not available 4 uu Sample08 yeast 27 ejt
248. the files you can select the Map Reads function in the NGSEP menu 177 D Outline An outline is not available B NG 5197_ER7A read 1 Open B NG 5197 ER7A read 2 Show In Alt Shift W 4 Reference Copy Ctri C B sacCer_SGD_refg Copy Qualified Name B sacCer SGD re Step one 2 sacCer_SGD B sacCer SGD refo a sacCer_SGD_refg Refactor Alt Shift T gt B sacCer SGD ref A sacCer_SGD_refg 4 Problems Step two 7 0 Step Three e 178 E Map Read File 1 File 2 Index Bowtie Output File Sam Input E Input Phred 64 Trim5 Trim3 Read Group data Read group Id Sample Id Platform Reporting E Number of alignments to reports E Report all alignments Effort Give up extending after D YeastSeauencina Reads NG 5197 CBS6412 read 1 fa D YeastSequencina Reads NG 5197 CBS6412 read 2 fa DAYeastsequencinalReferencelsacCer SGD refuenome 20110301 fa D YeastSequencing Reads NG 519 CB56412 read 1MappingFile sam Paired end Alignment Minimun insert size Maximun insert size Alignment Length of seed substrings NG 5197 CBS6412 reac Interval between seed substrings NG 5197 CBS641 read Disallow gaps within Include int extra ref chars Func for max non Max mismatches in seed alignment IgnoreQuals E Nofw Norc Maximum number of times will re seed Map Reads MAP READS PARAMETERS 1 Inpu
249. the memory just for the execution of one application you need to add an additional argument This can be added making a right click in the application you want to run and then in the menu Run As gt Run Configuration gt Arguments as follows Java Eclipse SDK WN oo m oo au d File Edit Source Refactor Navigate Search Project Run Window Help ey amp Pv OrQarig doGreryi vy Quick Access t java i Package Explorer 345 7 9 8 BE Outline 3 m 4 15 YeastSequer An outline is not available LI 4 gt Mapping CBS64 Go Into ER7A Open in New Window Unsele Open Type Hierarchy F4 4 Reads Show In Alt Shift W gt 2 i Copy Ctrl C Copy Qualified Name A NG 51 paste Ctrl V NG 51 x Delete Delete 4 Reference 3 sacces Build Path sacCer Source Alt Shift S sacCer Refactor Alt Shift T gt sacCef Import sacCer 3 Export sacCet 5 Refresh FS sacar Close Project Assign Working Sets Run As 9 1 Java Applet Alt Shift X A Debug As 33 2 Java Application Alt Shift X J Team Run Configurations Compare With d Restore from Local History Configure Properties Alt Enter GD NGSEPView El KK Yeo No operations to display at this time YeastSequencing 166 e Run Configurations os Create manage and run configurations Y Create a configuration to launch an Eclipse application ELIAS type filter text Name Eclipse Application Main 6 Arguments t
250. ticas de cobertura Generar grafica de cobertura Generar grafica de estad sticas de calidad 123 CU_26 Generar archivo vef con anotaciones de genes CU_27 Ingresar archivo de coverage stats CU_28 Ingresar archivo de estad sticas de calidad CU_29 Ingresar archivo VCF de variants gen micas CU_ 30 Ingresar archivo gff CU_31 Generar VCF con informacion mezclada de varias muestras y sus correspondientes genotipos CU_ 32 Ingresar archivo de historial variants detector CU_33 Generar archivo SAM CU 34 Generar VCF con informaci n mezclada de varias muestras DIAGRAMA DE CASOS DE USO Ilustraci n 98 Diagrama de caso de uso de NGSEP generar archivo Sam ingresar archivo Fastq generar historial de referencias 124 Visual Paradigm for ity Edition not for commercial use llustraci n 99 Diagrama de casos de uso de NGSEP encontrar variantes ordenar archivo SAM generar archivo VCG GFFF CNV Visual Paradigm for UML Community Edition not Tor commercial use S N7 A LS llustraci n 100 Diagrama de casos de uso de NGSEP generar graficas de cobertura generar historial de GFF mezclar en un solo archivo informaci n de diferentes muestras analizadas 125 DIAGRAMA DE CLASES En este apartado se muestra una parte del diagrama total de clases de NGSEP Ilustraci n 101 ya que se presenta mucha dificultad a la hora de mostrar el diagrama en su totalidad porque actualmente NGSEP
251. tie VDSamplen47 Cieandata_1Mappingfile log VFASamplen47 Cleandata 1MappingFile Ann Build Path Map Reads i TrioLevadura Refactor Alt Shift T Sort Alignment HistoryFileVCF ini des Import Find Variants HistoryFileVCFMerGeFile vcf xA Export Merge VCF B MVCFHistoryFileVCFMerGeFilelog Refresh 5 VCF Filter References projectNGSEP VCF Converter ReferencesGff3 projectNGSEP Variants Functional Annotation ReferencesMap projectNGSEP Calculate Quality Statistics Bj TestNGSEP P d S O T re S Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics View VCF Sam Pairing In Progress Compare With Replace With y NGSEP Menu Properties Alt Enter J Paso Dos 4 T Samplen47 Cleandata 1MappingFile sorted bam PruebaLevadura Lecturas Ilustraci n 75 accediendo al proceso Calculated Coverage Statistics 90 je Calculated Cover age Statistics File D Desarrollo runtime EclipseApplication Pruebalevadura Lecturas Samplen47 Output File D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen47 m Graphical Output Multiple alignments Statistics Ilustraci n 76 pantalla de Calculated Coverage Statistics 98 Java Eclipse SD File Edit Navigate Search Project File Run Window Help P EU A Ov v tt Or S45 vy x ov Quick Access es Java Package Explorer 25 n n 9 Outline 2 em 4 amp PruebaLevadura An outline is not avai
252. to de la calidad de desarrollo de la organizaci n con la adquisici n de buenas pr cticas a base de la aplicaci n de la usabilidad en todo el proceso de desarrollo lo que redundar en el desarrollo de futuros proyectos v Aumento de la satisfacci n del cliente reduciendo el esfuerzo de uso por parte del usuario y mejorando la calidad de vida de los usuarios 2 7 HERRAMIENTAS QUE TRABAJAN CON NGS En este apartado se lleva a cabo la explicaci n y comparaci n de usabilidad de interfaces entre herramientas que utilizan la tecnolog a NGS o secuenciaci n de alto de rendimiento y que tienen un flujo de trabajo similar a NGSTools Para llevar a cabo esta comparaci n se utilizan las heur sticas propuestas por Jakob Nielsen uno de los padres de la usabilidad Se elige utilizar estas heur sticas por qu a pesar que Jakob Nielsen las describe en su libro indicando que son para medir la usabilidad de interfaces Web estas heur sticas aplican para cualquier sistema al cual se dese medir que tan f cil es de usar para un usuario final Nielsen a comparaci n de las reglas establecidas por Steve Krug y el m todo USAP de la IEEE muestra un mejor balance entre aspectos generales del sistema y detalles espec ficos de la interfaz Estableciendo un conjunto de heur sticas que aseguran el cumplimiento total del contexto de las herramientas bioinform ticas requerido para evaluar la usabilidad De acuerdo a la definici n de usabilidad del apartado
253. tre el genoma de levadura y la muestra o lectura Sample47 que es una extracci n de la secuenciada de una planta de levadura esta comparaci n va arrojar un archivo VCF con todas las variantes gen micas encontradas durante la comparaci n posici n a posici n del genoma de referencia a gt Lecturas sortDirectory MPSamplen47 Cleandata 1MappingFile log Samplen47 Cleandata NTE B Samplen47 Cleandata 1MappingFile vcf B Samplen47 Cleandata 2 fq a Bir Cleandata a sorted log E ere E References projectNGSEP ReferencesMap projectNGSEP Ilustraci n 46 archivos generados por el proceso Find Variants 73 El resultado de la ejecuci n de Find Variants arroja los archivos Sample47 Cleandata_1MappingFile cnv Sample47 Cleandata_1MappingFile vcf Sample47 Cleandata 1MappingFile SV cnv y el historial de Fin Variants HistoryFileVCF ini Para verificar el resultado de la detecci n de variantes gen micas se debe abrir el archivo VCF a continuaci n se muestra una parte del archivo fileformat VCFv4 1 INFO lt ID CNV Number 1 Type Integer Description Number of samples with CNVs around this variant gt INFO lt ID TA Number 1 Type String Description Variant annotation based on a gene model gt INFO lt ID TID Number 1 Type String Description Id of the transcript related to the variant annotation INFO lt ID TGN Number 1 Type String Description Name of the gene related to th
254. ue est pasando a trav s de informaci n adecuada en un plazo razonable Correspondencia entre el sistema y el mundo real El sistema debe hablar el idioma de los usuarios con palabras frases y conceptos familiares para el usuario en lugar de t rminos orientados a sistemas Siga las convenciones del mundo real haciendo que la informaci n aparezca en un orden natural y l gico Control y libertad del usuario Los usuarios a menudo eligen funciones del sistema por error y necesitar n salidas de emergencia para salir del estado no deseado sin tener que pasar por un di logo extendido Soporte de deshacer y rehacer 26 Consistencia y est ndares Los usuarios no deber an tener que preguntarse si diferentes palabras situaciones o acciones significan lo mismo Siga las convenciones de la plataforma Prevenci n de errores Incluso mejor que buenos mensajes de error es un dise o cuidadoso que evita que un problema se produzca en primer lugar minimizando los riesgos de que puedan ocurrir Se debe realizar un buen dise o de mensajes de error que den la posibilidad al usuario de retraerse antes de que se realice la acci n y se comprometan los datos Reconocer antes que recordar Minimizar la carga de memoria del usuario mediante objetos de decisiones acciones y opciones visibles El usuario no deber a tener que recordar informaci n de una parte de un di logo a otro Las instrucciones de uso del sistema deben ser visibles o f
255. uebaLevadura GenomaReferencia sz Dai Desarrollo runtime EclipseApplication PruebaLevadura GenomaReferencials D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 am L n D Desarrollo runtime EclipseApplication PruebaLevadura Lecturas Samplen4 i m 1 e Sava E O Java Edipse SDK File Edit Navigate Search Project File Run Window Help y whe XK erOvQr Ori y B o B Package Explorer 23 4 5 PruebaLevadura 4 GenomaReferencia 4 gt Lecturas sacCer SGD refgenome_20110301 fa sacCer_SGD_refgenome_20110301 fa 1 bt2 sacCer SGD refgenome 20110301 fa 2 bt2 sacCer SGD refgenome 20110301 fa 3 bt2 sacCer SGD refgenome 20110301 fa 4 bt2 sacCer SGD refgenome 20110301 fa rev 1 bt2 sacCer SGD refgenome 20110301 fa rev 2 bt2 saccharomyces cerevisiae gff t Problems Javadoc Declaration EEB NGSEPView sortDirectory Variants Functional Annotator gt MPSamplen47 Cleandata 1MappingFile log VFASamplen47 Cleandata 1MappingFile Annotated Samplen47 Cleandata 1 fq Samplen47 Cleandata 1MappingFile sorted bai Samplen47 Cleandata 1MappingFile sorted bam Samplen47 Cleandata 1MappingFile SV gff Samplen47 Cleandata 1MappingFile cnv Samplen47 Cleandata 1MappingFile sam Samplen47 Cleandata lMappingFile vcf Sampien47 Cleandata 2 fq SASamplen47 Cleandata 1MappingFile sorted log VDSamplen47 Cleandata 1MappingFile log HistoryFileVCF ini References projectNGSEP ReferencesMap projectNGSEP
256. unctional Annotation Calculate Quality Statistics Calculate Coverage Statistics Plot Quality Statistics Plot Coverage Statistics 208 Screen Calculated Coverage Statistics 8 Calculated Coverage Statistics 3 ca File D YeastSequencina Mappina CBS6412 bowtie sorted bam Output File D YeastSequencina Mappina CBS6412 bowtie sortedCoverage stats Statistics File In this field you can see the path of the input file that you selected It could be the output file of the Sort Alignment function of NGSEP You can also use the browser on the right in case you want to change the input file Our advice is to have all the input files in the project directory Output File In this field you should enter the name and path where you want your output file we recommend using the same project directory 1 Use the button with the label Statistics to execute if you want to close the window click on Statistics Cancel cancel A Note When you execute the calculated coverage statistics a progress bar will be displayed on the bottom it represents the percentage of completed process this is important because many times this process can takes several minutes depending on how complex is your organism If you want to stop the process you are able to do it by pressing the red button in the right side of the progress view In the end of the process you will see the 2 output files in the directory that you selected 2 P
257. urce Other options for this file HTTP mirrors only xml e FIP mirrors only xml All mirrors xml Direct link to file download starts immediately from best mirror s Friends of Eclipse a Becoming a mirror site Updating and installing Eclipse components Eclipse newsgroups Bl Thank You for Downloading Edi E 3 wwwedipse org downloads download p file f OO I E Opening eclipse SDK 4 2 2 win32 x86_64 zip townloads drons4 R 4 cipse downloa arog p Home Downloads Users You have chosen to open E edipse SDK 4 2 2 win32 x86_64 zip which is a WinZip File 183 MB from http espelhos edugrat ufsc br What should Firefox do with this file Members Committers Resources Projects 9 Save File Open with WinZip default F Do this automatically for files like this from now on cell 3 PHAD Visit other Eclipse Silas Qe inp 5 About Us tom Sas Email Address email address The browser will download automatically the eclipse into a zip file unzip the file clicking the option extract into your work folder e am Q la gt Quintero Juan Camilo CIAT Downloads Organize amp Open with WinZip Share with X Favorites Desktop Jy Downloads 4 Recent Places Libraries Documents 4 Music Pictures amp Videos amp Computer amp System Reserved 62423 C DATA 62423 D Network a ec
258. ustraci n 37 pantalla de Map Read cccscccsecccseeccseecsueecssessueessusessuessenesseeessueessuessauesseeessusessnesseessnsesaes 67 llustraci n 38 barra de progreso generada por el proceso Map Reads sese 68 Ilustraci n 39 archivos generados por el proceso de Map Reads oocccocccconccconccconnccconcocnncoonononncnannnnons 68 llustraci n 40 accediendo a Sort Alignment cccsccccsseecceesccescnsuscneusccsuscssensusenausensuseaaeensusensuseneuseaeassens 69 NUStraci n 41 pantalla de SOM AUDIO nt AN ti 69 llustraci n 42 resultados arrojados por el proceso de Sort Alignment esses 70 Ilustraci n 43 accediendo al proceso Find Variants coonccccncconiconoconoconononononononoconnonnnonnnononononononononinnnnns 71 liustraci n 44 pantalla de Find Variants ica a A AE E ee o xu FRE Md Re e T FR TREE dA 72 llustraci n 45 barra de progreso generada por el proceso Find Variants cooccccncccnnccnnccnniconiconiconiconons 3 Ilustraci n 46 archivos generados por el proceso Find Variants ooccccncoconcconnconnconnconnooonononononinonononnns 73 llustraci n 47 archivo VCF generado por Find Variants con variantes SNPs e Indels 4 llustraci n 48 archivo CNV generado por Find Variants oocccccccccniconoconeconoconoconnconnononononononononononinonnns 5 Ilustraci n 49 archivo GFF generado por Find Variants o
259. ustraci n 62 pantalla de Merge VCF En la imagen anterior ya se encuentran seleccionados las tres muestras que estamos utilizando para este ejemplo una vez seleccionados los archivos a los que se quiere hacer Merge se procede a determinar un listado de variantes comunes entre las tres muestras y registrarlas en un solo archivo VCF esto con el fin de facilitar su an lisis desde ancestros hasta los descendientes para realizar este proceso se debe hacer clic en el bot n Determine list of variants 83 File Edit Navigate Search Project File Run Window Help A x prre Gor is e SEX RA ES E Java I Package Explorer 33 TB D Outline El 4 15 PruebalLevadura An outline is not available i GenomaReferencia ie Lecturas 4 TrioLevadura CBS6412 bowtie2 sorted bam ER7A bowtie2 sorted bam Unselected bowtie2 sorted bam HistoryFileVCF ini References projectNGSEP ReferencesGff3 projectNGSEP i Problems Javadoc Declaration ES NGSEPView ReferencesMap projectNGSEP T A Determine Va nts Process E TestNGSEP a a Determine Variants is running Determine Variants Process 096 E Ilustraci n 63 ejecutando la opci n determine list of variants dentro del proceso Merge VCF Luego de finalizar el proceso para determinar variantes se genera un archivo VCF de nombre HistoryFileVCFMerGeFile vcf despu s se debe volver a correr el proceso de Find Variants para las tres muestras que se seleccionaron en el proce
260. yen el ndice son todo lo que se necesita para alinear lecturas Los archivos FASTA que son las secuencias originales ya no son utilizados por Bowtie2 una vez que el ndice se construye 39 Este proceso de indexaci n es posible realizarlo con NGSEP siempre en cuando se tenga instalado Bowtie2 en la m quina Para acceder a indexar el genoma de referencia se debe dar clic derecho sobre el archivo que previamente se ingres en el proyecto a continuaci n se desplegara una serie de men s dentro de estos men s se encuentra la opci n NGSEP Men una vez localizada esta opci n se procede a ubicar el puntero del mouse sobre est se puede observar inmediatamente que se desplegara una serie de submen s al lado derecho dentro de estos submenus organizados estrat gicamente de acuerdo el pipeline 63 de NGSEP encontrar de primero el proceso de indexaci n el cual recibe el nombre de Create Index Bowtie en cual tendr que dar clic En este sentido la siguiente llustraci n 32 ayudar para comprender la serie de pasos para acceder a Create Index Bowtie llustraci n 33 Java Eclipse SDK File Edit Source Refactor Navigate Search Project Run Window Help mo DECIA DA E CA A ro 0 77 x Quick Access ES 1S ava HE Package Explorer 22 Lp H Oz Outline 22 H 4 12 PruebaLevadura An outline is not available 4 2 GenomaReferencia Ej sacCer_SGD_refgenome_20110301 fa amp Lecturas New gt E Sample
261. your bowtie2 folder is For example C Users jcquintero Desktop CIAT Bowtie2 bowtie2 2 1 0 bowtie2 align exe To perform the Map reads function you will also need the reference genome indexed by bowtie2 order for faster execution otherwise the process will not start You can index the reference genome in bowtie2 for Windows as follows e Call the command line by typing cmd in the Windows search bar e Indicate in the cmd the path where you have the reference genome and the path and new name for the indexed reference file that you are creating For example bowtie2 build exe D YeastSequencing Reference sacCer_SGD_refgenome_20110301 fa D YeastSequencing Reference sacCer_SGD_refgenome_20110301 174 PH Computer Ceca CoverLetter With Orac Ye 1 Oracle VM Google Earth plan de VirtualBox mejora ma a B al Recycle Bin Mozilla vaniantstiit onari Requisitos NGSEP Juni EN C Windows system32 cmd exe Hicrosoft Windows Version 6 1 7601 Copyright c 2009 Microsoft Corporation All rights reserved C XUsersXjcquintero boutie2 align exe D YeastSequencing Reference sacCer_SGD_re fgenome_20110301 fa D XVeastSequencingXReferenceX sacCer SGD refgenome 20110301 After you type the path it should appear something like this in the cmd 175 E C Windows system32 cmd exe 90 100 Block accumulator loop time 00 00 00 Sorting block of length 2059905 Using difference cover Sorting bloc

Download Pdf Manuals

image

Related Search

Related Contents

Polycom Webcam RMX 2000 User's Manual  Draper Luma 2    Fujitsu PRIMERGY BX922 S2  ROCKY-3702EV User Manual  MB35 US 3-lang 80250903 Rev A  Starter Kit and User Manual for the HelloDevice  Nebulizador Ultrasónico  User`s Guide Fireface UC  

Copyright © All rights reserved.
Failed to retrieve file