Home
        Support de TD (annotation_genes_2013)
         Contents
1.     une s  quence extraite du  g  nome du riz que l   on va annoter    Os01_ 36429 36558 fna raw fg correspondant    la sortie du programme FGenesh   Os01 36429 36558 fnarepeat qui correspond    la sortie du programme  RepeatMasker      Ex  cution de Workflows pour l   annotation sous Galaxy         Importation du Workflow    Dans le menu    Shared Data     cliquer sur le lien    Published Workflows     Cliquer sur le lien    EuGeneIMM3 2 Training 2013      Importer le workflow dans son environnement   Ex  cuter le workflow  puis l     diter pour comprendre sa structure        Ce workflow permet de pr  dire la structure et la fonction des s  quences codant pour des  prot  ines en se basant sur les modules pr  c  demment cit  s     Lancer    le workflow    partir du fichier Os01 36429 36558 fna et du fichier    Os01_ 36429 36558 fna raw fg     Description du workflow         Pour l   annotation structurale  Figure 1   2 briques sont utilis  es      SpliceMachine   et     EuGene     incluant EuGeneIMM   Le r  sultat d   une analyse r  alis  e sous FGenesh est    galement inclus dans Eugene  apr  s conversion de format      GNPAnnot  Converters   FGenesH            SpliceMachine x      Nucleotide query    sequence    output_mst  txt   gt  mm    GNPAnnot Converter   EuGene 5    output_mad  txt           nn Fasta file    GNPAnnot format sequence  Fasta  amp    j EuGene x         EuGene file  ne    Fasta Mie output_gff  gff3   SpliceMachine Mst     gt   Fasta file      output_file 
2.    Write Amino acids of selected features   Select an output file name locus tag_ori faa  mettez le num  ro du g  ne trouv      la question  3           Cr  ation d   une nouvelle entr  e personnelle pour l     diter   Create new entry   Entry set name of entry no name    masequence      Entry set default entry    masequence     elle apparait en jaune dans la barre de menu   Cliquer sur la pr  diction de structure d   Eugene   Edit  copy selected feature to    masequence        Editez le g  ne dans l   entr  e    masequence     Cliquer sur l objet CDS  exons en bleu   Menu Edit Selected Features In Editor  Ctrl E       Corrigez la structure   Pour ajouter de nouveaux exons  copier coller des positions dans location en respectant le  format join b1  e1 b2  e2 b3  e3 b4  e4 b5  e5    Cliquez sur OK      V  rifiez la jonction GT   AG des exons cr    s   Double cliquez dans l exon que vous venez de cr  er sur la carte de la s  quence   Cela va positionner correctement la vue de l ADN   Corrigez les bornes si n  cessaire pour respecter la jonction GT   AG tout en respectant le  cadre de lecture des exons   1    on ne doit pas voir de stop dans les exons  barre noire     Pour cela  en positionnant le curseur sur l extr  mit   d un exon et en maintenant le bouton  gauche appuy   vous pouvez   tirer ou raccourcir l exon     Q11  Selon vous quelles sont les coordonn  es correctes des exons du premier g  ne      9  BLASTp contre Uniprot   InterproScan      R  cup  rez la s  quence prot
3.   ique du premier g  ne annot   manuellement  Clic droit sur l objet CDS  exons en jaune    View Amino acids of selection as fasta   Copier la sequence sous le nom locus tag cor faa       Lancez un navigateur  ouvrez deux onglets et aller    l adresse suivante  http   www expasy ch tools blast    ou http   www uniprot org  onglet Blast   Copier coller la s  quence du fichier locus tag ori faa et de locus tag cor faa dans deux  onglets s  par  s     priori les multifasta ne sont pas accept  s    Lancer le BLASTp en cliquant sur le bouton Run BLAST          De la m  me mani  re vous pouvez lancer un InterproScan pour la recherche de domaines  prot  iques  http   www eb1 ac uk Tools pfa iprscan        Q12   Observez les alignements  votre annotation permet elle d   am  liorer l   alignement    Quels indices vous permettent de conclure      10  Annotation fonctionnelle de LOC _Os01g62920 dans Artemis      Editez et annotez ce g  ne  Deuxi  me sur le brin antisens  not   Os01b36429e36558 g0040  par Eugene    Cliquez sur la CDS dont la structure a   t   annot  e manuellement pour la s  lectionner   Menu Edit Selected Features In Editor  Ctrl E     Analysez vos alignements blastp contre Uniprot    Q13  Quelle est l   accession Uniprot correspondant    votre g  ne     Q14  Quelle est l   accession Uniprot correspondant    une annotation de r  f  rence chez le riz    Q15  Gr  ce    cette annotation retrouvez la r  f  rence bibliographique permettant de valider la  fonction exp  riment
4.  analyste     Les modules bioinformatiques que nous allons utiliser pour l   annotation sont les suivants     M  thodes intrins  ques   a  Splicemachine http   bioinformatics psb ugent be webtools splicemachine  pr  dit les  sites d     pissage des introns par l   utilisation de la m  thode dite    linear support vector  machines     LSVM  pour classifier les sites d     pissage actuels et pseudo sites     partir  de donn  es issues du g  nome d   Arabidopsis thaliana et du g  nome humain    b  EugeneIMM utilise la m  thode IMM  Interpolated Markov Modeler  pour interpr  ter  les r  gions codantes et non codantes    c  FGenesh http  www softberry com berry phtml est une m  thode de pr  diction de  g  nes ab initio bas  e sur des m  thodes statistiques HMM  chaines de Markov  cach  es  avec une phase d   apprentissage supervis  e                 M  thodes extrins  ques  a  BLAST  Basic Local Alignment Search Tool  http   www ncbi nlm nih gov BLAST    identifie des r  gions de similarit   locale entre s  quences  Le programme compare des   s  quences nucl  otidiques ou prot  iques et calcule la significativit   des r  sultats      BLASTX adresse une requ  te de type    nucl  otide transcrit    sur des bases de  donn  es    prot  ines    type Swissprot ou Trembl      BLASTP adresse une requ  te de type    prot  ine    sur des bases de donn  es    prot  ines    type Swissprot ou Trembl        b     c       TBLASTN adresse une requ  te de type    nucl  otide transcrit    sur des b
5.  blastp  MC  x   GNPAnnot Converter  Blastp                      Protein query sequence s  b A   GNPAnnot Converter   EuGene 5    LT Blastp1 result          Blastp2 result        gt  Fasta file  I    1 gt  EuGene file        Blastp3 result                   OEE i T gt  EuGene GFF3 result  output  aff  gff3  mam Li  yrr  EuGene EMBL result    output_embl  embl                 outputi_gfi3  g    output2_gff3  gff3     output_embl_utr  embl              output_gene  fasta        output_cds  fasta  output3_gff3  gff3        output_pep  fasta     output_eugene_gff3  gff3        JI output_eugene_embl  txt        output_region  fasta           outputl  tabular  txt  html  blastxml        Figure 2   Workflow Galaxy pour l   annotation fonctionnelle    Perfectionnement de l   annotation structurale     Pour pr  ciser la structure des g  nes pr  dits  Figure 3   on utilise dans un premier temps une  combinaison de TBLASTN et Exonerate sur les bases de donn  es EST de riz  Oryza sativa et  Oryza glaberrima  et de sorgho    On utilise   galement en parall  le une combinaison de BLASTX Exonerate et le programme  Genome Threader  sur la s  quence nucl  ique   largie entre g  nes  Figure 4                  GNPAnnot Converter   Exonerate            GNPAnnot Converter   tBlastn 5 SES x  L   Source file 20  Exonerate result             BLAST  tblastn  MC  am er r T  output_gff3  g                Protein query sequence s           output_embl  txt        outputl  tabular  txt  htm  blastxmi    
6.  fasta             output_embl  embl       SpliceMachine Mad   output_embl_utr  embl      GNPAnnot Converters   FGenesH    gt  Fgenesh    output_gene  fasta     gt   FGenesH output output  txt 7   output_cds  fasta  output_gff3  gff3   gt  output_pep  fasta   output_embl  txt   gt  output_region  fasta     output_eugene  txt        Figure 1   Workflow Galaxy pour l   annotation structurale de s  quence g  nomique    Le fichier r  sultant  EuGene result  correspond    la sortie brute de EuGene  Il sert de point de  d  part    l   annotation fonctionnelle  La brique    GNPAnnot Converter   Eugene    permet en  effet d   extraire un fichier GFF3 contenant la structure des g  nes pr  dits et les fichiers multi   fasta n  cessaire    l   annotation fonctionnelle   Cette brique produit en sortie les fichiers suivants     e _ EuGene without functional annotation  gff3    e EuGene without functional annotation  embl    e Gene sequence with intron  fasta    e Gene Coding Sequence intron less  fasta    e Region around Gene  fasta    e Translated Gene Coding sequence  fasta     Annotation Fonctionnelle   Pour attribuer une fonction    un g  ne pr  dit par EuGene  Figure 2   la brique    GNPAnnot  Converter   Blastp    combine les r  sultats de plusieurs sources de BLAST  SwissProt  MSU  Rice genome annotation project  Rice MSUv6 1  Prot  ome Sorgho extrait de la base de  donn  e Phytozome  et transf  re la fonction de la prot  ine la plus similaire ainsi identifi  e               BLAST 
7. Oan output_exonerate  txt  FT                                                                      GNPAnnot Converter   tBlastn 3    RA z SES  Re   sus paei re er ete      Source file 7      Exonerate result   O    Protein query sequence s  E output_ gff3 Tofa   gt  dti en anoons   lt    rene T o OE    output   tabular  xt  html  blastemD    G    output exonerate  xt  Po uput exonerate tu G    output embl  x  g             GNPAnnot Converter   tBlastn        BLAST  tblastn  MC  x Exonerate x   GNPAnnot Converter   Exonerate    rar    tBlastn result                         T gt  Source file                                  Protein    query sequence s    RSR ca    Exonerate result     i f output   Jff  gff3  ne  outputl  tabular  txt  html     blastxml     gt  DIE output gff af   7 output_exonerate  txt  A one 0      utput_exonerate  1x Y   output_embl  txt  D   L          Figure 3   Workflow Galaxy pour am  liorer l   annotation structurale    partir des s  quences  prot  iques des g  nes pr  dits    GNPAnnot Converter   x       5 a   GenomeThreader     Genome Threader x      l   GenomeThreader Result  Nucleotide query 1  sequence   output_gff  gff3  v  output  txt        output_gth_eugene  txt   Genome Threader x   GNPAnnot Converter   x        GenomeThreader   Nucleotide query  sequence       GenomeThreader Result     output  txt g   output_gff  gff3     output_gth_eugene  txt                                   GNPAnnot Converter   Blastx GFF3  BLAST  blastx  MC  x     g    B
8. South  Green    bioinformatics platform    Annotation de s  quences g  nomiques   Exemple d   une r  gion du chromosome 1 de riz  autour du g  ne qSH1  Os _1 36429001  36558000     Il  Annotation de g  nes codant des prot  ines    1  Objectif du TD    L objectif du TD est d   identifier  sur une grande r  gion g  nomique  l   ensemble des  structures codant potentiellement pour des prot  ines  au travers d   un ensemble de  m  thodes d   annotation intrins  ques  pr  diction ab initio de structures codantes  et  extrins  ques  faisant appel aux bases de donn  es existantes     La comparaison des r  sultats obtenus avec diff  rentes m  thodes bioinformatiques laisse  apparaitre parfois des divergences sur le nombre de s  quences codantes potentielles et ou sur  leurs bornes  L   utilisation de l     diteur Art  mis permet de mettre en   vidence ces diff  rences  et de r  aliser soi m  me un travail de correction manuelle de l   annotation    Au del   d informations structurales sur la r  gion g  nomique consid  r  e  il est possible  d   acqu  rir des informations fonctionnelles au travers de m  thodes extrins  ques par  similarit   des s  quences et recherche de domaines prot  iques conserv  s  signatures     En fonction de la significativit   des r  sultats  le r  sultat du produit des polypeptides va   tre  attribu   avec plus ou moins de confiance  L     diteur Art  mis permettra de valider et  d   enrichir cette annotation fonctionnelle en fonction de l   expertise du bio
9. ale du polypeptide     Q16  Au vu de l   ensemble des ressources    votre disposition corrigez  compl  tez et finalisez  l   annotation fonctionnelle du polypeptide  Dans le corps d   Artemis Feature Edit  vous pouvez  remplir les champs correspondants     Sauvez vos donn  es une derni  re fois en l   enregistrant au format EMBL     
10. ases de  donn  es   nucl  otide transcrit     type NR  s  quences non redondantes   EST   Expressed sequence Tag  ou des g  nomes complets     Genome Threader http   www genomethreader org  pr  dit des structures de g  nes au  travers de similarit  s avec des ADNc ou EST et ou des s  quences prot  iques align  es   alignements consensus  tenant compte des   pissages   Il utilise un exciseur d   introns  et un mod  le    Baysian Splice Site Models     BSSMSs  pour identifier les limites  exons introns           Exonerate http   www ebi ac uk  guy exonerate  est un outil d   alignement de  s  quences deux    deux  Il est capable de prendre en compte diff  rents mod  les  d   alignements avec notamment la possibilit   d   aligner un EST contre une s  quence  g  nomique ou bien une s  quence prot  ique contre un g  nome        EuG  ne  http   eugene toulouse inra fr    est un outil d   int  gration des modules pr  c  dents  dans le processus d   annotation  Il produit en sortie une pr  diction de score maximal  c   est      dire la plus consistante possible avec les informations fournies par chacun des modules     2  Executions de workflows sous Galaxy pour la pr  diction automatique    de g  nes codant pour des prot  ines     R  cup  ration des donn  es de s  quence g  nomique       Sous Galaxy  dans le menu    Shared Data   Data Librairies     r  cup  rer les fichiers du  r  pertoire Formation   TD Annotation 2013   Input      Os01 36429 36558 fna   Fichier fasta qui correspond
11. es fichiers   Nom de fichier  Galaxy ___  EuGene  EMBL   txt   A la question   there were warnings while reading   view now      r  pondez Non  ou oui si  vous voulez voir les avertissements sur le format des annotations    Ouvrir le fichier      A partir de la fen  tre d   dition de l entr  e Os 1 36429 36558 fna cliquez sur le menu  File Read An Entry   Nom de fichier  Galaxy ___  FGenesH_ embl   txt   Nom de fichier  Galaxy ___  Exonerate OG ngs  EMBL   txt   Nom de fichier  Galaxy ___  Exonerate OS mrnas  EMBL   txt   Nom de fichier  Galaxy __  Exonerate SB mrnas  EMBL   txt   Nom de fichier  Galaxy ___  Exonerate Rice  EMBL   txt   Nom de fichier  Galaxy __  Exonerate Sorgho  EMBL   txt   Nom de fichier  Galaxy __  Exonerate SwissProt  EMBL   txt   Nom de fichier  Os01 36429 36558 fna repeat          NB   Si vous avez besoin de retirer une entr  e  Menu Entry Remove An Entry choisissez le fichier    retirer      Pour faciliter la visualisation des r  sultats    Clic droit sur la carte de la s  quence   Cocher One Line Per Entry   D  cocher Feature Labels    Q1   Combien de structures codantes sont elles pr  dites par Eug  ne      Cliquez sur l objet CDS  exons en jaune  du premier g  ne pr  dit par EuG  ne pour le  s  lectionnez  Menu Edit Selected Features In Editor  Ctrl E     Q2  Quel est le num  ro du g  ne  identifiant ou locus_ tag    Sur quel chromosome du Riz se  trouve la r  gion   tudi  e      4  Fgenesh  Nom de fichier  Galaxy ___  FGenesH_ embl   txt    Q3  Q
12. lastx result Exonerate x     GNPAnnot Converter   Exonerate    as ult  Nucleotide query sequence s      L    E3 Source file Exonerate result  CRT output_gff3  txt    f  output1  tabular  txt  html  blastxml  N  d  ctide re k je se  output_embl  txt  ucleotide region arroud gene output_gff3  gff3   output_exonerate  txt    output exonerate  EXD p    output_embl  txt  ot Converter   Blas   ee RES 5  E E E Exonerate x   GNPAnnot Converter   Exonerate      BLAST  blastx  MC     S Blast resul L Le DEA ee A er res  astx result DS file  es f 2 Source file   Exonerate result   gt  Nucleotide query sequence s  Ut off3 xD    output_gff3  txt Nucleotide region arroud gene   output_gff3  gff3   output1  tabular  txt  html  blastxmil  1 iia   a  output_embl  txt output_exonerate  txt  9 output_embl  txt        output_exonerate  txt                 n GNPAnnot Converter   Blastx GFF3   Exonerate b      GNPAnnot Converter   Exonerate        BLAST  blastx  MC       Blastx result  gt  Source file   Exonerate result      Nucleot de query sequence s    output_gff3  txt  Nucleotide region arroud gene output_gff3  gff3      output1  tabular  txt  html  blastxml       output_embl  txt  output_exonerate  txt   gt  output_embl  txt          I  f    output_exonerate  txt     Figure 4  Workflow Galaxy pour am  liorer l   annotation structurale    partir des s  quences  nucl  iques   largies des g  nes      R  cup  ration des fichiers de sortie du workflow        R  cup  rer les fichiers de sortie suiva
13. nts     e FGenesH  embl    Fichier au format EMBL du logiciel FGenesH   e EuGene  EMBL    Fichier au format EMBL du programme EuGene   e Exonerate OG_ngs  EMBL    Fichier EMBL correspondant    la combinaison des  programmes tBlastn Exonerate sur les contigs de Riz  ssp  glaberrima    e Exonerate OS_mrnas  EMBL    Fichier EMBL correspondant    la combinaison des  programmes tBlastn Exonerate sur la banque d   EST Riz  ssp japonica    e Exonerate SB_mrnas  EMBL    Fichier EMBL correspondant    la combinaison des  programmes tBlastn Exonerate sur le banque d   EST sorgho    e Exonerate Rice  EMBL   Fichier EMBL correspondant    la combinaison des  programmes Blastx Exonerate sur le prot  ome du Riz  MSU version 6 1    e  Exonerate SwissProt  EMBL   Fichier EMBL correspondant    la combinaison des  programmes Blastx Exonerate sur la banque UniProtKB SwissProt   e  Exonerate Sorghum  EMBL   Fichier EMBL correspondant    la combinaison des  programmes Blastx Exonerate sur le prot  ome du Sorgho    3  Visualisation des r  sultats sur Artemis      R  cup  rer  si ce n   est d  j   fait  l   diteur artemis jar pour Windows par exemple sur le site  du Sanger   http   www sanger ac uk Software Artemis    Lancer Artemis en double cliquant sur l ic  ne    Le manuel d utilisation se trouve    l adresse    http   www sanger ac uk Software Artemis v11 manual artemis manual _complete html            A partir de la fen  tre de lancement cliquez sur le menu File Open   Fichiers du type   Tous l
14. uelles sont les diff  rences de structure entre la pr  diction EuG  ne et celle de Fgenesh    A quoi cela peut il   tre d        5  TBLASTN   Exonerate contre les transcriptomes  Nom de fichier  Galaxy __  Exonerate OS mrnas  EMBL   txt  Nom de fichier  Galaxy ___  Exonerate OG ngs  EMBL   txt   Nom de fichier  Galaxy __  Exonerate SB mrnas  EMBL   txt    Q4  Peut on   mettre l hypoth  se que ce premier g  ne est exprim   Chez Glaberrima   chez le  sorgho      Q5  Quelles sont les diff  rences de structure entre la pr  diction EuG  ne et celles  d   Exonerate      6  BLASTXx   Exonerate contre prot  ome du sorgho  Nom de fichier  Galaxy ___  Exonerate Sorghum  EMBL   txt    Q6  Comment exploiter ce r  sultat pour rechercher de la microsynt  nie entre cette r  gion du  riz et les chromosomes du Sorgho     Q7  Sur quel s  chromosome s  du sorgho se trouvent des r  gions synt  niques potentielles    Q8  Quelles sont les diff  rences de structure entre le premier g  ne pr  dit par EuG  ne et celle  d   Exonerate      7  BLASTX   Exonerate contre UniprotKB Swissprot  Nom de fichier  Galaxy ____ Galaxy __  Exonerate SwissProt  EMBL   txt    Q9  Est ce que les r  sultats attendus correspondent aux r  sultats observ  s    Q10  Quelles sont les diff  rences de structure entre la pr  diction EuG  ne et celle  d   Exonerate      8  Annotation structurale dans Artemis      Commencez par mettre de c  t   la s  quence prot  ique du premier g  ne   Clic droit sur l objet CDS  exons en bleu 
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Guia do Usuário do TurningPoint  NSi Mobile Installation Guide  HEPATITIS A – HAV-IgM  UM10759 - NXP Semiconductors  My Little Steamer®  Use and Care Manual  to the PDF file. - What is Al  Frigidaire FPHD2491 User's Manual  Téléchargement - Association Stop suicide  HXSP-1002 - Hexin Technology    Copyright © All rights reserved. 
   Failed to retrieve file