Home

Création d`outils pour l`automatisation d`analyses phylogénétiques

image

Contents

1. AAG TAT AAA AAA AGA TTG GTC TTT Annexe A Exemples de fichiers VAUCbursa 283 307 ODONsinen 262 289 GUILtheta 274 298 ISOCtahit 310 334 PAVLluthe 280 304 CYANparad 274 298 EUGLgraci 259 283 NEPHoliva 292 316 MONOoke 1 1066 1108 SCHEdubia 352 388 NEOCpseud 262 286 CHLOvulga 367 391 BRYOplumo 271 298 DERBmarin 277 301 OLTMvirid 277 301 PSEUakine 436 460 PEDIminor 274 298 SCENobliq 265 289 CHLAreinh 613 637 MESOvirid 298 322 CHLOatmop 292 316 ZYGNcircu 280 304 GAA AGA TCA ACT AAA CTT GAA ATT AGC GTA GAA AAA ATT CTT GAG CAA GTT GAA ACC AAA CAA ACT GAG GAA CGT ATA GAA AAA ATC TTA GTT ATA GCC GAG GTT GTT ACT AAA TTT ATA TTT ATA ATT TTA GTA ATT ATT ATC ATT GTT ATT AAA CGT AAG CAA TAC AAA AGA gt lt CAA AAA GAA AAA CGA CGA CAA AAA CAC AAA TTT AAA CAA CAA CAA AAA TAC GAA GAG TTT CAA AAT ATT CAA CGA ATT ATT TTC TTT TTA CTG TTT TTA TTA GAA GAA AAA CAA GGG CAG AAA GAA GAT AAA CAA TTT AAA CAA GAA CAA CGA CAA CAA CAG AAA AAA CAA CAA CAA AAG CAA GAA CAA GAT CGT TAT TCG TGG TGG TGG TGG TGG TGG TGG TGG TGG TGG TGG GAT GAT ACA ATT TTT GTT GTT GTT ATT ATA GTA TTT ATT GTT CTT GTT GTT GTT GTA GTT ATA GTT GTA GTT GTC 70 TTA ACT TTT TTT TTT TTC TTA TGG TAT TTT TTA TTC TTT TGT GTT TTA TTA TTG TAT TTT TTT TTT Annexe B Les scri
2. seq gt id An foreach my seq aln gt each_seq my newseq my ngap 0 my end foreach my pos 1 alnlen my 1oc seq gt subseq pos pos my dna if 1oc eq dna ngapt else my start pos 1 ngap CODONSIZE 1 end start CODONSIZE 1 die Sequence length doesn t match for seq gt id in name An if start gt nucsegs segorder gt length Annexe B Les scripts end gt nucseqs seqorder gt length dna nucsegs segorder gt subseg start Send newseq dna end nucsegs segorder gt length die Sequence seq gt id in name An length doesn t match for my newdna new Bio LocatableSeq display id gt start gt end gt strand gt seq gt seq gt id seq gt start 1 CODONSIZE 1 seq gt end CODONSIZE seq gt strand newseq dnaalign gt add_seq newdna seqorder dnaalign gt set_displayname_flat alignout gt write_aln dnaalign B 5 filterselex pl usr bin perl w headi NAME filterselex pl keep only the desired sequence from a Selex file headi SYNOPSYS filterselex pl ORG list path to selex headi DESCRIPTION filterselex pl takes a file containing the list of the desired organisms 80 Annexe B Les scripts 81 to be kept and a li
3. A partir d un g nome nouvellement s quenc Lorsqu un g nome vient tout juste d tre compl tement s quenc aucune informa tion pr cise sur son contenu en g nes n est connue La seule chose connue est sa s quence brute Le script findorf pl a t d velopp pour proc der l identification des g nes partir de la s quence brute Dans le cas le plus simple l utilisateur appelle le script findorf pl avec comme pa ram tre un fichier Fasta nomm sous le format GENRespec_cpDNA tfa cp doit tre remplac par mt dans le cas d une s quence mitochondriale et GENRespec est l identi fiant d organisme Il produit par la m thode indiqu e en 3 1 7 un fichier tabul et trois r pertoires Il est aussi possible de sp cifier comme deuxi me param tre l organite d origine du g nome plut t que dans le nom du fichier et un troisi me param tre peut tre utilis pour sp cifier la longueur minimale en codons qu un cadre de lecture ouvert non identifi doit avoir pour qu il soit conserv dans le fichier de sortie tabul Cette valeur est par d faut de 28 codons Le fichier tabul pr sent l annexe D 1 contient dans la premi re colonne la position dans le g nome par tranche de 100 nucl otides Les cinq colonnes suivantes contiennent le ou les r sultats de la recherche BLAST contre la base de donn es pr existante Les colonnes suivantes indiquent la taille et les positions de d but et de fin des cadres de lectu
4. General Time Reversible IR Inverted Repeat MOLPHY MOLecular PHYlogenetics NCBI National Center for Biotechnology Information PAUP Phylogenetic Analysis Using Parsimony PAML Phylogenetic Analysis by Maximum Likelihood PCR Polymerase Chain Reaction Perl Practical Extraction Report Language PHYLIP PHYLogeny Inference Package RELL Resampling Estimated Log Likelihood Chapitre 1 Introduction 1 1 Le s quencage d ADN Le s quencage d ADN c est dire le processus qui consiste d terminer la s quence de nucl otides qui composent un fragment d ADN a entra n une r volution de la re cherche en biologie mol culaire Au cours des derni res ann es le d veloppement de nouvelles techniques de biologie mol culaire a rendu possible le s quencage grande chelle Les am liorations qu ont subies ces techniques ont beaucoup chang les m thodes de travail dans plusieurs domaines de recherche 1 1 1 Le clonage mol culaire Les am liorations des techniques de clonage mol culaire sont en partie responsables de l augmentation de l efficacit du processus de s quencage Ces am liorations se si tuent prinpalement au niveau des vecteurs de clonage utilis s et des techniques de la r action de polym risation en chaine PCR Les nouveaux vecteurs de clonages permettent de s lectionner de fa on plus efficace les clones ayant une insertion De plus ils permettent des insertions de pl
5. MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym 372 CYANparad PEDIminor CHLOvulga NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym 387 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 425 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 434 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac MARCpolym PINUthunb 520 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac MARCpolym PINUthunb 527 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb MESOvirid 531 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb MESOvirid 540 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 591 CYANparad MESOvirid NEPHoliva CHLOvulga PEDIminor NICOtabac PINUthunb MARCpolym 596 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac MARCpolym PINUthunb 602 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac MARCpolym PINUthunb 609 CYANparad MESOvirid NEPHoliva NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga 629 CYANparad MESOvirid NEPHoliva NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga 638 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulg
6. for my n 0 n lt length segstr n if substr seqstr n 1 ATGCN tabpos n count2 count2 J else Annexe B Les scripts 73 tabpos n 0 while count seq gt length 4 SWITCH if length seqchars gt count LINELENGTH 3 4 substring substr seqchars count LINELENGTH 3 4 last SWITCH elsif length seqchars gt count substring substr seqchars count last SWITCH I substring i substring tr atcgn ATCGN substring s ATCGN 3 1 g count LINELENGTH 3 4 aln gt set_displayname_ flat my namestr aln gt displayname seg gt get_nse namestr my p 0 if substring ATCGN g p pos substring count 4 3 LINELENGTH 1 y namestr tabpos pl while substring ATCGN g 1 p pos substring count 4 3 LINELENGTH 1 y namestr tabpos p my add maxn length namestr 2 namestr x add push Coutarray namestr substring An count 1 substring my Con my Goff Annexe B Les scripts 74 my ref lentab seq gt id gt while my len shift ref push Con count count len push Goff count 1 my str x aln gt length 3 4 my pos2 for my t O t lt tabpos t 1 if
7. my outprot Bio SeqI0 gt new file gt gt gt prot name 0 tfa format gt Fasta outprot gt write_seg protseg else print feat gt primary_tag has no tag gene n B 10 preparednamatrix pl usr bin perl w use strict use Getopt Long use Bio AlignIO headi NAME preparednamatrix pl create a protein matrix from aligned protein files headi SYNOPSIS preparednamatrix pl aln headi DESCRIPTION Annexe B Les scripts 97 preparednamatrix pl takes as input alignments in Fasta format and filters them with Gblocks The filtered alignments are concatenated to alignment nex in nexus format It also produces a file called Goptns txt which contains the length of each filtered alignment for use in PAML headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt cut my USAGE qq 1 F open GOPT gt Goptns txt print GOPT G scalar CARGV while my f shift CARGV my Osplit split split f Gblocks f t c Gblocks Nst Md positions m print GOPT 1 my in Bio AlignI0 gt new file gt f gb format gt fasta my out Bio AlignI0 gt new file gt gt split 0 aln gb format gt clustalw while my aln in gt next_aln aln gt set_displayname_flat out gt write_aln aln I unlink split 0 tfa unlink split 0 tfa gb unlink
8. Mouse Genome Sequencing Consortium Initial sequencing and comparative ana lysis of the mouse genome Nature 420 520 562 2002 International Human Genome Sequencing Consortium Initial sequencing and ana lysis of the human genome Nature 409 860 921 2001 Sequencher http www genecodes com sequencher index html M W Gray The endosymbiont hypothesis revisited Int Rev Cytol 141 233 357 1992 S G Andersson A Zomorodipour J O Andersson T Sicheritz Pont n U C Als mark R M Podowski A K N slund A S Eriksson H H Winkler and C G Kur land The genome sequence of Rickettsia prowazekii and the origin of mitochondria Nature 396 133 140 1998 C Lemieux C Otis and M Turmel Ancestral chloroplast genome in Mesostigma viride reveals an early branch of green plant evolution Nature 403 649 652 2000 M Turmel C Otis and C Lemieux The Complete Mitochondrial DNA Sequence of Mesostigma viride Identifies This Green Alga as the Earliest Green Plant Di vergence and Predicts a Highly Compact Mitochondrial Genome in the Ancestor of All Green Plants Mol Biol Evol 19 24 38 2002 GCG Wisconsin Package http www gcg com S F Altschul W Gish W Miller E W Myers and D J Lipman Basic Local Alignment Search Tool J Mol Biol 215 403 410 1990 Interface web de BLAST http www ncbi nlm nih gov BLAST Mac OS X http www apple com macosx Bibliographie 64 14 15 16 17 18
9. ner la position phylog n tique de l organisme Cela n cessite plusieurs tapes de trai tement qui doivent tre effectu es individuellement sur chaque g ne Pour cette raison il est souhaitable de concevoir des outils bioinformatiques pour automatiser ces t ches De plus les analyses phylog n tiques sont tr s exigeantes en temps de calcul 1 5 Objectifs du projet Avec la quantit grandissante d information provenant du s quencage il est de plus en plus p nible de faire manuellement les recherches d homologies et d identifier les g nes en utilisant seulement les outils traditionnels En plus l extraction des s quences leur formatage et leur pr paration pour effectuer des analyses phylog n tiques comportent de grands risques d erreurs humaines avec une telle quantit d information Il tait donc devenu essentiel d automatiser les t ches de pr paration et d analyse de donn es pour profiter pleinement des nouveaux g nomes disponibles Pour ce faire il sera n cessaire de d velopper des outils informatiques permettant d automatiser et d acc l rer le traitement de donn es provenant du s quencage d orga nites Ces outils effectueront des recherches automatis s d homologies et l identification des g nes Une base de donn es locale des g nomes d organites sera n cessaire puis qu un grand nombre de g nomes produits par le laboratoire n ont pas encore t rendu disponibles dans les bases de donn es publiques et il
10. tabpos t 1 my pos int t 3 4 foreach my test Con 1 my pos for my t O t lt tabpos t 1 if tabpos t test 1 pos t 1 substr str pos 1 1 lt test shift Qoff for my t O t lt tabpos t 1 pos2 t 1 if tabpos t test substr str pos2 1 1 gt my Coutstr count 0 my namestr my add maxn length namestr 2 namestr x add while count lt length str SWITCH if length str gt count LINELENGTH substring substr str count LINELENGTH Annexe B Les scripts 75 last SWITCH elsif length str gt count substring substr str count last SWITCH y substring count LINELENGTH push Coutstr substring An my Coutput while outarray my s shift outarray if outstr 0 A lt IX gt 4 s namestr shift Qoutstr else shift Coutstr push Coutput s push Corgtab output while orgtab 0 gt 0 foreach my org Corgtab print OUTPUT shift O org print OUTPUT n n n B 2 align pl usr bin perl w use strict Annexe B Les scripts my aprog t coffee if ARGV O eq c aprog clustalw shift j while my f shift system aprog f outorder input B 3 choosetpl pl
11. trnH gug trnI cau trnI gau trnK uuu trnL caa trnL gag trnL uaa trnL uag trnM cau trnfM cau trnN guu trnP ggg trnP ugg trnQ uug trnR acg trnR ccg trnR ccu trnR ucu trnS cga trnS gcu trnS gga trnS uga trnT ggu trnT ugu trnV gac trnV uac trnW cca trnY gua Autres ARNs rnpB ssrA Chapitre 1 Introduction 10 Figure 1 1 Exemple de g nome chloroplastique Carte g n tique du g nome chloroplastigue de Mesostigma viride 8 La position des genes est indiqu e par les rectangles pleins Les deux r gions simple copie sont d sign es par LSC Large Single Copy et SSC Small Single Copy Les deux r gions r p t es invers es sont d sign es par IRA et IRp Inverted Repeat Chapitre 1 Introduction 11 22 pr A 6 A7 gus Yor OB d CR yci2 Mesostigma viride ci9 rpl20 11 chloroplast DNA 4 Pues 1 8b w cca ycf81 a pelo N pel 9 118 360 bp RE lt 16 Chapitre 1 Introduction 12 Figure 1 2 Exemple de g nome mitochondrial Carte g n tique du g nome mitochondrial de Mesostigma viride 9 La position des g nes est indiqu e par les rectangles pleins Chapitre 1 Introduction 13 I Mesostigma viride mtDNA 42 424 bp Chapitre 1 Introduction 14 Tableau 1 3 Les g nomes mitochondriaux Liste des organismes dont la s quence du g nome mitochondrial fait partie de la base de donn es constr
12. 1161 CYANparad NEPHoliva MESOvirid CHLOvulga PEDIminor NICOtabac PINUthunb MARCpolym 1203 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 1204 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid CHLOvulga PEDIminor 1209 CYANparad MESOvirid CHLOvulga PEDIminor NEPHoliva NICOtabac PINUthunb MARCpolym 1209 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym 1214 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid PEDIminor CHLOvulga 1216 CYANparad NEPHoliva CHLOvulga MESOvirid PEDIminor NICOtabac PINUthunb MARCpolym 1238 CYANparad NEPHoliva PEDIminor MESOvirid CHLOvulga NICOtabac PINUthunb MARCpolym 1238 NN OO 01 O O UN O NR ONON OO J EH EHF W BO WE EH EH WO W O OC O M O N Annexe D R sultats d analyses 121 D 5 valuation du likelihood et des valeurs de RELL bootstrap protmlcp 2 3b3 mtREV24 F 105 trees 8 OTUs 10831 sites Tree ln L Diff ln L S E Para AIC Diff AIC TBL RELL BP 1 94733 6 0 0 lt best 32 189531 2 0 0 ME 0 9775 2 94796 2 62 6 25 7 32 189656 4 125 2 0 3 0 0064 3 94789 0 55 4 26 6 32 189641 9 110 7 0 3 0 0161 4 94932 7 199 0 32 5 32 189929 3 398 1 1 1 0 0000 5 94877 4 143 8 36 7 32 189818 8 287 6 0 6 0 0000 6 95026 4 292 8 45 0 32 190116 9 585 7 1 6 0 0000 f 94
13. 118 D 4 Topologies s lectionn es par la recherche exhaustive de protml 118 D 5 valuation du likelihood et des valeurs de RELL bootstrap 121 D 6 Topologies avec des valeurs de RELL bootstrap non nulles T1 T2 et T3 124 Liste des figures 1 1 Exemple de g nome chloroplastique 10 1 2 Exemple de g nome mitochondrial 12 3 1 Structure de la base de donn es 36 3 2 Maintien de la base de donn es 38 3 3 Analyse de s quences prot iques 45 3 4 Analyse de s quences codantes A7 3 5 Ladqopalogie Les uus ala dhe ed dS Galia seine 93 10 La dODOlOUIE Le be ee RE deia E acaba m E RC He RARE A 55 31 La topologie g s s 2 4 2 4 24 Ed 2 Ed Be od 4 BESS he 57 Liste des tableaux 1 1 Les g nomes chloroplastiques 1 2 Les g nes chloroplastiques 1 3 Les g nomes mitochondriaux 1 4 Les g nes mit chondriad 2 2 2299 bu d s bed eee 8 3 1 R sum des fonctions des seripts 2244 bnew FL RE Res 14 16 Liste des abr viations ADN Acide D soxyriboNucl ique ARN Acide RiboNucl ique ARNt ARN de transfert BLAST Basic Local Alignment Search Tool CPAN Comprehensive Perl Archive Network EMBOSS European Molecular Biology Open Software Suite GCG Genetics Computer Group GTR
14. 1204 2 78 4 32 191939 5 2408 3 5 3 0 0000 88 95777 9 1044 3 76 5 32 191619 9 2088 7 4 3 0 0000 89 95883 0 1149 3 72 5 32 191829 9 2298 7 4 9 0 0000 90 95875 9 1142 3 72 9 32 191815 8 2284 6 4 8 0 0000 91 95878 4 1144 8 72 7 32 191820 8 2289 6 4 8 0 0000 92 95872 2 1138 6 73 0 32 191808 4 2277 2 4 7 0 0000 93 95786 6 1053 0 77 6 32 191637 1 2105 9 4 3 0 0000 94 95857 9 1124 3 72 8 32 191779 9 2248 7 4 8 0 0000 95 95853 7 1120 1 73 2 32 191771 4 2240 2 4 7 0 0000 96 95854 3 1120 7 73 0 32 191772 6 2241 4 4 7 0 0000 97 95850 7 1117 1 73 3 32 191765 4 2234 1 4 6 0 0000 98 96033 5 1299 8 79 2 32 192130 9 2599 7 5 9 0 0000 99 96030 9 1297 3 79 5 32 192125 7 2594 5 5 9 0 0000 100 96032 1 1298 5 82 3 32 192128 2 2597 0 6 1 0 0000 101 96005 4 1271 8 82 0 32 192074 8 2543 6 6 0 0 0000 102 96005 5 1271 9 82 2 32 192075 0 2543 8 6 0 0 0000 103 96031 9 1298 3 82 5 32 192127 8 2596 6 6 0 0 0000 104 95927 9 1194 3 78 5 32 191919 9 2388 6 5 0 0 0000 105 95919 6 1186 0 77 9 32 191903 2 2371 9 5 2 0 0000 Annexe D R sultats d analyses 124 D 6 Topologies avec des valeurs de RELL bootstrap non nulles T1 T2 et T3 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac PINUthunb MARCpolym CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym MESOvirid
15. 19 20 21 22 23 24 25 26 27 28 29 30 31 32 Red Hat http www redhat com Microsoft Windows http www microsoft com windows default mspx Perl http www perl org The Bioperl Project http www bioperl org E L L Sonnhammer and R Durbin MSPcrunch a BLAST enhancement tool for large scale sequence similarity analysis 1997 J Thompson D Higgings and T Gibson ClustalW improving the sensitivity of progressive multiple sequence alignment through sequence weighting position specific gap penalties and weight matrix choice Nucl Acids Res 22 4673 4690 1994 C Notredame D Higgins and J Heringa T Coffee A novel method for multiple sequence alignments J Mol Biol 302 205 217 2000 Readseq http iubio bio indiana edu soft molbio readseq The EMBOSS project http www emboss org T M Lowe and S R Eddy tRNAscan SE a program for improved detection of transfer RNA genes in genomic sequence Nucl Acids Res 25 955 964 1997 M Melkonian Flagellar apparatus ultrastructure in Mesostigma viride Prasino phycae Plant Syst Evol 164 93 122 1989 M Melkonian B Marin and B Surek Biodiversity and Evolution The National Science Museum Foundation Tokyo 1995 D Bhattacharya K Weber S S An and W Berning Koch Actin phylogeny identifies Mesostigma viride as a flagellate ancestor of the land plants J Mol Evol 47 544 550 1998 K G
16. 63 65 65 66 67 67 68 69 71 Table des mati res ii BI addexons Pl seb ae ass at Ra ORT 14 1355 B AI di WAG I oie Peu dE irai ard 75 Bud choosetph pl a os ede aides 76 DA codonallen pl us iia dE GES era A aa a BG Merce pl 122 4 f RR 426522 2842 XE 4 ESHER EEA 80 loc Susa eo pes sens Das so ra A 82 is A E MON EOS EE 85 BE dormobdbsh escisiones d a CR ead sehen ER Rox ROSE E Rd 90 5E 0705 OS eee 2S eee Cb e eee ee HS ee ee ee 91 B M preparednamatriXx pl 4 44 oc Sed oem o RO FU AR 8 0440 96 B 11 prepareproteinmatrix pl 98 HIS pr epsequbEpl a s e shem eee he ee ok dede k ser delete 100 En DIDI DC 102 B 14 updatealign pl ese ae oa RS oer eR boe e DR dd 104 C Manuel d utilisation 108 Cl Hadesoms pl owned dee mob boe rd 108 CZ ROQUES lt gt ascos Pe EE DE as E ee que da a ala aw es a 109 ed COOODEHGHDL MMC 110 C 4 filterselex pl 111 E S III 112 25 ERO pl os LL ta ria qe St KZ WU BR at a 112 ELT gbkextra ctpl AI 113 0 preporednamauizpl esae e ea UE O BE RF di d 114 CO prepareproteinmatrix pl Li sis Liens 24454 844 5 4 8 4 eee 115 C ID DESDSOHMITEDI 2 m dei da ec da ANAL a ga odes 115 SPINKI UT lt s s ARNYN de Dee de a Re 116 D R sultats d analyses 117 DA Fichier produit par nd plece w s des ox Er GE FIR EU 117 D 2 Prot ines communes 4 4 d momo no he e 118 Dia Fichier Goptns txt 2 a3 424 so ss ead dom 2445 b up n e E 8 de
17. NICOtabac MARCpolym PINUthunb 770 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 777 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac MARCpolym PINUthunb 778 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 785 CYANparad NEPHoliva MESOvirid NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga 786 CYANparad NEPHoliva MESOvirid NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga 795 CYANparad PEDIminor CHLOvulga MESOvirid NEPHoliva NICOtabac MARCpolym PINUthunb 801 CYANparad PEDIminor CHLOvulga MESOvirid NEPHoliva NICOtabac MARCpolym PINUthunb 809 CYANparad PEDIminor CHLOvulga NEPHoliva MESOvirid NICOtabac MARCpolym PINUthunb 813 CYANparad PEDIminor CHLOvulga NEPHoliva MESOvirid NICOtabac MARCpolym PINUthunb 822 CYANparad CHLOvulga PEDIminor NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid 856 CYANparad PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid 878 CYANparad MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga 935 CYANparad CHLOvulga PEDIminor MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym 956 CYANparad NEPHoliva CHLOvulga NICOtabac PINUthunb MARCpolym MESOvi
18. anticodon pos 19417 19419 aa Ala complement 19380 19452 gene trnA ggc 19699 20220 gene ycf3 19699 20220 gene ycf3 function putative role in the assembly of photosystem I codon_start 1 product hypothetical chloroplast RF3 translation MPRSQKNDNFIDKTFTVVADIILKVLPTTVREKAAFSYYRDGMS AQAEGEYAEALQNYYEAMRLEIDPYDRSYILYNIGLIHTSNGEHGKALEYYYQAIERN PSLPQALNNIAVIYHYRGEQAIEEGNIATSEILFNQAASYWKQAIRLAPNSYIEAQNW LKITGRIEDNINL 21193 21279 Annexe A Exemples de fichiers gene trnI cau note codon recognized AUA C in the first position of the anticodon assumed to be post transcriptionally modified to lysidine which pairs with A rather than G product tRNA Ile anticodon pos 21227 21229 aa Ile gene 21193 21279 gene trnI cau A 2 Fasta gt SYNEs6803 MKGSLYSSKIAEPYAQALIGLAQQQNLTEVFGDNLRSLLTLLQDSPDLSAVLSSPVVKDE DKKSVLRSVLGDGGNGYLLNFLMLLVDKRRIVFLEAICEQYLALLRQFTNTVLAEVTSAL KLTDAQKDQVKERVKQLTGAQAVELETKVDGDILGGIVIKVGSQVFDSSLRGQLRRVGLS LGTAL gt PORPpurpu MSSNNLVAKTAQPYASALLDLANEKKATEQTSQDMKLIKDILLQSGKLKYFLANPLKTIE AKKQVIAATFGDQISENTLSFLMVLVDRKRISMLDVIAGKYLELAYAMESLTIANISTSI ALNSDQENLLIDKIKAMTSAKEVKLVISVDPELIGGFTIQIGSKVIDTSIRGQLKQMASH LDVAAM gt CYANcalda MILLLTNSKIIYPYSEALFSIAKDOEKFEVIKNDMELFVTFTKNLNGFKKFLETPLINEN KKIKVVKDVFSKILNSTTLNFISILINKNRIMFVSNISEKYNGLVLKDKSVKLVKIACAR QLSEKQAQALSEVLKHKFKCLSVKLIFNIEPELIAGFKIFIESQVIDVSLQGELKEFEWY LTK gt GUILtheta MIAMNNKLAQPYAMAFLEFSLDAKQTLDTTIADLTQIKTILHDS
19. f gb htm unlink split 0 dnd y print GOPT An Annexe B Les scripts 98 system cat aln gb grep v CLUSTAL WN clus2mol pl mol2phy pllreadseq a p f17 gt alignment nex B 11 prepareproteinmatrix pl usr bin perl w use strict use File Basename use Bio AlignIO headi NAME prepareproteinmatrix pl create a protein matrix from aligned protein files headi SYNOPSIS prepareproteinmatrix pl nogblocks aln headi DESCRIPTION prepareproteinmatrix pl takes as input alignments in clustal format and filters them with Gblocks The filtered alignments are concatenated to alignment ptn in MOLPHY format It also produces a file called Goptns txt which contains the length of each filtered alignment for use in codeml headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt cut if CARGV 0 1 system perldoc 0 exit my gblocks 1 Annexe B Les scripts 99 if ARGV O eq nogblocks gblocks 0 shift open GOPT gt Goptns txt print GOPT G scalar CARGV while my f shift amp filter f gblocks system cat aln gb grep v CLUSTAL N clus2mol pl gt alignment ptn print GOPT An sub filter my f gblocks _ my name ext split N basename f if gblocks 1 1 my ini Bio AlignI0 gt new file gt f format gt clustalw y my outi Bio AlignI0 gt new file g
20. gt 0 i my tpl split line print tpl n line lt TPL gt print STDERR i n C 3 codonalign pl Align a coding sequence using a protein alignment as reference SYNOPSIS codonalign pl aln dir tfa DESCRIPTION codonalign pl aligns each Fasta file using the corresponding clustalw aln file in aln dir as reference In the output alignment in Fasta format each amino acid is replaced by the corres ponding three nucleotides from the coding sequence and each gap is replaced by three gaps The output files have the same name as the input files but with the dna aln extension They are put in the current directory Annexe C Manuel d utilisation 111 CAVEATS The coding sequence file and alignment file must contain exactly the same sequences in the same order There is no verification that the sequences really correspond A file having the same name as an output file will be overwritten AUTHOR Based on align on codons pl from Bioperl and modified heavily by Jules Gagnon eonweGusers sourceforge net C 4 filterselex pl Keep only the desired sequence from a Selex file SYNOPSYS filterselex pl ORG list path to selex DESCRIPTION filterselex pl takes a file containing the list of the desired organisms to be kept and a list of Selex files to be filtered It outputs a Fasta file for each Selex file in the current directory and the Selex files are unmodified The Fasta files a
21. sition De plus il peut regrouper des r sultats qui sont courte distance les uns des autres de fagon obtenir un meilleur score Il offre aussi plusieurs formats de sortie qui peuvent faciliter soit l analyse informatique soit l interpr tation visuelle 2 1 6 clustalw et t coffee clustalw 19 et t_ coffee 20 sont deux outils d alignement multiple clustalw utilise un algorithme d alignement global alors que t_ coffee utilise la fois l algorithme d ali gnement global de clustalw et un algorithme d alignement local Il utilise l information provenant des deux algorithmes pour produire des alignements qui sont souvent de meilleure qualit mais cela au prix d une ex cution plus lente Les deux outils pro c dent en d terminant d abord un arbre phylog n tique bas sur l homologie entre les s quences et ensuite ils alignent successivement les s quences les plus proches en pro c dant de facon hi rarchique une paire la fois 2 1 7 Readseq Quelques scripts utilisent l utilitaire readseq 21 pour effectuer des conversions de formats de fichier Cet utilitaire permet de lire et crire des fichiers de s quences de diff rents formats de fichiers de s quences Il est capable de d tecter automatiquement le format du fichier lu et supporte plus de formats de sortie que les modules de Bioperl n en supportent actuellement 2 1 8 EMBOSS EMBOSS 22 est un ensemble de logiciels gratuits pour l analyse de s quence L utili tai
22. t choisis Pour les streptophytes Marchantia polymorpha Pinus thunbergii et Nicotiana tabacum Pour les chlorophytes Nephroselmis olivacea Chlorella vulgaris et Pedinomonas minor Le groupe de r f rence outgroup qui a t choisi est Cyanophora paradoza une algue faisant partie des glaucocystophytes Les caract ristiques des cyanelles des glaucocys tophytes sugg rent qu elles sont des chloroplastes primitifs ayant une association moins d velopp e avec la cellule h te 28 Pour proc der une analyse il faut d abord pr parer une liste de leurs identifiants Dans ce cas ci le fichier couramment nomm Taxa contiendra CYANparad MESOvirid NEPHoliva CHLOvulga PEDIminor MARCpolym PINUthunb NICOtabac Chapitre 3 R sultats 50 Ensuite il faut utiliser filtertfa pl avec cette liste d organismes pour filtrer les don n es de s quences prot iques Puisque les chercheurs utilisant ces outils travaillent prin cipalement sous Mac OS X les exemples de commandes feront r f rence l emplace ment de la base de donn es sous Mac OS X Donc filtertfa pl sera ex cut avec la commande filtertfa pl Taxa Users Shared db prot seq cp tfa Cela pro duira un r pertoire nomm filtered contenant 54 fichiers Annexe D 2 contenant uniquement les s quences des prot ines communes aux huit organismes contenus dans le fichier Taxa Ces s quences doivent ensuite tre align es avec l aide de align pl Il suffit d ex c
23. 0RGlist b retval Annexe C Manuel d utilisation C 1 addexons pl Produce Selex files SYNOPSIS addexons pl file fasta path to loc DESCRIPTION addexons pl takes as first argument a Fasta file containing the aligned sequences coding for a given protein and as second argument a directory containing a file of the same name with the loc extension which contains the lengths of the exons for each organism that features introns in this protein It outputs in the current directory a file containing the aligned sequences in Selex format with the intron positions marked by gt lt Annexe C Manuel d utilisation 109 AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 2 choosetpl pl Select topologies from protml output SYNOPSIS choosetpl pl file tpl file ml DESCRIPTION choosetpl pl parses the output of protml and selects the trees that have a non null bootstrap value Those trees are printed to the standard output and the number of trees selected is printed to STDERR AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt cut use strict QARGV gt 2 die Usage choosetpl pl file tpl file mI Wn open TPL shift open ML shift Annexe C Manuel d utilisation 110 my line my i while lt ML gt last if 60 TPL while lt TPL gt if 1 V line _ last while ML chomp my Qml split if ml 8
24. 11 sur le serveur du NCBI 12 1 4 Analyses phylog n tiques Un des objectifs des recherches effectu es dans mon laboratoire d accueil est de d terminer les relations phylog n tiques entre les diff rentes algues tudi es Principa lement le but est d identifier les organismes les plus proches des organismes ancestraux tant l origine des diff rentes familles d organismes photosynth tiques par exemple les algues rouges et les plantes terrestres et de d terminer l ordre de branchement des diff rentes familles d algues Les s quences des g nomes chloroplastiques et mitochondriaux sont utilis es pour effectuer les analyses phylog n tiques n cessaires ces recherches Les g nomes d orga nites comparativement aux g nomes nucl aires ont l avantage d tre plus petits donc s quencable plus rapidement et moindre co t De plus ils voluent plus lentement et sont plus stables Cela permet de r soudre des phylog nies faisant intervenir des divergences tr s anciennes Actuellement les algues vertes sont les principaux sujets d tude Elles se divisent en deux grandes classes les chlorophytes et les streptophytes Ces derniers incluent en plus de certaines algues toutes les plantes terrestres Chapitre 1 Introduction 19 Avant d effectuer une analyse phylog n tique les g nes doivent avoir t identifi s Une fois l identification des g nes effectu e leurs s quences sont utilis es pour d termi
25. 218 xx over 3 approx 1n L 95085 9 96324 5 diff 1238 7 TBL 110 1 114 6 diff 4 5 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 0 0 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac PINUthunb MARCpolym 95 2 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym MESOvirid 108 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym 173 CYANparad MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga 204 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 225 CYANparad PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid 231 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid PEDIminor CHLOvulga 252 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga MESOvirid 267 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid PEDIminor CHLOvulga 334 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym 341 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 349 CYANparad NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga 358 CYANparad PEDIminor CHLOvulga
26. 7 ENV DBHOME Users Shared db Annexe B Les scripts 86 calcul de la taille minimum des orf my min defined ARGV 2 ARGV 2 28 definition des executables my blastx blastall p blastx my blastn blastall p blastn my blastp blastall p blastp my mspcrunch MSPcrunch x parsing du nom de fichier my fname basename ARGV O my name ext split fname my organism organelle split name organelle ARGV 1 unless organelle organelle substr organelle 0 2 organelle eq cp organelle eq mt die Incorrect sequence name n creation des repertoires de sortie mkdir organism seq 0755 mkdir organism _trans 0755 mkdir organism identified 0755 creation du repertoire temporaire pour tout le script my tempdir tmp mkdir tempdir 0755 les variables globales my Corf_loc tableau de references vers les orf presents sur chaque ligne fichier de resultats open OUTPUT gt organism xls produit un fichier Fasta avec tous les orf system getorf table 11 minsize 84 nomethionine find 3 ARGV O tempdir ARGV 0 orf my in Bio SeqI0 new file gt tempdir ARGV O orf format gt Fasta traite chaque orf while my seq in gt next_seq longueur de la proteine Annexe B Les scripts 8T my 1en s
27. F mspcrunch blastn d DBHOME rna i tempdir start F F mspcrunch 5 suppression du fichier pour la recherche unlink tempdir start filtration des resultats my Ogrepped if organelle eq mt Cgrepped grep chloroplast msp if organelle eq cp Cgrepped grep mitochondrion msp chomp Ogrepped choix du meilleur score pour chaque gene my score foreach my line grepped line d d d d d lw score 2 1 if defined score 2 score 2 1 ligne d output my oline start x B 7 9 72 Je my col 1 foreach my gene sort score b lt gt score a keys score oline col gene score gene col sortie des resultats BLAST print OUTPUT join Nt Coline Hsortie des orf print OUTPUT join Nt orf loc start 1 100 if defined orf loc start 1 100 Annexe B Les scripts print OUTPUT An passons au bloque de 100 pb suivant start 100 suppression du repertoire temporaire rmdir tempdir petite procedure pour ecrire un fichier Fasta sub write fasta my fname id desc seq 0 my bioseq Bio PrimarySeq gt new seq gt seq id gt id desc gt desc 33 my out Bio SegIU gt new file gt gt gt fname format gt Fasta 24 out write seq bioseq
28. GE Gos dau 22 0 ClustalW A CFE dens 220 GE lam O O ehee NR A EE EASE KA 3 R sultats 3 1 3 2 3 3 IIo c s snr a s pe 6 4 BS eye Cae WA Das ae dd wg da pa DAI addex ns Pl 2 23 24 seraa ertme ma d o m a da de d 12 Bina eue Ub RE A pE as A e e X eu ALO Cho setpl pl 2 2 2253 3 9E Re dai Jl lt codonchenpl 4 4 u3444 u4 dm Hee E EB e dla Bier au aun ma koe a das RA a TT Boo GE 6 Y RF e e NN FANNY FEE a o A as ds Gok RE NY i douanes a des de Sas formatdb sh T 319 gbkedracipl corr SE eo O FU EOS E hoe rea edes SI peeparted smbEDOD pesats Dons sa ELEC es d a 3 1 11 prepareproteinmatrix pl 21 12 prepsequi pl rosita ehh Ron m EE hop mmm se ei pM Wl rc hw w se pels ee EWA ra ds MR SK 3 1 14 updatealign pl a aaa A La base de donn es 2 22222 cmm Rx ERR ERO 3 2 1 La mise AP Les analyses phylog n tiques 3 3 1 tapes communes 3 3 2 Analyse de s quences prot iques 3 3 3 Analyse de s quences codantes 4 Discussion Bibliographie A Exemples de fichiers A 1 A A 3 AA A 5 A 6 B Les Genbank 3d aux 2 dcm Kok Sow kom S ew gla gat dI Longueur exis CET liste d organismes ang eco dara das rada eR W Ka Cl stalW co sor ada rs ed dead wd EF AAA scripts 11 26 26 26 21 27 28 28 28 31 31 31 32 32 32 33 33 33 34 34 34 35 35 35 43 40 90 92 60
29. MARCpolym PINUthunb 1030 CYANparad MESOvirid NEPHoliva CHLOvulga PEDIminor NICOtabac MARCpolym PINUthunb 1035 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym CHLOvulga PEDIminor MESOvirid 1038 CYANparad MESOvirid PEDIminor NEPHoliva CHLOvulga NICOtabac PINUthunb MARCpolym 1042 CYANparad MESOvirid NEPHoliva PEDIminor NICOtabac PINUthunb MARCpolym CHLOvulga 1054 CYANparad NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga 1057 CYANparad CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid PEDIminor 1060 CYANparad MESOvirid CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym PEDIminor 1068 CYANparad NEPHoliva MESOvirid CHLOvulga PEDIminor NICOtabac PINUthunb MARCpolym 1068 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid PEDIminor CHLOvulga 1069 CYANparad PEDIminor NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid CHLOvulga 1070 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 1072 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym MESOvirid CHLOvulga PEDIminor 1074 CYANparad NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym CHLOvulga PEDIminor 1090 CYANparad NEPHoliva CHLOvulga MESOvirid PEDIminor NICOtabac PINUthunb
30. automatiquement les recherches d homologies et identifier les g nes d un g nome nouvellement s quenc d velopper des outils pour pr parer les donn es pour effectuer des analyses phy log n tiques s assurer du bon fonctionnement des outils en r p tant une analyse dont les r sultats ont t publi s documenter les outils de fagon les rendre utilisable par les autres membres du laboratoire Chapitre 2 Mat riel et m thodes 2 1 D pendences Dans le cadre de ce projet la grande majorit des outils ont t d velopp s sous forme de scripts Perl et certains sous forme de scripts shell Ils sont appel s scripts car ils se pr sentent sous forme de fichiers textes lisibles et modifiables directement par un d veloppeur Contrairement aux logiciels compil s ils peuvent tre ex cut s directement par l interpr teur sans qu il soit n cessaire d effectuer pr alablement une compilation Comme tout programme informatique les scripts con us dans le cadre de ce projet ne fonctionnent correctement que si certaines conditions d pendences logicielles et mat rielles sont remplies 2 1 1 Syst me d exploitation Tous les scripts ont t test s et sont fonctionnels sur le syst me Mac OS X 2 13 et Redhat Linux 9 14 Les machines utilis es sont respectivement un Dual G4 1 25 Ghz et un Pentium III 1 0 Ghz Les scripts devraient tre fonctionnels sans modifica tions majeures sur la plupart des syst
31. dans PAUP pour effectuer diff rentes analyses Pour les analyses utilisant le maximum likelihood il existe modeltest qui est un script PAUP testant successivement plusieurs mod les avec diff rentes complexit s Les r sultats de PAUP peuvent ensuite tre utilis s pour d terminer le mod le qui convient le mieux aux donn es Pour l ensemble de donn es discut pr c demment le mod le le plus complexe est s lectionn il s agit du mod le GTR general time reversible avec invariants et distribution gamma Contrairement aux mod les de substitution des acides amin s les mod les d volution de nucl otides sont d finis de fa on empirique Le programme PAUP peut faire l optimisation de tous les param tres incluant les probabilit s de substitution de chaque nucl otide pour un autre Ce type d optimisation est long et serait impensable pour les acides amin s d au plus grand nombre d tats possibles Il est galement possible de convertir la matrice de s quence au format PHYLIP l aide de readseq pour l utiliser avec les programmes de PAML si des analyses plus sp cifiques sont d sir es Le script preparednamatrix pl produit lui aussi un fichier conte nant les longueurs des s quences conserv es par Gblocks qui peuvent tre utilis es dans PAML avec certains modeles Chapitre 4 Discussion Ce projet a permis le d veloppement d une base de donn es compl te des g nes de tous les g nomes mitochondriaux et chloro
32. est un langage optimis pour le traitement de fichiers textes l extraction d information depuis ces fichiers et l impression de r sultats partir de ces informations C est aussi un bon langage pour les t ches de gestion de syst me Il a comme objectif d tre pratique facile d usage efficace complet plut t que beau petit l gant minimal De plus puisque l interpr teur Perl se charge de la compilation du code au moment de l ex cution le d veloppement du code est de beau coup acc l r et la perte d efficacit est tr s faible malgr l utilisation d un langage de script De plus son apprentissage peut tre beaucoup plus progressif que plusieurs autres langages qui demandent d avoir une connaissance beaucoup plus compl te du langage avant de pouvoir l utiliser Ainsi il est facilement possible de commencer l utiliser en ne connaissant qu une petite partie de toutes ses possibilit s C est l ensemble de ces caract ristiques qui font que c est un langage tr s populaire en bioinformatique et qu il a t choisi pour r aliser ce projet Les scripts sont fonctionnels avec les versions perl 5 6 x et 5 8 x et ils devraient tre utilisables avec toutes les versions perl 5 plus r centes Certains modules Perl sont aussi n cessaires File Basename est utilis dans certains cas pour faciliter le traitement des noms de fichiers et Getopt Long sert interpr ter les options de la ligne de commande Tous les autres modules
33. la documentation du code sous forme de commentaires qui est souvent inconstante entre les scripts et difficile de compr hension pour un nouveau programmeur Cependant findorf pl et gbkextract pl les deux scripts les plus complexes sont document s en d tail Chapitre 4 Discussion 62 Un point qui a t un peu n glig est la gestion des erreurs Dans certains cas les modules de Bioperl affichent des messages d erreur Certains de ces messages sont sans cons quences mais d autres sont essentiels pour identifier et r soudre le probl me qui cause cette erreur Dans tous les cas ces erreurs peuvent porter confusion et sont difficiles comprendre Certains scripts incluent des mesures pour pr venir ces erreurs Cependant il serait utile d ajouter une meilleure gestion des erreurs et d afficher des messages plus facilement compr hensibles Cette t che n est pas n gligeable puisqu un grand nombre d erreurs diff rentes peuvent survenir Dans le m me ordre d id e il serait utile d avoir un outil qui s assure du synchronisme entre les diff rents r pertoires de la base de donn es et les fichiers Genbank des g nomes mais cela est complexe d au manque de standardisation dans les annotations Les scripts pourraient tre am lior s en les rendant utilisables sur la plateforme Windows et en facilitant leur installation sur les diff rentes plateformes d j support es Cependant la direction qui semble la plus avantageuse
34. mes de type UNIX sur lesquels perl est dispo nible Cependant il est n cessaire d indiquer l aide de la variable d environnement DBHOME l emplacement des fichiers de donn es Si la variable n est pas d finie l empla cement utilis sera Users Shared db c est dire l emplacement actuellement utilis sous Mac OS X Sous Linux l emplacement utilis est home db Il est donc n cessaire de d finir DBHOME en ex cutant export DBHOME home db sous shell compatible sh ou setenv DBHOME home db sous un shell compatible csh Ces commandes peuvent tre Chapitre 2 Mat riel et m thodes 22 plac es dans les fichiers etc bashrc ou etc cshrc si l on veut viter d avoir les ex cuter dans chaque nouveau shell Cependant plusieurs scripts n utilisent pas la base de donn es donc ils n ont pas besoin de conna tre son emplacement Les scripts n ont pas t adapt s pour fonctionner sous l environnement Microsoft Windows 15 bien que les modifications effectuer seraient probablement mineures La principale source de probl me se situe au niveau des noms de fichiers et de r pertoires qui ont un format l g rement diff rent sous l environnement Windows Puisque Perl et Bioperl sont disponibles sous Windows il devrait tre relativement facile de rendre les scripts utilisables dans Windows 2 1 2 Perl Tous les outils cr s dans le cadre de ce projet sont cod s en Perl 16 Practical Extraction and Report Language Perl
35. nibles Tout au long de l ann e plusieurs projets de s quencage sont en cours en simul tan Ainsi de nouveaux g nomes sont r guli rement compl t s l int rieur du labora toire En plus d autres groupes rendent disponibles les r sultats de leurs recherches ce qui augmente le nombre de g nomes disponibles pour l tude Chapitre 1 Introduction 4 1 2 1 Origine des chloroplastes et des mitochondries Les chloroplastes et les mitochondries sont des organites qui ont une origine endo symbiotigue 6 Ils sont d riv s de bact ries gui vivaient autrefois de fa on ind pendante et font maintenant partie int grante des cellules eucaryotiques Ces deux organites ont tout de m me conserv une ind pendance partielle Ils se multiplient ind pendamment de la cellule et ils ont encore un vestige de leur g nome originel qui bien que r duit est toujours fonctionnel Les chloroplastes sont pr sents uniquement chez les eucaryotes photosynth tiques incluant les plantes les algues et les protozoaires photosynth tiques Les bact ries qui seraient leur origine sont les cyanobact ries et le repr sentant le plus rapproch dont le g nome a t s quenc est Synechosystis PCC 6803 Les mitochondries sont responsables de la respiration cellulaire et elles provien draient d une alpha prot obact rie 7 similaire Rickettsia Elles sont pr sentes chez pratiquement tous les organismes eucaryotiques 1 2 2 Caract ristiques d
36. orf len letter start end output de la sequence traduite write_fasta organism _trans orf len letter tfa seq gt id seq gt desc seq gt translate gt seq ajout de l orf dans le tableau pour lignes ou il est present my f1 11 compl int end 100 int start 100 int start 100 int end 100 if orf foreach my pos f1 11 push f orf loc pos orf suppression du fichier ayant servi pour la recherche unlink tempdir orf len letter tfa suppression du fichier produit par getorf unlink tempdir ARGV 0 orf my start 1 position dans la sequence filtration des caracteres indesirables open INPUT cat my in2 my completeseq ARGV O Itr da tr da 1 Bio SeqI0 new fh gt INPUT format gt fasta in2 next seq boucle pour chaque 100 nucleotides while start lt completeseg gt length 1 my end completeseg gt length start gt 100 7 start 99 completeseq gt length fichier temporaire pour la recherche Annexe B Les scripts 89 open OUT gt tempdir start print OUT gt start n completeseg gt subseg start end An close OUT output a tous les 1000 bps if substr start 3 3 eq 001 print STDERR start recherche BLAST my msp blastx d DBHOME proteines i tempdir start F
37. pour inclure une ligne de description plus compl te de chaque s quence et pour appeler l outil formatdb de BLAST qui formate les bases de donn es au format exig par BLAST Deux bases de donn es BLAST sont produites une contenant les s quences de prot ines et une contenant les s quences des ARN Ces bases de donn es seront r utilis es par la suite par findorf pl lorsque de nouveaux g nomes auront t s quenc s Plus la base de donn es contient d organismes diff rents plus il est facile d identifier les g nes homologues dans les nouveaux g nomes De plus le fait d avoir une base de donn es locale contenant uniquement des s quences d organites permet aux recherches BLAST d tre beaucoup plus rapides et de donner des r sultats plus sp cifiques aux besoins du laboratoire En plus de findorf pl des recherches BLAST sont aussi effectu es durant l tape du s quencage pour identifier la source et le contenu en g ne des s quences individuelles et guider le choix des s quences faire par la suite 3 3 Les analyses phylog n tiques Il est maintenant possible d obtenir les s quences de g nomes d organites complets dans un d lai suffisamment court pour rendre possible leur utilisation des fins phy log n tiques Maintenant la pratique courante dans le laboratoire est d utiliser toutes les prot ines communes entre diff rents organismes pour d terminer leur relation phy log n tique plut t que d utiliser seulemen
38. que l annotation soit suffisamment compl te pour produire un fichier Genbank utilisable par gbkextract pl Mise jour des alignements Selex Les alignements de s quences codantes sont une des rares parties de la base de donn es qui peut tre g n r e de fa on automatis e Cependant la fois les s quences prot iques les s quences codantes et les longueurs d exon doivent avoir t mises jour avant de proc der cette tape D abord les s quences prot iques doivent tre align es Le script align pl permet d effectuer automatiquement l alignement pour plusieurs fichiers en utilisant le pro gramme t coffee Ensuite updatealign pl utilise les alignements de prot ines pour ali gner les s quences codantes en utilisant codonalign pl Puis il appelle addexons pl pour convertir les alignements au format Selex et ajouter les informations concernant les exons Chapitre 3 R sultats 43 Il est possible que des messages d erreur soient produits et cela indique que certaines s quences ne correspondent pas exactement entre les diff rents r pertoires Il faut alors d terminer la source de l erreur et la corriger pour obtenir un alignement complet Mise jour des bases de donn es BLAST Lorsque les s quences de prot ines et d ARN sont jour il est possible de mettre jour la base de donn es de recherche BLAST Cela se fait en ex cutant un simple script shell formatdb sh qui ex cute les commandes n cessaires
39. quenc qui ont des homologies avec les g nes pr sents dans la base de donn es Il permet aussi d identifier les s quences codant pour des prot ines en cherchant les prot ines les plus homologues avec chacun des cadres de lecture ouverts Chapitre 4 Discussion 61 trouv s par l utilitaire getorf d EMBOSS prepsequin pl permet d automatiser en partie le processus d annotation d un nouveau g nome Des outils ont t cr s qui permettent d utiliser la base de donn es pour effec tuer la pr paration des donn es en vue d une analyse phylog n tique Ces outils s uti lisent en suivant une proc dure bien d finie qui ne demande pas de d cisions sub jectives filtertfa pl et filterselex pl servent extraire les s quences n cessaires alors que align pl automatise l alignement de ces s quences preparednamatrix pl et prepare proteinmatrix pl automatisent l ex cution de Gblocks pour la filtration et se chargent des diff rentes conversions de format n cessaire la pr paration des donn es pour effec tuer des analyses phylog n tiques choosetpl pl permet de s lectionner rapidement les topologies pour des analyses plus pouss es Les r sultats des analyses phylog n tiques utilisant les donn es pr par es par ces outils sont conformes aux r sultats obtenus auparavant Les m mes topologies sont trouv es avec des valeurs de likelihood qui d terminent la m me meilleure topologie que les r sultats publi s De plus il
40. utilis s font partie de la librairie Bioperl File Basename est inclus dans l installation r guli re de perl mais Getopt Long doit tre install s par ment Sous environnement Unix une fa on simple de l installer est d utiliser le module CPAN en lancant la commande perl MCPAN e install Getopt Long Chapitre 2 Mat riel et m thodes 23 2 1 3 Bioperl Bioperl 17 est une collection de plusieurs centaines de modules Perl destin s la bio informatique Les modules de Bioperl sont crits en style orient objet Ainsi plusieurs modules d pendent les uns des autres pour accomplir la t che qui leur est demand e Cependant il n est pas n cessaire de tr s bien conna tre la programmation orient e objet pour pouvoir les utiliser Les principaux modules qui sont utilis s dans ce projet sont SeqIO Seq et AlignIO Bien s r ces modules rendent disponibles des m thodes provenant de plusieurs autres modules qui ont aussi t utilis s l occasion Le module SeqIO est celui qui permet de lire et crire des fichiers dans diff rents formats sans avoir se soucier des sp cifications exactes du format Peu importe le format initial SeqlO retourne toujours un objet de type Seq et cet objet peut tre crit dans n importe lequel des formats support s par SegIO De plus les m thodes pour effectuer des traitements sur ces objets Seq sont les m mes peu importe la source AlignIO est l quivalent pour le traitement des f
41. 00 34 95436 7 703 1 58 4 32 190937 4 1406 2 3 0 0 0000 35 95439 3 705 7 63 7 32 190942 6 1411 3 3 3 0 0000 36 95429 1 695 5 58 8 32 190922 3 1391 1 2 9 0 0000 37 95437 0 703 4 63 8 32 190938 0 1406 8 3 2 0 0000 38 95413 2 679 6 58 9 32 190890 3 1359 1 2 9 0 0000 39 95408 7 675 1 59 3 32 190881 3 1350 1 2 8 0 0000 40 95514 2 780 6 63 2 32 191092 5 1561 2 3 9 0 0000 41 95514 4 780 8 63 3 32 191092 8 1561 6 3 8 0 0000 42 95473 0 739 4 62 4 32 191010 1 1478 8 3 7 0 0000 43 95440 2 706 6 63 0 32 190944 3 1413 1 3 1 0 0000 44 95478 4 744 8 62 2 32 191020 7 1489 5 3 7 0 0000 45 95439 0 705 4 63 0 32 190942 1 1410 8 3 0 0 0000 46 95418 8 685 2 64 6 32 190901 6 1370 4 3 2 0 0000 47 95416 8 683 2 64 7 32 190897 5 1366 3 3 1 0 0000 48 95405 2 671 6 64 7 32 190874 4 1343 2 3 0 0 0000 49 95410 8 677 2 64 5 32 190885 6 1354 4 3 1 0 0000 50 95426 2 692 6 66 4 32 190916 4 1385 1 3 2 0 0000 51 95426 3 692 7 66 3 32 190916 6 1385 3 3 1 0 0000 52 95616 2 882 6 76 1 32 191296 4 1765 2 3 8 0 0000 53 95623 1 889 5 76 0 32 191310 2 1778 9 3 9 0 0000 54 95642 3 908 7 70 2 32 191348 6 1817 4 3 8 0 0000 55 95743 4 1009 7 82 0 32 191550 7 2019 5 4 6 0 0000 56 95820 1 1086 5 76 6 32 191704 1 2172 9 4 8 0 0000 57 95751 9 1018 3 67 8 32 191567 8 2036 5 4 3 0 0000 58 95809 1 1075 5 75 6 32 191682 2 2151 0 4 9 0 0000 59 95614 9 881 3 71 6 32 191293 8 1762 6 3 4 0 0000 60 95752 3 1018 7 81 7 32 191568 7 2037 5 4 7 0 0000 61 95
42. 31 La matrice mtREV24 est incluse dans protml mais pas cpREV45 Une version modifi e de protml a donc t cr e par le remplacement dans le code source de la matrice mtREV24 par la matrice cpREV45 Cette version est nomm e protmlcp Il est n cessaire de comparer les valeurs de likelihood obtenus avec diff rents mod les pour s lectionner celui qui correspond le mieux aux donn es utilis es Pour nos donn es il s agit de cpREV45 On ex cutera donc la commande protmlcp mfe alignment ptn gt alignment tpl o alignment ptn est le fichier produit par prepareproteinmatrix pl Une fois l ex cution termin e alignment tpl Annexe D 4 contiendra la liste des 105 meilleures topologies trouv es par protml Chacune de ces topologies doit ensuite tre valu e de fagon exacte en ex cutant protmlcp mf alignment ptn alignment tpl alignment ml Cela calculera la valeur de likelihood et la valeur de RELL bootstrap de chaque topologie Annexe D 5 Cette valeur de RELL bootstrap 32 permet d obtenir une indication de la confiance en une topologie bas e sur la constance des donn es Plus la valeur de likelihood est lev e meilleure est la correspondance de l arbre aux donn es Pour les analyses subs quentes seules les topologies ayant une valeur RELL boots trap non nulle sont conserv es Pour les s lectionner choosetpl pl est utilis La com mande ex cuter est choosetpl pl alignment tpl alignment ml gt
43. 40 partir d un fichier Genbank La premi re tape consiste ex cuter gbkextract pl avec comme premier param tre le fichier Genbank et comme deuxi me param tre l identifiant que l on d sire donner au nouvel organisme Il produira alors dans le r pertoire courant six r pertoires RNA prot cDNA gene exon et intron Les r pertoires gene et intron ne sont pas utilis actuellement dans la base de donn es Les quatre autres correspondent directement ce qui devrait tre ajout dans les r pertoires de la base de donn es Lorsqu il s agit d ajouter un nouveau g nome produit l int rieur du laboratoire et que quelqu un a d j pr par le fichier Genbank correspondant il est tr s simple de l ajouter la base de donn es On suppose alors que le fichier ne comporte aucune erreur Il suffit avant d ex cuter gbkextract pl de cr er les r pertoires RNA prot cDNA et exon et de placer l int rieur les fichiers de la base de donn es Une fois que gbkextract pl aura t ex cut les informations provenant du nouveau g nome auront t ajout es la fin des fichiers correspondants Si l op ration s est bien d roul e il suffit alors de remplacer les fichiers de la base de donn es par les fichiers mis jour Cette m thode pourrait tre utilis e pour r g n rer compl tement la base de donn es si tous les fichiers Genbank taient disponibles avec une annotation standardis e et sans erreur Il suffirait
44. 722 8 989 2 83 3 32 191509 5 1978 3 4 4 0 0000 62 95916 6 1083 0 80 6 32 191697 2 2166 0 4 8 0 0000 63 95728 7 995 1 83 2 32 191521 4 1990 2 4 5 0 0000 64 95744 3 1010 7 68 4 32 191552 6 2021 4 4 1 0 0000 65 95792 6 1059 0 70 0 32 191649 2 2118 0 4 7 0 0000 66 95806 3 1072 7 67 9 32 191676 7 2145 5 4 6 0 0000 67 95774 4 1040 8 71 2 32 191612 8 2081 6 4 2 0 0000 68 95802 3 1068 7 68 0 32 191668 5 2137 3 4 5 0 0000 69 95804 1 1070 5 68 1 32 191672 3 2141 0 4 5 0 0000 70 95800 9 1067 3 68 1 32 191665 8 2134 6 4 4 0 0000 71 95788 7 1055 1 81 9 32 191641 4 2110 2 4 4 0 0000 Annexe D R sultats d analyses 123 72 95790 9 1057 3 70 7 32 191645 8 2114 6 4 4 0 0000 73 95745 3 1011 7 72 1 32 191554 6 2023 4 4 1 0 0000 74 95776 1 1042 5 81 9 32 191616 3 2085 0 4 5 0 0000 75 95868 7 1135 1 77 0 32 191801 4 2270 2 5 1 0 0000 76 95863 6 1130 0 70 9 32 191791 2 2260 0 5 1 0 0000 77 95851 9 1118 3 78 6 32 191767 8 2236 6 4 6 0 0000 78 95802 4 1068 8 74 8 32 191668 7 2137 5 4 5 0 0000 79 95865 1 1131 5 77 3 32 191794 2 2263 0 5 2 0 0000 80 95846 6 1112 9 79 1 32 191757 1 2225 9 4 5 0 0000 81 95804 8 1071 2 74 5 32 191673 6 2142 4 4 6 0 0000 82 95751 0 1017 4 83 1 32 191566 0 2034 8 4 2 0 0000 83 95929 7 1196 1 78 6 32 191923 5 2392 3 5 0 0 0000 84 95924 4 1190 8 78 1 32 191912 7 2381 5 5 3 0 0000 85 95830 1 1096 5 72 4 32 191724 2 2193 0 4 7 0 0000 86 95936 1 1202 5 78 4 32 191936 1 2404 9 5 4 0 0000 87 95937 8
45. 932 6 199 0 47 0 32 189929 2 398 0 0 9 0 0000 8 94988 8 255 2 43 2 32 190041 5 510 3 1 3 0 0000 9 94994 8 261 2 47 2 32 190053 7 522 4 1 3 0 0000 10 95078 9 345 3 46 0 32 190221 8 690 5 2 0 0 0000 11 95058 3 324 7 45 0 32 190180 6 649 4 2 0 0 0000 12 94997 0 263 4 46 5 32 190058 0 526 8 1 2 0 0000 13 94969 9 236 3 48 8 32 190003 8 472 6 1 2 0 0000 14 94991 6 258 0 48 3 32 190047 1 515 9 1 4 0 0000 15 94985 7 252 1 50 7 32 190035 4 504 2 1 3 0 0000 16 95168 0 434 4 43 2 32 190400 1 868 9 1 8 0 0000 AT 95167 8 434 2 43 2 32 190399 6 868 4 1 8 0 0000 18 95234 4 500 8 49 9 32 190532 9 1001 7 2 2 0 0000 19 95231 0 497 4 50 1 32 190525 9 994 7 2 1 0 0000 20 95225 0 491 4 50 4 32 190514 1 982 9 2 2 0 0000 21 95222 4 488 8 50 4 32 190508 8 977 6 2 1 0 0000 22 95361 6 628 0 52 5 32 190787 3 1256 1 2 6 0 0000 23 95356 7 623 0 52 7 32 190777 3 1246 1 2 5 0 0000 24 95346 1 612 5 53 6 32 190756 2 1225 0 2 8 0 0000 25 95352 5 618 9 53 4 32 190769 0 1237 7 2 8 0 0000 26 95312 0 578 3 55 9 32 190687 9 1156 7 2 5 0 0000 27 95313 8 580 2 56 0 32 190691 6 1160 4 2 5 0 0000 28 95460 9 727 3 62 4 32 190985 8 1454 6 3 4 0 0000 29 95363 3 629 7 63 8 32 190790 7 1259 5 2 8 0 0000 30 95460 2 726 5 62 4 32 190984 3 1453 1 3 3 0 0000 31 95362 9 629 3 63 7 32 190789 9 1258 7 2 7 0 0000 Annexe D R sultats d analyses 122 32 95427 0 693 4 61 0 32 190918 0 1386 8 3 3 0 0000 33 95426 5 692 9 60 9 32 190917 0 1385 7 3 2 0 00
46. B 8 formatdb sh it bin bash DB PATH Users Shared db PAST pwd cd DB_PATH mv prot_db tfa prot_db bak ls 1 prot_seq cp tfalxargs n1 tfa2long sh chloroplast gt prot_db tfa ls 1 prot seq mt tfa xargs n1 tfa2long sh mitochondrion gt gt prot_db tfa formatdb t proteines i prot db tfa p T n proteines V T Annexe B Les scripts 91 mv rna db tfa rna db bak ls 1 RNA seq cp tfa xargs n1 tfa2long sh chloroplast rna db tfa Enlever le diese de la ligne suivante lorsque les RNAs mitochondriaux seront etiquetes avec des noms courts ls 1 RNA seq mt tfa xargs n1 tfa2long sh mitochondrion gt gt rna_db tfa Enlever la ligne suivante lorsque les RNAs mitochondriaux seront etiquetes avec des noms courts cat RNA seq mt tfa gt gt rna db tfa cat Vectors gt gt rna db tfa formatdb t rna i rna db tfa p F n rna V T cd PAST B 9 gbkextract pl usr bin perl w headi NAME gbkextract pl extract features from a Genbank file headi SYNOPSIS gbkextract pl file gbk headi DESCRIPTION gbkextract pl creates six directories over item RNA which contains tRNA and rRNA sequences item prot which contains protein sequence for each CDS item Annexe B Les scripts 92 cDNA which contains gene coding sequences excluding introns item gene which contains gene sequences including introns item exon which contains lengths of exons usable by addexons
47. BI Chapitre 1 Introduction NC 001810 NC 001799 C 000995 Pyemocows prosovali 68 9 Z Z z x a C 001713 NC 000926 B a NC_001675 NC 001603 NC 000927 B 5 a a NC 001865 B B B B a ajaja B IS ajaja a B a BK000554 NC 002186 NC 004115 B B a a NC 004543 NC 001319 NC 005087 NC 003386 NC 004766 NC 001631 NC 005086 NC 004993 NC 001879 NC 000932 NC 001666 i i i Chapitre 1 Introduction T Tableau 1 2 Les g nes chloroplastiques Liste des g nes chloroplastiques pr sents dans la base de donn es construite dans le cadre ce projet en date du 9 d cembre 2003 group s selon leurs produits ou leurs fonctions Chapitre 1 Introduction 8 acch cc acc apcA apcB apcD apcE apcF gp epcB qe cped ae asd cy cyn GE gro Ac tohydroxyacide synthase iluB iluH Pyruvate d hydrogenase odpA odpB Syst me de transport mntA mntB du mangan se Pr prot ine translocase secA secY ARNt synth tase syfB syh Photosyst me I psaA psaD psaC psaD psaE psaF psal psaJ psaK psaL psaM Photosyst me II psbA psbB psbC psbD psbE psbF psbH psbl psbJ psbK psbL psbM psbN psb T psbV psbW psbX psbY psbZ Cytochrome b6 f petA petB petD petF petG petJ petL petM petN A TP synthase atpA atpD atpD atpE atpF atpG atpH atpl Biosynth se de chlB chill chlL chlN la chlorophylle Wik TT 15 NADH oxid
48. Bio AlignI0 gt new file gt gt filtered fname tfa format gt fasta newaln gt set_displayname flat out write aln newaln sub sort sub 1 my retval retval 0RGlist a lt gt 0RGlist b retval Annexe B Les scripts 85 B 7 findorf pl usr bin perl w head1 NAME findorf pl find ORFs and BLAST the genome headi SYNOPSIS findorf pl file fasta cplmt min orf len headi DESCRIPTION findorf pl uses getorf from EMBOSS to identify the open reading frames By default it uses the translation table 11 which can be modified to select initiation codons The default minimum ORF length is 28 codons but another value can specified as the third command line argument The sequences and the products of the found ORFs are put in the _seq and trans directory respectively The translated sequences are BLASTed identified and tagged appropriatly using only the matches from the specified organite in the file name or the second argument findorf pl also divides the genome in parts of 100 bp and BLASTs them keeping only the results from the specified organite Then it outputs in tab delimited format for each position by increment of 100 the result of the BLAST and the ORF found headi AUTHOR Written by Jules Gagnon lt eonwe0users sourceforge net gt cut use strict use Bio Seql0 use File Basename reglage du PATH vers les bases de donnees my DBHOME ENV DBHOME
49. JULES GAGNON Cr ation d outils pour l automatisation d analyses phylog n tiques de g nomes d organites M moire pr sent la Facult des tudes sup rieures de l Universit Laval dans le cadre du programme de ma trise sur mesure en bioinformatique pour l obtention du grade de Ma tre s sciences M Sc FACULT DES TUDES SUP RIEURES UNIVERSIT LAVAL Avril 2004 Jules Gagnon 2004 R sum Le traitement des donn es de s quencage pour les rendre utilisables dans une analyse phylog n tique est long et r p titif De plus certaines analyses plus complexes peuvent difficilement tre entreprises sans l automatisation de certaines t ches La cr ation d ou tils bioinformatiques permettrait de diminuer le temps consacr la pr paration des donn es Le but de cette recherche est de d velopper des outils informatiques permettant d automatiser le traitement de donn es provenant du s quencage d organites Pour ce faire il a t n cessaire de cr er des bases de donn es de g nes d organites des outils pour l extraction des s quences g n tiques dans diff rents formats des outils pour l identification des g nes d organismes nouvellement s quenc s des outils de pr paration des donn es pour l utilisation lors d analyses phylog n tiques Finalement le bon fonctionnement des outils a t v rifi par l ex cution d une analyse phylog n tique dont les r sultats
50. Karol R M McCourt M T Cimino and C F Delwiche The closest living relatives of land plants Science 294 2351 2353 2001 T A Helmchen D Bhattacharya and M Melkonian Analyses of ribosomal rna sequences from glaucocystophyte cyanelles provide new insights into the evolutio nary relationships of plastids J Mol Evol 41 203 210 1995 J Castresana Selection of conserved blocks from multiple alignments for their use in phylogenetic analysis Mol Biol Evol 1 540 552 2000 J Adachi and M Hasegawa MOLPHY version 2 3 programs for molecular phy logenetics based on maximum likelihood Comput Sci Monogr 28 1 150 1996 J Adachi P J Waddell W Martin and M Hasegawa Plastid genome phylogeny and a model of amino acid substitution for proteins encoded by chloroplast dna J Mol Evol 50 348 358 2000 M Hasegawa and H Kishino Accuracies of the simple methods for estimating the bootstrap probability of maximum likelihood trees Mol Biol Evol 11 142 145 1994 Annexe A Exemples de fichiers A 1 Genbank gene CDS tRNA gene gene CDS tRNA complement 18877 19155 gene rp123 complement 18877 19155 gene rp123 codon_start 1 product ribosomal protein L23 translation MIDIVKYPVLTEKATRLLENNQYTFDVDPKANKITIKALIEDFF NVKVLSVNTHRPPRKKRRIGRSEGYRPNYKRVIVTLKTGDSIKLLPET complement 19380 19452 gene trnA ggc note codons recognized GCY product tRNA Ala
51. LNSEILKKNILNKVLENKVSAHTINFLNLLIDKKRINSIESIGKRFLDKAYEFVCIKF NPLISAKSKEEVLNKTLKSQINKETFKFLIVLVNRSRINLLEPIIASYLNLVYNAASVKM NPLLSIKAKKEVIKAIFEPNISKNTLKFLLVLCDRGRSANLSSIIDNTIELAYKKASIEI NPLITRDAKKGVLKDVLGEQIGEKTLTFLMLLVDRNRIAYLDGIAYKFVELSYNEDSIEI NPVITKTSKKNVLVDLFGDYISVSTIKFLMLLVDKNRIQYLKYVVMAYTALAAKESSSEI NPLVKKSSKKNFFEKTLAKEIHPYTFKFLLLVIDRGRISCLEIIAQKYQSLILKLTKTEL A y iens d me dE AEVTSALKLTDAQKDQVKERVKQL TGAQAVELETKVDGDILGGIVIKVGSQ VKIACARQLSEKQAQALSEVLKHK FKCLSVKLIFNIEPELIAGFKIFIESQ VFVTSATPLTDTQTQQLEVQLTRM CQAKHLQCEYQVDAQLLAGLKIQMNGQ ANISTSIALNSDQENLLIDKIKAM TSAKEVKLVISVDPELIGGFTIQIGSK VEVWSTIELTQKQQETIIHKINLILGPVFTEPYVQSSNIQLTLIVDKKILGGLIIKMGSK IEVSTAYAFTNLQKNTLIKKLKEL TNAREIRLVITVDSSLIGGFLIKTNSK AYVTTATAFSSNQQEALVEKLKSM TSTEQIKLNITVDKTLIGGFKVQIGSK AKVTSSVRLSSEQQKGIAEKLKTI TGAKQIKLALKVDPSLIGGFTVEIGSK AEVTSVTHLSSDQQEKLKVRLKAL RGISNIELVLKVNPRLLGGFVVQIGSS AEVVTAVPLSSEQEAALNNIIKEL TNANEVKLVFKIDQNLIGGFIINIGSK ES x M id i ae HOME M VFDSSLRGQLRRVGLSLGTAL VIDVSLQGELKEFEWYLTK LIDTSWQTQLKQLMKSLW VIDTSIRGQLKQMASHLDVAAM VIDLSLRSELQRLGKELDIVL VLDFTIKNQLQKLAKHLDSVLEI VIDTSIQGQLRQLASHLGSSAI LIDTSIRGQLKQISSLLGAARA VLDFSLLGALQKMENHFQSATL VVDASLLGQLLRIGNYLGLETV E n GAA ATT AAG GAG CAG GAA GTC TTC GAC GTA AAA GAA CAA GAA ATC TTA GAC GIT AGA CAA CAA ATG ATC TAT
52. MARCpolym 1092 CYANparad NEPHoliva PEDIminor MESOvirid CHLOvulga NICOtabac PINUthunb MARCpolym 1096 CYANparad MESOvirid PEDIminor NEPHoliva NICOtabac PINUthunb MARCpolym CHLOvulga 1097 CYANparad NEPHoliva MESOvirid CHLOvulga PEDIminor NICOtabac PINUthunb MARCpolym 1098 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym 1109 CYANparad CHLOvulga NEPHoliva PEDIminor NICOtabac PINUthunb MARCpolym MESOvirid 1120 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac MARCpolym PINUthunb 1128 CYANparad NEPHoliva CHLOvulga PEDIminor MESOvirid NICOtabac MARCpolym PINUthunb 1133 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac MARCpolym PINUthunb 1135 CYANparad NEPHoliva CHLOvulga PEDIminor MESOvirid NICOtabac MARCpolym PINUthunb 1141 CYANparad PEDIminor NEPHoliva CHLOvulga NICOtabac PINUthunb MARCpolym MESOvirid 1141 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb MESOvirid 1145 CYANparad NEPHoliva CHLOvulga PEDIminor NICOtabac MARCpolym PINUthunb MESOvirid 1153 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb MESOvirid 1154 CYANparad NEPHoliva CHLOvulga PEDIminor NICOtabac MARCpolym PINUthunb MESOvirid
53. VDLSKTLSNPLLSIKA KKEVIKAIFEPNISKNTLKFLLVLCDRGRSANLSSIIDNTIELAYKKASIEIAYVTTATA FSSNQQEALVEKLKSMTSTEQIKLNITVDKTLIGGFKVQIGSKVIDTSIQGQLRQLASHL GSSAI gt ISOCtahit MLVAKIAVPYAEALLELAKANKSLKETTNDMNIVSQFLANSSDLKKFLGNPLITRDAKKG VLKDVLGEQIGEKTLTFLMLLVDRNRIAYLDGIAYKFVELSYNEDSIEIAKVTSSVRLSS EQQKGIAEKLKTITGAKQIKLALKVDPSLIGGFTVEIGSKLIDTSIRGQLKQISSLLGAA RA gt PAVLluthe VIDKTVASRVALPYAEALLDFAKKVNGTDESTNDVNVIHQFVSNSKDLERFLANPVITKT SKKNVLVDLFGDYISVSTIKFLMLLVDKNRIQYLKYVVMAYTALAAKESSSETAEVTSVT HLSSDQQEKLKVRLKALRGISNIELVLKVNPRLLGGFVVQIGSSVLDFSLLGALQKMENH FQSATL Annexe A Exemples de fichiers A 3 Longueur d exons ARABthali 145 410 EUGLgraci 5 134 162 251 MARCpolym 145 410 NICOtabac 145 410 PINUthunb 145 410 PSILnudum 145 410 STAUpunct 145 410 ZEAmays 145 407 ANTHformo 145 410 CHARvulga 135 426 ADIAcapil 125 427 BRYOplumo 67 440 CALYferti 145 410 DERBmarin 88 449 AMBOtrich 145 410 PHYSpaten 145 410 A 4 Liste d organismes SYNEs6803 CYANcalda CYANmerol PORPpurpu VAUCbursa ODONsinen GUILtheta ISOCtahit PAVLluthe CYANparad EUGLgraci NEPHoliva PYCNpraso MONOoke 1 SCHEdubia NEOCpseud CHLOvulga BRYOplumo Annexe A Exemples de fichiers 68 DERBmarin OLTMvirid PSEUakine PEDIminor SCENobliq CHLAreinh MESOvirid CHLOatmop ZYGNcircu STAUpunct CHAEglobo CHARvulga ANTHformo MARCpolym PHYSpaten PSILnudum ADIAcapil PINUthunb AMBOtrich CALYferti NICOtabac ARABthali ZEAmays A 5 Clustalw CLUSTAL W 1 81 multiple sequence
54. a NICOtabac MARCpolym PINUthunb 653 CYANparad PEDIminor CHLOvulga NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid 657 CYANparad NEPHoliva MESOvirid PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 660 CYANparad PEDIminor CHLOvulga NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid 665 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid PEDIminor CHLOvulga 679 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid PEDIminor CHLOvulga 687 CYANparad NEPHoliva PEDIminor CHLOvulga MESOvirid NICOtabac PINUthunb MARCpolym 698 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga MESOvirid 698 CYANparad NEPHoliva CHLOvulga PEDIminor MESOvirid NICOtabac PINUthunb MARCpolym 703 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb PEDIminor CHLOvulga MESOvirid 707 CYANparad NEPHoliva PEDIminor CHLOvulga NICOtabac PINUthunb MARCpolym MESOvirid 717 CYANparad NEPHoliva CHLOvulga PEDIminor NICOtabac PINUthunb MARCpolym MESOvirid 724 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid PEDIminor CHLOvulga 762 CYANparad NEPHoliva NICOtabac MARCpolym PINUthunb MESOvirid PEDIminor CHLOvulga 770 CYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva
55. a s gt ISOCtahit gt PROT 0 Isochrysis tahitil s gt ODONsinen gt PROT 0 Odontella sinensis s gt CYANparad gt PROT 0 Cyanophora paradoxa s gt MESOvirid gt PROT 0 Mesostigma viride s gt EUGLgraci gt PROT 0 Euglena gracilis s gt NEPHoliva gt PROT 0 Nephroselmis olivacea s gt PYCNpraso gt PROT 0 Pycnococcus prasovali s gt MONOoke 1 gt PROT 0 Monomastix species OKE 1 s gt SCHEdubia gt PROT 0 Scherffelia dubia 102 Annexe B Les scripts sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed sed s gt PSEUakine gt PROT s gt NEOCpseud gt PROT s gt PEDIminor gt PROT s gt CHLOvulga gt PROT s gt SCENobliq gt PROT s gt CHLAreinh gt PROT s gt MARCpolym gt PROT s gt PINUthunb gt PROT s gt NICOtabac gt PROT s gt RECLameri gt PROT s gt CYANmerol gt PROT s gt CHONcrisp gt PROT s gt RHODsalin gt PROT s gt OCHRdanic gt PROT s gt PROTwicke gt PROT s gt CHLAeugam gt PROT s gt CHLOelong gt PROT s gt 0LTMvirid gt PROT s gt ARABthali gt PROT s gt STAUpunct gt PROT s gt BETAvulga gt PROT s gt PSILnudum gt PROT s gt CHLOatmop gt PROT s gt ANTHformo gt PROT s gt CHARvulga g
56. alignment SYNEs6803 CYANcalda CYANmerol PORPpurpu VAUCbursa ODONsinen GUILtheta ISOCtahit PAVLluthe CYANparad MKGSLYSSKIAEPYAQALIGLAQQ QNLTEVFGDNLRSLLTLLQDSPDLSAVLS MILLLTNSKIIYPYSEALFSIAKD QEKFEVIKNDMELFVTFTKNLNGFKKFLE MKQKIVEPYAQALFRLKDD IDL TPLWEMARDS KFMQLLM MSSNNLVAKIAQPYASALLDLANE KKAIEQISQDMKLIKDILLQSGKLKYFLA MTNKLSSIKIADPYAEAFFQLGLGLYITNDNPDIFYKLIFDIQDFLELLSETPELNSFLK MSINPLASKIAAPYARALFDFSVD QNLMHQITADFQNLEVFLNKTPDLTEYLS MIAMNNKLAQPYAMAFLEFSLD AKQTLDTTIADLTQIKTILHDSVDLSKTLS MLVAKIAVPYAEALLELAKA NKSLKETTNDMNIVSQFLANSSDLKKFLG VIDKTVASRVALPYAEALLDFAKK VNGTDESTNDVNVIHQFVSNSKDLERFLA MKQSAVVSKITQPYAEALLEMAQK YDIVETVNNDITLILNCLQNSTKLQQFLA deus ok ki i A Annexe A Exemples de fichiers SYNEs6803 CYANcalda CYANmerol PORPpurpu VAUCbursa ODONsinen GUILtheta ISOCtahit PAVLluthe CYANparad SYNEs6803 CYANcalda CYANmerol PORPpurpu VAUCbursa ODONsinen GUILtheta ISOCtahit PAVLluthe CYANparad SYNEs6803 CYANcalda CYANmerol PORPpurpu VAUCbursa ODONsinen GUILtheta ISOCtahit PAVLluthe CYANparad A 6 Selex SYNEs6803 268 292 CYANcalda 277 301 CYANmerol 244 268 PORPpurpu 370 394 69 SPVVKDEDKKSVLRSVLGDGGNGYLLNFLMLLVDKRRIVFLEAICEQYLALLRQFTNTVL TPLINKNKKIKVVKDVFSKILNSTTLNFISILINKNRIMFVSNISEKYNQLVLKDKSVKL NPSIPKEKKWQLFQ PFDKLVQSWLEVIWKKKRMNLLAEICASYLELRKKKEGIVT NPLKTIEAKKQVIAATFGDQISENTLSFLMVLVDRKRISMLDVIAGKYLELAYAMESLTI NP
57. alors d ex cuter gbkextract pl successivement sur chacun des fichiers Genbank pour que toutes les s quences soient extraites dans les m mes r pertoires Cependant les annotations ne suivent pas un standard absolu et peuvent varier beaucoup selon les laboratoires et les versions des logiciels utilis es pour produire le fichier Genbank De plus il est fr quent de trouver des erreurs ou des oublis dans des fichiers Genbank provenant des bases de donn es publiques Il est donc n cessaire principalement lorsque les donn es proviennent de l ext rieur du laboratoire de v rifier attentivement l exactitude des annotations avant de faire l ajout la base de donn es Les principales tapes de la v rification consistent aligner les g nes avec les g nes de la base de donn es pour s assurer que les codons initiateur et terminateur ont t correctement identifi s s assurer que les jonctions intron exon ont t correctement d termin s et v rifier qu aucun g ne n a t oubli Ces tapes sont effectu es de facon principalement manuelle avec l aide de certains scripts d crits plus en d tail dans la sec tion suivante Une fois que ces informations ont t v rifi es elles peuvent tre ajout es dans les fichiers respectifs de la base de donn es L information telle que produite par gbkextract pl peut tre recopi e telle qu elle la fin du fichier correspondant dans la base de donn es Chapitre 3 R sultats 41
58. de s quences prot iques utilis e par BLAST Les m mes op rations sont ensuite ex cut es avec les fichiers conte nus dans RNA_seq et formatdb est appel avec les options convenables pour une base de donn es d acides nucl iques 3 1 9 gbkextract pl gbkextract pl Annexe B 9 prend un fichier Genbank comme entr e et il en extrait les features Il cr e cinq r pertoires RNA prot cDNA gene exon et intron RNA contient les s quences d ARN ribosomique et d ARN de transfert prot contient les s quences prot iques venant de l tiquette translation de chaque feature CDS cDNA contient la s quence codante de chaque g ne en excluant la s quence des introns gene contient les s quences compl tes de chaque g ne incluant les introns exon contient les fichiers de longueurs d exon pour chacun des g nes ayant des introns intron contient la s quence de tous les introns avec un fichier par g ne contenant des introns Un fichier contenant la taille de chaque intron est aussi produit Il est n cessaire de fournir gbkextract pl comme deuxi me argument l identifiant d organisme pour qu il puisse tre correctement plac dans les diff rents fichiers 3 1 10 preparednamatrix pl preparednamatrix pl Annexe B 10 prend comme entr e des alignements de s quences codantes au format Fasta Chaque alignement est d abord filtr par le pro gramme Gblocks qui est utilis avec l option t c pour enlever les parties non conser v es
59. dentifiant de l orga nisme et le nom du fichier produire Il utilise le fichier gene db txt comme source pour obtenir la description du produit des g nes Lorsque la description d un g ne est introuvable il laisse la description en blanc et Sequin lors du chargement du fichier laisse la possibilit l utilisateur d en entrer une 3 1 13 tfa2long sh Ce script Annexe B 13 est employ pour transformer la ligne de description des fichiers Fasta de la base de donn es qui contient seulement l identifiant d organisme en une ligne de description plus d taill e n cessaire pour les recherches BLAST Il prend comme premier param tre le nom de l organite d origine et comme deuxi me param tre le nom de fichier Il proc de en remplacant chaque identifiant d organisme par le nom Chapitre 3 R sultats 35 de la prot ine le nom de l organite et le nom complet de l organisme correspondant l identifiant 3 1 14 updatealign pl updatealign pl Annexe B 14 est utilis pour mettre les alignements Selex jour Il prend comme entrer la liste compl te des organismes et les alignements de prot ines jour D abord il utilise la liste d organismes pour placer les alignements de prot ines et les fichiers de s quences codantes pr sents dans la base de donn es dans le m me ordre de fa on viter que codonalign pl ne produise des messages d erreurs Une erreur peut quand m me se produire si la s quence d un organisme est manqua
60. des s quences en multiples de trois nucl otides de fa on conserver un nombre Chapitre 3 R sultats 34 entier de codons Ensuite les s quences r sultantes sont concat n es puis un fichier au format nexus contenant la matrice de s quences codantes est produit pour tre utilis avec le logiciel PAUP Un fichier nomm Goptns txt est aussi produit Il contient le nombre de g nes et la longueur de chacun d eux dans la matrice au format n cessaire pour tre utilis par les logiciels de PAML 3 1 11 prepareproteinmatrix pl prepareproteinmatrix pl Annexe B 11 prend en entr e des alignements de s quences de prot ines au format clustalw Chaque alignement est d abord filtr par le programme Gblocks qui est utilis avec l option t p pour enlever les parties non conserv es des s quences Ensuite les s quences r sultantes sont concat n es puis un fichier au format MOLPHY contenant la matrice de s quences prot iques est produit pour tre utilis avec le logiciel protml Un fichier nomm Goptns txt est aussi produit Il contient le nombre de g nes et la longueur de chacun d eux dans la matrice au format n cessaire pour tre utilis par les logiciels de PAML 3 1 12 prepsequin pl Ce script Annexe D 12 sert pr parer un fichier contenant toutes les s quences des prot ines d un g nome au format demand par Sequin pour qu il puisse annoter automatiquement toutes ces prot ines Il demande l utilisateur l i
61. e as the input files but with the dna aln extension They are put in the current directory headi CAVEATS The coding sequence file and alignment file must contain exactly the same sequences in the same order There is no verification that the sequences really correspond A file having the same name as an output file will be overwritten headi AUTHOR Based on align on codons pl from Bioperl and modified heavily by Jules Gagnon lt eonwe0users sourceforge net gt cut use strict use Bio Seql0 use Bio AlignIO use Bio LocatableSeq use Bio SimpleAlign use File Basename ARGV gt 2 die Usage codonalign pl aln dir tfa n my CODONSIZE 3 my alnpath shift shift while my f my name ext split N basename f Annexe B Les scripts 79 my seqio new Bio SeqI0 format gt fasta file gt f my alignin Bio AlignI0 gt new file gt alnpath name aln format gt clustalw my alignout new Bio AlignIO format gt fasta file gt name dna aln my aln alignin gt next_aln my alnlen aln gt length my dnaalign new Bio SimpleAlign 0 my seqorder my Onucseqs while my seq seqio next seq push Onucseqs seq aln get seq by pos scalar nucseqs gt id eq seq gt id die Sequence order mismatch aln get seq by pos scalar Onucseqs gt id vs
62. e g nes Jusqu maintenant ce sont surtout les s quences prot iques qui ont t utilis es dans le laboratoire mais avec le d veloppement des outils de cette tude il est maintenant possible d utiliser les s quences nucl otidiques codant pour les prot ines Ce chapitre se veut plut t un guide d utilisation des outils d velopp s dans le cadre de ce projet qu une revue des aspects th oriques des analyses Certains outils sont utilisables avec d autres types d analyses utilisant des donn es structur es de fa on similaire mais seule l utilisation la plus g n rique sera pr sent e ici Pour faciliter la compr hension une analyse dont les r sultats ont d j t publi s 8 sera utilis e comme exemple La pr paration des donn es n a pas l origine t effectu e de fa on automatique et seules les s quences prot iques avaient t utilis es Certaines diff rences minimes sont pr sentes entre les r sultats actuels et ceux publi s en 2000 puisque les logiciels utilis s sont de versions diff rentes et que certaines m thodes de travail ont t l g rement modifi es La pr paration des donn es pour une analyse phylog n tique n cessite plusieurs tapes Quelques unes de ces tapes sont communes aux analyses de s quences de pro t ines Figure 3 3 et aux analyses de s quences codantes Figure 3 4 alors que d autres leur sont particuli res Chapitre 3 R sultats 45 Figure 3 3 Analyse de s que
63. each my seq aln gt each_seq if seq gt id 1 push Corgtab seq gt id my Csorted sort sort_sub orgtab my newaln Bio SimpleAlign gt new foreach my org sorted if org 1 if 0RGlistf org foreach my seq2 aln each seq 1 if seq2 gt id org 1 newaln gt add_seq seq2 last system mv f fname old my out Bio AlignI0 gt new file gt gt fname aln format gt clustalw Annexe B Les scripts 106 ds nevaln set displayname flat out write aln newaln my in Bio AlignI0 gt new file gt dbhome cDNA_seq cp fname tfa format gt fasta my aln in gt next_aln aln gt set_displayname flat my Corgtab foreach my seq aln gt each_seq if seq gt id push Corgtab seq gt id my sorted sort sort_sub orgtab my newaln Bio SimpleAlign gt new foreach my org sorted 1 if org 1 if 0RGlistf org foreach my seq2 aln each seq 1 if seq2 gt id org newaln add seq seq2 last J my out Bio AlignI0 gt new file gt gt fname fasta gt format gt fasta newaln gt set_displayname_flat out write aln newaln system codonalign pl fname fasta system addexons pl fname dna aln dbhome exon db cp Annexe B Les scripts 107 sub sort sub my retval retval 0RGlist a lt gt
64. ement of 100 the result of the BLAST and the ORF found AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 7 gbkextract pl Extract features from a Genbank file SYNOPSIS gbkextract pl file gbk DESCRIPTION gbkextract pl creates six directories RNA which contains tRNA and rRNA sequences prot which contains protein sequence for each CDS Annexe C Manuel d utilisation 114 cDNA which contains gene coding sequences excluding introns gene which contains gene sequences including introns exon which contains lengths of exons usable by addexons pl intron which contains intron sequences and lengths AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 8 preparednamatrix pl Create a protein matrix from aligned protein files SYNOPSIS preparednamatrix pl aln DESCRIPTION preparednamatrix pl takes as input alignments in Fasta format and filters them with Gblocks The filtered alignments are concatenated to alignment nex in nexus format It also produces a file called Goptns txt which contains the length of each filtered alignment for use in PAML AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt Annexe C Manuel d utilisation 115 C 9 prepareproteinmatrix pl Create a protein matrix from aligned protein files SYNOPSIS prepareproteinmatrix pl nogblocks aln DESCRIPTION prepareproteinmatrix pl takes as input al
65. enter l effet des longues branches 3 3 2 Analyse de s quences prot iques Dans le cas d une analyse avec des s quences prot iques la filtration par Gblocks est effectu e l aide de prepareproteinmatrix pl Pour effectuer la filtration il suffit d ex cuter dans le r pertoire contenant les alignements prepareproteinmatrix pl aln Le script ex cute alors Gblocks sur chacun des fichiers d alignement et il concat ne tous les alignements filtr s pour produire une matrice de s quences utilisable par protml Chapitre 3 R sultats 51 Lorsqu on utilise les 54 fichiers produits pr c demment on obtient une matrice de s quences comportant 10 831 colonnes donc 10 831 positions conserv es On obtient aussi un fichier nomm Goptns txt Annexe D 3 qui contient le nombre de fichiers trait s et le nombre de positions conserv es par Gblocks pour chacun des alignements L tape suivante est la recherche de topologies Un des rares programmes qui per met de faire une recherche exhaustive de topologies par maximum likelihood avec des s quences prot iques est protml 30 Cependant protml ne contient qu une s lec tion limit e de matrice de substitution Ces matrices de substitution sont bas es sur des alignements de s quences prot iques conserv es et repr sentent la fr quence de sub stitution de chaque acide amin pour un autre Deux matrices conques sp cifiquement pour les prot ines d organites sont mtREV24 30 et cpREV45
66. eq gt length 3 position de debut et fin et orientation seq gt desc d d my start end 1 2 my compl start gt end 1 0 elimine les erreurs venant des codes d ambiguite seg gt alphabet dna fdetermination de la lettre a ajouter pour eliminer les fichiers de meme nom my letter a while e organism seq orf len letter tfa letter output de la sequence codante write fasta organism _seq orf len letter tfa orf len letter start end seq gt seq output de la traduction pour la recherche write fasta tempdir orf len letter tfa seg gt id seg gt desc seq gt translate gt seq recherche contre la db de proteines fle sort et head conserve seulement le meilleur resultat my firstmsp blastp d DBHOME proteines i tempdir orf len letter tfa F F mspcrunch c gt identification de l orf et preparation de sa description my orf if firstmsp 1 firstmsp d C d d d d w my score gene 1 2 orf gene orf len letter start end write fasta organism identified gene tfa organism seq gt translate gt seq seg gt display_id gene seg gt desc A start endN else seq gt display_id orf len letter Annexe B Les scripts 88 seq gt desc start end if len gt min orf
67. es g nomes La majorit des g nomes chloroplastiques comptent 100 000 200 000 paires de bases Tableau 1 1 par cons quent ils sont de 20 30 fois plus petits que les g nomes de cyanobact ries Ils poss dent 40 250 g nes Tableau 1 2 et sont tr s compacts c est dire qu ils comportent tr s peu de s quences non codantes La plupart se divisent en quatre parties Figure 1 1 Deux r gions r p t es de fa on invers e sont s par es par deux r gions simple copie Au cours de l volution ces g nomes perdent progressivement des g nes lesquels sont souvent transf r s vers le g nome nucl aire Les g nomes mitochondriaux pr sentent une tr s grande variabilit en taille et en structure Figure 1 2 Leur taille varie de 15 000 400 000 paires de base Tableau 1 3 tandis que leur contenu en g nes Tableau 1 4 varie de 3 67 g nes Ces g nomes ont subi de nombreux r arrangements au fil de l volution Chapitre 1 Introduction 5 Tableau 1 1 Les g nomes chloroplastiques Liste des organismes dont la s quence du g nome chloroplastique fait partie de la base de donn es construite dans le cadre de ce projet en date du 9 d cembre 2003 Le nombre de g nes a t calcul partir des g nes pr sents dans la base de donn es Le num ro d accession correspond celui retrouv dans la base de donn es du NCBI L abr viation n d indique que le g nome n est pas disponible dans la base de donn es du NC
68. es listes d orga nismes et dans les fichiers de s quence Cela rend plus apparentes les similitudes entre les s quences Chapitre 2 Mat riel et m thodes 27 2 2 5 Clustalw Le format clustalw Annexe A 5 est un format d alignement utilis la fois par clustalw d o sont nom et par t_ coffee un autre programme d alignement La premi re ligne du fichier identifie le format et le programme ayant produit l alignement Apr s au moins une ligne blanche de s paration le premier bloc d alignement d bute Chaque ligne d bute par l identifiant d organisme Des espaces sont ajout s jusqu avoir 16 caract res avant le d but de la s quence qui comporte au maximum 60 caract res Une ligne de symboles indiquant le degr d homologie de la colonne peut tre ajout e apr s chaque bloc Au moins une ligne blanche doit s parer les blocs d alignement 2 2 6 Selex Le format Selex Annexe A 6 utilis dans le laboratoire est inspir du format Selex original mais il a t adapt des besoins sp cifiques Il est utilis pour visualiser les alignements de s quences codantes Chaque ligne d bute par l identifiant d organisme suivi par les positions de la s quence qui sont pr sentes sur cette ligne Ensuite d butant la 23 colonne vient la s quence avec chaque codon s par par des espaces Si des introns sont pr sents dans cette prot ine leur position est indiqu e par le symbole la fin de l exon pr c dent
69. est maintenant possible d effectuer facilement des analyses bas es sur les s quences codantes alors que cela tait difficilement envisageable avant Tous les scripts Perl ont t document s en utilisant le format POD Plain Old Docu mentation Une page de manuel peut facilement tre g n r e en utilisant la commande perldoc fichier pl Les pages de manuel ainsi g n r es sont pr sent es l annexe C De plus le pr sent m moire constitue un guide d utilisation qui pr sente les proc dures d utilisation typique de la tr s grande majorit des scripts produits En somme les objectifs de ce projet de ma trise ont t r alis s avec succ s et len semble des outils bioinformatiques qui ont t con us permet aux utilisateurs de r duire consid rablement le temps n cessaire pour proc der aux analyses de leurs donn es Il est certain que diff rentes am liorations pourraient tre apport es au niveau de la lisibilit et de l efficacit du code Ce type de modification est cependant tr s subjectif et particulier au style du programmeur et au niveau de connaissance du langage Du point de vue de l efficacit la dur e d ex cution des scripts pour les donn es utilis es par le laboratoire est acceptable Avec l ajout de beaucoup plus de donn es il pourrait tre n cessaire de r viser le code pour avoir une efficacit plus optimale La principale am lioration qui pourrait tre ajout e actuellement est au niveau de
70. est souhaitable d utiliser leurs s quences le plus rapidement possible En plus des outils d extraction et de formatage des s quences seront n cessaires pour maintenir cette base de donn es des g nomes chlo roplastiques et mitochondriaux La structure de cette base de donn es et les formats employ s pour stocker les s quences devront tre d termin s Finalement des outils pour extraire les s quences de la base de donn es et les pr parer pour effectuer des analyses phylog n tiques seront aussi n cessaires Ils devront permettre d liminer les risques de manipulation humaine et de rendre facilement repro ductibles les r sultats en liminant les choix subjectifs Ces automatisations rendront possible l ex cution de nouveaux types d analyse phylog n tique bas e sur les s quences d acides nucl iques plut t que seulement les s quences prot iques comme cela est actuel lement fait Pour d montrer le bon fonctionnement des outils une analyse d j publi e sera r p t e et les r sultats obtenus seront pr sent s Chapitre 1 Introduction 20 En somme les objectifs r aliser dans ce projet peuvent se r sumer comme suit concevoir une base de donn es de g nes d organites d velopper des outils pour maintenir cette base de donn es jour d velopper des outils pour extraire les s quences de la base de donn es et les convertir au format d sir d velopper des outils pour effectuer
71. est utilis pour conserver toutes les informations concernant une s quence g nomique C est un des rares formats qui permet l annotation de s quences Ce format ne peut contenir qu une seule s quence Cette s quence comporte plusieurs features lesquelles sont caract ris es par une po sition location et plusieurs tiquettes tags avec une valeur associ e Les features les plus courants sont gene CDS rRNA et tRNA Toutes les features ont une tiquette gene qui les identifie D autres tiquettes courantes sont product et translation Ce format de fichier a par contre l inconv nient d tre difficilement modifiable Il est habituellement produit par Sequin partir d un fichier au format ASN 1 Sequin semble tre le seul programme capable d interpr ter correctement ce format Il n est donc pas envisageable de travailler couramment avec le format ASN 1 Le format Genbank bien que facilement compr hensible n cessite quand m me l usage de logiciels pour en ex traire l information La librairie Bioperl a t choisie pour sa flexibilit et sa simplicit d utilisation bien que d autres auraient pu tout aussi bien convenir Chapitre 2 Mat riel et m thodes 26 2 2 2 Fasta Le format Fasta Annexe A 2 est le format le plus utilis dans nos bases de donn es Il s agit d un format tr s simple qui contient peu d informations Chaque fichier Fasta peut contenir plusieurs s quences Chaque s quence comporte une ligne d ide
72. et lt au d but de l exon suivant Cependant la s quence de l intron n est pas pr sente dans ces fichiers seulement la s quence codant pour la prot ine est pr sente Chaque ligne comporte au maximum 33 codons i la s quence n est pas compl te elle se poursuit dans le bloc suivant Chaque bloc est s par du pr c dent par trois lignes blanches Les lignes qui indiquent les positions des introns d butent par un di se Toutes les lignes d butant par un di se sont ignor es lors de la lecture de la s quence il est donc possible d ajouter d autres informations aux s quences Chapitre 3 R sultats 3 1 Les scripts Dans le cadre de ce projet de nombreux scripts Tableau 3 1 ont t d velopp s Ici sont num r s leurs fonctionnements et leurs r les Des descriptions de leur utilisation typique seront pr sent es dans les chapitres suivants 3 1 1 addexons pl addexons pl Annexe B 1 permet de produire un alignement de s quences codantes au format Selex Il prend comme premier argument un fichier Fasta contenant les s quences codantes align es d une prot ine et comme deuxi me argument un r pertoire contenant un fichier de longueur d exons portant le m me nom Il produit dans le r pertoire courant un fichier contenant les s quences align es au format Selex Il utilise le module AlignlIO pour lire l alignement de s quences codantes en format Fasta La s quence est d abord convertie en majuscule pour
73. findorf pl 14101 14201 14301 14401 14501 14601 14701 14801 14901 15001 15101 15201 15301 15401 15501 15601 15701 15801 15901 16001 16101 16201 16301 16401 16501 16601 16701 16801 16901 rp120 170 rp120 167 rp120 160 rpsi8 83 rps18 152 rps18 139 rp133 184 rp133 161 psaJ 170 trnP_ugg 260 trnW_cca 250 petG 149 petL 87 orf45a 14117 14251 orf45a 14117 14251 rp120_orf117a 14478 rp120_orf117a 14478 rp120_orf117a 14478 rp120_orf117a 14478 rp120_orf117a 14478 14949 14949 15198 rpsi8 orf82c 15194 14949 15198 15198 15198 15589 15589 15589 rps18_orf82c 15194 rps18_orf82c 15194 rp133_orf73g 15416 rp133_orf73g 15416 rp133_orf73g 15416 rp133_orf73g 15416 psaJ_orf47ab 15729 psaJ_orf47ab 15729 psaJ_orf47ab 15729 orf64d 16165 orf64d 16165 orf64d 16165 orf62b 16375 orf62b 16375 orf62b 16375 15974 15974 15974 16560 16560 16560 14828 14828 14828 14828 14828 petG orf37bc 16519 16409 petG orf37bc 16519 16409 petL orf38ak 16757 16644 petL orf38ak 16757 16644 Annexe D R sultats d analyses 118 D 2 Prot ines communes atpA tfa petB tfa psaJ tfa psbl tfa rbcL tfa rpoCi tfa rps3 tfa atpB tfa petD tfa psbA tfa psbJ tfa rpli4 tfa rpoC2 tfa rps4 tfa atpE tfa petG tfa psbB tfa psbK tfa rpli6 tfa rpsil tfa rps7 tfa atpF tfa petL tfa psbC tfa psbL tfa rpl20 tfa rps12 tfa rps8 tfa atpH tfa
74. he results to my file lt STDIN gt chomp file open OUTPUT gt file open DB DBHOME gene db txt my gene db my line my Otmp while line lt DB gt 4 chomp line Ctmp split Nt line gene db tmp O tmp 1 close DB line my counter 0 while my f shift 1 open INPUT f while line lt INPUT gt while line 4 if line organism 1 my Otmp3 Ctmp3 split N f if gene db tmp3 0 gene db tmp3 0 counter 101 Annexe B Les scripts gt prot_ print OUTPUT counter gene tmp3 0 prot gene_db tmp3 0 tmp3 0 n my seq while seq lt INPUT gt amp amp seq gt 4 print OUTPUT seq line lt INPUT gt else line lt INPUT gt B 13 tfa2long sh bin bash FILE echo 2 cut d f3 PROT echo FILE cut d f1 0 1 cat 2 sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e sed e s gt CHAEglobo gt PROT 0 Chaetosphaeridium globosum s gt PAVLluthe gt PROT 0 Pavlova lutheri s gt SYNEs6803 gt PROT 0 Synechocystis PCC6803 s gt PORPpurpu gt PROT 0 Porphyra purpurea s gt CYANcalda gt PROT 0 Cyanidium caldarium s gt GUILtheta gt PROT 0 Guillardia thet
75. ignments in clustal format and filters them with Gblocks The filtered alignments are concatenated to alignment ptn in MOLPHY format It also produces a file called Goptns txt which contains the length of each filtered alignment for use in codeml AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 10 prepsequin pl Prepare protein sequences for input by Sequin SYNOPSIS prepsequin pl tfa Annexe C Manuel d utilisation 116 DESCRIPTION prepsequin pl requests the organism name and the output file then selects all protein sequences from the organism in the input files specified on the command line and reformats them in a format suitable for input by Sequin AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 11 updatealign pl Update the Selex alignments SYNOPSIS updatealign pl ORG list aln DESCRIPTION updatealign pl takes as first argument the list of all organisms in the order they are to appear in the alignments and as second argument the alignment files of the proteins First it reorders the sequences in the protein alignments and in the coding sequence files from the database Then it calls codonalign pl to create the alignment of coding sequences Finally it calls addexons pl to reformat the alignment and to add the exon positions AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt Annexe D R sultats d analyses D 1 Fichier produit par
76. ion est trouv e elle est utilis e comme nom de s quence dans le fichier correspondant Ensuite le g nome est divis en courtes s quences de 100 bases de longueur et ces s quences sont recherch es dans les bases de donn es Dans toutes les recherches BLAST seuls les r sultats provenant du m me organite que le g nome sont conserv s Les r sultats de ces recherches sont pr sent s dans un fichier tabul avec pour chaque tranche de cent bases les meilleurs r sultats BLAST et les cadres de lecture ouverts pr sents cette position Chapitre 3 R sultats 33 3 1 8 formatdb sh Il s agit d un des seuls scripts qui n est pas crit en Perl mais plut t en langage shell Annexe B 8 Ce choix a t fait car il s agit simplement d une liste d instruc tions qui doivent tre ex cut es une la suite de l autre Ce script est utilis pour mettre jour la base de donn es utilis e par BLAST pour les recherche d homologie Il traite s paramment les s quences prot iques et les s quences d ARN Dans les deux cas il transforme d abord l identifiant unique en une description plus d taill e qui in clut le nom du g ne l organite et le nom complet de l organisme Pour ce faire il utilise tfa2long sh Cette op ration est effectu e sur tous les fichiers contenus dans prot seq et le r sultat est concat n en un seul fichier nomm prot db tfa Ensuite l utilitaire BLAST formatdb est appel pour formater la base de donn es
77. lleur modele paup choix de la meilleure topologie Chapitre 3 R sultats 49 3 3 1 tap es communes La premi re tape consiste choisir les organismes tudier C est une tape tr s importante qui est souvent prise la l g re Il est n cessaire d avoir des repr sentants des diff rents groupes impliqu s dans le probl me l tude Il faut avoir suffisamment de repr sentants pour minimiser les longueurs des branches et viter les effets d attraction de longues branches mais chaque organisme suppl mentaire fait croitre le temps de calcul n cessaire de fa on exponentielle Id alement les s quences utilis es devraient avoir une composition qui varie le moins possible entre les organismes De plus il faut choisir un groupe de r f rence outgroup qui est clairement ext rieur aux autres groupes tudi s mais sans tre trop loign et causer de l attraction Pour l tude en question le probl me consistait d terminer la position de l algue Mesostigma viride appartenant la classe des prasinophytes Sa position fait l objet d une controverse puisque tous les autres prasinophytes examin s jusqu maintenant se classent la bases des chlorophytes Cependant certaines de ses caract ristiques morphologiques 24 et des analyses phylog n tiques 25 26 27 bas es sur un nombre limit de g nes la placent la base des streptophytes Ainsi trois repr sentants de chacun de ces deux groupes ont
78. mplifie grandement les manipulations et limine plusieurs tapes fastidieuses du processus de s quencage Elle consiste bri ser le g nome en petits fragments de facon al atoire et en effectuer le s quencage Les logiciels d assemblage sont ensuite responsables de regrouper les fragments qui se chevauchent et de reconstituer le g nome complet Les algorithmes de recherche d homologies ont aussi beaucoup b n fici des pro gr s technologiques Ils permettent maintenant d identifier facilement et rapidement des s quences ayant un fort degr de similitude Il est ainsi plus facile de proc der l identification et l annotation des g nes d un g nome du moins quand des g nes homologues ont d j t identifi s chez d autres esp ces 1 2 Les g nomes d organites Le laboratoire des Drs Turmel et Lemieux dans lequel mon projet de ma trise a t r alis se consacre au s quencage de g nomes chloroplastiques et mitochondriaux d algues Gr ce aux am liorations des techniques de s quencage et l utilisation de logiciels d assemblage performants tel que Sequencher 5 il est maintenant possible pour un tudiant gradu de s quencer un g nome d organites en quelques mois Actuellement une quarantaine de g nomes chloroplastiques sont disponibles Ta bleau 1 1 et presque autant de g nomes mitochondriaux d organismes photosynth tiques Tableau 1 2 Chaque ann e plusieurs nouveaux g nomes deviennent dispo
79. ms headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt cut use strict 82 Annexe B Les scripts use Bio Seql0 use Bio AlignIO if ARGV 2 system perldoc 0 exit mkdir filtered 0755 my numorg my ORGlist t open LIST shift CARGV while my 1ine LIST chomp line if line amp line my Otmparray split t line if Ctmparray 1 numorg ORGlist tmparray 0 numorg F close LIST foreach my file CARGV my in Bio AlignI0 gt new file gt file format gt fasta my aln in next alnO my Corgtab if aln no sequences gt numorg aln set displayname flat foreach my seq aln each seqO if ORGlist seq gt id push Corgtab seq gt id my Csorted sort sort sub Corgtab my newaln Bio SimpleAlign gt new 83 Annexe B Les scripts 84 foreach my org sorted 1 if org 1 if 0RGlist org foreach my seq2 aln each seqO if seq2 gt id org my newseq seq2 gt seq newseq tr N d my newseqD Bio LocatableSeq gt new id gt seq2 gt id seq gt newseq newaln add seq newseq0 last if newaln no sequences gt numorg my Otmp split file my Ctmp2 split V tmp 0 my fname pop Otmp2 my out
80. nces prot iques Sch ma de fonctionnement des scripts servant la pr paration des donn es et au traite ment des r sultats lors d une analyse phylog n tique utilisant des s quences prot iques L action d un script est repr sent e par une fl che et les r sultats sont indiqu s dans les boites Chapitre 3 R sultats DB de prot ines Liste d organismes filtertfa pl s quences filtr es align pl s quences filtr es et align es preparematrix pl matrice de prot ines protml Liste de topologies avec likelihood et valeur bootstrap choosetpl pl Liste de topologies prometteuses test des mod les avec codeml Identification du mod le et de la topologie correspondant le mieux aux donn es 46 Chapitre 3 R sultats 4T Figure 3 4 Analyse de s quences codantes Sch ma de fonctionnement des scripts servant la pr paration des donn es lors d une analyse phylog n tique utilisant des s quences codantes L action d un script est repr sent e par une fl che et les r sultats sont indiqu s dans les boites Chapitre 3 R sultats 48 DB de s quences DB de prot ines Liste d organismes codantes filtertfa pl filterselex pl s quences filtr es s quences filtr es align pl s quences filtr es et align es codonalign pl s quences codantes filtr es et align es preparednamatrix pl matrice de s quences modeltest choix du mei
81. nes il faut d abord avoir align les s quences prot iques Cela implique d avoir ex cut filtertfa pl et align pl comme pr c demment En fait si les deux types d analyse sont effectu s les m mes fichiers peuvent tre r utilis s Dans le cas d une analyse avec des s quences codantes deux tapes suppl mentaires sont n cessaires D abord les s quences codantes stock es dans les fichiers Selex doivent tre filtr es avec filterselex pl avec la m me liste d organismes que pr c demment Il faudra donc ex cuter la commande filterselex pl Taxa Users Shared db cDNA alignments cp selex Les fichiers produits sont au nombre de 54 comme pr c demment et ils contiennent les s quences codantes non align es des prot ines Ces s quences doivent tre align es en se basant sur l alignement de prot ines pr alablement effectu Pour cela codonalign pl est appel par codonalign pl prot alignment tfa Le premier argument est le r pertoire contenant les fichiers de prot ines align es et le deuxi me est la liste des fichiers de s quences codantes Chapitre 3 R sultats 53 Figure 3 5 La topologie 1 Topologie 1 d termin e par protml Mesostigma viride est positionn comme anscestral la divergence entre les streptophytes et les chlorophytes Chapitre 3 R sultats 54 CY ANpBarad MESOvirid NEPHAaliva PEC minar CHLOvulga M ARCpalym PIMLIhunb MiCOtabac Chapitre 3 R sultats 55 Figure 3 6 La top
82. nte dans l un des deux fichiers Ensuite il appelle codonalign pl pour aligner les s quences codantes puis addexons pl pour produire les fichiers Selex Il utilise les fichiers contenus dans les r pertoires cDNA seq et exon db qui doivent d abord avoir t mis jour 3 2 La base de donn es La base de donn es est actuellement divis e en plusieurs r pertoires Chacun de ces r pertoires contient les sous r pertoires cp et mt pour s parer les informations mi tochondriales et chloroplastiques Ces r pertoires sont cDNA alignments cDNA seq complete genomes exon db prot alignments prot seq et RNA seq Figure 3 1 Ils contiennent respectivement les alignements de s quences codantes les s quences co dantes les s quences de g nomes complets les longueurs d exons les alignements de s quences prot iques les s quences prot iques et les s quences d ARN Les informations sont stock es de fa on avoir un fichier par g ne ce fichier contient les informations de tous les organismes poss dant ce g ne 3 2 1 La mise jour La mise jour de la base de donn es se fait en partie de facon manuelle et en partie de facon automatis e pour s assurer de l exactitude des donn es Puisque la base de donn es est ensuite utilis e plusieurs fins l int rieur du laboratoire il est essentiel de s assurer qu elle contient un minimum d erreurs Plusieurs scripts sont utilis s pour les diff rentes tapes de la mise jou
83. ntification d butant par un symbole gt suivi sans espace d un identifiant qui doit tre unique pour le fichier Tout autre texte pr sent sur la ligne d butant par est consid r comme une description Sur la ligne suivante d bute la s quence biologique qui peut s tendre sur plusieurs lignes jusqu la s quence suivante ou la fin du fichier Ce format peut facilement tre modifi la main au besoin ou par des programmes simples Le format Fasta a aussi la particularit de pouvoir tre utilis avec des s quences align es Ainsi Bioperl et Gblocks ont la possibilit de traiter des fichiers Fasta dont les s quences comportent des br ches gaps comme des fichiers d alignement 2 2 3 Longueur d exons Les fichiers de longueurs d exons Annexe A 3 ont un format texte simple Chaque ligne d bute par un identifiant d organisme suivi des longueurs en nucl otides des exons s par es par des espaces Un organisme dont le g ne ne contient pas d introns n est tout simplement pas inscrit 2 2 4 Liste d organismes Les listes d organismes Annexe A 4 sont une liste d identifiant d organismes avec un identifiant par ligne dans l ordre qui est d sir pour les fichiers de sortie Chaque identifiant d organisme est compos des quatre premi res lettres du genre en majus cule suivies des cinq premi res lettres du nom de l esp ce en minuscule Les organismes proches au niveau phylog n tique sont habituellement regroup s dans l
84. ologie 2 Topologie 2 d termin e par protml Mesostigma viride est positionn la base des chlorophytes Chapitre 3 R sultats 56 CY ANBarad MARC Rol mm PIMLIthunb NICOtabac MESOvirid MEPHoliva PED I minor CHLOvulga Chapitre 3 R sultats BT Figure 3 7 La topologie 3 Topologie 3 d termin e par protml Mesostigma viride est positionn la base des streptophytes Chapitre 3 R sultats 58 CY ANpBarad MESOvirid MARCpolym PIKLithunk NIC Otabac MEPHoliva FEDIminar CHLOvulga Chapitre 3 R sultats 59 Comme avec les s quences prot iques Gblocks doit tre utilis pour filtrer les r gions non conserv es La commande preparednamatrix pl dna aln peut tre utilis pour ex cuter Gblocks sur tous les alignements et concat ner les s quences conserv es en une matrice de s quences codantes au format nexus utilisable par PAUP Avec les m mes organismes que pr c demment la matrice obtenue comporte 34 965 colonnes Cette matrice ne correspond pas exactement la matrice prot ique Malgr que Gblocks soit appel par preparednamatrix pl avec une option qui d limite les blocs seulement des jonctions de codons Gblocks tient uniquement compte de l identit au niveau des nucl otides Ainsi dans certains cas les acides amin s peuvent tre ho mologues alors que les nucl otides correspondants ne le sont pas Donc les limites des blocs peuvent varier La matrice peut ensuite tre charg e
85. ont d j t publi s Table des mati res Table des mati res Liste des figures Liste des tableaux Liste des abr viations 1 Introduction 11 Le s quen age d ADN 1 1 1 Le clonage mol culaire 44 de at rs oC pes 1 1 2 Le s quen age automatique 1 1 3 Outils informatiques 2 2 23 4442464825464 25 8 4 12 Les g nomes d organites a ie ama La momo Ro d he Roe 1 2 1 Origine des chloroplastes et des mitochondries 1 2 2 Caract ristiques des g nomes DC EEUU OD EE 1 4 Analyses phylog n tiques 1 5 Objectifs du projet eos etek bo eS es Ibm eos dent 2 Mat riel et m thodes 2 1 IWDependences e s do 653485554 28 REESE HESS Bw Hs 21 1 Syst me d exploitation gt s e c osu scoa eG uosa Ed 44 Ge a k w SE PIK Un 10 BODO a uim 8 ceed 2b OI si Rat tan AEK AAA Zl BLASE diri ds de dit hen A 240 WISP OMEN D uoc ooo eos A ADD mo ADI dec ee 2 1 0 clustalw et t_coffee du Eu ah RR RU RR OR FR DR Rh Pa A 0 4h 24 6 EMBOSS ce AG sex Xe ok Pese 4a Te Xx WR O A eos 2 1 9 Utilitaires Unix a LL LL kx RAE RASSE RS 2 2 Les formats de fichiers 2 5 24 4 46 2d ee eR pr CE dus 221 Genbank I 000000 LL LL iv s E W M M FA M Ri M 00 00 Table des mati res 2242 E AEREA ARTE ee Se de A 2 2 3 Longueur d OXON mee rs ds m me Bi RR o 224 Liste d organismes Les s ec ea Oa RR W
86. or ductase ndhA ndhB ndhC ndhD ndhE ndhF ndhG ndhH ndhl ndhJ ndhK Prot ines ribosomales de rpli rpl2 rpl3 rpl4 rpl5 rpl rpl9 rpl11 rpl12 rpl13 la grande sous unit rpl14 rpl16 rpl18 rpl19 rpl20 rpl21 rpl22 rpl23 rpl24 rpl27 rpl28 rpl29 rpl31 rpl32 rpl33 rpl34 rpl35 rpl36 Prot ines ribosomales de rpsl rps2 rps3 rps4 rps rps6 rps7 rps rps9 rps10 C cpP la petite sous unit rps11 rps12 rps13 rps14 rps15 rps16 rps17 rps18 rps19 rps20 ARN polym rase rpoA rpoB rpoC1 rpoC2 iA B inf tj tf Division ftsH ftsl ftsW minD minE du chloroplaste Chapitre 1 Introduction 9 Prot ines de ycf1 ycf3 ycf4 ycf12 ycf16 ycf17 ycf19 ycf20 ycf21 ycf22 fonction inconnue ycf23 ycf24 ycf27 ycf29 ycf33 ycf34 ycf35 ycf36 ycf87 ycf88 ycj39 ycf40 ycj 1 ycf43 ycf44 ycf45 ucf46 ycf47 ucf48 ycf49 ycf50 ycf51 ycf52 ycf53 ycf54 ycf55 ycf56 yef57 ycf58 ycf59 ycf60 ycf61 ycf62 ycf63 ycf64 ycf65 ycf66 ycf80 ycf81 ycf82 ycf83 ycf84 ycf85 ycf86 ycf87 Autres prot ines acpP argB bas1 bioY carA cbb X ccsA cemA cobA crtE dfr dnaB dnaK dsbD fabH fdx ftrC glmS glnB gltB hemA hisH hlpA lipB lpxA lpxC menA menB menC menD menE menF moeB nadA nblA ntcA pbsA pgmA preA rne thdF thiG trpA trpG trxA upp ARNs de transfert trnA ggc trnA ugc trnC gca trnD guc trnE uuc trnF gaa trnG gcc trnG ucc
87. ormats de s quences align es En fait il retourne un objet compos de plusieurs objets Seq Ainsi des m thodes sp cifiques aux alignements peuvent tre utilis es mais il est aussi possible d utiliser les m thodes sp cifiques aux objets Seq sur chacune des s quences composant l alignement 2 1 4 BLAST BLAST 11 Basic Local Alignment Search Tool est un outil de recherche d ho mologies entre une s quence et une banque de s quences La banque et la s quence peuvent tre soit une s quence prot ique ou nucl otidique L algorithme utilis a t concu pour tre rapide en sacrifiant un minimum de sensibilit Pour qu un utilisateur puisse effectuer une recherche BLAST il faut avoir cr dans son r pertoire usager un fichier ncbirc pour indiquer l emplacement des fichiers de donn es n cessaires BLAST Ce fichier doit contenir la ligne NCBI suivi de la ligne Data usr share ncbi data sous Linux ou de la ligne Data usr local bin blast data sous Mac OS X lorsque BLAST est intall manuellement Cette ligne peut varier selon la m thode d installation utilis e Elle indique le chemin correct vers les fichiers de donn es de BLAST lesquels sont principalement des matrices de substitution Chapitre 2 Mat riel et m thodes 24 2 1 5 MSPcrunch MSPcrunch 18 est un outil de filtration de r sultats de recherche BLAST Il permet entre autre d liminer les r sultats non significatifs ou provenant d un biais de compo
88. pl item intron which contains intron sequences and lengths back headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt cut use strict use Bio Seql0 use Bio Location Split ouverture du fichier d entree my in Bio SeqI0 gt new file gt ARGV O format gt Genbank lecture de la sequence my seq in gt next_seq extraction de l organite d origine suppose que c est le troisieme mot de la description ne fonctionne pas toujours my desc seq gt desc chop desc my Cdesc split desc chop desc 2 normalement desc 0 est le genre desc 1 l espece et desc 2 l organite creation des repertoires Annexe B Les scripts 93 mkdir mkdir mkdir mkdir mkdir mkdir RNA prot cDNA gene exon intron 0755 0755 0755 0755 0755 0755 we NY R NS NR we foreach my feat seq gt top_SeqFeatures extraction de tous les genes incluant tRNA rRNA ou sequence codante if feat gt primary_tag eq gene if feat gt has_tag gene foreach my gene feat gt each_tag_value gene my partseq feat gt seq partseg gt id gene my name split M gene partseg gt desc desc 2 desc 0 desc 1 my out Bio SegIU gt new file gt gt gt gene name 0 tfa gt format gt Fasta out write seq par
89. plastiques d int r t pour le laboratoire Cette base de donn es est facilement consultable et modifiable dans son format actuel Elle est utilis e de fa on courante par les membres du laboratoire Elle peut tre utilis e la fois pour des recherches d homologies et pour des analyses phylog n tiques Sa structure bas e sur des r pertoires permet d y ajouter facilement de nouvelles donn es sans nuire son fonctionnement Des outils pour faciliter la mise jour de la base de donn es sont disponibles et fonctionnels gbkextract pl facilite l ajout de nouveaux organismes updatealign pl et addexons pl permettent de formater les alignements de s quences codantes pour leur ajouter les positions des introns formatdb sh et tfa2long sh simplifie le formatage de la base de donn es pour les recherches d homologies par BLAST filtertfa pl et filterselex pl permettent d extraire les s quences d sir s de la base de donn es Ils produisent des fichiers au format Fasta Ce format est un format de base qui est utilisable par la plupart des outils bioinformatiques Si cela est n cessaire il peut tre converti en d autres formats gr ce l utilitaire readseq L identification des g nes dans un g nome nouvellement s quenc est maintenant beaucoup facilit e par la recherche automatique des homologies de s quence et l identi fication des cadres de lecture ouverts findorf pl permet de d terminer les r gions d un g nome nouvellement s
90. prendre est de rendre ces scripts accessibles par l interm diaire d une interface Web Cela permettrait d avoir une base de donn es centralis e sur un seul serveur plut t qu une copie de la base de donn es qui doit tre maintenue jour sur chaque station de travail Il serait aussi souhaitable de cr er des outils pour charger la base de donn es qui a t cr e dans une base de donn es relationnelle Cela permettrait de simplifier le d ve loppement de certains outils et rendrait plus facile le d veloppement d une plateforme Web pour acc der la base de donn es sur un serveur central Cependant cela rendrait la base de donn es plus difficilement accessible pour quelqu un n ayant que tr s peu de formation en informatique Il peut donc tre pr f rable de conserver les deux formats de base de donn es pour un certain temps La plupart des scripts produits pourraient facilement tre r crits pour utiliser une base de donn es relationnelle Bibliographie 2 BI b 6 7 8 9 10 11 12 13 The Genome Sequencing Center and the Sanger Centre Genome Sequence of the Nematode Caenorhabditis elegans A Platform for Investigating Biology Science 282 2012 2018 1998 M D Adams S E Celniker R A Holt C A Evans J D Gocayne P G Ama natides S E Scherer P W Li R A Hoskins R F Galle and coll The genome sequence of Drosophila melanogaster Science 287 2185 2195 2000
91. psaA tfa psbD tfa psbM tfa rpl2 tfa rpsi4 tfa ycf3 tfa ccsA tfa psaB tfa psbE tfa psbN tfa rpl36 tfa rps18 tfa ycf4 tfa clpP tfa psaC tfa psbF tfa psbT tfa rpoA tfa rps19 tfa petA tfa psal tfa psbH tfa psbZ tfa rpoB tfa rps2 tfa D 3 Fichier Goptns txt G 54 491 470 119 157 81 190 178 266 215 160 35 26 738 733 79 30 39 349 506 460 339 73 34 57 35 35 38 38 31 40 29 61 475 115 131 266 107 28 154 825 452 545 119 120 93 52 92 217 177 137 155 104 166 169 D 4 Topologies s lectionn es par la recherche exhaus tive de protml 105 10395 protmlcp 2 3b3 mtREV24 F 8 OTUs 10831 sites lt 105 trees top ranking for approx ln L in the top 30 0 range of TBL range TBL trees lt 110 06 0 5 111 25 6 10 112 44 24 15 113 62 40 20 114 81 54 xx 25 115 99 125 30 117 18 126 35 118 37 97 xxx 40 119 55 189 kkkkkk 45 120 74 334 kkk kkk kk 50 121 92 455 seo 55 123 11 628 xokokokokokokokokokokokokokokokokokokokokokokok 60 124 29 882 kkk RCA zk zh kkk kk kkk kk HO 65 125 48 TAB ES 70 126 67 693 k kkk kkk Ok kk 75 127 85 1082 GROG RR EH oko oke ke de k de te k k do de de de de de de de de ie 80 129 04 1286 kkk RIO O GO O IK ke oko 21 2 ke 2k 2k 2k kkk kkk 85 130 22 1276 kkk kkk I IA O GO GR I FO 2 2k 3 2k 6 gt gt a 2k a 2k Annexe D R sultats d analyses 119 90 131 41 1229 E 95 132 60 900 2 RRR kkk kk kkk k oko oko A k k kkk kk 100 133 78
92. pts B 1 addexons pl usr bin perl w headi NAME addexons pl produce Selex files headi SYNOPSIS addexons pl file fasta path to loc headi DESCRIPTION addexons pl takes as first argument a Fasta file containing the aligned Sequences coding for a given protein and as second argument a directory containing a file of the same name with the loc extension which contains the lengths of the exons for each organism that features introns in this protein It outputs in the current directory a file containing the aligned sequences in Selex format with the intron positions marked by gt lt headi AUTHOR Annexe B Les scripts T2 Written by Jules Gagnon lt eonwe users sourceforge net gt cut use strict use Bio AlignIO my in Bio AlignI0 gt new file gt ARGV O format gt fasta Bio AlignI0 gt newFh format gt fasta my aln in next aln my out my maxn 20 my LINELENGTH 100 my Corgtab my lentab my Cname split N ARGV O open OUTPUT gt name 0 selex if open LOC ARGV 1 name 0 loc while LOC my Ctmp split my Cnew Otmp 1 Ctmp lentab tmp 0 Gnew foreach my seq aln gt each_seq my substring my Coutarray my seqchars seq gt seq my count 0 my count2 1 my Gtabpos my seqstr seg gt seg seqstr tr atcgn ATCGN seqstr s ATCGN 3 1 g
93. r Figure 3 2 Chapitre 3 R sultats 36 Figure 3 1 Structure de la base de donn es Structure des r pertoires de la base de donn es Les r pertoires se terminant par old sont des copies de sauvegarde de la version pr c dente des r pertoires correspondant Les fichiers l int rieur des r pertoires ne sont pas montr s Chapitre 3 R sultats 37 Y e db 7 a cDNA_alignments gt Be gt D mt v 3 cDNA seq b El cp Y A cDNA_seq_old b ES cp Y a complete_genomes gt Bo b El m Y a exon_db b EE cp b El mt Y e exon db old D De Y ca prot_alignments D Be Y a prot_seq gt ep b El mt z ea prot seq old b El cp b ES mt Y a RNA_seq D Dep b Z m Y w RNA_seq_old b Dep b DS m Chapitre 3 R sultats 38 Figure 3 2 Maintien de la base de donn es Sch ma de fonctionnement des scripts servant la mise jour de la base de donn es L action d un script est repr sent e par une fl che et les r sultats sont indiqu s dans les boites Chapitre 3 R sultats 39 fichiers GenBank gbkextract pl p s quences d acides s quences prot iques s quences codantes longueurs d exons y ribonucl igues DB de s guences DB de longueur DB d acides DB de prot ines codantes d exons ribonucl iques align pl alignement de prot ines codonalign pl alignement de s quences updatealign pl codantes addexons pl DB d alignement selex Chapitre 3 R sultats
94. r et des fichiers Selex filtrer Il produit des fichiers au format Fasta dans le r pertoire courant qui contiennent seulement la s quence codante des organismes demand s et les s quences sont plac es dans le m me ordre que les organismes dans la liste Les seuls caract res qui sont conserv s sont A C G T et N de fa on enlever tout l espacement et les symboles de br ches gaps Toutes les lignes d butant par un di se sont ignor es lors de la lecture 3 1 6 filtertfa pl filtertfa pl Annexe B 6 prend en entr e une liste d organismes conserver et des fichiers Fasta filtrer Il produit des fichiers au format Fasta dans le r pertoire filtered qui contiennent seulement la s quence des organismes demand s et les s quences sont plac es dans le m me ordre que les organismes dans la liste Aucune attention n est accord e savoir de quel type de s quence il s agit ou m me si ce sont des s quences valides 3 1 7 findorf pl findorf pl Annexe B 7 permet d identifier les positions des g nes dans un g nome nouvellement s quenc Il proc de en deux tapes D abord il utilise le programme getorf de la suite EMBOSS pour trouver les cadres de lecture ouverts Les s quences de ces cadres de lecture ouverts et leurs traductions sont plac s dans deux r pertoires et chaque traduction est soumise une recherche BLAST contre les bases de donn es locales pour tenter de l identifier Si une identificat
95. re getorf est utilis par le script findorf pl pour identifier les cadres de lecture ouverts Il peut tre n cessaire de modifier le code g n tique utilis selon les besoins findorf pl utilise par d faut le code g n tique 11 Le fichier correspondant est EGC 11 dans le r pertoire usr share EMBOSS data sous Linux ou sw share EMBOSS data sous Mac OS X lorsque EMBOSS a t install en utilisant Fink Chapitre 2 Mat riel et m thodes 25 2 1 9 Utilitaires Unix Quelques utilitaires simples sont n cessaires tels que head grep et sort Ils sont habituellement retrouv s dans le paquet coreutils lequel inclus les paquets anciennement appel s fileutils sh utils et textutils L utilitaire sed doit aussi tre install pour certains scripts Les scripts shell ont t con us pour tre ex cut s sous shell bash Il est donc n cessaire que bash soit pr sent sur le syst me m me si ce n est pas le shell par d faut pour pouvoir les utiliser Tous ces utilitaires sont install s de fa on standard avec la plupart des distributions Linux et Mac OS X 2 2 Les formats de fichiers Plusieurs formats de fichiers sont employ s pour le stockage des donn es de s quences biologiques Cela constitue un des grands probl mes de la bioinformatique Il est donc utile de faire un survol rapide des formats les plus courants pour conna tre les particularit s de chacun 2 2 1 Genbank Dans le laboratoire le format Genbank Annexe A 1
96. re ouverts pr sents cette position s il y en a De plus si le cadre de lecture ouvert a t identifi le nom de la prot ine sera aussi indiqu Les trois r pertoires produits sont nomm s d apr s l identifiant d organisme avec des noms au format GENRespec seq GENRespec trans et GENRespec identified Le premier contient la s quence en nucl otides de chacun des cadres de lecture ouverts Le deuxi me contient leurs s quences traduites selon le code g n tique standard Le troi si me contient les cadres de lecture ouverts qui ont t identifi s comme correspondant des prot ines pr sentes dans la base de donn es L tape suivante consiste v rifier les cadres de lecture ouverts qui ont t identifi s par findorf pl par alignement comme indiqu dans la section 3 2 1 Dans le cas des g nes contenant des introns le fichier tabul permet de situer approximativement chacun des exons mais il sera n cessaire de d terminer les jonctions intron exon de facon pr cise en d terminant la structure de l intron Pour ce qui est des cadres de lecture non identifi s le fichier tabul permet d identifier ceux qui codent potentiellement pour une prot ine Il est ensuite n cessaire de faire une recherche BLAST contre la base de donn es compl te du NCBI pour d terminer s ils sont homologues d autres prot ines connues Chapitre 3 R sultats 42 Lorsque la s quence des cadres de lecture qui codent pour des prot ine
97. re unaligned AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt Annexe C Manuel d utilisation 112 C 5 filtertfa pl Keep only the desired organism for a Fasta file SYNOPSIS filertfa pl ORG list tfa DESCRIPTION filtertfa pl takes a file containing the list of the desired organisms to be kept and a list of Fasta files to be filtered It creates a directory named filtered which contains all the Fasta files featuring all and only the desired organisms AUTHOR Written by Jules Gagnon lt eonweQusers sourceforge net gt C 6 findorf pl Find ORFs and BLAST the genome SYNOPSIS findorf pl file fasta cp mt min orf len Annexe C Manuel d utilisation 113 DESCRIPTION findorf pl uses getorf from EMBOSS to identify the open reading frames By de fault it uses the translation table 11 which can be modified to select initiation codons The default minimum ORF length is 28 codons but another value can specified as the third command line argument The sequences and the products of the found ORFs are put in the seq and trans directory respectively The translated sequences are BLASTed identified and tagged appropriatly using only the matches from the specified organite in the file name or the second argument findorf pl also divides the genome in parts of 100 bp and BLASTs them keeping only the results from the specified organite Then it outputs in tab delimited format for each position by incr
98. rid PEDIminor 957 RR UR GR Ro vo cc no 1 1 W w m OU UNNNBPUOODONODDMDUONBRBOOONH OO Annexe D R sultats d analyses 120 CYANparad MESOvirid CHLOvulga PEDIminor NEPHoliva NICOtabac PINUthunb MARCpolym 959 7 CYANparad NEPHoliva PEDIminor NICOtabac PINUthunb MARCpolym MESOvirid CHLOvulga 963 4 CYANparad MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym CHLOvulga PEDIminor 968 6 CYANparad PEDIminor CHLOvulga MESOvirid NEPHoliva NICOtabac PINUthunb MARCpolym 970 5 CYANparad CHLOvulga PEDIminor NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym 995 4 CYANparad NEPHoliva NICOtabac PINUthunb MARCpolym PEDIminor CHLOvulga MESOvirid 1014 CYANparad PEDIminor CHLOvulga NEPHoliva MESOvirid NICOtabac PINUthunb MARCpolym 1014 CCCCYANparad MESOvirid PEDIminor CHLOvulga NEPHoliva NICOtabac PINUthunb MARCpolym 1016 CYANparad MESOvirid CHLOvulga NEPHoliva PEDIminor NICOtabac PINUthunb MARCpolym 1018 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac MARCpolym PINUthunb 1022 CYANparad MESOvirid NEPHoliva CHLOvulga NICOtabac PINUthunb MARCpolym PEDIminor 1024 CYANparad MESOvirid NEPHoliva CHLOvulga PEDIminor NICOtabac MARCpolym PINUthunb 1027 CYANparad MESOvirid NEPHoliva PEDIminor CHLOvulga NICOtabac
99. rt trnA ugc trnC gca trnD guc trnE uuc trnF gaa trnG gcc trnG ucc trnH gug trnl aau trnl cau trnI gau trnI uau trnK uuu trnL aag trnL caa trnL cag trnL cua trnL gag trnL uaa trnL uag trnM cau trnfM cau trnN guu trnP ugg trnQ uug trnR acg trnR ccu trnR gcg trnR ucg trnR ucu trnS acu trnS gcu trnS gga trnS uga trnT ggu trnT ugu trnV gac trnV uac trnW cca trnW uca trnY gua Autres ARN 17 Chapitre 1 Introduction 18 1 3 Informatique Gr ce l automatisation et la puissance grandissante des ordinateurs il est main tenant possible d effectuer des analyses qui auraient t difficilement envisageables au paravant Malgr que le fait que la puissance des ordinateurs double environ tous les 18 mois et que la quantit de donn es biologiques croit selon un rythme similaire la disponibilit de chercheurs pouvant analyser ces donn es ou concevoir des outils pour en acc l rer l analyse reste limit e L tape limitante est maintenant devenue l analyse des donn es Une fois le s quen cage d un g nome compl t il reste identifier les g nes et leurs positions Dans le laboratoire des Drs Lemieux et Turmel ce travail qui tait jusqu alors effectu l aide des logiciels de la suite GCG 10 n cessitait d identifier un par un chaque cadre de lecture ouvert et chaque r gion codant potentiellement pour un g ne en faisant une recherche BLAST
100. s contenues dans un fichier preparednamatrix pl Pr pare une matrice de s quences codantes pour une ana KOM o o prepareproteinmatrix pl Pr pare une matrice de prot ines pour une analyse phy prepsequin pl Pr pare le fichier pour annoter les prot ines dans Sequin tfa2long sh Convertie un identifiant d organisme en une description longue updatealign pl Met jour les alignements Selex partir des alignements de prot ines des s quences codantes et des longueurs d exons Chapitre 3 R sultats 31 3 1 2 align pl align pl Annexe B 2 est un script facilitant l alignement de plusieurs fichiers de s quences automatiquement Il aligne la liste de fichiers qui lui est pass e en param tre en faisant appel t_ coffee par d faut ou clustalw si l option c est utilis e Il utilise l option outorder input pour s assurer que l ordre des s quences dans le fichier d alignement est le m me que dans le fichier d entr e Les fichiers d alignement produits sont en format clustalw puisque c est le format de sortie par d faut des deux programmes d alignement Les autres options sont laiss es leurs valeurs par d faut 3 1 3 choosetpl pl choosetpl pl Annexe B 3 sert filtrer les topologies ayant une valeur de bootstrap non nulle Il prend comme fichiers d entr e la liste de topologies produite par la recherche exhaustive de protml et le r sultat de l valuation de ces topologies qui est produit par protml lorsqu a
101. s est correc tement d termin e il est possible en utilisant prepsequin pl de pr parer un fichier Fasta contenant toutes les s quences et qui peut tre utilis par Sequin pour annoter automa tiquement la s quence Il est cependant n cessaire de r viser tout de m me l annotation pour s assurer de son exactitude Il est aussi possible d int grer directement les s quences prot iques v rifi es aux fichiers pr sents dans le r pertoire prot seq de la base de donn es en les copiant la fin des fichiers correspondants Cependant cela provoque une d synchronisation de la base de donn es puisque les fichiers des autres r pertoires de la base de donn es n incluent pas les nouvelles s quences findorf pl permet de trouver la position approximative des ARN de transfert et des ARN ribosomaux mais pour d terminer leurs positions exactes il est n cessaire de conna tre leurs structures secondaires Dans le cas des ARN de transfert le programme tRNAscan SE 23 est utilis Il pr dit la structure secondaire des ARNts et produit un fichier qui contient les positions de d but et de fin de chacun des ARN de transfert et il identifie l anticodon Cette information peut tre entr e dans Sequin manuellement La structure secondaire des ARN ribosomaux tant assez bien conserv e il est relati vement facile de d terminer leurs structures de facon manuelle Ensuite il suffit d entrer les positions de d but et de fin dans Sequin pour
102. st of Selex files to be filtered It outputs a Fasta file for each Selex file in the current directory and the Selex files are unmodified The Fasta files are unaligned headi AUTHOR Written by Jules Gagnon lt eonwe0users sourceforge net gt cut use Bio Seql0 use strict if GARGV lt 2 4 my USAGE qq 1 filterselex pl ORG list path to selex E print USAGE exit my list shift while my f shift 1 open IN f my name while IN if ANS name 1 2 if w V d d ATCGN 1227 my path split f my fname ext split path scalar path 1 my out Bio SeqIO0 new file gt gt fname tfa gt format gt Fasta foreach my seg sort keys name name seq s g Annexe B Les scripts out gt write_seg new Bio Seq seq gt name seq id gt seq system filtertfa pl list tfa unlink lt tfa gt system mv filtered rmdir filtered B 6 filtertfa pl usr bin perl w headi NAME filtertfa pl keep only the desired organism for a Fasta file headi SYNOPSIS filertfa pl ORG list tfa headi DESCRIPTION filtertfa pl takes a file containing the list of the desired organisms to be kept and a list of Fasta files to be filtered It creates a directory named filtered which contains all the Fasta files featuring all and only the desired organis
103. t gt name tfa format gt fasta while my aln inli next aln aln 5set displayname flat outi write aln aln Gblocks name tfa t p my in Bio AlignI0 gt new file gt name tfa gb format gt fasta my out Bio AlignI0 gt new file name aln gb format gt clustalw while my aln in next aln Annexe B Les scripts aln gt set_displayname flat out gt write_aln aln unlink name dnd unlink name tfa unlink name tfa gb y my in Bio AlignI0 gt new file gt name aln gb format gt clustalw my aln in gt next_aln print GOPT aln gt length B 12 prepsequin pl usr bin perl w headi NAME prepsequin pl Prepare protein sequences for input by Sequin headi SYNOPSIS prepsequin pl tfa headi DESCRIPTION prepsequin pl requests the organism name and the output file then selects all protein sequences from the organism in the input files specified on the command line and reformats them in a format suitable for input by Sequin headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt 100 Annexe B Les scripts cut my DBHOME ENV DBHOME 7 ENV DBHOME Users Shared db print Please enter the organism name my organism lt STDIN gt chomp organism print Please enter the filename you want to print t
104. t PROT s gt ZYGNcircu gt PROT s gt BRYOplumo gt PROT s gt DERBmarin gt PROT s gt ADIAcapil gt PROT s gt CALYferti gt PROT s gt PHYSpaten gt PROT s gt AMBOtrich gt PROT s gt VAUCbursa gt PROT s gt LAMIdigit gt PROT s gt PYLAlitto gt PROT s gt ORYZsativ gt PROT 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 103 Pseudendoclonium akinetum Neochloris pseudoalveolaris Pedinomonas minor Chlorella vulgaris Scenedesmus obliquus Chlamydomonas reinhardtii Marchantia polymorpha Pinus thunbergii Nicotiana tabacum Reclinomonas americana Cyanidioschyzon merolae Chondrus crispus Rhodomonas salina Ochromonas danica Prototheca wickerhamii Chlamydomonas eugametos Chlorogonium elongatum Oltmannsiellopsis viridis Arabidopsis thaliana Staurastrum punctulatum Beta vulgaris Psilotum nudum Chlorokybus atmophyticus Anthoceros formosae Chara vulgaris Zygnema circumcarinatum Bryopsis plumosa Derbesia marina Adiantum capillus Calycanthus fertilis Physcomitrella patens Amborella trichopoda Vaucheria bursata Laminaria digitata Pylaiella littoralis Oryza satival s gt ZEAma
105. t les s quences de quelques prot ines ou les s quences des ARN ribosomaux comme c tait le cas au cours des derni res ann es Par contre cette m thode est encore utilis e lorsqu on d sire effectuer une phylog nie comportant de nombreux organismes De nombreuses m thodes peuvent tre employ es pour tenter de d terminer les relations phylog n tiques existant entre diff rents organismes gr ce aux donn es de s Chapitre 3 R sultats 44 quences d organites En autre plusieurs types d analyse sont possibles Certaines ana lyses utilisent la distance d autres utilisent le plus petit nombre de changements la parcimonie alors que dans le groupe du Dre Turmel et du Dr Lemieux les analyses utilisant le maximum likelihood la plus grande probabilit d tre vrai sont pr f r es lorsqu il est possible de les utiliser Les analyses de type maximum likelihood valuent un mod le d volution d apr s les donn es Ainsi plus la valeur de likelihood est lev e plus il est probable que le mod le d volution soit vrai et que les s quences utilis es aient vraiment volu selon ce mod le Le mod le d volution inclut la fois les probabilit s de mutation et l arbre phylog n tique De plus plusieurs types de donn es peuvent tre utilis s pour effectuer des ana lyses phylog n tiques des caract ristiques morphologiques des s quences de g nes des s quences de prot ines ou des donn es sur l ordre d
106. t revcom Qintrons reverse Qintrons foreach Cintrons _ _ gt revcom open INTRON gt gt intron ARGV 1 _size xls print INTRON name O Nt foreach Cintrons il y a des introns 94 Annexe B Les scripts 95 my outintron Bio SeqI0 gt new file gt gt gt intron name 0 tfa format gt Fasta y outintron gt write_seg _ print INTRON _ gt length Nt y print INTRON in close INTRON I if feat gt primary_tag eq tRNA feat primary tag eq rRNA 1 my out Bio SeqI0 gt new file gt gt gt RNA name 0 tfa format gt Fasta out gt write_seq partseq if feat gt primary_tag eq CDS ecriture du fichier de cDNA my out Bio SeqI0 gt new file gt gt gt cDNA name 0 tfa format gt Fasta out write seq partseq gt trunc 1 partseq gt length 3 if scalar Otab exon len gt 1 ecriture du fichier de longueur d exon open OUTPUT gt gt exon name 0 loc print OUTPUT join ARGV 1 Otab exon len print OUTPUT An close OUTPUT if feat gt has_tag translation foreach my prot feat gt each_tag_value translation 1 Annexe B Les scripts 96 ecriture du fichier de sequence proteique my protseq Bio PrimarySeg gt new seq gt prot id gt ARGV 1 alphabet gt protein
107. tis s Ils peuvent maintenant effec tuer 96 s quences simultan ment et m me plus avec les appareils de la toute derni re g n ration De plus avec l apparition de l lectrophor se par capillaire il n est plus n cessaire de pr parer un gel et le temps n cessaire la pr paration d une r action de s quence est beaucoup diminu Toutes ces am liorations des r actions de s quences ont acc l r grandement le pro cessus titre d exemple les premiers s quenceurs automatiques permettaient d effec tuer au plus deux s ries d lectrophor se par jour alors que les derniers mod les peuvent effectuer jusqu 24 s ries en 24 heures 1 1 3 Outils informatiques L acc l ration des ordinateurs a permis le d veloppement de nombreux outils pour analyser la grande quantit d information produite par les s quenceurs automatiques De plus le s quencage des g nomes de plusieurs organismes mod les tel que le ver Chapitre 1 Introduction 3 C elegans 1 la mouche drosophile 2 la souris 3 et l tre humain 4 a entra n un rafinement de ces outils et une meilleure standardisation des m thodes utilis es Les logiciels d assemblage de s quence ont beaucoup b n fici de ces grands pro jets de s quencage Ils ont maintenant des algorithmes plus fiables et plus rapides Ces am liorations permettent d utiliser la technique de bris al atoires pour effectuer le s quencage de g nomes complets Cette technique si
108. topo tre Le fichier topo tre Annexe D 6 contiendra uniquement les topologies ayant une valeur bootstrap non nulle sans que l ordre par rapport aux fichiers de sortie de protml ne soit chang Ces topologies peuvent alors tre valu es avec des mod les plus complexes gr ce au programme codeml de PAML Chapitre 3 R sultats 52 Lorsqu ex cut es avec la matrice de s quences pr alablement obtenue trois topolo gies sont s lectionn es Dans les trois topologies seule la position de Mesostigma viride varie La topologie 1 Figure 3 5 place Mesostigma viride comme provenant d une lign e basale apparue avant la s paration des chlorophyes et des streptophytes La topologie 2 Figure 3 6 place cette algue verte la base des chlorophytes alors que la topologie 3 Figure 3 7 la place la base des streptophytes D apr s les valeurs de likelihood la meilleure des trois topologies serait la to pologie 1 Ces r sultats sont conformes avec ceux qui avaient t obtenus lors de la publication de l tude Cependant les valeurs de likelihood Annexe D 5 diff rent l g rement Cela est principalement d au g ne ycf3 qui avait t oubli lors de la pr paration de la matrice de s quences 3 3 3 Analyse de s quences codantes La proc dure pour l analyse de s quences codantes est tr s similaire celle pour l analyse de s quences prot iques Puisque les alignements de s quences codantes sont bas s sur ceux de prot i
109. tseq extraction des cDNA sequence de proteines et RNA if feat primary tag eg tRNA feat primary tag eq rRNA feat primary tag eq CDS if feat Dhas tag gene foreach my gene feat gt each_tag_value gene my partseq feat gt seq fon ajuste la ligne de description partseq gt id ARGV 1 partseq gt desc my name split gene pas de slash dans un nom de fichier my tab_exon_len my loc feat gt location if loc gt to_FTstring join Annexe B Les scripts my realseq my introns my prev end foreach my location loc gt sub_ Location sequence codante de chaque exon realseq feat gt entire_seq gt subseq location gt start location gt end longueur de chaque exon push Gtab exon len location gt length l intron if defined prev_end amp amp prev end 1 lt location gt start 1 my newintron feat gt entire_seq gt trunc prev_end 1 location gt start 1 newintron gt id ARGV 1 newintron gt desc prev end 1 location gt start 1 0 push introns newintron prev_end location gt end assignation de la sequence codante seulement partseq gt seq realseq inverse si on est sur le brin complementaire if loc gt strand 1 Otab exon len reverse Otab exon len partseq partseg g
110. u ter dans le r pertoire filtered la commande align pl tfa pour lancer l alignement avec t coffee Cette tape peut tre assez longue et exigeante en ressources syst mes selon le nombre de prot ines et d organismes Dans certains cas il peut tre n cessaire d utiliser l option c de align pl lequel utilisera alors clustalw pour faire l alignement Les alignements obtenus avec clustalw sont dans certains cas de moins bonne qualit mais ce programme est moins exigeant en ressources syst mes surtout au niveau de la m moire Avant d entreprendre une analyse phylog n tique il est n cessaire d enlever les r gions non conserv es Pour cela le programme Gblocks 29 est utilis Il proc de en d terminant les blocs de l alignement qui sont conserv s chez tous les organismes Ce crit re est essentiel pour effectuer une analyse par maximum likelihood car les mo d les ne permettent pas de traiter les insertions et les d l tions Les blocs qui sont conserv s la suite d une filtration par Gblocks ne contiennent aucune br che et sont encadr s par des r sidus conserv s De plus le nombre de r sidus non conserv s succes sifs est limit Les param tres de filtration peuvent tre ajust s quoique les param tres par d faut soient habituellement utilis s Une filtration trop stricte enl ve beaucoup d informations phylog n tiques alors que des param tres trop souples peuvent produire des r sultats divergents et augm
111. ucune recherche de topologies n est demand e Il v rifie une une les topologies et s assure que leur valeur bootstrap est non nulle Les topologies retenues sont affich es sur la sortie standard 3 1 4 codonalign pl codonalign pl Annexe B 4 prend comme param tres un r pertoire contenant les alignements de prot ines et une liste de fichiers Fasta contenant les s quences codantes aligner Pour chaque fichier de s quence codante un fichier au format Fasta align est produit avec l extension dna aln Dans cet alignement chaque acide amin de l alignement de prot ine est remplac par les trois nucl otides le codon ayant la posi tion correspondante dans le fichier de s quences codantes et chaque symbole de br che gap est remplac par trois symboles de br che Il n y a pas de v rification qui est faite pour s assurer que le codon code vraiment pour l acide amin qu il remplace Cela peut entra ner des erreurs si les fichiers de s quences ne correspondent pas mais cela vite d avoir tenir compte des diff rents codes g n tiques pouvant tre utilis s dans un m me alignement Cependant aucun alignement n est produit et un message d er reur est affich si les longueurs des s quences ne correspondent pas ou si l ordre des s quences n est pas la m me dans les deux fichiers d entr e Chapitre 3 R sultats 32 3 1 5 filterselex pl filterselex pl Annexe B 5 prend en entr e une liste d organismes conserve
112. uite dans le cadre de ce projet en date du 9 d cembre 2003 Pour les g nomes incomplets ou divis s en plusieurs segments la taille est la somme des tailles de chacun des segments disponibles Le nombre de g nes a t calcul partir des g nes pr sents dans la base de donn es Le num ro d accession correspond celui retrouv dans la base de donn es du NCBI L abr viation n d indique que le g nome n est pas disponible dans la base de donn es du NCBI Chapitre 1 Introduction Nove de gines DEL i T Hor sol Charo valgan DS DS Ncwmw Marais polymorpha 185608 9 NC 15 Chapitre 1 Introduction 16 Tableau 1 4 Les g nes mitochondriaux Liste des g nes mitochondriaux pr sents dans la base de donn es d velopp e durant ce projet en date du 9 d cembre 2003 group s selon leurs produits ou leurs fonctions Chapitre 1 Introduction Produits des gine Prot ines ribosomales de rpl1 rpl2 rpl5 rpl6 rpl10 rpl11 rpl14 rpl16 rpl18 la grande sous unit rpl19 rpl20 rpl27 rpl31 rpl32 rpl34 Prot ines ribosomales de rpsl rps2 rps8 rps4 rps7 rps8 rps10 rps11 rps12 la petite sous unit rps13 rps14 rps19 NADH d shydrog nase nad1 nad2 nad3 nad4 nad4L nad nad nad nad nad9 nad10 nad11 Succinate ubiquinone sdh2 sdh3 sdh4 Ubiquinol cytochrome c cob Cytochrome c adas ATP synthase Biog n so du cytochrome c Voie de translocation de mttb ARNS de transfe
113. uniformiser la pr sentation Ensuite un espace est ajout apr s chaque trois caract res de s quence valides pour d limiter les codons La s quence est alors divis e pour tre affich e sur plusieurs lignes et les positions de jonction d exons sont calcul es Si le fichier de longueur d exons n existe pas aucune position de jonction d exons ne sera ajout e Finalement les ent tes sont ajout s et l alignement format est crit dans le fichier Selex portant le m me nom que le fichier d entr e Chapitre 3 R sultats Tableau 3 1 R sum des fonctions des scripts R sum des fonctions de chacun des scripts d crits dans ce chapitre 29 Chapitre 3 R sultats 30 addexons pl Cr e un alignement Selex partir de longueurs d exons et d un alignement de s quences codantes align pl Aligne plusieurs fichiers en une seule commande avec LN le tal to men O choosetpl pl S lectionne les topologies avec une valeur de bootstrap codonalign pl Aligne des s quences codantes en se basant sur l aligne oes ment des prot ines filterselex pl Convertie des fichiers Selex au format Fasta en conservant oues seulement les s quences demand es filtertfa pl Produit des fichiers Fasta contenant seulement les s a quences demand es findorf pl Identifie les cadres de lecture ouverts et les g nes d un pou nouveau g nome par des recherches BLAST Formate les s quences pour les recherches BLAST gbkextract pl Extrait les information
114. us grande taille et un plus grand nombre de copies du vecteur Ces nouveaux vecteurs facilitent la manipulation des insertions gr ce des sites d insertion multiple bord s de promoteurs pour des polym rases Chapitre 1 Introduction 2 Les techniques de polym risation en cha ne ont beaucoup b n fici du d veloppe ment de nouvelles vari t s d ADN polym rase plus fiables avec une meilleure processi vit et avec une meilleure r sistance aux hautes temp ratures Ainsi il est maintenant beaucoup plus facile d amplifier un fragment de s quence en grande quantit pour en effectuer le s quencage 1 1 2 Le s quencage automatique L apparition de nouvelles techniques de s quencage a permis la conception de s quenceurs automatiques Ces s quenceurs sont devenus au fil des innovations de plus en plus efficaces D abord le d veloppement de marqueurs fluorescents a permis la lecture automa tis e des gels de s quences De plus au fil des ans ces mol cules fluorescentes ont t am lior es pour offrir un signal plus intense et ainsi plus facilement d tectable Un autre domaine o d importantes am liorations ont eu lieu touche les ADN poly m rases Plusieurs vari t s d ADN polym rases ont t d velopp es pour les rendre de plus en plus processives et diminuer leurs taux d erreur Les s quenceurs eux m mes ont aussi subi d importantes modifications Ils sont maintenant en grande partie automatiques et robo
115. usr bin perl w head1 NAME choosetpl pl select topologies from protml output headi SYNOPSIS choosetpl pl file tpl file ml headi DESCRIPTION choosetpl pl parses the output of protml and selects the trees that have a non null bootstrap value Those trees are printed to the standard output and the number of trees selected is printed to STDERR headi AUTHOR Written by Jules Gagnon lt eonwe0users sourceforge net gt cut use strict ARGV gt 2 die Usage choosetpl pl file tpl file ml n 76 Annexe B Les scripts Tr open TPL shift open ML shift my 1ine my i while ML last if 60 lt TPL gt while lt TPL gt 1 if M ME 1 line _ last while lt ML gt chomp my ml split if ml 8 gt O 1 i my tpl split line print tpl n line lt TPL gt F print STDERR i n B 4 codonalign pl usr bin perl w headi NAME codonalign pl align a coding sequence using a protein alignment as reference headi SYNOPSIS codonalign pl aln dir tfa Annexe B Les scripts 78 headi DESCRIPTION codonalign pl aligns each Fasta file using the corresponding clustalw aln file in aln dir as reference In the output alignment in Fasta format each amino acid is replaced by the corresponding three nucleotides from the coding sequence and each gap is replaced by three gaps The output files have the same nam
116. ys gt PROT 0 Zea mays Annexe B Les scripts 104 B 14 updatealign pl usr bin perl w use strict use Bio AlignIO headi NAME updatealign pl update the Selex alignments headi SYNOPSIS updatealign pl ORG list aln headi DESCRIPTION updatealign pl takes as first argument the list of all organisms in the order they are to appear in the alignments and as second argument the alignment files of the proteins First it reorders the sequences in the protein alignments and in the coding sequence files from the database Then it calls codonalign pl to create the alignment of coding sequences Finally it calls addexons pl to reformat the alignment and to add the exon positions headi AUTHOR Written by Jules Gagnon lt eonwe users sourceforge net gt cut open LIST shift my dbhome ENV DBHOME 7 ENV DBHOME Users Shared db my numorg my ORGlist while my line LIST chomp line if line amp amp line Annexe B Les scripts 105 my Ctmparray split Nt 1ine if Ctmparray 1 numorg ORGlist tmparray 0 numorg close LIST while my f shift my Cpath split f my fname ext split path scalar path 1 1 my in Bio AlignlO gt new file gt f format gt clustalw my aln in next aln aln gt set_displayname flat my Corgtab for

Download Pdf Manuals

image

Related Search

Related Contents

EZ6502X    取扱説明書※PDFファイル  Bosch MFQ 2100 UC User's Manual  StecaGrid 1800 StecaGrid 3000 StecaGrid 2300 StecaGrid 3600  Anleitung ED/EE  Technical documentation Genomizer  

Copyright © All rights reserved.
Failed to retrieve file