Home

Bioinformatique BTV Alignement de Séquences

image

Contents

1. Partie th orique Dynamique 010 0 0 01 0 010 ECO EXEBERESERESESEI 0 1 1 2 21 212 3 2 4 2 5 2 2 4 16 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement par paires Programmation Dynamique Obtention de l alignement A partir de la matrice des scores optimaux M on obtient les alignements comme suit de la case MIN P prend une direction qui correspond au calcul optimal 42 60 Bioinformatique BTVAlignement de S quences L Partie th orique par paires Programmation Dynamique Exemple 1 directions en fonction de M Ix l 9 Cl NAN lT T f TR 3 T t IG t 4 15285 t STAT TT 0111 2 3 4 5 6 43 60 Bioinformatique BTVAlignement de S quences L Partie th orique par paires Programmation Dynamique Exemple 1 Alignements On obtient 5 alignements optimaux CATIE E CATTEC aC Nee 44 60 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement par paires Programmat
2. tasta e ldox_refl fasta puis calculez le SPS et le CS de des alignements obtenus 57 60 Bioinformatique BTVAlignement de S quences m Partie pratique E M O Dayhoff R M Schwartz and B C Orcutt A model of evolutionary change in proteins In M O Dayhoff editor Atlas of Protein Sequence and Structure volume 5 chapter 22 pages 345 352 National Biomedical Research Foundation 1978 G H Gonnet M A Cohen and S A Benner Exhaustive matching of the entire protein sequence database Science 256 1443 1445 1992 O Gotoh An improved algorithm for matching biological sequences Journal of Molecular Biology Vol 162 705 708 1982 S Henikoff and J G Henikoff Amino acid substitution matrices from protein blocks 58 60 Bioinformatique BTVAlignement de S quences L Partie pratique In Proceedings of the National Academy of Science volume Vol 89 pages 10915 10919 1992 V Levenshtein Binary codes capable of correcting deletions insertions and reversals Soviet Physics Doklady 10 8 707 710 February 1966 Wunsch C D Needleman S B A general method applicable to the search for similarities in the amino acid sequence of two proteins JMB 3 48 443 453 1970 T F Smith and M S Waterman Identification of common molecular sequences JMB 147 195 197 1981 J D Thompson F Plewniak and O Poch 59 60 Bioinformatiq
3. de l alignement Definition Alignement En bioinformatique l op ration d alignement vise identifier des zones communes un groupe de k s quences Definition Similarit et homologie des zones qui ressemblent sont dites similaires ou homologues si elles d rivent d un anc tre commun 11 60 3ioinformatique BTVAlignement de S quences Rappels ns de l alignement Applications tude phylog n tique tude comparative des g nomes comparative genomics pr diction de g ne pr diction de la structure 2D 3D des prot ines caract risation de la fonction des prot ines pr diction de la structure et fonction des ARN r seaux d interaction g n tique diff rence entre g notype et ph notype d couverte et conception de m dicaments 12 60 Bioinformatique BTVAlignement de S quences L Partie th orique Partie th orique Partie th orique 13 60 3ioinformati Definition Alignement local ou global global on tente d identifier des similarit s sur la longueur totale des s quences pb si s quences de longueur diff rentes local on tente d identifier des similarit s entre une s quence et une sous s quence 14 60 mc a th orique d alignements Definition Alignement local ou global global on tente d identifier des similarit s sur la longueur totale
4. T 01111 w x y A 11165020252 i 1262 2 E 2 T 1 2222256 Les scores w x y des op rations d alignement sont donn s par e 6 s il s agit d un appartement e 2 S il s agit dune substitution Partie th orique ER substitution Matrices li es aux AA PAM Point Accepted Mutation Henikoff 1 BLOSUM BLOck SUbstitution Matrices Dayhoff 4 e Gonnet 2 Relations entre matrices s quences peu divergentes BLOSUM80 PAM1 s quences tr s divergentes BLOSUM45 PAM250 en g n ral BLOSUM62 120 s quences courtes lt 35 70 lt 50 29 60 Partie th orique Definition Mod le de gap Un mod le gap est une application g de N R qui attribue un score qualifi ici de p nalit un ensemble de gaps cons cutifs Cette p nalit poss de un score g n ralement n gatif Definition Mod le de gap lin aire Dans ce mod le le score d un gap est proportionnel la longueur du gap et est donn par une formule de la forme e 0 si n 0 St nxgo si n gt 1 lt 0 est la p nalit introduite par l insertion d un nouveau gap et n est le nombre de caract res gap cons cutifs Definition Mod le de gap affine La fonction de score est donn e par n 0 SEE g n 1 si gt 1 OU lt 0 la p nalit d introduction gap ope
5. Jean Michel Richer jean michel richer univ angers fr http www info univ angers fr pub richer FACULT universit DES SCIENCES an g ers Unit de formation et de recherche Juillet 2008 Bioinformatique BTVAlignement de S quences L Pian 5 Partie th orique Alignement par paires Alignement multiple Partie pratique Bioinformatique BTVAlignement de S quences Rappels Rappels Rappels Bioinformatique BTVAlignement de S quences L Rappels Biologie mol culaire Definition Biologie Mol culaire Warren Weaver 1938 La biologie mol culaire o bio mol est une discipline scientifique qui vise comprendre les m canismes de fonctionnement de la cellule au niveau mol culaire Rappels ologie mol culaire Definition Biologie Mol culaire Warren Weaver 1938 La biologie mol culaire o bio mol est une discipline scientifique qui vise comprendre les m canismes de fonctionnement de la cellule au niveau mol culaire Historique 1930 techniques de diffraction rayons X 1953 d couverte de la structure de l ADN par Watson et Crick 1977 s quen age de l ADN par Gilbert et Sanger 2004 s quen age du g nome humain HUGO Bioinformatique BTVAlignement de S quences L Rappels Evolution point vue mol culaire Modifications point mutation modification d un AN ou AA
6. des s quences pb si s quences de longueur diff rentes e local on tente d identifier des similarit s entre une s quence et une sous s quence Definition Alignement par paires ou multiple par paires on aligne 2 s quences multiple on aligne plus de 2 s quences 15 60 Partie th orique Definition Alphabet Un alphabet gt ao a1 a est un ensemble fini de symboles distincts deux deux En particulier le symbole ag est appel br che ou gap en anglais et est repr sent par le caract re Par la suite nous utiliserons de mani re pr f rentielle le terme gap plut t que le terme br che 16 60 bets biologiques Definition Alphabet de l ADN Lalphabet des mol cules d ADN est compos de 5 symboles 1 qui repr sentent respectivement un gap la Cytosine la Guanine et la Thymine Definition Alphabet de l ARN Lalphabet des mol cules d ARN est compos 5 symboles A C G U qui repr sentent respectivement un gap l Ad nine la Cytosine la Guanine et l Uracile Definition Alphabet des Prot ines L alphabet des prot ines est compos de 21 symboles gt 1 LK L M N P 5 T V W Y qui repr sentent les diff rents acides amin s 17 60 Partie th orique ence et sous s quence Definition S quence On appe
7. insertion ajout d un nouvel ou AA e deletion suppresion d un AN ou AA e recombinaison des g nes Rappels volution du point de vue mol culaire Modifications point mutation modification d un AN ou insertion ajout d un nouvel AN ou e deletion suppresion d un AN ou AA e recombinaison des g nes R sultats e mauvais repliement gt fonction ineffective apparition d une nouvelle fonction gt nouvelle esp ce 3ioinformatique Rappels ne central Dogmes li l alignement e les AN ou AA essentiels la fonctions sont moins sujets mutation plus deux s quences se ressemblent plus elles ont une forte probabilit de se comporter de mani re identique Rappels E central Dogmes li l alignement e les AN ou AA essentiels la fonctions sont moins sujets mutation e plus deux s quences se ressemblent plus elles ont une forte probabilit de se comporter de mani re identique Un alignement permet l identification e de motifs fonctionnels ou structurels conserv s de zones non conserv es qui r sultent d v nements sp cifiques Bioinformatique BTVAlignement de S quences L Rappels Objectif de l alignement Definition Alignement En bioinformatique l op ration d alignement vise identifier des zones communes un groupe de k s quences 10 60
8. artie th orique ns d dition Definition Op ration d dition d une s quence l appariement ou mouvement diagonal qui consiste placer en regard des caract res qui ne sont pas des gaps de mani re faire appra tre soit des conservations pour lesquelles les caract res en regard sont gaux a a soit des substitutions pour lesquelles les caract res en regard sont diff rents a b a dans 5 est en regard b dans T Il s agit ici de faire appara tre une possible mutation ou d viter d introduire un nombre trop important de gaps l insertion d un gap dans S b nous qualifierons ce mouvement de vertical l insertion d un gap dans T a mouvement horizontal 22 60 Partie th orique S quences S CATGC et 7 ACAGTC CA TGC ACAGT C S T Op ration Description insertion dans S Cre appariement sur C A A A appariement sur G insertion dans 5 TR T T appariement sur T G C G C substitution de G par C C Gj insertion de dans T Bioinformatique BTVAlig nent de S quences Partie th orique L Alion We Definition Distance d dition A partir des op rations n cessaires pour obtenir un alignement on peut calculer une distance dite distance d dition ou de Levenshtein 5 d finie par q 0 six yj 45 7 i 1 Dans l exemple pr c dent la distance d d
9. ion Dynamique Autres types d alignement le m me principe peut tre appliqu e l alignement global avec gap affine Gotoh 82 3 e l alignement local Smith et Waterman 81 7 45 60 Bioinformatique BTVAlignement de S quences L Partie th orique par paires Autres m thodes BLAST FASTA Recherche dans les bases de donn es Lorsque l on doit r aliser de tr s nombreux alignements l algorithme de programmation dynamique est trop co teux Deux algorithmes heuristiques ont t d velopp s e BLAST FASTA 46 60 Partie th orique s d alignement multiple Programmation dynamique k dimensions peut tendre l algorithme de programmation dynamique pour trouver l alignement optimal de k s quences Cependant cet algorithme est trop co teux en espace m moire et en temps pour tre efficace e il est donc n cessaire de d velopper des algorithmes sous optimaux mais efficaces 47 60 Partie th orique es d alignement multiple Progressif ou it ratif On e ae 2 grand types de m thodes progressives Clustal on commence par aligner les deux s quences les plus proches puis on ajoute les s quences de plus en plus distantes au fur et mesure it ratives Saga on aligne l ensemble des s quences et on am liore l alignement par une s rie d tapes Remarque Les algorithmes progressifs sont plus ra
10. ition est de 4 correspond trois insertions et une substitution 24 60 Definition Alignement 1 2 Soit S S Sy un ensemble de k s quences d finies sur un alphabet vu 1 lt u lt k Sy Un alignement A S S est une matrice Ac 5 avec Vu 1 k Vve 1 q ate 25 60 Definition Alignement 2 2 La matrice v rifie les propri t s suivantes D coh rence sur la longueur k vu 1 k 54 lt 4 lt Sul 1 e Il e Il absence de colonne de gaps Aj 4 q telque Vue 1 k q conservation des s quences initiales pour tout u 1 k il existe un isomorphisme d ordre lu 1 Sul 1 q tel que W Bue San Su 26 60 Bioinformatique BTVAlignemen Partie th orique ER substitution Definition Matrice de substitution Une Matrice de substitution permet d attribuer un score aux op rations d appariement conservation ou substitution Une Matrice de substitution est donc une application w d finie sur un alphabet gt a a1 telle que w X x X R Nous imposons que w v rifie les propri t s suivantes W ao ao 0 1 Vx Z ag E X 27 60 Partie th orique TERR Scores Soit la matrice de substitution w x y pour l alphabet Y A C G donn e par xy
11. lle s quence S une suite ordonn e de caract res 5 Xn pris dans un alphabet gt On note 5 longueur de la s quence Definition Sous s quence Soit S une s quence de longueur On appelle sous s quence de S toute partie de S compos e d un ensemble de caract res cons cutifs de S On notera S i j avec 1 lt i lt j lt la sous s quence xj Xj En particulier STRES UE SX 18 60 Definition M trique ou distance On rappelle qu une m trique sur un ensemble X est une application d X x X R v rifiant les propri t s suivantes d x y gt 0 non n gativit e d x y 0 x y identit des indiscernables sym trie d x z lt d x y d y z in galit triangulaire 19 60 Partie th orique de Hamming Definition Distance de Hamming Soient deux s quences de m me longueur S et 7 la distance de Hamming de S et T not e d S T correspond au nombre de caract res en regard qui diff rent Plus la distance de Hamming est faible plus les s quences sont proches 20 60 Bioinformatique BTVAlignement de S quences L partie th orique Alignement par paires Distance de Hamming Si l on consid re les s quences suivantes 5 So 54 51 2 2 d 3 12 dH S2 S3 12 21 60 P
12. ning penalty d un nouveau gap et lt 0 est la p nalit d extention d un gap existant gap extension penalty 31 60 Bioinformatique BTVAlignement S quences Partie th orique des paires d un alignement Definition Somme des paires d un alignement Soit un alignement la somme des paires ou score l alignement est donn e par la formule sop A X SOP Ac ou lt est le score de la colonne c de l alignement donn par k 1 k sop Ac x Wa o O lt 6 5 lt 1 est un coefficient de pond ration Bioinformatique BTVAlignement de S quences L Partie th orique Alignement par paires Meilleur alignement par paires Comment calculer le meilleur alignement On utilise e matrice de substitution e un mod le de gap fonction de score somme des paires Le meilleur alignement est l alignement optimum pour la somme des paires 33 60 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement par paires Meilleur alignement par paires Comment obtenir le meilleur alignement num ration exhaustive 3 7 x Ch m thode heuristique m thode exacte programmation dynamique 34 60 Partie th orique mmation Dynamique Programmation dynamique Bellman 1940 m thode appliqu e des probl mes d optimisation pour lesquels un choix doit tre fai
13. pides que les algorithmes it ratifs 48 60 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement multiple Les programmes d alignement multiple clustalw progressif e multalin variante de clustal e T coffee Variante de clustal muscle fonction de cr ation de profile e probcons mod le de Markov e mafft transform e de Fourier e dialign recherche de chemins saga algorithme g n tique e hmmer mod le de Markov 49 60 Bioinformatique BTVAlignement de S quences L partie th orique Alignement multiple Utilitaires pour l alignement _ readseq conversion entre diff rents format de s quences e cinema Visualisation d alignement multiple 50 60 pr cision BaliBase Thompson Plewniak Poch 99 8 ensemble d alignements de r f rence consid r s corrects utilis pour attester de la qualit des logiciels d alignement multiple d compos en 5 sous ensembles caract ristiques Set 1 s quences quidistantes set 2 une s quence orpheline 3 familles divergentes set 4 longues insertions de gap aux extr mit s set 5 longues insertions de gap au milieu 51 60 Partie th orique BaliBase Le programme bali_score permet de calculer 2 valeurs SPS sum of pairs score rapport entre le nombre de paires de r sidus bien align s dans l alignement obtenu et ceux de l alignemen
14. t de r f rence CS column score nombre de colonnes bien align es par rapport au nombre de colonnes de l alignement de mani re g n rale 0 lt 65 lt SPS x1 52 60 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement multiple Efficacit et pr cision R sultats du score SPS avec quelques logiciels 0 829 0 931 0812 0047 0 978 98 PROBCONS 0 849 0943 0 817 0939 0974 711 Bioinformatique BTVAlignement de S quences L partie pratique Partie pratique Partie pratique 54 60 Bioinformatique BTVAlignement de S quences L Partie pratique Installer Clustalw Mode d emploi t l charger clustalw 1 83 d sarchiver le fichier tar xvzf tgz compiler make makefile linux 55 60 3ioinformatique Partie pratique Mode interactif ou non SR ain iud On peut utiliser Clustal de deux mani res diff rentes soit de mani re interactive l utilisateur saisit au clavier les diff rents param tres clustalw soit de mani re non interactive on fournit les param tres en ligne de commande pour conna tre les param tres en ligne de commande clustalw help 56 60 Bioinformatique BTVAlignement de S quences L Partie pratique Utiliser Clustalw Alignement de s quences Avec clustalw aligner les s quences des fichiers laab refl fasta laho refl fasta
15. t entre plusieurs solutions possibles afin d aboutir une solution optimale Le terme Programmation fait ici r f rence une m thode bas e sur le calcul de tableaux de valeurs Needleman et Wunsch 1970 6 Complexit en O n x p si sequences longueurs respectives et p 35 60 Partie th orique mation Dynamique Principe cas d un gap lin aire e soient 2 s quences S et T a aligner de longueurs N et P OIX T Vion 4 YP on calcule une matrice M de scores optimaux de dimension N 1 x P 1 e partir de cette matrice on peut valuer les alignements optimaux 36 60 Bioinformatique BTVAlignement de S quences L Partie th orique Alignement par paires Programmation Dynamique Initialisation la matrice M e 0 0 0 e 0 1 0 9 e M 0 j M 0 j 1 go 1 37 60 Partie th orique mmation Dynamique Calcul de chaque case de la matrice Mi 1 j 1 Mli 1 Mli j 1 Formule de r currence gt M i 1 j 1 w xi Yj M i j max 4 MIr 1 j M i j 1 38 60 Bioinformatique BTVAlignement de S quences L Partie th orique par paires Programmation Dynamique Exemple 1 e 5 ACAGTC e T CATTGC e w a a 1 e w a b 0 go 0 39 60 Partie th orique
16. ue BTVAlignement de S quences L Partie pratique Balibase benchmark alignments database for the evaluation of multiple sequence alignment programs Bioinformatics Vol 15 87 88 1999 60 60

Download Pdf Manuals

image

Related Search

Related Contents

Livret d`accueil - Clinique Sainte Marie  m2m-711duser manual-env2.20  Manual de Instalación  Pgs. 81-90 - Electronix Express  User`s Manual  PDF (BOE-A-1998-25675 - 4 págs. - 61 KB )  Sony VAIO VPCSE2AGX  Allied Telesis Switch AT-GS950/24 User's Manual  260437  IRDIP-11091A6-00D  

Copyright © All rights reserved.
Failed to retrieve file