Home
Prestation IRD
Contents
1. e E Membrane transport Miscellaneous No homology Primary metabolism Protein synthesis and processing E Secondary and hormone metabolism Storage Unknown functi on Signal transduction and post translational regulation Vesicular trafficking protein sorting and secretion je _ E me rg b FJ Termin Courrier entr B dubreuil Nav mdb_compte Bll root bioinfo D CDC prestatio ESSEN ALL Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc 4 Au niveau de la page Search by keyword on recherche toutes les s quences ESTs et ou contigues qui ont le mots cl recherch s au niveau de leur description blast Il faudrait pouvoir effectuer cette recherche au niveau de la description blast de la s quence et au niveau de la grande fonction auquelle est associ e cette s quence 5 Am lioration de l interface d administration A l heure actuelle seul l administrateur le bio informaticien peut cr er les projets et les comptes utilisateurs Il faudrait mettre en place un acteur gestionnaire de donn es qui puissent cr er et modifier uniquement ses projets Il pourrait galement g rer les comptes utilisateur au niveau de ses projets Cette am lioration est d velopper en fin de projet si le temps le permet Livrable
2. F I D Geh noenerens CDC prestation ESTdb IRD UR141 14 03 07 prestation S S veloppement 007 versionbis doc Qc o Cahier des Charges pour une prestation de conception de chaine de traitement de bases de donn es et de site Web Unit de Recherche DIA PC 2007 Christine Dubreuil Tranchant Institut de Recherche pour le D veloppement IRD 911 avenue Agropolis 34000 Montpellier Cedex France Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc Chapitre 1 INFORMATIONS GENERALES 1 Pr sentation de l Institut de Recherche pour le D veloppement L Institut de Recherche pour le D veloppement IRD est un Etablissement Public caract re Scientifique et Technologique EPST plac sous la tutelle des minist res de la Recherche et des Affaires Etrang res Depuis soixante ans l Institut conduit des recherches sur les milieux intertropicaux qui sont devenues des r f rences internationales L IRD m ne des recherches en Afrique dans l Oc an Indien en Am rique latine et dans le Pacifique Il conduit des missions de recherche sur L environnement et grands cosyst mes Agriculture en milieux tropicaux fragiles Environnement et sant Hommes et soci t s en mutation Pr s de 2600 personnes travaillent pour l Institut dont 4596 en France M tropolitaine les autres personnels tant r partis dans les DOM TOM et 38 pays tranger
3. 3 souhait en Septembre Octobre d velopper un nouveau module d analyse ESTdb d di l annotation automatique des s quences Le module Annotation Automatique doit permettre de classer automatiquement les s quences ESTs annot es par le logiciel Blast en grande fonction en se basant sur une ontologie du domaine la Gene Ontology Plusieurs outils ont d j t test s s paremment mais jamais compar s Goblet http goblet molgen mpg de cgi bin goblet webapp goblet cgi Scripts perls annotator pl and go fish source pl disponibles l adresse suivante Canadian Bioinformatics Help Desk http www gchelpdesk ualberta ca Annotator pl reads multiple sequence files in FASTA format from a file and submits each to local BLAST The complete BLAST results are written to a file and the best match is sent as an Entrez query to NCBI The returned GenBank file is parsed to obtain the title of the hit the hit s accession number and the name of the organism that the hit was obtained from The query sequence is written to a file in fasta format with its title modified so that it contains information about the hit sequence the BLAST e value and the BLAST bit score Four files are created one containing a log of the messages produced by the program one containing the modified query titles with the query sequences one containing just the modified query titles and one containing the complete BLAST results obtained for each query s
4. ce traitement sont archiv s dans une base de donn e et l ensemble pipeline base de donn e est consultable et utilisable au travers d une interface Web 3 Liste des logiciels Phred Le programme Phred d velopp en C est un logiciel de base calling qui se base sur la m thode de Fournier pour lire les 4 courbes du chromatogramme Il appelle une une les bases leur assigne une valeur de qualit et crit les r sultats dans des fichiers de sortie http www phrap org phredphrapconsed html Vecscreen Cet outil disponible sur NCBI permet d identifier rapidement des segments de s quences nucl iques d origine vectorielle Il recherche la position du vecteur dans une s quence en utilisant le programme Blast automatiquement param tr pour une d tection optimale des contaminations http www ncbi nim nih gov VecScreen Stackpack Ce logiciel poss de un programme r alisant le clustering l assemblage de s quences pr sentant de courtes r gions chevauchantes Il regroupe 3 algorithmes l algorithme agglom ratif D2 cluster plus rapide que blast est utilis pour le clutering initial les s quences doivent tre longues et seules les grandes similarit s sont d tect es l algorithme du programme phrap aligne rapidement toutes les s quences d un cluster entre elles mais les informations sur la variation l int rieur m me du cluster sont insuffisantes pour tablir une s quence consensus le programme craw in
5. connaissances approfondies sont n cessaires pour pouvoir mettre la disposition des planteurs un mat riel v g tal performant Plus particuli rement nous nous int ressons la floraison d termination de la structure florale anomalies hom otiques de type pig n tique la fructification et la formation de l embryon embryogen ses zygotique et somatique Afin d tudier les processus de r gulation sous jacents ces diff rents aspects du d veloppement reproducteur nous poursuivons depuis plusieurs ann es une approche de type transcriptomique Ceci implique la constitution d une collection d tiquettes de s quence d ADNc EST et l utilisation des clones correspondants pour effectuer des exp riences de type macroarray A l heure actuelle la collection non redondante de s quences EST s l ve plus de 6 000 s quences et continue de grandir La collection de clones EST provient de plusieurs organes diff rents de la plante inflorescence pousses feuill es embryons somatique et zygotique Le palmier huile tant relativement loign d un point de vue phylog n tique des plantes mod les l annotation d EST est plus compliqu e que pour d autres esp ces N anmoins l identification de g nes rthologues chez le riz porte un grand int r t car une s quence g nomique compl te est d j disponible pour cette esp ce et un nombre important et croissant de donn es fonctionnelles mutants d insertion profil
6. g tales et une cha ne de traitement ou pipeline d annotation d ESTs utilisant diff rents logiciels bio informatiques gratuits Blast Stackpack a t congue pour analyser ces volumes importants d informations Les donn es brutes plac es en entr e du pipeline ainsi que les donn es produites par le pipeline sont stock es dans une base de donn es EST db ce qui permet de g rer et d exploiter les donn es produites sur les diff rentes plantes tropicales Les donn es sont accessibles via un site web associ la base de donn es Diff rentes quipes ont d j valoriser l utilisation du pipeline au travers de publications scientifiques Voir Paragraphe Liste des Publications Cet outil est en constante volution et c est dans ce contexte que s inscrit ce projet qui propose une optimisation de l outil existant coupl l ajout de nouvelles fonctions Plusieurs quipes se sont maintenant engag es dans des projets de g nomique comparative et la r alisation de ces programmes n cessite le d veloppement d un nouveau module au pipeline d di la r alisation d analyses de g nomique comparative inter et intra esp ces Ces projets concernent en priorit les diff rentes esp ces propres l IRD et s tendront des esp ces travaill es dans des quipes d autres organismes INRA CNRS associ es l IRD par le biais des UMRs ou de projet de recherche communs Une br ve description des programmes de recherche concer
7. tre men e au d but du projet pour d terminer exactement les am liorations apporter l application actuelle Voici les fonctionnalit s demand es par plusieurs utilsateurs Lancement du pipeline partir des s quences format fasta et pas uniquement des chromatogrammes Am lioration des interfaces de consultation ceci concerne particuli rement la visualisation des donn es issues du traitement par le logiciel gratuit Stackpack En effet l installation de la derni re version de ce logiciel a eu de nombreuses cons quences dont la modification des fichiers de r sultats g n r s par Stackpack Les r sultats affich s actuellement sont insuffisants et une adaptation du syst me est n cessaire Devra tre ajout une interface graphique permettant de visualiser des s quences ESTs compar es leur contig Am lioration de l interface d administration A l heure actuelle seul l administrateur le bio informaticien peut cr er les projets et les comptes utilisateurs Il faudrait mettre en place un acteur gestionnaire de donn es qui puissent cr er et modifier uniquement ses projets Il pourrait galement g rer les comptes utilisateur au niveau de ses projets e de d velopper deux nouveaux modules d analyse ESTdb d di s l annotation automatique des s quences et la r alisation d analyse de g nomique comparative le module Annotation Automatique doit permettre de classer automatiquement les s quenc
8. 3 langage de programmation PHP 5 03 perl bioperl SGBD Mysql 3 2x Environnement linux RedHat AS 3 0 Annexe 4 Liste des publications Fernandez D Santos P Agostini C Bon M C Petitot A S Silva M C Guerra Guimar es L Ribeiro A Argout X and Nicole M 2004 Coffee Coffea arabica L genes early expressed during infection by the rust fungus Hemileia vastatrix Molecular Plant Pathology 5 527 536 Hocher V Auguy F Argout X Laplaze L Franche C and Bogusz D Expressed sequence tag analysis in Casuarina glauca actinorhizal nodule and root New Phytologist 2006 169 681 688 Jouannic S Argout X Lechauve F Fizames C Borgel A Morcillo F Aberlenc Bertossi F Duval Y and Tregear J 2005 Analysis of expressed sequence tags from oil palm Elaeis guineensis FEBS Letters 579 2709 2714 Kongsawadworakul P Sookmark U Nandris D and H Chrestin 2005 Cyanide metabolism and molecular approach of rubber trunk phloem necrosis Present and prospects oral communication In Proc Int Hevea workshop on tapping panel dryness Kerala India November 2005 Poncet V Rondeau M Tranchant C Cayrel A Hamon S de Kochko A Hamon P 2006 SSR mining in coffee tree est databases potential use of EST SSRs as marker across Coffea genus Mol Genet Geno 276 no 5 pp 436 449 Annexe 5 Descriptif des projets scientifiques Programme 1 Symbioses actinorhiziennes Equip
9. EST number 1312 Valid EST mmber 998 76 Advanced search Number of sequence with polyA tail 74 About project gt All statistics Number of sequence with polyT tail 131 gt Blast ORF abstract i Insert l 581b I tji Insert maximum length p Project clustering Insert minimum length Sibp gt Project comparing Insert medium length 367 bp About sequence Number of singleton sequence 807 81 gt Search by name gt Search by keywords Number of ESTs belonging to a cluster 191 19 Tools gt Blast against ESTs Non valid est Number 314 24 Small size sequence number 174 55 Number of sequence with several insert 0 0 Bad quality sequence number 94 30 Number of sequence without insert 46 15 5 Cluster mumber 74 Contigs number 83 Cluster medium length 57 bp Cluster maximum length 989 bp Cluster minimum length 522 bp Annotated sequences mumber 1081 e wh Termin gt Courrier entr B dubreuil Nav I 3 Imdb_compte 8 root bioinfoy 3 CDC prestatio e ESTDB Mozil source Navi 4 Trouver une solution pour le probl me d identifiant des contigues attribu s automatiquement par stackpack et qui changent chaque mise jour du projet avec perte des fonctions et grandes fonctions d j attribu es aux contigues par exemple lancement du pipeline de nouveau car une plaque d ESTs a t s quenc e et les chromatogrammes doi
10. c co m ue e BER O unma 18 03 Qm 3 e ESTDB Mozilla Firefox 2X 8 Xx Fichier Edition Affichage Aller Marque pages Outils Aide lt p de amp Q htpitiontorestany ox CLR LE clonetech SNCBI HomePage Altavista Babel Fis Perldoc documentat Google Scholar IRD Centre de Mont QDisable Cookies 3CSS E Forms Images informationy Miscellaneous s Outline z ZResize Tools 2 View Source option ESTDB bioinfo intranet mpl ird fr ESTDB dev pDNR Lib Vector http Awww umr lisah fr Abstract for cl146 elifioMS6o186 A CCMMNANMAACTTATACCAC mamisencei About project Sens gt All statistics Pa Blast ORF abstract eH mpi soir gt Export project F Beties a Project clustering gt Project comparing Le cni63 El Bienes 2 20 1001 03 2 20 1005 en cli28oM860s 188 About sequence em 91 Een Search by name Search by keywords Ica e z cor elise ousgon 188 Iva 01 Be7 80 501 002 C031 Tools es gt Blast against ESTs D 22 20 4004007 EG Ze1 002 Fe7 EH Bess S 3 DEE Le cni65 P ol200MA60s 186 DEC Ica 992 A97 L enics P m E T EG Ze1 003 013 Bms 2 CL LLL E mami soi ms Puss 3 GE L cues El Ign sec ren olatsomscos 198 H Fences PB 3 H di Termin Termin Courrier e dubreuil
11. e Rhizogen se IRD UMR DIA PC Equipe Ecologie microbienne CNRS Univ Lyon 1 UMR 5557 Les travaux d velopp s par l quipe IRD Rhizogen se symbiotique ont pour objectif de comprendre les m canismes mol culaires et cellulaires qui aboutissent la mise en place et au d veloppement des racines symbiotiques des arbres tropicaux de la famille des Casuarinac es Filao Les Casuarinac es peuvent former des nodules racinaires en symbiose avec une bact rie filamenteuse du sol Frankia Les Casuarinac es appartiennent au groupe des plantes actinorhiziennes qui repr sente apr s les L gumineuses le deuxi me groupe de plantes fixatrices d azote Les arbres tropicaux de la famille des Casuarinac es jouent un r le environnemental essentiel notamment pour les pays du Sud Ces plantes poss dent une croissance rapide sont bien adapt es la s cheresse et sont capables de coloniser des sols pauvres En 2002 une tude comparative du transcriptome des racines et des nodules de C glauca a t entreprise dans le cadre du GENOPOLE Montpelli rain et le s quen age de transcrits partir de deux banques d ADNc de Casuarina racine et nodules a permis l obtention d environ 3000 s quences L analyse bio informatique sur la plateforme IRD a permis la validation des s quences et la cr ation de la premi re base de donn es g nomique pour les plantes actinorhiziennes Nous d veloppons actuellement un projet visant comparer plusieurs esp ces d
12. e plantes actinorhiziennes ayant des caract ristiques diff rentes en terme de mode d infection et de d veloppement Mise Page 160 HNIS 3 Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc nodulaire L obtention en 2007 d un projet Genoscope en association avec l quipe de P Normand CNRS Universit Lyon Il va nous permettre le s quen age de 50 000 ESTs partir de deux esp ces actinorhiziennes 25 000 s quences pour C glauca et 25 000 pour l aulne Alnus glutinosa dont le traitement bioinformatique sera r alis l IRD Une analyse comparative des s quences produites devrait permettre l identification in silico de g nes communs aux esp ces actinorhiziennes activ s lors de la mise en place de la symbiose Par ailleurs des tudes phylog n tiques r centes sugg rent une origine commune pour les diff rents types de symbioses fixatrices d azote La comparaison des s quences obtenues celles disponibles pour les l gumineuses devrait permettre de d gager des m canismes mol culaires communs aux deux types de symbioses et ainsi de mieux comprendre les facteurs impliqu s dans la mise en place des nodules racinaires fixateurs d azote Ce projet permettra la mise en place d un r seau international qui contribuera au d veloppement des ressources g nomiques des plantes actinorhiziennes La r alisation de ce programme de recherche est conditionn par l utili
13. equence Go fish source pl assigns GO numbers and descriptions for blast results generated by annotator pl The script needs the following files to run Gene association files for uniprot SwissProt trembl pdb and Genbank ftp ftp geneontology org pub go gene associations The GO DAG flat files component process and function ftp ftp geneontology org pub go ontology archive The blast results file from annotator pl To run this script here is an example of what one would type from command line go fish source pl i complete blast results123 txt o complete blast results123 txt results e 10 The script reads in the blast table output generated by annotator pl and builds a hash table with the query sequence name as the key and an array of the unique gi numbers found from the blast results table as the value A series of accession number GO number indexes are then generated GENBANK SwissProt Trembl and PDB The script then looks for GO numbers for each gi number and associated accession number from the blast results hash and assigns to each gi number an array of GO numbers if they exist in the acc num GO number indexes The script also provides a description of each GO number The print out lists the query sequence its gi numbers and the GO number descriptions for each gi number A second list is printed of all the query sequences and gi numbers for which no GO number could be found The total number of gi s with fou
14. es ESTs annot es par le logiciel Blast en grande fonction en se basant sur une ontologie du domaine la Gene Ontology Une visualisation graphique de la r partition des ESTs en grande fonction est demand e le module G nomique comparative permettra de r aliser des comparaisons entre les g nomes des diverses plantes tudi es et ou avec les g nomes des plantes mod les Ces analyses optimiseront l identification de s quences orthologues entre diff rentes esp ces et donc l annotation des g nes identifi s Ces comparaisons permettront de rechercher les relations existantes entre les g nes de diff rentes esp ces synt nie ainsi que les relations de ces g nes au sein d un m me g nome 2 Description d taill e des livrables dans l ordre de priorit souhait affiner Institut de recherche 5 CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007_versionbis doc lun 14 mai 17 31 ESTDB dev Mozilla Firefox Fichier Edition Affichage Aller Marque pages Outils Aide Qa E gt amp e e http bioinfo estdb dev E Q ok Z NCBI HomePage Altavista Babel Fis SEA one nae Perldoc documentat Google Scholar IRD Centre de Mont os S Disable amp Cookies Icss E Forms Mimages information C Miscellaneous Outline ZResize Tools Lien Source Jj Option ESTDB Li bioinfo intranet mpl ird fr ESTDB dev_ pDNR Lib Vector http f
15. es exprim s lors des r ponses de r sistance du caf ier aux parasites et plusieurs g nes sp cifiquement exprim s dans la r sistance ont t clon s Cependant environ 3596 des ESTs obtenues dans le cadre de l interaction du caf ier M exigua n ont pu tre annot es faute de similarit avec des s quences connues et pourraient repr senter des s quences sp cifiques des interactions plante n matodes D autres banques d ADNc sont en cours de construction avec nos partenaires Br siliens Embrapa associ s ce projet et n cessiteront l utilisation d outils bioinformatiques automatis s pour l annotation des s quences Chez le cotonnier des approches physiologiques ont permis d identifier plusieurs enzymes essentielles intervenant dans les voies de signalisation de la r sistance lipoxyg nase peroxydase lipase et les g nes correspondants sont en cours d analyse fonctionnelle Les recherches s orientent vers la caract risation de facteurs de transcription de type AP2 impliqu s dans la voie de signalisation d pendante du jasmonate Pour les deux plantes plusieurs milliers d ESTs sont maintenant disponibles dans GenBank mais ne repr sentent pas encore l int gralit du g nome transcrit L apport de la g nomique comparative est donc essentiel l identification de nouveaux g nes et la caract risation de leur fonction Ainsi par exemple comme d j pr cis dans le programme 2 l int gration des ressources g nomique
16. es informations dans la base de donn es ESTDb Les r sultats affich s actuellement sont insuffisants et une adaptation du syst me est n cessaire Institut de recherche ene PR URIA 14 05 07 R prestation IRD pour le d veloppement 2007 versionbis doc j EA B a gJ e SS S luniamaii7z17 Oe Si EST DB Mozilla Firefox Fichier Edition Affichage Aller Marque pages Outils Aide 2 Qu gt B Cp E npuicinfojestdb 7 ox Z NCBI HomePage Altavista Babel Fis E Perldoc documentat Google Scholar IRD Centre de Mont QDisable Cookies Icss Forms 2 Images Informationr Miscellaneous Outline ZResize Tools 2 View Source Option bioinfo intranet mpl ird fr ESTDB dev pDNR Lib Vector Q http www umr lisah fr D Cluster information f S quence B un D About project gt All statistics gt Blast ORF abstract gt Export project gt Project clustering gt Project comparing EG A11 001 p 410 pb see About sequence Search by name Search by keywords Tools EG A11 001 B08 i gt Blast against ESTs ECM os 255 pb see cls4ctS3en67 427 pb see ak Termin E dubreuil Nav mdb compte root bioinfo ESTDB Mozil Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007_versionbis do
17. ique GeneTrop de l IRD Montpellier A cet effet la plateforme bio informatique est d ores et d j accessible par nos partenaires thailandais via le web notamment l application ESTdb
18. lisation de plusieurs projets de s quencage d ESTs le d veloppement d ESTdb a t initi et cette application se compose d une part d une chaine de traitement permettant d analyser les ESTs et d autre part d une base de donn es et d un site web associ destin g rer et mieux exploiter les informations g n r es par la cha ne de traitement L application a t d velopp e au cours de 5 stages de master Informatique Pour les Sciences de l Universit de Montpellier Elle est install sur la plate forme bio informatique de l IRD et est utilis e par les 4 UMRs du domaine v g tal bas es sur le centre IRD de Montpellier ainsi que par des partenaires et IRDiens expatri s ex Projet H v a Thailande Projet Caf lle de la R union Le pipeline a aussi t utilis pour analyser des donn es d autres UMRs telles que des ESTs issues de la souris A l heure actuelle plus de 20000 ESTs ont t analys es et 200000 donn es associ es ces s quences ont t g n r es Ce volume de donn es ne cesse d augmenter et de nouvelles analyses sont demand es par les chercheurs Il s av re donc n cessaire de d velopper de nouvelles fonctionnalit s sur l outil EST db 2 Description technique du pipeline Ce programme crit en perl bioperl permet de combiner l ex cution de plusieurs logiciels l analyse des r sultats g n r s et de r aliser d autres fonctionnalit s r pondant des crit res propres au laboratoi
19. mdb com root bioin 3 CDC prest ESTDB M source N http bioinf IRD Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 2007_versionbis doc Page 12 14 05 07 Fichier Edition Affichage Aller Marque pages Outils Aide a z EP M amp e e amp http bioinfo estdby E Q ok Z NCBI HomePage j Altavista Babel Fis Perldoc documentat Google Scholar IRD Centre de Mont bDisabley Cookies E1CSS Forms Mlimages informationy Miscellaneousy Outline Resize Tools 2 View Source option Lj httpufwww umr lisah fr E ESTDB i bioinfo intranet mpl ird fr ESTDB dev pDNR Lib Vector IRD F Institut de recherche pour le d veloppement About project gt All statistics gt Blast ORF abstract gt Export project gt Project clustering gt Project comparing About sequence gt Search by name gt Search by keywords Tools gt Blast against ESTs Number of sequence without insert 46 15 Cluster number 74 Contigs number 83 Cluster medium length 57 bp Cluster maximum length 989 bp Cluster minimum length 522 bp Annotated sequences number 1081 Abiotic stimuli and development Cell division cycle Cell wall structure or metabolism Chromatin and DNA metabolism Cytoskeleton Defense and cell rescue Gene expression and RNA metabolism
20. n s est propos e Voir paragraphe Descriptif des Projets Scientifiques et permettra de mieux mesurer la n cessit de d velopper cette nouvelle fonctionnalit Cependant le d veloppement de ce nouveau module est conditionn par l am lioration pr alable du pipeline existant afin d une part de le rendre plus convivial totalement g n rique et d autre part d y ajouter certaines fonctionnalit s telle que l annotation automatique des s quences en grandes fonctions selon Gene Ontology ou encore un affichage graphique des s quences des ESTs et de leur contigue Enfin pour valoriser l outil EST db une tape de documentation est indispensable pour sa d claration l Agence de Protection des Logiciels en vue de sa distribution oe S Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007_versionbis doc L objectif de ce projet est de r aliser ces diff rentes op rations afin d obtenir un outil EST db convivial g n rique facilement transf rable d autres quipes IRD ou ext rieure et r pondant aux demandes actuelles des projets scientifiques traitements de donn es de s quen age analyses comparatives en y ajoutant des nouvelles fonctionnalit s Mise Page 40 Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc Chapitre 2 DESCRITION DE L APPLICATION ESTdb 1 Description d ESTdb En 2001 suite la r a
21. nd GOs and the total number of gi numbers with no GO numbers are tabulated and printed out at the end D autres logiciels existent mais n ont pas t test ex GOAnna http www geneontology org GO tools annotation shtml Il faudrait effectuer une veille technologique pour avoir une liste d outils r alisant cette analyse les tester et int grer le meilleur au pipeline Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007 versionbis doc Mise Page 150 HN AE Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc Annexe Annexe 1 lieux d ex cution des march s espace mis disposition La prestation aura lieu sur le site de l IRD 911 avenue d Agropolis dans les locaux de l unit de recherche Les quipements qui seront mis la disposition du prestataire appartiennent l unit Annexe 2 liste des logiciels et syst mes de l unit Architecture informatique de la plate forme bio informatique du centre IRD de Montpellier deux serveurs de production DellTM PowerEdgeTM 6650 4 processeurs Xeon 8 GB de RAM une baie de disque Dell EMC CX300 1 To de capacit de stockage un serveur de fichier Dell PowerEdge 1750 un serveur de d veloppement 2 processeurs Environnement logiciel outils classiques de bio informatique blast sim4 clustalw package EMBOSS serveur web Apache 2 0 5
22. nter familles Dans ce but l annotation homog ne et coh rente des diff rentes banques permettra des recherches simplifi es de nouvelles s quences et constituera un syst me de r f rence Les travaux en g nomique comparative via la cartographie compar e macro synt nie entrepris dans notre quipe pourront tre affin s partir de l analyse de s quences de BAC micro synt nie Programme 3 Caf cotonnier Equipe R sistances IRD UMR 186 RPB Nos objectifs sont d identifier et de comprendre les m canismes cellulaires mol culaires et g n tiques mis en jeu dans la r sistance des plantes aux parasites Plus pr cis ment nos recherches se focalisent d une part sur l identification et la caract risation fonctionnelle de g nes impliqu s dans la r sistance et l activation des r actions de d fense et d autre part sur l exploration de la diversit des m canismes de r sistance associ s diff rentes interactions plante parasite Nos mod les d tude sont le caf ier Coffea arabica attaqu par le champignon Hemileia vastatrix et les n matodes du genre Meloidogyne le cotonnier Gossypium hirsutum infect par la bact rie Xanthomonas campestris pv malvacearum Les activit s d velopp es font appel des approches de g nomique fonctionnelle les approches transcriptomiques tant privil gi es Chez le caf ier nous avons d velopp des banques d ADNc soustractives pour tablir un catalogue des g n
23. re Les donn es brutes et les donn es g n r es sont ensuite stock es dans une base de donn es MySQL Compte tenu du volume important de donn es analyser et de traitements ce pipeline automatise l analyse de chaque EST A l issue du s quen age les chromatogrammes des ESTs sont analys s afin d obtenir la s quence nucl ique l aide du logiciel de base calling Phred TET La s quence est ensuite analys e afin de masquer les bases de mauvaise qualit les fichiers phd 1 sont analys s et les bases ayant une qualit inf rieure une valeur seuil param tr e sont remplac es par des N Les s quences appartenant au vecteur sont ensuite d tect es l aide du logiciel Vecscreen puis elles sont masqu es et supprim es Les queues polyA sont galement supprim es Les extr mit s de s quences de mauvaise qualit seuil param trable lors du lancement du pipeline sont galement supprim es et les s quences de petite taille seuil par m trable sont limin es Afin de supprimer la redondance au niveau des s quences une phase de contiguage est n cessaire Ceci est r alis par le logiciel Stackpack A l issue du contigage les ESTs appartiennent ou non un contig Puis l tape suivante est l annotation des s quences qui doit renseigner sur la fonction des prot ines putatives ventuellement associ es la s quence d EST est compar e une banque de s quences Blast Les r sultats de chaque tape de
24. s Il dispose d implantations dans 26 pays de la zone intertropicale Il compte galement cinq implantations en m tropole et cinq dans les DOM TOM 2 Pr sentation du projet de l unit de recherche DIA PC Depuis plusieurs ann es les quipes du domaine v g tal de l IRD appartenant diff rentes UMRs URs d veloppent des projets de g nomique concernant des plantes tropicales d int r ts majeurs pour les pays du SUD Coffea Hevea Ar cac es Casuarinac es et s articulent essentiellement autour de 2 plantes mod les enti rement s quenc es Arabidopsis thaliana et Oryza sativa La production en masse de donn es g nomiques et prot omiques et la n cessit de leur analyse a conduit la mise en place d une plate forme bio informatique d di e la g nomique v g tale sur le centre IRD de Montpellier Resp C Tranchant Dubreuil Cette plate forme centralise de nombreuses ressources bio informatiques des logiciels classiques de bio informatique alignements de s quences phylog nie etc des banques de s quences publiques et priv es des programmes et des syst mes d information d velopp s par le service bio informatique au sein de nos UMR permettant respectivement de traiter des volumes importants de donn es brutes issues des exp rimentations et de mieux g rer exploiter ces masses importantes de donn es Depuis 2001 de nombreux projets de s quen age d ESTs ont t r alis s par les quipes v
25. s d expression lign es enhancer trap est disponible Programme 5 Hevea Equipe H v a IRD Mahidol University UROGO Clifa Hevea brasiliensis est la seule esp ce v g tale cultiv e zone tropicale humide pour la production de latex duquel est tir le caoutchouc naturel Le programme Recherche de marqueurs mol culaires du stress et de g nes candidats li s la production du latex chez Hevea brasiliensis men e par l quipe Franco Thaie IRD Mahidol University est bas sur l analyse de l expression diff rentielle de g nes dans la latex et le phlo me corce interne d Hevea L tude porte sur des arbres de clones haut et bas potentiel de production soumis ou non stress abiotiques anthropiques ou environnementaux conduisant une surproduction transitoire agents stimulants ou au contraire la cessation d finitive de la production du latex syndrome des encoches s ches ou de la n crose du phlo me L tude est bas e sur la construction et l analyse de banques soustraites SSH d ADNc de latex ou d corce interne des diff rents ph notypes tudi s Six banques SSH ont d j t construites en 2005 puis fin 2006 desquelles en tout environ 7 000 EST ont t s quenc s Quatre nouvelles banques SSH seront labor es en 2007 avec un s quengage pr vu d environ 4600 nouvelles EST D autres programmes de s quen age a partir de nos banques d ADNc pleine longueur sont pr vu
26. s dans un futur proche L analyse bioinformatique des ces banques d EST au moyen du pipeline EST DB de l IRD Montpellier permettra le tri d unig nes et l laboration dans un premier temps de filtres macroarray puis terme de microarrays Ces futurs outils serviront au diagnostic pour l optimisation de l exploitation en plantation et pour la s lection pr coce de nouveaux clones performants dans le cadre des programmes d am lioration de l h v a mis en uvre au sein des instituts sp cialis s des diff rents pays de la zone tropical humide producteurs de caoutchouc naturel Ce programme n cessite l utilisation de gros moyens de calcul et de fortes comp tences en mati re de bioinformatique et statistique Dans le cadre de ce programme de recherche formation sur l h v a deux chercheurs Thais l un de l Universit de Mahidol et l autre de l Institut BIOTEC Bangkok suivent une formation 2006 2008 en Mast re de Bioinformatique l UM2 avec stage pratique l IRD montpellier sous la responsabilit de Christine Tranchant Outre l aide qu il procurera au programme de recherche Hevea ce programme de formation cofinanc par le MAE et le Minist re des Universit s Thailandais a pour but terme d initier un r seau d agro bioinformatique Tha landais en coop ration avec l quipe de bio TNL eg Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 paur le d veloppement 2007 versionbis doc informat
27. s de la famille des Solanaceae proche de celle des Rubiaceae dont fait partie le caf ier permettra sans aucun doute d identifier Mise Page 170 HN Institut de recherche pour le d veloppement CDC prestation ESTdb IRD UR141 14 05 07 2007 versionbis doc des orthologues de g nes cl s de la r sistance des plantes aux parasites En particulier un g ne de r sistance aux n matodes a t clon chez la tomate alors qu aucun g ne n est encore connu chez A thaliana faute de r sistance aux n matodes chez cette esp ce mod le Par contre on pourra s appuyer sur les connaissances de la famile AP2 chez A thaliana pour isoler leurs orthologues chez le cotonnier Les ressources bioinformatiques qui seront d velopp es l IRD faciliteront ces recherches et l annotation des nouvelles s quences Programme 4 Palmier Huile Equipe Ar cac es IRD UR 192 Palmiers Le palmier huile famille Arecaceae ordre Arecales est une monocotyl done p renne cultiv e en zone inter tropicale qui constitue depuis 2004 la premi re source d huile v g tale dans le monde De par sa grande productivit cette plante est un enjeu cl pour le d veloppement de l agriculture durable dans de nombreux pays tropicaux mais galement dans l approvisionnement de biocarburants sources d n rgies renouvelables au niveau mondial L quipe Ar cac es s int resse diff rents aspects de la biologie du d veloppement de cette plante dont des
28. sation de la plateforme bio informatique IRD qui n cessite 1 des optimisations pour permettre nos partenaires un acc s aux donn es g nomiques et 2 l ajout de nouvelles fonctions pour la r alisation des analyses de g nomique comparative Programme 2 Coffea Equipe g nomique et qualit du caf IRD UMR DIA PC L quipe g nomique et qualit du caf s engage dans un programme en g nomique comparative au sein des Rubiaceae et entre Rubiaceae et Solanaceae sans pour autant n gliger la comparaison avec Arabidopsis On dispose de plusieurs milliers de s quences EST caf produits par notre laboratoire ou par d autres membres du r seau international g nomique caf ier ICGN Dans le cadre du r seau international RubiComp Rubiaceae comparative soutenu par l IRD dans sa fonction d Agence il est pr vu dans un avenir tr s proche de produire plusieurs milliers d EST partir de diff rents tissus et de banques soustraites de Psychotria Rubiaceae La constitution d une nouvelle banque BAC caf ier est en projet et conduira dans un premier temps au s quen age des extr mit s des s quences BAC Enfin de tr s nombreuses donn es en g nomique sous forme d EST de s quences de BAC et de s quengage de g nome concernant la famille des Solanaceae essentiellement la tomate sont d j disponibles Dans ce projet nous nous int ressons la comparaison de s quences et l identification de s quences orthologues intra et i
29. sequence database E Value minimum Remove blast filter Yes C No Termin a cR 1 a a e Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007_versionbis doc un fenier centralsant plusieurs fonctions perl propres ESTdb Ee les temps de seasons les noms de r pertoires au niveau desquels sont STOKES es __ les ferent objets por uses par le BIBBIE o andis de edger un manuel dinstalation en angles et une decumentalonechnque O wm Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007 versionbis doc Chapitre 3 DEVELOPPEMENT A REALISER AU NIVEAU d ESTdb 1 Description rapide des livrables souhait s pour l application ESTdb Le projet SPIRALE que nous proposons a pour objectifs e de finaliser le d veloppement de l application ESTdb documentation du code chaine de traitement et objets perl associ s interfaces web associ es la base de donn es code suffisament g n rique param trable pour que l application soit facilement transf rable sur une autre plate forme bio informatique ajout de nouvelles fonctions qui donneront une plus value importante l application en vue de la d clarer l Agence de Protection des Logiciels et de la distribuer aux autres URs de l IRD et partenaires int ress s par l outil e d am liorer la version actuelle Une phase d analyse des besoins devra
30. tervient dans l ultime tape pour analyser l alignement et d terminer la s quence consensus Ce logiciel est d velopp en python et toutes les informations manipul es par ce logiciel sont stock es dans une base de donn es Mysql http www sanbi ac za Dbases html Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007 versionbis doc BLAST Basic Local Alignment Search Tool est un programme de recherche de similarit d velopp au NCBI Genbank http www ncbi nlm nih gov Tools 4 Description de l application web ESTDB dev Mozilla Firefox Fichier Edition Affichage Aller Marque pages Outils Aide Lec ECKE J ox Z NCBI HomePage AltaVista Babel Fis Perldoc documentat Google Scholar IRD Centre de Mont Disabler Cookies Icss E Forms images informationy Miscellaneous 4 Outline Resizer Tools 2 View Source Option ESTDB bioinfo intranet mpl ird fr localh ESTDB dev B General information Institut de recherche Project name pour le d veloppement New project C Project update New analysis Mail Pipeline j gt EST analysis Directory name gt ORF analysis Rename method Project gt Clustering d Cleaning step Comparison Vector name pTriplex gt Sequence minimum length 100 bases Quality score Masking by N Yes C No Annotation step Protein
31. vent tre ajout s au projet Si le nouveau contigue contient majoritairement les m mes ESTs qu un contigue avant l analyse ainsi que la m me description blast on doit pouvoir conserver l annotation en grande fonction et avoir une trace de l ancien nom du contigue Fonctionnalit discuter en groupe de travail pour les modalit s et la priorit 5 Mettre en place une proc dure qui relance automatiquement le blast des s quences d ESTs au niveau des diff rents projets 2 fois par an discuter de la fr quence de la mise jour avec le groupe de travail avec un syst me d alarme pour les nouvelles annotations Am lioration des interfaces de consultation 1 Interface cluster information ceci concerne particuli rement la visualisation des donn es issues du traitement par le logiciel gratuit Stackpack En effet l installation de la derni re version de ce logiciel a eu de nombreuses cons quences dont la modification des fichiers de r sultats g n r s par Stackpack Avec l ancienne version le pipeline r cup rait directement l alignement de la s quence consensus avec les ESTs Or la nouvelle version de stackpack et donc de la base de donn es associ es stackpack a volu et actuellement cette information n est plus r cup r e L objectif est de r cup rer cette information de nouveau alignement directement comme pr c demment position des ESTs sur la s quence consensus et affichage graphique en r cup rant c
32. www umr lisah fr HRD General information Institut de recherche pour le d veloppement Project name New project x C Project update Pipeline EH EST analysis Directory name ORF analysis Rename method Project Clustering Comparison Cleaning step Vector name sex xf Sequence minimum length bon bases Quality score Masking by N F oves c No Protein sequence database E Value minimum Remove blast filter C oves c No aii Termin Courrier entr dubreuil Nav mdb compte Bll root bioinfo D CDC prestatio Institut de recherche A CDC prestation ESTdb IRD UR141 14 05 07 pour le d veloppement 2007 versionbis doc Le b as uz c B lun 14 mai 17 33 OOS 4 Fichier Edition Affichage Aler a Marque pages Outils Aide Qa c E A E nipirbioinforestdby ok IGLPDNR LIB clonetech Z NCBI HomePage j Altavista Babel Fis Perldoc documentat 17 Google Scholar IRD Centre de Mont Disable Cookies 3CSS EjForms WImages informationr HMiscellaneous 4 Outline SResize Tools 2 View Source Option ESTDB j bioinfo intranet mpl ird fr amp ESTDB dev pDNR Lib Vector Lj httpijwww umr lisah fr E 4 TE d Project name apexAAl Li aliati Description apex anormaux trait s la cytokinine ADNc en pBLUESCRIPT II orient s EcoRI Xhol pour le developpement
Download Pdf Manuals
Related Search
Related Contents
DeLOCK 61857 Du bon usage de l`OCDE ECOUTE FESTIVITES 1946-2006 Forum™ 525/526 Guía del usuario de MX3Plus SPIN family evaluation software Copyright © All rights reserved.
Failed to retrieve file