Home

Analyse de données transcriptomiques par réseaux

image

Contents

1. Tableau 13 Mod les utilis s pour la for t al atoire avec la r union des races LW Le mod le retenu est un mod le 500 arbres le nombre d arbres a t diminu car les mod les avec plus d arbres avaient tendance surapprendre c est dire appendre trop d information et int grer dans le mod le les erreurs de mesure 100 variables utilis s par division d arbres et des chantillons bootstrap contenant 75 individus Ce mod le donne seulement 0 95 de mauvais classement ce qui montre une tr s nette am lioration par rapport au mod le pr c dent et des pr dictions tr s solides La Figure 23 ci dessous montre l volution du taux de mauvais classement ou erreur OutOfBag en fonction du nombre d arbres pour cette for t al atoire volution du taux de mal pr dits en fonction du nombre d arbres o ma 0 8 0 6 Taux de mal pr dits 0 4 0 2 0 0 Nombre d arbres Figure 23 volution de l erreur OutOfBag en fonction du nombre d arbres 33 Il est noter que dans ce cas l erreur n est pas totalement stabilis e 500 arbres en effet les autres mod les ont montr que plus d arbres finissaient par faire augmenter l erreur correspondant probablement du surapprentissage On remarque galement que les erreurs sont similaires pour chaque race Le Tableau 14 ci dessous est une table de contingence croisant les valeurs pr dites aux valeurs observ es Valeur
2. Analyse des performances pseudo R ps r sq lt 1 mean best rf carc predicted x notDchn lgr carc r ind not na 2 var x notDchn lgr carc r ind not na ps r sq volution de l erreur plot 1 length best rf carcSmse best rf carcSmse lwd 2 col darkre d main Evolution de l erreur OOB MSE n en fonction du nombre d arbres xlab Nombre d arbres ylab 00B MSE type 1 Valeurs pr dites vs valeurs r elles plot x notDchn lgr carc r ind not na best rf carc predicted pch lwd 2 col darkred main Valeurs pr dites vs valeurs r elles xlab Longueur de carcasse ylab Valeurs pr dites abline 0 1 col darkgreen Etude des variables importantes Tri par ordre d croissant pour les deux crit res d importance importanceord Acc lt sort best rf carcSimportance 1 decreasing T importanceord Gini lt sort best rf carcSimportance 2 decreasing T par mfrow c 1 2 barplot importanceord Acc names rep NA length importanceord Acc ylab importance pr cision xlab genes barplot importanceord Gini names rep NA length importanceord Gini ylab importance Gini xlab genes dev print jpeg file RF carc r importance gini precisionl jpg width 500 Extraction des variables importantes best var acc lt importanceord Acc 1 20 best var gini lt importanceord Gini 1 20 length intersect names best var acc names best var gini
3. saving column names ni lt colnames condi applying function to remove NA s removes column names condi lt apply condi 2 input mean cond2 lt apply cond2 2 input mean inserting column names colnames condi lt n1 colnames cond2 lt n1 converting back from matrix to data frame condi lt data frame cond1 cond2 lt data frame cond2 Creates a third element by consolidating vertically condi and cond2 into cond12 condi2 lt rbind condi cond2 condi2 lt as matrix cond12 Creates a tasks vector for simone tasks lt factor c rep 1 nrow condi rep 2 nrow cond2 list cond12 cond12 tasks tasks outputs condi2 tasks Le fichier run simone joined R se sert de la fonction d finie ci dessus et l applique a chaque jeu de donn e Un extrait de ce fichier contenant un appel de fonction est pr sent ci dessous library igraph library simone source export_graph simone indep bic R 111 dataset source import_1lli r graphi lt creategraph simone condi mbor 0 15 V graphi nomi lt genes names V1 V graphi nom2 lt genes names V2 V graphi nom3 lt genes names V3 graph density graphi write graph graphi file Results data 11 Independent graph 111 condi simone mbor bic graphml format graphml write table get edgelist graphi file Results data 11 Independent edgelist lli condi simone mbor bic txt row names F col names F 99
4. datafile sep edge list graph method 2 if condition 1 edgelist2 lt get edgelist graphi else edgelist2 lt get edgelist graph2 edgelist2 lt paste edgelist2 1 rep nrow edgelist2 edgelist2 2 sep Number of edges both graphs have in common common edges lt intersect edgelisti edgelist2 if length edgelisti 0 amp length edgelist2 0 res lt 0 else res lt length common edges res Comparaison des graphes obtenus entre conditions Le fichier compare conditions R contenant la fonction compare conditions est utilis pour la comparaison des r sultats de deux conditions dans un jeu de donn es On passe la fonction le jeu de donn es son emplacement dans l arborescence des fichiers et une liste de m thodes et il cr e une matrice pour chaque m thode en ligne on retrouve le nombre d ar tes inf r es en condition 1 en condition 2 et l intersection des deux conditions La fonction crit ensuite cette matrice au format csv HSE ES compare conditions lt function dir in dataset methods This function allows one to compare the edge count of graphs created from two conditions and their intersection across several methods 58 Nicolas Edwards Programmes r alis s Input dir in the directory where the RData file containing objects graphi and graph2 are stored dir out the directory where the output files s
5. ir INRA ml de G n tique Cellulaire INRA Castanet Tolosan SS 222000 2200 S D 900064 IUT de Perpignan Via Domitia Dpt STID Carcassonne ANALYSE DE DONN ES TRANSCRIPTOMIQUES PAR R SEAUX DE CO EXPRESSION G NIQUE Nicolas Edwards Stage de fin d tudes DUT STID Carcassonne 2011 2012 Tutrices de stage Magali SanCristobal Laurence Liaubet LGC INRA amp Nathalie Viguerie INSERM Tutrice p dagogique Nathalie Villa Vialaneix Table des matieres Introduction ll Description de l entreprise 1 LINRA d accueil 2 Le Laboratoire de G n tique Cellulaire lll Description du travail effectu 3 Description des donn es et de la 3 1 Description des donn es probl matique 3 1 1 Quelques notions biologiques sur l expression de g nes 3 1 2 Donn es en relation avec la qualit de la viande de porc 3 1 3 Donn es en relation avec l ob sit 3 2 Probl matique du stage 3 2 1 Grapes 2 3 2 2 Inf rence de r seaux de co expression g nique 3 2 3 M thodes d inf rence jointes 4 Outils et m thodes Al Git 4 dau eo HOw 4 2 Packages R et outils logiciels utilis s pour les graphes 4 3 Scripts d velopp s 5 R sultats 5 1 Donn es simul es 5 2 Donn es r elles 5 2 1 R sum des inf rences 5 2 2 R sum
6. Visualisation des graphes obtenus entre conditions La visualisaion des graphes obtenus avec deux conditions c te c te se fait au moyen du fichier show_graphs cond R Il contient la fonction show graphs laquelle on passe le r pertoire contenant les donn es le nom du jeu de donn es le nom de la m thode d inf rence puis quelques options graphiques si l on veut des tiquettes sur chaque n ud leur couleur leur forme si l on veut la l gende et le fichier de coordonn es des sommets dans la repr sentation g n r par un programme java fr jar qui m a t fourni et impl mente la m thode de Fruchterman and Reingold 1991 ou par la fonction contenue dans le fichier create_layout R voir ci dessous 2 SSSSSSSSS5S5S5 gt show graphs Input dir the directory where the graph files are located O dataset the dataset whose graphs will be used method the method used to generate the graphs mode condition unused layout condi simone mbor bic the layout file from which the edges and the vertices are arranged on the graphs show labels determines whether the script should show the vertex names or not defaults to false vshape a vector of shapes the same length as the number of vertices vertices will be drawn with specified shape Is not used by default col gt a color vector for painting the vertices Is not used by default HHHHHHHHHHHHHHHHHHH edge wid
7. wiw agrocampus ouest fr math causeur Professeur Agrocampus Ouest 21 Nicolas Edwards Description des donn es et de la probl matique Dans l approche de Mcinshausen and B hlmann 2006 le crit re maximiser pour chaque g ne j est le suivant gue ix ML A gt fasi 5 5 Ad JAI N2 avec log ML 5 5 x je bjr Xi Le premier membre du crit re est le logarithme du maximum de vraisemblance pour le mod le lin aire 3 1 et le second est un membre de r gularisation qui d pend de la norme L de tous les 8 47 G z1 DD 3 Par le biais de ce type de p nalisation une grande partie des coefficients 8 sont amen s s annuler c est le principe de la p nalisation lt sparse gt L ou LASSO Il s agit alors de faire varier le param tre de r gularisation not ici pour obtenir plus ou moins de coefficients non nuls dans la matrice d adjacence donc plus ou moins d ar tes dans le graphe La matrice B B 1 en r sultant est asym trique la valeur la je ligne me et j colonne j 7 de la matrice peut tre diff rente de celle la j me ligne et la j me colonne On se retrouve dans une situation o potentiellement dans la case j 7 la corr lation est non nulle mais dans la cellule j 7 elle ne l est pas et inversement Il faut alors prendre une d cision et appliquer un des deux op rateurs logiques lt ET gt ou lt
8. Figure 2 R partition de l cart type des expressions des g nes Ici le ph nom ne est quivalent celui retrouv dans l tude de la r partition de la moyenne mais de fa on 6 beaucoup plus marqu e une crasante majorit plus de la moiti des g nes ont une expression d cart type compris entre 0 3 et 0 4 il y a donc un pic tr s important traduit par un Kurtosis tr s lev environ 13 423 Les expressions des g nes ayant des carts types plus lev s sont tr s rapidement minoritaires traduit par un coefficient d asym trie galement lev environ 3 004 Alors que les g nes ayant un cart type de l expression faible sont probablement des g nes commun tous les individus donc codant pour l tat de cochon voire de mammif re de l individu les g nes dont l cart type de l expression est plus fort donc aux valeurs plus distinctes entre chaque individu sont susceptibles d tre sp cifiques la race voire l individu lui m me Le Tableau 3 donne une liste de g nes extr mes n gativement cart type de l expression inf rieur 0 25 et le Tableau 4 une liste de g nes dont l expression a une variabilit tr s forte cart type sup rieur 1 5 X839 X1115 X1860 X4164 X6964 X7533 X8489 X10858 X18429 X18574 X24342 X24741 X38047 X40666 X42245 X43177 Tableau 3 Liste de g nes d cart type tr s faible X3404 X5499 X6097 X9208 X9797 X10266 X10620 X12685 X18492 X26
9. Nicolas Edwards Programmes r alis s A 2 3 Fonctions d analyse et de comparaison des r seaux g n r s Comparaison des graphes obtenus entre m thodes Le fichier compare methods R contient la fonction compare graphs qui sert comparer les graphes r sultant de plusieurs m thodes condition et jeu de donn e fix les trois renseignements sont pass s en param tre ainsi que le r pertoire du fichier o se trouvent les graphes Quand la fonction est appel e elle g n re une matrice triangulaire avec en ligne et en colonne les m thodes et l intersection de deux m thodes le nombre d ar tes communes au graphe intersection la diagonale contient le nombre d ar tes pour la m thode et elle crit cette matrice dans un fichier au format csv tase this file contains 2 functions compare graphs intersection graphs gt gt S5 compare graphs The data is assumed to be organized as lt data group gt lt method type gt lt data gt where lt data group gt should be put in dir in and several lt data gt lt method type gt should be put in method The method type should be the name of the data s subdirectory Input dir in directory containing the input data files ex Results data nv dir out the directory to which the output files whould be put dataset name of the dataset in naming convention 111 112 or nyi S cond
10. best var lt intersect names best var acc names best var gini write table cbind best var round best var acc best var 3 round b est var gini best var 3 file RFcarc 14genes plusimportants csv 57 row names F col names F sep dec JDD fait pour les expressions des genes les plus importants imp and race lt data frame x notDchnSlgr carc r ind not na x notDchn best var ind not na imp and race ordered lt imp and race order imp and race 1 imp and race ordered Heatmap heatmap as matrix imp and race ordered 2 12 Rowv NA Matrice de boxplots de l expression des g nes les plus importants selon le ph notype corrig par mfrow c 3 4 for 1i 3m 1411 plot x notDchn lgr carc r ind not na x data best var carc r i ylab paste Gene dimnames x data best var carc r 2 i xlab Obs du ph notype corrig pch 58
11. cex 1 7 bty n plot 0 05 type n axes F yaxt n gt xaxt n ann F legend 1 1 5 c Condition specific edge Shared edge lty c 2 1 cex 1 7 bty n D legend 1 0 5 c Positive partial correlation Negative partial correlation Col CQibitens aire dE Cle DER Cex 64 Nicolas Edwards Programmes r alis s 1 7 bty n Printing out dev print device png file paste dir displaygraphs big dataset method png sep width 1400 height 1000 dev print device png file paste dir displaygraphs dataset method png sep width 700 height 500 else case weight does not exist as usual edges color colm edges ele col edges g2 lt rep red length E graph1 rep red length E graph2 col edges gilei in Shared lt blue col edges g2 e2 in Shared lt blue if show labels T plot graphi layout layoutmatrixi vertex size 10 vertex frame color col vertex color col label V graphi name vertex shape vshape edge width 1 main paste Visualization of genes using n method condition 1 sep edge color col edges g1i else plot graphi layout layoutmatrixi vertex size 2 vertex frame color col vertex label NA edge width 1 main paste Visualization of genes using n method condition 1 sep edge color col edges g1i vertex dataset s n method in dataset s n me
12. col c rep pink 23 rep lightgreen 16 show labels TRUE appart leg TRUE HHH HHH HHH load the layout layoutfile1 lt paste layout dataset layout txt sep layouttext1 lt read table paste dir layoutfile1l sep stringsAsFactors F load the graphs datafile lt paste graph dataset cond1i2 method RData sep load paste dir datafile sep if is numeric layouttexti 1 The node numbers are used in the layout file layoutmatrixi lt as matrix layouttext1 order layouttext1 IPN SE 81 else The node names are used in the layout file ordered ind lt match V graphi name layouttexti 1 layoutmatrixi lt as matrix layouttexti1 ordered ind 22311 edge lists edgelisti lt get edgelist graphi edgelist2 lt get edgelist graph2 edgelisti lt paste edgelisti 1 rep nrow Cedgelist1 edgelisti 2 sep edgelist2 lt paste edgelist2 1 rep nrow edgelist2 edgelist2 2 sep number of Shared edges between the two graphs 62 Nicolas Edwards Programmes r alis s Shared edges lt intersect edgelisti edgelist2 which edges ei in Shared lt match Shared edges edgelist1 e2 in Shared lt match Shared edges edgelist2 display graphs if appart leg layout matrix c 1 2 1 2 3 4 ncol 2 byrow T else par mfrow c 1 2 if length E graphi weight gt 0 Generate line width constant the same f
13. in mbor mband friedman cor boolean keep partial correlation B as of report notations as graph edge attributes in E graphi weight min pen numeric in 0 1 the minimal penalty value as a multiple of the smallest penalty value resulting in an empty graph for which one wants to infer a network max edges the maximal about of edges past which inference stops and the last network is saved will have about max edges edges use bic boolean whether to use the Bayesian Information Criterion to select the best graph Step 3 Visualization Analysis For real data it is done by means of show_graphs cond R iv Programs description Requests add_annot_info R add annotations This function reads the specified CSV file establishes a correspondence between spot names and annotations and attributes the annotations to the vertices of the input graph objects either in the R environment or specified with a dataset and a filename It also has the option of saving a graphml file alongside for each condition compare simul2true R This script allows one to compare true known data with data simulated from it This function takes 5 atomic arguments dataset the dataset for which one wants to compare simulated data to true data 111 nvi and nv2 currenty have the requisite files method the method for which one wants to compare the simulation to the real data dir graphs the directory in whi
14. method png sep width 700 height 500 Les appels la fonction show graphs se font dans un fichier externe run show_ graphs cond R Ceux ci sont faits pour divers jeux de donn es et m thodes Un extrait de ce fichier est pr sent ci dessous library igraph source show_graphs cond R source create_layout R 111 show graph Results data 1ll Independent 111 glasso mbor show graph Results data 1l Independent 111 simone mbor bic show graph Results data 1ll Independent 111 simone mband bic ANS show graph Results data 1ll Independent 111 simone friedman bic Al nv3 show graph Results data nv Independent nv3 simone mband bic d5 wpcor layout condi simone mband bic d5 wpcor igraph fr vshape c rep square 38 rep circle 12 col c rep pink 38 rep lightgreen 12 show labels T create layout nv3 simone mband bic d5 wpcor Results data nv Independent Results data nv Independent kk 66 Nicolas Edwards Programmes r alis s show graph Results data nv Independent nv3 simone mband bic d5 wpcor layout condi simone mband bic d5 wpcor igraph kk vshape c rep square 38 rep circle 12 col c rep pink 38 rep lightgreen 12 show labels T create layout nv3 simone mband bic d10 wpcor Results data nv Independent Results data nv
15. sel78 cex 0 7 col sienna Intersections crois es des variables s lectionn es intersect rownames xPCASvar cos2 sel12 rownames xPCASvarScos2 se134 intersect rownames xPCASvar cos2 sel12 rownames xPCASvar Scos2 sel56 intersect rownames xPCASvar cos2 sel12 rownames xPCASvarScos2 sel178 intersect rownames xPCASvar cos2 sel34 rownames xPCASvar Scos2 se156 intersect rownames xPCASvar cos2 sel34 rownames xPCASvar Scos2 sel78 intersect rownames xPCASvar cos2 sel56 rownames xPCASvarScos2 sel178 52 For ts Al atoires chargement des donn es corrig es de l effet bande load corrected Rdata For t 1 de pr diction de la race donn es initiales Apprentissage de la for t al atoire Param trage de la graine al atoire set seed 47395 Construction de la for t best RF race lt randomForest x correct x notDchnSrace ntree 500 mtry 100 sampsize 75 importance T Analyse des performances Table de contingence TC lt best RF raceSconfusion TC Taux d erreur global best err lt 1 sum diag TC 1 4 sum TC 1 4 best err Evolution de l erreur plot l nrow best RF raceSerr rate best RF raceSerr rate 1 col black xlab Nombre d arbres ylab Taux de mal pr dits main Evolution du taux de mal pr dits en fonction du nombre d arbres lwd 2 type 1 ylim c 0 1
16. 0 019X15986 0 128 0 409 X36419 0 893 0 021X30208 0 617 0 001X22274 0 373 0 043X18051 0 239 0 296 X39558 0 904 0 004 X4099 0 598 0 019 X9965 0 368 0 038 X28237 0 299 0 232 X31049 0 899 0 008 X26071 0 601 0 010 X38230 0 134 0 265X13121 0 117 0 413 X25615 0 850 0 055X26109 0 590 0 009 X1393 0 080 0 313 X37207 0 262 0 263 X27722 0 883 0 018 X3062 0 596 0 002 X26905 0 362 0 027 X12079 0 299 0 222 X17679 0 901 0 001 X2001 0 554 0 041 X40076 0 232 0 156 X1908 0 086 0 427 X43330 0 897 0 004 X36031 0 576 0 003X23314 0 347 0 038 X10064 0 251 0 258 Annexe 2 Script R des analyses Importation et pr paration des donn es Les donn es sont import es par x lt read table project data csv sep header TRUE dec Pour obtenir la moyenne et l cart type de l expression des g nes on calcule ces deux statistiques pour chacun des g nes x means lt apply x 1 4674 2 mean x sds lt apply x 1 4674 2 sd On construit des graphiques a partir de ces informations hist x means main R partition de la moyenne des expressions de g nes xlab Valeurs de la moyenne ylab Nombre de variables hist x sds main R partition de l cart type des expressions de g nes xlab Valeurs de l cart type ylab Nombre de variables On extrait du jeu de donn es les expressions atypiques des g nes which x means gt 4 which x means lt 2 w
17. D oO i 2 i Qui s 8 6 a H m T ki Duroc Landrace LWF LWM Race Figure 10 Distribution d une autre mesure du ph notype selon la race Si l on ne tient pas compte de la distribution tr s dissym trique de ce ph notype pour la race LWM la race semble avoir moins d influence sur la moyenne de ce ph notype en comparaison avec l autre Si l influence de la race sur la longueur de carcasse est attendue qu en est il de l influence de la bande sur ce ph notype Si la bande influence la longueur de la carcasse cela montrerait l importance des facteurs environnementaux sur le ph notype mais serait assez probl matique pour l tude qui devra pour continuer tenir compte de ce ph nom ne v rifiable par ANOVA Comme pour les pr c dents tests effectu s des tests de Shapiro Wilk devront tre effectu s pour chaque bande afin de mesurer la normalit des ph notypes dans chaque sous population Voici donc un tableau pr sentant les p values associ s chacun de ces tests pour le premier ph notype d int r t Igr carc 16 Bande 70602 70604 70606 70608 70610 80604 80606 80610 Valeur de la statistique de test 0 9298 0 9343 0 9334 0 9419 0 9817 0 8964 0 923 0 9709 Valeur de la p value 0 5493 0 3873 0 417 0 1358 0 9658 0 3529 0 4178 0 8706 L hypoth se de normalit n est rejet e pour aucune des bandes on admettra donc la distribution normale de ce ph notype au sein de chaque bande Le test de
18. D un point de vue professionnel j ai eu l occasion de construire et de documenter des outils g n riques et pertinents pour l analyse de donn es transcriptomiques puis de les utiliser avec l objectif d enrichir les connaissances scientifiques dans le domaine g n tique D un point de vue personnel ce stage m a enrichi de plusieurs mani res tout d abord la difficult de m approprier un nouveau mod le math matique coupl avec la rigueur exig e par le besoin de programmation g n rique m ont stimul au point de d passer mes propres attentes quand au travail fourni Le principe du groupe de travail que je ne connaissais pas r ellement jusqu a ce stage m a beaucoup plu et motiv car il s agissait d exposer un travail d changer des id es avec des professionnels et de pouvoir valoriser mes comp tences et mes acquis et de ce fait m a permis de d velopper ma confiance en moi 3http r2012 bordeaux inria fr Cinquieme partie Annexes 41 A Programmes r alis s A 1 Organisation des programmes L organisation des programmes est d crite dans le sch ma de la figure A 1 G n ration de r seaux al atoires FIGURE A 1 Organisation des programmes Pour chaque fonction r alis e la documentation en anglais des diverses options de la fonction a t ins r e en d but de fichiers En parall le un fichier README pr sent Nicolas Edwards Programmes r alis s dans l annex
19. ImpRace best LWMF order ImpRace best LWMF 1 heatmap heatmap as matrix ImpRace best LWMF ordered 2 ncol ImpRace best LWMF ordered Rowv NA JDD des expressions moyennes des genes par race mean exp ImpRace lt matrix ncol 3 data unlist by ImpRace best LWMF 2 17 ImpRace best LWMF 1 mean colnames mean exp ImpRace lt c Duroc Landrace LW rownames mean exp ImpRace lt colnames ImpRace best LWMF 2 17 heatmap heatmap mean exp ImpRace Colv NA 2e m thode de cr ation d un JDD de variables importantes mostimport x LWMF lt x LWMF best var dim mostimport x LWMF Corr lation entre les g nes library ellipse library RColorBrewer cor mat lt cor mostimport x LWMF ord lt order cor mat 1l xc lt cor mat ord ord colors lt brewer pal 11 RdBu colors xC plotcorr xc col colors 5 xc 6 Boucle de mini barplots parall les par mfrow c 4 4 for Wa i 1216 boxplot mostimport x LWMF i x LWMFSrace ylab paste Expr du gene dimnames mostimport x LWMF 2 i las 2 56 For t 1 de pr diction du ph notype corrig donn es initiales Apprentissage de la for t al atoire Param trage de la graine al atoire set seed 47395 best rf carc lt randomForest x correct ind not na x notDchnSlgr carc r ind not n a ntree 5000 mtry 100 sampsize 50 importance T
20. es sur les axes 5et6 sur les axes 7 et 8 o o 4 o g C o o m o 2 o E g g T lt J Q Q a 1 0 0 5 0 0 0 5 1 0 Axe 5 Axe 7 Figure 18 Cercles des corr lations pour les variables les mieux reconstitu es sur les axes 1 8 On remarquera que les g nes dont les expressions sont les mieux reconstitu es sont toutes corr l es positivement sur l axe 1 qui semble tre un axe d chelle Sur l axe 3 les expressions des g nes les mieux reconstitu es sur les axes 3 et 4 sont aussi corr l es mais cet axe semble opposer les expressions des g nes X4099 et 26071 et les autres g nes les mieux reconstitu s sur ces axes Les axes 5 et 6 montrent moins de corr lations significatives L axe 5 le plus important du point de vue du classement des individus selon leur race semble tre un axe d opposition entre des g nes tels que X3404 et des g nes tels que X46076 g nes semblant tre influenc s par la race du cochon Les axes 7 et 8 semblent tre tous deux des axes d chelle montrant de fortes corr lations entre les expressions des g nes les plus reconstitu es sur ces axes Un autre ph nom ne notable est que les g nes affich s sur chaque cercle des corr lations sont tous diff rents aucun g ne contribuant fortement sur 2 axes parmi les 8 affich s ne contribue fortement sur les 6 autres Les m thodes d analyse exploratoire classification non supervis e ACP si elles permettent de 25 percevoir les probl mes l
21. glucose gt a t identifi e comme un g ne de grand inter t gr ce cette approche Le n ud SCD g ne connu comme tant impliqu dans la liposynth se est connect l indice du syndrome m tabolique au tour de taille et au taux de triglyc rides C est donc la confirmation de son importance dans le m canisme de r gulation lipidique Enfin le r seau montre une centralit du n ud d crivant la masse lipidique lt Fat Mass gt connect e au taux de glucose Glucose et aux prot ines C r active C reactive protein ainsi qu une centralit du n ud ALDOC connect des g nes lipog niques FASN SCD FADS2 et ELOVLS aux triglyc rides lt TG gt et au tour de taille lt waist gt 38 Quatrieme partie Conclusion 39 Apr s avoir pris connaissance des cadres math matique et biologique ainsi que des modalit s de mon stage des comparaisons d inf rence de r seaux sur des donn es simul es ont t effectu es Ensuite l aide de scripts r dig s de mani re g n rique et enti rement document s en anglais des graphes ont t inf r s sur des donn es transcriptomiques d origines diverses Suite une validation biologique des r seaux retenus certains d entre eux ont t int gr s dans un article en r vision pour une publication dans le journal scientifique PLoS Genetics Le travail effectu sera aussi pr sent lors des Rencontres R de BoRdeaur les 2 et 3 juillet 2012
22. ob sit Il s est organis autour de groupes de travail avec des statisticiens et des biologistes Le but du stage tait d analyser les corr lations multiples dans l expression de g nes par une approche lt r seau gt Le travail de ce stage a t effectu en utilisant le logi ciel statistique libre R des scripts g n riques et des fonctions ont t d velopp s dans le but de pouvoir tre r utilis s pour d autres donn es de m me nature Diff rentes ap proches math matiques d inf rence de r seaux ont t compar es sur des donn es r elles et simul es et les graphes retenus ont t valid s par les biologistes pour v rifier que l information apport e tait pertinente In fine ce travail a permis d extraire des g nes importants dans le fonctionnement du tissu adipeux renfor ant la connaissance biolo gique de ce domaine Une partie du travail a t int gr e dans un article en r vision pour publication dans le journal scientifique PLoS Genetics Viguerie et al 2012 et l ensemble des r sultats de la comparaison seront expos s lors des premi res Rencontres R de BoRdeaux le 3 juillet 2012 Villa Vialaneix et al 2012 Ce stage m a permis de m approprier un nouveau mod le math matique de d velopper ma rigueur personnelle en programmation et d acqu rir de la confiance en moi notam ment lors des groupes de travail o je devais r guli rement exposer l avanc e de mes travau
23. 5 for i in 1 length methods methods loop current method method lt substr methods i 1 gregexpr methods i J sores NN subdir in lt substr methods i gregexpr methods i perl F 1 1 nchar methods i load dataset datafile lt paste graph dataset cond12 method RData sep 59 Nicolas Edwards Programmes r alis s load paste dir in subdir in datafile sep edge lists edgelisti lt get edgelist graphi edgelist2 lt get edgelist graph2 update matrix edgelisti lt paste edgelisti 1 rep nrow edgelist1 edgelist1 2 sep edgelist2 lt paste edgelist2 1 rep nrow edgelist2 edgelist2 2 sep compare i 1 lt length edgelist1 compare i 2 lt length edgelist2 compare i 3 lt length intersect edgelisti edgelist2 stats compare i 1 lt graph density graphi stats compare i 2 lt graph density graph2 stats compare i 3 lt transitivity graphl1l stats compare i 4 lt transitivity graph2 stats compare i 5 lt compare i 3 min compare i 1 2 rownames compare lt methods colnames compare lt c Condition 1 Condition 2 Intersection 15 colnames stats compare lt c density condi density cond2 transitivity condi transitivity cond2 shared rownames stats compare lt methods write csv compare file paste dir out compare edges dataset condi2inter csv sep
24. Bartlett d homog n it des variances peut donc tre effectu Celui ci donnant une statistique de test de 8 7491 avec une p value associ e de 0 2712 on ne trouve pas de diff rence significative de la variance de la mesure du ph notype entre les bandes La p value associ e au test d ANOVA est de 0 673 De ce fait on ne peut pas rejeter l hypoth se d galit des variances de la mesure de ce ph notype entre les races La bande ne semble donc pas influencer significativement le ph notype m me si les boites a moustaches de cette mesure du ph notype par race pr sent es ci dessous semblent illustrer le ph nom ne inverse Bo tes moustache d un ph notype en relation avec le poids de la carcasse selon la bande 5 Re as i I I i i i I I I i i un i i i 5 i i i O i i i en a a i i i 2 O H i o a i w i 1 gt w i c 4 i Q i T H o Re I w QoQ o gt a ee o H Z olin i w simm T wd I A i Le a et H aniem fa endans Fr T 70602 70604 70606 70608 70610 80604 80606 80610 Bande Figure 11 Distributions d une mesure du ph notype selon la race La m me d marche devra tre effectu e pour l autre mesure du ph notype Voici donc comme pr c demment un tableau pr sentant les r sultats du test de Shapiro Wilk relatif la deuxi me mesure du ph notype d int r
25. Independent kk show graph Results data nv Independent nv3 simone mband bic di0 wpcor layout condi simone mband bic d10 wpcor igraph kk vshape c rep square 38 rep circle 12 col c rep pink 38 rep lightgreen 12 show labels T Pour pouvoir visualiser un r seau il faut fournir la fonction plot igraph du package igraph une matrice de coordonn es pour chaque sommet Cette matrice peut tre obtenue directement partir du package igraph m me si l approche n est pas optimale et que nous avons souvent pr f r utiliser un programme java sp cifique fr jar La g n ration des coordonn es des sommets du graphe par igraph peut se faire l aide du fichier create layout R La fonction qu il contient create layout prend 5 param tres en entr e r pertoire des donn es r pertoire de sortie jeu de donn es m thode et type de visualisation comme impl ment es dans create _layout R Elle produit un fichier txt dans le r pertoire de sortie contenant pour chaque ar te du jeu de donn es une position x et une position y obtenues avec le type d agencement sp cifi parmi 3 HHH create new layout This file contains a single function whose purpose is to generate fruchterman reingold layouts for graph objects and exports them to text files IN HHHHH HH OH dir in string the directory relative to R lib where the file containing the graph objects is S
26. LIIAN I im i oe i MN X15632 X9965 x38089 X20447 Pentre AVA FAVS DEEE PEPCE TO CELEECELT ET sy EE LRN fl Figure 25 Heatmap croisant la classification des g nes les plus importants pour les deux crit res et les individus tri s par race Les r sultat sont assez clairs pour certains g nes comme le g ne X3404 tr s exprim chez les LW et moins exprim chez les autres races le g ne X36089 s exprimant surtout sur les individus de race landrace et le g ne X27309 davantage exprim chez les duroc La Figure 26 ci pr sente une version simplifi e de la heatmap en Figure 25 en pr sentant la moyenne des expressions des g nes importants par race et non l expression par individu La tendance globale est crite dans le Tableau 16 r capitulant les g nes importants selon leur sp cificit une race donn e Un g ne bien exprim chez une race comparativement aux autres sera not par un et un g ne peu exprim chez une race comparativement aux autres sera not par un Ce tableau pr sente galement pour chaque g ne la valeur de la p value du test d effet du facteur races La Figure 27 pr sente les bo tes moustaches parall les pour chaque race de ces m mes g nes importants 36 37 Duroc Landrace LW x10512 x31039 X16335 x11878 X7762 x29104 X12547 X15632 9965 X22274 X20447 Figure 26 Heatmap croisant la classification de la moyenne des genes im
27. Ne AR Le t at D 47 tt w 4 ce 4 9 F o le 9 TT 15 10 5 0 5 10 10 5 0 5 10 Dim 5 Dim 7 Sur la plupart des axes les races ne sont que peu ou pas regroup es entre elles Cependant l axe 5 montre clairement un regroupement des individus de m me race sur le nuage ainsi que dans une moindre mesure l axe 8 Les individus de race Duroc se placent de la m me fa on que la bande 80610 ce qui confirme l hypoth se de regroupement de cette bande sur la coloration pr c dente On remarque par ce regroupement que les Duroc semblent loign s de la race LWF du point de vue du g nome alors que les deux races Large White se ressemblent ce niveau Si l axes 5 et 8 regroupent les races l tude concerne surtout le ph notype d int r t peut tre celui ci apparait il sur cette ACP Voyons pour cela ces m mes repr sentations des individus sur l ACP color s selon la valeur de leur ph notype d int r t Igr carc regroup en classes les classes sont d finies selon les d ciles de la distribution du ph notype 23 950 960 o 960 980 ds 980 1000 e 1000 1020 e 1020 1040 6 1040 1060 w a 1060 1080 g Ea 6 m a 7 F D a L E a 1080 1100 re d s b a e ee ee o g o o PAIE E x m o a N e gt K o a Ea o pe b vm G aen bd 5 Le D
28. Precision Recall for each condition 1 condition 2 and sum average 72 Nicolas Edwards Programmes r alis s and at the end the inter condition difference for the true graphs and each simulation are binded and written out 1 png file containing the Precision Recall curve size width 600 gen compare lt function dataset dir graphs dir truth dir out method col method inferred graphs load paste dir graphs simu dataset method RData sep original data load paste dir truth simu dataset Rdata sep Vector Initialisation tpi lt NULL fpi lt NULL tni lt NULL fni lt NULL tp2 lt NULL fp2 lt NULL tn2 lt NULL fn2 lt NULL true intercond lt NULL simul intercond lt NULL for ind in 1 length simus Condition 1 ni lt length V simus ind tg1 no number of no edges graphi lt length E all graphs ind graph1 no edges tgi lt length E simus ind tg1 no edges interi lt length E graph intersection all graphs ind graphi simus ind tg1 tpi lt cbind tp1 no edges inter1i hit fpi lt cbind fp1 no edges graphi no edges inter1i Alpha tni lt cbind tni ni x n1 1 2 no edges graphi no edges tgi no edges interi correct rejection fni lt cbind fni no edges tgi no edges interi Beta rownames tpi lt True Positives ci rownames fpi lt False Positives ci r
29. a t effectu e au travers de groupes de travail Ces groupes de travail taient organis s avec les statisticiens et les biologistes de l INRA et de l INSERM la pr sentation des r sultats et la mise en commun des r flexions et connaissances de chacun a permis d apporter r guli rement des modifications comme des fonctionnalit s suppl mentaires aux scripts crits des modifications des fichiers de donn es ou le test de nouvelles approches m thodologiques lhttp www agence nationale recherche fr projet Delisus voir http www inra fr les_ partenariats programmes_anr genomique genanimal appel_a_projets_2007 delisus Zhttp www diog unhbox voidb x bgroup let unhbox voidb x setbox tempboxa hbox e global mathchardef accent spacefactor spacefactor accent18e egroup spacefactor accent spacefactornes eu org 12 Troisi me partie Description du travail effectu 3 Description des donnees et de la problematique 3 1 Description des donn es Durant le stage l tude de plusieurs jeux de donn es a t effectu e de mani re ind pendante les uns des autres Pour chacun d entre eux on s int ressait a la diff rence dans la corr lation entre l expression de g nes entre deux conditions environnementales 3 1 1 Quelques notions biologiques sur l expression de g nes La majorit des donn es utilis es dans ce travail se composent d expressions de g nes Pour expliquer ce qu est l expressio
30. anoval lt aov lgr carc race data y notDchn summary anoval Boite a moustaches de la distribution de la longueur de carcasse selon la race boxplot y notDchnSlgr carc y notDchn race main Boites moustache d un ph notype en relation n avec le poids de la carcasse selon la race xlab Race ylab Ph notype en relation avec le poids Corr lation avec la race ANOVA de la longueur de carcasse corrig e en fonction de la race tapply y notDchn lgr carc r y notDchn race shapiro test bartlett test y notDchn lgr carc r y notDchnSrace anova2 lt aov lgr carc r race data y notDchn summary anova2 Boite a moustaches de la distribution de la longueur de carcasse corrig e selon la race boxplot y notDchn lgr carc r y notDchn race main Boites moustache d un autre ph notype en relation n avec le poids de la carcasse selon la race xlab Race ylab Ph notype en relation avec le poids Corr lation avec la bande ANOVA par bande lgr carc la longueur de la carcasse tapply y notDchn lgr carc y notDchnSanstaba shapiro test bartlett test y notDchn lgr carc y notDchnSanstaba anova3 lt aov lgr carc anstaba data y notDchn summary anova3 Bo te moustache de la distribution de la longueur de carcasse selon la bande boxplot y notDchn lgr carc y notDchnSanstaba main Boites moustache d un ph notype en relation n avec le poids de la carcasse selon la bande x
31. basic info print cat Vertices length V graph2 n Edges length E graph2 n Density graph density graph2 n Transitivity transitivity graph2 n Connectivity is connected graph2 n output graphs list graphi graphi graph2 graph2 51 Nicolas Edwards Programmes r alis s Inf rence de r seaux joints par simone La fonction creategraph simone joined contenue dans le fichier export graph simone joined bic R permet l inf rence jointe de r seaux inf rer un r seau pour une condition sachant l expression des g nes dans les deux conditions On doit pr ciser la fonction quelle approche choisir pour cette inf rence parmi Grou pLasso gt lt CoopLasso gt ou lt Intertwined gt comme d crit dans Chiquet et al 2011 ainsi que le jeu de donn es identifi par un nom 111 nv2 pour lequel on souhaite inf rer les r seaux Diverses options sont introduites permettant par exemple de garder la valeur de la corr lation partielle pour chaque ar te inf r e Cette derni re option permettra lors de la visualisation du graphe un affichage diff renti des ar tes selon la valeur et le signe de la corr lation partielle creategraph simone joined H OE Oo SES EEE ETES SES arguments method graph construction approach coopLasso groupLasso or intertwined see simone setOptions and Inferring Multiple Graphical Structures Ch
32. ce le cochon voire au del des g nes de fonctionnement commun 18 aux mammif res ou au r gne animal dans son ensemble l inverse les g nes dont l expression est fortement variable peuvent tre sp cifique de l individu ou de mani re plus int ressante pour le biologiste peuvent tre de bons candidats de g nes sp cifiques la race ou en relation avec un ph notype d int r t Par ailleurs dans une dimension de biologie int grative on peut aussi s int resser aux relations entre l expression de l ensemble des g nes la r alisation d une heatmap croisant une classification des expressions des g nes par similarit sur l ensemble des individus et les individus que nous avons ordonn par race permettra de voir si il existe des groupes de g nes facilement identifiables ont l expression est sp cifique de la race ou ventuellement rep rer certains individus ou certains groupes de g nes ayant un comportement particulier Lanarace 44 BRSERB ERE SBE E Lanaracs Landrace Lanaracs Canaracs Landrace Landrace Landraos Lancracs Landracs Landracs Landraco Lanarace Landraos Duroc 27 Duroc 26 Eure 25 Duroc 24 t Duroc 23 Duroc 22 ii Duroc 2 A Duroc 20 l Duroc 19 1 Duroc 38 i Duroc 17 Duroc 18 Duroc 15 Y Duroc 14 Duroc 13 Duroc 12 Duroc Duroc 10 Duroc 9 Dure 8 Duroc 7 ig Duroc 6 Duroc 5 Duroc i ban obi aad Figure 13 Heatmap croisant une
33. classification des g nes et les individus tri s par race les g nes sont ordonn es d apr s les r sultats d une classification hi rarchique ascendantes les individus sont ordonn s par race et les couleurs montrent l expression d un g ne donn pour un individu donn rouge g ne fortement exprim jaune g ne faiblement exprim 19 On remarque une volution progressive de l expression des g nes les g nes apparaissent tre de moins en moins exprim s de gauche droite de la classification La tendance de l expression des g nes semble en tout cas se faire indiff remment des individus et m me des races Ainsi il est difficile de rep rer simplement des groupes de g nes dont l expression est sp cifique d une race Afin d approfondir les relations multiples de l expression des g nes et de les mettre en relation avec des facteurs ext rieurs bande race ph notype on r alise une ACP partir des expressions des g nes afin de trouver des groupes d individus semblables vis vis de leur g nome La repr sentation des individus sur les premiers axes de l ACP sera ensuite interpr t e en relation avec leurs races leurs bandes ou la valeurs du ph notype tudi Vu le nombre de g nes donc de variables incluses dans l ACP on ne peut repr senter de cercle de corr lations on se limitera au nuage de points des individus et d un cercle des corr lations sur lequel seules les variables les plus corr l es aux axe
34. dessous montre une repr sentation de la matrice de corr lation des expressions des g nes les plus importants 34 X22274 QOO x29104 x22274 x20447 x29104 OO S O x25459 QOO O x16335 OOOO ain QOOOOLS x27309 QOOOQOO x72 QOOOL4 40 7 x10512 QOOOL4 O44 x1188 QOOO F SOLS x2093 QOQQOL LOLLL xas QOOOOOQOO00O0 x12647 BQOSWHOSYSS OQ x25459 OOO x16335 OOOO x31039 AAOS 27200 NONNOOOD x10512 Q000 Q000Q OOOO 000 4444 4 44 OOOO Va 44 4 x44 QGG000000000000 Figure 24 Corr lations des expressions des g nes les plus importants On distinguera 3 groupes de croisements certains comme le croisement entre le g ne X7762 et X11878 tr s fortement corr l s positivement repr sent s par des ellipses tr s cras s color e en bleu fonc d autres comme le croisement entre le g ne X10512 et X22274 peu corr l s positivement repr sent s par des ellipses moins cras es color e plus clairement et des croisements comme celui entre X3404 et X22274 assez corr l s n gativement repr sent s par des ellipses color s en nuances de rouge La heatmap en Figure 25 croisant ces g nes aux individus tri s par race permettra de voir plus clairement les g nes diff rentiellement exprim s selon les races cette heatmap est pr sent e la verticalement contrairement la pr c dente pour une meilleure visibilit du ph nom ne 35 X10512 x31039 X16335 x11878 ra X7762
35. deux images de taille diff rente au format png de nom lt displaygraph dataset method png gt contenant la visualisation des deux r seaux d finis par les deux conditions Il existe de multiples options graphiques nom forme couleur des noeuds taille couleur des ar tes pr sence de l gende 28 Nicolas Edwards Outils et m thodes L analyse comparative num rique est de deux sortes comparaison des m thodes entre elles condition fix e et comparaison des deux conditions pour chaque m thode e La premi re comparaison s effectue par le script compare methods r et crit au format csv une matrice triangulaire avec chaque m thode pass e en param tre la fonction en ligne et en colonne jeu de donn e fix sur la diagonale figure le nombre d ar tes de la m thode et dans la partie triangulaire se situe le nombre d ar tes communes aux conditions e La deuxi me s effectue par le biais de compare conditions r pour un jeu de donn es et chaque m thode pass e en param tre sa fonction il va lister le nombre d ar tes dans la premi re et seconde condition puis le nombre d ar tes a l intersec tion des deux avant d crire le r sultat au format csv Ex cution Comme il a t nonc pr c demment l aspect fonctionnel des scripts se d compose en deux volets la fonction g n rique et les appels de fonction qui la rendent sp cifique un jeu de donn e une m thode une
36. du ph notypes s par ment quand cela sera possible puisque leur signification n est pas strictement identique Il est attendu que ce ph notype soit influenc par la race du cochon Mais l est il galement par la bande Un test de normalit par race et par bande pr alable une ANOVA permettra de v rifier cela avec en premier lieu l influence de la race sur les ph notypes Comme vu pr c demment la race Dchn pose probl me En effet en plus de n avoir que peu d individus de cette race elle n est pr sente que dans une seule bande faussant tout l int r t de la bande qui est de mesurer afin de limiter l impact environnemental sur le ph notype et risque de fausser les tests Ainsi pour cette ANOVA les individus de race Dchn ont t cart s Au pr alable il faut v rifier que au sein d une race les ph notypes des individus sont distribu s normalement par le biais de tests de normalit de Shapiro Wilk appliqu s a chaque race Dans ce test l hypoth se test pour chacune des sous populations d finies par les animaux d une m me race est Ho La distribution de la longueur de carcasse est gaussienne Voici donc un tableau pr sentant les p values associ es a chacun de ces tests Race Duroc Landrace LWF LWM Valeur de la 0 9655 0 9582 0 9605 0 884 statistique de test Valeur de la 0 5823 0 2294 0 1643 0 1451 p value 13 Dans tous les cas la valeur des p values associ es ces tests
37. est sup rieure aux seuils de 5 ainsi on ne peut pas rejeter l hypoth se de normalit au niveau 5 pour chacune de ces races On admettra donc que le ph notype d int r t est distribu normalement au sein de chacune des races tudi es Grace cette hypoth se on peut effectuer le test de Bartlett d homog n it des variances du ph notype par race Ce test permet de tester l hypoth se Ho Les variances de la variable Igr carc sont identiques dans les diff rentes races contre l hypoth se alternative H Pour au moins une des races la variance de la variable Igr carc est diff rente des variances pour les autres races La statistique de test est gale 4 2607 avec une p value associ e de 0 2346 sup rieure au seuil de 5 On ne peut donc pas rejeter l hypoth se d homog n it des variances du ph notype entre les races au niveau 5 Les hypoth ses de normalit et d homog n it des variances entre les races tant admises on peut effectuer l ANOVA Ce test permet de tester l hypoth se Ho Les moyennes de la variable Igr care sont identiques dans les diff rentes races contre l hypoth se alternative H Pour au moins une des races la moyenne de la variable Igr care est diff rente des moyennes pour les autres races La p value obtenue est environ gale a 10 de ce fait on rejettera l hypoth se d galit des longueurs de carcasse moyennes entre races La race influe donc signi
38. for ts al atoires 26 LP TINOIDE Se ee Re E Sn tn cts 26 2 Pr diction de NAN GCC En tn ie Ne hk A ded tee dette 26 3 Pr diction du ph notype d int r t ss 39 GONBIUSIONRS E RSS ER r nee nn nn Ne dc nu laced ees 44 Annexe 1 R sultats d taill s de l ACP 46 Annexe 2 Script R des aNnalySGS 2 Sn eee eA nn nn 46 Importation et pr paration des donn es nenene nnee 46 Analyses descriptives uni et bi vari es 47 Analyse MUNIN ANC Sc sist cats ar ne tre a AN ne a E ne 49 For ts Al atoires iaae nr mn 53 Annexe 3 Notions de g n tique et fonctionnement des biopuces 59 Introduction La biologie des syst mes notamment la g n tique est un secteur de recherche relativement nouveau seules les technologies modernes permettent des mesures suffisamment pr cises pour faire voluer ce domaine L am lioration de ces technologies au fil du temps permet une expansion de ce domaine de recherche et ainsi de comprendre de mieux en mieux le vivant Par exemple les puces ADN appel es aussi microarray ou biopuces apparues il y a une quinzaine d ann es permettent de mesurer massivement l expression de dizaine de milliers de g nes la fois Cette technique s est g n ralis e gr ce au d veloppement de la robotique qui permet d obtenir de forts rendements et une haute pr cision dans les manipulations Malgr cela
39. gative dans l autre et aura tendance dans ce cas ne conserver que celle qui est la plus loign e de 0 la plus grande en valeur absolue M thode jointe appari e avec GeneNet Cette m thode est faite pour combiner des informations provenant d chantillons appari s c est dire plusieurs mesures de l expression des m mes g nes sur les m mes individus c est le cas pour les donn es d ob sit d crites en 3 1 3 Ici on pose l hypoth se que les donn es ont une part commune et une part diff renti e Par cons quence on remplacera la valeur de l expression du g ne dans chacune des conditions par 3 4 2 X cond Ie 1 2 X04 j 1 2X x gt X cond 3 4 k 1 On retrouve donc dans ce cas une influence de 3 4 de la condition tudi e et 1 4 de l autre condition sur les donn es tudi es therese L id e derri re cette modification de simone est la suivante combiner de mani re convexe les informations de simone au niveau des corr lations partielles Pour ce faire on va combiner les corr lations partielles issues de la matrice II de la condition avec celle d une condition lt moyenne gt comme illustr dans l quation 3 5 23 Nicolas Edwards Description des donn es et de la probl matique C cd Fa a j 1 aI n Jom i 3 5 k 1 avec e C le nombre de conditions e a le param tre de la combinaison convexe entre 0 et 1 Cette id e a t propos e par Magali SanCri
40. ini subdir in2 dataset condition methodi method2 rownames mat compare lt methods colnames mat compare lt methods write csv mat compare paste dir out compare edges dataset cond condition csv sep tex mat compare lt mat compare 97 Nicolas Edwards Programmes r alis s rownames tex mat compare lt paste 1 length methods EG UD colnames tex mat compare lt paste 1 length methods peep wu scaling by the minimum number of edges between two methods Di lt diag mat compare t rep 1 length methods D2 lt rep 1 length methods t diag mat compare scalingby lt D1i D1 D2 lt 0 D2 D2 D1 lt 0 tex mat compare lt tex mat compare scalingby xtable tex mat compare function called on each iteration intersection graphs lt function dir in subdir ini subdir in2 dataset condition methodi method2 load graph method 1 datafile lt paste graph dataset cond1i2 methodi RData sep edge list graph method 1 load paste dir in subdir init datafile sep if condition 1 edgelisti lt get edgelist graphi else edgelisti lt get edgelist graph2 edgelisti lt paste edgelisti 1 rep nrow edgelist1 edgelisti 2 sep rm graphi rm graph2 load graph method 2 datafile lt paste graph dataset cond1i2 method2 RData gt sepa load paste dir in subdir in2
41. la pr cision et de Gini On remarque les quelques g nes tr s importants selon les deux crit res formant visuellement un grand pic sur le graphique Les g nes principalement recherch s sont les g nes exprim s distinctement selon les races Afin de d tecter ces g nes particuli rement on a s lectionn les 20 premiers g nes selon les deux crit res d importance et on a gard les g nes en commun dans les deux listes 19 La Figure 20 est une heatmap croisant la classification des g nes les plus importants en colonne et les individus tri s par races en ligne 30 PEPER ESRR GHEE Figure 21 Heatmap croisant la classification des g nes les plus importants pour les deux crit res et les individus tri s par race Peu de g nes ont clairement le profil recherch cependant le gene X3404 est un bon candidat car il semble s exprimer plus fortement chez les individus de race LWM et LWF que chez les individus de race landrace Il semble encore moins exprim chez les individus de race Duroc Voici ci dessous les Boites 4 moustaches parall les selon les races pour les 19 g nes les plus importants apportant des informations plus pr cises 31 X16273 X10820 uoc ace UWF uw uoc aoe LVF Lt uoc ace LWF WM was ace LWF 4 uw 50 35 40 X11151 X86787 9845 ao a5 30 25 Ur oc ax LWF 0 uoc ace LF LM Duroc ace LWF LM X12450 Ps XS3435 uoc ace UWF LW uoc ace L
42. max edges is not simonesays lt switch method mbor simone condition control setOptions edges steady neighborhood selection edges sym rule 0R penalty min min pen mband simone condition control setOptions edges steady neighborhood selection edges sym rule AND penalty min min pen friedman simone condition control setOptions edges steady graphical lasso penalty min min pen else both min pen and max edges are set simonesays lt switch method mbor simone condition control setOptions edges steady neighborhood selection edges sym rule 0R penalty min min pen edges max max edges mband simone condition control setOptions edges steady neighborhood selection edges sym rule AND penalty min min pen edges max max edges friedman simone condition control setOptions edges steady graphical lasso penalty min min pen edges max max edges select best network maximum BIC if use bic simoneadj lt simonesays network which max simonesays BIC telsef choose the last network inferred simoneadj lt simonesays networks length simonesays networks 1 1 heatmap simoneadj create graph i Ccor 4 graph lt graph adjacency simoneadj diag diag simoneadj mode plus weighted T not sure about which methods give which partial correlation values will see E graph weight lt E graph weight el
43. me jeu de donn es peuvent tre la m thode d inf rence ou des param tres de calibration de l inf rence propre une m thode donn e les param trages sp cifiques sont dans les 4 premi res colonnes du tableau et ils d terminent de mani re unique un type d inf rence 32 Nicolas Edwards R sultats Ensuite les 9 jeux de donn es sur lesquels le travail a t effectu sont list s en colonne Le second jeu de donn es extrait de Diog nes lt nv2 gt a t trait par une grande partie des m thodes disponibles Le travail s est concentr initialement sur les quatre jeux de donn es suivants lll gt lt 112 gt lt nv1 gt lt nv2 gt Suite plusieurs groupes de travail avec biologistes et statisticiens des options ont t rajout es aux programmes pour affiner les r sultats choix d une densit cible pour les graphes r sultants par exemple ainsi que des options suppl mentaires permettant de garder ou non des m ta informations comme la valeur m me de la corr lation partielle Parall lement des nouveaux jeux de donn es qui apr s le retour des premiers r sultats ont sembl plus pertinents ont t ajout s et certaines des m thodes d inf rence ont t appliqu es ceux ci 33 x soTfotyred SUOIJRTOI1109 GT 0 opum ayeusd g o eydje uewpery poulol osoroq x x soTfotyred SUOIJRTOII09 OT 0 2JPUIIXEUI 9JISU9p goede ueurpely p ur
44. nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nienlae Fdurarde enicalae aaraa Fr univ paris Lfr gt Nathalie Villa Vialaneix lt nathalie villa univ paris L fr gt Nathalie Villa Vialaneix lt nathalie villa univ paris L fr gt SHA1 ID 4dc831bd9202f4973b6d8de dd de8423ddb42a6 Row 496 Find next prev commit containing x Search Diff C Old version _ New version Lines of context 7 l J Ignore space change a R Lib compare_methods r index 8978bb6 b4572b1 100644 Be 89 17 89 20 EE compare graphs lt function dir dataset condition methods edge List graph method 2 if condi tion 1 fedgelist2 lt get edgelist graph Si else fedgelist2 lt get edgelist graph2 edgelist2 lt paste edgelist2 1 rep nrow edgelist2 edgelist2 2 sep l on est dans la condition 1 on prend Le Number of edges in each graph Humber of edges both graphs have in common common edges lt intersect edgelist edgelist2 Length common edges if length edgelisti amp Length edgel ist2 0 a else length common edges FFF 2012 04 11 19 06 38 2012 04 11 18 04 46 2012 04 11 17 02 57 2012 04 11 16 57 46 2012 04 11 16 56 25 2012 04 11 17 02 35 2012 04 11 16 02 57 2012 04 11 15 49 26 2012 04 11 14 51 35 2012 04 11 14 31 12 2012 04 11 13 29 58 2012 04 11 13 26 33 2012 04 11 13 18 53 2012 04 11 11 46 46 2012 04 10 16 36
45. op ration sur les groupes les moins homog nes jusqu une homog n it suffisante entre les groupes La for t al atoire est un regroupement de plusieurs arbres volontairement perturb s car prenant en compte seulement une partie des variables construit partir de sous chantillons dits bootstrap un tirage al atoire avec remise dans l chantillon tudi d une taille fix e dont on fera la moyenne de leurs fonctions de r gression ou de leurs pr dictions Cela donnera une fonction finale dont on calibrera 3 hyper param tres le nombre d arbres le nombre d individus dans les chantillons bootstrap et le nombre de variables par division des arbres pr disant la variable explicative variable num rique ou qualitative Les erreurs de pr dictions utiles pour conna tre l efficacit de la pr diction se calculent partir des erreurs dites out of bag OOB c est dire les erreurs calcul es pour chaque arbre par les observations qui n apparaissent pas dans le sous chantillon bootstrap utilis pour d finir l arbre cela vite d avoir une erreur de pr diction trop optimiste Bien que l on ne connaisse pas l expression analytique de la fonction de r gression on est capable de d terminer les variables explicatives contribuant le plus cette derni re en mesurant leur importance obtenue en intervertissant al atoirement les valeurs prises par les individus pour la variable mesurer et en calculant la chut
46. or not vshape circle vector of shapes for vertices same length as V graph col orange vector of colors for vertices same length as V graph tune_glassopath indep R definitely not sourceable erroneous lambda values lead to R crashing to be used only with 111 data this file program sources the three above files and produces for each one each dataset one image to Results data 1l glassopath dataset condition density png containing 6 line plots representing the values for graph density and graph transitivity as well as graph connectedness for different values of the sparse Li penalization factor lambda also called rho Three pairs of line plots are shown per image file graphs done with the following methods Meinshausen and Buhlmann and policy Meinshausen and Buhlmann or policy and Friedman et al Each pair contains a line plot of graph density and points indicating the graph connectedness and a line plot of graph transitivity each for different values of lambda 84 B Article presente aux Rencontres R BoRdeaux 2012 Le travail effectu durant mon stage sera pr sent aux 1 TeS Rencontres R de Bordeaux le 3 juillet 2012 L article r sumant l objectif du travail est inclus ci dessous dans le rapport Thttp r2012 bordeaux inria fr 85 Comparison of network inference packages and methods for multiple network inference Nathalie Villa Vialaneix Nicol
47. personnes ob ses dans 3 conditions exp rimentales s quentielles avant un r gime s v re apr s ce r gime et 6 mois apr s sans contrainte stricte sur l alimentation 1 Dans le premier les donn es des m mes 271 g nes sur les m mes individus 214 femmes ob ses sont observ es avant et apr s le r gime 2 conditions avec des indi vidus appari s 2 Dans le deuxi me 23 variables g n tiques et 16 variables cliniques ont t choi sies par Nathalie Viguerie charg e de recherches l INSERM Ces mesures ont t tablies sur 202 femmes ob ses avant et apr s le r gime Les 204 individus consid r s ne sont pas un sous ensemble des 214 ob ses du premier jeu de donn es mais sont toutes les femmes prises dans un ensemble plus large d individus 3 Le troisi me jeu de donn es ne diff re du pr c dent que par le choix des variables on a choisi 38 expressions de genes et 12 conditions physiologiques a tudier 4 Dans le quatri me les donn es ont suivi un pr traitement en prenant le logarithme du quotient des donn es mesur es avant r gime et apres r gime puis le logarithme quotient des donn es mesur es avant r gime et 6 mois apr s on a construit un jeu de donn es ayant deux conditions avec des individus appari s 5 Le cinqui me jeu de donn es a les m mes variables que le troisi me 38 expressions de g nes et 12 conditions physiologiques Les conditions sont d finies par le sexe des
48. simul2true dir out Results comparison dir graphs Results simulations dir truth Data simulations dataset nv2 methods c genenet indep simone friedman bic simone intertwined therese friedman bic d5 a0dot5 therese friedman bic di0 a0dot5 compare methods simul2true dir out Results comparison dir graphs Results simulations dir truth Data simulations 75 Nicolas Edwards Programmes r alis s dataset 111 methods c genenet indep simone friedman bic simone intertwined compare methods simul2true dir out Results comparison dir graphs Results simulations dir truth Data simulations dataset nvi methods c genenet indep simone friedman bic simone intertwined compare methods simul2true dir out Results comparison therese dir i graphs 7Results simulativons dir truth Data simulations dataset nv2 methods c therese friedman bic d5 aOdot25 therese friedman bic d1i0 a0dot25 therese friedman bic d5 a0dot5 therese friedman bic di0 a0dot75 therese friedman bic d5 a0dot5 therese friedman bic d10 a0dot75 compare methods simul2true dir out Results comparison nv2 simulations simone indep dir graphs Results simulations dir truth Data simulations dataset nv2 methods c simone friedman bic simone friedman bic d5 simone mbor bic d5 simone mband bic d5 compare metho
49. sur les axes 5 et 6 de l ACP sur les axes 7 et 8 de l ACP e i p i o ae PAA S 2 Ss amp 2 we r w a o e t 4 wo 46 w o a 2 3 n 2 15 10 5 0 5 10 10 5 0 5 10 Dim 5 Dim 7 Figure 15 Repr sentation des individus diff renci s selon leur bande sur les axes 1 8 de l ACP Vu le nombre d axes 107 on ne peut utiliser les crit res de Kaiser ou de l boulis au risque de perdre norm ment d information le crit re de l boulis conduirait choisir 2 axes interpr ter ce qui vu le nombre d axes est tr s nettement insuffisant ou choisir trop d axes interpr ter Un compromis est trouv en repr sentant les 8 premiers axes cela permet de d passer 50 d inertie et correspond galement un l ger coude m me si il n est pas visible sur le scree graph ci dessus Voici en annexe les coordonn es les contributions et les cosinus carr s des 20 g nes les plus reconstitu s sur les axes 1 et 2 dont la somme des cosinus carr s des axes 1 et 2 sont les plus importantes ainsi que les nuages de points des individus color s selon certaines autres variables Voici donc le nuage de points des individus de cette ACP pour les 8 premiers axes color s par bande L ACP ne semble pas regrouper significativement les individus appartenant la m me bande Dans ce jeu de donn es la bande donc le facteur environnemental ne semble avoir que peu d
50. un taux de mauvais classement de 37 04 ce qui est finalement acceptable Voici ci dessous une repr sentation graphique du taux d individus mal pr dits par la for t al atoire pour chaque race en fonction du nombre d arbres 27 Evolution du taux de mal pr dits en fonction du nombre d arbres 0 4 0 6 08 1 0 Taux de mal pr dits 0 2 0 0 0 1000 2000 3000 4000 5000 Nombre d arbres Figure 19 Evolution du taux de mauvais classement en fonction du nombre d arbres L erreur s est globalement stabilis e partir de 3000 arbres dans la for t La race la mieux pr dite par cette for t est la race LWF Les cochons de race Landrace sont galement bien pr dits par la for t Cependant les Duroc et les LWM ont un tr s fort taux de mauvais classement Le Tableau 11 ci dessous permettra de savoir dans quel sens s effectuent les mauvais classement Effectif pr dit Effectif observ Duroc Landrace LWF LWM class error Duroc 3 10 11 0 0 88 Landrace 1 26 6 0 0 21 LWF 0 2 39 0 0 05 LWM 0 3 7 0 1 Tableau 11 Table de contingence croisant les effectifs pr dits par la for t al atoire et les effectifs observ s On remarque que les individus de race LWM ne sont jamais pr dits par la for t al atoire Ils sont pr dits en majorit dans la race LWF en fait ces deux types de cochons sont tr s difficiles discriminer car ils font partie de la m me race Large White avec des diff rence au niveau des crit r
51. 00 100010101 10101020 102041026 1 1026 10351 TLOsae1 060 1 PLEO SOF LTO plot xPCASindScoord 1 2 pch 19 col ind lgr carc col plot xPCASindScoord 3 4 pch 19 col ind lgr carc col plot xPCASindScoord 5 6 pch 19 col ind lgr carc col plot xPCASindScoord 7 8 pch 19 col ind lgr carc col Repr sentations des individus avec un niveau de couleurs pour le deuxi me ph notype classes lt cut y notDchnSlgr carc r breaks quantile y notDchnSlgr carc r prob s seq 0 1 length 11 labels F ind lgr carc r col lt heat colors 10 classes round quantile y notDchnS lgr carc r probs seq 0 1 length 11 2 layout matrix c 1 2 3 1 4 5 ncol 3 byrow T 50 plot new legend center pch 19 col heat colors 10 1 10 legend c 60 97 3335 90 e3322 29 227 997 13 59 1 als 337 T291 1H 717 299 27 04 Ie ZO 6p 2g iG 2 LG lke OO er 9G 2 ig 37 1 Ze 8273 Le en eek op legal plot xPCASindScoord 1 2 pch 19 col ind lgr carc r col xlab Axe 1 ylab Axe 2 main Repr sentation des individus n selon l autre ph notype d inter t n sur les axes 1 et 2 de 1 ACP plot xPCASindScoord 3 4 pch 19 col ind lgr carc r col xlab Axe 3 ylab Axe 4 main Repr sentation des individus n selon l autre ph notype d inter t n sur les axes 3 et 4 de 1 ACP plot xPCASindScoord 5 6 pch 19 col ind lgr carc r col xlab Axe 5 ylab Axe 6 main Repr sentati
52. 1 Inttp www inra fr Nicolas Edwards LINRA Accueil gt L institut gt Organisation gt Organigramme gt Unit s Organigramme FIGURE 1 1 Organigramme de l INRA 10 2 Le Laboratoire de G n tique Cellulaire Mon d partement de rattachement tait le d partement G n tique Animale et mon centre de rattachement tait Toulouse campus d Auzeville 31 Les recherches efffectu es au d partement GA se font principalement autour de trois th matiques qui correspondent trois chelles du vivant la structure du g nome l analyse de la variabilit g notypique et les m thodes de gestion des populations Il se compose de 3 Unit s de Recherches 7 Unit s Mixtes de Recherche mixte puisque en association avec des coles des uni versit s ou d autres organismes de recherche c est au sein de l UMR 0444 Labo ratoire de G n tique Cellulaire LGC que mon stage a t effectu 12 Unit s Exp rimentales 3 Unit s de Service Le d partement de g n tique animale est pr sent principalement en r gion parisienne 50 des chercheurs Toulouse 35 des chercheurs et en Guadeloupe comme l illustre la carte 2 1 de l impl mentation GA en France Carte d implantation M Unit s de Recherche Unit s Mixtes de Recherche Unit s Exp rimentales Autres E UR631 SAGA Auzeville site de l Unit Station d Amelioration G n tique des Animaux UMR450 LGC Auzeville site
53. 1 Inferring multiple graphical structures Statistics and Computing 21 4 537 553 Edwards 1995 Edwards D 1995 Introduction to Graphical Modelling Springer New York Friedman et al 2008 Friedman J Hastie T and Tibshirani R 2008 Sparse inverse covariance estimation with the graphical lasso Biostatistics 9 3 432 441 Fruchterman and Reingold 1991 Fruchterman T and Reingold B 1991 Graph dra wing by force directed placement Software Practice and Experience 21 1129 1164 Meinshausen and B hlmann 2006 Meinshausen N and B hlmann P 2006 High di mensional graphs and variable selection with the lasso Annals of Statistic 34 3 1436 1462 IR Development Core Team 2012 R Development Core Team 2012 R A Language and Environment for Statistical Computing Vienna Austria ISBN 3 900051 07 0 Schafer and Strimmer 2005 Schafer J and Strimmer K 2005 An empirical bayes approach to inferring large scale gene association networks Bioinformatics 21 6 754 764 Verzelen 2012 Verzelen N 2012 Minimax risks for sparse regressions ultra high dimensional phenomenons Preprint Viguerie et al 2012 Viguerie N Montastier E Maoret J Roussel B Combes M Valle C Villa Vialaneix N Iacovoni J Martinez J Holst C Astrup A Vidal H Cl ment K Hager J Saris W and Langin D 2012 Determinants of human adipose tissue gene expressio
54. 100 items Each item contains 4 objects two graphs tgi and tg2 and two datasets condi and cond2 import_simu nvi r This script loads the simulation data included in Data simu nvi Rdata which contains a single list named simus of 100 items Each item contains 4 objects two graphs tgi and tg2 and two datasets condi and cond2 import_simu nv2 r This script loads the simulation data included in Data simu nv2 Rdata which contains a single list named simus of 100 items Each item contains 4 objects two graphs tgi and tg2 and two datasets condi and cond2 import ILT this file program loads the data included in Data data 11 data2 Rdata and produces two objects cond1 LW pigs and cond2 Landrace pigs import M2r this file program loads the data included in Data data 11 data3 Rdata and produces two objects cond1 LW pigs and cond2 Landrace pigs import_nvi r this file program loads the data included in Data data nv norm_gene_exp Si txt and Data data nv norm_gene_exp S2 txt and produces two objects condi before diet and cond2 after diet import_nv2 r this file program loads the data included in Data data nv selVar Si txt and Data data nv selVar S2 txt and produces two objects condi before diet and cond2 after diet import_simu nvi r this script loads the simulation data included in Data simu 111 Rdata which contains a single list named simus of 100 items Each item contains 4 objec
55. 143 X29114 Tableau 4 Liste de g nes de tr s forte variabilit d expression On remarque qu aucun g ne extr me positivement ou n gativement du point de vue de la moyenne ne l est du point de vue de l cart type et r ciproquement 2 tude des races et des bandes Chaque cochon se distinguant par une race et une bande il convient d tudier ces deux param tres qui peuvent avoir une influence importante sur le reste des donn es Le Tableau 5 donne les effectifs d individus dans chaque race ainsi que la Figure 3 Race Dchn Duroc Landrace LWF LWM Effectif 3 24 33 41 10 Tableau 5 R partition des diverses races de cochon Diagramme des races LWF Figure 3 Distribution des races dans l chantillon On remarque deux races majoritaires LWF et Landrace comprenant plus de la moiti des individus et dans une moindre mesure les Duroc galement assez pr sents LWN et Dchn sont deux races tr s peu pr sentes notamment Dchn qui ne comprend que 3 individus L tude se voulant avoir un souci d homog n it entre les individus une telle disparit pourrait fausser les r sultat cela montre que les donn es ne sont pas id ales d un point de vue statistique Chaque cochon a t lev dans une bande donn e ensemble de cochons lev s en m me temps dans un m me environnement tous les animaux ne pouvaient pas tre lev s en m me temps pour des questions de capacit de la station d l
56. 2true lt function dir graphs dir truth dir out dataset methods plot 0 0 xlim c 0 1 ylim c 0 1 type n xlab TPR Recall pct of correctly identified true positives out of all tested positives ylab PPR Precision pct of correctly identified true positives out of all identified positives Main paste Precision Recall scatterplot for dataset simulations n obtained by multiple approaches sep no number of no methods lt length methods defining colors for each method colmethod lt brewer pal max c no methods 3 Dark2 the height of the legend may need accomodation if the number of datasets increases significantly legend topleft methods col colmethod pch 19 legend bottomright c condition 1 condition 2 col black pch c x To all res lt NULL for i in 1 no methods res lt gen compare method methods i dir graphs dir graphs dataset dataset dir truth dir truth dir out dir out col method colmethod i colnames res lt paste methods i colnames res sep us all res lt cbind all res res dev print png file paste dir out display_precision_recall dataset methods simul2true png sep width 600 write csv all res file paste dir out compare dataset methods simul2true csv sep HHEHHHHHHH Function calls HHHHHHHHHHHHHHHHHHHHHHHHHHHHHH library igraph library RColorBrewer library VennDiagram compare methods
57. 3 1 4 5 ncol 3 byrow T plot new legend center pch col rainbow 8 legend c 70602 70604 7 0606 70608 7O06CLO 80604 60606 SUGLO plot xPCASindScoord 1 2 pch col ind bande colors main Repr sentation des individus n diff renci s selon leur bande n sur les axes 1 et 2 de 1 ACP xlab Axe 1 ylab Axe 2 plot xPCASindScoord 3 4 pch col ind bande colors main Repr sentation des individus n diff renci s selon leur bande n sur les axes 3 et 4 de 1 ACP xlab Axe 3 ylab Axe a plot xPCASindScoord 5 6 pch col ind bande colors main Repr sentation des individus n diff renci s selon leur bande n sur les axes 5 et 6 de 1 ACP xlab Axe 5 ylab Axe en plot xPCASindScoord 7 8 pch col ind bande colors main Repr sentation des individus n diff renci s selon leur bande n sur les axes 7 et 8 de 1 ACP xlab Axe 7 ylab Axe Oo Repr sentations des individus avec un niveau de couleurs pour le premier ph notype classes lt cut y notDchnSlgr carc breaks quantile y notDchnSlgr carc probs se g 0 1 length 11 labels F ind lgr carc col lt heat colors 10 classes quantile y notDchnSlgr carc probs seg 0 1 length 11 layout matrix c 1 2 3 1 4 5 ncol 3 byrow T plot new legend center pch 19 col heat colors 10 1 10 zL Legend c T950 910 z 910 S90 2 1990799051 9957 10
58. 33 2012 04 10 16 02 00 2012 04 10 15 51 54 2012 04 10 15 50 53 2012 04 10 15 48 20 2012 04 10 15 06 55 iv paris Lfr gt iv paris 1 fr gt Exact All fields x Patch O Tree Comments R lib compare_condition1 r R lib compare_methods1 r R lib show_graphs cond R Results data nv Independent displaygraphs nv1 simone friedman bic pn 9 FIGURE 4 1 Capture d cran de gitk 4 2 Packages R et outils logiciels utilis s pour les graphes L outil de travail principalement utilis tait R Development Core Team 2012 qui est un logiciel libre sous licence GNU GPL Le mardi 3 Avril j ai suivi au sein de l INRA une formation de 7 heures sur les graphes qui se d composait en 3 heures de cours et 4 heures de TP sur logiciel Les cours m ont permis d assimiler les notions de base de la th orie des r seaux et leur tude dans le cadre g n tique Puis durant le TP les packages suivants ont t tudi s e GeneNet ce package impl mente Schafer and Strimmer 2005 e glasso e simone l approche ce package propose deux m thodes d inf rence de graphes Friedman et al 2008 et celle de Meinshausen and B hlmann 2006 d crite dans l article de celle de ce package propose de nombreuses m thodes d inf rence dont celles de Friedman et al 2008 et celle de Meinshausen and B hlmann 2006 pour des ap proches GGM lt standard gt utilis es dans le cadre dit
59. 35 293 0 simone intertwined 353 206 0 therese friedman 375 0 genenet 36 TABLE 5 1 Tableau comparatif du nombre d ar tes communes aux graphes inf r s par diff rentes m thodes sur le jeu de donn es lt ll1b gt pour la race Large White Sur cet exemple il existe un grand consensus entre les diverses m thodes issues du simone en contr lant le nombre par le biais d un calibrage les r seaux pr sent s en contiennent tous environ 370 et le pourcentage d ar tes communes une paire de r seaux obtenus par deux m thodes diff rentes est ici entre 65 et 85 La figure 5 2 repr sente la 35 Nicolas Edwards R sultats Visualization of ll1b s genes using Visualization of Il1b s genes using simone friedman bic d5 wpcor simone friedman bic d5 wpcor method in condition 1 method in condition 2 v Density 0 052 a Density 0 051 Transitivity 0 189 Transitivity 0 207 Shared edges 83 21 3 Shared edges 83 21 6 conceee Condition specific edge Shared edge Positive partial correlation Negative partial correlation FIGURE 5 2 Repr sentation des r seaux inf r s partir des 123 g nes les plus diff rentiellement exprim s du jeu de donn es DeLiSus pour les cochons de race Large White et Landrace respectivement en utilisant l approche de Friedman et al 2008 telle qu impl ment e dans le package simone et en fixant la densit cible 5 L paisseur des ar tes illustre la v
60. 44 L image provient de Wikimedia Commons et est attribuable MesserWoland avec des modifications de Dosto 2L image est un montage r alis partir d images provenant de Wikimedia Commons et attribuables Zephyris et Thomas Splettstoesser 3L image provient de Wikimedia Commons et est attribuable Mangapoco 4L image est attribuable SarahKusala 15 Nicolas Edwards Description des donn es et de la probl matique FIGURE 3 3 Photo d un fragment de biopuce Fragmentation of Genomic DNA kK linker gt Hybridization on capture array for target Ligation of Linker enrichment FIGURE 3 4 Sch ma des tapes de la fabrication d une biopuce 1 On cr e une plaque avec de ADN connu avec un g ne sur chaque lt spot gt on a plusieurs milliers de spots par biopuce 2 On cr e une sonde complexe les ADN compl mentaires cr s partir de ARNm de la cellule tudier tagu s par fluorescence ou radioactivement 3 On met en contact la sonde et la plaque Si les brins d ADN sont identiques ils s associeront et le spot sera plus ou moins fluorescent radioactif selon la quantit de brins pr sents dans la sonde complexe On r cup re donc comme information pour chaque g ne la mesure de son expression travers la quantit de fluorescence radioactivit mise par chaque lt spot gt Des tailles typiques pour ce genre de donn es est une dizaine voire une centaine d i
61. 5 files per dataset Rdata file whose name is graph dataset condition glasso method Rdata and is placed in Results dataset dataset Independent containing the graphs for both conditions labeled graphi and graph2 respectively two text files edgelist dataset condition glasso method txt which are plain edge lists and 2 graphml files named graph dataset condition glasso method graphml and 80 Nicolas Edwards Programmes r alis s placed at the same location as the RData file Possible values for dataset N1 L112 nv gt condition condi cond2 gt method mbor export_graph simone indep mbor bic R sourceable if one has a week to spare This program sources the import files and runs simone on each condition of each dataset to create the best graph selected by BIC by methods MB or policy MB andi policy and Friedman then outputs to the console the basic graph statistics of vertices edges density and connectedness and outputs for each dataset 2 graphs 2 edge lists one per condition and one Rdata file with two objects graphi and graph2 for each condition Possible values for gt condition condi cond2 gt method mbor mband friedman knote not all output of this file is present due to dataset 112 s size we were unable to calculate successfully all data friedman s meth
62. 6 80610 Total Dehn 0 0 0 0 0 0 0 3 E Duroc 0 4 0 0 4 o o 16 S Landrace 1 3 4 12 0 6 7 o 33 LWF 0 6 8 15 10 0 2 0 4 LWM 6 0 0 0 4 0 0 0 10 Total 7 13 12 27 18 6 9 19 411 Tableau 7 Table de contingence entre race et bande 70602 70604 70606 70608 70610 80604 80606 80610 ES J Effectifs 1 0 L 0 5 0 0 Figure 5 Distribution conjointe entre race et bande On remarque des ph nom nes semblant montrer un certain lien entre la bande et la race En effet il existe des bandes ne contenant presque exclusivement qu une race comme la bande 80604 qui en plus d tre de petite taille ne contient presque que des cochons de race Landrace Un autre ph nom ne notable est le fait qu une race Dchn n est pr sente que dans une seule bande la bande 80610 on n a donc aucune information sur l impact environnemental pour cette race Le lien suppos semble se confirmer avec le test du de l hypoth se Ho Les variables race et bande sont ind pendantes La p value est gale 2 2x 10 montrant un lien plut t fort entre la race et la bande Ce r sultat est discutable tant donn que les conditions d effectifs th oriques minimum par case de Cochran ne sont pas remplies Le chiffre peut donc galement s expliquer par ces conditions non remplies et non par un lien r el Cependant les r sultats obtenus par le tableau de contingence montrent encore une f
63. D Oo ee a b 50 0 50 100 Dim 1 Q 8 e A t 2 re r R S 2 f el ee o e060 g rt E ok E E Se 2 R 6 EE gt ae Et z ex es o g me 6 t y 5 8 4 p li L L 2 H j 2 0 2 4 V mw 10 0 10 2 Dim 3 Dim 5 Dim 7 Figure 17 Repr sentation des individus selon la mesure du ph notype d int r t sur les axes 1 8 de l ACP On ne peut pas partir de cette ACP regrouper les individus de valeur similaire du ph notype d int r t en effet aucune tendance pr cise ne se dessine On ne peut donc trouver avec cette m thode un type de g nome plus ou moins propice une valeur lev e du ph notype Cependant l ACP apporte tout de m me une information sur les liens entre les g nes En effet cette analyse multivari e a pu regrouper certains g nes dont l expression est corr l e Pour v rifier cela voici le cercle des corr lations des 8 premiers axes pour les 20 g nes dont la somme des cosinus carr des 24 deux axes repr sent s sont les plus important Repr sentation des 20 variables Repr sentation des 20 variables les mieux reconstitu es les mieux reconstitu es sur les axes 1 et 2 sur les axes 3 et 4 o a of n n o o N gs gs lt Le 1 0 0 5 0 0 05 1 0 Axe 1 Axe 3 Repr sentation des 20 variables Repr sentation des 20 variables les mieux reconstitu es les mieux reconstitu
64. Net to automate the inference and comparison of gene co expression networks across two experimental conditions Prerequisites for understanding everything reading my report ii Typical Workflow The typical workflow has three key steps importing the data so that it conforms to specifications described later on inferring the graph structure for both conditions using a choice of methods and finally analyzing and if needed visualizing the resulting graphs A typical R run is shown below for data called nv5 in the joined simone Intertwined approach with a target edge count of 122 Sourcing of all required functions Loading required libraries library igraph library simone Loading required files source preprocess_export_graph simone joined r source export_graph simone joined bic R source show_graphs cond R source create_layout R Loading data source import_nv5 R ape nn San eR eS RS rs ren Inference Inferring graph res lt creategraph simone joined dataset nv5 method intertwined max edges 122 cor T graphi lt res graphi Adding vertex information V graphi nom lt names cond1 V graphi name lt names cond1 Writing out all graph files write graph graphi file Results data nv Joined graph nv5 condi simone intertwined bic d10 wpcor graphml format graphml write table get edgelist graphi file Results data nv Joined edgelist nv5 c
65. OU gt aux r sultats obtenus pour d terminer si il faut mettre une ar te entre le j me et le j me sommet j 7 On parlera dans la suite respectivement des approches MB AND et MB OR Dans l approche de Friedman et al 2008 on consid re le crit re 3 2 que l on cher chera par la suite minimiser en fonction des coefficients 8 j pour le mod le entier oe eur AN Bis 3 2 JAI Si la matrice d adjacence est o par la m thode de Friedman et al 2008 elle est sym trique la corr lation du j7 g ne avec le j me j 4 7 est la m me que celle entre le j ME et le JM T n y a pas d ambiguit sur les corr lations on peut directement construire la matrice d adjacence 3 2 3 M thodes d inf rence jointes Les m thodes jointes partent du principe qu il existe dans les r seaux issus des deux conditions exp rimentales une part commune et une part diff renti e On cherchera alors par la suite combiner une partie des informations issues des deux conditions dans Vinf rence Cette th orie peut tre mise en application l aide du package simone Des approches jointes alternatives ont galement t d velopp es bas es sur les pa ckages GeneNet et simone Les d tails des diverses approches sont pr sent s ci dessous simone Ce package propose 3 m thodes d inf rence jointe d crites dans l article Chiquet et al 2011 22 Nicolas Edwards Descr
66. Pour se faire il convient de consid rer pour cette partie seulement non pas les individus en tant que tels mais des r sultats de statistique descriptive de chaque expression de g ne mesur comme la moyenne des expressions des g nes montrant si un g ne est plut t exprim ou peu exprim chez la grande majorit des individus et aussi l cart type montrant les g nes dont l expression est tr s variable ou plut t constante La Figure 1 donne la r partition des 4674 expressions moyennes de g nes sur les 111 individus R partition de la moyenne des expressions de g nes 400 600 800 1000 J Nombre de variables 200 1 2 0 2 4 Valeurs de la moyenne Figure 1 R partition de la moyenne des expressions de g nes On remarque que la distribution des moyennes des expressions des g nes est tr s dissym trique il y a peu de g nes de tr s faible expression mais la plupart des g nes sont d expression assez faible entre 2 et 0 5 Le nombre de g nes d croit tr s vite en fonction de l expression moyenne il n y a finalement que peu de g nes tr s fortement exprim s en moyenne Le coefficient d aplatissement Kurtosis est d environ 0 919 c est dire qu il y a un pic assez prononc Cela est d au fait qu un grand nombre de g nes ont une expression moyenne comprise entre 2 et 0 5 Le coefficient d asym trie lui Skewness est d environ 1 123 signe d une distribution asym trique avec un regroupe
67. R graph objects It serves two related purposes to compute for each graph given in input several quantitative characteristics and export them as numbers and to plot the Precision Recall curve of a series of simulated graphs in comparison to a true graph used to generate simulated data that must be preemptively exported INPUT 5 arguments 3 have defaults d dir graphs d Results simulations the directory in which the simulations are They have to be named simu dataset method RData and contain all graphs list of simulated graphs graphi graph2 for each component dir truth d Data simulations Directory containing the original graph files They have to be named simu dataset Rdata dir out d Results comparison Directory to which the 4 files will be exported dataset lt the name of the dataset for finding the correct file and display methods A list of methodsone wants to compare for example c genenet indep simone friedman bic It contains two functions one is called at runtime to prepare the graph and then for each method in the input argument it calls the second function which computes the characteristics and lays out the points OUTPUT 3 files 1 csv data file colums for no True Positives no False Positives no True Negatives no False Negatives
68. WF LW X30357 X42955 5 H 3 Figure 22 Bo tes moustaches parall les selon les races pour les 19 g nes les plus importants On remarquera 2 types de ph nom nes pour ces g nes expliquant qu ils soient consid r s comme importants Les g nes tels le g ne X3404 d j relev pour la heatmap montrant une influence claire de la race sur l expression du g ne confirm par une p value du test ANOVA d ind pendance de la race sur l expression de ce g ne hypoth se significativement rejet e avec une p value de 16 Le 2x10 et ceux tels le g ne X16273 montrant une influence exerc e en grande majorit par des individus atypiques Ceux ci n influen ant peut tre pas significativement la race contribuent peut tre faire baisser le pouvoir pr dictif du mod le Il est clair que la for t est mauvaise pour les deux races Large White proches g n tiquement qui peuvent fausser les pr dictions Une nouvelle for t al atoire a t r alis e en regroupant ces deux races en une seule appel e LW La m me m thodologie que pr c demment a t appliqu e pour 32 trouver les hyper param tres donnant lieu au meilleur mod le au niveau de l erreur de pr diction Le Tableau 13 ci dessous indique les diff rents mod les test s set seed ntree mtry sampsize OOB error 14 1000 100 75 0 0381 34533 5000 100 75 0 0381 34533 1000 400 75 0 0382 3453 3000 100 75 0 0286 33 500 100 75 0 0095
69. a file containing graphi and graph2 the graphs for both conditions 2 txt edgelists for both conditions 2 graphml graph files for both conditions creategraph simone lt function condition method min pen NULL cor F max edges NULL use bic T condition condi method mband cor T min pen NULL max edges 78 use bic T HHH HH HF for dealing with NA condition is na condition lt min condition na rm T build network if length min pen 0 if length max edges 0 min pen is not set max edges either simonesays lt switch method mbor simone condition control setOptions edges steady neighborhood selection edges sym rule 0R mband simone condition control setOptions edges steady neighborhood selection edges sym rule AND friedman simone condition control setOptions edges steady graphical lasso else min pen is not set max edges is simonesays switch method mbor simone condition control setOptions edges steady neighborhood selection edges sym rule 0R edges max max edges mband simone condition control setOptions edges steady neighborhood selection edges sym rule AND edges max max edges friedman simone condition control setOptions edges steady graphical lasso edges max max edges 47 Nicolas Edwards Programmes r alis s else if length max edges 0 min pen is set
70. ab Nombre d arbres ylab Erreur Evolution de l erreur plot 1l nrow RF LWMF raceSerr rate RF LWMF raceSerr rate 1 col black xlab Nombre d arbres ylab Taux de mal pr dits main Evolution du taux de mal pr dits en fonction du nombre d arbres lwd 2 type 1 ylim c 0 1 for ind in 2 4 lines l nrow RF LWMF raceSerr rate RF LWMF raceSerr rate ind co l rainbow 5 ind 1 1ty 2 legend x 3500 y 0 75 lwd 2 lty c 1 2 2 2 col c black rainbow 5 1 4 legend c Global rownames TC importance importanceord Acc lt sort RF LWMF raceSimportance 4 decreasing T importanceord Gini lt sort RF LWMF raceSimportance 5 decreasing T par mfrow c 1 2 barplot importanceord Acc names rep NA length importanceord Acc ylab importance pr cision xlab genes barplot importanceord Gini names rep NA length importanceord Gini ylab importance Gini xlab genes Sortie des variables les plus importantes chind best var round best var acc best var 3 round best var gini best var 3 55 Comparaison avec les genes issus du mod le mixte length GenesMM 1 intersect GenesMM 1 best var Cr ation d un JDD contenant uniquement les g nes importants et la race ImpRace best LWMF lt data frame x LWMFSrace x LWMF best var rownames ImpRace best LWMF lt paste x LWMFSrace 1 108 sep ImpRace best LWMF ordered lt
71. al of Medicine 363 2102 2113 2010 6 N Meinshausen and P Biihlmann High dimensional graphs and variable selection with the lasso Annals of Statistic 34 3 1436 1462 2006 7 R Opgen Rhein and K Strimmer Inferring gene dependency networks from genomic longitudinal data a functional data approach REVSTAT 4 53 65 2006 8 J Schafer and K Strimmer An empirical bayes approach to inferring large scale gene association networks Bioinformatics 21 6 754 764 2005 9 J Schafer and K Strimmer A shrinkage approach to large scale covariance matrix estimation and implica tion for functional genomics Statistical Applications in Genetics and Molecular Biology 4 1 32 2005 supported by funding from the European Communities DiOGenes FP6 513946 MolPAGE LSHG CT 2004 512066 and ADAPT HEALTH F2 2008 2011 00 Fondation pour la Recherche M dicale and R gion Midi Pyr n es http www diogenes eu org funded by the ANR http www inra fr les_partenariats programmes_anr genomique genanimal appel_a_projets_2007 delisus Bibliographie Bastian et al 2011 Bastian M Heymann S and Jacomy M 2011 Gephi an open source software for exploring and manipulating networks In Adar E e a editor Proceedings of the Third International AAAI Conference on Weblogs and Social Media pages 361 362 Menlo Park AAAT Press 2009 Chiquet et al 2011 Chiquet J Grandvalet Y and Ambroise C 201
72. al11 lt Recall ci precision2 lt tp2 tp2 fp2 rownames precision2 lt Precision c2 recal12 lt tp2 tp2 fn2 rownames recall2 lt Recall c2 rownames true intercond lt Intersection of conditions in simulated graphs rownames simul intercond lt Intersection of conditions in true graphs colnames true intercond lt seq 1 ncol true intercond colnames simul intercond lt seq 1 ncol simul intercond graphs points recalli precisioni pch o col col method points recall2 precision2 pch x col col method creating a dataframe with all the info for condi cond2 and TF2 diff simul2true1 lt rbind tp1 fpl tni fni round precisioni 4 round recalll A diff simul2true2 lt rbind tp2 fp2 tn2 fn2 round precision2 4 round recall2 4 diffi simul2true a lt rbind tpl tp2 fpl fp2 tul tnu2 fnl in2 round precisionil precision2 2 4 round recalli recall2 eee Display Venn s diagram for the first simulation only to be improved 74 Nicolas Edwards Programmes r alis s plot new draw pairwise venn fpi 1 tpi 1 fn1l1 tp1 1 tp1l1 l category c Tests Positive Is positive dev print png file paste dir out display_one_vennDiag dataset method simul2true png sep width 600 all info method lt t rbind diff simul2truel diff simul2true2 diff simul2true a true intercond simul intercond all info method I compare methods simul
73. aleur de la corr lation partielle paire de graphes pour les deux races Landrace et Large White obtenue avec la m thode de Friedman et al 2008 telle qu impl ment e dans le package simone en fixant la den sit cible 5 Cette approche est une approche ind pendante c est dire que les deux graphes sont inf r s de mani re totalement s par e Dans ce cas le pourcentage d ar tes communes entre les deux graphes est faible de l ordre de 20 mais on retrouve quelques motifs simliaires En particulier on peut clairement observer des paires ou des amas de n uds qui se distinguent des autres par leur corr lation partielle fortement positive traits pais et bleus Apr s transmission de ces r sultats aux biologistes ils se sont ren dus compte que la plupart des expressions de g nes hautement corr l es taient en fait les expressions d un m me g ne plac plusieurs endroits de la biopuce Ce travail doit conduire la fusion des g nes identiques apr s leur identification fine puis l inf rence d autres r seaux issus de ces donn es lt nettoy es gt Zoom sur le jeu de donn es lt nv4 gt Dans cette section l int r t se porte sur des ratio plut t que sur les variables elles m mes avec pour particularit de m langer des expressions de g nes et des variables cliniques La mesure des expressions de g nes cibles et des variables cliniques a t effectu e trois 36 Nicolas E
74. alyse Pour faciliter l utilisation des scripts complexes j ai cr une cat gorie ex cution et pour acc lerer certains calculs massifs une cat gorie parall le que j voquerai dans les sections correspondantes Une vue synth tique du pro cessus de travail avec ces outils est pr sent en figure A 1 annexes et une description un peu plus d taill e des fichiers est disponible dans les annexes section A 2 Ces scripts ont t construits de mani re tre r utilisables concr tement tant que l on ob it aux conditions de nommages d crites ci dessous on utilise le m me script d inf rence quel que soit le jeu de donn es import et le m me script d analyse quel que soit le script d inf rence Ce travail de g n ralisation m a t possible grace a deux l ments d une part les fonctions dans le language R qui permettent de passer des pa ram tres variables un programme appel fonction Au lieu de r ecrire du code sp cifique pour chaque jeu de donn es j ai crit un code g n rique avec des parties variables c est la fonction puis des appels de fonction qui l ex cutent en d clinant la partie variable en autant de m thodes de jeux de donn es qu il y a traiter L autre l ment essentiel la g n ralisation tait une r flexion pr alable sur les conventions de nommage strictes que je d crirai en m me temps que les cat gories de fichiers Dans la suite je mettrais l
75. ans l exemple ci dessous import nvi r on importe des donn es a partir de deux fichiers texte et on limine certaines variables non souhait es pour le traitement final BAALC RPL6 etc de ces donn es 214 obese people 271 genes condi lt NULL condi lt read table Data data nv norm_gene _exp S1 txt condi lt condi match c BAALC RPL6 IRX1 FUZ names cond1 dim cond1 cond2 lt NULL cond2 lt read table Data data nv norm_gene_exp S2 txt dim cond2 cond2 lt cond2 match c BAALC RPL6 IRX1 FUZ names cond2 A 2 2 Inf rences de r seaux Comme pr cis dans le Chapitre 4 l inf rence de r seaux a t r alis e partir de divers packages R en prenant en compte diverses options Dans cette section sont list es les diverses fonctions permettant d inf rer un r seau selon une m thode donn e ainsi que quelques exemples d appels de ces fonctions Inf rence de r seaux ind pendants par glasso La fonction creategraph glasso du fichier export graph glasso indep R permet d inf rer un r seau a partir du package glasso avec l approche de Meinshausen and B hlmann 2006 strat gie OR Elle prend pour argument condition qui est un objet de type data frame contenant les observations des donn es d expression En particulier les sorties des scripts d crits dans la section A 2 1 peuvent tre pass es 43 Nicolas Edwards Programmes r alis s d
76. arge White M LWM cochon lev pour la qualit de sa viande et Dchn e La bande d levage des animaux variable qualitative nominale Tous les animaux n ont pas tous t lev s en m me temps un syst me de lots de cochons lev s en m me temps avec les m mes conditions est l pour limiter ou au moins contr ler l impact environnemental sur les relev s biologiques Il y a 8 bandes au total e 2 ph notypes d int r t relatifs a la taille de la carcasse Variables quantitatives continues L expression de 4674 g nes variables quantitatives continues Ces mesures sont obtenues gr ce un syst me de biopuce expliqu en d but d introduction et d taill en annexe Une expression de g ne lev traduit une forte expression de ce g ne dans le tissu tudi ici le muscle Les donn es d expression ont t pr alablement nettoy es filtrage transformation logarithmique mise l chelle normalisation entre les diverses exp riences par Magali SanCristobal biostatisticienne INRA et s lectionn es seuls les g nes dont la variabilit d expression tait sup rieure un seuil donn ont t conserv s sur la dizaine de milliers de g nes que comportait le jeu de donn es initial Toutes ces mesures donnent le jeu de donn es final contenant 111 individus pour 4678 variables dont l individu statistique est le cochon partir de ces donn es on cherche conna tre les g nes dont l expres
77. artir de fichiers au format GraphML qui ont t g n r s par les scripts d crits dans la section Les r seaux inf r s montrent que ind pendamment de la condition exp rimentale il existe une ar te reliant le poids lt Weight gt et l Indice de Masse Corporelle lt BMI gt ce qui est un r sultat attendu et rassurant d un point de vue biologique Egalement il existe une ar te entre la pression sanguine diastolique lt Diast BP gt et systolique Syst BP gt le fait que ces variables soient corr l es ou plus pr cis ment dans ce contexte qu elles voluent lt de la m me mani re gt est galement un r sultat attendu 37 Nicolas Edwards R sultats FIGURE 5 4 Repr sentation du r seau des ratio d expressions et de donn es cliniques entre le d but et la fin de la p riode de suivi Par ailleurs l analyse de ces r seaux a permis des conclusions biologiques int ressantes la couleur des ar tes renvoie leur lt betweenness gt dans la condition 1 les n uds SCD HK1 et dans une moindre mesure le n ud lt glucose gt sont au milieu des plus courts chemins entre beaucoup de g nes ils ont donc une importance particuli re pour lt connect le r seau gt ce qui souligne leur importance dans le processus biologique tudi Par ailleurs le g ne HK1 m me si il n tait pas diff rentiellement r gul de par sa grande connectivit avec des n uds tels que SCD ou
78. as A Edwards Laurence Liaubet Nathalie Viguerie Magali SanCristobal Laboratoire SAMM Universit Paris 1 Panth on Sorbonne 90 rue de Tolbiac 75013 Paris France nathalie villa univ paris1 fr PINRA UMR444 Laboratoire de G n tique Cellulaire F 31326 Castanet Tolosan cedex France nicolas ae free fr laurence liaubet magali san cristobal toulouse inra fr Inserm UMR1048 Obesity Research Laboratory I2MC Institute of Metabolic and Cardiovascular Diseases CHU Rangueil Toulouse nathalie viguerie inserm fr Keywords network inference transcriptomic data gene co expression network Gaussian graphical model multiple graphical structure Integrative and systems biology is a very promising tool for deciphering the biological and ge netic mechanisms underlying complex traits In particular gene networks are used to model interactions between genes of interest They can be defined in various ways but a standard approach is to infer a co expression network from genes expression measured by means of se quencing techniques for example microarrays Among methods used to perform the inference Gaussian graphical models GGM are based on the assumption that the gene expressions are distributed as Gaussian variables and X is their covariance matrix Non zero partial cor relations between two genes are modeled by network edges and are directly obtained from the inverse of X But it turns out that estimating the inverse
79. ch the simulated graphs are dir truth the directory in which the true graphs are dir out the directory in which the results should be placed of which dir graphs dir truth and dir out have defaults The function calculates the amount of no True Positives no False Positives no True Negatives no False Negatives Precision Recall for each condition of the dataset and then the average sum where appropriate This generates 3 data tables which are written to dir out as CSV files It also traces the precision recall curve in which conditioni and condition 2 are blue and red respectively and saves it in dir out as a png 79 Nicolas Edwards Programmes r alis s compare methods simul2true R same as above for several methods This script is meant to compare simulated networks to the real network from which the simulations were built in both quantitative and visual ways This script takes 5 arguments as input dir graphs dir truth and dir out three directories in which are placed respectively the simulated graphs the true graph from which the simulations were generated and the directory where the output should be placed as well as a vector of methods used to create the graph and a dataset name This function for each graph each condition and each method passed to it will calculate the amount of no True Positives no False Positives no True Negatives no False Negatives Precisio
80. ches genenet indep simone friedman bic simone intertwined therese friedman bic d5 a0dot5 therese friedman bic d10 a0dot5 x condition 1 o condition 2 PPR Precision pct of correctly identified true positives out of all identified positives T 1 0 TPR Recall pct of correctly identified true positives out of all tested positives FIGURE 5 1 Graphique de la pr cision en fonction du recall pour les jeux de donn es simul s a partir d un vrai gt r seau pour cing m thodes d inf rence donn es transcriptomiques est effectu a l aide de simone donc les m thodes d inf rence impl ment es dans ce package pourraient tre privil gi es lors de l inf rence Les r sultats des simulations pour les deux autres jeux de donn es ont surtout mis en valeur une inad quation des m thodes a la tres haute dimension en effet dans ces donn es simul es le nombre de variables lt g nes gt tait tr s inf rieur au nombre d ob servations nombre de donn es d expression pour chaque g ne Dans ces cas pour toutes les m thodes d inf rence le recall tait quasiment syst matiquement nul ou tr s faible quelle que soit la pr cision 5 2 Donn es r elles 5 2 1 R sum des inf rences Un total de 73 graphes a t inf r sur les donn es r elles Leur r partition est indiqu e dans le tableau de la page 34 Les diff rences entres les diff rents r seaux inf r s pour un m
81. concentration gt S U7 par la relation ng V S555 515 Il faut donc inverser la matrice des variances covariances de taille p x p L inversion d une matrice dans le cas des hautes dimensions p gt gt n s av re tre un probleme math matiquement mal pos l estimateur de calcul partir des donn es est instable par inversion donc son inverse est un mauvais estimateur de S Il existe plusieurs m thodes pour estimer la matrice S qui seront pr sent es ci dessous En particulier cause de l hypoth se Gaussienne on peut associer ce contexte un mod le lin aire XI N brX e 3 1 kAj dans lequel l expression du g ne j s crit en fonction de l expression de tous les autres genes XJ Yj j On estime alors les coefficients Pik de ce mod le par maximum de vraisemblance et on peut d montrer que Sig Sjj Biy 20 Nicolas Edwards Description des donn es et de la probl matique On peut donc en inf rant B retrouver la matrice S donc les corr lations partielles IT Remarque 3 Pour laborer la matrice d adjacence et donc le graphe partir de la matrice Il Tjj j 1 pjzy une tape pr alabe s impose le choix des ar tes conser ver Comme l on ne veut garder que les corr lations significatives il faudra effectuer un seuillage sur la matrice II et ne conserver que les valeurs sup rieures ou gales au seuil qui n est pas d termin nu
82. de l Unit Laboratoire de Genetique Cellulaire OLE 1322 PECTOUL Pompertuzat P le Exp rimental Cunicole Toulousain UE65 Pompertuzat Domaine exp rimental de Langlade Le Q FIGURE 2 1 Carte de implantation du d partement G n tique Animale La vocation du Laboratoire de G n tique Cellulaire LGC l endroit o ce stage a t effectu est l tude du g nome des esp ces animales domestiques dans ses aspects fonctionnels et structuraux 11 Nicolas Edwards Le Laboratoire de G n tique Cellulaire Laboratoire de g n tique cellulaire Laboratory of Cellular Genetics Le stage a t encadr par Magali SanCristobal Directrice de Recherches Statistique LGC INRA Nathalie Villa Vialaneix Maitresse de Conf rences Statistique UPVD IUT d partement STID amp quipe SAMM Universit Paris 1 Laurence Liaubet Charg e de Recherche Biologie LGC INRA et Nathalie Viguerie Charg e de Recherche Bio logie Obesity Research Laboratory INSERM Le travail effectu s inscrit dans le cadre de deux gros projets de recherche e Le projet D LiSus financ par ANR ayant pour but l tude de la variabilit ha plotypique du g nome porcin a haute densit e Le projet Diog nes projet international de lutte contre l ob sit qui est subven tionn par l Union Europ enne Pour permettre une meilleure interaction entre les divers acteurs une mise en commun p riodique des r sultats
83. de tests multiples Benjamini Hochberg non tudi e non plus en deuxi me ann e Des for ts al atoires avec les valeurs par d faut pour les hyper param tres ont donn de tr s mauvais r sultats o plus de 60 des individus ont t mal class s Pour avoir des pr dictions un peu meilleures on a d pousser ces param tres Plusieurs mod les ont donc t test s en changeant pour chacun un des hyper param tres afin de trouver un mod le suffisamment pr cis Voici ci dessous un tableau r capitulant les mod les test s La colonne set seed correspond l implantation de la graine al atoire sous R permettant de g n rer un pseudo hasard et donc de rendre les r sultats reproductibles l identique set seed hntree mtry sampsize erreur 4004 10000 40 65 68 52 3244 5000 150 60 67 04 6432324 5000 1000 40 65 9 1145 2000 70 75 63 89 1103 10000 100 75 62 4 112358 10000 150 75 61 36 1012 5000 150 75 60 19 314159 5000 300 75 54 54 654356 5000 1000 60 50 11 47399955 5000 500 75 47 77 432412 5000 1200 75 44 31 4345812 5000 1000 75 43 18 55435643 10000 1000 75 43 18 47395 5000 750 75 37 04 Tableau 10 R capitulatifs des mod les de for ts al atoires utilis s On retiendra le mod le donnant l erreur la plus faible savoir un mod le avec 5000 arbres 750 variables utilis s par division d arbres et une taille d chantillon bootstrap de 75 Cette for t al atoire donne
84. des r sultats IV Conclusion 11 13 14 14 14 17 17 18 18 20 22 25 25 26 27 31 31 32 32 35 39 Nicolas Edwards Table des mati res V Annexes A Programmes r alis s AA Organisation des programmes 2 2 25 44 1 La eb eee eee es Pi Vo La s be Se ee Bee ee ee Oe eS BS Oh BH es A 2 1 Importation et mise en forme des divers jeux de donn es A 2 2 Inferences de r seaux ss s 4 4 Lu pe ha Deus doran A 2 3 Fonctions d analyse et de comparaison des r seaux g n r s A 2 4 Cr ations et traitement de jeux de donn es simul s As Documentation ss ec esee dR RRR BR DERRE SORE RE RSS B Article pr sent aux Rencontres R BoRdeaux 2012 C Travail pr liminaire d analyse des donn es 41 42 42 43 43 43 96 68 76 85 89 R sum Ce stage de fin de DUT STID de 10 semaines du 2 avril au 8 juin 2012 a t ef fectu au sein de l INRA de Toulouse 31 c est un organisme public qui a pour but la recherche agronomique Plus pr cis ment j tais int gr au Laboratoire de G n tique Cellulaire UMR0444 dont la recherche est ax e sur la compr hension du g nome des animaux domestiqu s Le stage a t men dans le cadre de deux projets de recherche lt DeLiSus gt un projet financ par l ANR Agence Nationale de la Recherche sur la g n tique du cochon et lt Diog nes gt un projet financ par l Union Europ enne pour l tude de l
85. drace LWEF LWM lot xPCASindScoord 1 2 pch col ind race colors ain Repr sentation des individus n diff renci s selon leur race n sur les axes 1 et 2 de l ACP xlab Axe 1 ylab Axe 2 lot xPCASindScoord 3 4 pch col ind race colors main Repr sentation des individus n diff renci s selon leur race n sur les axes 3 et 4 de 1 ACP xlab Axe 3 ylab Axe 4 plot xPCASindScoord 5 6 pch col ind race colors main Repr sentation des individus n diff renci s selon leur race n sur les axes 5 et 6 de 1 ACP xlab Axe 5 ylab Axe 6 plot xPCASind Scoord 7 8 pch col ind race colors main Repr sentation des individus n diff renti s selon leur race n sur les axes 7 et 8 de 1 ACP xlab Axe 7 ylab Axe 8 P A 3 P Repr sentations des individus avec une couleur par bande ind bande colors lt rep rainbow 8 1 length x notDchnSanstaba ind bande colors x notDchn anstaba 70604 lt rainbow 8 2 ind bande colors x notDchnSanstaba 70606 lt rainbow 8 3 ind bande colors x notDchnSanstaba 70608 lt rainbow 8 4 ind bande colors x notDchnSanstaba 70610 lt rainbow 8 5 ind bande colors x notDchnSanstaba 80604 lt rainbow 8 6 ind bande colors x notDchnSanstaba 80606 lt rainbow 8 7 49 ind bande colors x notDchnSanstaba 80610 lt rainbow 8 8 layout matrix c 1 2
86. ds simul2true dir out Results comparison nv2 simulations simone intertwined dir graphs Results simulations dir truth Data simulations dataset nv2 methods c simone intertwined simone intertwined d5 simone intertwined d10 compare methods simul2true dir out Results comparison nv2 simulations glasso dir graphs Results simulations dir truth Data simulations dataset nv2 methods c glasso glasso pen0dot2 compare methods simul2true dir out Results comparison nv2 simulations density5 dir graphs Results simulations dir truth Data simulations dataset nv2 methods c genenet indep glasso pen0Odot2 simone friedman bic simone intertwined d5 therese friedman bic d5 a0dot5 A 3 Documentation La pr sente documentation a t r dig e en anglais Son objectif est dans un premier temps de servir l utilisateur final de ce script et dans un second temps de montrer comment cet ensemble de scripts fonctionne pour qu un utilisateur avanc puisse se le r approprier si besoin est Readme Table of contents aes General Description ii Typical workflow for real data iii Typical workflow for simulated data iv Programs description 1 Import 2 Sim Creation Import 3 Export 5 Run Export 4 Parallel Export 5 Analysis 76 Nicolas Edwards Programmes r alis s This set of tools uses existing R packages simone Gene
87. dwards R sultats FIGURE 5 3 Repr sentation du r seau des ratio d expressions et de donn es cliniques entre avant et apr s le r gime moments diff rents au premier jour avant un r gime au dernier jour du r gime puis six mois apr s le r gime sans que des contraintes alimentaires aient t impos s aux sujets Les deux conditions correspondent aux ratios suivants apres r gime 6 mois apres le r gime Condition 2 Condition 1 2 avant regime avant r gime L id e est de capturer l information sur quelles variables voluent de la m me mani re pendant le r gime et quelles variables voluent de la m me mani re du d but la fin de la p riode tudi e Ceci dit le choix des n uds donn es transcriptomiques et conditions cliniques et le fait qu il existe des tapes biologiques interm diaires entre ces deux types d informations par exemple le m tabolome engendre que les associations inf r es entre ces deux types de variables peuvent tre lt faibles gt en comparaison des associations entre variables d un m me type Les figures 5 3 et 5 4 sont les deux graphes inf r s avec l approche de Meinshausen and B hlmann 2006 polique lt AND gt avec une densit cible de 5 Ces deux graphes sont inclus dans un article actuellement en r vision pour publication dans la revue PloS Genetics Viguerie et al 2012 Ils ont t repr sent s avec Gephi par Na thalie Viguerie p
88. e A 3 galement en anglais a t r dig afin de donner une vue d ensemble des divers scripts disponibles et de leurs usages Les noms des fichiers de script ont t pens s de mani re a ce que deux scripts ayant des usages similaires aient des noms pa rall les par exemple export graph genenet indep R export graph glasso indep R pour les scripts contenant permettant d inf rer un r seau avec les packages respective ment GeneNet et glasso et run genenet indep R pour le script contenant les appels de la fonction contenue dans export _graph genenet indep R A2 Scripts R A 2 1 Importation et mise en forme des divers jeux de donn es Les fichiers de donn es ont t fournis sous des formes diverses format csv Rdata un seul fichier de donn es pour les deux conditions tudi es ou un fichier de donn es par condi tion De plus certains jeux de donn es n cessitaient des pr traitements suppl mentaires suppression de certaines variables a la demande des biologistes par exemple Un script d importation a donc t cr pour chaque fichier de donn es afin d harmoniser ces formats et d obtenir pour chaque fichier de donn es deux objets de type data frame nomm s respectivement cond1 et cond2 et contenant les observations des expressions de genes dans chacune des deux conditions Au total il y a 6 fichiers d importation import_111 r import_112 r import_nvi r import_nvib r import_nv2 r et import_nv3 r D
89. e de l erreur de pr diction du mod le appris avec la variable perturb e Dans le cas tudi les variables importantes d termineront donc les g nes les plus influents quant la race et au ph notype Pour plus d informations sur les for ts al atoires et la notion d importance d une variable dans celles ci on renvoie le lecture l article Breiman 2001 Les simulations pr sent es ci dessous ont t effectu es l aide du package randomForest de R 2 Pr diction de la race On va tout d abord tenter d expliquer par for t al atoire la variable race par les variables d expression des g nes Pour avoir un r sultat dans lequel l effet environnemental effet bande a t supprim nous avons utilis des donn es qui avaient t pr alablement corrig de l effet 2 Breiman 2001 Breiman L 2001 Random forests Machine Learning 45 1 5 32 26 bande par un mod le mixte avec effet bande al atoire Cette partie n tant pas tudi en deuxi me ann e de DUT STID les donn es ont t corrig es par notre tutrice Par ailleurs la biostatisticienne en charge des donn es Magali SanCristobal avait d j a sa disposition une liste de g nes significativement diff rentiels entre les races utilisation d un test bas sur un mod le mixte galement Cette liste nous a t fournie et contenait plus de 700 g nes avec les p values associ es corrig es par un m thode de correction
90. ecting edges in both methods for specified dataset and condition or the number of SS 55 52 52 gt compare graphs lt function dir in dir out Results comparison dataset condition methods dir in Results data nv dataset nv2 methods c glasso mbor Independent simone mband bic Independent simone mbor bic Independent simone friedman bic Independent genenet Independent simone cooplasso bic Joined simone grouplasso bic Joined simone intertwined bic Joined condition 1 initialization of the matrix mat compare lt matrix nrow length methods ncol length methods for i in 1 length methods for a fixed value of i gregexpr methods i perl F 1 is the position of the symbol in the string methods i This code will put the methodname of the ith method in methi and the associated subdirectory Joined or Independent in subdir ini methodi lt substr methods i 1 gregexpr methods i perl F 1 1 subdir ini lt substr methods i gregexpr methods i perl F 1 1 nchar methods i methi the first method s name subi the subdirectory for the first method for j in i length methods method2 lt substr methods j 1 gregexpr methods j perl F 1 1 subdir in2 lt substr methods j gregexpr methods j perl F 1 1 nchar methods j 1 mat compareli jl lt intersection graphs dir in subdir
91. ement of the list containing 4 objects 2 true graphs from which simulated data has been created named tgi and tg2 for comparison purposes and 2 simulated data sets condi and cond2 Examples of import files are available in the folder having dataset names 111 EDU Mie Men Oe Cie Note for joined approaches a function within the inference function must be called with a dataset name In this case the file containing the import script has to be named like so import_ dataset r dataset being the dataset s name the script has to import the data in dataframes named condi and cond2 Step 2 Inference for real data independent approaches one has to reference the import files so that the two R dataframes are created One call has to be made per condition and the resulting graph igraph object is the function s result for real data joined approaches one has to write an R import file following conventions set in the above note place it in the same directory as the inference script s file then enter the dataset name in the function both resulting graphs are inside the function object res lt function call res graphi res graph2 for simulated data one sources the import function to import Simulation data as described above 78 Nicolas Edwards Programmes r alis s Inference Options simone based inferences condition the dataset name if not method
92. erate a random network c 214 214 276 0 15 0 06 summary res tg1 graph density res tg1 summary res tg2 summary graph intersection res tgi1 res tg2 HHH H HH Test nv2 res generate a random network c 204 204 39 0 1 0 06 summary res tg1 graph density res tg1 summary res tg2 summary graph intersection res tg1 res tg2 HHH HHH parallel generation lt function number dir filename n d p add e number ind lt cut 1 number 20 labels F simus lt foreach simu 1 20 combine c dopar nb simu lt sum number ind simu the simus lt list for ind simu in 1 nb simu the simus ind simu lt generate a random network n d p add e 69 Nicolas Edwards Programmes r alis s the simus simus save simus file paste dir filename sep HHHHHHHHHH Function calls HHHHHHHHHH library simone library igraph library doMC registerDoMC generating 111 like data set seed 4534 parallel generation 100 dir Data simulations filename simu 111 Rdlaittial ce 51 339 464 0 1501 generating nv1 like data set seed 112358 parallel generation 100 dir Data simulations filename simu nvl Rdata eC 214 214 276 0 15 0 06 generating nv2 like data set seed 31415 parallel generation 100 dir Data simulations filename simu nv2 Rdata c 204 204 39 0 1 0 06 Importation de jeux de donn es simul s L importat
93. es noms de fichiers en police monospace les parties variables de ces noms entre guillemets et en italique et des parties optionnelles entre crochets Dans un souci d utilit future de l ensemble des scripts un mode d emploi avec le descriptif de chaque fichier a t galement r dig enti rement en anglais Il est disponible en annexe A 3 Importation Pour chaque jeu de donn es trait il existe un fichier d importation correspondant Il s oc cupe de lire le fichier de donn es et de standardiser gt son format et peut ventuellement s occuper de pr traitements mineurs tels l imputation une valeur minimale des valeurs manquantes Ce sont aussi les seuls fichiers quelques exceptions non test es pr s qu il faut crire si l on veut se servir des scripts pour de nouveaux jeux de donn es Pour faciliter et dans certains cas automatiser l importation tous les noms des fichiers d im portation ob issent la convention de nommage suivante import_ jeu de donn es r des noms de jeu de donn s utilis s sont 111 gt lt 112 gt lt nvl gt lt nv2 gt lt nv3 gt Les fichiers d importation cr ent deux objets data frame R enregistr s en m moire appel s lt cond gt et lt cond2 gt 2http www gephi org 3Le script Java a t impl ment et gracieusement pr t par http www apiacoa org Professeur l Universit Paris 1 21 Nicolas Edwards Outils e
94. es and LaTeX figures add a updated dataset nv2 seems to be ok now Merge branch master of chix nathalievilla org stage nicolas Merge branch master of chix nathalievilla org stage nicolas Finished readme idea for plotting dataset s graphs concurrently updated nv2 data sets still not fixed added a second data set for NV do not look at it for the moment may be fixed Renamed function addedfct calls started description on show_graphs added large ot Renamed one comparison script writing README code cleaning rollback manuel de export glasso R correction NVV des deux compare correction de ce qui pr c de export_graph glasso R suit d sormais les conventions de nommage des edgelists Clarification des readme tentatives infructueuses de d buggage Added 2 scripts to compare output from differenc methods conditions Clarified readme Wrote readme for export graphs simone indep mbor bic and clarified output to conso Added all currently calculated output files from II and 112 datasets Added all data from nvl runs Writing readme and sligh modification to clarify output to console Marne hranch macter nf rhiv nathalievilla nen etane nienlae Nicolas Edwards lt nicolas ae free fr gt Nicolas Edwards lt nicolas ae free fr gt Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt nicolas Nicolas Edwards lt
95. es de s lection comme l effectif des LWM est tr s faible ceux ci sont syst matiquement oubli lors de la pr diction Il serait pertinent de r unir ces deux races pour l apprentissage Les 28 Duroc eux sont majoritairement pr dits dans les races Landrace et LWF sans pr f rence visible Malgr les r sultats de ces deux races le mod le reste int ressant surtout pour la pr diction des races Landrace et LWF bien pr dites par la for t Voici donc les 19 g nes les plus importants pour cette pr diction au vue de 2 crit res la pr cision accuracy et le crit re de Gini ainsi qu une repr sentation graphique de leur importance correspondant l intersection des g nes les plus important pour les deux crit res Nom du g ne Accuracy Gini X10620 0 012 1 37 X1849 0 011 1 18 X2623 0 008 1 05 X3404 0 007 0 9 X16273 0 006 0 8 X33796 0 004 0 76 X11151 0 004 0 53 X39008 0 004 0 7 X9645 0 003 0 45 X5787 0 002 0 37 X23314 0 002 0 5 X29840 0 001 0 33 X12450 0 001 0 33 X5693 0 001 0 25 X9435 0 001 0 24 X29666 0 001 0 24 X30357 0 001 0 31 X42955 0 001 0 26 X30185 0 001 0 22 Tableau 12 G nes les plus importants 29 12 o E 5 D w O 8 4 amp g E a4 2 o S 2 6 g 54 8 5 5 a o s a w E 5 o Sad ou Oo a MN _ oO oO J oO o genes genes Figure 20 Importance des 19 g nes les plus important selon les crit res de
96. es donn es et de la probl matique G nes 1 2 3 4 1 X X X X 2 O0 x x x 3 1 0 x x 4 1 1 1 x FIGURE 3 5 Exemple d quivalence entre une matrice d adjacence et un graphe Un certain nombre de notions classiques en th orie des graphes qui seront utilis es dans la suite du travail sont expos es ici D finition 2 La densit d un graphe est le quotient du nombre d ar tes qu il contient par le nombre d ar tes maximal possible d un graphe ayant le m me nombre de n uds nombre d ar tes nombre de paires de n uds D finition 3 La transitivit d un graphe est la probabilit que deux n uds adjacents un m me n ud soient eux aussi connect s Intuitivement dans un contexte social la probabilit parmis tous nos amis que deux d entre eux aient des amis en commun D finition 4 Le degr d un n ud est tout simplement le nombre d ar tes manant de ce n ud D finition 5 La betweenness appel e aussi parfois interm diarit d un n ud v est une mesure de sa centralit Elle se calcule de la mani re suivante 1 Pour chaque paire de n uds t u calculer le nombre de plus courts chemins ox qui les relient 2 Ensuite observer quelle fraction de ces plus courts chemins passe par le n ud en question ale o Otu v est le nombre de plus courts chemins entre t et u qui passent par v 3 Enfin faire la somme de cette quantit pour toutes les paires de n ud
97. evage Cela a pour but de limiter l impact environnemental sur le ph notype Le Tableau 6 donne la r partition des effectifs dans les diff rentes bandes de m me que la Figure 4 Id de la bande 70602 70604 70606 70608 70610 80604 80606 80610 Effectif 7 13 12 27 18 6 9 19 Tableau 6 Distribution des diff rentes bandes R partition des bandes O 70602 70604 70606 70608 70610 80604 80606 80610 Effectifs 15 20 25 10 L Bande Figure 4 Distribution des diverses bandes Tout comme pour la race il y a une grande h t rog n it dans les effectifs des bandes En effet une majorit des cochons proviennent de la bande 70608 les bandes 70610 et 80610 contiennent galement un nombre de cochons assez importants une vingtaine alors que certaines bandes contiennent moins de 10 cochons les bandes 70602 80604 et 80606 Une telle h t rog n it montre galement que les donn es ne sont pas parfaites l homog n it n tant pas bien respect e et qu il est n cessaire de prendre ces disparit s en compte lors de l tude statistique L impact de la bande et de la race peut tre bien plus important s il se trouve que ces deux variables sont li es car on peut avoir du mal diff rencier si c est la race ou la bande qui influence l expression d un g ne donn Le Tableau 7 et la Tableau 5 donnent la table de contingence croisement entre race et bande 70602 70604 70606 70608 70610 80604 8060
98. fer and Strimmer 2005 m me si pouvant obtenir des bons r sultats de recall 80 n est pas tr s performante au vu de sa variabilit pour la pr cision et le recall e pour l approche therese si l on augmente le nombre d ar tes inf rer en comparant therese friedman bic d5 a0dot5 et therese friedman bic d10 a0dot5 tablis a une densit fix e de 5 et 10 respectivement le recall croit de 60 jusqu a 100 tandis que la pr cision diminue de mani re moins marqu e de 45 35 e pour la m thode de Chiquet et al 2011 intertwined on obtient une pr cision sup rieure celle de l approche therese mais la variabilit du recall est aussi tr s importante tout comme pour la m thode de Friedman et al 2008 Plusieurs critiques de ces r sultats peuvent tre formul es tout d abord le choix arbitraire de 5 groupes d attachement pr f rentiel et les autres choix de param tres initiaux pourrait mal mod liser la r alit biologique Ensuite le processus de simulation de lhttp r2012 bordeaux inria fr 2PLoS Public Library of Science Genetics est une revue scientifique communaut de lecture qui refl te la nature inter disciplinaire de la recherche g n tique et g nomique en publiant des contributions dans tous les domaines de la biologie http www plosgenetics org 31 Nicolas Edwards R sultats Precision Recall scatterplot for nv2 simulations obtained by multiple approa
99. ff rentes Une topologie de r seau avec 5 groupes d attachement pr f rentiel a t choisie c est dire 5 groupes de n uds dens ment connect s avec d autres n uds du m me groupe et rarement connect s avec des n uds d un autre groupe Ce choix a t fait arbitraitement pour imiter l existence de plusieurs processus biologiques Pour chaque jeu de donn es deux r seaux correspondant deux conditions ont t cr s de la mani re suivante partir d un r seau lt m re gt des ar tes ont t permut es de mani re al atoire pour former deux r seaux lt enfants gt Pour chaque jeu de donn es 100 paires de graphes ont ainsi t g n r s de mani re al atoire avec une m me densit cible fix e entre 3 et 5 selon les jeux de donn es et un nombre 29 Nicolas Edwards Outils et m thodes de sommets repr sentant les g nes qui correspondait approximativement certains jeux de donn es r el d crit dans les sections 3 1 2 et 3 1 3 On a ensuite inf r des r seaux appel s lt simul s gt et mesur des caract ristiques de la diff rence entre les r seaux lt vrais gt et les r seaux lt simul s gt nombre de faux positifs de vrais positifs de faux n gatifs et de vrais n gatifs partir de ces chiffres l des outils d analyse comparative du vrai graphe contre le graphe inf r ont t construits en utilisant tout d abord un classement des ar tes en quat
100. ficativement sur la longueur de la carcasse Ce r sultat bien qu attendu est illustr par les boites 4 moustaches de ce ph notype par races 14 Boites 4 moustache d un ph notype en relation avec le poids de la carcasse selon la race 1100 1050 TE Phenotype en relation avecle poids 950 Duroc Landrace LWF LWM Race Figure 9 Distribution de la longueur de carcasse corrig e selon la race La m me d marche devra tre effectu e pour l autre mesure du ph notype Voici donc comme pr c demment un tableau pr sentant les r sultats du test de Shapiro Wilk relatif la deuxi me mesure du ph notype d int r t pour chaque race lgr carc r Race Duroc Landrace LWF LWM Valeur de la 0 9749 0 9684 0 9767 0 795 statistique de test ens 0 8049 0 438 0 5528 0 01259 p value Ici cependant l hypoth se de normalit est rejet e pour les individus de race LWM l ANOVA n est donc pas valable comme test pour v rifier l galit des valeurs moyennes de ce ph notype entre races Cependant une visualisation graphique pr sentant les bo tes moustache de ce ph notype selon les races permet d avoir une id e intuitive de l influence de la race sur ce ph notype d int r t 15 Boites 4 moustache d un autre ph notype en relation avec le poids de la carcasse selon la race oO 8 Oo i a i w H 8 9 C Se 3 N de w g Oo w o w a b
101. for ind in 2 5 lines 1 nrow best RF raceSerr rate best RF raceSerr rate ind co l rainbow 5 ind 1 1lty 2 legend x 3500 y 0 75 lwd 2 lty c 1 2 2 2 2 col c black rainbow 5 legend c Global rownames TC Analyse des variables importantes Tri par ordre d croissant pour les deux crit res d importance importanceord Acc lt sort best RF raceSimportance 5 decreasing T importanceord Gini lt sort best RF raceSimportance 6 decreasing T par mfrow c 1 2 barplot importanceord Acc names rep NA length importanceord Acc ylab importance pr cision xlab genes barplot importanceord Gini names rep NA length importanceord Gini ylab importance Gini xlab genes dev print jpeg file RF race importance gini precisionl jpg width 500 Extraction des variables importantes best var acc lt importanceord Acc 1 20 best var gini lt importanceord Gini 1 20 53 Longueur de l intersection length intersect names best var acc names best var gini best var lt intersect names best var acc names best var gini write table cbind best var round best var acc best var 3 round b est var gini best var 3 file RFrace 19genes plusimportants csv row names F col names F sep dec JDD avec les 20 genes les plus importants imp and race lt data frame x notDchnSrace x notDchn best var rownames imp and race lt paste x
102. g nes semblant influencer le ph notype comme le g ne X19892 Un temps plus important aurait permis de r aliser de nouveaux mod les afin de tenter de les am liorer par exemple la race influant fortement sur le ph notype consid rer des for ts al atoires pour chaque race ind pendamment et chercher des g nes importants se retrouvant dans chacune des for ts al atoires 45 Annexe 1 R sultats d taill s de PACP Dim 1 Dim 2 Dim 3 Dim 4 Dim 5 Dim 6 Dim 7 Dim 8 X31954 0 919 0 018 X20957 0 747 0 000 X3404 0 495 0 083X13198 0 285 0 324 X40312 0 920 0 009 X29019 0 687 0 002X12980 0 500 0 006 X9386 0 313 0 293 X28303 0 929 0 001X34949 0 677 0 004X35236 0 477 0 014 X20495 0 252 0 349 X3780 0 918 0 008 X6270 0 616 0 063X27309 0 465 0 009 X39307 0 255 0 341 X12390 0 888 0 038X21268 0 630 0 045 X44140 0 412 0 046 X7525 0 209 0 382 X4695 0 847 0 075 X8804 0 671 0 000 X35027 0 408 0 049X38710 0 317 0 262 X21241 0 920 0 001X33100 0 657 0 004X40263 0 431 0 016X28241 0 272 0 291 X20575 0 904 0 016X37564 0 639 0 008X29104 0 445 0 000 X30666 0 233 0 329 X36422 0 913 0 006 X5405 0 630 0 014X16033 0 002 0 442X7163 0 190 0 360 X31009 0 912 0 004 X4650 0 597 0 033 X32449 0 294 0 147X24180 0 208 0 339 X38395 0 907 0 009X10654 0 616 0 013X23566 0 358 0 082X11761 0 264 0 276 X20966 0 903 0 012X15511 0 627 0 001X20447 0 436 0 002 X8939 0 165 0 373 X27130 0 911 0 004 X24216 0 622 0 001 X37709 0 407
103. hat a common functioning should exist regardless of said condition A simple naive approach would be to infer a different network from each sample and then to compare them Alternative approaches are described in 2 1 and implemented in simone the log likelihood can be penalized by a modified group LASSO penalty or the empirical covariance matrix can be modified by adding a component depending on all samples The purpose of this communication is to present a full comparative case study of this problem on two real data sets The first dataset has been collected during the DiOGenes project a few hundreds human obese individuals were submitted to a 8 weeks low calorie diet The expressions of pre selected genes as well as physiological variables age weight waist size were collected before and after the diet see 5 for further information The underlying issue is to understand how the diet has affected the correlations between all these variables The second data set has been collected during the Delisus project the expression of several thousands genes were collected from 84 pigs in both Landrace and Large White breeds The underlying issue is to understand how the breed affects the correlations between a set of selected genes which were found to be differentially expressed for the breed The comparison is lead by using independent inference from the packages GeneNet glasso and simone or by using the different joint models included i
104. hes Qu est ce qu un graphe D finition 1 Graphe On appelle graphe ou r seau G V E non pond r ou parfois G V E W pond r un ensemble d entit s V appel es n uds ou vertex en anglais qui peuvent ou pas tre reli es deux deux par une relation donn e appel e ar tes ou edge en anglais L ensemble des paires de sommets li s par une relation est not e ECV x V Dans le cas pond r les relations sont chacune munie de poids not s W qui sont des r els positifs Les ar tes peuvent tre orient es ou non et la matrice des poids W est alors sym trique ou non Remarque 1 Un graphe G V E non orient avec p n uds est quivalent une matrice triangulaire A dite lt d adjacence gt de dimension p x p d finissant pour tout j J G j la pr sence ventuelle d une ar te entre le n ud j et le n ud j de la mani re suivante e sia 1 alors si il existe une ar te entre le n ud j et le n ud J e si ajj 0 alors il n existe pas d ar te entre le n ud j et le n ud j Remarque 2 Comme l on n autorise pas les boucles Vj a 0 La figure 3 5 illustre l quivalence entre un graphe 4 sommets et 4 ar tes et sa matrice d adjacence On remarque que l paisseur ou la longueur des ar tes n a aucune importance ici seule l existence ou la non existence de relations entre sommets sont mod lis es par le graphe 18 Nicolas Edwards Description d
105. hich x sds gt 1 5 which x sds lt 0 25 46 Ensuite on calcule a l aide du package e1071 les coefficients d asym trie et d aplatissement library e1071 kurtosis x means skewness x means kurtosis x sds skewness x sds Analyses descriptives uni et bi vari es Analyse univari e de la race Graphique pie table xSrace col rainbow 5 main Diagramme des races Tableau d effectifs table x race Analyse univari e de la bande Graphique barplot table x anstaba ylab Effectifs xlab Bande main R partition des bandes col rainbow 8 Tableau d effectifs table xSanstaba Analyse bivari e race band Diagramme en tuyaux d orgue de la distribution de la race conditionnellement a la bande barplot round TCRA apply TCRA 2 sum digits 2 col ind race colors legend text dimnames TCRA 1 args legend list x topright ylab Effectifs Table de contingence entre la race et la bande TCRaceAnstaba lt table x race xSanstaba TCRaceAnstaba lt cbind TCRaceAnstaba apply TCRaceAnstaba 1 sum TCRaceAnstaba lt rbind TCRaceAnstaba apply TCRaceAnstaba 2 sum dimnames TCRaceAnstaba 1 6 Total dimnames TCRaceAnstaba 2 9 Total TCRaceAnstaba Test du Chi deux d ind pendanc ntre la race et la bande TCRA lt TCRaceAnstaba nrow TCRaceAnstaba ncol TCRaceAnstaba TCRA chisq test TCRA Ph notypes Statistiques
106. hould be named as such graph dataset cond12 method RData and should contain 2 graph objects named graphi and graph2 dataset Calo aL ae Mail Uae method string the method used to create the graph gt to reconstitute the filename dir out string the directory where the file should be saved ctype o in CET NE NE Choice of layout method Fruchterman Reingold Kamada Kawai or Large Graph Layout see igraph layout help OUT 2 csv files named as following edgelist igraph dataset condl method txt edgelist igraph dataset cond2 method txt formatted as folows vertex name x coordinate y coordinate Ex ACACB 7 60253204478105 13 3603667589903 create layout lt function dataset method dir in dir out type fr 67 Nicolas Edwards Programmes r alis s loading igraph object load paste dir in graph dataset cond12 method RData sep Creating the layout lay1 lt switch type fr layout kamada kawai graphi kk layout fruchterman reingold graphi drl layout drl graph1 lay2 lt switch type fr layout kamada kawai graph2 kk layout fruchterman reingold graph2 drl layout drl graph2 par mfrow c 1 2 plotting plot graphi layout layi plot graph2 layout lay2 writing out graph layout write table cbind V graphi name layi file paste dir out
107. hould be saved dataset the name of the current dataset methods a vector of method names formatted in the following fashion lt methodname gt lt subdirectory gt It creates a matrix containing as many lines as methods has elements and three columns For each method a line in a matrix the function will load the corresponding RData file and output a line containing 3 elements respectively number of edges in condition 1 number of edges in condition 2 and number of edges in intersection to said matrix Output matrix as a csv file with the following naming convention compare edges dataset condi2inter csv An example call to this function would be compare methods Results 111 c glasso mbor simone mband bic simone mbor bic simone friedman bic UOD where dir in Results data 11 dir out by default Results comparison dataset 111 methods c glasso mbor Independent simone mband bic Independent simone mbor bic Independent simone friedman bic Independent genenet Independent simone cooplasso bic Joined simone grouplasso bic Joined simone intertwined bic Joined SS _ _ _ compare conditions lt function dir in dir out Results comparison dataset methods compare lt matrix nrow length methods ncol 3 stats compare lt matrix nrow length methods ncol
108. i es aux donn es notamment la relation entre race et ph notype et donnent des pistes de r flexions ne permettent pas de r pondre pr cis ment a la question pos e qui est de trouver des g nes sp cifiques de la race ou d un ph notype d int r t Il faudra donc envisager une autre approche ll Pr dictions par for ts al atoires 1 Principe On voudrait d terminer les g nes les plus influents sur la race ainsi que sur le ph notype Si l on fait de la pr diction de ces deux variables en les expliquant par les expressions des g nes on pourra par la suite d terminer les variables contribuant le plus a expliquer la race ou le ph notype et ainsi trouver les g nes les plus influents pour ces deux variables La technique des for ts al atoires est une m thode de pr diction non param trique supportant facilement un nombre important de variables explicatives Elle est donc tr s adapt e au jeu de donn es en pr sence comportant beaucoup de variables explicatives les expressions des g nes sans n cessit contrairement aux m thodes de test param trique ANOVA d hypoth se sp cifique sur la loi des expressions L algorithme CART ou arbre de r gression ou de classification est une m thode de r gression ou de discrimination simple Il s agit de s parer en 2 groupes pour lesquels les individus sont homog nes selon la variable expliqu e selon un crit re par rapport une variable explicative et de r p ter l
109. impact sur le g nome ce qui est le r sultat attendu puisque la bande est un facteur de nuisance 22 environnementale On note tout de m me une exception sur l axe 5 ou les individus appartenant a la bande 80610 sont regroup s dans les valeurs n gatives sur l axe 5 et ont une position centrale sur l axe 6 Cela peut tre expliqu par le fait que apr s traitement cette bande ne contient que des individus d une seule race Duroc Voici pour v rifier cela le m me nuage de points color par race Repr sentation des individus Repr sentation des individus diff renci s selon leur race diff renci s selon leur race sur les axes 1 et 2 de l ACP sur les axes 3 et 4 de l ACP TS re 1 a i 4 Q d x 4 a Py o t t Fs t p ah H 7 PO att N o ti 4 yoke p E TR o ii Ot fet gt Eog ane a7 at fe an nage o S ea ps t j S o z be amp Ft l Q wes 4 k a me _ aes _ I a i a 20 0 20 40 10 0 10 20 Dim 1 Dim 3 Repr sentation des individus Repr sentation des individus diff renci s selon leur race diff renti s selon leur race sur les axes 5 et 6 de l ACP sur les axes 7 et 8 de l ACP ot a 2 t o its 7 pt vas Te re as w H 7 o tar 47 D EE oo a E ede EE E E eo Ty a o ey Fat Fe tate a
110. ind pendant Il int gre aussi des approches jointes lt Interwined gt lt GroupLasso gt et lt CoopLasso gt d crites plus haut celles ci ont t introduites dans l article de Chiquet et al 2011 Ce dernier package n a pas t abord lors de la formation mais il a t tr s utilis dans les scripts qui ont t d velopp s par la suite e igraph ce package sert cr er et manipuler des objets lt graphe gt dans R Durant le TP et le stage j ai t amen utiliser le logiciel Gephi Bastian et al 2011 Un programme Java qui impl mente l algorithme de Fr chterman Reingold pour l agen cement des n uds sur une surface plane a t galement utilis 26 Nicolas Edwards Outils et m thodes Durant le TP et le stage j ai aussi t amen a utiliser le logiciel libre de visualisation de graphes Gephi Bastian et al 2011 et notamment j ai aid les biologistes utiliser ce logiciel pour explorer les graphes qui avaient t g n r s par les scripts d crits ci dessous Enfin j ai utilis en ligne de commandes un programme Java qui impl mente l algo rithme de Fr chterman et Reingold Fruchterman and Reingold 1991 pour calculer un agencement lisible des noeuds d un graphe donn sur une surface plane 4 3 Scripts d velopp s Les scripts crits lors de mon stage appartiennent une des 3 cat gories suivantes im portation inf rence de graphe an
111. individus statistiques 356 femmes dans la condition 1 189 hommes dans la condition 2 les individus ne sont donc pas appari s Dans la suite des abbr viations seront utilis es pour d signer les divers jeux de donn es Un tableau r capitulatif est pr sent dans le tableau 3 1 dans un objectif de clart ainsi que les appelations des jeux de donn es qui seront utilis es par la suite Shttp www diogenes eu org 17 Nicolas Edwards Description des donn es et de la probl matique appellation extrait de condition appari s nombre d nombre de exp rimentale individus genes 111 DeLiSus race non 51 LW et 33 LR 464 ll1b DeLiSus race non 51 LW et 33 LR 1058 112 DeLiSus race non 51 LW et 33 LR 123 nvi Diog nes avant apr s r gime oui 214 271 nvlb Diog nes avant apr s r gime oui 214 266 nv2 Diog nes avant apr s r gime oui 204 39 nv3 Diog nes avant apr s r gime oui 204 50 nv4 Diog nes quotients oui 204 39 nvo Diogenes sexe non 306 Fet 189 H 50 TABLE 3 1 L gende des abbr viations de jeu de donn es 3 2 Probl matique du stage Dans un premier temps la probl matique est de mod liser les relations entre les g nes puis d observer l impact de conditions physiologiques comme la race ou environnemen tales comme le fait de subir un r gime sur ces relations Dans la suite la mod lisation sera faite en inf rant des r seaux de co expression g nique partir des donn es 3 2 1 Grap
112. ion for dealing with NA condition is na condition lt min condition na rm T build network estimated pcor lt ggm estimate pcor condition static dim estimated pcor est pval lt ggm test edges estimated pcor plot F sel edges lt which est pval qval lt 0 05 qval is the corrected p value selected edges genenet edges lt est pval sel edges 2 3 genenet edges lt as matrix genenet edges T F matrix instead of edges list mat lt matrix FALSE nrow nrow estimated pcor ncol ncol estimated pcor mat genenet edges lt TRUE mat lt mat t mat create graph graph lt graph adjacency mat mode undirected V graph name lt names condition print basic info print cat Vertices length V graph n Edges length E graph n Density graph density graph n Transitivity transitivity graph n Connectivity is connected graph n output graph graph Le fichier run genenet indep R contient les appels cette fonction pour g n rer les diff rents r seaux Un exemple d appel de cette fonction est donn ci dessous Library igraph 45 Nicolas Edwards Programmes r alis s library GeneNet source export_graph genenet indep R 111 dataset source import 11i r graphi lt creategraph genenet cond1 V graphi nomi lt genes names Vi V graphi nom2 lt genes names V2 V graphi nom3 lt genes names V3 wri
113. ion des jeux de donn es simul s partir des fichiers cr es par generate_random_network R se fait l aide des fichiers import simu lli r import _simu nvi r et import _simu nv2 r Lors de cette importation les variables qui simulent des g nes sont identifi s par des num ros pour permettre des comparaisons avec le vrai r seau qui a permis de g n rer les donn es Le fichier import simu nv2 r est pr sent comme exemple les autres fichiers suivent cette trame load Data simulations simu nv2 Rdata give names to variables genes to avoid a bug simus lt lapply simus function x colnames x cond1 lt seq 1 ncol x cond1 colnames x cond2 lt seq 1 ncol x cond2 x condi lt as data frame x condi x cond2 lt as data frame x cond2 x Inf rence de r seaux sur les donn es simul es Au vu des grandes quantit s de donn es traiter une parall lisation de Vinf rence partir des donn es simul es t mise en place ce qui per met de diviser le temps de calcul par le nombre de coeurs processeurs dis ponibles Concr tement la parall lisation du traitement s effectue avec les fichiers parallel export genenet indep R parallel export glasso indep R 70 Nicolas Edwards Programmes r alis s Les fichiers parallel fonctionnent tous peu pres de la meme mani re tout d abord la liste des 100 jeux de donn es transcriptomiques simul es est pass en argument la fonc
114. iption des donn es et de la probl matique Intertwined L id e derri re cette sous m thode est de lt rapprocher gt les conditions la condition moyenne dans la matrice des variances covariances Puisque la formule du maximum de vraisemblance peut s crire uniquement en fonction de la variance empirique on la remplacera alors par 3 3 c cond a pra j 1 _ E er D y condition E 3 3 k 1 avec e C le nombre de conditions e a le param tre de la combinaison convexe entre 0 et 1 Grouplasso Dans ce cas on fait lhypothese la part differenti e de la condition exp rimentale est nulle ou que l on est dans le cas de r p titions dans les calculs la p nalit sparse tient compte pour chaque g ne de la valeur de f au sein de toutes les conditions Par voie de cons quence la probabilit que 5 soit nul dans une condition et non nul dans l autre vaut 0 donc cette m thode revient contraindre les ar tes tre identiques travers toutes les conditions Cooplasso On part dans cette m thode de l hypoth se biologique que une corr lation partielle ne peut pas tre la fois significative dans les deux conditions positive dans l une et n gative dans l autre Pour la mettre en place le package utilise les m mes bases que Grouplasso en ajoutant la condition suivante elle p nalise fortement le cas o une corr lation partielle est significativement positive dans une condition et n
115. iquet et al 2011 penmin the minimal penalty level for which to try creating a graph has to be between O and 1 By default simone does this automatically creategraph simone joined lt function dataset method min pen NULL Input dataset the working dataset from lli iio E nvi nv2 for importation preprocessor method graph construction approach coopLasso groupLasso or intertwined see simone setOptions and Inferring Multiple Graphical Structures Chiquet et al 2011 penmin the minimal penalty level for which to try creating a graph has to be between O and 1 By default Simone deals with penalty levels but one can specify his in case simone crashes or hangs max edges integer in a sense equivalent to penmin will stop inferring networks once they have more than max edges edges the last network generated will have a number of edges that is equal or slightly above max edges cor boolean adjusts whether the partial correlations should be kept in edges Has an effect on current implementation of show_graphs Haas HEU CLON ee aa ea er Se ae ee eS TET RT ae Function the function sources the preprocessing file see preprocess_export_graph simone joined r and corresponding readme entry uses its main function and ends up with cond12 and tasks It gives both objects to simone which computes a series of graph pairs selects the be
116. irectement comme entr e de cette fonction Une deuxi me option est lambda qui est la valeur du param tre de p nalisation utilis e lors de l inf rence creategraph glasso See Input dataset condition penalty scalar lambda Output function graphe graphi graph2 console vertices edges density is connected file 2 files to R sults dataset Independent graph dataset condition glasso method graphml graph dataset condition glasso method Rdata example graph 112 condi glasso mbor graphml Description creates a graph using the Meinshausen and Buhlmann method with the or policy package glasso outputs the graph and logs basic info to the console as well as three files two graph files and a Rdata file creategraph glasso lt function condition lambda est nets2 lt glasso cov condition use pairwise complete obs rho lambda approx T est edgesi o lt abs est nets2 wi 0 t abs est nets2 wi 0 diag est edges1 o lt FALSE graph lt graph adjacency est edgesi o mode undirected V graph name lt names condition print paste length V graph length E graph graph density graph is connected graph graph Inf rence de r seaux ind pendants par GeneNet La fonction creategraph genenet contenu dans le fichier export graph genenet indep R permet d inf
117. ist res de tutelle le minist re de l Enseignement sup rieur et de la Recherche et le minist re de l Alimentation de l Agriculture et de la P che LINRA compte environ 400 unit s de recherche r parties dans 19 centres localisations et 14 d partements grandes th matiques de recherche une unit correspond un centre et a un d partement de rattachement Les unit s exp rimentales de l INRA couvrent environ 12 000 hectares dont 3 000 hectares de for ts Parmi le cheptel de l INRA on peut compter environ 6000 bovins 16 000 ovins 8 000 porcins 300 quins 34 000 volailles une centaine de cervid s et une dizaine de lamas L INRA renforce ses activit s autour de trois champs 1 le d veloppement d une agriculture durable 2 l alimentation et son r le sur la sant humaine 3 l environnement et les territoires et a pour missions de produire et diffuser des connaissances scientifiques et des innova tions contribuer la formation et par la recherche la diffusion de la culture scientifique et au d bat science soci t participer par son expertise clairer les d cisions des acteurs publics et priv s Les quatre priorit s de recherche de l INRA sont 1 prot ger les ressources naturelles 2 manger sain et s r 3 passer des g nomes aux populations v g tales et animales 4 travailler avec l informatique et la biologie haut d bit L organigramme de l INRA est fourni dans la figure 1
118. isualisation du graphe un affichage diff renti des ar tes selon la valeur et le signe de la corr lation partielle This file sources 3 datasets and contains a function that is used to create a graph network with the package simone It works with two conditions and thus creates two networks that are independent i e they were not created with prior knowledge of data from the other condition the main function is creategraph simone It has four arguments condition the condition dataset s name in the sourced datasets Gin condi cond2 method either mbor mband or friedman min pen tha value of the penalty scalar for which simone should stop processing in big datasets if this option is not set Simone will go out of convergence cor whether the script should keep partial correlation values in the edge attributes of the igraph object it will add wpcor With Partial CORrelations to the end of the file name may need to be changed to something more consistent than this max edges numeric simone will stop inferring edges at the first network whose number of edges is above max edges 46 Nicolas Edwards Programmes r alis s use bic boolean whether to use the BIC to choose networks or to force last generated network selection Made to be used with max edges or min pen It outputs for each condition and method it is called for 1 Rdat
119. ition lors methods vector of conditions for comparison HHHHHHHHHHHH in the following naming convention lt methodname gt Q lt method type gt This function creates a symetric matrix whose triangular bottom left section will be NA whose rows and columns are methods Let i j elements contained in 0 length methods j gt i the i jlth element of the matrix will be the number of common edges in the graphs built by both methods with the specified condition and dataset the i i or j j th element of the matrix is the number of edges in the graph built by the ith or jth method with the specified condition and dataset It is filled in practice by the function intersection graphs Output CSV triangular matrix with list of conditions in row and column and at each point the number of edges present in graphs obtained by both methods issued from a specified condition and dataset ES Hess intersection graphs this function calculated the 56 Nicolas Edwards Programmes r alis s number of common edges from graphs obtained by 2 specified methods from a specified condition and dataset Input dir in directory containing the data files dataset name of the dataset in naming convention 111 112 or nyl condition 1 or 2 methi first method in methods vector meth2 second method in methods vector Output 1 scalar the number of inters
120. l immense diversit des esp ces vivantes est telle que le g nome ainsi que toutes les activit s biologiques li es transcription mutations de la majorit des esp ces n est que peu connu voire inconnu Dans ce projet nous travaillerons sur des donn es r colt es par LINRA de Toulouse laboratoire LGC g n tique cellulaire d partement GA g n tique animale projet DeLiSus financ par l ANR qui a mis en uvre une grande exp rience afin de mieux comprendre les comportements g n tiques de diff rentes races de cochons d levage et le lien entre les sp cificit s g n tiques de ces races et des ph notypes d int r t relatifs la qualit ou la quantit de viande produite 111 cochons tous des m les de 5 races diff rentes ont t lev s en station d levage exp rimentale en diff rents lots appel s bandes Les conditions d levage dans les diff rentes bandes tant au maximum calibr es de mani re identique afin de limiter l impact environnemental sur les relev s de l exp rience Apr s abattage des cochons on a relev pour chacun d eux de multiples mesures Une partie de ces donn es a donn lieu au jeu de donn es sur lequel nous travaillons dans ce projet et qui comprend pour chaque cochon e La race des animaux variable qualitative nominale 5 races sont pr sentes dans cette tude Duroc Landrace Large White F LWF cochon lev pour ses qualit s maternelles L
121. lab Bande ylab Ph notype en relation avec le poids ANOVA par bande lgr carc r la longueur de la carcasse corrig e tapply y notDchnSlgr carc r y notDchnSanstaba shapiro test kruskal test y notDchnSlgr carc r y notDchnS race Bo te moustache de la distribution de la longueur de carcasse corrig e selon la bande boxplot y notDchn lgr carc r y notDchnSanstaba main Boites moustache d un 48 autre ph notyp n relation n avec le poids de la carcasse selon la bande xlab Bande ylab Ph notyp n relation avec le poids Analyse multivari e Heatmap X sort race lt x order x race x genes lt aS matrix x sort race 1 4674 rownames x genes heatmap x genes Rowv NA ACP xPCA lt PCA x notDchn 1 4674 graph F ncp 10 Scree graph barplot xPCASeigSeigenvalue main Eboulis des valeurs propres ylab Valeurs propres xlab Axes lt paste x sort raceSrace 1 111 sep scale unit F Repr sentations des individus avec une couleur par race ind race colors lt rep rainbow 5 2 length x notDchnSrace ind race colors x notDchn race Landrace lt rainbow 5 3 ind race colors x notDchn race LWF lt rainbow 5 4 ind race colors x notDchn race LWM lt rainbow 5 5 layout matrix 1 2 3 1 4 5 ncol 3 byrow T plot new legend center pch col rainbow 5 2 5 legend c Duroc Lan
122. layout dataset condi method igraph 1 type txt sep sep quote FALSE row names FALSE col names F write table cbind V graph2 name lay2 file paste dir out layout dataset ocond2 method M rraph type tact sep sep quote FALSE row names FALSE col names F list layl cbind V graphi name lay1l lay2 cbind V graph2 name lay2 create layout nv2 simone mbor bic Results data nv Independent Results data nv Independent drl A 2 4 Cr ations et traitement de jeux de donn es simul s G n ration de jeux de donn es simul s La g n ration des jeux de donn es simul s se fait avec le fichier generate random network R La fonction parallel generation qu il contient prend pour argument un nombre de simulations un r pertoire un nom de fichier puis quelques caract ristiques des graphes que l on veut cr er et partir desquels on veut simuler des donn es et les sauvegarde dans le r pertoire sp cifi et avec le nom de fichier choisi Cette fonction g n re un graphe lt vrai gt puis grace des fonctions du package simone un assez grand nombre de donn es expression de g nes simul es dont Vinf rence devrait amener retrouver le graphe lt vrai gt puis sauvegarde le tout dans un fichier HHHHHHHHHH Description HHHHHHHHHH inputs number number of random graphs to be simulated dir where to
123. les conditions de normalit et d homog n it des variances de Bartlett ne sont pas respect s pour toutes les races d autant plus que ces derni res peuvent tre influenc s par la bande fortement li e la race 38 3 Pr diction du ph notype d int r t On va maintenant tenter de pr dire le ph notype d int r t par for t al atoire Ce ph notype est traduit par 2 mesures Pour cette pr diction une seule a t utilis e Ils s agit de Igr carc r qui a l avantage d tre normalis Les pr dictions n taient pas tr s bonnes et il a fallu comme pour la pr diction de la race chercher des hyper parametres permettant le meilleur R entre les valeurs pr dites et les valeurs observ es Le Tableau 17 r capitule les mod les utilis s pr cisant les hyper param tres et le R relatif chaque mod le set seed ntree mtry sampsize R 34234 5000 400 75 0 0179 4324532 12500 400 75 0 0196 3234 12500 800 75 0 0206 5233 12500 100 75 0 0212 112358 7500 400 75 0 0222 897423 7500 800 75 0 0225 897423 7500 800 75 0 0225 34234 7500 200 75 0 0232 5234 5000 800 20 0 0241 52334 12500 800 50 0 0241 5233 20000 1000 50 0 0241 343234 7500 100 75 0 0262 2056 20000 50 75 0 0267 343234 7500 100 50 0 0271 52334 12500 100 50 0 0276 5234 5000 800 50 0 0296 5233 5000 100 50 0 0300 Tableau 17 R capitulatifs des mod les de for ts al atoires utilis s On utilisera le mod le ayan
124. les plus importants de la for t al atoire crois s avec les individus ordonn s par leur valeur de lgr carc r 42 X41791 X27224 X32751 X35018 X21749 X26483 X17513 X44990 X19892 X42065 wo oO N N x Figure 30 Heatmap de la classification des g nes les plus importants de la for t al atoire crois s avec les individus ordonn s par leur valeur de Igr carc r Ici les r sultats sont peu clairs cependant parmi ces g nes l un des g nes se rapprochant le plus du comportement recherch est le g ne X19892 En effet une r gression lin aire de la variable expliquer Igr carc r et l expression de ce g ne donne une p value du test de Fisher de d pendance entre les variances expliqu es et non expliqu es de 1 143 x 10 traduisant le fait que ce g ne explique bien la variation de la mesure du ph notype avec un R correct de 0 41 Voici en Figure 31 le nuage de points de ces deux variables 43 Longueur de carcasse en fonction de l expression d un g ne Longueur de carcasse 60 40 20 0 20 40 60 Expression du gene X19892 Figure 31 Nuage de points de la longueur de la carcasse en fonction de l expression du g ne X19892 La longueur de la carcasse semble effectivement d pendre de l expression de ce g ne selon la droite d quation y 28 855 x 14 499 Malgr le fait que le ph notype semble d pendre de nombreux facteurs ext rieurs au g nome il semblerait qu on puisse trouver des g ne
125. m riquement dans toutes les m thodes dans la construction de la matrice d adjacence A Le processus d laboration du graphe partir des corr lations partielles est illustr dans la figure 3 6 ae La FIGURE 3 6 Visualisation du passage de la matrice des corr lations partielles a gauche la matrice d adjacence apr s seuillage au milieu au graphe droite Le probl me d inf rence de structure peut alors se r duire une estimation des coeffi cients jj partir des donn es Par la suite diff rentes m thodes r elles d inf rence de graphes sont propos es ci dessous et mises en application dans les packages correspon dants d crits dans la partie 4 M thode de Sch fer and Strimmer 2005 Dans un premier temps cette m thode vise rendre la lt matrice de concentration gt plus stable par inversion en l estimant de la mani re suivante J Ensuite un test bay sien avec une correction de tests multiples est propos pour d terminer les ar tes significatives M thodes par Maximum de Vraisemblance Il existe deux m thodes d estimation de X71 l aide du maximum de vraisemblance celle de Friedman et al 2008 et celle de Meinshausen and B hlmann 2006 6Cette image a t extraite d une pr sentation effectu e aux Journ es de la Soci t Francaise de Statistique JdS 2012 Bruxelles Belgique 21 25 mai elle a t gracieusement pr t e par http
126. me sont similaires 60 80 d ar tes communes aux conditions dans la plupart des jeux de donn es et des m thodes 3 Les m thodes jointes sont caract ris es par un fort taux d ar tes communes 70 90 entre les deux conditions exp rimentales alors que on ne d nombre pas plus de 50 80 d ar tes communes lorsque l on fait de l inf rence ind pendante 4 Dans la plupart des inf rences on observe un grand consensus entre les m thodes utilis es l exception de GeneNet on a entre 55 et 80 d ar tes communes entre m thodes dans les jeux de donn es les plus r duits Les deux sections suivantes pr sentent des r sultats plus d taill s concernant deux jeux de donn es un issu du projet DeLiSus et l autre issu du projet Diog nes Zoom sur le jeu de donn es lt II1b gt Cette partie se concentre sur les r sultats des inf rences du jeu de donn es ap pel lt lllb gt et extrait des donn es DeLiSus il est compos des 123 g nes les plus diff rentiellement exprim s par rapport la race Un tableau comparatif des diff rentes approches conduites de telle mani re avoir 350 400 ar tes soit une densit de graphe d environ 5 est propos dans le tableau 5 1 m thode sous m thode simone simone simone simone therese genenet sous m thode mband mbor friedman intertwined friedman simone mband 382 272 270 268 215 0 simone mbor 377 319 227 264 0 simone friedman 390 2
127. ment vers les valeurs n gatives traduisant l talement des valeurs droite Ce ph nom ne est s rement d au fait que les g nes ont t pr lev s dans des muscles o les cellules sont tr s sp cialis es ayant une fonction essentiellement motrice La plupart des g nes ne s expriment que tr s peu dans cette partie du corps et de moins en moins de g nes s expriment plus fortement Le Tableau 1 donne une liste de g nes atypiques n gativement dont l expression moyenne est inf rieure 2 et le Tableau 2 donne une liste de g nes atypique positivement dont l expression moyenne est sup rieure 4 X6425 X6528 X6921 X7004 X8718 X10164 X10593 X10755 X12285 X13135 X13964 X14079 X14508 X15082 X15745 X16270 X16473 X16804 X16861 X17501 X17529 X17576 X17609 X17746 X18172 X19329 X21128 X21919 X24625 X25918 X26319 X26997 X27052 X27610 X27840 X27999 X28593 X31254 X31406 X33923 X34736 X36686 Tableau 1 G nes d expression moyenne faible X309 X756 X1467 X2430 X3142 X5013 X5693 X6641 X6787 X10412 X13788 X20140 X25314 X28517 X29462 X30387 X33530 X37762 X39616 X39947 X40486 X42514 X44761 Tableau 2 G nes d expression moyenne lev e La Figure 2 donne l histogramme de la r partition de l cart type des expressions des g nes R partition de l cart type des expressions de g nes 2000 1500 Nombre de variables 1000 i 0 5 1 0 15 Valeurs de l cart type
128. n Recall the average sum where appropriate and for each condition it will generate This generates 3 data tables which are written to dir out as CSV files It also traces the precision recall curve in which conditioni and condition 2 are crosses x and circles lo respectively each method is color coded and saves the resulting graph in dir out as a png clean_all_graphs R This script contains a function When it is called it takes as input a R list named all graphs If that list contains NULL elements it will delete them and move all the following items in the list so that there is no NULL element The function will return the resulting list compare_conditions R sourceable This file outputs comparisons between both conditions number of edges in conditioni condition2 and the number of edges both conditions have in common for a specified dataset on all specified methods TODO arguments compare_methods R sourceable This file outputs comparisons between different graph methods for a specified dataset and condition and for each pair of methods it outputs the number of common edges k arguments dir in dir out Results comparison dataset condition methods export_graph glasso indep R should be sourceable this file program sources the three above files and produces for each one each dataset 2 graphs using the MB method with the or policy and both igraph and glasso packages and outputs
129. n estimated pcori lt ggm estimate pcor 0 5 condi 0 5 cond1 cond2 est pvali lt ggm test edges estimated pcori plot F sel edgesi lt which est pvali qval lt 0 05 qval is the corrected p value selected edges genenet edgesi lt est pvalilsel edgesi 2 3 genenet edgesi lt as matrix genenet edges1 T F matrix instead of edges list mati lt matrix FALSE nrow nrow estimated pcori ncol ncol estimated pcori mati genenet edges1 lt TRUE mati lt mati t mati create graph graphi lt graph adjacency mati mode undirected V graphi name lt names cond1 print basic info print Coat Vertices length V graphi n Edges length E graphi n Density graph density graphli n Transitivity transitivity graphi n Connectivity is connected graphi n for second condition estimated pcor2 lt ggm estimate pcor 0 5 cond2 0 5 condi cond2 est pval2 lt ggm test edges estimated pcor2 plot F sel edges2 lt which est pval2 qval lt 0 05 qval is the corrected p value selected edges genenet edges2 lt est pval2 sel edges2 2 3 genenet edges2 lt as matrix genenet edges2 T F matrix instead of edges list mat2 lt matrix FALSE nrow nrow estimated pcor2 ncol ncol estimated pcor2 mat2 genenet edges2 lt TRUE mat2 lt mat2 t mat2 create graph graph2 lt graph adjacency mat2 mode undirected V graph2 name lt names cond2 print
130. n impact of diet sex metabolic status and cis genetic regulation Submitted to PLoS Genetics Villa Vialaneix et al 2012 Villa Vialaneix N Edwards N Liaubet L and Viguerie N 2012 Comparison of network inference packages and methods for multiple network inference In 1 res Rencontres R BoRdeaux BoRdeaux France To appear 88 C Travail preliminaire d analyse des donnees Lors de mon projet de deuxi me ann e de DUT STID j avais commenc travailler sur des donn es similaires a t m n en bin me avec Etienne Auclair En utilisant des techniques statistiques usuelles analyse univari e ANOVA ACP et nouvelles For ts al atoire le but tait de rep rer quels g nes expliquaient une variable quantitative ou qualitative d int ret Le rapport complet de ce projet est disponible ci dessous 89 Etienne AUCLAIR Nicolas EDWARDS Projet de statistique Analyse de donn es transcriptomiques en relation avec des ph notypes 2 me ann e STID 2011 2012 Nathalie VILLA VIALANEIX Table des mati res NEGO CTIOMNis np aa sa naaa aaa aA A A a aaa aiie 3 Et de exploratoire ts erci ei ea aE E A de lent 5 1 Etude des expressions de GENS vs irisccacuceccusssies ives cikernscrinelecionssasnesedaanes Was veacueatinniactack 5 2 Etude des races et des bandes anne nitro 7 3 Etude du ph notype d int r t ss 11 4 Analyse multivari e des expressions 18 Il Pr dictions par
131. n ud verter et chaque corr lation directe et significative par une ar te edge entre les deux n uds concern s On entend par significative le fait que cette corr lation d passe un certain seuil ventuellement d termin par un test statistique et par directe le fait qu elle s exprime ind pendamment des autres genes On effectue donc un calcul de la corr lation partielle entre les deux g nes pour obtenir la valeur num rique permettant de d terminer si l arr te doit tre ajout e au r seau ou non De mani re formelle notons Xt X XP l expression de p g nes mesur e sur n unit s statistiques typiquement sur des donn es de biopuces p est de l ordre de 10 et n est de l ordre de 10 Toute la suite de ce travail se place dans le cadre du Mod le Graphique Gaussien not GGM on consid re donc par la suite que le vecteur al atoire des expressions de g nes est un vecteur gaussien X X XP N 0 On s int resse alors la matrice des corr lations partielles not e IT entre les expres sions de g ne qui est de taille p x p Ses coefficients Vj 4 j j lt p J lt p sont d finis de la mani re suivante Tjj Cor X X XF amp k AG j Deux g nes seront li s par une ar te dans le graphe si et seulement si leur corr lation partielle est significativement non nulle On peut d montrer voir Edwards 1995 que ces corr lations partielles sont li es la lt matrice de
132. n Shared edges length E graph intersection graphi graph2 round length E graph intersection graphi graph2 length E graphl J 1001 sep cex 0 9 if show labels T plot graph2 layout layoutmatrixi vertex size 10 vertex frame color col vertex color col vertex label V graph2 name vertex shape vshape edge width 0 5 A abs E graph2 weight main paste Visualization of dataset s genes using n method n method in condition 2 sep edge lty edges lty g2 edge color edge color sign2 else plot graph2 layout layoutmatrixi vertex size 2 vertex frame color col vertex label NA edge width 0 5 Axabs E graph2 weight main paste Visualization of dataset s genes using n method n method in condition 2 sep edge lty edges lty g2 edge color edge color sign2 text 1 1 paste Density round graph density graph2 3 n Transitivity round transitivity graph2 3 n Shared edges length E graph intersection graphi graph2 round length E graph intersection graphi graph2 length E graph2 100 1 sep cex 0 9 displaying parts 3 and 4 of layout TODO eventually but you 11 never have the time to make it more general if appart leg plot 0 0 type n axes F yaxt n xaxt n ann F legend 0 5 1 5 c Clinical data Gene expressions pch c 19 15 col c lightgreen pink
133. n d un g ne et comment elle se mesure cette section pr sente quelques notions de biologie et de g n tique L ADN L acide d soxyribonucl ique plus connu sous le nom d ADN est une mol cule retrouv e dans toutes les cellules vivantes qui renferme l ensemble des informations n cessaires au d veloppement et au fonctionnement d un organisme L ADN est compos de s quences de nucl otides Chaque nucl otide est constitu e de trois l ments li s entre eux e un groupe phosphate li e un sucre le d soxyribose lui m me li e une base azot e Il existe quatre bases azot es diff rentes l ad nine not e A la thymine not e T la cytosine not e C et la guanine not e G __ Colonne sucre phosphate _ Paire de bases Adenine Base azot e Thymine Guanine Cytosine FIGURE 3 1 Sch ma de la double h lice d ADN L ADN est compos de deux brins se faisant face et formant une double h lice Ceci est possible car les nucl otides pr sents dans un brin poss dent des nucl otides 14 Nicolas Edwards Description des donn es et de la probl matique compl mentaires avec lesquels ils peuvent interagir La figure 3 1 repr sente ADN avec les nucl otides et les deux brins se faisant face L ARN messager ARNm L acide ribonucl ique messager que l on notera dor navant ARNm est une copie de l ADN utilis e comme interm diaire par les cellules dans la
134. n simone or even by proposing new joint approaches based on the aforementionned packages Networks are inferred from the previously described real datasets or from simulated datasets that mimic the real ones The proximity between networks inferred from different methods or from different conditions is assessed by means of common edge counts or when available by the accuracy of the inferred network when compared to the true one A biological discussion about the relevance of the inferred networks will also be provided References 1 J Chiquet Y Grandvalet and C Ambroise Inferring multiple graphical structures Statistics and Com puting 21 4 537 553 2011 2 J Chiquet A Smith G Grasseau C Matias and C Ambroise SIMoNe Statistical Inference for MOdular NEtworks Bioinformatics 25 3 417 418 2009 3 J Friedman T Hastie and R Tibshirani Sparse inverse covariance estimation with the graphical lasso Biostatistics 9 3 432 441 2008 4 N Kraemer J Schaefer and A L Boulesteix Regularized estimation of large scale gene regulatory networks using Gaussian Graphical models BMC Bioinformatics 10 384 2009 5 T M Larsen S M Dalskov M van Baak S A Jebb A Papadaki A F H Pfeiffer J A Martinez T Handjieva Darlenska M Kune ov M Pihlsgard S Stender C Holst W H M Saris and A As trup Diets with high or low protein content and glycemic index for weight loss maintenance New England Journ
135. name of the RData file containing required R objects must be a list of simus containing each cond1 and cond2 must be specified before each function call as must the name of each exported RData files containing all graphs a list as long as simus each occurrence containing graphi and graph2 after the function call parallel genenet indep R This script sources export _graph genenet indep R and parallelizes the function said function is better described in the sourced script s readme The name of the RData file containing required R objects must be a list of simus containing each cond1 and cond2 must be specified before each function call as must the name of each exported RData files containing all graphs a list as long as simus each occurrence containing graphi and graph2 after the function call generate_random_network R rhoselect_cv R this file function is a function with inputs d data set lambdas list of lambda fold number of fold for the CV default 10 outputs a vector with cv mse for all example library glasso soun ce import 111 r source rhoselect_cv R lambdalist lt c 0 15 0 2 0 4 0 6 mse path lt rhoselect cv condi lambdalist 5 plot lambdalist mse path mse type b xlab lambda ylab cv mse show_graphs cond R This script takes three required arguments and up to 8 arguments described below Imports a data file and a layout file extracts edgelist
136. ndividus et plusieurs milliers voire dizaine de milliers de g nes dont l expression est mesur e pour chaque individu 16 Nicolas Edwards Description des donn es et de la probl matique 3 1 2 Donn es en relation avec la qualit de la viande de porc Les deux premiers jeux de donn es sur lesquels j ai travaill provenait d un projet financ par l ANR La probl matique de ce projet est l analyse fine de la diversit g n tique des diff rentes races porcines fran aises Dans ce cadre deux jeux de donn es ont t tudi s contenant l expression de g nes s lectionn s pour des animaux de races Large White LW gt condition 1 et lt Landrace gt condition 2 1 le premier jeu de donn es contenait pour 84 cochons les individus statistiques de deux races diff rentes LW Landrace la mesure de 464 g nes qui avaient au pr lalable t s lectionn s parmi 12 358 pour leur expression diff rentielle pour le facteur race 2 le second jeu de donn es contenait pour 84 cochons les individus statistiques de deux races diff rentes LW Landrace la mesure d un groupe de 1 058 g nes pour lesquels la corr lation au sein de chaque race tait la plus forte 3 1 3 Donn es en relation avec l ob sit Les autres jeux de donn es provenait du projet europ en Diog nes de lutte contre Vob sit Au sein de ce projet on a relev l expression d un grand nombre de g nes chez des
137. notDchnSrace 1 108 sep imp and race ordered lt imp and race order imp and race 1 imp and race ordered Heatmap des 20 genes les plus importants heatmap as matrix imp and race ordered 2 20 Rowv NA Matrice de boxplots de l expression des g nes les plus importants selon la race par mfrow c 4 5 for 1 an 1 19 boxplot x data best var race i x notDchnSrace ylab dimnames x data best var race 2 il las 2 Comparaisons avec les donn es issues du mod le mixte GenesMM lt read table projet stat etienne nicolas genes de races csv sep intersect GenesMM 1 best var For t 2 de pr diction de la race donn es avec LWM et LWF regroup es 4 Creation de x LWFM o l on a par rapport a x notDchn fusionn les races LWF et LWM en LW x LWMF lt x notDchn x LWMFSrace lt as character x LWMFSrace x LWMFSrace x LWMFSrace LWF lt LW x LWMFSrace x LWMFSrace LWM lt LW x LWMFSrace lt as factor x LWMFSrace x LWMF genes lt x LWMF 1 4674 54 For t Al atoire set seed 33 RF LWMF race lt randomForest x LWMF genes x LWMFSrace ntree 500 mtry 100 sampsize 75 importance T Analyse des performances TC lt RF LWMF raceSconfusion TC Taux d erreur global best err lt 1 sum diag TC 1 4 sum TC 1 4 best err plot 1l nrow RF LWMF raceSerr rate RF LWMF raceSerr rate 1 lwd 2 type 1 xl
138. nt la m thode de cr ation et les options affect es ces m thodes Ces objets contiennent la structure du graphe c est dire l ensemble des n uds pr sents ar tes ou paires de n uds connect s et des informations compl mentaires ajout es par noeud ou par ar te comme par exemple la valeur de la corr lation partielle par ar te inf r e e 2 fichiers au format graphml qui contiennent les graphes des deux condi tions dans un format standard inter logiciel comme le txt pour le texte ou le csv pour les donn es num riques Leur nom est structur comme suit graph dataset condition m thode options graphml o condi tion d signe la condition exp rimentale et a pour valeur possible lt condl gt et lt cond2 gt e 2 fichiers au format txt contenant pour chaque condition exp rimentale la liste de paires de n uds qui forment les ar tes dans les graphes Analyse des graphes obtenus La section analyse se d compose en deux volets la repr sentation graphique et l analyse comparative num rique La repr sentation graphique se fait apr s avoir fix un agencement des n uds l aide du script create _layout r A l aide d un type d agencement il crit un fichier txt d crivant la position sur l abscisse et l ordonn e de chaque n ud Ensuite l aide d un r pertoire d un nom de jeu de donn es et d une m thode le script show graphs r crit
139. oS Genetics and the work done on method comparison will be exposed at the premi res rencontres R at BoRdeaux on July 3rd 2012 Zhttp r2012 bordeaux inria fr Premiere partie Introduction Au cours de ma seconde ann e de DUT STID j ai eu la possibilit d effectuer un stage de 10 semaines n cessaire pour valider mon dipl me Int ress par les sciences depuis longtemps je souhaitais effectuer mon stage dans un domaine d application scientifique Or mon projet de statistique de deuxi me ann e portait sur des donn es propos es par des chercheurs de l INRA l tude de ces donn es l aide de techniques statistiques diverses m ayant beaucoup plu j ai d cid de postuler pour mon stage de fin de DUT au sein de l INRA de Toulouse o j ai t retenu Ainsi j ai t int gr au Laboratoire de G n tique Cellulaire UMR0444 dont la recherche est ax e sur la compr hension du g nome des animaux domestiqu s Le stage a t men dans le cadre de deux projets de recherche lt DeLiSus gt un projet financ par ANR Agence Nationale de la Recherche sur la g n tique du cochon et lt Diog nes gt un projet financ par l Union Europ enne pour l tude de l ob sit Il s est organis autour de groupes de travail avec des statisticiens et des biologistes Mon stage m a permis de travailler dans des domaines de recherche relativements neufs car seules les nouvelles technologies perme
140. od export_graph genenet indep R sourceable This program sources the import file and runs Genenet on each condition for each dataset and creates a graph using the approach documented in Opgen Rhein and Strimmer 2006a b and Schafer and Strimmer 2005 It then exports the standard info graph objects for R graphml and txt edge lists Further information is located at the beginning of the file Possible values for condition condi cond2 export_graph simone joined R TODO export_graph simone joined bic r sourceable will take a _very_ long time to execute This script sources preprocess_export_graph simone joined r to create the right kind of objects for simone multitask executes simone multitask mode with 2 conditions chooses the best pair of graphs by optimal BIC don t ask me how ask J Chiquet Genopole http stat genopole curs fr members jchiquet welcome who co wrote Simone arguments gt dataset dataset to be used CIII wIl2t nuny nv2 method method to be used coopLasso groupLasso or intertwined min pen minimal penalty value for generating networks If not specified simone will take care of determining the value and may go out of convergence or hang on huge datasets import_simu lli r This script loads the simulation data included in Data simu 111 Rdata which contains a single list named simus of 81 Nicolas Edwards Programmes r alis s
141. of leads to an ill posed problem since this kind of data leads to a number of observations typically less than one hundred that is usually much smaller than the number of variables the number of genes nodes in the network can range from a few hundred to several thousands To overcome this difficulty the seminal papers 8 9 were the basis for the package GeneNet in which the partial correlation is estimated either by means of a bootstrap approach not available in the package anymore or of a shrinkage approach More recently the ability to handle genomic longitudinal data was also added as described in 7 Then 6 and later 3 introduced sparse approaches both implemented in the package glasso graphical LASSO Similarly 4 describes the methods implemented in the package parcor that provides several regularization frameworks PLS ridge LASSO to infer networks by means of Gaussian graphical models Finally 2 1 describe several extensions of the Gaussian graphical model implemented in the package simone such as latent variable models and time course transcriptomic data In systems biology an interesting issue is to link gene functioning to an external factor Thus transcriptomic data are often collected in different experimental conditions One must then understand which genes are correlated independently from the condition and which ones are correlated depending on the condition under the plausible biological assumption t
142. of s r y x x soTjoryzed SUOTJUOII00 GO 0 S RUIIXeU 9JISU9P G O eudie ueurpely poutol oso1oy x soTjoryred SUOIJLJZIIOD GT 0 STRUIIXEU 9JISU9P pouIMJIOQUI poulol ououuis x x x soTjoryred SUOTJEIOII09 OL O STRUIIXEU 9yIsuep peutmyloyut poulol ououuis x x x x xX Xx soTfetyred SUOIJRTOI109 G0 0 PULU 9yISuUep pouIMyJIOQUI peutof ouourts x eunone 00 0 opum aytTeued peutmmyleyut p urof ouows x unone 6P7690 O oppuru ayTeued poumgiogur poutof ouourts X x ounone ounone poutmyioyut poutof ouourts x x eunone 10000 oppuru eyyeued osseqdno1rs pourol ououris xX X un ne un ne osseqydnois p urof uous x x x eunone 6f7690 0 puuru ayTeued osseqTdooo pautof euoutts x eunone eunone osseqTdooo _ pautof euoutts x soTfotyred SUOLI GT 0 OTeUITXeUL 97ISU9P ueupely doPUI OUOUUIS x x soTjeryred SuOTye e1I09 OL O STRUIIXEU gysu p UCUIPelL dopur ououris x x x xX soTfetyred SUOIJRTOI109 G0 0 PULU 9JISU9P ULUIPelL daput euoutts x soTfetyred SUOIJRTOI109 CTO opw ayyeued UCUIPelL daput euoutts x soTfotyred suore aunone ueulpelyy d pur uowts x ounone ounone ueUIpeLy dopur ouours x x x eunone GT 0 opum ayyeued UvUIPOLL dopur ouours x soTjoryred SUOTJEIOII09 GT 0 oyeulrxeu gysu p puequ dopur ououis x x soTfetyred SUOIJRTOII09 OT 0 2JRUIIXEUX 9JISU9pP puequ doepur ououis x x x Xx soTfotyred SUOIJRTO1109 G0 0 PULU 94ISUep puequ dopur ouours x soTfotyred SUOIJRTOI1109 CLO opw ayyeued puequ dopur o
143. ois que les donn es ne 10 sont pas id ales statistiquement Ainsi pour certaines analyses plus pouss es un traitement suppl mentaire sur les donn es pourrait tre n cessaire pour corriger effet de la corr lation entre bande et race 3 Etude du ph notype d int r t Le but de cette tude est galement de connaitre les g nes agissant sur la longueur de la carcasse du cochon C est donc cette derni re variable qui est appel e ph notype d int r t Celle ci est obtenue a partir de deux mesures Igr carc la longueur de la carcasse et Igr carc r cette longueur corrig e de l effet bande sur un chantillon plus grand d animaux toutes deux en relation avec le poids de la carcasse Nous ne connaissons pas le protocole exp rimental pr cis de la mesure de ces deux variables donc de leur diff rence quant la mesure du poids de la carcasse Le Tableau 8 donne quelques mesures de statistique descriptive pour le premier ph notype d int r t lgr carc dont la distribution est repr sent e en Figure 6 Minimum 1 Quart M diane Moyenne 3 Quart Maximum Skewness Kurtosis 950 990 1010 1013 1030 1100 0 475 0 156 Tableau 8 Statistiques l mentaires sur la longeur de la carcasse lgr carc Histogramme repr sentant une mesure de ph notype en relation avec le poids des carcasses 30 j 25 20 Effectif 15 10 zi 950 1000 1050 1100 Mesure d un ph notype en relation a
144. on des individus n selon l autre ph notype d inter t n sur les axes 5 et 6 de 1 ACP plot xPCASindScoord 7 8 pch 19 col ind lgr carc r col xlab Axe 7 ylab Axe 8 main Repr sentation des individus n selon l autre ph notype d inter t n sur les axes 7 et 8 de 1 ACP Repr sentation des variables par mfrow c 2 2 Axes 1 et 2 s lection axesl2 costot lt xPCASvarScos2 1 xPCASvarS cos2 2 order costot 12 lt order axes12 costot decreasing T sel12 lt order costot 12 1 20 repr sentation plot seq 1 1 length 1000 sqrt 1 seq 1 1 length 1000 2 type 1 ylim c 1 1 xlab Axe 1 ylab Axe 2 main Repr sentation des 20 variables n les mieux reconstitu es n sur les axes 1 et 2 lines seq 1 1 Llength 1000 sqrt 1 seq 1 1 length 1000 2 arrows 0 0 xPCASvarScor sel12 1 xPCASvarScor sel12 2 length 0 05 text xPCASvarScor sel12 1 xPCASvarScor sel12 2 colnames x sel12 cex 0 7 col sienna Axes 3 et 4 s lection axes34 costot lt xPCASvarScos2 3 xPCASvarScos2 4 order costot 34 lt order axes34 costot decreasing T sel34 lt order costot 34 1 20 repr sentation plot seq 1 1 length 1000 sqrt 1 seq 1 1 length 1000 2 type 1 ylim c 1 1 xlab Axe 3 ylab Axe 4 main Repr sentation des 20 variables n les mieux reconstitu es n sur les axes 3 et 4 lines seq 1 1 length 1000 sqr
145. onction creategraph genenet joined du fichier export graph genenet joined R on utilise le package GeneNet pour inf rer des r seaux pour des mesures appari es pour chaque condition c est dire lorsque les individus sont les m mes entre les deux condition l id e sous jacente tant que comme les individus sont les m mes on peut s attendre ce qu il y ait une part commune et une part diff renti e dans les r seaux qui d coulent des donn es pour ce forcer la ressemblance entre les deux r seaux on m lange donc les expressions sp cifiques a une condition avec une expression moyenne inter conditions la nouvelle expression du g ne j pour l individu i dans la condition c qui est utilis e pour l inf rence du r seau 49 Nicolas Edwards Programmes r alis s sp cifique la condition c est donc oe es ee ee s i 1 J e ou T Dot 2 For NV datasets only This file should be placed in the same directory as an import file This script takes a dataset name nvi nv2 etc as input and sources the corresponding import file and cleans puts n a values to the corresponding variable mean It then runs a custom GeneNet graph inference The theory is that since the two conditions are somewhat similar the resulting graphs should be forced to share common points The idea is here implemented at the partial correlation estimation step Instead of estimating separately both
146. ondi simone intertwined bic d10 wpcor txt row names TT Nicolas Edwards Programmes r alis s F col names F graph2 lt res graph2 V graph2 nom lt names cond2 V graph2 name lt names cond2 write graph graph2 file Results data nv Joined graph nv5 cond2 simone intertwined bic d10 wpcor graphml format graphml write table get edgelist graph2 file Results data nv Joined edgelist nv5 cond2 simone intertwined bic d10 wpcor txt row names F col names F save graphi graph2 file Results data nv Joined graph nv5 cond12 simone intertwined bic d10 wpcor RData RE RE Visualization Creating layout files create layout nv5 simone intertwined bic di0 wpcor Results data nv Joined Results data nv Joined kk Exporting visualization show graph Results data nv Joined nv5 simone intertwined bic di0 wpcor layout condi simone intertwined bic d10 wpcor igraph kk vshape c rep square 38 rep circle 12 col c rep pink 38 rep lightgreen 12 show labels T appart leg T In the next part the process will be described in further detail if one wished to get his hands in the code Step 1 Import The data has to be organized as follows two R objects called condi and cond2 have to be created whose rows should reference individuals and whose columns should reference genes for simulated data an R list named simus must be created each el
147. option de m thode Dans un souci de clart les appels ont t plac s dans des fichiers diff rents En pr ambule de ces fichiers on lit le script qui contient la fonction proprement dit de mani re ce qu en ex cutant tout le fichier lt appel gt d un coup on puisse faire it rer la fonction travers tous ses appels Parall lisation Sur certains packages notamment simone les temps de calcul de l inf rence explosent au vu du nombre de g nes dans chaque tape on a environ p r gressions faire avec p 1 param tres estimer et il y a environ p tapes successives pour obtenir un r seau dans un bon intervalle de densit Le temps de calcul est donc sensiblement proportionnel p Pour une quarantaine de g nes sur mon ordinateur personnel l inf rence est rapide de l ordre de 5 secondes mais pour les autres jeux de donn es dont le plus grand comporte 1058 g nes le temps de calcul est d multipli et celui ci aurait pu durer plusieurs jours pour le traitement de donn es simul es o il fallait inf rer 100 graphes pour chaque m thode J ai donc l aide du package doMC parall lis les inf rences de tr s haute dimension Simulations Un travail en amont de comparaison des m thodes d inf rence de graphes d crites en sections 3 2 2 et 3 2 3 a t effectu l aide de donn es simul es Pour ce faire nous avons simul 3 jeux de donn es dans deux conditions di
148. or both graphs for consistency A lt 3 max c abs E graphi weight abs E graph2 weight Edge color determined by sign of partial correlation if weight edge color signi lt rep red length E graphi weight edge color signi E graphi weight gt 0 lt blue edge color sign2 lt rep red length E graph2 weight edge color sign2 E graph2 weight gt 0 lt blue Edge line type if weight edges lty gi lt rep 2 length E graphi edges lty g2 lt rep 2 length E graph2 edges lty gilei in Shared lt 1 edges lty g2 e2 in Shared lt 1 if show labels T plot graphi layout layoutmatrixi vertex size 10 vertex frame color col vertex color col vertex label V graphi name vertex shape vshape edge width 0 5 Axabs E graphi weight main paste Visualization of dataset s genes using n method n method in condition 1 sep edge lty edges lty gi edge color edge color signi else plot graphi layout layoutmatrixi vertex size 2 vertex frame color col vertex label NA edge width 0 5 Axabs E graphi weight main paste Visualization of dataset s genes using n method n method in condition 1 sep edge lty edges ltr ol edge color edge color signi J text 1 1 paste Density round graph density 63 Nicolas Edwards Programmes r alis s graphi 3 n Transitivity round transitivity graphi 3
149. ownames tni lt True Negatives ci rownames fni lt False Negatives ci colnames tpi lt seq 1 ncol tpi colnames fpi lt seq 1 ncol fpi colnames tni lt seq 1 ncol tni colnames fn1 lt seq 1 ncol fni Condition 2 n2 lt length V simus ind tg2 no number of 73 Nicolas Edwards Programmes r alis s no edges graph2 lt length E all graphs ind graph2 no edges tg2 lt length E simus ind tg2 no edges inter2 lt length E graph intersection all graphs ind graph2 simus ind tg2 tp2 lt cbind tp2 no edges inter2 fp2 lt cbind fp2 no edges graph2 no edges inter2 tn2 lt cbind tn2 n2 n2 1 2 no edges graph2 no edges tg2 no edges inter2 fn2 lt cbind fn2 no edges tg2 no edges inter2 rownames tp2 lt True Positives c2 rownames fp2 lt False Positives c2 rownames tn2 lt True Negatives c2 rownames fn2 lt False Negatives c2 colnames tp2 lt seq 1 ncol tp2 colnames fp2 lt seq 1 ncol fp2 colnames tn2 lt seq 1 ncol tn2 colnames fn2 lt seq 1 ncol fn2 Comparaison inter condition true intercond lt cbind true intercond length E graph intersection simus ind tgi simus ind tg2 simul intercond lt cbind simul intercond length E graph intersection all graphs ind graphi all graphs lind graph2 precisioni lt tpi tpi fpi rownames precisioni lt Precision ci recalli lt tpi tpi fni rownames rec
150. partial correlations it estimates the pcor of an individual that is half current condition half average condition for a given condition the values of that condition are weighted 1 2 then the HHHH average value across both conditions is taken and weighted 1 2 and that gives the value that is used for the estimation The value of the function is the only output let dataset nvi at the end of execution creategraph genenet joined nvi graphi contains the graph object for condi creategraph genenet joined nv1 graph2 contains the graph object for cond2 Function calls are located in the corresponding run file e g run genenet joined R creategraph genenet joined lt function dataset source paste import_ dataset r sep if dataset nv2 input mean lt function column column is na column lt mean column na rm T column saving column names ni lt colnames cond1 applying function to remove NA s removes column names condi lt apply condi 2 input mean cond2 lt apply cond2 2 input mean inserting column names colnames condi lt n1 colnames cond2 lt n1 converting back from matrix to data frame condi lt data frame cond1 50 Nicolas Edwards Programmes r alis s cond2 lt data frame cond2 condi is na cond1 lt min cond1 na rm T cond2 is na cond2 lt min cond2 na rm T for first conditio
151. ph2 n Edges length E graph2 n Density graph density graph2 n Transitivity transitivity graph2 n Connectivity is connected graph2 n sep 1 output graphs list graphil graphi graph2 graph2 Cette fonction fait appel la fonction fusion du script preprocess_export_graph simone joined r qui permet de mettre en forme les donn es pour les passer de mani re correcte en argument la fonction simone du package simone ae rc cran euros fusion impute the dataset SITI t TAII21 nvi es any io This function sources the specified datasets importation script and thus gets condi and cond2 R objects It then row binds both conditions and creates a tasks vector whose length is equal to the sum of both condition s number of rows and whose value is 1 or 2 depending on which condition the row came from Output R objects kept condi condi cond1i2 in theory a matrix in R a list tasks in theory a vector in practice a double RSS SSS SS SS SS SS SS SS fusion lt function dataset 54 Nicolas Edwards Programmes r alis s Sources the right file to import filepath lt paste import_ dataset r sep source filepath Specific pre processing for nv2 dataset should probably be pub in import nv2 r if dataset nv2 at input mean lt function column column is na column lt mean column na rm T column
152. portants par race et les diff rentes races G ne LW Landrace Duroc X25459 X20447 X22274 X27309 X36089 X9965 X15632 X12647 X29104 X3404 X7762 X2093 X11878 X16335 X31039 X10512 p value 2 91 10 5 2106 2 10 5 2 10 6 2 76 10 8 2106 8 64 10 5 6 13 10 5 4 16 10 5 2 10 5 2106 2106 2106 2106 2106 2 10 6 Tableau 16 Taux d expression des g nes importants par race j p l i i p i i F P 4 E bo 7 3 3 8 gt i T F Tj be g 3 3 4 3 8 3 a a a Expr du gene X16335 Expr du gene X12547 2 i Expr du gene X9965 05 10 15 20 Expr du gene X10512 Expr du gene X25459 Expr du gane X29104 25 Figure 27 Boites moustaches parall les pour les races des expressions des g nes les plus importants Chacun de ces g nes pr sente des diff rences notables selon les races montr par des p value du test d galit des variances pour le facteur race toutes significatives Il s agit donc de g nes codant certainement pour un caract re d une race particuli re s agissant ainsi de g nes d terminants pour la race Certains g nes importants pr sent s ici se retrouvent galement sur l axe 5 de l ACP regroupant clairement les races entre elles C est le cas des g nes X3404 X29104 et X20447 Il est noter que les p value affich es ne sont donn es qu titre indicatif les r sultats tant assez peu fiables tant donn que
153. re cat gories d taill es dans la figure 4 2 puis en d duisant du nombre d ar tes dans chaque cat gorie des statistiques sp cialis es d taill es ci dessous telles la pr cision et le recall dans le but de mieux conna tre la fiabilit des diff rentes m thodes d inf rence D finition 6 Pr cision On appelle pr cision le nombre d ar tes pr dites pr sentes dans le graphe lt vrai gt x vrais positifs gt tp divis par le nombre total d ar tes pr dites lt positifs gt soit lt vrais positifs gt et lt faux positifs gt tp fp P art D finition 7 Recall ou Rappel On appelle recall ou parfois rappel pour ne pas utili ser le terme anglais le nombre d ar tes pr dites pr sentes dans le graphe lt vrai gt lt vrais positifs gt tp divis par le nombre d ar tes dans le graphe lt vrai gt lt vrais positifs gt et lt faux n gatifs gt tp fn R tp fn Ar tes du graphe simul Ar tes du graphe inf r partir des donn es simul es lt Ensemble d ar tes possibles FIGURE 4 2 Segmentation des ar tes du graphe vrai gt et du graphe inf r en 4 cat gories permettant de calculer les statistiques de performance 30 5 Resultats Une partie de ces r sultats seront publi s dans des articles le travail sur les comparaisons de m thodes sera expos lors des Rencontres R qui se d roulent les 2 et 3 juillet 2012 a Bordeau
154. re set simonesays lt simone res condi2 tasks res tasks control setOptions edges coupling method penalty min min pen edges max max edges select best network maximum BIC simoneadj lt simonesays network which max simonesays BIC create graph if cor 4 graphi lt graph adjacency simoneadj 1 diag diag simoneadj 1 mode plus weighted T E graphi weight lt E graph1 weight else create T F matrix graphi simone edgesi lt as data frame simoneadj 1 0 diag simone edgesi1 lt FALSE graphi lt graph adjacency simone edgesi mode undirected print basic info print cat Graph for dataset with method approach n 53 Nicolas Edwards Programmes r alis s gt Vertices length V graphi n Edges length E graph1 n Density graph density graphi n Transitivity U transitivity graph n Connectivity is connected graphi n sep create graph if cor graph2 lt graph adjacency simoneadj 2 diag diag simoneadj 2 mode plus weighted T E graph2 weight lt E graph2 weight else create T F matrix graph2 simone edges2 lt as data frame simoneadj 2 0 diag simone edges2 lt FALSE graph2 lt graph adjacency simone edges2 mode undirected J print basic info print cat Graph for dataset with method approach n Vertices length V gra
155. registrer ses modifications sur le git il est de bon usage d ajouter une description succinte des ajouts et ou modifications lors d un commit ici en haut gauche Lorsque l on s lectionne un commit le ou les fichiers modifi s dans celui ci apparait en bas droite de la fen tre une fois qu un fichier est s lectionn la sous fen tre en bas gauche affiche les ajouts au fichier en vert et les suppressions en rouge De part ses origines collaboratives Git g re nativement les conflits d dition dans le cas o un m me fichier est modifi en m me temps par deux utilisateurs si il est modifi des endroits diff rents le fichier est automatiquement fusionn les modifications des deux utilisateurs sont incorpor es au fichier Si le fichier est modifi au m me endroit le deuxi me utilisateur qui envoie son commit au serveur avec un push se voit son push refus par le serveur Il doit faire un pull pour r cup rer les modifications du premier choisir quelle version garder puis faire un push pour propager la modification retenue au serveur 1Site web officiel http git scm com 25 Nicolas Edwards Outils et m thodes gitk stage nicolas Nathalie Villa Vialaneix lt nathalie Nathalie Villa Vialaneix lt nathalie Nathalie Villa Vialaneix lt nathalie Nicolas Edwards lt nicolas ae free Nicolas Edwards lt nicolas ae free fr gt modified report include packages to include landscape pag
156. rer un r seau partir de donn es individuelles d expression de g nes par le package GeneNet La fonction construit et exporte le graphe obtenu par s lection des ar tes apr s un test de significativit d un niveau de 5 SS ee ee creategraph genenet condition This file contains a function to create a graph from the condition entered as an argument using condi and cond2 objects in R with the genenet approach Then it exports graphs and information to various files Input the condition for which one wants to compute a graph When names are available in the dataset it adds them to the vertices 44 Nicolas Edwards Programmes r alis s A function used to build the graph is called twice per dataset for both condition Additionaly before the function call on nv2 data a function is used on all columns in practice on clinical data to replace missing values with the mean of the column to preserve average and variance Output to Results Independent data xx a RData file graph xxx condx genenet RData containing 2 R objects graphi and graph2 for both conditions resp 2 graphml standard graph files graph xxx condx genenet graphml 2 edgelist edgelist xxx condx genenet txt files with one pair of gene names representing an edge mm mm mm mm mm mm mm mm mm creategraph genenet lt function condit
157. s Pr dites Valeurs ODSEIVESs Duroc Landrace LW _ class error Duroc 24 0 0 0 0000 Landrace 0 32 1 0 0303 LW 0 0 51 0 0000 Tableau 14 Tableau de contingence des valeurs pr dites crois es avec les valeurs observ es Le taux d erreur est effectivement tr s faible seul un individu de race Landrace a t pr dit dans la race LW Les r sultat quant aux g nes contribuant la race seront sans doute pertinents Voici donc dans le Tableau 15 les 16 g nes les plus importants selon les crit res de la pr cision et de Gini correspondant l intersection des 20 g nes les plus importants selon ces deux crit res Ces g nes sont tous galement inclus dans la liste des g nes du mod le mixte cr par les biologistes de l INRA Dans ce mod le mixte des p value du test de nullit des coefficients dans un mod le mixte non tudi en seconde ann e N de g ne Accuracy Gini X3404 0 010 0 732 X7762 0 007 0 523 X22274 0 007 0 453 X27309 0 006 0 536 X11878 0 006 0 508 X31039 0 006 0 519 X15632 0 006 0 414 X20447 0 006 0 469 X36089 0 005 0 480 X16335 0 005 0 363 X12647 0 005 0 401 X9965 0 005 0 383 X10512 0 005 0 421 X2093 0 004 0 420 X25459 0 004 0 456 X29104 0 004 0 344 Tableau 15 G nes les plus importants pour la pr diction de la race La pr c dente for t al atoire avait permis tout comme cette derni re de rep rer le g ne X3404 qui est ici le plus important sur les deux crit res La Figure 24 ci
158. s t u du graphe La formule calculatoire est donn e ci dessous cw D 0 o t uzvcV tu Il a t dit pr c demment que la longueur des ar tes donc l agencement des n uds dans la visualisation d un graphe n a pas de signification math matique dans ce contexte Pour repr senter les r seaux visuellement il existe plusieurs algorithmes qui permettent de calculer un agencement facilitant la lecture du r seau par exemple en rapprochant les n uds les plus connect s entre eux et en loignant les moins connect s C est le cas de l algorithme d crit dans Fruchterman and Reingold 1991 qui a t majoritairement utilis pour g n rer des agencements le long de ce stage 19 Nicolas Edwards Description des donn es et de la probl matique Application au contexte biologique Dans le contexte biologique on recherche des liaisons de co expression entre un ensemble de g nes dans ce probl me les g nes sont donc les n uds du graphe Cette liaison sera mesur e l aide d une corr lation dont on pr cisera la nature dans la partie 3 2 2 3 2 2 Inf rence de r seaux de co expression g nique partir de mesure sur plusieurs individus de l expression de chaque g ne on peut calculer les corr lations deux deux entre l expression des g nes Ces corr lations sont la base pour d finir des r seaux de co expression g nique Dans de tels r seaux on repr sente chaque g ne par un
159. s capables de l influencer significativement Conclusion L chantillon utilis pour cette tude est tr s vari de part la mixit des races des cochons ainsi que leur conditions d levage indiqu par la bande Ces deux facteurs ont apport une variabilit g n tique dont il a fallu tenir compte d autant plus que leur distribution n tait pas homog ne Cette tude avait pour but de chercher les g nes partir des mesures de leur expressions d terminant la race et un ph notype d int r t des cochon en rapport avec le poids par le biais de m thodes exploratoires et pr dictives La plupart des g nes avaient une expression moyenne faible voire tr s faible Cependant l ACP a montr que des liens existaient entre l expression des g nes et la race qui a t confirm par la pr diction par for t al atoire tr s solide montrant des g nes d terminants pour la race des cochons le plus significatif tant le g ne X3404 tr s exprim chez les cochons de race Large White et pas chez les autres Pr dire le ph notype mesur plus sp cialement par la largeur de la carcasse est bien plus d licat ce ph notype tant fortement influenc par la race et tr s peu par les expressions des g nes d autant plus qu il peut tr s fortement varier 44 notamment selon les conditions environnementales Cependant les for ts al atoires bien que donnant des pr dictions tr s peu solides ont permis de relever quelques
160. s deux en relation avec le poids et mesur es sur le m me chantillon pour tre plus pr cis lgr carc r est calcul e partir de lgr carc par une normalisation effectu e l aide d un chantillon plus grand d animaux et qui avait pour but de corriger les effets de bandes et autres effets environnementaux Le test de Pearson permet de tester l hypoth se HO Cor lgr car r lgr car 0 o Cor d signe le coefficient de corr lation lin aire La p value obtenue est gale 2 2x10 6 et on conclut donc qu il existe une corr lation significative entre les deux mesures de ph notype D ailleurs le coefficient de corr lation lin aire entre les deux variables a une valeur gale 0 779 qui est effectivement le signe d une corr lation assez forte m me si celles ci contiennent des informations l g rement diff rentes Voici ci dessous le nuage de points de ces deux mesures illustrant cette conclusion 12 sa F 7 HE amp 4 BO F w A i i F c v ot Q2 o t 4 E t E gp phi d z ii t E O au Te pfa Fai o h z 5 EE i a eT 950 1000 1050 1100 Ph notype Figure 8 Nuage de points des deux mesures du ph notype Ce nuage est en forme de fuseau et pr sente un bon ajustement lin aire m me si celui ci n est pas parfait Pour les prochaines analyses on consid rera les deux mesures
161. s from data creates a comparative plot for both conditions unique common edges are respectively red blue using the provided layout file and writes some basic graph information to the console some on the plot Finally it exports both graphs as png 83 Nicolas Edwards Programmes r alis s files in dir displaygraphs big dataset method png and displaygraphs dataset method png respectively 1400x1000 pixels and 700x500 pixels xx examples show graph Results data nv Independent nvi glasso mbor show graph Results data nv Independent nv2 glasso mbor layout condi simone mbor bic vshape c rep square 23 rep circle 16 col c rep pink 23 rep lightgreen 16 show labels T kArguments bracketed arguments are optional dir the directory where data is located relative to current R lib folder Results data nv Independent dataset lt nv2 typical values IAA Saye method the approach whose graphs we want to display simone friedman bic glasso mbor simone mband bic simone mbor bic genenet mode condition unused layout the layout file to be used condi simone mbor bic condi glasso mbor show labels boolean defaults to FALSE whether to show the names they have to be in the graph object as a vertex attribute and called name to be displayed of the vertices on the graph
162. s seront repr sent es Voici tout d abord l boulis des valeurs propres de cette ACP et le tableau des valeurs propres et de l inertie pour les 20 premiers axes boulis des valeurs propres 200 250 J Valeurs propres 150 Axes Figure 14 Eboulis des valeurs propres dans l ACP de l expression des g nes 20 21 Axe Valeur propre Inertie Inertie cumul e 1 279 77 26 53 26 53 2 89 09 8 45 34 98 3 63 65 6 04 41 02 4 42 97 4 08 45 1 5 38 04 3 61 48 7 6 31 78 3 01 51 72 7 26 44 2 51 54 23 8 24 03 2 28 56 5 9 21 06 2 58 5 10 19 4 1 84 60 34 11 19 03 1 8 62 15 12 16 54 1 57 63 71 13 15 51 1 47 65 19 14 13 87 1 32 66 5 15 13 39 1 27 67 77 16 11 6 1 1 68 87 17 10 15 0 96 69 83 18 9 61 0 91 70 75 19 9 4 0 89 71 64 20 9 22 0 87 72 51 Repr sentation des individus Repr sentation des individus diff renci s selon leur bande diff renci s selon leur bande sur les axes 1 et 2 de l ACP sur les axes 3 et 4 de l ACP g a J r ae o h PF nE 9 tie 5 att y o re A tit E E s 4 Pad 4 6 oa am t t Ne at Hist eet 2a Q jat gok vi d L rag h g a EE O D EE a 20 0 20 40 10 o 10 20 Dim 1 Dim 3 Repr sentation des individus Repr sentation des individus diff renci s selon leur bande diff renci s selon leur bande
163. save the generated graphs n vector length 2 with the number of observations in a given task d number of genes 68 Nicolas Edwards Programmes r alis s p proportion of edges in the network add e proportion of permuted edges from mother network outputs list having length number with tgl tg2 being the true networks and condi cond2 being the simulated data saved in corresponding directory HHEHHHHHHH Function HHHHHHHHHEH generate a random network lt function n d p add e pi lt matrix p 2 ncol 5 nrow 5 diag pi lt p 1 5 alpha lt rep 1 5 5 mother graph lt rNetwork d pi alpha nb edges lt sum mother graph A 0 true graphi lt coNetwork mother graph round add e nb edges true graph2 lt coNetwork mother graph round add e nb edges condi lt rTranscriptData n 1 true graphi names cond1i lt 1 p cond2 lt rTranscriptData n 2 true graph2 names cond2 lt 1 p true graphi lt graph adjacency true graphi A mode undirected V true graphi name lt 1 4 true graph2 lt graph adjacency true graph2 A mode undirected V true graph2 name lt 1 4 list tgl true graphi tg2 true graph2 condi cond1 1 cond2 cond2 1 Test 111 res generate a random network c 51 33 464 0 15 0 1 summary res tg1 graph density res tg1 summary res tg2 summary graph intersection res tgi1 res tg2 HHHHH HWY Test nv1 res gen
164. se create T F matrix 48 Nicolas Edwards Programmes r alis s simone edges lt simoneadj 0 diag simone edges lt FALSE graph lt graph adjacency simone edges mode undirected print basic info print cat removed the graph name because of a crash when sources with parallel export_simone indep R Graph generated using method approach n Vertices length V graph n Edges length E graph n Density graph density graph n Transitivity transitivity graph n Connectivity is connected graph n sep output graph graph Le fichier run simone indep R applique la fonction creategraph simone aux divers jeux de donn es pour inf rer des graphes Un extrait de ce fichier est pr sent ci dessous library igraph library simone source export_graph simone indep bic R 111 dataset 111 MB OR min pen 0 15 source import_1li r graphi lt creategraph simone condi mbor 0 15 V graphi nomi lt genes names V1 V graphi nom2 lt genes names V2 V graphi nom3 lt genes names V3 graph density graphi write graph graphi file Results data 11 Independent graph 111 condi simone mbor bic graphml format graphml write table get edgelist graphi file Results data 11 Independent edgelist 1lli condi simone mbor bic txt row names F col names F Inf rence de r seaux joints par GeneNet Dans la f
165. sion est influenc e par la race et aussi les g nes influant sur la taille des carcasses des b tes Une analyse exploratoire sera tout d abord n cessaire afin de conna tre le comportement global des donn es par des analyses univari es et bivari es ainsi qu une analyse en composantes principales des donn es d expression Par la suite le principal travail consistera en la s lection des 1 Agence Nationale de la Recherche http Awww agence nationale recherche fr 3 g nes diff rentiellement exprim s selon la race et les ph notypes d int r t par le biais de m thodes telles les ANOVA ou les for ts al atoires L analyse exploratoire consistera dans un premier temps en une analyse rapide des expressions des g nes avant d analyser par des m thodes uni et bivari es les facteurs race et bande puis les deux mesures du ph notype d int r t Dans une deuxi me temps une analyse multivari e sera r alis e partir de toutes les expressions g nes Par la suite par le biais de for ts al atoires et apr s une br ve pr sentation de cette m thode seront effectu s des pr dictions de la race puis du ph notype expliqu par les expressions des g nes dans le but d en relever les g nes importants Etude exploratoire 1 tude des expressions de g nes L objet de I tude est principalement les expressions des g nes qu il convient donc d tudier par des m thodes de statistique descriptive
166. st pair by maximum BIC done by simone and since we haven t been able to check the way simone does this we are henceforth assuming that it works tm Home UME DU SR ee ee roro Se eae eS sr It then exports both graph s basic info to the console and writes 5 files per graph 10 total Per condition dataset method 1 edgelist file and 1 graphml file Per dataset method 1 RData file containing graphi and graph2 R objects 52 Nicolas Edwards Programmes r alis s Example calls see function calls after the function creategraph simone joined lt function dataset method min pen NULL cor F max edges NULL merging the two conditions res lt fusion dataset for dealing with NA res cond1i2 is na res cond12 lt min res cond1i2 na rm T build network if length min pen 0 min pen is not set if length max edges 0 both min pen and max edges are not set simonesays lt simone res cond12 tasks res tasks control setOptions edges coupling method lse min pen is not set max edges is set simonesays lt simone res cond12 tasks res tasks control setOptions edges coupling method edges max max edges else min pen is set if length max edges 0 min pen is set max edges is not set simonesays lt simone res cond12 tasks res tasks control setOptions edges coupling method penalty min min pen else both max edges and min pen a
167. stobal ma tutrice de stage 24 4 Outils et methodes 4 1 Git Dans l objectif de fournir un suivi de meilleure qualit des volutions de mes travaux j ai t amen utiliser un logiciel de contr le de versions nomm Git Il a t d velopp par Linus Torvalds en 2005 pour permettre le d veloppement collaboratif du noyau Linux Utilis dans un r pertoire il permet une gestion fine des versions de fichiers en sau vegardant toutes leurs modifications et offre la possibilit de synchroniser le r pertoire entre plusieurs ordinateurs via un serveur Cela a eu pour effet de simplifier largement la correction et le suivi des scripts R produits lors de mon stage Voici un processus de travail git typique 1 Un utilisateur modifie un fichier existant qui se situe dans le r pertoire git 2 Il crit ses modifications au git en tapant git commit nom du fichier dans son invite de commande 3 Il envoie ses modifications au serveur git avec git push 4 Tous les autres utilisateurs qui ont droit d acc s au serveur git peuvent r cup rer ces modifications l aide d un git pull Le logiciel Git propose galement une interface graphique nomm e gitk pour visualiser simplement les versions successives des diff rents fichiers pr sent e en figure 4 1 Chaque ligne dans les deux sous fen tres en haut de la capture d cran est une date de commit c est dire le moment ou l auteur a voulu en
168. sults simulations simu nv2 genenet indep RData Comparaison de r seaux obtenus par simulation de donn es Il s agit de comparer les r seaux obtenus par inf rence des donn es simul es aux lt vrai gt graphe utilis pour g n rer ces donn es C est le but de la fonction compare methods simul2true du fichier compare_methods_simul2true R Cette fonc tion calcule pour chacun des 100 graphes simul s par jeu de donn es et chaque m thode 71 Nicolas Edwards Programmes r alis s de la liste pass e en param tre la diff rence pr cise en nombre d ar tes entre les graphes inf r s par la m thode consid r e et le lt vrai gt graphe duquel les donn es sont issues sont calcul s le nombre de vrais positifs de vrai n gatifs de faux n gatifs et de faux positifs deux indicateurs de performance la pr cision et le recall obtenus partir des 4 premi res valeurs et finalement le nombre d ar tes communes aux deux conditions dans les vrais gt graphes et dans les graphes inf r s L ensemble de ces informations est crite dans un fichier au format csv Cette fonction dite galement le nuage de points pr cision recall qui permet de comparer de les performances des diverses m thodes sur un type de graphe donn avec une couleur pour chaque m thode pass e en argument This file is made to compare different graph inference methods It is method agnostic and only requires igraph
169. synth se des prot ines L ARNm emploie la base U Uracile contre la base T dans l ADN La figure 3 2 sch matise les tapes amenant a la cr ation d une prot ine a partir d un morceau de brin d ADN g ne Prot i ines FIGURE 3 2 Sch matisation de la fabrication d une prot ine partir de l ADN Le processus de fabrication d une prot ine est compos de deux tapes la transcription de la s quence d ADN du g ne en un ARNm puis la traduction de ARNm en prot ine Le transcriptome repr sente tous les transcrits c est dire les ARNm exprim s un moment donn par le g nome dans une cellule un tissu et un individu donn s Le prot ome est l ensemble des prot ines g n r es dans ces m mes conditions a partir des ARNm Dans notre tude nous resterons au stade du transcriptome et par cons quent l tude de la quantit d ARNm produite L expression d un g ne est mesur e par la mesure quantitative de ses transcrits Biopuces L expression des g nes est la mesure de la quantit d ARNm produit par un g ne donn pr sent dans un tissu s lectionn un moment donn L expression des g nes se mesure par biopuces aussi appell es lt microarray gt en anglais ce sont des membranes en nylon de 2 5 x 7 5 cm Une photo d un fragment de biopuce peut tre visualis dans la figure 3 3 Les diverses tapes de la fabrication d une biopuce sont sch matis es dans la figure 3
170. t 1 seq 1 1 length 1000 2 arrows 0 0 xPCASvarScor sel34 3 xPCASvarScor se134 4 length 0 05 51 text xPCASvarScor sel34 3 xPCASvarScor sel34 4 colnames x se134 cex 0 7 col sienna Axes 5 et 6 s lection axes56 costot lt xPCASvar cos2 5 xPCASvar cos2 6 order costot 56 lt order axes56 costot decreasing T sel56 lt order costot 56 1 20 repr sentation plot seq 1 1 l1length 1000 sqrt 1 seq 1 1 1ength 1000 2 type l ylim c 1 1 xlab Axe 5 ylab Axe 6 main Repr sentation des 20 variables n les mieux reconstitu es n sur les axes 5 et 6 lines seq 1 1 Llength 1000 sqrt 1 seq 1 1 length 1000 2 arrows 0 0 xPCASvarScor sel56 5 xPCASvarScor sel156 6 length 0 05 text xPCASvarScor sel56 5 xPCASvarScor sel56 6 colnames x sel56 cex 0 7 col sienna Axes 7 et 8 s lection axes78 costot lt xPCASvarScos2 7 xPCASvarScos2 8 order costot 78 lt order axes78 costot decreasing T sel78 lt order costot 78 1 20 repr sentation plot seq 1 1 length 1000 sqrt 1 seq 1 1 length 1000 2 type 1 ylim c 1 1 xlab Axe 7 ylab Axe 8 main Repr sentation des 20 variables n les mieux reconstitu es n sur les axes 7 et 8 lines seq 1 1 Llength 1000 sqrt 1l seq 1 1 length 1000 2 arrows 0 0 xPCASvarScor sel78 7 xPCASvarScor sel178 8 length 0 05 text xPCASvarScor sel78 7 xPCASvarScor sel78 8 colnames x
171. t le R le plus grand de 0 03 Il a t construit avec 5000 arbres 100 variables par division d arbres et 50 individus dans les chantillons bootstrap Cependant le R bien que meilleur que pour les autres for ts al atoires reste tr s faible et la pr diction sera tr s mauvaise donc les g nes rep r s comme importants peu fiables Faire des for ts al atoires en r unissant comme pour la pr diction de la race les deux races LW n a pas donn de r sultats plus satisfaisant Nous nous en tiendrons donc celle ci Voici ci dessous l volution de l erreur Out Of Bag en fonction du nombre d arbres pour cette for t al atoire 39 Evolution de l erreur OOB MSE en fonction du nombre d arbres OOB MSE 900 1000 1100 1200 1300 1400 800 0 1000 2000 3000 4000 5000 Nombre d arbres Figure 28 volution de l erreur Out Of Bag en fonction du nombre d arbres Ici l erreur s est stabilis e partir d un milliers d arbres Voici en Figure 29 le nuage de points des valeurs pr dites et observ es 40 Valeurs pr dites vs valeurs r elles te Fa ge j g o Fe L a3 J j T g j a F E un F 2 f 5 A ai et pit x g p p O f m DE Tr F gt wo T i ag PE A tt Oe Ha as T o i f f Ek F a gt E EF N 60 40 20 0 20 40 60 Lonqueur de carcasse Fig
172. t m thodes Inf rence de graphe Une fois que le jeu de donn es est import il faut inf rer des graphes partir de ceux ci ce qui est fait a l aide de fonctions Dans les m thodes ind pendantes il faut importer les donn es en ex cutant le fichier d importation correspondant dans les m thodes jointes on fournit le nom du jeu de donn es directement et la fonction s oc cupe d un pr traitement sp cifique aux m thodes jointes Pour faciliter le r f rencement des fichiers d inf rence leurs noms ob issent a la convention de nommage suivante export _graph m thode type d inf rence crit re de s lection r Certaines m thodes proposent un crit re de s lection d autres pas Des noms typiques de m thodes sont lt simone gt lt x genenet gt les noms de type d inf rences sont lt indep gt et lt joined gt le nom du crit re de s lection est bic gt Toutes les m thodes d inf rence crivent des fichiers dans un r pertoire fixe lt Re sults Independent gt ou lt Results Joined gt selon le type d inf rence Le d tail des fichiers crits est pr sent ci dessous e 1 fichier au format RData qui contient deux objets igraph un par condition nomm s lt graphl gt et lt graph2 gt respectivement Leur nom se pr sente de la mani re suivante graph dataset cond12 m thode options RData o m thode et option d signe
173. t pour chaque bande lgr carc r 17 Bande 70602 70604 70606 70608 70610 80604 80606 80610 Valeur de la statistique de test 0 7246 0 9379 0 9671 0 9616 0 9782 0 892 0 9215 0 4049 Valeur de la p value 0 006834 0 4304 0 8781 0 4017 0 9301 0 3291 0 4049 0 8617 La normalit n est pas v rifi e pour la bande 70602 Ainsi on ne peut pas continuer l ANOVA sans risque de biaiser ce test Cependant une visualisation graphique pr sentant les bo tes moustaches de ce ph notype selon les races permet d avoir une id e de l influence de la race sur ce ph notype d int r t Bo tes moustache d un autre ph notype en relation avec le poids de la carcasse selon la bande I 60 DATE 40 20 0 20 _ Phenotype en relation avec le poids s 40 70602 70604 70606 70608 70610 80604 80606 80610 Bande Figure 12 Distributions d une autre mesure du ph notype selon la race L effet de la bande semble tre encore moindre sur cette mesure du ph notype Mais comme vu pr c demment cette visualisation peut tre trompeuse et l on ne peut pas conclure pr cis ment du fait de la distribution non normale de la bande 70602 4 Analyse multivari e des expressions La variabilit de l expression des g nes contient une information importante les g nes dont l expression est peu variable d un individu l autre pourraient tre des g nes de fonctionnement commun l ensemble de l esp
174. te graph graphi file Results data 1l Independent graph 111 condi genenet graphml format graphml write table get edgelist graphi file Results data 11 Independent edgelist 1lli condi genenet txt row names F col names F Inf rence de r seaux ind pendants par simone La fonction creategraph simone contenue dans le fichier export_graph simone indep bic permet d inf rer un r seau l aide d une m thode choisie et pass e comme argument parmi plusieurs propos es l approche de Meinshausen and B hlmann 2006 strat gie AND lap proche de Meinshausen and B hlmann 2006 strat gie OR ou l approche de Friedman et al 2008 Le package simone inf re une succession de r seaux en diminuant pas pas le param tre de p nalisation ce qui a pour effet d augmenter progressivement le nombre d ar tes On obtient par ce biais une succession de r seaux nombre d ar tes croissant Il existe diff rents crit res de choix dans simone dans ce script le BIC peut tre utilis pour choisir le r seau optimum c est d ailleurs l option par d faut La s lection peut aussi se faire en fixant le nombre maximum d ar tes ou la valeur minimale de avant l ex cution auquel cas l inf rence s arr te quand la valeur sp cifi e est d pass e On peut aussi choisir de garder la valeur de la corr lation partielle pour chaque ar te inf r e cette derni re option permettra lors de la v
175. th Process Imports a layoutfile generated by fr jar for further documentation Java lib README named with the following scheme layout ME dataset Scondl method txt Loads both graph files Gets edgelists TODO talk about create _layout R TODO talk about what happens when the partial correlations are kept if the weight attribute is set it will use line widths to represent the s Creates a color vector which edges are Shared unique 61 Nicolas Edwards Programmes r alis s plots the 2 adjacent graph representations using the layout file and whose edges are colored with said color vector with basic graph information written underneath Output to console number of edges condi cond2 number of Shared edges to plot device plot described above to file 2 PNG files with the plot described above displaygraphs big dataset method png and displaygraphs dataset method png Sizes standard 700x500 pixels big 1400x1000 pixels SS SS S532 show graph lt function dir dataset method mode condition layout condi glasso mbor show labels F vshape circle col orange appart leg F dir lt Results data nv Independent dataset lt nv2 method lt simone friedman bic wpcor mode condition layout condi simone mbor bic vshape c rep square 23 rep circle 16
176. thod in text 1 1 paste Density round graph density graphi 3 n Transitivity graphi 3 n Shared edges round transitivity length E graph intersection graphi graph2 round length E graph intersection graphi graph2 length E graphi 100 1 sep cex 0 9 if show labels T plot graph2 layout layoutmatrixi vertex size 10 vertex frame color col color coil label V graph2 name vertex shape vshape edge width 1 vertex vertex 65 Nicolas Edwards Programmes r alis s main paste Visualization of dataset s genes using n method n method in condition 2 sep edge color col edges g2 else plot graph2 layout layoutmatrixi vertex size 2 vertex frame color col vertex label NA edge width 1 main paste Visualization of dataset s genes using n method n method in condition 2 sep edge color col edges g2 text 1 1 paste Density round graph density graph2 3 n Transitivity round transitivity graph2 3 n Shared edges length E graph intersection graphi graph2 round length E graph intersection graphi graph2 length E graph2 100 1 sep cex 0 9 dev print device png file paste dir displaygraphs big dataset method png sep width 1400 height 1000 dev print device png file paste dir displaygraphs dataset
177. tion parallel inference qui l aide du package doMC et de la fonction foreach parall lise des appels aux fonctions d inf rence de graphes d crites pr c demment et permet de r cup rer la liste des 100 graphes inf r s Ces programmes ont t ex cut s en des temps raisonnables sur un serveur de calcul 32 coeurs Un exemple de fichier de parall lisation ici pour la m thode de Schafer and Strimmer 2005 en faisant appel a la fonction creategraph genenet est donn ci dessous library doMC registerDoMC library igraph library GeneNet source export_graph genenet indep R parallel inference lt function graphlist listl lt length graphlist all graphs lt foreach simu 1 listl combine c dopar e lt c list eC ase g 1 graphi lt creategraph genenet graphlist simu cond1 g 1 graph2 lt creategraph genenet graphlist simu cond2 g 1 number lt simu 8 all graphs t E Function callifor Mi source import_simu 1l1 r all graphs lt parallel inference simus save all graphs file Results simulations simu 11i genenet indep RData Function call for nvi source import_simu nvi r all graphs lt parallel inference simus save all graphs file Results simulations simu nvi genenet indep RData Function call for nv2 source import_simu nv2 r all graphs lt parallel inference simus save all graphs file Re
178. ts two graphs tgi and tg2 and two datasets condi and cond2 preprocess_export_graph simone joined r This script can be used for preprocessing of data prior to joined simone runs It concatenates while keeping both conditions and creates a vector called tasks that allows us to be able to still distinguish both conditions argument dataset 111 112 nvi nv2 parallel export_simone joined R This script does some preprocessing to input simulation data like preprocess_export_graph simone joined r but for each simulation run then calls simone with a specified joined approach intertwined grouplasso cooplasso with a specified minimal penalty value 82 Nicolas Edwards Programmes r alis s parallel export_simone indep R This script sources export_graph simone indep bic R and parallelizes the function said function is better described in the sourced script s readme The name of the RData file containing required R objects must be a list of simus containing each cond1 and cond2 must be specified before each function call as must the name of each exported RData files containing all graphs a list as long as simus each occurrence containing graphi and graph2 after the function call parallel export_glasso indep R This script sources export_graph glasso indep bic R and parallelizes the function said function is better described in the sourced script s readme The
179. ttent de les tudier pleinement C est le cas de la recherche sur le transcriptome c est dire l expression du g nome Il conditionne la production de prot ines donc le ph notype de l individu Dans ce rapport on s int resse la valeur de l expression d une multitude de g nes autrement dit la quantit d ARNm que chacun produit un instant donn dans une cellule donn e en mod lisant len semble des corr lations entre ces g nes par des r seaux de co expression g nique Dans ce contexte j ai t amen crire des scripts pour construire et analyser de tels objets avec diverses m thodologies correspondant des mod les statistiques diff rents Dans la suite de ce rapport je pr senterai dans un premier temps ma structure d accueil dans la section II Ensuite je d crirai les donn es que l on m a confi es et la probl matique de mon stage dans la section 3 avant d aborder les outils et m thodes utilis s pour ce travail dans la section 4 Enfin j exposerai les r sultats d un point de vue statistique ainsi que les conclusions biologiques qui en ont t tir es dans la section 5 Deuxieme partie Description de l entreprise d accueil 1 LINRA L INRA est un Etablissement Public caract re Scientifique et Technologique EPST au m me titre que le CNRS ou que l INSERM essentiellement financ par des fonds publics il rend compte de son activit et de sa gestion ses min
180. univari es de base pour les deux variables de longueur de carcasse summary y lgr carc summary y lgr carc r skewness y lgr carc skewness y lgr carc r kurtosis y lgr carc kurtosis y lgr carc r Histogrammes des deux ph notypes 47 hist y lgr carc main Histogramme repr sentant une mesure de ph notype n en relation avec la longueur des carcasses ylab Effectif xlab Mesure d un ph notype en relation avec le poids hist y lgr carc r main Histogramme repr sentant la mesure d un autre ph notype n en relation la longueur des carcasses ylab Effectif xlab Mesure d un ph notype en relation avec le poids corr lation entre les deux ph notypes cor y notDchnSlgr carc y notDchn lgr carc r cor test y notDchnS lgr carc y notDchnS lgr carc r repr sentation graphique de la corr lation entre les deux ph notypes plot y notDchn lgr carc y notDchn lgr carc r pch xlab Ph notype ylab Autre ph notype Corr lation avec la race ANOVA de la longueur de carcasse en fonction de la race Test de normalit de la distribution de la longueur de carcasse dans chacune des races Shapiro Wilk tapply y notDchn lgr carc y notDchnSrace shapiro test Test d galit des variances des longueurs de carcasse des chacunes des races Bartlett bartlett test y notDchn lgr carc y notDchnS race ANOVA Test d galit des longueurs de carcasse moyenn ntre les races
181. uours x soTfotyred SUOIJRT9II109 ounone puequt dopur ououis x eunone eunone puequ dopur ouowuis x x x x eunone CTO opw ayyeued puequ dopur ououwuis x soTfetyred SUOIJRTO1109 GT 0 opw ayyeued Joqut daput esuoutts x soTfotyred suore aunone Joqut daput suoutts x x ounone GO 0 TRUIIXEU 9JISU9P Joqut dopur ououuis x eunone eunone Joqut daeput suoutts xX xX x eunone GT 0 opw ayyeued Ioqut dopur ououis x x eunone eunone eunone poulof jououss x X x X x eunone eunone eunone dopur jououss x x x x aunone aunone eunone osse 3 GAU AU GAU ZAU JAU JAU ZIT II TH sesnpoursuornmeurojureyeyy uoresteusd apoyjour snos apoyyeul DOAN MN 0 ON D OO MN M 19 D OO mi ON DWH dd e M TTT NANNNANNNAN NN MN M M M M OD mt NN OD 10 D 00 Nicolas Edwards R sultats 5 2 2 R sum des r sultats Toutes les inf rences n ont pas abouti 4 des r sultats convenables r seaux trop peu denses ou beaucoup trop denses r seaux qui semblaient peu int ressants pour l analyse avec une faible transitivit Les principales conclusions qui ont pu tre tir es de ces r sultats sont 1 Les jeux de donn es haute dimension lorsque le nombre d individus est petit compar au nombre de variables ne donnent pas de r seaux exploitables Ce r sultat avait t montr dans le cadre du GGM dans Verzelen 2012 2 Globalement les r seaux inf r s dans les deux conditions deux races deux sexes avant apr s r gi
182. ure 29 Nuage de point pour les valeurs pr dites et les valeurs observ es On remarque que le nuage de points ne semble suivre aucune tendance particuli re Le mod le semble donc effectivement assez mauvais au niveau de la pr diction Ceci semble traduire le fait que les ph nom nes biologiques influant sur la taille de la carcasse sont sans doute li s en majeure partie autre chose que le g nome comme la race ou peut tre les facteurs environnementaux Les g nes les plus importants ont tout de m me t relev s Voici les 14 premiers g nes les plus importants selon les crit res de la pr cision et le crit re de Gini ainsi que la repr sentation graphique de cette importance Nom du g ne Accuracy Gini X19892 2 46 115 X27016 1 52 65 05 X27224 1 47 61 52 X41791 0 98 68 11 X32751 0 83 53 38 X21749 0 81 62 1 X44990 0 81 46 48 X17513 0 78 48 71 X26483 0 77 50 31 X35018 0 75 57 13 X42065 0 74 71 42 41 100 J oO _ Nw Ere wn se er 5 2 E D 5 FE S 5 a 2 E E g4 Ts oO 52 ai O J o genes genes Ici encore quelques g nes sont tr s importants du point de vue des deux crit res et cette importance diminue vite pour les autres g nes mais ce ph nom ne tait bien plus marqu lors de la pr diction de la race On recherche ici des g nes plus exprim s selon la valeur de la mesure du ph notype Cela va se faire gr ce l utilisation d une Heatmap de la classification des g nes
183. vec le poids Figure 6 Distribution de la longueur de carcasse lgr carc Cette mesure du ph notype montre des r sultats variants entre 950 et 1100 plut t sym trique et un pic entre 980 et 1000 Le Tableau 9 donne quelques mesures de statistique descriptive pour l autre mesure du ph notype d int r t igr carc r dont la distribution est repr sent e en Figure 7 11 Minimum 1 Quart M diane Moyenne 3 Quart Maximum Skewness Kurtosis 60 510 19 980 1 738 1 582 22 860 72 410 0 130 0 554 Tableau 9 Statistiques l mentaires sur la longueur de la carcasse lgr carc r Histogramme repr sentant la mesure d un autre ph notype en relation avec poids des carcasses 20 Effectif 13 1 5 l 50 0 50 Mesure d un phenotype en relation avecle poids Figure 7 Distribution de la longueur de carcasse lgr carc r Cette mesure du ph notype montre des r sultats variants entre 60 510 et 72 410 avec une distribution relativement sym trique et un pic entre 20 et 0 et un autre moins marqu entre 20 et 40 Ces deux mesures du ph notype montrent des diff rences surtout au niveau des ordres de grandeurs Mais peut on consid rer que l une d pend directement de l autre et que a n est qu une mesure normalis e Pour cela consid rons un test de corr lation lin aire entre ces deux mesures de ph notypes Il est attendu que ces deux mesures soient corr l es elles sont en effet toute
184. write csv stats compare file paste dir out stats compare dataset condi2inter csv sep print xtable stats compare c 1 3 5 La comparaison des jeux de donn es se fait dans un fichier externe run comparisons R qui lt source gt les deux fonctions ex cute les deux fichiers ci dessous et rend leurs fonctions respectives directement utilisables Dans ce fichier sont faits tous les appels n cessaires aux comparaison des m thodes Un extrait est pr sent ci dessous library igraph Compare conditions source compare_conditions R compare conditions Results data 11 111 c glasso mbor Independent simone mband bic Independent simone mband bic d5 wpcor Independent simone mbor bic Independent simone friedman bic Independent simone friedman bic d5 wpcor Independent genenet Independent simone cooplasso bic Joined simone grouplasso bic Joined simone intertwined bic Joined simone intertwined bic d5 wpcor Joined A Compare methods source compare _methods R create the two csv files compare graphs Results data 11 111 1 c glasso mbor Independent simone mband bic Independent simone mbor bic Independent simone friedman bic Independent genenet Independent simone cooplasso bic Joined simone 60 Nicolas Edwards Programmes r alis s grouplasso bic Joined simone intertwined bic Joined
185. x lhttp r2012 bordeaux inria fr Abstract This 10 week work placement took place at the Toulouse section of the INRA between April 2nd and June 8th 2012 the INRA is a public institute that does research on themes related to agronomy More specifically I was at the Laboratoire de G n tique Cellulaire UMR0444 whose aim is to understand the genome of domesticated animals This study was done as part of two research projects DeLiSus whose goal is to understand pig transcriptome financed by the National Research Agency ANR and Diogenes fighting obesity financed by the European Union thus regular meetings and workgroups were scheduled during the internship The objective was to analyse multiple correlations between gene expression data through a network approach The work was done using R an open source statis tics program generic scripts and functions were written in such a way that they can be re used with similar data Several mathematical network inference approaches were compared on real and simulated data and the best graphs were validated by biologists to check that the information contained inside them was relevant In the end genes that play an important part in how adipose tissue works were extracted from the data reinforcing biological knowledge of this field A part of the results obtained during this placement are in an article submitted for pub lication in the scientific journal PL
186. x Villa Vialaneix et al 2012 Par ailleurs une partie du travail effectu sur les jeux de donn es lt nv4 gt et lt nv5 gt est int gr e un article actuellement en r vision pour publication dans la revue scientifique PLoS Genetics Viguerie et al 2012 5 1 Donn es simul es La figure 5 1 est Villustration d un r sultat de simulation pour chacun des 100 jeux de donn es simul es ressemblant aux donn es lt nv2 gt les points correspondant aux valeurs de pr cision et de recall de chacun des couples de 100 graphes ont t repr sent s pour cing m thodes de simulations diff rentes permettant ainsi la comparison des performances de ces cing m thodes pour ces donn es Sur cet exemple les r sultats des simulations indiquent des tendances claires tout d abord la pr cision ne d passe pas la valeur de 70 et pour une majorit crasante des simulations se situe en dessous de 60 ce qui indique que peine plus de la moiti des ar tes inf r es sont aussi dans le graphe initial Ensuite le recall atteint 100 dans une part non n gligeable des simulations mais ce qui est gagn en recall est en partie perdu en pr cision dans les cas o toutes les ar tes initiales sont pr dites on en pr dira en moyenne deux fois plus autrement dit la moiti de nos r sultats seront des faux positifs Au niveau de la comparaison entre m thodes plusieurs points sont remarquables e la m thode de Scha

Download Pdf Manuals

image

Related Search

Related Contents

Business Online Banking USER`S MANUAL  User manual - Fuzion Media Asset Manager  Kollisions- und Überlastsensor OPR 061-221  Samsung SFN-B35GHBL User Manual  Frigidaire 154428101 User's Manual  Samsung WB350F Felhasználói kézikönyv  Joint rotatif technologie métal/métal à faible couple Série MQR  Maintenance Manual  AX103S 鏡筒ユニット取扱説明書  

Copyright © All rights reserved.
Failed to retrieve file