Home

THESE DE DOCTORAT - Ana Maldonado Webpage

1. Tableau II 1 D tail des atomes inclus dans les cat gories d atomes g n riques de la figure II 2 35 La cat gorie d atomes m talliques M a t construite en prenant en compte les l ments fort caract re m tallique La cat gorie des atomes non m talliques Z dits lt importants gt a t d finie sur la base de leur fr quence d apparition report e dans la litt rature voir les travaux report s dans le chapitre II 1 2 2 Er12003 Stobaugh1988 Xu2000 Finalement on inclut l atome de Carbone dans la cat gorie R car traditionnellement les chaines R repr sentent des chaines aliphatiques Comme tout outil traitant des atomes et de l information chimique nous travaillons avec l information du num ro atomique des l ments Nous avons donc eu besoin d assigner des num ros atomiques fictifs aux atomes g n riques tableau II 2 Symbole Valeur 150 B Tous les l ments 148 A Carbone aromatique 146 Q Tous les l ments except H et A 144 M El ments m talliques 142 X El ments halog nes 140 Z El ments non m talliques 138 R Le reste des l ments 119 137 Num ros non assign s 1 118 Uuo El ments de la table p riodique actuelle Tableau 2 El ments et num ros atomiques correspondants L assignation de num ros atomiqu
2. i 0 8 D 0 6 o 0 4 Z 0 2 D La pA e 25 s EN pam rer d S Pos S239 0 E DO DD DD D 17 19 10 D O O OY O O O O O O O d i O OS O 5 S N S S S lt S S S S S 22 22 22 Q 22 22 02 22 22 02 22 22 22 22 22 22 22 22 22 Base Random100 Graphique du coefficient Simpson pour RandSel100 16 Vs Random100 O o x Base Random100 Index de similarit Graphique du coeffficient Cosinus pour RandSel100_16 Vs Random100 lt lt e a lt Base Random100 137 Graphique V 6 Graphique de mesures de similarit pour lt Random gt et RandSel100 29 mol Grafique de l index de Tanimoto pour RandSel100 29 Vs Random100 2 5 o Base Random100 Grafique du coefficient de Simpson pour RandSel100_ 29 Vs Random100 5 o D PEL d lt qv x db db q PP dt SIS PLP LH GH GO PGP GP IH GPL GS IHW SEP ef ef ef ZE ef EEE ee ee 9 29 eo SE LEITE UP JO OO OO 22 lt af 29 Af 4 af 29 Af Af Af lt af Af lt Base Random100 Grafique du coefficient de Cosinus pour RandSel100 29 Vs Random100 5 1 t 8 4 2 9 t 171117
3. 1 0 4 8 it ZEN te 6 Ze debe x F A 2 EU d j 0 0 i ws ki at L 40 25 30 40 20 10 10 20 0 Base Zinc Graphique V 28 Analyse de Similarit Diversit N N avec la base lt Zinc gt Indice de Simpson VALUE NAME4 NAME2 161 V 2 2 R sultats avec la base Random Pour l analyse N N avec les mol cules de la base Random nous avons obtenu au total 5929 mesures de similarit correspondant 77 combinaisons car Random est compos de 77 mol cules Les indices de Tanimoto et de Cosinus donnent les meilleurs r sultats en termes de s lectivit des requ tes Toutefois les proportions restent tr s in gales 140 et 279 mol cules respectivement pour une mesure de similarit gt 0 8 soit 2 36 et 4 71 de la base totale Index Mesures de Sim gt 0 5 Mesures de Sim gt 0 8 Mesures de Sim 0 5 Tanimoto 820 13 8396 140 2 36 3265 55 07 Cosinus 1617 27 27 279 4 71 2468 41 63 Simpson 2796 47 16 676 11 40 1289 21 74
4. ee re Aere Pieopericy gt lt ATTLIST Property name CDATA REQUIRED gt lt ATTLIST Property value CDATA REQUIRED gt Code II 8 DTD simplifi e pour l Index XML II 2 3 La structuration du QueryDB et du TestDB Dans cette section nous allons expliquer en d tail la mani re dont nous avons obtenu repr sent et structur les mol cules appartenant au QueryDB et au TestDB Nous montrerons galement les structures de donn es n cessaires pour l extraction et le traitement des composants II 2 3 1 Transformation des mol cules et cr ation du VecteurRepresentatif XML Dans la section 2 2 nous avons d taill les principes de construction et de structuration de la base de donn es FragDB Maintenant nous sommes concern s par la base de mol cules cibles QueryDB et les mol cules comparer ou test TestDB Ceci est illustr dans la figure II 18 Ces mol cules seront d finies et introduites dans l outil par l usager Toutefois il faut veiller ce que certaines conditions soient remplies e Tous les fichiers doivent tre en format MOL 60 e Les atomes C des sous structures aromatiques doivent avoir comme type de liaison 4 option par d faut quand on construit les mol cules avec des liaisons aromatiques en pointill s et non par alternance de doubles et simples liaisons e Les mol cules doivent tre bien d finies
5. MDL CNUQ5 071k mol CNUQ5 071s mol CNUQ5 071s mol CNUQ5 172ac mol AGCZ 014Z mol ANSC 000R mol ANSC 000R mol ANSC 000R mol ANSZ 000Z mol ANSC 000R mol ANSC 000R mol ANSC 000R mol CAmol Zinc zinc_1037 mol CAUQ6 054d mol CAUN6 153Qb mol ANSZ 000Z mo ANSZ 000Z mo ANSZ 000Z mol ANSZ 000Z mo ANSZ 000Z mol ANSC 000R mol ANSC 000R mo ANSZ 000Z mol ANSZ 000Z mo CAmol Zinc zinc_11 mol sl S Termin d Poste de travail 197 N A1 2 Tutoriel lt Quick Analysis gt Pour acc der au tutoriel avanc il faut aller au menu File puis choisir Quick Analysis La FENETRE Q1 montre l usager d un seul coup d il les types d analyses et de comparaisons disponibles dans l outil Sur la m me fen tre on peut choisir les mol cules analyser l aide du bouton EN Les m mes indications d j donn es pour les FENETRES W4 W4 1 et W4 2 s appliquent celle ci FENETRE QI Quick Analysis 3 x Welcome to MolDiA Quick Analysis Please selectthe kind of analysis the nature ofthe comparison and the molecules to be compared User Molecular Files Query Molecules gt Name Kind of Analysis Name Ja Structure C Custom 8 Structure Property Custom Test Molecules Compare Name i NN IN C NM C _ On peut aussi personnaliser les poids des structures et des
6. Tableau V 15 Nombre et de mol cules pour une analyse sur la base Zinc A l instar des r sultats montr s dans la section pr c dente les r sultats d une partie des matrices de similarit pour les trois indices tudi s Tanimoto Simpson et Cosinus sont montr s dans les tableaux V 16 V 18 On remarque que l augmentation du nombre de mesures part rapport l analyse N N avec la base Zinc am liore la visibilit de l ensemble des donn es Le nuage de mesures de similarit tous indices confondus pr sente une distribution assez h t rog ne dans l espace par rapport la base Zinc Ceci se traduit par une pauvre diversit expliqu e en partie dans l origine des donn es composant la base Random un ensemble de mol cules appartenant des groupes d isom res de formule fixe mais avec des constructions structurales variables La nature de la base Random compos e principalement par des groupes de petites mol cules regroup es par taille et nombre d atomes pourrait galement expliquer la pr sence des nombreux paliers observ s dans le graphique V 31 m me si ce comportement a d j t pr sent lors de l analyse des mol cules de la base Zinc 162 Tableau V 16 Analyse N N d une partie de la base Random Indice de Tanimoto p EX ery RS100 m RS100 RS100 m e O0 RSIO0 RSIOO R v EX 13 15 16 19 2 m en RandSel100_10 0 00 Randseli00 100 033 Ra
7. xml sStylesheet type text xsl MolDiA Sim Div Indices href MolDiA xsl lt MolDiA version 2 0 laboratory ITODYS Universit Denis Diderot date 31 03 2006 19 33 gt Query fileName RandSell100 51 mol MolDiA version 2 0 Laboratory ITODYS Universit Denis Diderot lt Results gt Test fileName RandSell100 1 mol Date 31 03 2006 19 33 Molecule atom 9 gt Index Tanimoto 0 125000 Simpson 0 250000 Cosinus 0 223607 gt Query mol RandSel100 RandSel100 51 mol Test Test fileName RandSell100 10 mol Filename Molecule Nb Atoms Tanimoto Simpson Molecule atom 9 Index Tanimoto 0 250000 Simpson 0 500000 Cosinus 0 408248 Test mol RandSel100 RandSel100_1 mol 0 125000 10 25000010 223607 lt Results gt lt Query gt MolDiA Termin LEID Fichier Edition Affichage Favoris Outils 2 precedente x 2 JI Rechercher Pe ravers 0 2 25 wi xl Rechercher 49 131513 bloqu e s Orthographe Fj Options 29 Adresse amp c oDiav2 1yesuits alindices xmi Query Molecules inc zinc_1146 mol Test Molecules zinc 10 mol 25 1 000000 0 142857 0 000000 0 500000 1 000000 0 166667
8. Graphique de l index de Tanimoto pour KA 3 2 EN o EN px 24 9 A Lo KA e 2 2 d 2 27 La Y LY lt Y lt 7 lt 32 Y i Ys 5 p 2 2 L 9 GG Y 3 o Z d sb S DT 72 Lo lt Y c v 2 v c 2 2 5 28 6 DON 4 6 7 o c 2527 M e E IN 4 2 9 9 E 9 D c N o D eO O o 4 s 2 G oy 5 9 CN a p H m 8 c m 8 om KA ot 8 423 8 2 KA 9 5 A 9 o Ry s o C o 9 E 2 9 gt lt gt 2 4 lt On 2 lt lt d de N 12 9 o N Ki 5 N N 9 5 e O D S e R gt S 9 9 5 5 v 9 5 5 lt 2 G D lt gt G 4 c G 6 gt GN DES A 5 Q 5 KA S lt d 2 P 22 A Sox oorno 14 o oi e Y c GG o lt SS Kei Y 27 SS 9 Ki K es sepu ep xepu Base Zinc 129 Graphique V 2 Graphique de mesures de similarit pour la base Zinc et la cible Query2Z2 mol Tableau V 3 R sultats avec cible Query1Z3 mol 0 mol
9. xepu Base Zinc 131 Graphique V 4 Graphique de mesures de similarit pour la base Zinc et la cible Query3Z mol Graphique de l index de Tanimoto pour QueryGen Vs la Base Zinc x pul Base Zinc Graphique du coefficient Simpson pour QueryGen Vs la Base Zinc 1 0 8 0 6 0 4 ep x pul Base Zinc Graphique du coefficient Cosine pour QueryGen Vs la Base Zinc ep x pul Base Zinc 132 zinc 18 mol Cl H H ie H H zinc 28 mol zinc 38 mol Ho H zinc 48 mol zinc 1527 mol Figure V 1 Quelques mol cules de la base Zinc appartenant au top 10 des tableaux V 1 V 4 133 Les r sultats g n raux de l analyse montrent que pour 100 des mol cules les recherches exactes que MolDiA effectue sont correctes Par contre seul l index de Tanimoto ne produit pas de fausses valeurs unit On observe galement que le calcul de la similarit est diff rent en utilisant les indices Cosinus ou Simpson Ceci est montr par le nombre de mol cules dont la mesure de similarit est sup rieure ou gale 0 8 trouv es par chaque index voir tableau ci dessous L index de Simpson donne lieu trois valeurs unit s fausses faux homomorphismes pour les mol cules Query1Z3 et Query3Z C
10. 191 Ham 5a Dass lal Query272 mol 915 09 07 2006 1 Query1Z3 mol 1779 09 07 2006 1 Query2Z2 mol 915 09 07 2006 1 QueryGen mol 830 09 07 2006 1 pl zinc_10 mol 2264 09 07 2006 1 zinc_1036 mol 4174 09 07 2006 1 zinc_1037 mol 3794 09 07 2006 1 zinc_11 mol 3794 09 07 2006 1 zinc_1145 mol 2859 09 07 2006 1 Test Molecules zinc_1146 mol 2774 09 07 2006 1 zinc_1152 mol 2414 09 07 2006 1 zinc_1326 mol 2584 09 07 2006 1 zinc_1145 mal 09 07 2006 1 zinc_1385 mol 2244 09 07 2006 1 zinc_1146 mol 2774 03 07 2006 1 zinc 1514 mol 3533 09 07 2006 1 zinc 1152 mol 2414 03 07 2006 1 zinc 1527 mol 3794 09 07 2006 1 zinc_1326 mol 2584 09 07 2006 1 zinc_1531 mol 2499 zinc_1385 mol 2244 09 07 2006 1 zinc 17 mal 3029 zinc 1514 mnl 3539 19 17 2008 1 b Quit Si l utilisateur choisit de continuer le calcul est lanc avec la base de mol cules charg es les valeurs par d faut ou modifi es pour les classes de sous structures fragments cas 1 ou en plus avec les valeurs par d faut ou modifi es des propri t s physicochimiques cas 2 La premi re tape est de charger les informations des mol cules dans l interface La seconde tape qui est celle qui prend le plus de temps est de calculer les vecteurs descripteurs Une fois que sont calcul s les descripteurs le calcul des indices de similarit diversit peut tre effectu Si dans la FENETRE W4 l utilisateur choisit QUIT jy quitte l assistant Les do
11. lt Model cir DID ese gt lt ELEMENT Query Results gt lt ATTLIST Query fileName CDATA REQUIRED gt lt ELEMENT Results Test gt lt ATTLIST Test fileName CDATA REQUIRED gt lt ELEMENT Test Index gt lt ATTLIST Index Tanimoto CDATA REQUIRED gt lt ATTLIST Index Simpson CDATA REQUIRED gt lt ATTLIST Index Cosine CDATA REQUIRED gt 214 Annexe 3 Format MOL Le format du fichier lt MOL gt tait initialement propos par lt MDL Informations Systems Inc gt pour la description num rique des structures mol culaires Pendant ces derni res ann es ce format a t utilis dans les logiciels appliqu s la chimie et devient un des formats les plus r pandus Un fichier MOL est compos principalement par les informations de connectivit les coordonn es atomiques des informations associ es et la marque la fin du fichier On trouve toutes les informations des atomes et des liaisons d une mol cule dans ce fichier Nous pr sentons ci dessous un exemple dans la figure A3 1 2 4 N O 1 3 6 O 5 7 5 5 05170615042 7 6 0 0 0 0 0 0 0 099 v200 1 0 7291 0 5573 0 0000C 0 0 3 0 0 0 0 0 0 0 O 1 1483 1 2609 0 0000 N 0 0 0 0 0 0 0 0 0986 0 5668 0 0000C 0 0 0 0 0 b 0 4970 1 2740 0 00000 0000000000 0 5198 0 1459 0 00000 0 5 0 0 00 00 00 0 1 1284 0 1539 0 0000C 0 0
12. lt index gt File name AGCZ 014Z mol gt lt Keys gt CREATION Key name FI D 0142 gt DU FICHIER Key name FAtomSum value 3 gt lt Key name FRing value 0 gt Key name FGF value RZ carbonyl gt lt Keys gt lt File gt lt File name CAUN5 156Qb mol gt Table de Connectivit Keys Propri t s Physicochimiques Scy name NomFichier mol Key name FAtomSum value 8 gt Key name FRing value 1 gt Key name FGF value Pyrrole gt lt Keys gt lt File gt Jindex gt Figure IL 14 Cr ation et remplissage d un index xml partir de la FragDB L index XML est compos e d autant l ments lt file gt qu il a de fragments Chaque l ment lt file gt contient plusieurs sous l ments Keys Properties La figure 14 montre les tapes de la cr ation et du remplissage d un index XML On note sur la figure que les deux derniers sous l ments ne sont pas montr s pour des raisons de clart toutefois il est indiqu le contenu de la balise Keys pour deux des fragments montr s dans la FragDB AGCZ 014Z mol et CAUNS 156Qb mol Il est important de noter la structure index e des donn es XML en forme d arbre ce qui facilite la lecture et la compr hension des contenus autant pour l homme que pour les outils d extraction ou d interrogation d information Les noms et les nombres des l ments peuvent tr
13. gt Frag ref ANSQ 0000Q mol lt Exc gt lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCN 031Q mol Cond Exc Frag ref AGCQ 014Q mol Frag ref ANIZ 0022 mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Exc lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCO 015A mol Cond lt gt Frag ref AGCA 014A mo Frag ref ANIZ 0022 mo lt Exc gt lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCO 016A mol Cond lt Exc gt Frag ref AGCA 014A mol 2 1 gt 1 gt Du gt Frag ref ANIZ 0022 mol 10 15 Frag ref ANSQ 0000Q mol 204 Fragments Cycliques lt Quo ce lt FragRule gt lt Cond gt Frag Cond Exc Frag Frag Frag lt Exc gt ref CAUQ3 067 mol rer 3 po armoire ref CNUQ3 132b mol ref ANSO 0000 mol gt ref ANSQ 000Q mol lt FragRule gt lt FragRule gt lt Cond gt ue le lt Cond gt Exc Frag Frag See Exc LEE SANI 210 6 moine ref CNUQ3 132a mol ref CNUQ3 132b mol ref ANSQ 000Q mol lt FragRule gt lt FragRule gt lt Cond gt lt Cond gt Exc Frag Frag 812266 SiG lt
14. FragRule lt FragRule gt lt Cond gt Frag eire Frag Frag Frag Frag See Frag Frag Frag Frag Semer Frag Frag Frag Frag Frag Frag Frag Frag Frag Cond Exc Frag Frag lt gt lt FragRule lt FragRule gt lt Cond gt lt Frag lt Frag Frag Frag Frag ie EC lt Frag lt Frag lt Frag lt Frag Frag Frag Frag Frag Frag See Cond Exc Frag Frag lt lt gt lt FragRule lt FragRule gt lt Cond gt gt ref CNUN6 ref CNUQ3 ref CNUQ4 ref CNUQ4 ref CNUQ4 ref CNUQ4 ref CNUQ4 ref CNUQ5 ref CNUQ5 ref CNUQ5 ref CNUQ5 ref CNUQ5 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref ANSQ 0 ref ANSQ 0 ref ANSQ 0 ref ANSQ 0 gt ref CNUN6 ref CNUN6 ref CNUQ4 ref CNUQ4 ref CNUQ5 ref CNUQ5 ref CNUQ5 ref CNUQ5 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref CNUQ6 ref ANSQ 0 ref ANSQ 0 ref ANSQ 0 ref ANSQ 0 ref ANSQ 0 gt 164ab 1 9516 2 LISTo 1915 10956 11 9512 000 000 000 000 164 164 LISA a 1951 1726 JL 9235 s 1028 JL 22119 Waas 72 euro 17256 174af 074bb 121522 074bf 074
15. Tanimoto 5 0 2 n 5 m Simpson SCH 3 nn n p Cosine 2 4 6 8 10 12 nombre d atomes des mol cules de Random100 155 Graphique V 24 Comparaison de 3 mesures de similarit en fonction de la taille de mol cules pour la base Random et la cible RandSel100 74 mol Comparaison d indices de similarit selon nombre d atomes pour Random100 vs RandSel100_74 4 F a A E os F i 04 Tanimoto 0 2 i 2 m Simpson 0 p P n P p n p p n Cosine Ej 1 3 5 7 9 11 13 nombre d atomes des mol cules de Random100 V 2 Analyse de type N N L analyse de type N N permet de calculer la mesure de similarit entre toutes les mol cules appartenant une base d termin e Si on connait les diff rences de tous les l ments d une base il est possible d effectuer une analyse de l espace de diversit de la base mol culaire V 2 1 R sultats avec la base Zinc Lors du calcul structurel simple de type N N avec la base Zinc le syst me construit une matrice carr e et diagonale de mesures de similarit Les donn es correspondent aux 34 mol cules appartenant la base Zinc Au total il y a 1156 mesures de similarit correspondant 34 combinaisons L ensemble des mol cules pr sente des valeurs de similarit assez h t rog nes Pour l index de Tanimoto Tableau V 11 seules 3 63 de mol cules pr
16. 167 Figure V 5 Copies d cran de fichiers de vecteurs r sultats ouverts avec Internet Explorer A droite un extrait du fichier XML de vecteur r sultat original d MolDiA Representative Vector Analysis Edition Affichage Favoris Outils 2 L1 precedente z B A Rechercher Se Favoris W I M dia Ye 6 rel Adresse Es C Documents and Settings Ana Bureau ana results RepVectZall xml w OK Google MoIDiA Representative Vector Analysis MolDiA version 2 0 Laboratory ITODYS Universit Denis Diderot Date 11 03 2006 15 32 Filename Picture MolDIA Rep Vector CAUQ6 054k mol CNUQS 188i mol ANSC 000R mol AGCO 015Q mol AGCZ 0147 mo molZincTestzinc 10 mol CAUQ6 054d mol CAUN6 153Qb mol ANSZ 000Z mo ANSZ 000Z mol ANSZ 000Z mol ANSZ 000Z mol ANSZ 000Z mo ANSC 000R mol ANSC 000R mol mol ZincTestzinc 11 mol FE Termin R Poste de travail V 3 Evaluation de l outil lt xml version 1 0 encoding iso 8859 1 standalone 2 no xml stylesheet type text xsl href RepVec xsl lt MolDiA version 2 0 laboratory ITODYS Universit Denis Diderot date 11 03 2006 15 32 gt Molecule fileName zinc 10 mol lt ExpRepVector gt Frag ref CAUQ6 054k mol Frag ref CNUQ5 188i mol Frag ref ANSC 000R mol gt Frag ref
17. ANSZ 000Z 3 gt gt Figure IV 5 Construction du vecteur descripteur pour deux mol cules donn es Pr sentation des mol cules d coupage puis construction du vecteur repr sentatif Prenons par exemple la comparaison entre les mol cules V et V du tableau IV 5 effectu sans modification des poids et utilisant comme mesure de similarit l index de Tanimoto Cette mesure pour des valeurs continues ob it la formule suivante Ee 3 wh ux 4 C 2 wf f a b et c repr sentent respectivement la somme des fragments de la premi re mol cule f et f de la deuxi me mol cule 77 fs et f4 et le nombre des fragments communs 77 On peut alors calculer 114 sans aucune difficult la similarit entre les mol cules V et V en utilisant l quation 3 et les valeurs de la figure IV 5 a b c 2 3 1 0 25 5 T Si l usager d cide plus tard de modifier les poids des fragments comme l indique le tableau de la figure IV 6 la mesure de similarit entre les mol cules V et V sera modifi Fragment Structure Poids Cas 1 Poids Cas 2 O fi 1 2 h R X 2 0 R z 1 1 f REZ 1 1 Figure IV 6 Deux modifications possibles de poids des mol cules Dans le premier cas le poids correspondant au carbonyle a t diminu de moiti dans le second cas le m me fragment subit une augmentation de son poids g n ral par rapport aux autres
18. Ra H Ro N 3 Figure I 1 G n ration d une biblioth que virtuelle o deux approches sont couramment utilis es a La premi re est bas e sur les structures de Markush b La deuxi me consiste attacher syst matiquement les r actifs aux sites actifs c Dans une variation de la deuxi me approche des parties sp cifiques des r actants sont sp cifi es ainsi que la nature des r actions possibles OFarrell2005 I 1 2 Le criblage virtuel et le criblage de haut d bit Le criblage virtuel est une technique relativement r cente Ses origines se situent dans les ann es 70 avec les premiers efforts pour effectuer des recherches 2D avec des fragments structuraux et des cibles 3D pour ensuite se concentrer dans l automatisation du docking des ligands dans les sites de liaison prot inique Aujourd hui le criblage virtuel se divise en une grande diversit de m thodes se Approches bas es sur la structure du r cepteur target structure based VS e Approches bas es sur la structure du ligand drug based VS e Approches bas es sur des vecteurs structurant des informations chimiques fingerprints pharmacophore etc e Techniques de classification des mol cules cluster analysis cell based partitioning e M thodes statistiques 3D 4D QSAR models etc Ainsi pour aboutir le plus vite possible et un moindre co t aux mol cules d sir es les bases de mol cules sont pass es au crible Stahura20
19. la base Zinc pour la cible Query3Z mol Comparaison d indices de similarit selon nombre d atomes pour Query1Z3 et la Base Zinc A E mE HB B NH uum HHH HE A e Tanimoto m Simpson t S x E Cosine Base Zinc 153 V 1 4 2 Graphiques comparatif d indices avec la base lt Random gt On remarquera que l usage de la base Random pour faire des graphes de comparaison d indices par rapport au nombre d atomes g n re des r sultats assez diff rents par rapport la base Zinc particuli rement pour la distribution des donn es Le rang du nombre d atomes des mol cules appartenant la base Random est assez restreint On sait que cette base est compos e de petites mol cules et on peut observer que la plupart sont compos es de 3 12 atomes Les valeurs de similarit se superposent particuli rement autour des mol cules avec 6 et 8 atomes RanSel100 16 RanSel100 29 et RanSell00 51 l exception de RandSell00 74 pour laquelle les valeurs de similarit sont en majorit nulles d la raret des fragments composant cette mol cule La distribution de valeurs lev es de similarit Is entre 0 6 et 1 semble ob ir une r gle d finie pour RandSel100 16 et RandSel100 29 la tendance est vers les mol cules entre 6 et 9 atomes tandis que pour 5 1100 51 c est autour de 7 atomes Les valeurs lev es de
20. Pour mesurer la dis similarit mol culaire on utilise des fonctions qui transforment les diff rences entre une paire de mol cules en nombre r els g n ralement dans l intervalle unit 0 1 Cette quantit fournit une mesure quantitative du niveau de ressemblance chimique Willett1987 Willett1998 Les mesures de similarit sont g n ralement constitu es de deux l ments une repr sentation math matique de l information chimique pertinente en forme de groupes graphes vecteurs ou fonctions et un index compatible avec la repr sentation Nous allons repr senter une mol cule M sous la forme d un vecteur o chaque composante i correspond un descripteur mol culaire individuel di D un point de vue formel ce vecteur positionne la mol cule M dans un point de l espace vectoriel V dans lequel chacun des axes correspond un descripteur figure 2 Cet espace vectoriel s appelle l espace structural Maggiora2004 La dis similarit mol culaire entre deux mol cules sera intuitivement reli e la distance entre les deux points dans cet espace particulier La r gle de calcul de cette distance est appel e m trique Figure 2 L espace structural de deux mol cules repr sent es par des descripteurs di d gt et ds Ainsi toute mesure ad quate de la similarit doit tre coh rente avec les propri t s d une distance math matique Petitjean 1996 L valuation de similarit peut
21. Sg Bh Hs Mt Ds Rg Uub Uut Uug Uup Uuh Uus Uuo A Atomes aromatiques Tous les l ments l exception de H et de A He Li Be B C N O F Ne 5 5 Sc 2 5 Kr Rb Sr Y 2 bh in rn 5 5 Pm Sm Eu Gd Tb Dy Ho Er Tm Yb Lu Hf Ta W Re Os Ir Pt Au Hg TI Pb Bi Po At Rn Fr Ra Ac Th Pa U Np Pu Am Cm Bk Cf Es Fm Md No Lr Rf Db Sg Bh Hs Mt Ds Rg Uub Uut Uug Uup Uuh Uus Uuo Atomes m talliques AI Sc Ti V Cr Mn Fe Co Ni Cu M Zn Ga Y Zr Nb Mo Tc Ru Rh Pd Ag Cd In Sn Lu Hf Ta W Re Os Ir Pt Au Hg TI Pb Bi Po Lr Rf Db Sg Bh Hs Mt Ds Rg Uub Halog nes Atomes m talliques importants B N O P S Tous les autres atomes He Li Be C Ne Na Mg Si Ar K Ca Ge As Se Kr Rb Sr Sb Te Xe Cs Ba R La Ce Pr Nd Pm Sm Eu Gd Tb Dy Ho Er Tm Yb At Rn Fr Ra Ac Th
22. des bases de donn es mol culaires Cet outil repose sur une nouvelle conception de diversit qui inclut des informations structurales et des propri t s physicochimiques Dans ce chapitre nous effectuerons des analyses de similarit et de diversit en prenant en compte des crit res divers tels la taille des mol cules ou la nature de la base Les r sultats seront group s selon le type d analyse effectu 1 N ou N N en utilisant des diff rents niveaux de comparaison avec diff rentes bases mol culaires Les r sultats pr sent s dans cette section ont t obtenus en utilisant deux bases mol culaires diff rentes la base Zinc compos e d un chantillon de 34 mol cules extraites de la base de mol cules ZINC ZincWeb ZINC est une base gratuite et en ligne qui contient des drogues et des mol cules mises disposition pour effectuer des tudes de criblage virtuel a base Random compos d un chantillon de 77 mol cules choisies de mani re al atoire random et fournies par le Dr Markus Meringer Meringer2006 Cette base est compos e de mol cules relativement petites de 3 13 atomes de carbone par rapport aux mol cules de la base Zinc V 1 Analyse de type 1 N Une analyse 1 N consiste comparer une mol cule cible avec une base de mol cules test Les r sultats des mesures de similarit sont pr sent s sous forme de tableaux qui peuvent tre class s ou manipul s en fonction d
23. gt ref CAUQ3 067b mol CINIUIO SI ese gt ise CINIUQISI 1L 3 2161 AS ref ANSQ 000Q mol ref ANSQ 000Q mol lt FragRule gt lt FragRule gt lt Cond gt Frag Cond Exc Frag Frag Frag Exc ref CAUQ3 067c mol ref CNUQ3 132c mol ies CINIUQIS 1 3 2 1 1158 gt ref ANSQ 000Q mol lt FragRule gt lt FragRule gt lt Cond gt Frag Cond lt gt Frag Exc ref CAUQ3 067d mol ref CNUQ3 132b mol lt FragRule gt lt FragRule gt lt Cond gt Frag Cond Exc Frag Exc ref CAUQ3 067e mol ref CNUQ3 132d mol lt FragRule gt lt FragRule gt lt Cond gt lt Frag ref CAUQ3 067f mol 206 lt Cond gt lt Exc gt Frag ref CNUQ3 132e mol Frag ref ANSQ 000Q mol gt Q3 131i mol GJL SJ MOLI gt Q3 132e mol gt Q4 195ab 2255 5 7 55551 7215 25 02 55 2 7 OSS Q6 167bv m m m m m m m OE 5 OE gt gl 7 gui ZS el gt Ol AS ref ANSO 0000 mol gt N6 164aa mol Q3 131g mol Q3 131h mol Q4 195aa mol Q4 195y mol Q4 195z mol Q5 172av mol Q5 172ax mol Q5 172bb mol Q5 175 mol Q6 074br mol Q6 074bs mol gt ref ANSQ
24. zinc 28 0 20 zinc 32 0 32 zinc 370 0 32 zinc 38 0 42 zinc 41 0 00 0 00 zinc 447 0 30 zinc 48 0 17 0 31 zino 52 0 34 zinc 53 0 40 zinc 530 zinc SCH 0 40 0 37 0 35 zinc 58 0 42 0 39 0 37 zinc 660 0 18 zinc E 0 26 0 35 zinc 707 0 20 0 37 zinc 888 0 26 0 47 0 33 0 32 zinc 948 0 17
25. 51 monotone avec 52 implique S2 monotone avec S1 et transitive 51 52 monotones et 52 53 monotones gt 51 53 monotones M me s il est rare de trouver deux coefficients 100 monotones il suffit d un haut degr de corr lation entre les r sultats des deux coefficients dans un groupe de mol cules pour reconsid rer leur usage ou les utiliser d une mani re compl mentaire Tout au 100 contraire les coefficients ou distances qui affichent une tr s faible corr lation expriment par leurs r sultats des caract ristiques diff rentes des mol cules qui sont compar es De nombreux travaux font tat des mesures les plus commun ment utilis es Willett1987 Willett1998 La pertinence des diff rents coefficients de similarit a t galement le sujet de nombreux travaux Pearlman1999 Willet1986 Holliday2002 Dans le tableau suivant nous r sumons quelques unes des mesures r pertori es dans la bibliographie Type de Coefficient Nom Expression Coefficient associatif Cosinus Se Vab a cn Coefficient associatif Forbes zh a Coefficient associatif Russell Rao S n Coefficient associatif Simpson REES min a b Coefficient associatif Tanimoto r 202 a b c Coefficients de corr lati Yul S oefficients de corr lation ule Y cd a cXb c Coefficients d Denni S oefficients de corr lation ennis Coefficients de corr lat
26. Ainsi l information chimique est enferm e et les mots atome et mol cule deviennent manipulables par les machines Le probl me est que parfois ceci n est pas suffisant car les machines n ont pas acc s au sens de l information manipul e La repr sentation des connaissances intervient alors comme un moyen d exprimer l information et de la rendre compr hensible aux outils de traitement de donn es Usuellement le formalisme repose sur des langages logiques qui permettent la mod lisation des ontologies conceptualisant ainsi la connaissance du domaine figure II 21 Le terme ontologie issu de la philosophie d signe g n ralement l ensemble des concepts d un domaine Dans le cadre de la repr sentation des connaissances ce terme est employ plus particuli rement pour d crire les contenus du support concepts relations et contraintes qui sont effectivement utilis s pour mod liser un domaine donn On peut consid rer qu une ontologie dans ce sens est l aboutissement formel de la d finition d une terminologie Dans le contexte chimique les ontologies regroupent un ensemble de d finitions lisibles par des machines qui cr ent une taxonomie de classes des relations et des axiomes logiques OWLWeb d finissant les r gles des atomes mol cules r actions etc En chimie il y a un besoin croissant des ontologies Celles ci doivent couvrir l information chimique indispensable pour la formalisation des concepts a
27. Indices de Similarit Rang gt Mol cule Leader Figure IV 1 Sch ma du calcul de la similarit entre deux mol cules repr sent es par leurs vecteurs correspondants L tiquette XML identifie les donn es qui peuvent tre trait es en entr e sortie par l outil dans un format XML Toutes ces consid rations faites on peut proc der au calcul de quantit s a b et c n cessaires pour appliquer les formules de coefficients et ou des indices d j introduits dans la section IV 1 a repr sente le nombre des fragments de la premi re mol cule b repr sente le nombre des fragments de la deuxi me mol cule c est le nombre des fragments communs aux deux mol cules L indice de similarit calcul peut tre enregistr dans un fichier XML accompagn des informations relatives aux mol cules qui on servi de requ te et de test Ces informations nous permettront donc d tablir un classement rank ou liste ordonn e de mol cules par rapport leur similitude ou diff rence avec une ou plusieurs mol cules requ tes Dans la figure IV 1 on peut remarquer que nous utilisons principalement les indices de Cosinus Tanimoto et Simpson pour effectuer des analyses de Similarit La raison principale de ce choix r side dans le comportement 105 diff rent de ces trois mesures ce qui nous permet d avoir des regards diff rents sur le m me groupe mol culaire Par ailleurs l impl mentation des autres coeffic
28. Molecular diversity techniques for chemical databases Information Research 2 1996 Information disponible sur http informationr net ir 2 3 paper19 html Willett1998 Willett P Barnard J M Downs G M Chemical Similarity Searching J Chem Inf Comput Sci 38 1998 983 996 123 104 CHAPITRE V PRESENTATION ET ANALYSE DES RESULTATS V 1 Analyse de type 1 N V 1 1 R sultats avec la base lt Zinc gt V 1 2 R sultats avec la base Random V 1 3 Comparaison des indices selon le rang V 1 3 1 Graphiques de comparaison d indices avec la base Zinc V 1 3 2 Graphiques de comparaison d indices avec la base lt Random gt V 1 4 Comparaison des indices selon la complexit V 1 4 1 Graphiques de comparaison d indices avec la base Zinc V 1 4 2 Graphiques de comparaison d indices avec la base Random V 2 Analyse de type N N V 2 1 R sultats avec la base lt Zinc gt V 2 2 R sultats avec la base lt Random V 2 3 Aper u des r sultats structur s et pr sent s avec XML NA Evaluation de l outil V 3 1 Pr cision rappel et F mesure pour la base lt Zinc gt V 3 2 Etude des faux isomorphismes pour des mesures de similarit N N V 3 3 Limites et avantages de l outil CHAPITRE V PRESENTATION ET ANALYSE DES RESULTATS Tout au long du pr sent manuscrit nous avons expliqu le fonctionnement un syst me de criblage virtuel pour l analyse de la similarit et de la diversit
29. arrangement en 3D des atomes et les descripteurs conformationnels repr sentent l arrangement spatial thermodynamique stable des atomes dans une mol cule Id alement les descripteurs utilis s pour le d veloppement des mod les mol culaires devraient tre rapidement calculables et facilement interpr tables par les ordinateurs et les usagers Ils devraient repr senter la r alit chimique du syst me et optimiser ainsi la structuration de l espace chimique Martin1998 Repr sentation Type Descripteurs Type 1D C8H10N503 Masse mol culaire Nombre d atomes 2D 1 Fragments HN rs Indices Topologiques N N 2 Connectivit ou Surface Mol culaire Volume Mol culaire Energie d interaction Figure 1 Quelques exemples de descripteurs et leur classification en 1D 2D et 3D Les descripteurs mol culaires ont augment derni rement en nombre et en complexit La plupart sont obtenus soit travers des d finitions sp cifiques soit par des combinaisons d autres descripteurs Souvent 1ls sont compos s de valeurs num riques qui correspondent g n ralement des propri t s physicochimiques On compte ce jour des centaines de descripteurs topologiques topographiques et de chimie quantique Katrizky1996 Dans leur page web R Todeschini et V Consonni TodeschiniWeb maintiennent un compteur du nombre de descripteurs mol culaires et ce jour ce nombre atteint 3100 2 2 Les indices de similarit
30. au sein du groupe de Chimie Informatique et pour m avoir toujours aid e et soutenue tout au long de cette th se Je remercie chaleureusement Monsieur le Professeur Jean Pierre Doucet pour tous les conseils pr cieux qu il n a jamais cess de me prodiguer tout au long de ce travail et dans l laboration finale de cette th se Je tiens exprimer toute ma reconnaissance Monsieur le Professeur Alexandre Varnek et au Dr Dragos Horvarth de m avoir fait l honneur d tre les rapporteurs de ce m moire Ainsi qu Monsieur le Professeur Georges Dive de l avoir examin J exprime aussi toute ma gratitude mes coll gues du laboratoire qui m ont aid e au cours de cette th se particuli rement lors de mes nombreux d placements hors des fronti res Merci d avoir toujours re u avec le sourire mes multiples demandes de services Fabienne Florent Cyril Lina Catia Mme Wang et tous ceux qui se reconnaissent en ces lignes qu ils veuillent bien trouver ici l expression de mes remerciements Toutes mes pens es vont aussi ceux qui m ont encourag e par des gestes d amiti dont je leur serais toujours reconnaissante Merci Ines Alfredo Orelle Cyril Paul V ronique et tant d autres et merci toi Rapha l qui a su tre le confident et le fid le supporter de tous les instants Merci toi et tous Vi TABLE DES MATIERES page Introduction 1 Les concepts de similarit et de diversit 1 2 Mesures de
31. gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File File name AGCC 014R mol Keys Key name FID value 014R Key name FAtomSum value 4 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys Properties Property name HBondA value 2 gt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File File name AGCM 014M mol gt ES Key name FID value 014M gt Key name FAtomSum value 4 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys lt Properties gt lt Property name HBondA value 2 gt lt Property name PotNCharged value 1 gt lt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties 210 lt File gt File name AGCN 0280 mol gt lt Keys gt Key name FID value 0280 gt Key name FAtomSum value 8 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys Properties Property name HBondA value 2 gt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File File name AGCN 0300 mol gt Keys
32. il suffit de les importer partir d un environnement de programmation ou de les diter partir de leur affichage sous Internet Explorer 194 Pour visualiser correctement les mol cules du fichier de r sultats sur Internet Explorer il faut s assurer de l installation de plugins pour MDL Chime 2 6 ou sup rieur et du moteur JAVA pour le script de JMOL Veuillez noter qu un d placement des donn es mol culaires utilis es pour la g n ration du fichier r sultats dossier o sont plac s les fichiers MOL entra ne une perte du lien pour l affichage des mol cules sur les tableaux de r sultats Les plugins d affichage des mol cules MDL Chime ou JMOL gt pourront donc g n rer autant de messages d erreur que de mol cules auront t d plac es Si le nombre de mol cules est lev la meilleure mani re de fermer Internet Explorer est travers le Gestionnaire des taches de Windows Un apercu des fichiers de r sultats ainsi que de vecteurs descripteurs affich s en utilisant Internet Explorer est donn continuation Figure 1 1 Copies d cran de fichiers de mesures de similarit ouverts avec Internet Explorer Les mol cules sont pr sent es en format 3D Sim Div Indices D xj Fichier Edition Affichage Favoris Outils FA Pr c der x 21 7 n 2 Rechercher S
33. lt Property name PotNCharged value 1 gt Property name Aromat value 2 gt Property name Polar value 1 0 gt Properties File File name CAUN5 1560b mol gt Keys Key name FID value 156Qb gt 212 lt Key name FAtomSum value 8 gt lt Key name FRing value 5 gt Key name FGF value none gt lt Keys gt lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt lt Property name Aromat value 2 gt lt Property name Polar value 1 0 gt lt Properties gt lt File gt File 0 5 156 1 lt Keys gt Key name FID value 1560c gt Key name FAtomSum value 7 gt Key name FRing value 5 gt Key name FGF value none Keys Properties Property name HBondA value 1 gt Property name PotNCharged value 1 gt Property name Aromat value 2 gt Property name Polar value 1 0 gt Properties File File 0 5 15604 1 Keys Key name FID value 1560Qd Key name FAtomSum value 7 gt Key name FRing value 5 gt Key name FGF value none gt lt Keys gt lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt lt Property name Aromat value 2 gt Property name Polar value 1 0 gt Proper
34. n est pas vide message d erreur Si ECHEC afficher Return NULL message d erreur V rifier si le document est du type correct index Lecture d un noeud fragment Remplissage en m moire d un FragType fragment partir des informations extraites d un noeud fragment du fichier index XML Remplissage en m moire d un ListOfFrag db partir de l ensemble de FragType fragment et du nombre des fragments lus int nbFrag Return db Figure II 16 Algorithme pour l ouverture et remplissage en m moire d index XML 56 Index File name ol gt 0142 MOL FILE a A 0 gt lt gt 00000000 lt Properties gt lt Property name lt Property name 1 00000000 Property name Polar value 1 gt 00000000 lt Properties gt lt File gt Figure 17 Remplissage de la structure de donn es en utilisant des informations extraites partir du nom de fichier voir figure I 3 et du fichier MOL voir annexe 3 La cr ation d un fichier XML pour structurer des donn es chimiques complexes est un processus simple et rapide et qui peut tre effectu automatiquement Le langage XML comme tous les m talangages permet de d finir ses propres l ments et donc de s adapter chaque domaine chimie m dicinale chimie inorganique spectroscopie etc Le langage est flexible et extensible et les informations plus faciles retrouver automati
35. notre outil de criblage virtuel et d analyse de similarit mol culaires II 1 Bases de donn es Lexique et construction Une base de donn es regroupe un ensemble d informations organis es de mani re faciliter l exploitation des connaissances inh rentes aux l ments qui la composent La base doit avoir le minimum de redondance dans une taille maximale Elle doit permettre le partage des informations et garantir l int grit des donn es En informatique le mod le de base de donn es pr dominant est le mod le relationnel et ses multiples variantes Dans une base de donn es relationnelle les donn es sont organis es en forme de tables Chaque table contient des champs typ s des champs dont on connait le type d information contenue Pour effectuer des requ tes on peut faire la jonction des tables caract ristique novatrice des bases de donn es relationnelles par rapport aux syst mes de fichiers et utiliser des filtres sur l information souhait e D une mani re g n rale en chimie les donn es peuvent tre de nature tr s diff rente Celles ci comprennent des propri t s physicochimiques nombres entiers ou r els valeurs binaires des variations sur la forme ou l apparence graphes table de connectivit 2D 3D etc des propri t s sas lectroniques conformations nergies etc des donn es spectroscopiques IR Raman UV etc La diversit des informations mol culaires a donn lieu une grande v
36. sentent des indices de similarit sup rieurs ou gaux 0 8 Ceci n est qu une preuve de la diversit de la base L index de Simpson pour sa 156 part compte 46 62 de mol cules avec un index de similarit sup rieur ou gal 0 5 la plupart d entre elles tant des isomorphismes non restrictifs sur l encha nement et la position des sous structures trouv es Les graphiques pr sent s dans le chapitre V 3 nous permettront d valuer d une mani re plus globale la distribution des mol cules dans l espace chimique Index Mesures de Sim gt 0 5 Mesures de Sim gt 0 8 Mesures de Sim lt 0 5 Tanimoto 80 6 92 42 3 63 961 83 13 Cosinus 232 20 07 50 4 33 810 70 07 Simpson 539 46 62 133 11 51 503 43 51 Tableau V 11 Nombre et de mol cules pour un analyse N N sur la base Zinc Les r sultats d une partie des matrices de mesures de similarit pour les trois indices tudi s Tanimoto Simpson et Cosinus sont montr s dans les tableaux V 12 V 14 Leurs graphiques 3D respectifs sont repr sent s par la suite On remarquera que tous les graphes sont sym triques par rapport au plan X Y Ceci est due l origine des donn es une matrice carr e et diagonale issue de la comparaison multiple de toutes les mol cules d une base La distribution des donn es a t faite de mani re homog ne pour viter la superposition de points Ceci peut tre const
37. sont totalement diff rents 2 D V V 1 quand les vecteurs les mol cules sont identiques 3 D V V D V V car la mesure de comparaison est sym trique La mesure de comparaison prendra en compte l approche par sous structure d j expliqu e L importance de chaque fragment ou de ses familles structurales peut tre param tr e en utilisant des poids structuraux choisis par l usager Si aucun poids n est pr cis tous les fragments auront la m me importance vis vis de la formule de similarit ou diversit Ainsi les poids ont une valeur par d faut de 1 et peuvent tre param tr s avec des valeurs allant de z ro ne pas prendre en compte cette structure deux structure tr s importante pour le calcul Une fois pris en compte les poids structuraux gt les vecteurs V et V auront l apparence suivante 2 y X Wis f X Wy f xw y We f xw 113 O fi est un fragment descripteur de mol cules et lt W gt son poids structural Les vecteurs de l quation 2 fournissent l information de base qui sera utilis e par notre outil Structure D coupage Fragments du Vecteur mol cule mol cule Repr sentatif O O Mol cule V fi AGCC 014R CI 1 Chloro propan 2 one fo ANSX 000X 2 gt Nom de la Mol cule O O UN 5 j lt f AGCC 014R Mol cule V JN N fs ANSZ 000Z 1 Methylamino propan 2 one d
38. 0 0 0 O O 0 7081 0 8703 0 0000C 0 0 0 0 0 O 3 4 2 0 O 0 O 3 5 1 0 0 0 9 1 3 1 0 0 0 0 1 6 1 0 0 0 6 1 2 o O n 00 00 M CHG 1 d a Counts Line b Atom Block c Bond Block d Stext Block et Atom List e Properties Block Figure A3 1 Un exemple de fichier MOL 215 Dans un fichier MOL on distingue les sections suivantes a Counts Line Contient principalement les information suivantes les nombres totaux d atomes et de liaisons la liste d atomes la marque de chiralit et des informations sur la version Le format du Counts Line est pr sent par la suite et peut tre traduit l aide du tableau A3 2 lt aaabbblllfffcccsssxxxrrrpppiiimmmvvvvvv gt champ Description aaa Nombre total d atomes bbb Nombre total de liaisons XM Nombre total de listes d atomes Abrog CCE Marque de chiralit 1 chiral 0 non chiral sss Nombre total de lignes de lt Stext gt XXX Nombre total de composants de r action 1 rrr Nombre total de r actifs ppp Nombre total de produits a Bea er Nombre total d esp ces interm diaires Champs sans significations dans les nouvelles versions Te Valeurs par d faut 999 VVVVVV Numero de version de format MOL Tableau A3 2 Contenu du Counts Line 216 b Atom Block Contient plusieurs lignes d crivant les informations des
39. 0 2857 0 5000 0 4472 RandSel100 83 8 0 3333 0 5000 0 5000 RandSel100 87 8 0 2500 0 5000 0 4082 RandSel100 92 9 0 2222 0 5000 0 3780 RandSel100 96 4 0 2000 0 5000 0 3536 RandSel100 99 8 0 2000 0 5000 0 3536 RandSel100 4 7 0 1667 0 3333 0 2887 RandSel100_23 6 0 1667 0 3333 0 2887 RandSel100_25 8 0 1667 0 3333 0 2887 RandSel100_26 6 0 1667 0 3333 0 2887 RandSel100_36 7 0 1667 0 3333 0 2887 RandSel100 75 7 0 1667 0 3333 0 2887 RandSel100 90 7 0 1667 0 3333 0 2887 RandSel100 100 7 0 1667 0 3333 0 2887 RandSel100 1 9 0 1250 0 2500 0 2236 RandSel100 11 7 0 1429 0 2500 0 2500 RandSel100 16 9 0 1111 0 2500 0 2041 RandSel100 6 10 0 1111 0 2500 0 2041 229 RandSel100 22 RandSel100 29 RandSel100 32 RandSel100 35 RandSel100 37 RandSel100 38 RandSel100 46 RandSel100 58 RandSel100 60 RandSel100 62 RandSel100 63 RandSel100 74 RandSel100 77 RandSel100 84 RandSel100 86 RandSel100 89 RandSel100 95 RandSel100 98 RandSel100 20 RandSel100 7 RandSel100 48 RandSel100 52 RandSel100 57 RandSel100 71 RandSel100 82 RandSel100 97 O O O gt O N N CON O 0 1250 0 1250 0 1000 0 1111 0 0909 0 1111 0 1111 0 1429 0 1429 0 1429 0 1429 0 1429 0 1000 0 1429 0 1429 0 1000 0 0833 0 0909 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 230 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0
40. 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 A4 3 R sultats d une analyse lt N N gt avec la base lt Zinc gt R sultats avec l index de Tanimoto R sultats avec l index de Simpson R sultats avec l index de Cosinus 233 TANI MOTO zinc 10 zinc 1036 zinc 1037 zinc 11 zinc 1145 sine 1146 zinc 1152 zinc 1326 zinc 1385 zinc 1514 zinc 1527 sine 1531 zinc 17 zinc 18 zinc 189 zinc 249 zinc 252 sine 28 zinc 32 zinc 370 zinc 38 zinc 4l zinc 447 zinc 48 zinc 52 zinc 53 zinc 530 zinc 57 zinc 58 zinc 660 zinc zinc 707 888 948 atom 25 47 43 43 32 21 27 29 25 40 43 28 34 30 44 38 45 26 22 41 39 22 45 30 35 20 34 48 45 32 43 36 zinc zinc zinc zinc zinc 249 zinc 252 zinc zinc zinc zinc zinc zinc zinc zinc zinc SIMP SON zinc 10 zinc 1036 zinc 1037 zinc 11 zinc 1145 zinc 1146 zinc 1152 zinc 1326 zinc 1385 zinc 1514 zinc 1527 zinc 1531 zinc 17 zinc 18 zinc 189 zinc 249 zinc 252 zinc 28 zinc 32 zinc 370 zinc 38 zinc 41 zinc 447 zinc 48 zinc 52 zinc 53 zinc 530
41. 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 R sultats avec la cible RandSel100 51 mol FileName atom Tanimoto Simpson Cosine RandSel100_13 3 0 5000 1 0000 0 7071 RandSel100_41 7 1 0000 1 0000 1 0000 RandSel100 51 7 1 0000 1 0000 1 0000 RandSel100 88 6 0 5000 1 0000 0 7071 RandSel100 24 8 0 4286 0 7500 0 6124 RandSel100 27 9 0 3750 0 7500 0 5669 RandSel100 28 9 0 3750 0 7500 0 5669 RandSel100 31 8 0 4286 0 7500 0 6124 RandSel100 43 8 0 5000 0 7500 0 6708 RandSel100 76 8 0 4286 0 7500 0 6124 RandSel100 81 6 0 5000 0 7500 0 6708 RandSel100 50 4 0 4000 0 6667 0 5774 RandSel100 80 5 0 4000 0 6667 0 5774 RandSel100 10 9 0 2500 0 5000 0 4082 RandSel100 14 8 0 2000 0 5000 0 3536 RandSel100 15 6 0 2857 0 5000 0 4472 RandSel100 17 8 0 3333 0 5000 0 5000 RandSel100 18 8 0 3333 0 5000 0 5000 RandSel100 19 4 0 2000 0 5000 0 3536 RandSel100 2 9 0 2222 0 5000 0 3780 RandSel100 8 8 0 2500 0 5000 0 4082 RandSel100 21 8 0 3333 0 5000 0 5000 RandSel100 30 7 0 2500 0 5000 0 4082 RandSel100 40 6 0 2857 0 5000 0 4472 RandSel100 42 7 0 2500 0 5000 0 4082 RandSel100_45 7 0 2500 0 5000 0 4082 RandSel100_47 8 0 2222 0 5000 0 3780 RandSel100_59 6 0 2857 0 5000 0 4472 RandSel100 61 6 0 2857 0 5000 0 4472 RandSel100 66 3 0 2000 0 5000 0 3536 RandSel100 67 8 0 2857 0 5000 0 4472 RandSel100_68 7 0 2500 0 5000 0 4082 RandSel100_70 7 0 2857 0 5000 0 4472 RandSel100 72 6
42. 000Q mol ref ANSO 0000 mol gt N6 164ad mol U Z gt mol gt 849 22 ino gt mol Mo t z ll 53 2 04 1954 1 518 O4 19 aw Q4 195w 5 11 Zak s 1 7289 Qs 1L 92 eus Q6 074b1 Q6 074bm Q6 074bn 06 074 Q6 074bp m 33333353 Gin ZS Oil ZS OL gt e 5 Oly 7 Oly 5 85 Oil ref ANSQ 000Q mol gt Exc lt FragRule gt lt FragRule gt lt Cond gt euer bre se 812206 sc CNU CNU Seras CH CNU 080226 eur CNU E C ieee re CNU Seege 1812206 eur CNU 8121206 CNU lt Cond gt Exc Frag Exc lt FragRule gt lt FragRule gt lt Cond gt HA CRE CONU 8012206 eur V CNU ieee eur C Frag ref CNU Eire ice 080226 eur CNU Seras eur CNU E C MON 08122 rer CNU MON deras HS CNU lt Cond gt Exc SSH Frag Exc lt FragRule gt lt FragRule gt lt Cond gt SHARE MON 812206 CNU beer iecur CNU C CNU 812206 CNU HE CNU 081226 ieee CNY 081226 eur CINIU C E er re See CNU HEC eur V CNU 0812206 iceue CINIU ei rec NIU lt Cond gt Exc Frag Frag ref ANSQ 000Q mol 207 Frag ref ANSQ 0000Q mol Exc
43. 24 8 0 2222 0 4000 0 3651 RandSel100 30 7 0 2222 0 4000 0 3651 RandSel100 31 8 0 2222 0 4000 0 3651 RandSel100 38 8 0 2222 0 4000 0 3651 RandSel100 43 8 0 2500 0 4000 0 4000 RandSel100 61 6 0 2500 0 4000 0 4000 RandSel100 76 8 0 2222 0 4000 0 3651 RandSel100 81 6 0 2500 0 4000 0 4000 RandSel100 25 8 0 1429 0 3333 0 2582 RandSel100 50 4 0 1429 0 3333 0 2582 RandSel100 80 5 0 1429 0 3333 0 2582 RandSel100 21 8 0 1250 0 2500 0 2236 RandSel100 41 7 0 1250 0 2500 0 2236 RandSel100 51 7 0 1250 0 2500 0 2236 221 RandSel100 58 RandSel100 28 RandSel100 72 RandSel100 10 RandSel100 11 RandSel100 14 RandSel100 17 RandSel100 19 RandSel100 20 RandSel100 7 RandSel100 23 RandSel100 26 RandSel100 36 RandSel100 48 RandSel100 52 RandSel100 57 RandSel100 60 RandSel100 62 RandSel100 66 RandSel100 71 RandSel100 74 RandSel100 82 RandSel100 96 RandSel100 97 RandSel100 99 RandSel100 100 00 O GO O 4 01 O LO O OD 0 1250 0 0909 0 1111 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 228 0 2500 0 2000 0 2000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 2236 0 1690 0 2000 0 0000 0 0000 0 0000 0 0000 0 0000 0
44. 2500 0 2500 0 2500 0 2500 0 2500 0 2500 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 2236 0 2236 0 1890 0 2041 0 1768 0 2041 0 2041 0 2500 0 2500 0 2500 0 2500 0 2500 0 1890 0 2500 0 2500 0 1890 0 1667 0 1768 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 R sultats avec la cible RandSel100 74 mol FileName atom Tanimoto Simpson Cosine RandSel100 74 6 1 000 1 000 1 000 RandSel100 14 8 0 500 1 000 0 707 RandSel100 60 6 0 600 0 750 0 750 RandSel100 13 3 0 200 0 500 0 354 RandSel100 19 4 0 200 0 500 0 354 RandSel100 76 8 0 250 0 500 0 408 RandSel100 88 6 0 200 0 500 0 354 RandSel100 26 6 0 167 0 333 0 289 RandSel100 10 9 0 111 0 250 0 204 RandSel100 15 6 0 125 0 250 0 224 RandSel100 17 8 0 143 0 250 0 250 RandSel100 18 8 0 143 0 250 0 250 RandSel100 41 7 0 143 0 250 0 250 RandSel100 51 7 0 143 0 250 0 250 RandSel100 62 8 0 143 0 250 0 250 RandSel100 81 6 0 125 0 250 0 224 RandSel100 1 9 0 000 0 000 0 000 RandSel100 11 7 0 000 0 000 0 000 RandSel100 16 9 0 000 0 000 0 000 RandSel100 2 9 0 000 0 000 0 000 RandSel100 20 8 0 000 0 000 0 000 RandSel100 4 7 0 000 0 000 0 000 RandSel100 6 10 0 000 0 000 0 000 RandSel100 7 8 0 000 0 000 0 000 RandSel100 8 8 0 000 0 000 0 000 RandSel100 21 8 0 000 0 000 0 000 RandSel100 22 10 0 000 0 000 0 000 RandSel100 23 6 0 000 0 000 0 000 RandSel100 24 8 0 000 0 000 0 000 RandSel100 25 8 0 000 0 000 0 000 RandSel100 27 9 0 000 0 000 0 000 RandSel1
45. 2887 0 2500 0 5000 0 4082 0 1429 0 5000 0 2887 0 1429 0 5000 0 2887 0 1429 0 5000 0 2887 O 0 W O 5 RD D D 225 RandSel100 97 RandSel100 43 RandSel100 61 RandSel100 81 RandSel100 7 RandSel100 24 RandSel100 30 RandSel100 31 RandSel100 36 RandSel100 38 RandSel100 50 RandSel100 76 RandSel100 80 RandSel100 21 RandSel100 41 RandSel100 51 RandSel100 60 RandSel100 72 RandSel100 28 RandSel100 10 RandSel100 11 RandSel100 14 RandSel100 17 RandSel100 19 RandSel100 23 RandSel100 26 RandSel100 62 RandSel100 66 RandSel100 71 RandSel100 74 RandSel100 99 O OO OO OO L O O O 4 400 o OO OO O DD O gt 0 1429 0 2222 0 2222 0 2222 0 1250 0 2000 0 2000 0 2000 0 1250 0 2000 0 1250 0 2000 0 1250 0 1111 0 1111 0 1111 0 1111 0 1000 0 0833 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 226 0 5000 0 4000 0 4000 0 4000 0 3333 0 3333 0 3333 0 3333 0 3333 0 3333 0 3333 0 3333 0 3333 0 2500 0 2500 0 2500 0 2500 0 2000 0 1667 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 2887 0 3651 0 3651 0 3651 0 2357 0 3333 0 3333 0 3333 0 2357 0 3333 0 2357 0 3333 0 2357 0 2041 0 2041 0 2041 0 2041 0 1826 0 1543 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 0 0000 R s
46. 6 0 4 0 2 2 0 wW PO PP DO PR d dv d i a SASOS CS QE P e 9 EE EE ES 29 S lt ai Base Random100 Grafique du coefficient de Simpson pour RandSel100_51 Vs Random100 4 0 8 E 0 6 0 4 0 2 HE oq D PO dk qp ON d qh d a RSS SSIS OR COR OO SES 2 620 co CS O 2 OQ co 2 2 cO D co D D co Es E E amp L 27 E 4 amp 27 amp 4 Base Random100 Graphique du coefficient de Cosinus pour RandSel100 51 Vs Random100 2 0 8 E 0 6 o 0 4 4 5 0 2 PP DO ORO PO d A dv A a SOS el S el ef ef el ef el ef S S S e lt lt Base Random100 140 Graphique V 8 Graphique de mesures de similarit pour lt Random et RandSell00 74 mol Graphique de l index de Tanimoto pour RandSel100 74 Vs Random100 D p 0 8 E 0 6 o 0 4 M 0 2 p gt TPP PTR S P SES SS SSK GIGS ASS DS LO cP cP oO co SoS ed ef ef P PPP P L S PSP L SEE 2 L ei e E S q Af FF 45 48 EF EF CE EEF 48 29 48 48 Q5 CE Base Random100 Graphique du coefficient de Simpson pour RandSel100_74 Vs Random100 2 0 8 E 0 6 0 4 0
47. AGCO 015Q mol Frag ref AGCZ 014Z mol gt ExpRepVector Molecule Molecule fileName zinc 11 mol gt lt ExpRepVector gt Frag ref CAUQ6 054d mol Frag ref CAUN6 153Qb mol Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSC 000R mol gt Frag ref ANSC 000R mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt Frag ref ANSZ 000Z mol gt lt ExpRepVector gt lt Molecule gt MolDiA Plusieurs m thodes ont t impl ment es pour tester la capacit de l outil d crire de mani re correcte l information chimique de nature structurale contenue dans les mol cules Ces m thodes tir es des math matiques statistiques nous permettront de mieux juger dans l ensemble les r sultats des vecteurs descripteurs fournis par l outil De la m me mani re des r sultats erron s ont t analys s de mani re pouvoir tirer des conclusions sur le rang d utilisation de l outil ainsi que sur les forces et les faiblesses du programme 168 V 3 1 Pr cision rappel et F mesure pour la base Zinc Nous proposons une m thode qui permet d valuer l erreur et l exactitude d un vecteur repr sentatif d termin calcul par notre outil Seront donc compar es une structure vectoriell
48. Comput Sci 40 2000 796 800 Gordon1998 Gordon E M Kerwin J F Jr Eds Combinatorial Chemistry and Molecular Diversity in Drug Discovery Wiley amp Sons New York 1998 Hicks1990 Hicks M G Jochum C Substructure search systems 1 Performance comparison of the MACCS DARC HTSS CAS Registry MVSSS and S4 Substructure search systems J Chem Inf Comput Sci 30 1990 191 199 Horvarth2003 Horvarth D Jeandenans C Neighborhood behavior of in silico structural spaces with respect to in vitro activity spaces A novel understanding of the molecular similarity principle in the context of multiple receptor binding profiles J Chem Inf Comp Sci 43 2003 680 690 Horvarth2003a Horvath D Jeandenans C Neighborhood behavior of in silico structural spaces with respect to in vitro activity spaces A Benchmark for neighborhood behavior assessment of different in silico similarity metrics J Chem Inf Comp Sci 43 2003 691 698 Hull2001 Hull R D Singh S B Nachbar R B Sheridan R P Kearsley S K Fluder E M Latent Semantic Structure Indexing LaSSI for defining chemical similarity J Med Chem 44 2001 1177 1184 28 Ivanciuc2000 Ivanciuc O Taraviras S L Cabrol Bass D Quasi orthogonal basic sets of molecular graphs descriptors as a chemical diversity measure J Chem Inf Comput Sci 40 2000 126 134 Japertas2002 Japertas P Didziapetris R Petrauskas A Fragm
49. Consonni V Handbook of Molecular Descriptors In Mannhold R Kubinyi H Timmerman H Eds Series of Methods and Principles of Medicinal Chemistry vol 11 Wiley VCH New York 2000 TodeschiniWeb Information disponible a http www disat unimib it chm QSARnews 2 htm Willet1986 Willett P Winterman V A Comparison of some measures for the determination of intermolecular structural similarity measures Quant Struct Act Relat 5 1986 18 25 Willett1987 Willett P Ed Similarity and clustering in chemical information systems Research Studies Press Letchworth Herts U K 1987 Willetti998 Willett P Barnard J M Downs G M Chemical Similarity Searching J Chem Inf Comput Sci 38 1998 983 996 10 CHAPITRE I CRIBLAGE VIRTUEL ET METHODES DE TRAITEMENT STRUCTURAL I 1 Le criblage virtuel de haut d bit en chimie informatique 1 1 1 La chimie combinatoire I 1 2 Le criblage virtuel et le criblage de haut d bit I 2 Le criblage virtuel et les approches structurales I 2 1 Le choix de descripteurs I 2 2 Les descripteurs structuraux dans les outils de criblage virtuel I 2 3 La comparaison de descripteurs dans la litt rature CHAPITRE I CRIBLAGE VIRTUEL ET METHODES DE TRAITEMENT STRUCTURAL Dans ce chapitre nous pr senterons les concepts et l histoire des techniques de criblage virtuel et de haut d bit Nous montrerons leur application interrogation des bases de donn es et l an
50. Cr ation d un fichier xml indexResult xml Figure II 20 Algorithme pour la cr ation d un index XML de fragments partir d une base de donn es Par comparaison des descripteurs mol culaires et l usage des coefficients ou des distances de similarit diversit on peut effectuer l analyse de la base Ceci est repr sent dans la figure II 20 Comparaison mol cule mol cule et sera trait en d tail dans le chapitre IV La cr ation d un VecteurRepresentatif X ML pour structurer des donn es mol culaires est un processus simple rapide et effectu automatiquement Dans la prochaine partie nous aborderons l outil qui 64 permet de valider notre document XML pour le traitement ou l change futur du VecteurRepresentatif XML la D finition de Type de Document ou DTD 2 3 2 Une DTD pour valider le VecteurRepresentatif XML Comme on a indiqu dans la section IL2 3 2 le Document Type Definition ou DTD a pour but de d finir les r gles de liaison d ordre et de combinaison des balises dans un document XML pour bien interpr ter les donn es structur es avec XML Dans la section II 2 1 2 nous avons expliqu la mani re de construire une DTD et la signification des termes la composant Une DTD d pend troitement du fichier XML auquel elle est rattach e Ainsi Vimpl mentation du VecteurRepresentatif XML montr dans le code IL9 a n cessit la d finition pr alable de sa DTD correspondante que nous mon
51. Is sont donc directement d pendantes de la taille de la mol cule cible Graphique V 21 Comparaison de 3 mesures de similarit en fonction de la taille de mol cules pour la base Random et la cible RandSel100 16 mol Comparaison d indices de similarit selon nombre d atomes pour Random100 Vs RandSelt100 16 0 2 Tanimoto Index de similarit m Simpson Cosinus 1 2 3 4 5 6 7 8 9 11 12 nombre d atomes des mol cules de Random100 154 Graphique V 22 Comparaison de 3 mesures de similarit en fonction de la taille de mol cules pour la base lt Random et cible RandSel100 29 mol Comparaison d indices de similarit selon nombre d atomes pour Random100 Vs RandSelt100 29 O 0 8 n 21 A c E 06 r v 7 i 7 5 A 3 Tanimoto 02 g a Si 2 9 5 6 1 impson o _ P P n P P n n Cosinus 1 2 3 4 5 6 7 10 11 nombre d atomes des mol cules de Random100 Graphique V 23 Comparaison de 3 mesures de similarit en fonction de la taille de mol cules pour la base lt Random et cible RandSel100 51 mol Comparaison d indices de similrit selon nombre d atomes pour Random100 Vs RandSelt00 51 2 S os 4 0 A 94
52. Les r sultats de toutes ces combinaisons peuvent tre exploit s travers les fichiers XML g n r s par l interface graphique Ces fichiers contiennent toutes les informations utiles dans un format compatible avec la plupart des outils graphiques modernes facilitant la tache de post traitement et d analyse de r sultats L outil comprend galement des feuilles de style qui permettent d ouvrir les fichiers de r sultats et de visualiser d une mani re rapide et facile les donn es issues du calcul et les informations concernant les mol cules impliqu es la structure 2D ou 3D si disponible ainsi que le nombre d atomes Les domaines d application de MoIDiA sont nombreux M me si la s lection et ou l organisation des mol cules tait la vocation principale de l application l interrogation des bases par rapport une mol cule particuli re ainsi que les analyses de diversit au sein d un m me groupe de mol cules en vue de la cr ation optimisation des bases existantes sont tout fait r alisables Nos applications concernent donc le Drug design et la chimie m dicinale o la recherche de mol cules ayant une structure ou propri t particuli re est souhait e 176 R f rences Meringer2006 Dr Markus Meringer Mathematical Department University of Bayreuth Germany http www mathe2 uni bayreuth de markus markus html Holliday2002 Holliday J D Hu C Y and Willett P Grouping of coefficients for the ca
53. Sci 43 2003 707 720 27 Faulon2003a Faulon J L Churchwell C J Visco D P Jr The signature Molecular Descriptor 2 Enumerating molecules from their extended valence sequences J Chem Inf Comput Sci 43 2003 721 734 Flower1998 Flower D R DISSIM a program for the analysis of chemical diversity J Molec Graph Mod 16 1998 239 253 Feng2003 Feng J Lurati L Ouyang H Predictive toxicology benchmarking molecular descriptors and statistical methods J Chem Inf Comput Sci 43 2003 1463 1470 Garey1978 Garey M G Johnson D S Computers and Intractability a Guide to the Theory of NP Completeness In Klee V Ed A series of books in the Mathematical Sciences W H Freeman and company New York 1978 pp 202 205 Gillet1991 Gillet V J Downs G M Holliday J D Lynch M F Dethlefsen W Computer Storage and Retrieval of Generic Chemical Structures in Patents 13 Reduced Graph generation J Chem Inf Comput Sci 31 1991 260 270 Gillet2003 Gillet V Willett P Bradshaw J Similarity Searching Using Reduced Graphs J Chem Inf Comput Sci 43 2003 338 345 Good1998 Good A C Richards W G Explicit calculation of 3D molecular Similarity Perspectiv Drug Disc Design 9 10 11 1998 321 338 Godden2000 Godden J W Stahura F L Bajorath J Variability of molecular descriptors in compound databases revealed by Shannon entropy calculations J Chem Inf
54. Tanimoto est employ Ces valeurs additionnelles de coefficient peuvent tre calcul es un co t informatique n gligeable puisque les comparaisons de sous structures ont t d j effectu es pour le calcul de Tanimoto Ainsi l utilisation de la lt fusion de donn es gt ou data fusion a comme cons quence une augmentation de l efficacit de recherche avec seulement une diminution tr s l g re du temps de recherche Une tude de type fusion de donn es avec les bases mol culaires utilis es dans le pr sent manuscrit et en utilisant toutes les possibilit s de calcul propos s dans l outil pr sente un int r t certain Des r sultats pr liminaires ont d montr l efficacit de cette approche mais n ont pas t inclus dans le pr sent manuscrit V 1 4 Comparaison des indices selon la complexit Une autre caract ristique qui peut tre int ressante tudier est le comportement des indices utilis s Tanimoto Sympson et Cosinus selon la taille des mol cules appartenant aux bases de test Pour cela il suffit de calculer le nombre d atomes de chaque mol cule et de construire un graphique d indice de similarit versus le nombre d atomes dans les mol cules test Les nuages de points serviront d indices pour d terminer la densit de la population mol culaire Les deux bases utilis es 150 Zinc et Random ont comme avantage de contenir des mol cules de tailles tr s diff rentes c
55. ZincTest zinc 17 mol 0 307692 0 492366 0 666667 Tableau V 4 R sultats avec cible Query3Z mol 130 Graphique V 3 Graphique de mesures de similarit pour la base Zinc et la cible Query1Z3 mol 4 4 o EN e N 2 9 9 GT De De o o ws Bp 9 gt V Ke e aN ZN 4 k lt o y 2 262 Z 9 Z 6 9 63 AS gt 2 2 Ke 2 lt gt 9 E E EN b 2 N xcu 2 N fo Bax Ge c Q A c E D 9 O x lt D o Aw N nn N o S S ex 9 a CE 8 523 P Co 2 o m y 5 m gen 8 2 m 2 9 a 252 x 5 Z Us os 2 D 2 lt 2 9 Q 9 EQ 4 5 e PNR 2 e a Vy N 4 lt gt N 4 T EN 6 2 E EON 35 3 gt 2 2 n Z d o 2 213 5 2 5 5 e 5 lt a 29 S 2 25 4 5 s e GLS Vs gt 2 K Q CES 5 6 D ECH 5 4 zv S o 4 Bay gt v Y 9 Y 20 de 20 ein DE S Gg On S gt To ON K lt xepu es xepu
56. assistant Si l utilisateur choisit CONTINUE FENETRE W4 apparait Si l utilisateur choisit 189 La FENETRE WA permet de chercher dans un r pertoire d termin l aide du bouton droite de l adresse des r pertoires les mol cules analyser Dans cette fen tre on observe trois listes La liste de gauche affiche les fichiers avec l extension MOL contenus dans le dossier s lectionn La partie droite contient deux listes La liste sup rieure correspond aux mol cules cibles ou Query Mol cules tandis que la liste inf rieure sert indiquer les fichiers des mol cules tester ou Test Mol cules FENETRE W4 Select Your Input Files 4 a A xl Please select from the left panel the molecule files to add inthe QUERY right panel and in the TEST right panel User Molecular Files Query Molecules Name dx Select the directory that contains your molecular files F 4 Mes documents Ej M Poste de travail See Windows C E Work D Backup E F 2 Lecteur DVD CD RW F F 2 Lecteur DVD G F gt Panneau de configuration Test Molecules F C3 Documents partag s wae 72 Continue Quit Une fois le r pertoire choisi peut ajouter ou enlever autant de mol cules que l on souhaite dans les listes Query et Test l aide des fl ches gt et comme le montre les FENETRES W4 1 et W4 2 De plus il suffit de garder appuy les touches lt Shift g
57. aux l ments carbone C et aux l ments h t roatomiques H En c les noeuds correspondent aux anneaux aromatiques Ar anneaux aliphatiques R et groupes fonctionnels F En d les noeuds correspondent aux anneaux aromatiques Ar groupes fonctionnels F et groupes de liaison L Sy S N N CON N 57 H wf N L9 N h oH 1 Determine Isolating Carbons 2 Determine Functional Groups 990 em H lt 3 Determine Interactions 4 Use Superfragments Figure L4 Fragmentation de structures chimiques complexes timolol suivant la m thode fragmentaire FM 19 Environnement mol culaire La repr sentation d une mol cule comme fonction de son environnement atomes fragments ou liaison autour d un n ud est souvent utilis e comme un type de descripteur sous structural Le syst me DARC d velopp par Dubois Dubois1986 Dubois1999 d crit les sous structures contenues dans une mol cule travers le concept de FREL Les FRELs sont des sous structures ordonn es d une mani re concentrique autour d un foyer FO Le foyer peut tre un atome ou une liaison de la mol cule cible voir figure I 5 CI Target Structure CH CH H CH Atom centerd FREL C Bond centered FREL Oo Figure I 5 FREL Fragment R duit un Environnement Limit La g n ration des FRELs ob it certaines tapes la mol cule originale est transform
58. avec une approche classe par classe nous tudions la F mesure de van Rijsbergen 1979 associ e chaque classe a priori il s agit de retrouver au mieux une classe experte dans l ensemble de classes produites par un algorithme Pour une analyse globale nous pouvons galement utiliser l indice de Rand corrig Hubert1985 qui permet de comparer deux partitions Pour les deux indices une valeur de 0 correspond une absence totale de correspondance entre la structure a priori et la structure obtenue alors qu une valeur de 1 indique une correspondance parfaite Cette quantit permet donc de regrouper en un seul nombre les performances de l outil pour une classe donn e pour ce qui concerne le rappel et la pr cision Les d finitions des trois mesures d pendent de la structure vectorielle th orique construite manuellement pour valuer l outil St et de celle g n r e par l outil donc exp rimentale Sg 2X Pr ecision x Rappel St OS St S Precision 28 Rappel 52283 F measure Sg St Precision Rappel La figure IV 2 illustre de mani re sch matique le calcul de la pr cision du rappel et de la F mesure d une mol cule repr sent e par son vecteur descripteur D autres mesures d erreur sont aussi courantes 107 L erreur absolue moyenne mean absolute value pour chaque exemple on calcule la diff rence entre la valeur th orique et sa valeur exp rimentale On divise ensuite la somme de
59. chemical structures Comm ACM 22 1979 219 224 Martin2002 Martin Y C Kofron J L Traphagen L M Do structurally similar molecules have similar biological activity J Med Chem 45 2002 4350 4358 MendeleievWeb Information disponible sur l URL http pearll lanl gov periodic mendeleev htm Meylan1999 Meylan W M Howard P H Boethling R S Aronson D Printup H et Gouchi S Improved methods for estimating bioconcentration bioaccumulation factor from Octanol Water partition coefficient Environ Toxicol Chem 18 1999 664 672 Nikolova2003 Nikolova N et Jaworska J Approaches to Measure Chemical Similarity a Review QSAR Comb Sci 22 2003 1006 1026 Petitjean2000 Petitjean M Fan B T Panaye A Doucet J P Ring perception proof of a formula calculating the number of the smallest rings in connected graphs J Chem Inf Comput Sci 40 2000 1015 1017 Rouvray1990 Rouvray D H The evolution of the concept of molecular similarity In Johnson M A and Maggiora G M Eds Concepts and Applications of Molecular Similarity John Willey amp Sons New York Inc 1990 pp 15 42 Sussenguth1965 Sussenguth E H A Graph Theoretic Algorithm for Matching Chemical Structures J Chem Doc 5 1965 36 43 TurinWeb Turin L et Fumiko Y Structure odor relations a modern perspective Disponible sur l URL http www flexitral research review_final pdf Ullmann1976 Ullmann J R An Algor
60. cule cible L extraction des FRELs peut tre effectu e dans tous les atomes et dans toutes les liaisons Dans une autre approche Bremser Bremser1978 propose de caract riser des environnements sph riques des atomes et des syst mes cycliques en utilisant un code de sous structures appel HORSE La m thode LaSSI de Hull Hull2001 utilise la valeur de d composition singuli re d un descripteur chimique ou d une matrice mol culaire en sous structures pour cr er une repr sentation en moins de dimensions que l espace chimique original Ceci permet de calculer la similarit entre deux descripteurs ou entre un descripteur et une mol cule Xiao Xiao1997 propose un algorithme qui exploite l information mol culaire environnant un atome Ceci se fait couche par couche partir de l atome central de la mol cule cible et permet de construire un code structural M me si l id e ressemble beaucoup celle propos e par Dubois l algorithme pr sente des diff rences significatives dans la mani re de coder les fragments obtenus Ce codage se fait de mani re automatique sans pr d finir l avance des fragments sp cifiques Bender Bender2004 propose une technique pour la recherche de similarit entre mol cules Les descripteurs utilis s s appellent des environnements atomiques Xing2002 Ces descripteurs sont d interpr tation facile et sont tr s similaires aux descripteurs de signature mol culaire Faulon2003 Faulon200
61. cycliques 337 2 80 En plus on remarque l augmentation avec le temps des syst mes bicycles et monocycles 32 et 45 respectivement Sans surprise les l ments les plus r pandus sont dans l ordre H C O N S CL etc Un travail plus r cent de Xu Xu2000 fait l analyse de cinq bases de donn es courantes en chimie m dicinale pour construire un index qui d terminera le degr de ressemblance d une mol cule une drogue M me si le Top 10 des syst mes cycliques coincide avec celui de l tude CAS on observe que les l ments les plus utilis s sont H C Cl N F etc Dans une autre tude Ertl2003 des substituant organiques sont extraits partir d une base de plus de 3 millions de mol cules fournis par Novartis Mise part les applications particuli res de ces r sultats construction d un outil de bioisosterisme calcul de la diversit mol culaire nous les avons utilis s pour aider la conception de notre liste de fragments repr sentatifs La construction de la FragDB s est donc effectu e en plusieurs tapes Dans un premier temps on a consult les r f rences list es plus haut de mani re inclure des sous structures courantes et fr quentes dans la base Ensuite des sous structures int ressantes issues de la bibliographie ont t relev es la main et on a compl t la liste principale avec des sous structures d int r t pharmaceutique et m dical Toute cette information a t confro
62. de la similarit Les r sultats de l analyse sont d taill s sous forme de tableaux et de graphiques pour augmenter ainsi les interpr tations possibles des r sultats Une repr sentation alternative consiste tablir un classement ranking des mol cules selon leur score de dis similarit Ainsi la fin de la proc dure les mol cules de la TestDB sont ordonn es selon leur degr de ressemblance avec la ou les cible s Cette m thode facilite l laboration de listes de mol cules potentiellement int ressantes selon les crit res choisis mol cules tester ou synth tiser en priorit De cette mani re on fait des conomies dans le processus de recherche de nouvelles drogues ou de mol cules actives Saisie des molec test QueryDB Saisie de s molec cible s Base de donn es des sous structures G n ration du vecteur descripteur 2 Indexation dans la Base de Donn es des vecteurs Choix du type d analyse et du niveau de complexit Calcul de la dis similarit Derni re mol cule Classement ranking Y Mol cule s Leader Fin Figure 4 Aper u des fonctionnalit s du syst me d velopp 8 4 Plan g n ral Cette th se est consacr e la r alisation d un syst me de calcul de similarit et de diversit partir de descripteurs structuraux et des propri t s
63. et une base donn e analyse 1 N les mol cules d une seule base analyse N N ainsi que entre deux bases mol culaires diff rentes analyse N M L analyse des indices de similarit diversit au sein d une base mol culaire Ceci permet l utilisateur de juger la composition d une base donn e taille diversit et nature des mol cules Les sous structures le plus courantes ainsi que le caract re homog ne ou h t rog ne dans un espace donn peuvent tre d termin es La fusion de donn es ou data fusion Ceci est une approche r cemment tudi e et qui semble prometteuse Elle consiste effectuer plusieurs mesures de similarit avec des indices diff rents puis de combiner les r sultats selon des r gles pr cises Ces mesures de similarit sont g n ralement plus efficaces en termes de recherche des mol cules bio actives que des rangs bas s sur un seul coefficient simple Ceci est valable sous condition qu une combinaison appropri e des coefficients soit choisie pour la fusion Le co t informatique est galement n gligeable car les valeurs additionnelles de coefficients peuvent tre calcul es un co t informatique minime puisque les comparaisons de sous structures ont t d j effectu es pour le premier index Les domaines d application de MolDiA sont tr s nombreux car les m thodes pour calculer les similitudes ou des dissimilitudes entre des paires ou de plus grands groupes de mol cu
64. exactes sur des crit res particuliers Par exemple l appartenance ou non d un fragment d tect une famille des fragments les crit res de d finitions des familles sont d ordre structural principalement ainsi une amine tertiaire pourrait tre compar une secondaire ou primaire Les niveaux de flou peuvent varier d un fragment un autre ainsi pour certains fragments seul la comparaison exacte sera possible d surtout sa structure alors que pour d autres fragments des flous structuraux pourront englober des familles de 4 ou plus 109 des fragments quivalents En suivant cette m thode on a plus de chances de d crire la mol cule en totalit Parfois le logiciel ne sera pas capable de g n rer le fragment correspondant et d effectuer la comparaison soit parce que le fragment n est pas dans la base soit parce que les informations mol culaires sont insuffisantes pour effectuer l algorithme d Ullmann Et parfois le logiciel proposera par induction des fragments flous que l on n avait pas pr vu au d but On peut aussi ajouter des poids au moment de la comparaison fragment fragment pour param trer l importance relative des structures et des propri t s L importance d avoir diff rents types et niveaux de comparaison r side dans la possibilit d effectuer de multiples analyses en fonction de la complexit et de la nature des donn es mol culaires Quatre possibilit
65. fragments Les valeurs a b c pourront tre nouveaux calcul s avec les quations 4 Tous les fragments ne contribueront pas de la m me mani re et seront modifi s en fonction de leur poids structural Pour cas 1 a 3 1 Tant que pour le cas 2 a 2 b 4 et 2 On peut alors recalculer la similarit entre les mol cules V et V en utilisant l quation 3 et les valeurs de la figure IV 6 On obtient ainsi que la mesure de similarit en utilisant des poids structuraux quation 6 est modifi e par rapport au calcul de base quation 5 115 CAE TT a b c 343 1 4 2 oho 2 4 2 6 0 50 Les r sultats sont logiques puisque quand un fragment commun a un poids structural plus important que les autres similarit entre les deux mol cules augmente Gd 0 50 par rapport Sr 0 25 Et inversement si son poids est moins important Sr 0 20 par rapport Sr 0 25 Il ne faut pas oublier qu un vecteur n est apr s tout qu un mod le tr s simplifi d une mol cule et que l on peut avoir des r sultats inattendus au moment de les comparer Par exemple si on part de l id e qu une mol cule est gale un vecteur on peut assurer que les mesures de comparaison seront uniques entre deux mol cules diff rentes Mais selon le mod le employ ici pour g n rer des vecteurs repr sentatifs le fait de ne pas avoir consid r la dis
66. la comparaison exacte par nom de fichier choue qui prend en compte seulement la classe laquelle appartient la sous structure cyclohexane carbonyle pyrimidine ind pendamment de sa connectivit Si le vecteur descripteur moins de fragments le plus probable est qu il y a une ou plusieurs sous 171 structures absentes de la base de fragments Il suffit donc de modifier la base de fragment en rajoutant cette structure mais aussi modifier l index de fragments XML le fichier de r gles XML et tout autre document susceptible de contenir l information de la FragDB On remarque que le rapport entre la pr cision et le rappel pour 70 59 des mol cules est de plus de 80 Ces valeurs sont satisfaisantes pour les mol cules de caract re complexe originaires de la base Zinc voir Graphique V 33 D une mani re g n rale la tendance est d avoir de meilleurs descripteurs avec des plus grandes mol cules Graphique V 34 m me si la tendance est plus marqu e pour des mol cules ayant moins de 10 atomes Graphique V 33 Comparaison de la pr cision le rappel et la F Mesure pour les mol cules de Zinc Pr cision Evaluation du vecteur representatif B pour les mol cules de la Base Zinc mil m F Measure 100 Nom de fichier des mol cules de correspondance Sg St gt N o o o o o o o o o AN 172 Graphique V 34 Compa
67. le m me groupe de mol cules et si l on prend en compte les propri t s des fragments constitutifs la valeur de similarit simple pourra varier en fonction des poids des propri t s des fragments Par exemple on peut consid rer les valeurs suivantes pour les propri t s des mol cules montr es dans la figure IV 7 Propri t 1 Propri t 2 Propri t 3 Fragment Structure Aromaticit Polarisation Accepteur H O fi JL 1 1 5 2 R R h R X 1 2 1 h R z 1 1 1 d R z 1 1 1 Poids des propri t s 0 2 1 Figure IV 8 Table des valeurs des propri t s pour les fragments des mol cules V et V Des valeurs possibles de poids pour les propri t s sont indiqu es la fin La valeur par d faut dans tous les cas est gale 1 L usager choisit ensuite les valeurs poids assigner aux fragments et aux propri t s physicochimiques en fonction de l importance ou de la pertinence qu ils pr sentent pour son probl me ou pour le calcul de la similarit diversit mol culaire Pour les fragments reprenons les poids structuraux du cas 2 d j pr sent dans la figure IV 6 Pour les propri t s imaginons que les poids des propri t s choisis par l usager correspondent ceux de la figure IV 8 Dans cet exemple la pr sence d un carbonyle et une haute polarisabilit sont les 120 crit res qui ressortent du choix des poids pour le calcul de la mesure de simil
68. mol cule cible C La construction des matrices pour les parties non cycliques de la cible C est montr e dans la figure HI 15 a Matrice Ullmann CNUQ6 074bs CNUN6 153Qf Partie cyclique de la Cible C Q Q C Ca Cs Co C7 Cs Qi Q2 Cs Ca Cs No C7 Ns Ci 01010 00 110100 00 0 00 0 C 01011 011 000 00 0110 00 0 C3 0 0 0 1 010 0000 0 0 00 0 Cl C4 01011 011 000 00 0110 00 0 Cs 01010 00 1 0 1 0 1 01010 0 0100 0010110000 0 00 010 C 1 110 00 0 0 1 1 0 0010 0 0 Nu 1111010 00 001110 01010 010 D tection des fragments b Matrice Ullmann CNUQ6 074bs CNUN6 153Qf Partie cyclique de la Cible 01 0 C3 Ca Cs C7 Cs 01 0 Ca Cs No C7 Ns Ci 010 010100 0 001 0 C 010 01001 0 00 0 C3 010 010100 0 0 0 0 CH C4 0190 0 0 0 110 0 1 0 0 Cs 010 0 0 0 010 00 0 0 0 0 0 0 0 0 00 0 C lt 1 1 0 0 0 0 Nu 111010 0 0 0 0 Figure 14 a Matrice apr s passage de l algorithme d Ullmann comparaison atome par atome entre les parties cycliques de la cible C et les fragments cycliques de la figure III 12 b Matrice o l on a regroup les fragments d tect s En pointill un doublon pour le m me fragment La modification de l algorithme d Ullmann qui a t impl ment e identif
69. qui effectue de mani re automatique les analyses sur les bases de mol cules 3 2 Aper u des fonctionnalit s Nous avons donc mis au point une base de fragments qui est l origine de l approche structure propri t qui caract rise notre outil Les informations chimiques des sous structures contenues dans la base seront cod es et utilis es ensuite pour construire des descripteurs mol culaires Les descripteurs mol culaires ainsi construits coderont l information structurale et physicochimique de la mol cule cible Dans notre exemple figure 3 la structure mol culaire la 1 3 amino cyclohexyl ethanone est analys e pour g n rer un vecteur afin de mettre en vidence la pr sence ou l absence de certaines sous structures fragments pr d finies et r f renc es dans une base des sous structures de r f rence que nous appellerons par la suite FragDB Chaque sous structure de r f rence 101 CNUQ6 074bs AGCC 014Q et 57 0007 est associ e un l ment du vecteur Ces l ments pointent vers des informations de nature diverse S1 la mol cule M contient la sous structure de r f rence cette structure sera prise en compte pour la construction du vecteur Mol cule Test 1 3 amino cyclohexyl ethanone Masse mol culaire 141 21 ee J Formule Fragmentation CNUQ6 074bs AGCC 014Q ANSZ 000Z Figure 3 Analyse d une mol cule en utilisant des
70. qui rel ve de notre probl matique R f rences Bajorath2002 Bajorath J Integration of Virtual and High Throughput Screening Nature Reviews 1 2002 882 894 BajorathWeb Bajorath J Virtual Screening in drug discovery Methods expectations and reality Information disponible http www currentdrugdiscovery com Bayada1999 Bayada D M Hamersma H Van Geerestein V J Molecular Diversity and Representativity in Chemical Databases J Chem Inf Comput Sci 39 1999 1 10 26 Barnard1993 Barnard J M Substructure Searching Methods Old and New J Chem Inf Comput Sci 33 1993 532 538 Bender2004 Bender A Mussa H Y Glen R C Molecular Similarity searching using atoms environments information based feature selection and a na ve Bayesian classifier J Chem Inf Comput Sci 44 2004 170 178 Bocker2004 B cker A Schneider G Teckentrup A Status of HTS Data mining approaches QSAR Comb Sci 23 2004 207 213 Bremser1978 Bremser W Horse A novel substructure code Anal Chem Acta 103 1978 355 365 Brown1996 Brown R D Martin Y C Use of structure activity data to compare structure based clustering methods and descriptors for use in compounds selection J Chem Inf Comput Sci 36 1996 572 584 Cuissart2002 Cuissart B Touffet F Cr milleux B Bureau R Rault 5 The maximum common substructure as a molecular depiction in a supervised classifica
71. r le de valeurs de pond ration ou de coefficients de normalisation Ainsi quand les deux vecteurs comparer n ont pas la m me taille la normalisation des poids tant pour le plus grand comme pour le plus petit d entre eux a comme but de ne pas fausser les r sultats de comparaison Reprenant la structure de donn es simplifi es pour FragDB montr e dans le code II 7 et en faisant quelques modifications pour rendre plus claires les donn es qui nous int ressent clefs de recherche et propri t s physicochimiques on obtient le code IV 1 lt xml version 1 0 encoding iso 8859 1 standalone no gt genols o Nino emt 8 Date tor Prace gt Index name NCC 0322 mel us lt PositionList gt lt PositionList gt lt Keys gt Key name FID value 0147 gt Key name FAtomSum value 4 gt Keys Properties Property name HBondAD value 1 gt Property name Aromat value O gt Property name Polar value 1 gt Properties File Index Code IV 1 Index XML Structure de donn es simplifi e pour FragDB 118 On observe que les donn es correspondant aux propri t s physicochimiques et aux clefs de recherche ne sont pas seulement facilement rep rables mais elles sont aussi parfaitement structur es Ainsi les vecteurs de l quation 7 reprendront cette information qui sera ensuite param tr e avec les poids choisis pa
72. rue Guy de la Brosse 75005 Paris FRANCE This software is free of charge for personal use It can be downloaded at http ana maldonado free fr MolDi Your suggestions are welcome Contact us at fan paris jussieu fr Tel 33 1 44 27 44 12 Copyright April 2006 All Rights Reserved 200 Annexe 2 Fichiers XML et structures de donn es A2 1 Structures de donn es UserDB et FragDB en XML et ses DTD Mod le de structure de donn es pour la base de Fragments FragDB lt xml version 1 0 encoding iso 8859 1 standalone no gt Model for IndexCyc xml amp IndexAcyc xml Data Structure for FragDB gt lt Index gt lt File name ici le nom du fichier gt lt Keys gt lt Key name FID value ici code alfa num rique gt lt Key name FAtomSum value ici nombre entier gt lt Key name FRing value ici valeur binaire gt lt Key name FGF value ici chaine de caract res gt lt Keys gt lt Properties gt lt Property name HBondAcceptor value ici nombre entier gt lt Property name PotNegCharged value ici nombre entier gt lt Property name Aromat value ici nombre entier gt lt Property name Polar value ici nombre entier gt lt Properties gt lt File gt Il y aura autant d l ments lt File gt lt File gt comme des fichiers il y a dans FragDB lt Index gt L index pour les fragments cycliques IndexCYC xm
73. s pour l analyse de la Similarit et de la Diversit mol culaires sont offertes dans notre approche Celles ci sont repr sent es dans la figure IV 3 Analyse de Analyse de Analyse de Analyse de Similarit EN Similarit Diversit Diversit Comparaison d une Comparaison d une base de mol cules base de mol cules avec elle m me avec une autre base Comparaison d une Comparaison d une mol cule avec une mol cule avec un autre mol cule groupe de mol cules Figure IV 3 Analyses de similarit et de diversit propos es pour notre outil Le premier cas repose sur un calcul unique de la similarit entre la mol cule 1 et la mol cule 2 cas 1 1 On peut aussi calculer la similarit d une mol cule avec une base de N mol cules cas 1 N Le troisi me cas consiste en un calcul de la diversit interne d une base de mol cules donn es cas N N au travers des techniques expliqu es auparavant La quatri me possibilit consiste effectuer 110 un calcul de la diversit d une base de mol cules 1 par rapport une base de mol cules 2 cas N M Les deux derni res analyses produiront des matrices de Similarit Diversit de taille N x N et N x M respectivement D une part l analyse de la similarit mol culaire fournit une m thode simple et courante pour le criblage virtuel et elle est la base des m thodes de clustering D autre part l analyse de la diversit mol culaire explore la
74. similarit et de diversit l ments principaux 2 2 1 Les descripteurs 2 2 2 Les indices de similarit 4 2 3 Le syst me des poids 4 3 Probl matique et aper u du syst me d velopp 5 3 1 Probl matique particuli re 5 3 2 Aper u des fonctionnalit s 6 4 Plan g n ral 8 Chapitre I Criblage virtuel et m thodes de traitement structural I 1 Le criblage virtuel de haut d bit en chimie informatique 11 1 1 1 La chimie combinatoire 12 I 1 2 Le criblage virtuel et le criblage de haut d bit 13 I 2 Le criblage virtuel et les approches structurales 15 1 2 1 Le choix de descripteurs 16 I 2 2 Les descripteurs structuraux dans les outils de criblage virtuel 17 I 2 3 La comparaison de descripteurs dans la litt rature 23 Chapitre II Bases de donn es repr sentation et structuration II 1 Bases de donn es Lexique et construction 31 II 1 1 Lexique et format de mol cules 32 II 1 2 Construction de la base de donn es de fragments FragDB 33 II 1 2 1 Les atomes g n riques 33 II 1 2 2 L origine des fragments et des sous structures 36 II 1 2 3 Un apercu des bases de fragments 39 II 1 3 Construction des bases de donn es QueryDB et TestDB 42 II 2 Structuration des informations mol culaires et XML 43 II 2 1 Les langages de marquage 44 II 2 1 1 Histoire 44 II 2 1 2 Principes 45 II 2 1 3 XML pour structurer les informations chimiques 50 II 2 2 La structuration de la FragDB avec XML 51 II 2 2 1 Cr ation et remplissage d un index XML de fragme
75. sup rieur une valeur d termin e I 2 2 Les descripteurs structuraux dans les outils de criblage virtuel La repr sentation d une mol cule comme une fonction de sa structure ou de ses sous structures est un moyen commun ment utilis pour les chimistes dans la recherche de similarit et la gestion des bases de donn es chimiques Traditionnellement ces descripteurs 2D sont li s la taille et la connectivit de la mol cule la pr sence de groupes fonctionnels etc Ces caract ristiques leur donnent une place tr s importante dans le groupe de descripteurs mol culaires 1D 2D 3D Pr c demment dans l introduction nous avons indiqu que les descripteurs utilis s pour le d veloppement des mod les mol culaires devraient repr senter la r alit chimique du syst me tre rapidement calculables et facilement interpr tables par les ordinateurs et les usagers Ceci dit on compte aujourd hui avec de multiples repr sentations mol culaires Dans la section 1 2 3 une s lection des travaux comparatifs de fiabilit et d efficacit des descripteurs sera pr sent e Il est important de noter que plusieurs de ces travaux coincident avec l id e que les descripteurs sous structuraux pr sentent un rapport efficacit simplicit du mod le gt assez avantageux D ailleurs ils ont t largement utilis s dans la communaut pour s attaquer aux probl mes de criblage de bases de donn es d optimisation de biblioth ques et de
76. t abord e par Martin Martin2001 Dans ces travaux des propri t s physiques calcul es ont t utilis es au lieu des activit s biologiques usuelles Des exercices de regroupement de mol cules pour tester la performance des descripteurs ont permis de d montrer que les descripteurs sous structuraux contiennent des informations sur les propri t s physicochimiques et des caract ristiques 3D dans une proportion quilibr e qui permet la pr vision des activit s biologiques White2003 Une des conclusions des travaux de Bayada Bayada1999 concerne les descripteurs sous structuraux Il d montre que ces descripteurs sont tr s performants et tablissent des relations entre les mol cules et des propri t s biologiques donn es Dans ce travail environ la moiti des descripteurs initialement consid r s a t limin e plus tard Beaucoup de descripteurs traditionnellement utilis s pour des tudes QSAR ont t inefficaces pour des analyses de diversit Seule l utilisation des fingerprints et de descripteurs englobant la mol cule enti re a donn des r sultats sup rieurs la s lection al atoire dans un groupe de diverses drogues potentielles D autre part Makara Makara2001 affirme que les m thodes 2D en comparaison avec les m thodes 3D souffrent de beaucoup d inconv nients Entre autres sont num r s le manque 25 d information sur la forme de la mol cule la localisation des groupes fonctionnels dan
77. tre abord e par des corr lations des mesures de distance ou des approches probabilistes ou associatives La performance de diff rentes mesures de similarit est le sujet de nombreux travaux Pearlman1999 Willet1986 Holliday2002 Remarquons que l valuation de similarit se fait dans l espace structural d fini par les descripteurs choisis au moyen d une m trique fix e et non par rapport aux distances interatomiques dans l espace 3D 2 3 Le syst me des poids Le troisi me l ment est le syst me de poids qui est utilis pour assigner diff rents niveaux d importance aux diff rents composants d une repr sentation Il y a des travaux int ressants sur la mani re qu ont les poids d exercer une influence sur l utilit de la mesure de similarit mol culaire Bath1993 Sadowskil998 Comme notre int r t est centr sur la chimie informatique et ses applications le crit re adopt pour notre tude sera en relation avec la chimie m dicinale et pharmaceutique En cons quence la diversit mol culaire pourra tre exprim e comme la diff rence de propri t s physicochimiques et de structure inh rente chaque mol cule Trouver une d finition satisfaisante pour nos besoins mais suffisamment g n rale aux concepts de similarit et de diversit est tr s difficile Des approches diff rentes pourront tre adapt es pour des crit res particuliers et permettre ainsi de trouver des solutions des probl mes ponctuel
78. tre des prot ines dont on a identifi exp rimentalement l implication dans tel ou tel processus pathologique Depuis 30 ans des progr s dans la robotique et l automatisation ont permis de multiplier les tests et de r duire les co ts car les essais sont lt miniaturis s gt et utilisent des volumes d chantillons tr s r duits Ces essais reposent sur des syst mes capables de r aliser des taches s quentielles ind pendantes telles que dilution pipetage et r partition de compos s dans des puits agitation incubation et finalement lecture et analyse de r sultats Ils sont pilot s par des logiciels sp cifiquement adapt s au type de t che r aliser De nombreux travaux d crivent de mani re assez compl te les m thodes de criblage virtuel compl mentaires ou non au HTS qui ont t adapt es ou cr es pour l analyse la classification la s lection ou le filtrage des bases de donn es mol culaires Stahura2004 B cker2004 Lengauer2004 Bajorath2002 I 2 Le criblage virtuel et les approches structurales Les domaines d application du criblage virtuel VS et du criblage de haut d bit HTS sont tout fait diff rents Ainsi le VS est souvent discut dans un contexte chemoinformatique tandis que le HTS appartient au domaine r el de la recherche pharmaceutique Nous ne ferons pas ici une discussion d taill e de toutes les techniques englob es par les termes VS et HTS car ceci est hors des objectifs de ce
79. tude comparative en utilisant trois types diff rent de descripteurs descripteurs GETAWAY descripteurs topologiques du type matrice de Wiener et descripteurs WHIM Le travail conclut que les descripteurs GETAWAY sont avantageux car ils encryptent l information 3D sont facilement calculables et permettent de bonnes pr dictions de propri t s physicochimiques Feng Feng2003 a compar diff rents types de descripteurs 1D 2D et 3D en utilisant quatre types de bases de mol cules diff rentes et trois m thodes statistiques Il a conclu qu il n y avait pas de diff rences de performance significatives entre ces descripteurs Hicks Hicks1990 a valu la performance et l efficacit de cinq syst mes de recherche bas s sur les sous structures MACCS DARC HTSS CAS Registry MVSSS et S4 Les r sultats ont montr que tous les syst mes donnent des r sultats similaires en termes de performance sauf S4 qui pr sente des temps de calcul plus longs Martin Martin2001 a effectu une tude pour s lectionner les descripteurs mol culaires les plus pertinents pour des tests biologiques Ils ont utilis la m thode de Ward Brown1996 pour regrouper les mol cules actives et test trois m thodes de codage chimique 2D et trois de codage 3D Ses r sultats indiquent que les descripteurs structuraux 2D et 3D peuvent contenir de l information recoup e Mais des mol cules qui semblent tre similaires en 2D peuvent tre diff rentes en 3D si l
80. zinc 31 zinc 58 zinc 660 zinc zinc 707 zinc 888 zinc 948 25 47 43 43 32 3 27 29 25 40 43 28 34 30 44 38 45 26 22 41 39 22 45 30 29 20 34 48 45 32 43 36 37 zinc 1531 0 20 17 0 20 18 0 20 zinc 189 0 60 zinc 249 0 20 gine 252 0 20 zinc 28 0 20 zinc 32 0 50 zinc 370 0 40 zinc 38 0 60 zinc 4l 0 00 zinc 447 zinc 48 0 20 zinc 52 0 40 zinc 353 0 40 zinc 530 57 0 60 zinc 58 0 60 zinc 660 0 20 zinc zinc 707 0 20 zinc 888 zinc 948 0 20 COSI NE zinc 10 zinc 1036 zinc 1037 zinc 11 zinc 1145 zinc 1146 zinc 1152 zinc 1326 zinc 1385 zinc 1514 zinc 1527 zinc 1531 zinc TT zinc 18 zinc 189 zinc 249 zinc 252 zinc 28 zinc 32 zinc 370 zinc 38 zinc 41 zinc 447 zinc 48 zinc 52 zinc 53 zinc 530 zinc 57 zinc 58 zinc 660 zinc zinc 707 zinc 888 zinc 948 47 43 43 32 31 27 29 25 40 43 28 34 30 44 38 45 26 22 41 39 22 45 30 35 20 34 48 45 32 43 36 37 0 26 0 33 0 44 zinc 1931 0 20 zinc 17 0 18 0 50 0 35 0 45 0 24 zinc 18 0 17 zinc 189 0 45 0 41 0 30 zinc 249 0 17 0 31 zinc 252 0 18
81. 0 0 0 0 Degr d hybridation 2 2 3 3 3 3 3 3 2 2 3 3 3 3 Connectivit 1 3 1 2 KH 1 3 111 1 1 1 1 Valence 4 4 4 4 3 4 99 99 4 4 99 99 99 99 des H attach s 0 0131211 3 99 99 0 0 99 99 99 99 Caract re isotopique 0 010101010 0 0 1010 0 0 0 0 Caract re aromatique 0 010 O O O 0 0 010 0 0 0 0 Algorithme d Ullmann b Matrice AGCQ ANSZ ANSX Ullmann 014Q 0002 000X pour cible Q Q 1 R Z R X 0 0 0 11 0 C 0 0 1 0 0 0 Cs 1 10 0 0 C4 111 0 01100 0 Ns 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 D tection des fragments c Matrice AGCQ ANSZ ANSX Ullmann 014Q 0002 000X pour cible C Q Q IR Z R X 0 0 041 0 0 0 0 C 0 01 11 01 10 0 0 0 Cs 11 0100 0 0 0 C4 1 00 0 Ns 0 0 01 1 0 0412010 0 0 0 0170 0 0 89 informations de la mol cule cible on regroupe les fragments d tect s Figure 9 a Propri t s des atomes des mol cules de la figure 8 Pour faciliter la lecture les atomes sont num rot s de la m me mani re que dans le fichier MOL b Table des correspondances atome par atome apr s passage de l algorithme d Ullmann c Avec les Les propri t s qui ont t extraites font partie des caract ristiques minimales n cessai
82. 00 5100 5100 5100 5100 RSIOO RS100 1 10 100 11 13 14 15 16 17 18 RS100 RS100 RS100 19 2 CO ei Graphique V 29 Deux vues des graphiques N N a Vue de haut du distribution des donn es est homog ne b Vue de face du graphique 3D La est due l origine des donn es matrice diagonale donc sym trique Le nombr sup rieur ceux du graphique V 25 0 00 0 60 0 50 0 17 050 3 elel 2 N N gt LA 95 2 5 Un N D Cn Un 0 50 1 00 0 00 0 50 0 00 0 00 1 00 0 00 graphique 3D La sym trie du dessin e de points est bien a SIM SIM 0 0 120100 80 60 40 20 0 Random100 0 20 40 60 80 100120 164 Graphique V 30 Analyse de Similarit Diversit N N avec Random Indice de Tanimoto SIM 100 80 Bo 100 40 20 0 Random100 Graphique V 31 Analyse de Similarit Diversit N N avec Random Indice de Simpson 120 100 80 60 40 20 jg Random100 165 Graphique V 32 Analyse de Similarit Diversit N N avec Random Indice de Cosinus SIM 120 100 gg 60 40 20 jg Random100 V 2 3 Apercu des r sultats structur s et pr sent s avec XML Comme nous l avons indiqu auparavant les vecteurs de sous st
83. 00 0 4082 zinc_1152 mol 27 0 2500 0 5000 0 4082 zinc_888 mol 37 0 2500 0 5000 0 4082 zinc_10 mol 25 0 1667 0 5000 0 3162 zinc_1514 mol 40 0 1667 0 5000 0 3162 zinc_1531 mol 28 0 1667 0 5000 0 3162 zinc_707 mol 36 0 1667 0 5000 0 3162 zinc_17 mol 34 0 1429 0 5000 0 2887 zinc_1036 mol 47 0 1429 0 5000 0 2887 zinc_252 mol 45 0 1429 0 5000 0 2887 zinc_660 mol 32 0 1429 0 5000 0 2887 zinc_18 mol 30 0 1250 0 5000 0 2673 zinc_48 mol 30 0 1250 0 5000 0 2673 zinc_948 mol 51 0 1250 0 5000 0 2673 zinc_370 mol 41 0 1111 0 5000 0 2500 zinc_189 mol 44 0 1000 0 5000 0 2357 zinc 447 mol 45 0 1000 0 5000 0 2357 zinc 38 mol 39 0 0909 0 5000 0 2236 zinc 58 mol 45 0 0909 0 5000 0 2236 zinc 57 mol 48 0 0833 0 5000 0 2132 zinc 7 mol 43 0 0769 0 5000 0 2041 zinc 1037 mol 43 0 0769 0 5000 0 2041 zinc 1527 mol 43 0 0769 0 5000 0 2041 zinc 11 mol 43 0 0714 0 5000 0 1961 zinc 32 mol 22 0 0000 0 0000 0 0000 zinc 41 mol 22 0 0000 0 0000 0 0000 zinc 52 mol 35 0 0000 0 0000 0 0000 zinc 53 mol 20 0 0000 0 0000 0 0000 zinc 1146 mol 31 0 0000 0 0000 0 0000 zinc 1326 mol 29 0 0000 0 0000 0 0000 zinc 1385 mol 25 0 0000 0 0000 0 0000 zinc 530 mol 34 0 0000 0 0000 0 0000 2 045 A4 2 R sultats d une analyse lt 1 N gt avec la base lt Random100 gt R sultats avec la cible RandSel100 16 mol FileName atom Tanimoto Simpson Cosine RandSel100_16 9 1 0000 1 0000 1 0000 RandSel100_4 7 0 5000 1 0000 0 7071 RandSel100_52 5 0 3333 1 0000 0 5774 RandSel100_6 10 0 714
84. 00 28 9 0 000 0 000 0 000 RandSel100 29 10 0 000 0 000 0 000 RandSel100 30 7 0 000 0 000 0 000 RandSel100 31 8 0 000 0 000 0 000 RandSel100 32 10 0 000 0 000 0 000 RandSel100 35 8 0 000 0 000 0 000 RandSel100 36 7 0 000 0 000 0 000 RandSel100 37 9 0 000 0 000 0 000 RandSel100 38 8 0 000 0 000 0 000 RandSel100 40 6 0 000 0 000 0 000 RandSel100 42 7 0 000 0 000 0 000 RandSel100 43 8 0 000 0 000 0 000 RandSel100 45 7 0 000 0 000 0 000 RandSel100 46 9 0 000 0 000 0 000 RandSel100 47 8 0 000 0 000 0 000 RandSel100 48 6 0 000 0 000 0 000 RandSel100 50 4 0 000 0 000 0 000 RandSel100 52 5 0 000 0 000 0 000 RandSel100 57 7 0 000 0 000 0 000 RandSel100 58 8 0 000 0 000 0 000 231 RandSel100 59 RandSel100 61 RandSel100 63 RandSel100 66 RandSel100 67 RandSel100 68 RandSel100 70 RandSel100 71 RandSel100 72 RandSel100 75 RandSel100 77 RandSel100 80 RandSel100 82 RandSel100 83 RandSel100 84 RandSel100 86 RandSel100 87 RandSel100 89 RandSel100 90 RandSel100 92 RandSel100 95 RandSel100 96 RandSel100 97 RandSel100 98 RandSel100 99 RandSel100 100 LO L WOW 4 00 O P N 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 232 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0
85. 04 Ce criblage doit tre r alis haut d bit pour les bases de donn es de grande taille afin d obtenir des r sultats dans un temps raisonnable voir Walters 1998 et la figure I 2 Les candidats retenus apr s le premier criblage peuvent tre soumis d autres filtres par rapport des propri t s calculables sur la base de mod les empiriques partir de leur structure par exemple l affinit pour les graisses la solubilit Ces crit res serviront trier les mol cules qui compte tenu de ces propri t s ont le plus de chance d tre actives en fonction de telle ou telle cible M thodes informatiques qui exploitent les connaissances chimiques disponibles v R duire des bases de Extraire des composants grande taille r elle virtuelle A t potentiellement actifs Mol cule Chimie Combinatoire Cible Chimioth ques Pharmaceutiques Chimioth ques Acad miques Autres bases de donn es chimiques Figure I 2 Sch ma explicatif du processus de criblage virtuel de bases de donn es chimiques 14 Le criblage virtuel et le criblage r el que ce soit de haut ou de bas d bit sont des techniques compl mentaires dans la recherche de nouvelles mol cules Le criblage r el est actuellement le proc d le plus utilis en chimie m dicinale Bocker2004 Il consiste identifier les mol cules actives par mise en contact avec la cible biologique Ces cibles peuvent par exemple
86. 1 1124 1130 Murray Rust2002 Murray Rust P Rzepa H S Markup Languages How to Structure Chemistry Related Documents Chemistry International 4 2002 24 34 Murray Rust2003 Murray Rust P Rzepa H S Chemical Markup XML and the Wold Wide Web 4 CML Schema J Chem Inf Comput Sci 43 2003 757 772 OWLWeb Web Ontology language Information disponible sur http www w3 org 2004 OWL PerTableWeb Information disponible sur http www chem qmw ac uk iupac AtWt table html RecomXMLWeb Extended Markup Language XML 1 0 W3C Recommendation 4 F vrier 2004 Information disponible sur http www w3 org TR REC xml Stobaugh1988 Stobaugh R E Chemical Abstract Service Chemical Registry System 11 Substace Related Statistics Update and Additions J Chem Inf Comp Sci 28 1988 180 187 TutorialXMLWeb Tutorial en ligne de XML http www w3schools com xml xml whatis asp 70 Weininger1988 Weininger D SMILES Simplified Molecular Input Line Entry System J Chem Inf Comput Sci 28 1988 31 36 Weininger1989 Weininger D Weininger A Weininger J L SMILES Simplified Molecular Input Line Entry System J Chem Inf Comput Sci 29 1989 97 101 Information disponible sur http www daylight com dayhtml smiles Wiswesser1954 Wiswesser W J A Ed A line formula chemical notation Crowell New York 1954 Xu2000 Xu J Stevenson J Drug like Index A New approach to measure Drug lik
87. 1 0000 zinc 18 mol 30 0 5000 0 8571 0 6838 zinc 48 mol 30 0 5000 0 8571 0 6838 zinc 38 mol 39 0 6154 0 8000 0 7628 zinc 7 mol 43 0 5333 0 7273 0 6963 zinc 948 mol 51 0 3846 0 7143 0 5698 zinc 17 mol 34 0 3077 0 6667 0 4924 zinc 1036 mol 47 0 3077 0 6667 0 4924 zinc_1152 mol 27 0 1667 0 6667 0 3482 zinc_189 mol 44 0 4286 0 6667 0 6030 zinc_252 mol 45 0 3077 0 6667 0 4924 zinc 447 mol 45 0 4286 0 6667 0 6030 zinc 660 mol 32 0 3077 0 6667 0 4924 zinc 888 mol 37 0 1667 0 6667 0 3482 zinc 370 mol 41 0 3571 0 6250 0 5330 zinc 28 mol 26 0 2308 0 6000 0 4045 zinc 707 mol 36 0 2308 0 6000 0 4045 zinc 11 mol 43 0 3333 0 5455 0 5017 zinc 57 mol 48 0 3750 0 5455 0 5455 zinc 32 mol 22 0 0833 0 5000 0 2132 zinc 58 mol 45 0 3125 0 5000 0 4767 zinc 1037 mol 43 0 2778 0 4545 0 4352 zinc 1527 mol 43 0 2778 0 4545 0 4352 zinc 249 mol 38 0 2000 0 4286 0 3419 zinc 1514 mol 40 0 1429 0 4000 0 2697 zinc 1531 mol 28 0 1429 0 4000 0 2697 zinc 1145 mol 32 0 0769 0 3333 0 1741 zinc 1146 mol 31 0 0769 0 3333 0 1741 zinc 52 mol 35 0 1250 0 2857 0 2279 zinc 1385 mol 25 0 0714 0 2500 0 1508 zinc 10 mol 25 0 0667 0 2000 0 1348 zinc 53 mol 20 0 0667 0 2000 0 1348 zinc 1326 mol 29 0 0667 0 2000 0 1348 zinc 41 mol 22 0 0000 0 0000 0 0000 223 R sultats avec la cible QueryGen mol FileName atom Tanimoto Simpson QueryGen mol 9 1 0000 1 0000 1 0000 zinc_28 mol 26 0 4000 1 0000 0 6325 zinc_249 mol 38 0 2857 1 0000 0 5345 zinc_1145 mol 32 0 2500 0 50
88. 111 H 11 T T TT TTT TTT TTT eem 5 THULE Oe NE S 79D 7 7 7 7 7 1 Su S P OSS NS SES SES ESS ef S ef Ei ei el S S PS PS E E EEE ELE LC LK LK Base Random100 138 H HH HH Tableau V 8 R sultats avec cible RandSel100_51 mol Cosinus mol RandSel100 RandSel100 51 mol mol RandSel100 RandSel100_41 mol mol RandSel100 RandSel100_13 mol 0 5 0 70 mol RandSel100 RandSel100_88 mol 0 5 0 70 SERERE mol RandSel100 RandSel100_24 mol 0 61 mol RandSel100 RandSel100_27 mol 0 56 mol RandSel100 RandSel100_28 mol 0 56 mol RandSel100 RandSel100_31 mol 0 61 mol RandSel100 RandSel100_43 mol 0 67 mol RandSel100 RandSel100_76 mol 0 61 mol RandSel100 RandSel100_81 mol 0 67 E F F gt E N Tableau V 9 R sultats avec cible 100 74 mol F FileName Tanimoto Simpson Cosinus mol RandSel100 new RandSell00 74 mol 1 1 1 0 70 0 75 0 35 0 35 0 40 mol RandSel100 RandSel100 88 mol 0 2 0 5 0 35 0 28 0 20 0 22 0 25 139 Graphique V 7 Graphique de mesures de similarit pour Random et RandSel100 51 mol Graphique de l index de Tanimoto pour RandSel100 51 Vs Random100 0 8 0
89. 147 gt Key name FAtomSum value 4 gt lt Keys gt lt Pirojpert Property name HBondAD value 1 gt Property name Aromat value 0 gt lt Property name Polar value 1 gt lt Properties gt lt File gt lt Index gt Code II 7 Index XML Structure de donn es simplifi e pour FragDB L impl mentation de l index XML a n cessit la d finition pr alable d une DTD correspondante Dans le code 7 on pr sente un fragment du fichier index XML pour la sous structure AGCZ 014Z mol d j apparue dans la figure 17 L information contenue dans l index est reprise ici dans une version simplifi e pour des questions de place Par la suite dans le code II 8 et en suivant les r gles de construction nous avons propos une DTD pour la validation de la version simplifi e du fichier index XML On peut noter la d finition des l ments et de ses attributs ainsi que du type des donn es composant l index XML Une version non 59 simplifi e des structures de donn es des DTDs ainsi que de l index de fragments a t inclus dans l annexe 2 Kl Semals Cr DMD CoE 56 gt lt ELEMENT index Filet gt lt ELEMENT File Keys Properties gt lt 1 IST File name CDATA REQUIRED gt lt ELEMENT Keys gt lt ATTLIST Key name CDATA REQUIRED gt lt ATTLIST Key value CDATA REQUIRED gt
90. 2 8 Ab D 23 aq pou qe M n Quo Qu p S SIS S S SK Cy SO Swe K S Ss SS AP L SE e e LL EEE LEE FE 909 CF EFEEEEE LS Base Random100 Graphique du coefficient Cosinus pour RanSelt100 74 Vs Random100 D 5 1 0 8 0 4 0 2 0 2 p m Sa 2 14 2 LIS pA T S 2 A Se e S Be WHF FoF I HW ESS WH LELE HELE L S PES SE EE EEE ei ee PLP S Q Af 23 S 22 S 22 QE af Q Af 22 02 2 22 QE af Base Random100 141 H H H H H H H H H H RandSel100 2 mol H H RandSel100 6 mol ABT EC h p H H H H H H RandSel100 8 mol Br H Si 4H H H RandSel100_13 mol Cl N HA N F RandSel100 14 mol H H H Ke Ee S re H H H RandSel100_24 mol RandSel100 27 mol H H NH H H H H H HH RandSell00 35 mol RandSel100 19 mol O ub O HH RandSel100 41 mol H H E B RandSel100 46 mol RandSel100 52 mol H CI H Xu RandSel100 60 mol H H H S SNS S RandSel100 88 mol H Figure V 2 Quelques mol cules de la base lt Random gt appartenant au lt top 10 gt 2145 Apr s inspection des tableaux V 5 V 9 on remarque que 100 des requ tes ont abouti des r sultats de recherche d homomorphismes Toutefois le nombre de mesures varie d index en index et en fonction de la mol cule requ te Plus la cible est petite moins de correspon
91. 3 0 8333 0 8333 RandSel100_35 8 0 7143 0 8333 0 8333 RandSel100_46 9 0 7143 0 8333 0 8333 RandSel100_89 9 0 6250 0 8333 0 7715 RandSel100_92 9 0 6250 0 8333 0 7715 RandSel100_1 9 0 5714 0 8000 0 7303 RandSel100_15 6 0 5714 0 8000 0 7303 RandSel100_29 10 0 5714 0 8000 0 7303 RandSel100_40 6 0 5714 0 8000 0 7303 RandSel100_67 8 0 5714 0 8000 0 7303 RandSel100_70 7 0 5714 0 8000 0 7303 RandSel100_18 8 0 4286 0 7500 0 6124 RandSel100_63 8 0 4286 0 7500 0 6124 RandSel100_83 8 0 4286 0 7500 0 6124 RandSel100_84 8 0 4286 0 7500 0 6124 RandSel100_86 7 0 4286 0 7500 0 6124 RandSel100_2 9 0 4444 0 6667 0 6172 RandSel100_8 8 0 5000 0 6667 0 6667 RandSel100_25 8 0 2857 0 6667 0 4714 RandSel100_27 9 0 4444 0 6667 0 6172 RandSel100 32 10 0 4444 0 6667 0 6172 RandSel100 37 RandSel100 42 RandSel100 45 RandSel100 47 RandSel100 68 RandSel100 75 RandSel100 77 RandSel100 87 RandSel100 90 RandSel100 95 RandSel100 98 RandSel100 100 RandSel100 22 RandSel100 59 RandSel100 13 RandSel100 20 RandSel100 48 RandSel100 57 RandSel100 58 RandSel100 82 RandSel100 88 RandSel100 96 0 4000 0 6667 0 5774 0 5000 0 6667 0 6667 0 5000 0 6667 0 6667 0 4444 0 6667 0 6172 0 5000 0 6667 0 6667 0 2857 0 6667 0 4714 0 4444 0 6667 0 6172 0 5000 0 6667 0 6667 0 2857 0 6667 0 4714 0 3636 0 6667 0 5443 0 4000 0 6667 0 5774 0 2857 0 6667 0 4714 0 3750 0 6000 0 5477 0 3750 0 6000 0 5477 0 1429 0 5000 0 2887 0 1429 0 5000 0 2887 0 1429 0 5000 0 2887 0 1429 0 5000 0
92. 3a Ils sont calcul s partir de la table de connectivit On donne les distances partir de l atome 0 et on calcule des vecteurs jusqu la distance d sir e dans la figure I 8 jusqu une ou deux liaisons Des fingerprints d environnements mol culaires sont ainsi construits Ceux ci sont binaires pour indiquer la pr sence absence de vecteurs de comptage ou de types d atomes Cette technique a t utilis e pour retrouver cinq groupes de mol cules actives extraits de la base de mol cules MDL Drug Data Report MDDR Dans une analyse comparative les auteurs affirment am liorer les r sultats obtenus avec des descripteurs 2D et 3D 22 SIMILARITY SEARCHING USING ATOM ENVIRONMENTS Ies up Tier 0 1 po 7 22 25 C 2 N pl3 r LS gt 2 2 Figure 8 Illustration de la g n ration d un descripteur atour d un atome de carbone aromatique D autres contributions qui ont utilis des descripteurs structuraux de type graphe pour la recherche des mol cules ou l analyse de similarit sont cit es dans la litt rature Takahashil992 Gillet1991 Garey 1978 Une revue des m thodes de recherche qui utilisent des sous structures a t publi e par Barnard Barnard1993 Dans ce travail les avanc es quant l utilisation des descripteurs structuraux pour la d termination de la similarit et la diversit mol culaires ont t r sum es 1 2 3 La comparaison de descript
93. FENETRE W2 1 des param tres de type structurel personnaliser sont montr s Les structures sont ordonn es par taille et par complexit d abord les groupes acycliques de petites mol cules et ensuite les groupes cycliques 187 Chaque structure peut prendre trois valeurs diff rentes Si l usager ne veut pas changer la valeur par d faut celle ci sera 1 Si l usager veut ignorer une ou plusieurs structures de son calcul il s lectionnera 0 Si l usager veut augmenter la contribution d une ou plusieurs structures il s lectionnera 2 FENETRE W2 2 Custom the Physicochemical Property Weights E 2 x To custom the Physicochemical weights please choose between the values below The default value is automatically set to 1 If you wantto eliminate the contribution of a property set 0 If you wantto increase the importance of a property 2 Physicochemical Property Weight H Bond Acceptor Co 61 C2 Potentially Negatively Charged 61 C2 Aromaticity Polarisation 61 C2 Dans la FENETRE W2 2 les param tres personnaliser de type propri t sont montr s une liste avec des propri t s physicochimiques pertinentes Comme dans la FENETRE W2 1 cette liste peut tre modifi e ou augment e dans le futur La valeur par d faut des param tres est l unit et les valeurs possibles vont de 0 2 La m me proc dure de la FENETRE W2 1 s applique ici pour s lectionne
94. Favoris 60 8 3 Adresse D DiA interface MolDiAvesults Allindices xi 8 B OK T Google Gr y Param tres Query Molecules 10 inc 1146 mol zinc 1152 mol zinc 1326 mol N Molecules atoms zinc 10 mol 1 000000 0 500000 0 142857 0 000000 zinc 1146 mol 0 500000 1 000000 0 166667 0 125000 4 1l Poste de travail 2 195 Figure A1 2 Copies d cran de fichiers de mesures de similarit 1 N ouverts avec Internet Explorer On observe que les mol cules peuvent tre pr sent es en format 2D ou 3D F MolDiA Sim Div Indices D xl Fichier Edition Affichage Favoris Outils 2 m Pr c dente v Q M EN 2 42 Rechercher Se Favoris Cr w T 3 Adresse C MolDi _2 3tresults Allindices xml gt Google Gy We Param tres v MolDiA Sim Div Indices MolDiA version 2 0 Laboratory ITODYS Universit Denis Diderot Date 10 09 2006 11 14 Index Tanimoto Query Molecules Query2Z2 mol Cl Test Molecules Number of atoms zinc_1036 mol D 0 200000 S atom 12 Group MOL 1 J Poste de travail MolDiA Sim Div Indices 3 Fichier Edition Affichage Favoris Outils 2 ay Q precedente gt CJ x H Rechercher Se Favoris 6227 wj x Adress
95. H CH3 ii 3 hydroxybutanamide HO NH2 10 16 0 5 102 em 457 33 kJ mol H3C iii 2E 4 5 dimethylhex 2 ene H3C N 1549 0 5 1024 cm 100 07 kJ mol Figure IIL2 Analogie attributive entre paires de mol cules et valeurs des propri t s physicochimiques Polarisabilit calcul avec ACDC ChemSketch 5 12 0 Enthalpie de formation calcul avec HyperChem 6 0 m thode AMI 79 Derni rement plusieurs auteurs ont soulign partir de r sultats contradictoires que le principe de similarit des propri t s devait tre appliqu avec quelques pr cautions La d finition de similarit utilis e dans chaque situation doit tre choisie soigneusement et adapt e aux besoins du calcul car il n existe pas de r gle absolue en termes de similarit pour le calcul des analogies mol culaires Des calculs effectu s par Doucet et al Doucet1998 avec des compos s liant le r cepteur d ad nosine Al figure HI 3 ont montr que malgr le fait que les mol cules semblent voisines d un point de vue structural elles montrent des diff rences significatives en particulier dans leur potentiel lectrostatique mol culaire MEP Dans la figure a on observe que la meilleure correspondance entre les mol cules A et B coincide avec la pr diction structurale Par contre en b la mol cule C doit tre tourn e de 180 pour obtenir une bonne superposition des points MEP O
96. Key name FID value 030Q Key name FAtomSum value 8 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys Properties Property name HBondA value 2 gt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File File name AGCN 0310 mol gt Key name FID value 0310 gt lt Key name FAtomSum value 8 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys Properties Property name HBondA value 2 gt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File E Suite de l indexAcyc dans environ 13 pages File name ANSZ 000Z mol gt Keys Key name FID value 0002 Key name FAtomSum value 2 gt Key name FRing value 0 gt Key name FGF value none gt lt Keys gt lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties File lt index gt 211 Index de fragments cycliques IndexCyc xml lt xml version 1 0 encoding iso 8859 1 standalone no gt lt index gt File name CAUA6 055A mol gt lt Keys
97. LT E XMLSchema Vu Stylesheets A DTD Validation Transformations CML Science Semantic Web E Na Multimedia ki 3 ThermoML r RuleML OWL mum MI i RDF S lt Sa XHTML S Figure 11 La famille XML adapt de Bolev2001 48 Quelques sigles de la figure II 11 ont d j t expliqu s lors de l introduction au langage XML tout au long de la section pr sente toutefois on peut trouver le reste dans la section des abr viations au d but du manuscrit De nombreux livres Harold2001 et tutoriaux TutorialX ML Web sont disponibles pour apprendre utiliser XML Toutefois la recommandation du W3C RecomXMLWeb reste le document de r f rence II 2 1 3 XML pour structurer les informations chimiques Depuis l apparition des langages de marquage beaucoup d efforts ont t faits dans diff rents champs scientifiques pour d finir des sch mas et des vocabulaires ainsi que des ontologies regroupant les connaissances actuelles du domaine Il est important de noter que pour le domaine particulier de la chimie la construction d un langage de marquage a t l une des priorit s des groupes de travail du W3C Murray Rust2002 Gkoutos2001 Les r sultats des ces efforts ont abouti la cr ation d une base extensible pour un langage de marquage chimiquement compatible appel CML CMLWeb CML repr sente une des premi res approches pour traiter la plupart des probl m
98. NH Me i WW Figure 3 Mol cules utilis s dans le test de comparaison th ophylline ad nosine et C 5 2 amino 4cholophenyl 1 6 dihydro 1 3 imethyl 7H pyrazolo 4 3 d pyrimidin 7 one 80 Figure IIL 4 Correspondance entre la th ophylline et les mol cules B a et C b consid rant des propri t s lectroniques repr sent s par les points MEP et les propri t s st riques Le squelette atomique a t l g rement d plac pour am liorer la visibilit de la superposition D autres calculs men s par Gund et al Gund1980 et qui impliquent les anneaux pt ridine d acide di hydrofolique et de m thotrextate figure III 5 ont t confirm s par Doucet et al A premi re vue les deux mol cules qui initialement pr sentent une structure 2D similaire semblent tre de bons candidats pour se lier la dihydrofolate r ductase DHFR Mais une inspection visuelle de ses r gions MEP figure 6 et l vidence cristallographique confirment que dans la forme active le m thotrextate a subi une rotation de 180 81 Figure IIL5 a Mol cules mod les d acide di hydrofolique et de m thotrextate b Mod le MEP pour R CH3 Les lignes pointill es correspondent aux r gions MEP n gatives Une tude assez r cente des exceptions au principe de similarit des propri t s a t effectu e par Nikolova et al Nikolova2003 Les auteurs af
99. Result XML Figure 7 Sch ma g n ral de la proc dure de cr ation des vecteurs mol culaires dans l outil d analyse de similarit et diversit des mol cules propos 85 Dans un premier temps la comparaison est de type structural Elle est faite en utilisant l algorithme d Ullmann et un algorithme de type SSSR smallest set of smallest rings et elle vise la cr ation des vecteurs repr sentatifs descripteurs Dans un deuxi me temps la comparaison est faite entre ces vecteurs descripteurs en utilisant des indices des coefficients ou des distances et elle vise au calcul de la mesure de similarit diversit entre les deux mol cules Le sch ma g n ral de la proc dure est donn dans la figure 7 III 2 1 Transformation des mol cules et g n ration des vecteurs descripteurs Pour effectuer la transformation des mol cules en utilisant la FragDB nous suivons les tapes suivantes Reconnaissance des motifs structuraux des mol cules contenues dans les mol cules G n ration des vecteur descripteurs pour l ensemble des mol cules analys es Par la suite nous allons expliquer chaque tape en d tail III 2 1 1 Reconnaissance des motifs structuraux Pour faire une reconnaissance des motifs structuraux ou des fragments entre deux mol cules il est n cessaire d effectuer une comparaison atome par atome Pour comparer les atomes de la mol cule cible avec ceux des fragments disponibles nous avons util
100. S 0151 18 051 VACIS 051 lt UNGS O Sil GUY euo gt Gil 7 fs Imi Am Ama 1771 N X lt D Ss 5 ANSC 000R ANSM 000M ANSX 000X ANSZ 000Z CALE gt uiv Qui Gs 15112 2521 ia lou MG CIC 01 AGCM 01 AGCX 01 AGCZ 01 Gil ZS LU Qui gt tox S VIN N X lt 5 5 8 EAN AGCO 0140 mol gt ANIZ 002Z mol gt Fh Fh UAGGA OTSE 014 60 01 210 AGCQ 0140 eui se oul gt eu ys e ys ig don aea Eh E SEE 203 lt Cond gt Frag ref AGCN 028Q mol gt Cond lt EXC gt Frag ref AGCQ 014Q mol Frag ref ANIZ 0022 mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol lt Exc gt lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCN 031Q mol Frag ref AGCO 015Q mol gt eme lt gt Frag ref AGCQ 014Q mol Frag ref ANIZ 0022 mol lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCN 030Q mol gt Cond Exc sad gc Four rej GO RE ANIZ 0027 im map 51122541 mol AGCO 0140 mol gt mol gt SANTZ 002
101. THESE DE DOCTORAT De l Universit Paris 7 Denis Diderot Sp cialit Chimie Informatique et Th orique Diversit Mol culaire Application au Criblage Virtuel Corr lation avec des Propri t s Physico chimiques Soutenue le 19 septembre 2006 Par Ana MALDONADO Devant le jury compos de Prof Michel DELAMAR Pr sident Prof Alexandre VARNEK Rapporteur Dr Dragos HORVATH Rapporteur Dr Michel PETITJEAN Examinateur Prof Georges DIVE Examinateur Prof Bo Tao FAN Directeur de th se Prof Jean Pierre DOUCET Invit CERTAINS DROITS RESERVES This work is licensed under a Creative Commons Attribution NonCommercial NoDerivs 2 0 License i A ma famille au sens large du terme qui m a toujours encourag e et support e ceux et celles qui ont cru en moi je leur d die ce travail iii iv Le travail present dans ce m moire a t effectu l Institut de Topologie et de Dynamique des Syst mes ITODYS de l Universit Paris VIL sous la direction du Professeur Bo Tao Fan et du Dr Michel Petitjean Je les prie de trouver ici mes remerciements les plus sinc res pour toute l aide qu ils m ont apport e J exprime galement ma profonde gratitude au Directeur du Laboratoire ITODYS Monsieur le Professeur Michel Delamar pour son accueil chaleureux dans le laboratoire ainsi que Madame la Professeur Annick Panaye pour m avoir accept e
102. Tableau V 13 Analyse de Similarit Diversit N N d une partie de la base Zinc avec Simpson 58 660 7 Tableau V 14 Analyse de Similarit Diversit N N d une partie de la base Zinc avec Cosinus 159 58 660 7 Graphique V 25 Diff rents vues des graphiques N N a Vue lt de haut gt du graphique 3D La distribution des donn es est homog ne b Vue de face du graphique 3D b Base Zinc Graphique V 26 Analyse de Similarit Diversit N N avec la base Zinc Indice de Tanimoto H Hat Sim L E uh a Sa T T ME ku HR 40 30 30 40 20 20 10 0 0 10 Base Zinc 160 Graphique V 27 Analyse de Similarit Diversit N N avec la base Zinc Indice de Cosinus
103. a mol cule requ te et contient un sous l ment appel Results Cet l ment regroupe la liste de mol cules Test qui ont t compar avec la requ te ainsi que ses mesures de similarit sous la balise Index La DTD correspondante est dans le code II 12 xml version 1 0 encoding iso 8859 1 standalone no gt Query fileName Queryl mol gt lt Results gt Test fileName UserMoll mol Index Tanimoto 0 676568 Simpson 0 956368 Cosine 0 876568 Test Test fileName UserMol2 mol Index Tanimoto 0 166667 Simpson 0 500000 Cosine 0 316228 Test Test fileName UserMol3 mol Index Tanimoto 0 071429 Simpson 0 500000 Cosine 0 196116 Test lt Results gt lt Query gt Code 11 IndexResult XML pour une TestDB d termin Seimjole oi DID gt lt ELEMENT Query Results gt lt ATTLIST Query fileName CDATA REQUIRED gt lt ELEMENT Results gt lt ATTLIS est fileName CDATA REQUIRED gt lt ELEMEN est Index gt Code II 12 DTD correspondant au IndexResult XML 66 II 2 4 La repr sentation des connaissances Jusqu maintenant nous avons montr comment les langages de marquage optimisaient la structuration des donn es en permettant une automatisation rapide et facile des processus d interrogation et d analyse des bases de donn es
104. aine comparer C est un fait que les animaux et les hommes ont la capacit de distinguer relativement bien les diff rences entre deux objets Naturellement ils font usage de leur sens logique pour reconnaitre regrouper ou g n raliser des objets et des concepts vis vis d une chelle particuli re Rouvray1990 Il est bien naturel de dire que deux objets sont dissimilaires ou similaires mais souvent ceci est relatif un concept ou plus exactement une r f rence tablie Pour illustrer cette id e nous pouvons dire que deux animaux sont toujours plus similaires entre eux qu un animal et une plante mais un chat est certainement plus similaire un tigre qu un poisson Comme nous l avons indiqu ci dessus le concept de similarit structure propri t a t introduit en chimie pharmaceutique vers le d but du 20 si cle Mais bien avant en Gr ce antique la m thode scientifique d Aristote consid rait d j l observation et la comparaison comme des tapes indispensables la d couverte de la v rit En 1869 Dmitri Mendele ev propose l arrangement des l ments chimiques d une mani re p riodique MendeleievWeb sur la base de la similarit des propri t s des l ments Une curieuse observation de sa table fait remarquer des espaces vides qui repr sentaient des l ments encore inconnus mais qui avaient t pr dits par Mendeleiev Aujourd hui en chimie informatique le concept de s
105. alyse de la similarit et de la diversit des mol cules Nous allons expliquer galement comment et pourquoi nous avons choisi des descripteurs structuraux au sein de notre outil de criblage virtuel Nous finirons avec un tat de l art des outils de criblage virtuel qui utilisent des descripteurs structuraux et qui rel vent notre probl matique I 1 Le criblage virtuel de haut d bit en chimie informatique Enrichir le panorama chimique et proposer de nouvelles sources de diversit mol culaire a t depuis longtemps un des buts principaux des chimistes Ainsi le principe de similarit des propri t s Johnson1990 Martin2002 qui affirme depuis une centaine d ann es que des mol cules structuralement similaires auront des propri t s similaires a servi de source la d couverte de nouvelles mol cules m me si ce principe a t mis en cause r cemment Doucet1998 BajorathWeb Nikolova2003 L int r t pour la diversit mol culaire remonte donc l application des concepts de similarit et de diversit en chimie voir ces d finitions dans l introduction et plus particuli rement en chimie pharmaceutique Les premiers travaux sur la relation entre structure et propri t s physicochimiques dans les mol cules simples et organiques datent respectivement de 1842 Kopp1842 et de 1864 Richardson1875 On remarquera les recherches de B W Richardson auteur d une s rie de travaux scientifiques sur la toxico
106. an N Comparison of k NN and neural network methods in the classification of spectral data from an optical fibre based sensor system used for quality control in the food industry Sensors and Actuators B Chemical 111 112 2005 354 362 Randic1979 Randic M Wilkins C L Graph theoretical ordering of structures as a basis for systematic searches for regularities in molecular data J Phys Chem 83 1979 1525 1540 Randic2001 Randic M Graph valence shells as molecular descriptors J Chem Inf Comput Sci 41 2001 627 630 Richardson1876 Richardson B W The diseases of modern life London Macmillan 1876 Schuffenhauer2000 Schuffenhauer A Gillet V J Willett P Similarity searching in files of three dimensional chemical structures analysis of the BIOSTER database using two dimensional fingerprints and molecular field descriptors J Chem Inf Comput Sci 40 2000 295 307 29 Sun2004 Sun H A universal molecular descriptor system for prediction of logP logs logBB and absorption J Chem Inf Comput Sci 44 2004 748 757 Stahura2004 Stahura F L Bajorath J Virtual screening methods that complements HTS Comb Chem amp HTS 7 2004 259 269 Stu2003 Stu Borman The many faces of combinatorial chemistry Chem Engin News 81 2003 45 56 Takahashil992 Takahashi Y Sukekawa M Sasaki S Automatic Identification of Molecular Similarity Using Reduced Graph Representation of Chem
107. ance des graphiques est monotone pour les trois indices Ceci montre que tous les indices ont indiqu comme similaires ou dissimilaires peu pr s les m mes mol cules Toutefois dans le graphique comparatif avec Query1Z3 il y a des mol cules o la mesure de similarit en utilisant l index de Simpson contredit les r sultats des autres indices Ces pics qui rompent la monotonie du graphique sont probablement dus une mauvaise description de la mol cule test ce qui entra ne une faible capacit de comparaison avec la cible Ces trois graphiques sont assez diff rents de ceux obtenus avec Query3Z Ceci met en vidence que l usage des atomes g n riques peut appauvrir d une part l information des correspondances car il y a plus de possibilit s que si l on n utilise pas les atomes g n riques mais permet galement d tudier d une mani re rapide la pr sence ou l absence d un groupe fonctionnel ou d une sous structure particuli re dans la base tudi e 144 Graphique V 9 Comparaison de 3 mesures de similarit pour la base Zinc et la cible 5 x Query1Z2 mol Comparaison d indices de similarit selon rang pour Query122 et la Base Zinc Tanimoto m Simpson Cosinus Base Zinc Graphique V 10 Comparaison de 3 mesures de similarit pour la base Zinc et la cible Index de similarit Query2Z2 mol Comp
108. andom L analyse 1 N avec les mol cules de la base Random nous a permit d valuer la capacit de l outil pour d tecter et analyser des sous structures qui sont moins courantes dans la base Zinc Des exemples de ces fragments sont des sous structures de nature hydrophobe ou aliphatiques comme ceux contenus dans 4561100 16 mol ainsi que quelques syst mes cycliques non aromatiques RandSel100 29 mol Malgr le manque de syst mes cycliques dans Random ce qui n est pas tr s repr sentatif de la diversit mol culaire des grandes bases de mol cules actuelles on observe des bons r sultats de d tection de ses syst mes D autres groupes fonctionnels d usage courant en chimie ont t test s travers l usage de RandSell00 51 mol et de RandSel100 74 mol comme mol cules requ tes 135 H Tableau V 6 R sultats avec cible RandSel100 16 mol H Simpson 1 1 1 0 83 0 83 0 83 0 83 083 0 7 mol RandSellO0 RandSellOO L mo 057 0 0 73 08 073 08 073 Tableau V 7 R sultats avec cible RandSel100 29 mol HH Cosinus l 0 66 0 57 0 73 0 5 0 67 mol RandSel100 RandSel100_6 mol 0 57 0 8 0 73 mol RandSel100 RandSel100 40 mol 0 66 0 8 0 8 terri 136 Graphique V 5 Graphique de mesures de similarit pour lt Random gt et RandSel100 16 mol Graphique de l index de Tanimoto pour RandSel100 16 Vs Random100
109. arables La troisi me tape est la cr ation d une matrice vide de dimensions adapt es dans laquelle on enregistrera les informations correspondantes aux comparaisons exactes et floues effectu es entre les atomes Des doublons feront leur apparition notamment au moment de comparer des fragments sym triques par exemple Q et Q gt seront reconnus tour tour avec Cs et C4 mais une seule combinaison sera possible La quatri me tape consiste appliquer notre modification de l algorithme d Ullmann sur l ensemble des valeurs de la matrice pour carter les faux doublons et trouver les isomorphismes b Mol cules cycliques utilisation de l algorithme SSSR puis de l algorithme d Ullmann L algorithme pour la recherche des isomorphismes dans le cas des mol cules cycliques comprend 90 deux parties principales l extraction des cycles mol culaires travers l usage d un algorithme SSSR Smallest Set of Smallest Rings et le traitement des fragments cycliques et acycliques restants avec notre adaptation de l algorithme d Ullmann L algorithme SSSR utilis par notre outil correspond au Ring perception SSSR de B T Fan et al Fan1993 Petitjean2000 Cet algorithme extrait le groupe minimal de cycles les plus petits pour une mol cule d termin e L entr e de l outil consiste en une mol cule au format MOL La sortie est un fichier CYC qui contient en format texte la liste des atomes appartenant aux cycles Pou
110. araison d indices de similarit selon rang pour Query2Z2 et la Base Zinc 111111 ae AA AA A mun e 44 ri Vd EN TT e Tanimoto 2 Simpson Cosine 0 5 10 15 20 25 30 35 40 Base Zinc 145 Graphique V 11 Comparaison de 3 mesures de similarit pour la base Zinc et la cible Ld S E x o Query1Z3 mol Comparaison d indices de similarit selon rang pour Query1Z3 et la Base Zinc Tanimoto i m Simpson 000060 Cosine Base Zinc Graphique V 12 Comparaison de 3 mesures de similarit pour la base Zinc et la cible Index de similarit Query3Z mol Comparaison d indices de similarit selon rang pour QueryGen et la Base Zinc 0 8 0 6 STEEL LILI LL 0 4 Tanimoto 5 5 i gt Simpson 222400000606 Cosine 0 0 5 10 15 20 25 30 35 40 Base Zinc 146 V 1 3 2 Graphiques de comparaison d indices avec la base lt Random gt La comparaison d indices de similarit pour RanSell00 16 RanSell00 29 et 5 100 51 montre un comportement monotone interrompu par quelques mol cules pour lesquels les 3 mesures de similarit ne se correspondent pas On observe galement un d calage d environ 0 1 0 2 entre chaque index Ce d
111. ari t de repr sentations chimiques par ordinateur Dans notre cas la repr sentation d une mol cule se fera par rapport aux fragments la constituant et leurs propri t s implicites Nous montrerons ensuite la mani re dont nous avons construit et structur nos bases de donn es mol culaires II 1 1 Lexique et format de mol cules Tout au long de ce manuscrit une s rie de termes et d abr viations propres notre logiciel ainsi qu une nomenclature particuli re pour la base de fragments sera introduite Comme pour tout logiciel de criblage virtuel de haut d bit notre logiciel utilise plusieurs bases de donn es structur es diff rents niveaux et avec des buts diff rents La base de mol cules compos e des mol cules cibles est appel lt QueryDB gt et la base de mol cules comparer TestDB Une fois que l utilisateur choisi le deux bases QueryDB TestDB l analyse de similarit sera effectu e en utilisant une base de sous structures pr d finies manuellement et qui sera nomm e lt FragDB gt La figure 1 montre la composition des bases de donn es de l outil FragDB QueryDB TestDB La mol cule ou Base de base de mol cules mol cules analyser ou cible s comparer Base de fragments aussi appel base de sous structures Figure 1 Lexique utilis pour d signer les bases des mol cules utilis es dans l outil de criblage Plus tard dans la sectio
112. arit entre les deux mol cules La contribution de chaque fragment sera regroup e sous forme d entit e formule 8 qui permettront de calculer les valeurs a b et c pour le calcul de la mesure de similarit En utilisant les valeurs de la figure IV 6 IV 8 et les quations 8 9 et 10 on obtient pour notre exemple le r sultat suivant o Ou VD gt p _ 1x0 55x2 2x1 4 5 1x0 2x2 1x1 EUG D ge SEET EE 2 2222 Suivant les nouvelles modifications pour les valeurs lt a b c gt de l quation 3 on obtient a 2 22 0 2 22 b 2 22 1 1 4 22 12 c 2 22 On peut alors calculer la similarit entre les mol cules V et V en utilisant l quation 3 et les valeurs de 12 e 2 22 S vosvV c T F Fr T a b c 222 422 2292 0 52 13 121 Finalement la mesure de similarit calcul e en utilisant des poids de structures et de propri t s est de 0 52 au lieu de 0 25 au premier niveau d analyse et de 0 50 quand sont utilis s seulement les poids structuraux Si on prend donc en compte les propri t s physicochimiques des mol cules V et celles ci sont plus similaires que si l on prend en compte seulement leur structure car un des fragments commun aux deux structures une importance plus grande l gard de ses propri t s attach es Conclusion Dans ce chapitre nous avons tudi les indic
113. arit et des r sultats obtenus par combinaison de ces mesures L tude a t effectu e sur des grandes bases de donn es chimiques avec un int r t certain sur la possibilit de retrouver des mol cules actives travers des analyses de similarit Mais la fusion des classements n est pas une op ration triviale Elle peut tre d finie comme la recherche d une partition optimale de n individus lorsque l on a en entr e p partitions diff rentes de 149 ces n individus Dans notre cas 1 individu 1 mol cule et 1 classement 1 partition ce qui quivaut classer ou partitionner les n individus en K classes Ainsi cette observation fournit une fa on simple d augmenter la performance des syst mes existants pour la recherche de similitude partir d analyses sous structurales Les syst mes actuels comparent les descripteurs d une structure cible aux descripteurs de chacune des mol cules tests dans une base de donn es Ceci est fait en utilisant les sous structures communes et non communes de chaque comparaison pour calculer une mesure de similarit couramment le coefficient de Tanimoto Les r sultats obtenus par Holliday2002 sugg rent que si ces sous structures communes sont en plus employ es pour calculer les valeurs d autres coefficients comme cela est propos dans MolDiA alors le classement r sultant aura un plus grand nombre de compos s actifs dans les rangs lev s que si seul le coefficient de
114. at dans le graphique V 25b Le nuage de mesures de similarit correspondant l index de Simpson est celui qui pr sente une distribution la plus homog ne dans l espace par rapport aux deux autres indices Mais pour qu une base soit la plus diverse possible la plupart des points devraient tre dans le plan de la base Ceci serait une garantie que la plupart des mol cules ne se ressemblent pas les unes aux autres Plus le nuage de points est vers le haut Is 1 moins la base donn es sera h t rog ne le graphique V 26 tant un bon contre exemple 157 D autre part on observe des paliers des mesures de similarit autour de 0 2 0 4 et 0 6 en utilisant l index de Simpson Ceux ci correspondent l aire du maximum de correspondances des mol cules de la base Ce comportement d j observ lors des analyses 1 N met en vidence la pauvre capacit de s lection de l index de Simpson particuli rement accentu lorsque l on analyse des mol cules de petite taille voir graphique V 31 Les diff rences entre les repr sentations graphiques 3D des indices pour une m me base de mol cules nous donnent l information concernant la fa on dont a t men le calcul mais aussi sur la composition de la base Tableau V 12 Analyse de Similarit Diversit N N d une partie de la base Zinc avec Tanimoto 10 1146 1152 1326 1385 1514 1531 189 28 32 57 58 660 y 158
115. at mol gt Frag ref CNUQ5 071z mol gt A Frag ref ANSC 000R mol gt Frag ref ANSZ 000Z mol gt ou Requ te Frag ref ANSC 000R mol gt lt ExpRepVector gt lt Molecule fileName UserMol2 mol gt lt ExpRepVector gt lt Frag ref CNUQ6 195ba mol gt lt Frag ref CNUQ6 074bv mol gt lt Frag ref ANSC 000R mol gt Fichier R sultats lt indexResult XNL gt lt xml version 1 0 encoding iso 8859 1 standalone no gt lt Query fileName Query1 mol gt lt Results gt lt Test fileName UserMol1 mol gt Index Tanimoto 0 676568 Simpson 0 956368 Cosine 0 876568 gt lt Test gt lt Test fileName UserMol2 mol gt Index Tanimoto 0 166667 Simpson 0 500000 Cosine 0 316228 gt lt Test gt lt Test fileName UserMol3 mol gt Index Tanimoto 0 071429 Simpson 0 500000 Cosine 0 196116 gt lt ExpRepVector gt lt Molecule gt lt indexResultQF gt TRANSFORMATION COMPARAISON Usage d index XML de Entre diff rents Vecteurs FragDB Repr sentatifs Figure II 19 Cr ation et remplissage d un indexResult XML partir des mol cules de la QueryDB TestDB Une tape interm diaire importante est la transformation des mol cules analyser dans une repr sentation vectorielle des fragments Pour cela on utilise nouveau les avantages des fichiers XML par rapport aux bases de donn es conventionnelles En plus la vocation HTS High Thoug
116. atomes Chaque atome correspond une ligne de description Le format d une ligne de Atoms Block est pr sent par la suite et peut tre traduit l aide du tableau A3 3 lt 22222 2222 aaaddcccssshhhbbbvvvHHHrrriiimmmnnneee gt champ Description X Z Coordonn es des atomes aaa Symbole de l atome dd Diff rence de la masse masse particuli re d isotope Goo Charge de l atome sss Caract ristique de st r ochimie hhh Nombre total d hydrog nes attach s 1 bbb Marque de la caract ristique de st r ochimie consid r e VVV Valence HHH Marque de l hydrog ne attach Type de composant dans la r action iii Nombre total de composants dans la r action mmm Num ro de mappe d atome atome nnn Marque de changement de configuration eee Marque de changement pr cis dans une r action Tableau A3 3 Variables dans Atom Block 217 lt Bond Block gt Rassemble les informations relatives aux liaisons dans plusieurs lignes Similaire lt Atom Block gt chaque ligne correspond une liaison Le format d une ligne de lt Bond Block gt est d crit par la suite Le tableau A3 4 montre la signification des champs 111222tttsssxxxrrrccc gt champ Description 112222 Num ros d atomes 1 et 2 de la liaison Nature de la liaison 1 liaison simple 2 liaison double 3 liaison triple 4 l
117. bg 074bh 074bi 074bk 12 15 219 3 5 074ar 074at 074au 074av 074aw 074ax 074ay 074az 21 55 22 MeL Z gt mol gt molt 22 TOLY gt mol gt Mo 2 MOI Oil ZS gui ZS e Z gui Oly AS GU gt gui AS gl Z ul 5 Oily gt 1l 7 OU V 5 e 735 3 3 23 83 3 83 3 3 p y 5 JL gt ino gt moi As gui gt GITE Olt gt Ol gt ot y gt e Oil ZS ell ZS gui AS Olt AS gU Oil AS gui JS OE 535333 53333333 00Q mol 00Q mol 00Q mol 00Q mol 00Q mol Frag ref CNUQ4 195b mol 208 Frag ref CNUQ5 172f mol Frag ref CNUQ6 152ad mol Cond lt gt Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Exc lt FragRule gt lt FragRule gt lt Cond gt Frag ref CNUQ6 074 mol Cond Exc Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Exc lt FragRul
118. bilit de param trer l importance le poids des sous structures et de certaines propri t s physico chimiques avec comme but la personnalisation des mesures de similarit et de diversit L introduction de requ tes avec des atomes g n riques introduit un degr suppl mentaire d assouplissement et de possibilit de calculs pour l usager 175 Conclusion Dans ce chapitre nous avons montr les r sultats pr liminaires de MolDiA obtenus avec diff rentes bases de donn es Des mol cules petites ou grandes simples ou complexes ainsi qu un chantillon de drogues et des mol cules courantes en chimique pharmaceutique ont t utilis es Avec ces donn es nous avons fait des analyses de similarit et de diversit en prenant en compte des crit res divers tels que la taille des mol cules leur appartenance un groupe ou encore leurs propri t s physicochimiques Apr s analyse les deux groupes de donn es utilis es Zinc et Random ont montr avoir des configurations mol culaires tr s diff rentes Zinc est une base diverse et h t rog ne orient au drug design tandis que Random est une base de petites mol cules plus courantes en chimie spectroscopique qu en chimie m dicinale Au total ce sont 27 analyses diff rentes qui sont propos es dans l outil analyse simple avec des poids structuraux avec des poids structure propri t s analyse 1 N N N N M et trois mesures de similarit
119. c R sultats avec la cible Query1Z2 mol FileName atom Tanimoto Simpson Cosine Query1Z2 mol 11 1 0000 1 0000 1 0000 zinc_10 mol 25 0 6667 0 8000 0 8000 zinc 38 mol 39 0 3636 0 8000 0 5657 zinc 57 mol 48 0 3333 0 8000 0 5394 zinc 58 mol 45 0 3636 0 8000 0 5657 zinc 189 mol 44 0 4000 0 8000 0 5963 zinc 1146 mol 31 0 3333 0 6667 0 5164 zinc 888 mol 37 0 3333 0 6667 0 5164 zinc 7 mol 43 0 2143 0 6000 0 3873 zinc 1037 mol 43 0 2143 0 6000 0 3873 zinc 1527 mol 43 0 2143 0 6000 0 3873 zinc 370 mol 41 0 3000 0 6000 0 4743 zinc 447 mol 45 0 2727 0 6000 0 4472 zinc 32 mol 22 0 1667 0 5000 0 3162 zinc 11 mol 43 0 1250 0 4000 0 2481 zinc 17 mol 34 0 2222 0 4000 0 3651 zinc 18 mol 30 0 2000 0 4000 0 3381 zinc 28 mol 26 0 2500 0 4000 0 4000 zinc 52 mol 35 0 2000 0 4000 0 3381 zinc 53 mol 20 0 2500 0 4000 0 4000 zinc 1036 mol 47 0 2222 0 4000 0 3651 zinc 660 mol 32 0 2222 0 4000 0 3651 zinc 707 mol 36 0 2500 0 4000 0 4000 zinc 948 mol 91 0 2000 0 4000 0 3381 zinc_1145 mol 32 0 1429 0 3333 0 2582 zinc_1152 mol 27 0 1429 0 3333 0 2582 zinc_48 mol 30 0 0909 0 2000 0 1690 zinc_1514 mol 40 0 1111 0 2000 0 2000 zinc_1531 mol 28 0 1111 0 2000 0 2000 zinc_249 mol 38 0 0909 0 2000 0 1690 zinc_252 mol 45 0 1000 0 2000 0 1826 zinc_41 mol 22 0 0000 0 0000 0 0000 zinc_1326 mol 29 0 0000 0 0000 0 0000 zinc_1385 mol 25 0 0000 0 0000 0 0000 zinc_530 mol 34 0 0000 0 0000 0 0000 221 R sultats avec la cible Query2Z2 mol FileName atom Tanimoto Simp
120. c II 1 2 Construction de la base de donn es de fragments FragDB Comme indiqu dans la section pr c dente la FragDB consiste en une base de sous structures mol culaires pr d finies manuellement Les d finitions structurales et les crit res de construction de la base seront pr sent s ci dessous Pour prendre en compte la plus grande diversit chimique dans les fragments d finir sans toutefois tre exhaustif nous avons utilis des atomes g n riques dans la construction des sous structures 33 II 1 2 1 Les atomes g n riques Ces atomes g n riques respectent une hi rarchie d finie partir des mod les d j existants et des besoins particuliers de notre outil Ainsi une premier classe d atomes appel repr sente tous les atomes de la table p riodique moderne nos jours M me si cet atome g n rique n est pas proprement inclus dans les sous structures il permet de d finir un cadre pour classer tous les autres atomes Au deuxi me niveau de complexit nous avons trois classes d atomes les carbones aromatiques A P hydrog ne lt H gt non inclus de mani re explicite dans les repr sentations des sous structures et tout les autres atomes repr sent s par lt Q gt La classe lt Q gt elle m me est compos e des halog nes lt X gt des m taux M et des h t roatomes importants en chimie pharmaceutique Z savoir les atomes de bore d oxyg ne d azote de
121. calage diminue vers les valeurs extr mes z ro et un Ceci est d la formule de calcul des indices et la normalisation qui succ de Un comportement diff rent est observ pour le graphique de comparaison d indices de similarit de RanSell00 74 Une grande partie des mesures de similarit est nulle car la mol cule requ te contient des sous structures qui sont rares dans la base Random notamment des fragments du type R X Les trois indices ont eu en moyenne le m me comportement vis vis de cette mol cule cible Graphique V 13 Comparaison de 3 mesures de similarit pour la base Random et la cible RandSell00 16 mol Comparaison d indices de similarit selon rang pour Random100 et RanSel100 16 H 1 H 28 0 8 H AMA E 3 LA A H 0 614 AA m H eet 4 Index de similarit 0 4 A 4 E ees Tanimoto 0 2 Simpson 9 9 4999 0 Cosinus 0 10 20 30 40 50 60 70 80 Base Random100 ss Graphique V 14 Comparaison de 3 mesures de similarit pour la base Random et la cible RandSel100 29 mol Comparaison d indices de similarit selon rang pour Random100 et RandSel100_ 29 9 e i 0 e Tanimoto 0 2 4006 E SS Simpson Cosinus Base Random100 Graphique V 15 Compara
122. ces erreurs par le nombre d instances dans l ensemble d exemples Plus formellement Soient pi po Pn les valeurs correctement trouv es avec l outil Soient a2 an les valeurs attendues th oriques Alors l Erreur absolue moyenne pi ai pn al n VecteurDescripteur Exp rimental Recherche des V fragments VecteurDescripteur communs Th oriaue 7 nombre fragments VecteurExperimental A nombre fragments du VecteurTheorique RNA nombre fragments communs Calcul de la Pr cision Calcul du Rappel Calcul de la F Mesure Z 2x Prec x Rapp Prec Rapp Figure IV 2 Sch ma pour le calcul de la pr cision du rappel et de la F Mesure pour une mol cule en comparant le vecteur descripteur exp rimental fourni par le logiciel et un vecteur descripteur th orique construit manuellement partir de la structure mol culaire Ceci a comme but la v rification de la fiabilit de r sultats L tiquette XML identifie les donn es qui peuvent tre trait es en entr e sortie par l outil dans un format XML La Racine carr e de l erreur quadratique moyenne root mean squared error cette mesure d erreur concerne principalement la comparaison entre donn es exp rimentales et valeurs r elles 108 Avec les m mes notations que ci dessus elle vaut Racine carr e de l erreur quadratique moyenne Dip ai g
123. compl ter la description de la mol cule partir de ses fragments fondamentaux Diff rents niveaux de complexit de l information devront donc tre int gr s pour optimiser la structuration et minimiser la redondance dans notre base de donn es La recherche d une m thode simple extensible et standard pour structurer l information contenue dans notre base de donn es a abouti l utilisation des langages de marquage XML II 2 1 Les langages de marquage II 2 1 1 Historique Murray Rust2002 Les origines de XML langage de balisage extensible remontent aux ann es 60 avec l introduction par IBM de GML et son standard SGML Ces deux langages permettaient de formater les documents texte et de d finir leur type Leur complexit d impl mentation a restreint leur utilisation la communaut des diteurs Dans les ann es 90 l apparition de HTML a permis la popularisation du web et de la 44 pr sentation informatis e de documents Ce langage simple et facile impl menter a facilit l change et la pr sentation des contenus mais avec la contrainte d tre fixe pr d fini et non modifiable En 1998 le W3C World Wide Web Consorsium recommande l usage de XML qui devrait avoir comme objectifs e Pouvoir tre utilis sans difficult sur Internet e Soutenir une grande vari t d applications e Etre compatible avec SGML e Permettre de cr er facilement des documents XML e Permettre d crire facilemen
124. cteur est donc structur comme montr dans la figure 17 Le vecteur r sultat ainsi obtenu sera dor navant utilis comme le descripteur structural pour la mol cule analys e On pourra alors effectuer une comparaison entre deux mol cules en 96 utilisant leurs descripteurs respectifs De plus gr ce au fait que le vecteur r sultat contient des informations h t rog nes donn es structurales et de propri t s physicochimiques on peut effectuer des comparaisons mol culaires selon des crit res tr s divers Les diff rents crit res de comparaison entre les mol cules de la Query TestDB sont le sujet du chapitre 4 ResultVector lt NomFichier mol lt lt Frag1 Frag2 FragN N gt gt Nom du fragment Nombre d atomes Propri t s Fragment ID ee Nombre del Vecteur des fragments fragments etc g dela gt ResultVector cible Figure III 17 Structuration du vecteur r sultat Conclusion Tout au long de ce chapitre nous avons expliqu la strat gie d analyse mol culaire visant construire des descripteurs structuraux Ces descripteurs vont ensuite tre utilis s pour effectuer des comparaisons entre mol cules selon des crit res structuraux ou li s aux propri t s R f rences BajorathWeb Bajorath J Virtual Screening in drug discovery Methods expectations and reality Information disponible sur http www currentdrugdiscovery com Barrow1976 Barrow H G
125. d avantages II 2 2 1 Cr ation et remplissage d un index XML de fragments Dans la section II 1 nous avons d taill les principes de construction de la base de donn es FragDB le choix des fragments des atomes g n riques la nomenclature du nom de fichier etc Dans cette section nous sommes concern s par la base de fragments FragDB illustr e dans la figure suivante montrant le lexique utilis pour d signer les bases des mol cules utilis es dans l outil de criblage Base de fragments aussi appel base de sous structures mol cules analyser ou a romparer VUE Gi Figure II 13 Nous centrons notre attention sur la base de fragments sous structures FragDB La FragDB est l origine un groupe de fichiers MOL nomm s selon une nomenclature particuli re et construits suivant certaines r gles d atomes g n riques et de fr quence des sous structures La base de donn es ainsi construite est form e de fragments isol s et non ordonn s sans aucune priorit et enfin non structur s L extraction des informations chimiques dans ces conditions est particuli rement difficile et hasardeuse x55 Nous avons donc d cid de cr er une structure de donn es qui nous permet d exploiter les informations chimiques contenues dans le fichier MOL Nous avons appel cette structure de donn es index XML lt index xml gt lt xml version 1 0 encoding iso 8859 1 standalone no gt
126. dances avec un haut indice de similarit seront trouv es Par contre le nombre de mesures de similarit entre 0 3 et 0 6 augmente Ceci est particuli rement valable en utilisant l index de Simpson dans le calcul La cible qui pr sente le moins de correspondances est RandSell00 74 o en moyenne 79 des mol cules pr sentent une mesure de similarit gale z ro envers cette requ te De faux isomorphismes ont t trouv s avec tous les indices Une analyse plus d taill e du ph nom ne de faux isomorphismes sera donn e dans la section V 3 2 Mesures de Sim gt 0 8 RandSell00 16 RandSell00 29 RandSel100 51 RandSel100 74 Tanimoto 1 1 3 1 1 3 2 2 6 1 1 3 Cosinus 4 5 19 3 3 9 2 2 6 1 1 3 Simpson 14 18 18 22 28 57 4 5 19 2 2 6 Tableau V 10 Nombre et de mol cules avec Is gt 0 8 trouv s avec MolDiA par rapport aux quatre mol cules requ tes Quelques mol cules test composant la base Random sont montr s dans la figure V 2 La composition de la base lt Random est lucid e apr s examen du graphique V 5 13 mol cules Tanimoto 48 mol cules Simpson et 43 mol cules Cosinus ont des Is gt 0 5 ceci nous permet d affirmer que la base de test est compos e principalement des mol cules ressemblant RandSel100 16 La base est donc homog ne et contient principalement des mol cules petites la plupart avec une grande concentration des sous structure
127. dans un format MOL valide comme a t indiqu dans la section IL 1 1 D autres limitations de QueryDB et de TestDB sont pr sent es dans la figure II 10 Ces valeurs modifiables r pondent un compromis entre la n cessaire optimisation de l outil informatique et la volont de couvrir un maximum des cas QueryDB TestDB Format MOL Nombre de mol cules max 600 Nombre max d atomes par cycle 30 Nombre max de cycles par mol cule 32 Nombre max de fragments par mol cule 100 Figure 10 Restrictions des bases lt QueryDB gt et lt TestDB gt 43 Les modes de stockage en m moire qui sont utilis s dans le traitement des informations structurales chimiques se diff rencient selon les applications les algorithmes utilis s et l architecture des ordinateurs Les modes que nous avons adopt s ont t choisis en fonction des applications notamment le criblage de haut d bit Ces formats doivent tre bien adapt s pour pr server long terme les informations et pour changer plus facilement les donn es II 2 Structuration des informations mol culaires et XML Dans la section II 1 1 et IL 1 2 ont t pos es les bases de la construction de la base de sous structures mol culaires n cessaires pour notre outil de criblage virtuel Les informations manipul es jusqu maintenant concernent les fichiers MOL les noms de fichiers et des informations de nature physicochimiques pour
128. donc respectant les lois chimiques r gle g n rale l outil retiendra ce que l usager a crit sur la mol cule QueryDB TestDB La mol cule ou Base de base de mol cules mol cules analyser ou cible s comparer Figure II 18 Nous centrons notre attention sur la base de donn es mol culaires Toutes les mol cules du QueryDB et du TestDB subissent une transformation pour extraire leurs informations et construire des vecteurs contenant les donn es n cessaires pour la comparaison des mol cules Le d tail du processus de transformation fera partie des sujets trait s au chapitre III Pour l instant nous nous int ressons leur structure et son organisation dans un fichier XML Dans la figure 19 la cr ation d un index des mol cules est repr sent e Pour calculer les similarit s entre mol cules on doit pr alablement avoir transform les mol cules analyser Les descripteurs sont g n r s par comparaison atome atome entre les mol cules de la QueryDB TestDB et les fragments de la FragDB voir chapitre Une fois que chaque mol cule a sa repr sentation bien d finie on passe la structuration de cette information 61 Descripteurs mol culaires lt VecteurRepresentatif XML gt lt xml version 1 0 encoding iso 8859 1 standalone no gt lt indexResultQF gt Molecule fileName UserMol1 mol gt lt ExpRepVector gt Frag ref CNUQ6 1691 mol gt Frag ref CNUQ6 074
129. e D MolDiA InterFace MolDiA results allIndices xml Eo Google A Param tres m Index Simpson Query Molecules Query2Z2 mol Cl Test Molecules Number of atoms zinc_1326 mol 0 000000 8 Termin 196 Figure A1 3 Copies d cran de fichiers de vecteurs r sultats ouverts avec Intern Les mol cules sont pr sent es en format 3D et 2D et Explorer A MolDiA Representative Vector Analysis D x Fichier Edition Affichage Favoris Outils ar EN E I Rechercher yes ise A d 33 Adresse D MolDiA Interface MolDiAtresults QueryRepVector xml OK Google Gl Param tres v m MolDiA Representative Vector Analysis MolDiA version 2 0 Laboratory ITODYS Universit Denis Diderot Date 09 09 2006 01 18 Filename Picture MoIDIA Rep Vector Gl CNUQ5 175 mol ANSC 000R mol e ANSC 000R mol CAmol Zinc Query2Z2 mol 9 ANSC 000R mol 5 000 mol ANSC 000R mol Termin Poste de travail 2 44 MolDia Representative Vector Analysis E nl x Fichier Edition Affichage Favoris Outils 2 ay c d x 2 Rechercher s Favoris d 3 Adresse C MolDi _2 3tresults TestRepVector xml OK Google Gr 2 Param tres
130. e compounds and their Diversity J Chem Inf Comput Sci 40 2000 1177 1187 71 D CHAPITRE II PROCESSUS DE COMPARAISON DES STRUCTURES MOLECULAIRES III 1 Les recherches structurales 1 1 Algorithmes de superposition des graphes 1 2 Recherche de similarit pour des structures mol culaires III 2 Reconnaissance des motifs structuraux et cr ation des vecteurs descripteurs 2 1 Transformation des mol cules et g n ration des vecteurs descripteurs 2 1 1 Reconnaissance des motifs structuraux III 2 1 2 G n ration des vecteurs descripteurs CHAPITRE III PROCESSUS DE COMPARAISON Dans ce chapitre nous expliquerons la mani re dont nous avons effectu la comparaison des mol cules et des fragments ainsi que les crit res qui contr lent l analyse 1 Les recherches structurales Quand on cherche des similitudes et des divergences entre les mol cules on peut effectuer plusieurs types de comparaisons la recherche d isomorphismes sous structures communes ou SSC la recherche de la sous structure maximum commune SSMC et la recherche de structures compl tes ou homomorphisme Dans cette section nous pr sentons des m thodes utilis es dans ces recherches Certaines pourront tre appliqu es au d veloppement de notre syst me Dans la partie suivante nous parlerons de la recherche structurale SSC sur des graphes 2D qui permet de comparer deux structures atome par atome Plusieurs algorithmes
131. e dans un graphe chromatique quivalent ensuite le graphe est focalis sur la liaison ou l atome voulu et la fin l ordre lin aire par rapport au FO est g n r La figure I 6 montre un exemple d extraction de FREL Ici le FO est un groupe hydroxyle et un carbone alpha L environnement du FO peut tre choisi en accord avec la profondeur d sir e de l analyse Cette approche offre l avantage de pouvoir param trer le FO en fonction de la propri t tudi e On peut galement choisir la profondeur de l environnement ceci pouvant tre g n r algorithmiquement d une mani re automatique 20 HO CH Target 7 SCH S C C CH CH tructure S n e E Chromatic K e Graph Focalisation Organisation Partial Order Generation D Linear Order CH HO ene gt C a CH CH N Z GA ti O CH i CH Boas CH dax CH CH ge cT er N nes C CH lt O CH CH 3 HO CH D lt Dees Z N Figure I 7 G n ration de FRELs pour une mol cule cible Dubois1999 D Dans l approche DARC la nature des atomes est sp cifi e en utilisant des graphes color s ce qui simplifie norm ment le mod le La figure I 7 montre un exemple de g n ration de FRELs partir d une mol
132. e des fragments et des sous structures 1 2 3 Un aper u des bases de fragments II 1 3 Construction des bases de donn es QueryDB et TestDB IL 2 Structuration des informations mol culaires et XML 2 1 Les langages de marquage 2 1 1 Histoire 2 1 2 Principes 2 1 3 XML pour structurer les informations chimiques II 2 2 La structuration de la FragDB avec XML 2 2 1 Cr ation et remplissage d un index XML de fragments 2 2 2 Une DTD pour valider l index XML II 2 3 La structuration du QueryDB et du TestDB 2 3 1 Transformation des mol cules et cr ation du VecteurRepresentatif X ML II 2 3 2 Une DTD pour valider le VecteurRepresentatif X ML II 2 3 3 Une DTD pour valider l indexResult XML II 2 4 La repr sentation des connaissances CHAPITRE IL BASES DE DONNEES REPRESENTATION ET STRUCTURATION Les sections 1 1 et L2 nous ont permis de faire le tour des approches utilisant des descripteurs structuraux 2D et des raisons de les adopter Entre autres avantages ont t nomm es leur capacit coder des propri t s physicochimiques leur facilit d utilisation et d impl mentation la diversit des niveaux de complexit disponibles ainsi que la pr sence des informations 3D implicites dans les mod les Ce sont les m mes raisons qui nous ont amen adopter des descripteurs sous structuraux pour la construction et la structuration d un ensemble de bases de donn es chimiques rassemblant les informations n cessaires
133. e et la FragDB a d j t d crit dans la section 2 1 1 Maintenant au travers d un autre exemple nous allons illustrer le processus complet d analyse d une mol cule cyclique Ainsi dans la figure 12 une structure cible et des fragments de la FragDB dont on veut savoir s ils sont contenus dans la mol cule cible sont repr sent es L algorithme d Ullmann d tecte automatiquement les fragments de la mol cule qui correspondent ceux de la FragDB en comparant les caract ristiques des atomes D abord la mol cule cible est d compos e en parties cycliques et non cycliques voir figure 13 selon l algorithme montr sur la figure 7 J R Z R X je XQ ER N C AGCO 0140 ANSZ 000Z AN amp YX nnnx vut N I Q Q Q N Q e 1 I I N Cible C i CNUO6 074bs CNUN6 1530f Figure 12 Mol cule cible C 1 3 Methylamino cyclohexyl propanone et 5 fragments de la FragDB Pour le d tail des atomes g n riques Q R Z X voir le tableau II 1 1 i EX c C C De Cible C CI C2 C3 Figure III 13 D composition de la cible apr s application des algorithmes SSSR figure III 11 93 Par comparaison des listes de caract ristiques des atomes voir figure 9 on cr les matrices M qui serviront plus tard construire les matrices r sultant de l application de l algorithme d Ullmann La figure III 14 montre les deux derni res tapes du processus pour les parties de nature cyclique de la
134. e g n r e par l outil qu on appellera Sg ou vecteur exp rimental et la structure vectorielle th orique qu on appellera St ou vecteur th orique puisque construite manuellement en observant minutieusement la structure de la mol cule Trois formules de comparaison sont impl ment es la pr cision le rappel et la F mesure Leurs d finition et utilisation dans le cadre d valuation de l outil ont d j t l objet du chapitre IV 2 2 Ici nous montrerons simplement les quations pour leur calcul ainsi que les r sultats dans le tableau V 19 Pr ecision BUE 1 Sg St S Rappel BERTI 2 St 2 x Pr ecisi R Fo I r appel 3 Precision Rappel O St gt est la structure vectorielle th orique construite manuellement pour valuer l outil Sg gt est la structure vectorielle g n r e par l outil donc exp rimentale 169 Tableau V 19 Pr cision Rappel et F Mesure entre les vecteurs repr sentatifs g n r s par l outil pour les mol cules de la base Zinc et les vecteurs th oriques attendus Filename Precision Recall zinc_17 mol 1 000000 0 600000 0 750000 1 000000 zinc 4l mol 0 600000 1 000000 0 750000 zinc 53 mol 0 600000 0 750000 0 666667 zinc 57 mol 1 000000 1 000000 0 857143 zinc 707 mol 1 000000 0 833333 0 909091 170 Dans le tableau suivant les r sultats en pour la Pr cision le Rappel et la F Mesure de
135. e gt lt FragRule gt lt Cond gt Frag ref CNUO5 105a mol Cond lt EXC gt Frag ref ANIZ 0022 mol Frag ref ANSQ 000Q mol Exc lt FragRule gt Suite des r gles CYC dans environ 60 pages lt FragRule gt lt Cond gt Frag ref CNUQ6 195bd mol Cond Exc Frag ref ANSQ 000Q mol gt Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Frag ref ANSQ 000Q mol Exc lt FragRule gt lt Rule gt 209 A2 3 Index de fragments et des r sultats au format XML Index de fragments acycliques IndexAcyc xml lt xml version 1 0 encoding iso 8859 1 standalone no gt lt index gt File name AGCA 013H mol gt lt Keys gt Key name FID value 013H gt lt Key name FAtomSum value 3 gt lt Key name FRing value 0 gt lt Key name FGF value to complete gt lt Keys gt lt Properties gt lt Property name HBondA value 2 gt lt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties lt File gt lt File name AGCA 014A mol gt lt Keys gt Key name FID value 014A gt Key name FAtomSum value 4 gt Key name FRing value 0 gt Key name FGF value to complete gt Keys Properties Property name HBondA value 2 gt Property name PotNCharged value 1
136. e modifi s tout moment sans alt rer le traitement de la FragDB par des outils nomm s pr alablement 53 L index XML contient entre autres les informations suivantes e Des pointeurs vers les fichiers MOL de la FragDB e Les informations mol culaires extraites du nom de fichiers e Des clefs de recherche e Des propri t s physicochimiques des fragments e Et toute autre information susceptible de compl ter la FragDB L index de sous structures est g n r automatiquement partir de la FragDB en suivant un algorithme simple en langage C La figure 15 montre un aper u de l algorithme Le fichier est ensuite rempli en m moire figure II 16 en utilisant les informations disponibles figure 17 54 Donn es FragDB Extraire un fragment R cup rer le nom du fichier et extraire la somme des atomes getAtomSum Extraire l information correspondant aux anneaux getRing Extraire l information correspondant au groupes fonctionnels getFunctGroup Cr ation d un fichier xml vide index xml Essayer d ouvrir Si ECHEC afficher Exit 1 index xml message d erreur Si OK crire le code correspondant au fragment dans index xml Figure II 15 Algorithme pour la cr ation d un index XML de fragments partir d une base de donn es 55 Essayer d ouvrir Si ECHEC afficher Return NULL index xml message d erreur V rifier si le document Si ECHEC afficher Return NULL
137. e par la DTD Cette notion de validit tait d j pr sente dans SGML mais la norme XML ajoute une nouvelle notion moins forte qui est celle de document bien form Un document est dit bien form si les balises qui le composent forment un et un seul arbre ce qui est bien entendu une condition n cessaire sa validit Ainsi les 47 documents XML peuvent tre manipul s ind pendamment de leur DTD Cette particularit est m me une des motivations qui a pr sid son laboration le faisant passer d un langage documentaire un langage d change de donn es structur es Une cons quence directe de cette notion est qu elle a favoris l apparition d autres langages pour exprimer la structure des documents et des donn es Nous voquerons plus tard le Langage de Marquage Chimique CML Il existe d autres types de contr le et de validation de documents XML Le XMLSchema une puissante extension des DTD en XML les namespaces vite la collision des noms et limine l ambiguit etc L interrogation de bases de donn es XQuery et la transformation de documents XML XSLT font partie des taches qui ont t d velopp es par le W3C depuis l apparition des langages de marquage Dans la figure suivante nous avons regroup quelques l ments de construction de documents XML ainsi que des applications courantes notamment en sciences en documentation multim dia et dans le Web S mantique namespace XQuery XS
138. e qui facilite la comparaison V 1 4 1 Graphiques comparatif d indices avec la base Zinc Dans les graphiques V 17 V 20 on observe un nombre lev de mesures correspondantes aux mol cules avec un nombre d atomes compris entre 20 et 45 On peut d duire que la base Zinc est compos e des mol cules assez grandes ceci en partie par la nature des mol cules appartenant la base drogues diverses et mol cules d int r t pharmaceutique Pour la mol cule Query1Z2 le nuage gt pr sente une densit maximale vers 30 45 atomes avec une mesure de similarit autour de 0 2 0 4 Ceci est logique puisque la mol cule cible est une mol cule contenant un syst me cyclique et presque toutes les mol cules pour lesquelles on a observ une pr sence de correspondance avaient un ou plusieurs syst mes cycliques donc un nombre d atomes sup rieur la requ te En utilisant la cible Query2Z2 la concentration maximale de points est vers 25 45 atomes avec une mesure de similarit qui varie entre 0 2 et 0 6 tous indices confondus L encore la pr sence d un syst me h t rocyclique dans la cible conduit des correspondances avec des syst mes bi et tri cycliques comportant un nombre d atomes tr s sup rieur la cible originale D autre part une assez grande dispersion des valeurs de similarit est obtenue avec Query1Z3 La composition de la mol cule ainsi que la pr sence des nombreux groupes fonctionnels augment les pos
139. eci est d en partie la petite taille des mol cules donc peu de fragments dans le vecteur descripteur et la pr sence d atomes g n riques dans Query3Z recherche de sous structures L inspection de la formule met en vidence que l index de Simpson ne prend pas en compte l absence de fragments pour le calcul de la similarit Pour Query3Z en particulier le faux homomorphisme trouv avec l index de Simpson peut tre interpr t comment tant en fait un isomorphisme car la comparaison d une cible avec des atomes g n riques revient faire une recherche sous structurale sur la mol cule test Mesures de Sim gt 0 8 Query1Z2 Query2Z2 Query1Z3 Query3Z Tanimoto 1 2 94 1 2 94 1 2 94 1 2 94 Cosinus 2 5 88 1 2 94 1 2 94 1 2 94 Simpson 6 17 65 1 2 94 5 14 7 3 8 82 Tableau V 5 Nombre et de mol cules avec Is gt 0 8 trouv s avec l outil par rapport aux requ tes Les r sultats du lt top 10 pour les mesures de similarit structurale entre la mol cule cible et les mol cules de la base de Tests pour les trois indices tudi s Tanimoto Simpson et Cosinus sont indiqu s dans les tableaux V 1 V 4 Les mol cules en t te du classement sont montr es dans la figure 1 Si on effectue maintenant une analyse des r sultats cible par cible on observe que pour la cible Query1Z2 les tendances pour les trois indices sont assez claires Plus l indice est restrictif m
140. ef CNUQ6 074bv mol ref ANSC 000R mol lt ExpRepVector gt lt Molecule gt indexResultQF Code II 9 Exemple de VecteurRepresentatif X ML Deux mol cules d une TestDB donn e sont analys es Les fragments correspondants et ses informations attach es sont regroup s dans une liste Le fichier XML ainsi g n r et que l on appelle VecteurRepresentatif X ML contient donc des pour tre compar s par la suite entre eux informations de nature mixte e Des pointeurs vers les sous structures MOL de la FragDB e Des pointeurs vers les fichiers MOL de la QueryDB TestDB e Des informations mol culaires extraites des noms de fichiers e Lenombre de mol cules cible et test e Les informations des vecteurs attach s chaque mol cule cible ou test e Des clefs de recherche e Et toute autre information susceptible d aider comparer QueryDB TestDB 63 Ce fichier est g n r automatiquement et de mani re r cursive partir des fragments FragDB et de mol cules QueryDB TestDB en suivant un algorithme simple Comparaison fragment mol cule pr sent dans la figure II 20 Donn es Query Test et FragDB Y R cup rer les informations des fragments partir d index XML Y R cup rer les informations des Comparaison fragment mol cule mol cules avec le fichier MOL cule mol c Construction des VecteurRep XML mol cule mol cule
141. elles sont structur es section 2 Nous rappelons donc que la FragDB et les QueryDB TestDB sont les l ments cl s de notre outil L une de ces bases permet d extraire les fragments mol culaires qui nous int ressent et l autre fournit des mol cules cibles ou tests comparer La cr ation et le remplissage de l index XML section II 2 2 1 sont aussi tr s importants cet index contient sous une forme structur e toutes les informations sur les fragments n cessaires au bon d roulement de la comparaison Finalement la cr ation et le remplissage de l indexResult XML section 2 3 1 sont l un des objectifs principaux de notre outil Dans ce chapitre nous donnerons donc les d tails de la transformation des mol cules visant la cr ation des vecteurs descripteurs voir figure 7 84 Donn es mol cule MOL Query TestDB OUI MOL est cyclique Analyse des parties cycliques avec l algorithme SSSR Analyse des parties acycliques avec l algorithme Comparaison d Ullmann p des fragments Index XML cycliques avec FragDB cyc Comparaison Index XML des fragments acycliques avec FragDB acyc Extraction des fragments correspondants Extraction des fragments correspondants Il y a des parties acycliques NON Construction du vecteur repr sentatif NON Derni re MOL OUI Comparaison des vecteurs repr sentatifs G n ration de Index
142. ental Methods in the design of new compounds Applications of the Advanced Algorithm Builder QSAR 21 2002 23 37 Johnson1990 Johnson A M Maggiora G M Eds Concepts and Applications of Molecular Similarity John Willey amp Sons New York Inc 1990 Kopp1842 Kopp H Ann Chem 41 1842 79 Reedited in 1954 as Kopp H Ann Annalen der Chemie und pharm 92 1854 1 Lengauer2004 Lengauer T Lemmen C Rarey M Zimmermann M Novel Technologies for Virtual Screening Drug Disc Today 1 2004 27 33 Martin1998 Martin Y C Bures M G Brown R D Validated Descriptors for Diversity Measurements and Optimization Pharm Pharmacol Commun 4 1998 147 152 Martin2001 Martin Y C Molecular Diversity how we measure it Has it lived up to its promise Farmaco 56 2001 137 139 Martin2002 Martin Y C Kofron J L Traphagen L M Do structurally similar molecules have similar biological activity J Med Chem 45 2002 4350 4358 Makara2001 Makara G Measuring Molecular Similarity and Diversity Total Pharmacophore Diversity J Med Chem 44 2001 3563 3571 Moos1996 Moos W H Combinatorial Chemistry a Molecular Diversity Space Odyssey Approaches 2001 Pharmaceutical News 3 1996 23 26 Nikolova2003 Nikolova N Jaworska J Approaches to Measure Chemical Similarity a Review QSAR Comb Sci 22 2003 1006 1026 OFarrell2005 O Farrell M Lewis E Flanagan C Lyons W Jackm
143. es relations structure d gradation biologique Japertas Japertas2002 a appliqu la m thode fragmentaire FM pour la recherche de nouveaux composants et pour la pr diction de propri t s physiques et biologiques Il a propos un nouveau syst me appel Advanced Algorithm Builder A AB lequel utilise des FM pour construire des mod les QSPR QSAR et SAR La figure 4 illustre comment la fragmentation des structures s effectue Ivanciuc Ivanciuc2000 explore des nouveaux indices topologiques obtenus partir du calcul des graphes mol culaires Dans son travail l auteur montre que ceux ci sont des descripteurs structuraux potentiels pour la caract risation de la diversit mol culaire Randic Randic1979 propose un ordre th orique des graphes structuraux comme un outil pour effectuer des recherches syst matiques de similarit dans des bases de donn es mol culaires Dans un autre article Randic2001 l auteur introduit un nouveau descripteur mol culaire bas sur le nombre de couches de valence partir des noeuds d un graphe mol culaire Cette approche a t valid e en faisant des calculs du point d bullition de l entropie et de la densit des octanes 18 Figure I 3 Exemples de diff rents graphes r duits qui peuvent tre g n r s pour les structures montr es En a les noeuds correspondent aux syst mes cycliques R et aux l ments acycliques connect s Ac En b les noeuds correspondent
144. es atomes g n riques voir le tableau 11 2 Charge formelle positive ou n gative Charge 99 charge incertaine ou non pr cis e SP 1 C C 5 SP 2 gt C Degr d hybridation SP 3 gt C lt SP 99 Degr d hybridation incertain ou non pr cis Connectivit r elle Connectivit 99 connectivit incertaine ou non pr cis e Valeur de la valence Valence 99 valence incertaine ou non pr cis e Somme exacte Nombre d H attach s 99 somme incertaine ou non pr cis e Valeur exacte Caract re isotopique Avus 7 A 99 caract re isotopique incertain ou non pr cis Valeur binaire 1 caract re aromatique Caract re aromatique 0 caract re non aromatique 99 caract re aromatique incertain ou non pr cis Tableau Caract ristiques des atomes et de leurs valeurs selon la structure de donn es construite partir des informations stock es dans les fichiers MOL 87 L algorithme pour la recherche des isomorphismes est ensuite d crit en utilisant un exemple Dans la figure 8 une structure cible et des fragments de la FragDB dont on cherche s ils sont contenus dans la mol cule cible sont repr sent s Nous pouvons constater visuellement que seuls les deux premiers fragments de la base de donn es sont effectivement pr sents dans la mol cule L algorithme d Ullmann r alise automatiquement cette op rat
145. es bases contenant des mol cules de taille assez grandes entre 20 et 60 atomes ont des meilleures performances que celles avec des petites mol cules 180 nombre d atomes entre 3 et 15 La raison r side dans la nature des descripteurs utilis s Plus de sous structures seront incluses dans le vecteur structural mieux la mol cule sera d crite Les vecteurs descripteurs de petites mol cules o un ou deux fragments non d tect s peuvent fausser les r sultats repr sentent mal la r alit mol culaire Le calcul de la pr cision du rappel et de la F mesure pour les vecteurs descripteurs des mol cules de la base Zinc est satisfaisant 76 47 des vecteurs contiennent 100 de correspondance entre le vecteur th orique et celui g n r par le syst me Un bon rapport pr cision rappel est constat pour environ 80 des vecteurs g n r s Nous avons observ que l efficacit du calcul de similarit et de diversit est affect e par la mesure indice distance coefficient qui est employ e pour mesurer le degr de similitude ou de dissimilitude entre les paires de structures Des trois indices tudi s un seul est tr s restrictif Tanimoto ce qui assure moins de fausses correspondances entre deux mol cules dissimilaires gt Le syst me MolDiA regroupe une s rie d avantages et de limitations inh rentes au mod le et aux descripteurs choisis Les aspects positifs et les limitations du logiciel peuve
146. es besoins 125 V 1 1 R sultats avec la base Zinc Lors de l analyse 1 N avec les mol cules de la base Zinc nous avons utilis 4 mol cules cibles diff rentes chacune d entre elles nous permettant de tester une propri t ou une caract ristique d termin e de l outil Pour tester la d tection et le traitement des syst mes cycliques aromatiques et h t rocycliques ainsi que des groupes fonctionnels on a utilis deux mol cules QuerylZ2 et Query222 relativement petites 10 11 atomes Ces mol cules nous permettront galement de tester la capacit de l outil retrouver des groupes fonctionnels courants Pour tester la capacit de l outil traiter les cycles li s ainsi que les mol cules contenant des h t roatomes dans des cha nes acycliques nous avons utilis une mol cule Query1Z3 plus grande et complexe 20 atomes avec un syst me bi cyclique Finalement pour valuer l efficacit des algorithmes d velopp s pour l utilisation des atomes g n riques Q Z R M pour plus de d tails sur les atomes g n riques voir le chapitre II dans les requ tes mol culaires on a utilis Query3Z mol Dans cette mol cule les atomes utilis s Q X ne font pas partie des syst mes cycliques Toutefois des requ tes comprenant des atomes g n riques dans les cycles mol culaires sont tout fait r alisables Des classements lt top10 gt pour tous les indices sont pr sent
147. es d change d information chimique travers le Web et autres r seaux Murray Rust1999 Murray Rust2001 Murray Rust2001a Murray Rust2003 Ce langage permet l usager de structurer dans un cadre commun l information chimique d j extraite analys e partag e ou visualis e L impl mentation de XML dans un cadre chimique a t en partie facilit e par la cr ation de CML et l utilisation par des entreprises et des universit s des langages de marquage comme format d change d information 49 1 Donn es Pr sent es Table de connectivit Donn es 4 3 0 0 O O 0 0 0 022 V2000 Traitement Chimiques 29167 0 2459 00000 0 0 0 d pendant de la Impl mentation 29167 10791 000000 0 0 0 lt Particuli re r sentation J 22042 01630 00 0 000 p 14875 0 2467 00000 0 00 H C 1210000 2 Structure de 2320 3410 Nip te donn es d finir 1 M END 2 Donn es Structur es Fichier CML lt xml version 1 0 encoding iso 8859 1 standalone no gt molecule name Acetamide id mol34 gt s Traitement Impl mentation B ind pendant de la G n rique string builtin elementType gt C lt string gt pr sentation q float builtin x2 gt 2 9167 lt float gt lt float builtin y2 gt 0 2459 lt float gt lt atom gt lt atomArray gt Structure de donn es fixe lt bondArray gt bond id b1 gt e g
148. es de similarit et de diversit dans un cadre de criblage de mol cules De tr s nombreuses repr sentations existent aujourd hui pour exprimer la comparaison entre deux descripteurs mol culaires ou pour tablir une distance entre deux objets dans un espace d termin Dans ce chapitre nous avons expliqu l usage des ces mesures et l automatisation de ces processus comme des conditions vitales pour le traitement des grandes bases de donn es Quatre possibilit s pour l analyse de la Similarit et de la Diversit ont t pr sent es dans notre approche Plusieurs types de calculs sont ainsi propos s R f rences Dixon1999 Dixon S L Koehler R T 7he hidden component of size in two dimensional fragment descriptors side effects on sampling in bioactive libraries J Med Chem 42 1999 2887 2900 Johnson1990 Johnson A M Maggiora G M Eds Concepts and Applications of Molecular Similarity John Willey amp Sons New York Inc 1990 Holliday2002 Holliday J D Hu C Y Willett P Grouping of coefficients for the calculation of Inter molecular similarity and dissimilarity using 2D fragment Bit Strings Comb Chem High Throughput Screening 5 2002 155 166 Holliday2003 Holliday J D Salim N Whittle M Willett P Analysis and display of the size of chemical similarity coefficients J Chem Inf Comput Sci 43 2003 819 828 122 Hubert1985 Hubert L Arabie P Comparing partitions Jou
149. es fictifs aux atomes g n riques a t n cessaire pour leur d tection et traitement futur au sein de l outil Les l ments de num ro atomique de 1 118 gardent leur valeur traditionnelle Les num ros qui vont de 118 137 n ont pas encore t attribu s Les num ros qui vont de 138 150 sont des extensions num ros atomiques fictifs assign s aux atomes g n riques II 1 2 2 L origine des fragments et des sous structures Souvent les termes fragment et sous structure sont utilis s de fa on interchangeable dans la 36 litt rature chimique actuelle Toutefois certaines subtilit s font tat de diff rence entre ces deux concepts une sous structure est d finie comme toute partie d une mol cule compos e d au moins deux atomes et une liaison et qui ne contient per se une connotation quelconque Un fragment est une sous structure laquelle on attache un sens utilitaire une propri t ou un but structural d int r t mol culaire Dans la suite de ce manuscrit nous utiliserons indiff remment ces termes Pour effectuer la construction de la FragDB il faut donc remonter la conception m me de groupe fonctionnel Un groupe fonctionnel est une sous structure qui a une connotation d activit ou une possible interaction avec un site actif Ces fragments vont former les l ments constituants d une mol cule et seront en cons quence les l ments constitutifs des vecteurs descri
150. es sous la forme d une table p riodique MendeleievWeb La base de son raisonnement tait la similarit des propri t s partag e par des groupes d l ments Le concept d analogie attributive est utilis par les chimistes sous la forme du principe de similarit des propri t s Comme nous l avons indiqu dans le Chapitre I ce principe tablit que des mol cules ayant une structure similaire ont plus de chances d avoir des propri t s similaires par rapport deux mol cules choisis au hasard Johnson1990 Walters1998 Martin2002 78 Par exemple les mol cules i 2 hydroxypropanamide et ii 2 hydroxybutanamide objets A et B sont analogues car partageant une structure similaire La mol cule iii 2E 4 5 dimethylhex 2 ene ne pr sente pas les m mes analogies structurales que i et 11 La figure 2 montre que pour les mol cules i et i1 l enthalpie standard de formation A f est n gative et proche de 440 KJ mol et que la polarisabilit est analogue ces deux propri t s tant les attributs a et b La mol cule iii ne pr sente pas de correspondances avec i et ii du point de vue des attributs tudi s Le comportement des mol cules i et ii est connu en chimie comme les s ries homologues des atomes ou des mol cules appartenant la m me s rie auront des propri t s voisines Polarisabilit 0 Aer i 2 hydroxypropanamide O HO 8 32 0 5 107 cm 421 8 kJ mol N
151. et Burstall R M Subgraph isomorphism matching relational structures and maximal cliques Inf Proc Lett 4 1976 83 84 Bron1973 Bron C Kerbosh J Finding all cliques of an undirected graph Commun ACM 16 1973 575 577 Disponible sur l URL http www nap edu readingroom books mctcc index html Crandell1983 Crandell C W Smith D H Computer Assisted Examination of Compounds for Common Three Dimensional Substructures J Chem Inf Comput Sci 23 1983 186 197 Doucet1998 Doucet J P Panaye A 3D Structural Information form property prediction to substructure recognition with neural networks SAR and QSAR Envirom Res 8 1998 249 272 97 Fan1993 Fan B T Panaye A Doucet J P Barbu A Ring perception A new algorithm for directly finding the smallest set of smallest rings from a connection table Journal of Chemical Information and Computer Sciences 33 1993 657 662 Figueras1972 Figueras J Substructure search by set reduction J Chem Doc 12 1972 237 244 Gasteiger WEB Disponible sur http www2 chemie uni erlangen de services petra smiles phtml Gund1980 Gund P Andose J D Rhodes J B Smith G M Three Dimensional Molecular Modeling and Drug Design Science 208 1980 1425 1431 Johnson1990 Johnson A M Maggiora G M Eds Concepts and Applications of Molecular Similarity John Willey amp Sons New York Inc 1990 Lesk1979 Lesk A M Detection of 3D patterns of atoms in
152. eurs dans la litt rature Des repr sentations diff rentes outre les descripteurs 2D ont t le sujet d tudes comparatives Horvath2003 Horvath2003a Beaucoup de ces descripteurs ne sont pas tr s efficaces pour l analyse de banques de mol cules descripteurs de corr lation logP HOMO LUMO etc D autres sont adapt s cet usage sous certaines contraintes de masse taille ou composition des mol cules Certains sont directement calculables sur la mol cule et d autres le sont dans un autre espace WHIM RDF etc Un chantillon des travaux abordant la comparaison des descripteurs dans un cadre structural est pr sent par la suite Martin Martin1998 a compar la pertinence de diff rents descripteurs mol culaires Ils ont trouv que des descripteurs sous structuraux simples du type MACCS sont plus puissants pour distinguer les composants actifs des inactifs par rapport aux fingerprints de Daylight Ils ont galement confirm les relations existantes entre les descripteurs structuraux et les propri t s physicochimiques 23 Avec le logiciel DISSIM Flower1998 des tudes comparatives pour choisir les groupes de descripteurs les plus performants et les moins inter corr l s ont t effectu s Les r sultats incluent des arbres de relations pour 159 descripteurs pour r soudre le probl me de corr lation ainsi que des sch mas de poids et de normalisation Consoni Consonni2002a Consonni2002b a fait une
153. facon dont les mol cules peuplent un espace structural d termin et elle est la base de beaucoup d approches pour la conception des biblioth ques combinatoires et le choix de leurs compos s Le choix d un espace m trique optimal qui repr sente correctement la diversit structurale ainsi que des descripteurs qui expriment la r alit chimique sont d terminants dans l efficacit du mod le Mais comment construire des sous ensembles diversifi s de bases de donn es chimiques par exemple pour l inclusion dans un programme de criblage biologique ou la construction des biblioth ques combinatoires Le but est donc d identifier des sous ensembles avec un maximum de diff rences selon des crit res structuraux 2D de forme 3D ou d activit Puisque l identification du sous ensemble le plus divers exige l utilisation d un algorithme combinatoire qui consid re tous les sous ensembles possibles partir d un ensemble de donn es d termin l identification du sous ensemble de diversit mol culaire maximale prendra beaucoup de temps D o l int r t d automatiser les processus qui m nent identifier un groupe diversifi des mol cules dans des grandes bases de donn es chimiques Pour effecteur cette tache un algorithme assez courant consiste prendre une mol cule au hasard et la placer dans un sous groupe divers On cherche ensuite dans la base d origine la mol cule la plus dissimilaire cette mol cule et on co
154. firment que l usage de ce principe basique pour l tude et la pr vision de l activit chimique doit tre fait attentivement Plusieurs exemples sont donn s dans l tude BajorathWeb TurinWeb Meylan1999 parmi lesquels la figure III 6 qui met en vidence une liste de mol cules choisies pour d montrer que des modifications sur la structure d un composant peuvent produire des changements consid rables des propri t s physicochimiques et en cons quence de l activit biologique La formalisation du principe de similarit de propri t s travers une m trique choisie permet donc de circonscrire l application au probl me tudi 82 Similarity and Diversity Volumes and Surface Potentials Pa 66 HC CH 56 NH HN Hydrophobic and Polar regions Figure III 6 Echantillon des compos s structuralement similaires qui ont de grandes diff rences de volume de potentiel de surface de r gions hydrophobiques et polaires de potentiels d accepteur ou de donneur de liaison hydrog ne et du potentiel lectrostatique mol culaire MEP Nikolova2003 Le principe de similarit des propri t s tant prouv non infaillible les chimistes se sont tourn s vers le concept d analogie inductive pour la recherche de similarit s entre mol cules Ce concept appliqu en chimie permet de comparer directement plusieurs mol cules avec des points de vue tr s divers propri t
155. formation concernant les propri t s j physicochimiques les structures et ses poids dans un l ment lt e gt avec la structure suivante W Ei PV LP y e J Suivant les nouvelles modifications pour les valeurs lt a b de l quation 4 les fragments ne contribueront pas de la m me mani re et pourront tre red finis en forme d entit s n n min n n gc b Xe c X e ja ip 9 O e repr sente les l ments en commun entre e et e Un chantillon de propri t s a d j t donn dans la figure II 17 et dans le code II 7 au moment de la description des fragments structur s en utilisant les langages de marquage Dans ces m mes 117 figures on montre comment partir des donn es structurales contenues dans le fichier MOL on peut d duire automatiquement des valeurs assign es pour certaines propri t s physicochimiques Les propri t s choisies fournissent de l information par rapport la polarisation de la mol cule son caract re aromatique la capacit de donner ou d accepter des atomes H etc Les poids associ s auront par d faut une valeur de 1 et peuvent tre param tr s avec des valeurs allant de z ro ne pas prendre en compte cette propri t deux propri t tr s importante pour le calcul Tous les poids structuraux ou propri t s sont normalis s avant d effectuer le calcul Ces poids v et w choisis par l usager jouent le
156. gt Key name FID value 055A gt Key name FAtomSum value 12 gt Key name FRing value 6 gt Key name FGF value none gt lt Keys gt lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt Property name Aromat value 2 gt Property name Polar value 1 0 gt Properties File File name CAUA6 055AA mol Keys Key name FID value 055AA gt Key name FAtomSum value 12 gt Key name FRing value 6 gt Key name FGF value none Keys lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt lt Property name Aromat value 2 gt lt Property name Polar value 1 0 gt lt Properties gt lt File gt File name CAUN5 1560 mol gt lt Keys gt Key name FID value 156Q Key name FAtomSum value 9 gt Key name FRing value 5 gt Key name FGF value none Keys Properties Property name HBondA value 1 gt Property name PotNCharged value 1 gt Property name Aromat value 2 gt Property name Polar value 1 0 gt Properties lt File gt File name CAUN5 1560a mol gt lt Keys gt Key name FID value 1560a gt Key name FAtomSum value 8 gt Key name FRing value 5 gt Key name FGF value none gt Keys Properties Property name HBondA value 1 gt
157. guage Langage de Marquage G n ralis et Standard SMD Standard Molecular Format Format Mol culaire Standard SMILES Simplified Molecular Input Line Entry Specification Sp cification simplifi e de l entr e lin aire de la mol cule SMIL Synchronized Multimedia Integration Language Langage d int gration multim dia synchronis SVM Support Vector Machines Moteur de raisonnement vectoriel SVG Scalable Vector Graphics Technique de dessin de vecteurs scalaires ThermoML Thermodynamic Markup Language Langage de Marquage Thermodynamique UFS Unsupervised Forward Selection S lection non supervis de descripteurs UV UltraViolet Ultra Violet VS Virtual Screening Criblage Virtuel W3C Word Wide Web Consortium Consortium du WWW WLN Wiswesser Line Notation Notation mol culaire lin aire de Wiswesser WHIM Weighted Holistic Invariant Molecular Descripteur mol culaire par des invariants holistiques XHTML Extended HyperText Markup Language Langage de Marquage Extensible pour HTML XML Extended Markup Languages Langage de Marquage Extensible XMLSchema Extended Markup Language Schema Sch ma pour Langage de Marquage Extensible XQuery Extended Query Interrogation des sch mas du Langage de Marquage Extensible XSLT Extensible Stylesheet Language Transformation Feuille de style et de transformation pour Langage de Marquage Extensible Xii INTRODUCTION 1 Les concepts de similarit et de d
158. hput Screening de notre outil nous oblige tre capables de travailler avec des bases de donn es mol culaires de grande taille Comme cons quence la structure propos e doit tre suffisamment flexible pour accepter des modifications ou des extensions sans modification drastique des traitements effectu s sur les informations mol culaires Le code II 9 reprend l exemple montr dans la figure II 19 On observe que le VecteurRepresentatif XML est compos e d autant l ments Molecule qu il y a de mol cules dans la base mol culaire TestDB Chaque l ment Molecule a comme attribut le nom de la mol cule analys e et contient un sous l ment lt ExpRepVector gt Ces l ments contiennent eux m mes une liste de Frag qui ont comme attribut le nom du fragment correspondant Pour finir l l ment lt indexResultQF gt regroupe la liste des listes nomm es ci dessus 62 xml version 1 0 lt indexResultQF gt encoding iso 8859 1 standalone no gt Molecule fileName UserMoll mol gt lt Frag lt Frag lt Frag lt Frag lt Frag lt Frag lt ExpRepVector gt ref CNUQ6 1691 mol ref CNUQ6 074at mol Tee E 0 2 ref ANSC 000R mol ref ANSZ 0002 mol ref ANSC 000R mol lt ExpRepVector gt lt Molecule gt Molecule fileName UserMol2 mol Frag Frag Frag lt ExpRepVector gt ref CNUQ6 195ba mol r
159. i P s oefficients de corr lation earson P Jab n DEA b 2 Distance Squared Euclidean S n Tableau IV 1 Exemples de quelques coefficients de Similarit Diversit Pour valuer la similarit entre deux mol cules avec les formules indiqu es dans le Tableau IV 1 il faut d finir les variables suivantes de mani re g n rale 101 a repr sente le nombre d entit s de la premi re mol cule b repr sente le nombre d entit s de la deuxi me mol cule n est le nombre total d entit s dimension longueur du vecteur descripteur c est le nombre d entit s communes aux deux mol cules d est le nombre d entit s non communes entre les deux mol cules Par entit on n entend pas seulement des propri t s physicochimiques mais aussi des propri t s structurales ou de forme par exemple des fragments La co ncidence entre les l ments de ces propri t s gt sera interpr t e comme une partie importante dans les mesures de similarit On note galement que la liste des indices et distances pr sent e au tableau IV 1 a t restreinte ceux qui peuvent tre calcul s de mani re suffisamment efficace pour tre utilis s dans le traitement de grandes bases de mol cules la motivation initiale de ce travail tant l application de l outil dans le criblage virtuel de grandes bases de donn es On remarque assez souvent dans la bibliographie Holliday2003 Willett1998 Whittle2004 q
160. iaison aromatiques ttt 5 liaison simple ou double 6 liaison simple ou aromatique 7 liaison double ou aromatiques 8 quelque soit la nature de la liaison Caract ristiques de st r ochimie de liaison Liaison simple 1 sortante 4 sortante ou entrante sss 6 entrante Liaison double 0 Cis ou Trans d termin par les coordonn es des atomes 3 Cis ou Trans XXX Non utilis Nature topologique de liaison Oz incertaine 1 rrr cycliques 2 acyclique CCC Situation du centre r actionnel Tableau A3 4 Champs de lt Bond Blocks gt d Stext Block et Atom List Ce champs ne sont pas utilis s dans notre syst me MolDiA donc nous ne le d taillons pas ici Pour plus d informations on peut consulter la bibliographie 218 e lt Properties Block Ce bloc regroupe des informations secondaires des atomes telles que des substituants des groupes fonctionnels des super atomes la marque de la fin du fichier etc Parmi ces informations celles de caract ristiques secondaires des atomes et la marque de la fin du fichier sont souvent utilis es Nous pr sentons dans les paragraphes suivants certaines informations qui sont fr quemment employ es Charge Le format de cette information est lt M CHGnn8 aaa vvv gt Ou M CHG gt est l indication d existence de charges lt nn8 est le nombre total d atomes portant les charges aaa est le num ro d atome p
161. ical Structure J Chem Inf Comput Sci 32 1992 639 643 Walters1998 Walters W P Stahl M T Murcko M A Virtual Screening An Overview Drug Discovery Today 3 1998 160 178 White2003 White M Willett P Evaluation of Similarity Measures for Searching the Dictionary of Natural Products Database J Chem Inf Comput Sci 43 2003 449 457 Whitley2000 Whitley D C Ford M G Livingstone D J Unsupervised forward selection a method for eliminating redundant variables J Chem Inf Comput Sci 40 2000 1160 1168 Willett1997 Willett P Using Computational Tools to Analyze Molecular Diversity In DeWitt H Czamik A W Eds Combinatorial Chemistry A Short Course American Chemical Society Books Washington DC 1997 Weber2000 Weber L High diversity combinatorial libraries Curr Op Chem Bio 4 2000 295 302 1 01997 Xiao Y Qiao Y Zhang J Lin S Zhang W A method for substructure search by atom centered multilayer code J Chem Inf Comput Sci 37 1997 701 704 Xing2002 Xing L Glen R C Novel methods for the prediction of Log P pKa and Log D J Chem Inf Comput Sci 42 2002 796 805 E CHAPITRE IT BASES DE DONNEES REPRESENTATION ET STRUCTURATION II 1 Bases de donn es Lexique et construction 1 1 Lexique et format de mol cules II 1 2 Construction de la base de donn es de fragments FragDB 1 2 1 Les atomes g n riques II 1 2 2 L origin
162. ices avec la base Zinc V 1 3 2 Graphiques de comparaison d indices avec la base Random V 1 4 Comparaison des indices selon la complexit V 1 4 1 Graphiques de comparaison d indices avec la base Zinc V 1 4 2 Graphiques de comparaison d indices avec la base Random V 2 Analyse de type N N V 2 1 R sultats avec la base Zinc V 2 2 R sultats avec la base Random V 2 3 Aper u des r sultats structur s et pr sent s avec XML V 3 Evaluation de l outil V 3 1 Pr cision rappel et F measure pour la base lt Zinc gt V 3 2 Etude des faux isomorphismes pour des mesures de similarit N N V 3 3 Limites et avantages de l outil Chapitre VI Conclusion et perspectives VI 1 Conclusions VI 2 Perspectives VI 2 1 Perspectives moyen terme VI 2 2 Perspectives long terme viii 73 73 77 84 86 86 96 99 103 104 106 109 112 116 125 126 135 144 144 147 150 151 154 156 156 162 166 168 169 173 175 179 184 184 184 Annexes Annexe 1 Manuel d utilisation du logiciel Annexe 2 Fichiers XML et structures de donn es Annexe 3 Format MOL Annexe 4 Tableaux de r sultats ix 185 201 215 221 ABR VIATIONS AAB Advanced Algorithm Builder Constructeur avanc d algorithmes ADMET absorption distribution metabolism excretion and toxicity absorption distribution m tabolisme excr tion et toxicit CAS Chemical Abstract Service base de donn es chim
163. idats III 1 2 Recherche de similarit pour des structures mol culaires Les recherches d homomorphismes et d isomorphismes dans les bases de donn es mol culaires font partie des techniques de criblage virtuel parmi les plus populaires Quand les informations contenues dans ces bases chimiques sont limit es ou incompl tes il arrive souvent de ne pas trouver l information relative la structure d sir e Dans ce cas aucune r ponse n est obtenue montrant ainsi les limitations des m thodes de recherche exacte de sous structures Les recherches de similarit tendent l univers chimique des r sultats en utilisant les informations des bases mol culaires pour trouver des structures voisines de la cible tant du point de vue structural que des propri t s Dans l introduction nous avons d j d fini les concepts de similarit et de diversit mais d une mani re tr s g n rale pour ensuite num rer les l ments principaux d une recherche de similarit dans un cadre mol culaire Dans les sciences exp rimentales la similarit est mesur e selon les propri t s des objets En math matique la similarit est class e en 5 cat gories analogie attributive analogie fonctionnelle analogie inductive analogie proportionnelle et analogie structurale Rouvray1990 Il est important de noter que pas toutes les d finitions de l analogie math matique sont applicables aux mol cules et entit s chimiques atomes liaisons fragment
164. ie et limine automatiquement tous les doublons des fragments d tect s 94 a Matrice AGCQ ANSZ ANSX Ullmann 014Q 0007 000X Parties acycliques de la Cible C Qi C O R Z R X 010 0110100 0 C2 C 010 11010100 0 Cs 1111000010 0 Cs 1 1 01 0 110 0 0 Nu 010 0101011100 C3 010 001100 0 Cu 010 001100 0 D tection des fragments b Matrice AGCQ ANSZ ANSX Ullmann 014Q 0007 000X Parties acycliques Q de la Cible C Q C3 O4 R 7 R X 00 07 17010 0 0 C2 C 00 10 0100 0 Cs 13 1 0 0 0 010 0 Cs 11 00 1010 0 Nu 0 10 00 0 0 C3 010 0 0 Cu 010 0 0 0 le fichier MOL 95 Figure III 15 a Matrice apr s passage de l algorithme d Ullmann comparaison atome par atome entre les parties acycliques de la cible C et les fragments acycliques de la figure 12 b Matrice o l on a regroup les fragments d tect s Les atomes sont num rot s de la m me mani re que dans Les figures 14 et 15 illustrent travers l analyse de 1 3 Methylamino cyclohexyl thanone et de ses parties composantes C1 C2 et C3 les tapes dans l analyse d une mol cule cyclique par Tout au long de cette section nous avons expliqu la mani re comment sont analys s les diff rent types de mol cules cible cycliques ou non cycliques en utilisant le
165. ients ou distances signal s dans la table IV 1 ou d finis par l usager lui m me ne pr sente pas de difficult s particuli res IV 2 2 Calcul de la pr cision et du rappel recall Les vecteurs repr sentatifs fournis par l outil peuvent s av rer incomplets car il est certain que tous les fragments existant dans l univers chimique n ont pas t inclus dans la base de fragments Notamment dans les cas des cycles les combinaisons et permutations des diff rents substituants pour toutes les positions dans un cycle rendent la t che quasi impossible Dans l tape d laboration du programme nous avons mis au point des fonctions visant l valuation de l outil Nous avons alors impl ment un module qui permet d valuer l erreur et l exactitude d un vecteur repr sentatif d termin calcul par notre outil dit vecteur exp rimental par rapport un vecteur repr sentatif dit th orique car labor manuellement en observant minutieusement la structure de la mol cule La pr cision d une mesure est d finie comme la quantit des correspondances dans toutes les r ponses qui peuvent tre possibles Dans notre cas ce sera le nombre de fragments identifi s par l outil par rapport ceux identifi s manuellement par un chimiste Une mesure qui a 100 de pr cision indique que les r sultats coincident toujours avec les correspondances attendues Mais rien n est dit des non correspondances Ainsi une mol cule avec u
166. ilarit d pendra des sous structures communes entre la mol cule cible et la mol cule test L analyse lt SP gt permet d effectuer une comparaison des mol cules par rapport leur structure 2D et les propri t s physicochimiques attach es Des descripteurs mixtes seront construits et l index de similarit d pendra des propri t s physicochimiques et des sous structures communes entre la mol cule cible et la mol cule test On peut cocher une seule option S ou SP la fois On peut galement personnaliser les poids des structures et des propri t s en s lectionnant le bouton CUSTOM dispos droite de chaque type d analyse Cette s lection fait apparaitre une fen tre qui invite l utilisateur param trer le calcul selon le cas CAS 1 Si on a choisi l analyse S FENETRE W2 1 CAS 2 Si on a choisi l analyse SP FENETRE W2 1 puis FENETRE W2 2 FENETRE W2 1 To custom the Substructure weights please choose N A 2 The default value is automatically set to 1 F Ifyou want to eliminate the contribution of a structure set If you want ta increase the importance of a structure set 2 22 Substructure Weight UN Co 61 C2 gt c 0 C0 6102 NF CEN Co 61 C2 01 0 N N 61 gt m NO 0 C2 n m m PO 61 2 C Co Gi C2 80 Co 61 C2 A ges Dans la
167. imilarit mol culaire fournit une m thode simple et populaire pour effectuer du criblage virtuel dans les bases de donn es chimiques Elle se sert alors des m thodes de traitement de donn es comme le groupage clustering et la fouille de donn es data mining D autre part la diversit mol culaire explore la mani re dont les mol cules couvrent un espace chimique d termin travers la s lection des composants et la construction de biblioth ques combinatoires Les mesures de similarit et de diversit mol culaires sont donc compl mentaires 2 Mesures de similarit et de diversit l ments principaux Pour effectuer des mesures de similarit ou de diversit mol culaire dans un cadre d analyse mol culaire ou chimique nous devons prendre en compte trois l ments principaux les descripteurs les coefficients et un syst me de poids 2 1 Les descripteurs Les descripteurs sont utilis s pour caract riser les mol cules analyser voir figure 1 Ils peuvent tre calcul s partir de la structure constitution configuration et conformation mol culaires ou des propri t s physiques chimiques biologiques appartenant aux mol cules Brown1997 Todeschini2000 Les descripteurs constitutionnels incluent l information d ordre des atomes et des liaisons ainsi que la pr sence ou l absence de fragments et d autres caract ristiques 2D Les descripteurs gt configurationnels concernent l
168. insi que faciliter l change et la compression des processus 67 vx Mol cule x gt Cyclique x LI Acyclique x gt Vx Liaison x gt Simple x LI Langages Logiques Double x LI Triple x Ontologie Repr sentation des connaissances Figure 21 La repr sentation des connaissances comme produit des ontologies L ontologie regroupe une taxonomie de classes des relations et des axiomes logiques qui sont ensuite traduits en utilisant des langages logiques pour devenir compr hensible pour les machines Ceci est le principe m me de repr sentation des connaissances Dans l exemple on nonce deux r gles chimiques qui se traduisent ensuite en langage logique Pour toute mol cule soit elle est cyclique soit acyclique et Pour toute liaison soit elle est simple soit double soit triple etc Actuellement aucune ontologie chimique n est encore disponible et des efforts communs doivent tre faits par les scientifiques les associations les diteurs et les industriels pour construire une ontologie chimique unique suffisamment g n rique et extensible qui nous permette de transformer l actuel syst me de documents et d information en un syst me de repr sentation des connaissances Comme nous l avons d j indiqu Il est important de rappeler que l utilisation des langages de marquage n est pas restreinte la manipulation de l information mol culaire Ils sont utiles dan
169. ion en biologie mol culaire et bioinformatique Recherche de la Similarit Diversit pour des mol cules en 3D D finition de nouvelles r gles pour augmenter le nombre de propri t s physicochimiques incluses dans le mod le Extension des structures de donn es pour interpr ter de nouvelles informations enantiomers chiralit volumes surfaces Classification et clustering des bases de mol cules en utilisant des m thodes math matiques de classification supervis e g NN SVM et non supervis e g PCA 184 ANNEXES Annexe 1 Manuel d utilisation du logiciel Annexe 2 Fichiers XML et structures de donn es Annexe 3 Format MOL Annexe 4 Tableaux de r sultats Annexe 1 Manuel d utilisation du logiciel Cette annexe a pour but de r sumer bri vement l utilisation du logiciel MoIDiA Le logiciel compte avec une interface simple et claire qui permet l utilisateur d exploiter les multiples possibilit s de calcul offertes Tout d abord un tutoriel pour les usagers d butants avec des tapes simples et claires sera pr sent Ensuite un module d analyse rapide pour des usages exp riment s sera abord Finalement on fera une r capitulation des menus et des commandes du logiciel A1 1 Tutoriel Wizard L utilisateur installe le logiciel sur sa machine gr ce au lt setup gt g n r pour l occasion Au d but de l ex cution du logiciel la FENETRE WO contient les comma
170. ion en comparant les caract ristiques des atomes On donne les listes de caract ristiques des atomes les matrices M cr es pour comparer les atomes et finalement les matrices r sultantes une fois que l algorithme d Ullmann a d tect les fragments 1 4 O R Z R X 2 C zn DE 3 Y Ses 6 Q 3 Q Cible C AGCQ 014Q ANSZ 000Z Figure 8 Mol cule cible C 1 Methylamino propan 2 one et 3 fragments de la FragDB Pour le d tail des atomes g n riques Q R Z X voir le tableau 1 La figure 9 montre travers un cas d tude l analyse atome par atome de la 1 Methylamino propan 2 one et des trois fragments contenus sur la FragDB les tapes de l analyse d une mol cule par notre outil La premi re tape est donc l extraction des propri t s Celles ci seront calcul es partir de la lecture du fichier source MOL et des informations de connectivit et de type d atome Ceci est la raison pour laquelle on ne peut pas lire d autres formats de fichier que le format MOL au risque que la lecture des informations soit erron e Des outils qui transforment les nombreux formats mol culaires existant par exemple Babel r solvent ce probl me 88 a Propri t s SPE 0140 oz ox des atomes 7 RJ X Symbole d l ment 8 6 6 6 7 6 146 146 6 8 138 140 138 142 Charge 0 010 0 0 01 0 0 0101
171. iques de la Soci t Am ricaine de Chimie CML Chemical Markup Language Langage de Marquage Chimique CSS ou SSC Common Substructure Search Recherche des Sous Structures Communes SSC DARC Description Acquisition Restitution Conception DISSIM Statistical module to calculate the DISSIMilarity index module statistique pour calculer l index de diversit DTD Document Type Definition D finition de Type de Document FREL Fragments Reduced to an Environment which is Limited Fragment R duit un Environnement Limit FM Fragmental Methods M thodes fragmentaires FO Focus point de focalisation GETAWAY GEometry Topology and Atom Weights AssemblY Assemblage de g om trie topologie et masses mol culaires GML Generalized Markup Language Langage de Marquage Generalis HOMO LUMO Highest Occupied Molecular Orbital Lowest Unoccupied Molecular Orbital Orbital mol culaire sup rieur occup orbital mol culaire inf rieur non occup HTML Hyper Text Markup Language Langage de Marquage d Hyper Texte HTS High Throughput Screening Criblage de Haut D bit HTSS Hierarchic Tree Substructure Search Systems Syst me de recherche des sous structures par des arbres hi rarchiques InkML Ink Markup Language Langage de Marquage pour l encre digitale IR Infrared Infrarouge IUPAC International Union of Pure and Applied Chemistry Union International de Chimie Pure et Appliqu LaSSI Latent Sema
172. ires tr s diverses petites et grandes mol cules structures simples ou complexes L outil montre une bonne efficacit dans un rang assez tendu de diversit mol culaire Ceci va l encontre des mod les actuels qui cherchent circonscrire l usage d un outil un groupe ou une famille de mol cules d termin es Il est possible d effectuer des requ tes sous MolDiA avec des mol cules contenant des atomes g n riques Ceci introduit un degr suppl mentaire d assouplissement et de possibilit s de calculs pour l usager Les requ tes g n riques permettent galement de cibler peu peu le rang de mol cules d sir es MolDiA a t dessin pour offrir le choix entre plusieurs mesures de similarit Simpson Cosinus et Tanimoto L usager peut utiliser une ou plusieurs mesures la fois Ceci ouvre des nouvelles perspectives pour effectuer des techniques de fusion de donn es data fusion pour obtenir des meilleurs r sultats Il est possible galement de param trer l importance le poids des sous structures choisies et de certaines propri t s physico chimiques pour le calcul de la similarit diversit Ceci a comme but d obtenir des mesures de similarit et de diversit adapt es aux besoins de l usager 182 gt MolDiA compte avec des multiples applications parmi lesquelles nous pouvons citer La comparaison inter mol culaire entre deux mol cules isol es analyse 1 1 une mol cule
173. is des m thodologies diff rentes selon le type de mol cule acyclique ou cyclique a Mol cules acycliques utilisation d une m thodologie inspir e de l algorithme d Ullmann d j introduit dans la section III 1 1 Avant d expliquer l algorithme pour la recherche des isomorphismes que nous avons appliqu dans notre outil quelques claircissements sont n cessaires concernant la nature de la structure de donn es mol culaires et les conditions particuli res des mol cules cibles 86 Comme nous l avons indiqu auparavant dans la section II 2 3 1 des restrictions s appliquent quant la nature et au format des mol cules des QueryDB TestDB Ainsi il n est pas n cessaire de repr senter les hydrog nes li s aux atomes lourds car ces hydrog nes peuvent tre g n r s automatiquement partir des informations enregistr es pour les atomes lourds La structure de donn es des mol cules construite partir des informations stock es dans le fichier MOL est pr cis e dans le tableau suivant Ces informations sont d termin es automatiquement partir d une modification du module d acquisition de formules structurales qui avait d j t mis au point au laboratoire ITODYS par Yao et al pour le syst me de simulation spectrale IR et Raman SIRS SS gt 20011 Propri t s D finitions Num ro atomique des atomes selon la table p riodique des Symbole d l ment n M l ments Pour l
174. is pour identifier les sous ensembles candidats possibles l isomorphisme avec une structure complexe La congruence de ces sous ensembles avec la structure interrog e est test e La premi re tape de l algorithme consiste identifier tous les atomes de la sous structure admissibles la superposition avec chaque atome de la structure cible Ensuite tous les sous ensembles qui sont les candidats la superposition avec les atomes de la structure interrog e sont g n r s Plus on consid re de propri t s pour les atomes plus l algorithme est efficace L algorithme de Clique d tection Barrow1976 sert trouver des sous graphes maximaux complets d une structure donn e on entend par sous graphe maximal complet ou clique tout sous graphe complet dont tous les l ments ne sont pas contenus dans un autre sous graphe 74 complet Ceci est r alis en identifiant les parties communes travers un marquage des n uds et des ar tes des graphes 2D suivant le type d atome et les distances inter atomiques L algorithme utilise la technique de branch and bond pour couper les branches qui ne peuvent pas conduire une clique L algorithme d Ullmann Ullmann1976 permet d effectuer des recherches d isomorphismes dans un ensemble de mol cules L algorithme repose sur une recherche dans un arbre combin e avec l limination successive des n uds afin d augmenter l efficacit Dans la premi re tape de l a
175. ison de 3 mesures de similarit pour la base Random et la cible RandSel100 51 mol Comparaison d indices de similarit selon rang pour Random100 et RandSel100 51 amp cm Tanimot X e 40 0 00 ammoto 97 99 e 0 2 LS m Simpson 2 bad Cosinus Base Random100 148 Graphique V 16 Comparaison de 3 mesures de similarit pour la base Random et la cible RandSel100 74 mol Comparation d indices de similarit selon rang pour Random100 et RandSel100 74 1 zm F 08 n F E 06 o e A 8 04 74 Tanimoto 02 m Simpson 0 nn Cosinus 0 10 20 30 40 50 60 70 80 Base Random100 Pourquoi avoir effectu des tudes de comparaison de rangs pour des bases mol culaires en utilisant diff rents crit res d analyse La r ponse est donn e dans une tude r cente La fusion des classements dans les mesures de similarit est g n ralement plus efficace en termes de recherche des mol cules bio actives que des classements bas s sur un seul coefficient sous condition qu une combinaison appropri e des coefficients soit choisie pour la fusion Cette affirmation a t l une des conclusions d un travail r cent Holliday2002 sur le comportement de plusieurs mesures de simil
176. ithm for Subgraph Isomorphism J ACM 23 1976 31 42 Walters1998 Walters W P Stahl M T et Murcko M A Virtual Screening An Overview Drug Discovery Today 3 1998 160 178 Yao2001 Yao J Fan B T Doucet J P Panaye A Yuan S and Li J SIRSS SS A system for Simulating IR Raman Spectra 1 Substructure Subspectrum Correlation J Chem Inf Comput Sci 41 2001 1046 1052 98 CHAPITRE IV MESURES DE SIMILARITE MOLECULAIRES IV 1 Coefficients et distances IV 2 Comparaisons intermol culaires IV 2 1 Analyses de Similarit IV 2 2 Calcul de la pr cision et du rappel recall IV 3 Les diff rents niveaux de comparaison IV 3 1 Comparaison exclusivement structurale IV 3 2 Comparaison reposant sur la structure et les propri t s des mol cules CHAPITRE IV MESURE DE SIMILARITE Dans un contexte chimique les coefficients les indices et les distances donnent une mesure quantitative du niveau de ressemblance entre deux mod les mol culaires De tr s nombreuses repr sentations existent aujourd hui pour exprimer la comparaison entre deux descripteurs mol culaires ou pour tablir une distance entre deux objets dans un espace d termin Dans ce chapitre nous expliquerons le choix et l usage de certaines de ces mesures pour le calcul de la similarit et de la diversit mol culaire IV 1 Coefficients et distances Diff rents types de coefficient de similitude ont t d crits dans la litt ratu
177. iversit 2 Mesures de similarit et de diversit l ments principaux 2 1 Les descripteurs 2 2 Les indices de similarit 2 3 Le syst me des poids 3 Probl matique et aper u du syst me d velopp 3 1 Probl matique particuli re 3 2 Aper u des fonctionnalit s 4 Plan g n ral INTRODUCTION Afin d identifier de nouvelles mol cules susceptibles de devenir des m dicaments la recherche pharmaceutique a de plus en plus recours des technologies permettant de synth tiser un tr s grand nombre de mol cules simultan ment et de tester leur action sur une cible th rapeutique donn e De r centes volutions concernent la cr ation d outils informatiques adapt s au haut d bit pour le criblage in silico de bases de donn es chimiques r elles et virtuelles Le criblage virtuel sert ainsi r duire des bases qui contiennent un nombre trop important de composants en un ensemble d l ments prometteurs par rapport une cible ou une famille de cibles travers l application de m thodes informatiques Une des techniques de criblage virtuel les plus souvent utilis es est sans doute l analyse de la similarit et de la diversit mol culaire 1 Les concepts de similarit et de diversit Avant de continuer il est important de d finir les concepts de similarit et de diversit Souvent d cries comme des concepts flous la similarit et la diversit ouvrent la porte une des principales capacit s de la logique hum
178. l et acycliques IndexACYC xml de la base de fragments de MoIDiA est montr dans la section A2 3 DTD pour le mod le d index de fragments IndexCyc xml et IndexAcyc xml lt DID for model of indexCyc and IndexAcyc xml gt lt ELEMENT Index File gt lt ELEMENT File Keys Properties gt lt ATTLIST File name CDATA REQUIRED gt lt ELEMENT Keys gt lt ATTLIST Key name CDATA REQUIRED gt lt ATTLIST Key value CDATA REQUIRED gt lt ELEMENT Properties Propertyt gt lt ATTLIST Property name CDATA REQUIRED gt lt ATTLIST Property value CDATA REQUIRED gt I 201 Mod le de la structure de donn es du vecteur descripteur pour les mol cules de l usager UserDB lt xml version 1 0 encoding iso 8859 1 standalone no gt CE gt lt indexResultOF gt Molecule fileName ici le nom du fichier tre analys lt ExpRepVector gt lt Frag ref ici le nom du fragment 1 gt Il y aura autant d l ments lt Frag gt comme des N fragments ont t d tectes dans la mol cule analyser Frag ref ici le nom du fragment N lt ExpRepVector gt lt Molecule gt Il y aura autant d l ments lt Molecule gt lt Molecule gt comme des fichiers il y aura a analyser lt indexResultQF gt DTD pour le m
179. la comparaison de graphes chimiques sont utilis es pour effectuer les correspondances mol cule base de fragments L inclusion de filtres et de r gles sous contraintes nous a permit d affiner les recherches de sous structures Les informations au sein des vecteurs descripteurs sont organis es afin de tirer le meilleur r sultat de leur nature h t rog ne des clefs de recherche des informations structurales ainsi que des propri t s physicochimiques sont utilis es pour d crire l information chimique Des niveaux de comparaison diff rents combin s avec plusieurs mesures de similarit diversit sont propos es La personnalisation du calcul de la similarit et de la diversit est possible galement travers l usage des poids structuraux ou des poids de propri t s Au total ce sont au moins 3 27 analyses diff rentes qui sont propos es dans l outil gt Nous avons effectu diverses analyses avec des bases mol culaires diff rentes Apr s avoir analys les r sultats obtenus nous sommes arriv s aux conclusions suivantes Les deux groupes de donn es utilis es Zinc et Random ont montr avoir des configurations mol culaires tr s diff rentes Zinc est une base diverse et h t rog ne orient e pour le drug design tandis que Random est une base de petites mol cules plus courante en chimie spectroscopique qu en chimie m dicinale L analyse des r sultats montrent que l
180. larity using 2D fragment Bit Strings Comb Chem High Throughput Screening 5 2002 155 166 Katrizky1996 Katritzky A R Lobanov V S Karelson M CODESSA Reference Manual Version 2 0 Gainville 1996 Maggiora2004 Maggiora G M Shanmugasundaram V Molecular Similarity Measures In Methods in Molecular Biology vol 275 Chemoinformatics Concepts Methods and Tools for Drug Discovery Bajorath J Ed Humana Press Inc Totowa NJ 2004 pp 1 50 9 Martin1998 Martin Y C Bures M G Brown R D Validated Descriptors for Diversity Measurements and Optimization Pharm Pharmacol Commun 4 1998 147 152 Mendeleiev Web Information disponible http pearll lanl gov periodic mendeleev htm Pearlman1999 Pearlman R S Novel Software Tools for addressing Chemical Diversity Network Science 1999 Disponible a http www netsci org Science Combichem feature08 html Petitjean1996 Petitjean M Three Dimensional Pattern Recognition from Molecular Distance Minimization J Chem Inf Comput Sci 36 1996 1038 1049 Rouvray1990 Rouvray D H The evolution of the concept of molecular similarity In Johnson M A Maggiora G M Eds Concepts and Applications of Molecular Similarity John Willey amp Sons New York 1990 pp 15 42 Sadowski1998 Sadowski J Kubinyi H A Scoring scheme for discriminating between drugs and non drugs J Med Chem 41 1998 3325 3329 Todeschini2000 Todeschini R
181. lculation of Inter molecular similarity and dissimilarity using 2D fragment Bit Strings Comb Chem High Throughput Screening 5 2002 155 166 ZincWeb Irwin and Shoichet ZINC a free database of commercially available compounds for virtual screening J Chem Inf Model 2005 45 1 177 82 http zinc docking org 177 178 CONCLUSIONS ET PERSPECTIVES V1 1 Conclusions V1 2 Perspectives VI 2 1 Perspectives moyen terme VI 2 2 Perspectives long terme VI CONCLUSION ET PERSPECTIVES VI 1 Conclusions gt Nous avons pr sent un outil de criblage virtuel MolDiA reposant sur une nouvelle conception de la diversit qui inclut des informations structurales et des propri t s physicochimiques Ce nouveau syst me a comme but de calculer la similarit et la diversit de bases mol culaires gt Le d veloppement du syst me MolDiA s articule autour de trois axes principaux la cr ation de la base de fragments la g n ration des vecteurs descripteurs de mol cules et le calcul de la mesure de similarit Parmi les aspects propos s qui nous paraissent les plus importants dans le d veloppement de l outil nous pouvons souligner La base de fragments de MolDiA FragDB cette base a t cr e manuellement mais elle a t structur e automatiquement La FragDB est compos e ce jour de 502 fragments cycliques de 61 fragments acycliques et de 321 r gles d exclusion qui permettent d liminer le
182. le Heteroatom_O N mb rof Heteroatom_N t Cyclic Aromatic Fused_ Double Cycle Heteroatom S a au 5 5 ring 9 4 0 Cyclic Aromatic Fused Triple Cycle Mixture Heteroatoms TEE nnnn Special_atom Cyclic Aromatic 4 Fused_Cycle Halog ne atom nnnn nnnn zzo0ozo Carbon atom Cyclic Non Aromatic Single Cycle Heteroatom O Number of Sea Heteroatom_N atoms per Cyclic Non Aromatic Fused Double Cycle Heteroatom S 4 ring 3 4 5 6 Cyclic Non Aromatic Fused Triple Cycle Mixture Heteroatoms etc j Special_atom Cyclic Non Aromatic 4 Fused_Cycle Halog ne atom x zzo0ozo Single Cycle w nnnn Cyclic Aromatic J Fused Double Cycle Special atom Fused Triple Cycle w nnn Cyclic Non Aromatic SE Special_atom D 10C Figure 4 Combinaisons possibles de noms de fichier de fragments cycliques dans FragDB Carbonyl Acyclic Non_Aromatic Saturated Special_atom Acyclic Non Aromatic Unsaturated Carbon_atom Carbon atom Heteroatom O Acyclic Group Functional Carbonyl Heteroatom N Heteroatom S Acyclic Group Functional Saturated Heteroatoms Acyclic Group_ Functional Unsaturated Special_atom Halog ne_atom Figure 5 Combinaisons possibles de noms de fichier de fragments acycliques dans FragDB 41 Ces donn es portent la taille de FragDB aux environs de 570 fragments Les figures suivantes donnent des exemp
183. les jouent aujourd hui un r le important dans beaucoup d aspects et domaines de la chimie informatique tels la construction des biblioth ques la pr vision de propri t s la conception de syst mes de synth se le criblage virtuel et l analyse mol culaire de diversit L interrogation de bases de donn es par rapport une mol cule particuli re ainsi que les analyses de diversit au sein d une m me base mol culaire sont tout fait r alisables Nos applications ne concernent donc pas seulement le drug design et la chimie m dicinale mais tout domaine o la recherche de mol cules ayant une structure ou une propri t particuli re est souhait e 183 VI 2 Perspectives VI 2 1 Perspectives moyen terme Impl mentation d un diteur d quations pour l introduction par l utilisateur des ses propres indices de similarit Impl mentation d un outil import export des formats mol culaires en utilisant des logiciels existants e g Babel Impl mentation d un outil graphique pour l introduction par l utilisateur des mol cules requ tes ou des mol cules test Extension de la base de fragments pour augmenter le champ des fragments d tect s ainsi que la diversit mol culaire des r sultats VI 2 2 Perspectives long terme Conception et impl mentation d un module de pr diction de propri t s physicochimiques QSAR Extension des fonctionnalit s de l outil pour son utilisat
184. les de mol cules appartenant aux bases d crites plus haut Q Q Q 5 Ga Sc A Y ox gt Q Q Q a N o Q CAUX6 055X CAUN5 156Qb CAUN6 153Qc Figure II 6 Exemples de fragments CA fragments contenant des cycles aromatiques O Q Q Q QY X Q Q Q Q Q Q Q Q CNUO5 105b CNUQ23 131f CNUQ6 074bi CNUQ6 169u Figure 7 Exemples de fragments CN fragments contenant des cycles non aromatiques R R R X 2 2 ANIC 003R 5 000 2 0012 ANSQ 000Q Figure II 8 Exemples de fragments AN fragments contenant des cha nes acycliques 42 O gt R N O R S z R Z Q Q 2 0147 AGCQ 014Q AGIE 038R AGIS 051Z Figure II 9 Exemples de fragments AG fragments contenant des groupes fonctionnels II 1 3 Construction des bases de donn es QueryDB et TestDB Le groupe de mol cules qui pr sentent des caract ristiques int ressantes pour l usager et qui serviront des cibles pour les analyse de dis similarit est appel QueryDB Le groupe de mol cules tre test et sur lequel en cherche des resemblances avec la les cible s est appel TestDB L introduction des bases QueryDB et TestDB est faite par l usager l aide d une interface graphique Il devra ensuite d finir le nombre de cibles et des mol cules test ainsi que le type d analyse effectuer similarit ou diversit Pour l acquisition des donn es chimiques toutes les mol cules devront tre d finies
185. lgorithme on g n re les matrices M construites en fonction des relations de correspondance entre l ensemble des n uds de deux graphes Chaque l ment de la matrice sera mis 1 si les propri t s du 77 n ud du graphe test peuvent englober toutes les propri t s du i n ud du graphe cible sinon il sera mis 0 Dans la deuxi me tape on teste l isomorphisme pour chaque matrice d apr s une relation de superposition g n rant ainsi les matrices M Ici tous les 1 sont chang s par des z ros l exception d un l ment par rang celui qui accomplit une superposition compl te A la fin de l algorithme un processus d affinage est utilis pour r duire le nombre de calculs n cessaires la recherche d un sous graphe isomorphe Ainsi pendant le parcours dans l arbre les n uds des successeurs sont syst matiquement limin s L algorithme de Sussenguth Sussenguth1965 est utilis pour rechercher des isomorphismes entre deux structures non connexes La premi re tape consiste g n rer des paires de sous ensembles de noeuds correspondants par r f rence la sous structure interrog e Ces sous ensembles sont ensuite class s pour d terminer les correspondances noeud noeud Finalement si la g n ration des sous ensembles est effectu e avec succ s la proc dure de classification peut tre lanc e Sinon il faut voir si tous les n uds de la structure cible ont t parcourus Dans le cas o il n y a
186. libXML string builtin atomRef gt al1 lt string gt string builtin atomRef gt a2 lt string gt string builtin order gt 1 lt string gt lt bond gt lt bondArray gt lt molecule gt Figure II 12 Deux cas d tude pour la structuration de l information chimique Dans notre cas particulier deux cas d tude ont t propos s pour la structuration des informations chimiques contenues dans un fichier MOL des mol cules voir figure II 12 1 Table de connectivit Information d pendante de la pr sentation un changement de la table de connectivit rendra le fichier invalide pour la lecture Structure de donn es d pendant de la pr sentation et d finir par l usager Impl mentations limit es au cadre des donn es pr sent es 50 2 Fichier XML Information ind pendante de la pr sentation un rajout ou une modification du fichier XML n intervient pas dans la lecture Structure de donn es fixe et ind pendant de la pr sentation Possibilit d utiliser plusieurs structures de donn es sans changer l impl mentation Ainsi au moment de cr er notre base de donn es de sous structures pour notre outil de criblage virtuel il n a pas t n cessaire de pr voir l avance toutes les possibilit s des futures impl mentations de l information gr ce au cadre flexible et extensible de XML Ceci permet d effectuer facilement des modifications et des additions d information
187. logie qui mettaient d j en vidence les effets nocifs de l alcool et du tabac Mais il faut attendre 1947 pour voir apparaitre des descripteurs structuraux et des indices topologiques Wiener1947 D autres sources de diversit mol culaire ont t puis es dans la chimie des peptides Les combinaisons possibles tant tr s nombreuses ceci a rendu plus difficile le travail x T de synth se des chimistes de l poque Une nouvelle proc dure a alors r volutionn la mani re d aborder ce probl me au lieu de synth tiser des mol cules cible apr s un long processus de s lection et d isolation on a commenc synth tiser des m langes de produits et tester les propri t s de ceux ci 1 1 1 La chimie combinatoire La chimie combinatoire r elle ou virtuelle est apparue naturellement comme une option viable au probl me de la diversit mol culaire Aujourd hui c est un moyen pratique pour pr dire et synth tiser une grande quantit de mol cules en chimie pharmaceutique et agrochimique Moos1996 Willett1997 Weber2000 Comme moteur de diversit cet outil est devenu indispensable et a jou un r le important dans le progr s de la synth se automatique et parall le survenu ces vingt derni res ann es Stu2003 Cette m thode repose sur l id e d obtenir le plus grand nombre de produits possibles d une r action particuli re et ceci sous certaines conditions voir Gordon1998 et la figure I 1 pour plu
188. manuscrit Nous expliquerons plut t comment et pourquoi nous avons choisi des descripteurs de type structural pour le traitement et l analyse des mol cules Pour cela nous dresserons une liste de travaux de comparaison des descripteurs Leurs conclusions nous m neront l tat de l art des approches structurales utilis es pour les outils de criblage virtuel relevant de notre probl matique 15 I 2 1 Le choix de descripteurs Dans l introduction nous avons pr sent bri vement quels taient les l ments principaux pour effectuer des mesures de similarit et de diversit dans un cadre mol culaire Les descripteurs figurent parmi ces l ments Le calcul et la s lection des descripteurs sont des facteurs d terminants de la r ussite du criblage virtuel de mol cules Beaucoup de questions doivent donc tre pos es Si des propri t s physicochimiques sont utilis es il faut fixer l avance lesquelles seront retenues et comment elles devront tre calcul es Dans le cas de descripteurs structuraux il faut choisir le niveau de repr sentation 1D 2D ou 3D en sachant que l approche 1D pr sente de nombreux avantages mais est d un niveau descriptif incomplet les descripteurs 2D refl tent bien les propri t s physiques et la r activit dans la plupart des cas mais l activit biologique est troitement li e la repr sentation 3D Cependant l utilisation de structures 3D dans la caract risation des mol cules pr sen
189. n de structuration nous travaillerons avec des fichiers de structuration de donn es Ces fichiers par exemple index xml gt indexResult xml gt etc codent l information chimique des fragments ou des mol cules De la m me mani re les noms de fichiers des sous structures composant la FragDB seront d sign s avec un nom sp cifique codant des informations chimiques Ceci sera expliqu dans le chapitre suivant Pour l acquisition des donn es chimiques les mol cules et les fragments devront tre en format MOL Un fichier en format MOL peut m moriser des informations sur les atomes et les liaisons d une mol cule en 2D ou en 3D ainsi que les caract ristiques d une r action chimique Apr s un bloc d en t te du fichier le contenu principal du fichier MOL consiste en informations sur la connectivit et sur la nature des atomes et des liaisons Ce format sera pr sent en d tail dans l annexe 3 Il est important de noter que pendant les trente derni res ann es le traitement des informations chimiques donn lieu de tr s nombreux formats de repr sentation de mol cules Du fait que ces diff rents travaux ont t conduits sans pr d finir une norme standard plusieurs formats co existent Parmi eux les formats plus populaires sont SMD Bebak1989 qui est recommand par la CAS MOL 1992 propos par MDL SMILES Weininger1988 Weininger1989 Wiswesser1954 DARC Dubois1986 Dubois1999 et
190. n vecteur descripteur qui contient 20 fragments mais desquels seulement 8 correspondent aux 9 fragments attendus les 12 autres tant des doublons des fragments recouvrants etc a une tr s grande pr cision mais contient des fragments qui n interviennent pas pour cette comparaison Un des avantages et limitations de notre outil est d avoir une base pr d finie de fragments Ceci limite certainement les fragments d tect s ceux contenus dans la base mais d autre part il n y a pas de possibilit de d tection des faux fragments fragments mal d finis fragments redondants car tous les fragments de la base ont t soigneusement s lectionn s et d finis au pr alable 106 Le rappel ou recall vient compl ter les r sultats des calculs de pr cision Le rappel est d fini comme le nombre absolu de correspondances en prenant compte les non correspondances Ainsi une mol cule avec un vecteur descripteur exp rimental de 10 fragments aura 100 de rappel si et seulement si il y a 10 fragments attendus dans le vecteur descripteur th orique Si le vecteur exp rimental comporte plus ou moins de fragments le rappel sera toujours inf rieur car soit tous les fragments ont t identifi s mais il y a des fragments non attendus soit tous les fragments n ont pas t identifi s La F measure Van Rijsbergen1979 rapport entre la pr cision et le rappel vient compl ter l analyse des r sultats Pour analyser les r sultats
191. nce maximale et l unit ensembles identiques de descripteurs Cela dit les coefficients d association peuvent tre employ s avec des donn es non binaires Dans ce cas d autres gammes de valeurs peuvent s appliquer ou de nouvelles constantes de normalisation tre utilis es D autre part les coefficients de corr lation mesurent le degr de corr lation entre les ensembles de valeurs caract risant une paire d objets D autres utilisations plus conventionnelles incluent les analyses multi vari es o l on recherche les rapports entre des paires de variables Parmi le grand nombre de coefficients et de distances de similarit d finis beaucoup sont inter d pendants Il arrive que certains coefficients puissent tre obtenus par des approches diff rentes D autres ont des comportements similaires en fonction des donn es employ es binaires r els etc On assigne donc le terme monotone Willet1987 aux coefficients ou distances de similarit qui montrent des r sultats analytiques quivalents et donc un ordre de classement ranking identique pour un groupe de mol cules donn Formellement deux mesures de similarit S1 et S2 sont monotones lorsque pour tout couple de mol cules i j on a 810 81 0 x 820 82 0 gt 0 Autrement dit les quantit s S1 1 S1 j et S2 i S2G sont positives ensemble ou n gatives ensemble On v rifie que la relation de monotonie est r flexive S est monotone avec S sym trique
192. ndSel100_11 13 RandSel100_14 RandSel100_15 RandSel100_16 RandSell00 17 0 RandSell00 18 RandSell00 19 RandSell00 2 RandSell00 20 RandSel100 21 0 25 0 00 0 25 ho RandSell00 1 1 RandSel100 10 ele Un GA es ole ele eje 4 0 2 0 33 N nin al oll 1 1 Po t Pe Ss 51 S mi E ejele STETS T gt e lt 13 SISISIS EE ab STETS T gt Y e Tur tA 5 5 a Bue TS TS ta ev CA N N S gt SIA u tA eje e e CA D NI Un D oj IRandSell00 100 100 N D O Go Un Go OSSI lt p Tableau V 17 Analyse N N d une partie de la base Random Indice de Cosinus 1 10 100 11 13 14 15 16 17 18 19 2 20 21 163 Tableau V 18 Analyse N N d une partie de la base Random Indice de Simpson RS100 RSIO0 RS100 RS1
193. ndes d action pour l outil FENETRE WO moia E File Options Pour acc der au tutoriel d butant il faut aller au menu File puis choisir lt Wizard gt La FENETRE W est la fen tre de bienvenue Elle met en garde l utilisateur sur l usage d autre format que le format MOL et d crit bri vement le but de l outil 185 FENETRE W1 Welcome to the MolDiA Wizard 221 Welcome to the MolDiA Wizard This program allows you to make different analysis of similarity and diversity between molecules in a fast and easy way I ATTENTION The molecular format used in this software is MDL mot Please convert your molecules before continue Si l utilisateur choisit QUIT jj quitte l assistant On peut acc der l assistant par le menu File Si l utilisateur choisit CONTINUE fen tre suivante apparait FENETRE W2 Choose a Type of Analysis 4 ET 31 x Two kind of analysis are available in this version Please select if you would like to run 8 Analysis substructure based only Custom c Custom SP Analysis substructure based physico chemical properties Gee Dans cette fen tre on peut choisir soit une analyse dite lt S gt soit une analyse lt SP gt 186 L analyse lt S gt permet d effectuer une comparaison des mol cules par rapport leur structure 2D uniquement Des descripteurs structurels seront construits et l index de sim
194. nn es correspondant au calcul seront perdues Si l utilisateur choisit CONTINUE jj FENETRE ws apparait Pour lancer le calcul des vecteurs descripteurs il faut s lectionner la touche de la FENETRE W5 Cette fen tre montre de mani re dynamique le processus de calcul des descripteurs l aide d une barre d avancement FENETRE W5 Computation in Progress 2 x Computation in progress Une fois que le processus de construction des vecteurs est termin ce qui peut durer de quelques secondes plusieurs dizaines de minutes d pendamment du nombre des mol cules ainsi que de la taille et de la complexit des donn es on s lectionne la touche SEE RESULTS pour acc der aux indices de similarit et de diversit 192 FENETRE W5 1 Ceci nous am ne la FENETRE W6 derni re tape pour le calcul de la similarit et de la diversit mol culaires Pour lancer le calcul des indices dans cette fen tre il faut s lectionner une ou plusieurs mesures de similarit Tanimoto Simpson Cosinus puis la touche FENETRE W6 193 On peut galement choisir de visualiser ou non les vecteurs repr sentatifs calcul s dans la FENETRE W5 1 Pour cela il suffit de cocher lt Yes gt ou lt No gt La FENETRE W6 1 affiche finalement les r sultats sous forme d hyperliens vers les fichiers de r sultats en format XML Ces fichiers seront automatiquement enregistr s dans le r pe
195. nt tre r sum s en quelques points La base de fragments contient un nombre fixe de sous structures et est limit e une taille relativement petite Ceci est toutefois extensible L id al serait de pouvoir enrichir FragDB dynamiquement avec des sous structures extraites de l UserDB Le traitement de mol cules est fait strictement sous format MDL mol bien d fini voir annexe 3 Les informations mol culaires telles qu elles sont d finies dans les fichiers mol sont strictement respect es lors du calcul par exemple la d finition des liaisons aromatiques Si le fichier mol d une mol cule n est pas bien d fini erreur dans la structure absence d une marque de fin de fichier etc ceci peut emp cher l outil de traiter la mol cule et interrompe le d roulement du calcul 181 Seuls trois mesures de similarit diversit Cosinus Simpson et Tanimoto sont calcul es pour le moment L outil a t con u de fa on ce que d autres mesures puissent tre impl ment es avec une perte n gligeable de temps de calcul et une difficult minimale Pour l instant quatre propri t s physicochimiques sont utilis es seulement caract re hydrophobe caract re accepteur de proton aromaticit et polarisabilit D autres propri t s peuvent tre ajout es par construction de r gles partir des informations disponibles dans le fichier XML MolDiA permet d effectuer des analyses de bases mol cula
196. nt e l expertise d un chimiste pharmaceutique La base comptait alors pr s de 500 fragments qui ont t ensuite rassembl s dans le but d tablir diff rents niveaux de granularit au moment de retrouver les fragments L importance de l existence des niveaux de granularit sera abord e dans le chapitre III lors de l explication du processus de comparaison de structures mol culaires et de reconnaissance des motifs structuraux Il est important de noter que des outils d extraction automatique de fragments ont t pr sent s dans la communaut Dubois1980a Dubois1980b Carabedian1988 Bremser1978 mais on observe souvent qu un grand nombre des sous structures g n r es sont recouvrantes Une fois que les sous structures ont t choisies et d finies en utilisant les atomes g n riques d crits plus haut on a nomm et index les fichiers dans la FragDB Pour cela on a trouv ad quat de nommer 38 les fragments en suivant une nomenclature voir figure IL 3 qui code des informations chimiques difficiles structurer plus tard comme les concepts d aromaticit ou de m lange d h t roatomes Les informations cod es sous le nom de fichier des fragments nous permettront de compl ter notre structure de donn es chimiques et d am liorer la recherche de fragments et le criblage des mol cules C Cyclic A Acyclic A Aromatic N Non Aromatic G Group Functional U Single C
197. ntic Structure Indexing Indexation structurale s mantique latent MACCS Substructure search system from CambridgeSoft Corporation Syst me de recherche de sous structures cr e par la corporation CambridgeSoft MathML Mathematical Markup Language Langage de Marquage Math matique MDDR MDL Drug Data Report Index MDL de donn es de drogues MDL Molecular Design Limited Corporation vissant au design des nouvelles mol cules MEP Molecular Electrostatic Potential Potential electrostatique mol culaire MCSS ou SSMC Maximal Common Sub Structure Sous structure maximale commune SSMC Namespace espace de noms mot qui permet d viter des collisions de noms des balises XML NP NP problem probl me NP c est dire que la d couverte de l ensemble des solutions s effectue en un temps exponentiel OWL Web Ontology language Langage des ontologies du web QSAR Quantitative Structure Activity Relationship Relation quantitative structure activit QSPR Quantitative Structure Property Relationship Relation quantitative propri t activit RDF Radial Distribution Function Fonction de distribution radiale RDF Resource Description Framework Cadre pour la description des ressources RuleML Rule Markup Language Langage de Marquage de r gles 84 SubStructure Search Software Beilstein Institute of Organic Chemistry amp Softron Ltd logiciel de recherche de sous structures SGML Standard Generalized Markup Lan
198. ntinue ainsi de suite jusqu n avoir plus de mol cules dissimilaires dans la base originale Willett1987 Diff rents crit res de dissimilarit peuvent tre utilis s ainsi que diff rents seuils de mesures de dissimilarit 1 coefficient de Similarit pour calculer les diff rences entre les mol cules On pourra obtenir ainsi des sous groupes diff rents partir la m me mol cule lt graine gt choisie pour commencer l algorithme Willett1996 111 Deux niveaux de comparaison sont galement propos s ce jour Le premier niveau consiste prendre en compte seulement l information structurale des mol cules Le deuxi me niveau prend en compte les propri t s physicochimiques en plus des informations structurales des mol cules Ces niveaux sont repr sent s dans la figure IV 4 Dans la section IV 3 nous allons d tailler avec un exemple les niveaux de comparaison 1 niveau on utilise seulement des informations structurales propri t s physico chimiques ainsi que PotPCharged des poids pour les variables structurales HydPhi et les propri t s Aromat 274 niveau on prend en compte des HBondAD Figure IV 4 Niveaux de comparaison propos s pour effectuer des analyses de similarit et de diversit Les symboles dans le cartouche repr sentent des fragments mol culaires L importance d offrir autant de niveaux de comparaison r side dans l tendue des applications possibles de l
199. nts 51 II 2 2 2 Une DTD pour valider l index XML 58 II 2 3 La structuration du QueryDB et du TestDB 59 II 2 3 1 Transformation des mol cules et cr ation du VecteurRepresentatif XML 59 II 2 3 2 Une DTD pour valider le VecteurRepresentatif X ML 64 II 2 3 3 Une DTD pour valider l indexResult XML 65 II 2 4 La repr sentation des connaissances 66 vii Chapitre III Processus de comparaison de structures mol culaires III 1 Les recherches structurales III 1 1 Algorithmes de superposition des graphes III 1 2 Recherche de similarit pour des structures mol culaires 2 Reconnaissance des motifs structuraux et cr ation des vecteurs descripteurs III 2 1 Transformation des mol cules et g n ration des vecteurs descripteurs 2 1 1 Reconnaissance des motifs structuraux III 2 1 2 G n ration des vecteurs descripteurs Chapitre IV Mesures de Similarit mol culaires IV 1 Coefficients et distances IV 2 Comparaisons intermol culaires IV 2 1 Analyses de Similarit IV 2 2 Calcul de la pr cision et du rappel recall IV 3 Les diff rents niveaux de comparaison IV 3 1 Comparaison exclusivement structurale IV 3 2 Comparaison reposant sur la structure et les propri t s des mol cules Chapitre V Pr sentation et analyse des r sultats V Analyse de type 1 N V 1 1 R sultats avec la base lt Zinc gt V 1 2 R sultats avec la base lt Random gt V 1 3 Comparaison des indices selon le rang V 1 3 1 Graphiques de comparaison d ind
200. od le de structure de donn es du vecteur descripteur DID ier model Gr al gt lt ELEMENT indexResultQF Molecule gt lt ELEMENT Molecule ExpRepVector gt lt ATTLIST Molecule fileName CDATA REQUIRED gt lt ELEMENT ExpRepVector Fragt gt lt ATTLIST Frag ref CDATA REQUIRED gt 202 A2 2 Fichier XML des r gles d exclusion des fragments exclusionRule xml Fragments Acycliques lt xml version 1 0 encoding iso 8859 1 standalone no gt lt Rule gt ee Loses NMC gt lt FragRule gt lt Cond gt Ser re suma lt Erag Prec lt Cond gt Exc Frag ref AGIN 051Q mol Exc lt FragRule gt lt FragRule gt lt Cond gt 120 re c For er e lt Cond gt lt Exc gt Frag ref ANSQ 000Q mol gt Exc lt FragRule gt lt FragRule gt lt Cond gt C For rej sad Sheet re lt Cond gt lt Exc gt CRIEN ice lt Exc gt lt FragRule gt lt FragRule gt lt Cond gt suma Era 101626 lt gt Exc Frag ref ANIZ 0022 mol Exc lt FragRule gt lt FragRule gt lt Cond gt Frag ref AGCQ 0140 mol Cond lt Exc gt Frag ref ANIZ 002Z mol gt Frag ref ANIZ 0022 mol Exc lt FragRule gt lt FragRule gt C
201. oins 31343 de correspondances seront trouv es entre les mol cules Ainsi l index de Tanimoto le plus restrictif des indices trouve une seule mol cule avec Is index de similarit au del de 0 5 zinc 10 Ceci s explique par le syst me aromatique et le groupement acide carboxylique en commun avec la cible L application de l index de Cosinus et de Simpson donne respectivement 7 et 13 mol cules avec un 18 0 5 dont des mol cules moins similaires d un point de vue structural la cible que zinc 10 Cet effet est d avantage marqu avec des mol cules avec peu de fragments repr sentatifs Query3Z ou qui ont des fragments courants C C Le graphique du coefficient Simpson pour Query3Z pr sente ainsi des grands paliers de similarit le premier un le deuxi me 0 5 et troisi me z ro Car seuls trois fragments d crivent la mol cule enti re L usage d un indice qui prend en compte l ensemble des donn es fragments correspondants et fragments absents contourne ce probl me Les syst mes cycliques tant tr s r pandus en chimie pharmaceutique la cible Query1Z3 produit des valeurs de similarit assez lev es pour l chantillon de la base ZINC tudi e Finalement la m me raison la nature et vocation de la base explique pourquoi la pr sence de fragments de type C X dans Query2Z2 et Query3Z limite en partie le nombre de correspondances trouv es pour ces deux mol cules V 1 2 R sultats avec la base R
202. ol cule requ te C est pour cela qu il est recommand d introduire dans le calcul de similarit ou de diversit un facteur de normalisation en fonction de la taille des mol cules On emp che ainsi l apparition d carts fictifs dans l analyse de groupes de mol cules h t rog nes Cet effet est davantage prononc quand on utilise des coefficients ou des distances qui prennent les absences d information comme une mesure de similarit section IV 1 103 Au sein de notre outil les comparaisons mol culaires s effectuent travers l examen des vecteurs repr sentatifs des mol cules concern es Cet ensemble de vecteurs mol culaires pour un ensemble d termin des mol cules issues de la Query TestDB constitue l outil de base pour effectuer des comparaisons intermol culaires en utilisant des indices et des distances Les informations contenues dans ce fichier sont le point de d part pour la g n ration d un index de vecteurs englobant les l ments comparer leurs propri t s leurs caract ristiques etc Le fichier index de descripteurs a t construit et structur en utilisant les m mes principes que l index de fragments de la FragDB L information dans les deux cas est abondante et comporte plusieurs niveaux de complexit Dans le chapitre HI 2 1 nous avons expliqu la proc dure pour obtenir des vecteurs descripteurs de type structural pour chaque mol cule analys e Dans le chapitre II nous a
203. on t propos s dans la litt rature pour simplifier et optimiser les possibilit s de comparaison Nous en pr sentons par la suite un chantillon III 1 1 Algorithmes de superposition des graphes La recherche d isomorphismes dite recherche de sous structures communes ou Common Substructure Search consiste comparer une cible un ensemble de sous structures avec comme but de trouver le nombre maximum de sous structures communes la cible G n ralement ce type de recherche effectu dans des grandes bases de donn es est r alis en deux tapes D abord on pr s lectionne des structures candidates l aide d un filtre pour ensuite effectuer des superpositions avec la cible en utilisant un algorithme ad quat La qualit du filtre d termine la s lection des structures et limite le nombre de candidats retenus 373 2 Nous num rons ici bri vement quelques uns des algorithmes couramment utilis s dans la litt rature pour effectuer la superposition d un sous graphe 2D avec le graphe d une structure candidate recherche d isomorphisme SSC Les n uds du graphe repr sentent ici les atomes alors que les ar tes repr sentent les liaisons Ar tes Figure III 1 Graphe d une mol cule repr sentation math matique simplifi e d une structure chimique Les graphes mol culaires sont couramment repr sent s en 2D Ici la repr sentation est effectu e en 3D L algorithme de Lesk Lesk1979 est util
204. on consid re leurs propri t s li es aux r cepteurs biologiques L incr mentation de la diversit dans une base de test devrait donc augmenter les chances de trouver de nouvelles mol cules int ressantes Les travaux rapport s par Good Good1998 r sument une s rie de techniques utiles pour quantifier explicitement la similarit mol culaire en 3D Les calculs ont t faits en utilisant des descripteurs 24 de forme mol culaire et des MEP De nombreuses propri t s mol culaires indices et protocoles ont t ainsi pr sent s et discut s Godden Godden2000 propose une m thode pour calculer et comparer la variabilit des descripteurs mol culaires utilis s en bases de donn es mol culaires Son analyse est bas e sur des histogrammes qui contiennent la distribution de descripteurs mol culaires et le calcul de l entropie de Shannon laquelle refl te la variabilit du descripteur Des diff rences significatives ont t observ es et l entropie de Shannon s est r v l e tre un facteur discriminant efficace Il est important de noter que plusieurs travaux Martin2001 Barnard1993 et Bayada1999 affirment que les descripteurs sous structuraux ont de meilleurs rendements dans le criblage de bases de donn es mol culaires et permettent souvent d tablir des relations entre les mol cules et des propri t s biologiques donn es La question de savoir pourquoi ces descripteurs ont une meilleure performance a
205. on entre la structure d une mol cule et ses propri t s qui seront choisis Des tudes men es sur ce sujet Willett1986 ont montr que les coefficients de Tanimoto ou Cosinus ont de meilleures performances que les distances Euclidiennes ou de Hamming IV 2 Comparaisons intermol culaires On remarque que pour obtenir une mesure de similarit ou de diversit entre deux mol cules r elles ou virtuelles on utilise des repr sentations de ces mol cules repr sentations qui seront responsables dans une large mesure du succ s ou de l chec de la comparaison Dans notre cas des vecteurs mol culaires g n r s automatiquement sont tour tour compar s en utilisant diff rents indices coefficients ou distances Toutefois il est important de noter que toutes les mesures de similarit n ont pas les m mes propri t s vis vis d une m me base de vecteurs repr sentatifs Willett1998 En fonction du nombre de la nature et du type de donn es on obtient alors des r sultats qui peuvent tre comparables mais qui restent en essence diff rents ou compl mentaires Dans les analyses de similarit et de diversit mol culaire qui utilisent comme descripteurs des informations chimiques group es dans des entit s d finies bas es sur des empreintes mol culaires on observe que les mol cules de grande taille auront priori beaucoup plus de chances que les mol cules de petite taille d avoir des entit s en commun avec la m
206. ortant la charge et vvv est la valeur de charge port e par cet atome Si n atomes portent des charges le format lt aaavvv gt est r pet n fois Si aucune charge n est port e par un atome dan la mol cule cette ligne n existe pas dans le fichier MOL Radical Libre Le format de ligne enregistrant les informations concernant les radicaux est M RADnn8 aaa vvv O lt M RAD est l indication d existence de radicaux et les autres champs ont les sens analogues que dans la ligne des informations pour les charges Si aucune charge n est port e par un atome dan la mol cule cette ligne n apparait pas dans le fichier MOL Isotope Le format est M ISOnn8 aaa vvv O lt M ISO gt marque la pr sence d isotopes dans la mol cule Les autres variables sont similaires celles pour les charges et les radicaux Cette ligne sera absente du fichier si la mol cule ne contient pas d isotopes Marque de la fin du fichier Symbolis par M END ceci d signe la fin du fichier 219 R f rences Yao2000 Yao J H Syst me SIRS SS Simulation Spectrale IR et Raman par association sous structure sous spectres These de Doctorat Universit Paris 7 Denis Diderot Paris 2000 MDLWeb Information disponible sur http www mdl com downloads public ctfile ctfile pdf 220 Annexe 4 Tableaux de r sultats A4 1 R sultats d une analyse 1 N avec la base Zin
207. outil Les combinaisons des calculs augmentent la diversit d usage de l outil De requ tes bibliographiques nettement structurales la recherche de pharmacophores ou des mol cules ayant des propri t s particuli res les applications sont donc multiples IV 3 1 Comparaison exclusivement structurale Nous partons de deux vecteurs r sultants V et V qui correspondent deux mol cules diff rentes On consid re que chaque vecteur contient respectivement n et n fragments avec la condition que n gt La lettre lt f d note les fragments qui d crivent ces deux mol cules V et V dans la formule 12 pom PA En g n ral comparer deux vecteurs se r sume retrouver distance qui les s pare dans un espace d fini Beaucoup de mesures de distance de coefficients et d indices existent aujourd hui Dans notre outil nous pr sentons une s lection des mesures de comparaison avec comme but de pouvoir effectuer un maximum d analyses en fonction des donn es mol culaires et des probl mes pos s Une fois la mesure de comparaison choisie on peut structurer les r sultats dans des fichiers XML pour faciliter l acc s l information Nous allons consid rer en cons quence que pour comparer les vecteurs V et V on utilise une distance lt D V V gt qui remplit les conditions suivantes pour plus de d tails voir le tableau IV 1 D D V V 0 quand les vecteurs les mol cules
208. phosphore et de soufre Le reste des l ments est inclus dans la classe lt R gt voir la figure II 2 et le tableau II 1 Figure 2 Hi rarchie propos e des atomes g n riques pour la structuration de la base de fragments Le niveau le plus g n ral est lt gt Les carbones aromatiques lt A gt et l hydrog ne lt H gt sont mis part Pour finir le groupe Q est d compos en atomes m talliques M atomes non m talliques importants Z halog nes X et le reste des atomes R dont l atome de C non aromatique De fa on g n rale l atome d Hydrog ne n est pas explicite Le tableau IL1 montre en d tail les atomes particuliers inclus dans chaque cat gorie d atomes g n riques Les l ments pris en compte appartiennent la table p riodique actuelle PerTableWeb 34 Symbole Atomes Repr sent s Tous les l ments de la table p riodique moderne H He Li Be B C N O F Ne Na Mg Al Si P S Cl Ar K Ca Sc Ga Ge As Se Br Kr Rb Sr Y Zr Nb Mo Tc Ru Rh Pd Ag Cd In Sn Sb Te I Xe Cs Ba La Ce Pr Nd Pm Sm Eu Gd Tb Dy Ho Er Tm Yb Lu Hf Ta W Re Os Ir Pt Au Hg TI Pb Bi Po AtC Rn Fr Ra Ac Th Pa U Np Pu Am Cm Bk Cf Es Fm Md No Lr Rf Db
209. physicochimiques Le m moire comprend les parties suivantes Le chapitre 1 contient une pr sentation des m thodes et d outils de traitement structural 2D apparus dans la litt rature ainsi que l tat de l art des techniques de criblage virtuel en chimie informatique Dans le chapitre 2 l approche structurale utilis e pour repr senter les fragments et les mol cules sera expliqu e La construction de cette repr sentation ainsi que sa syntaxe et sa structuration utilisent un langage de marquage XML Le chapitre 3 concerne la cr ation des vecteurs mol culaires les recherches structurales et les m thodes de comparaison de descripteurs Le chapitre 4 traite des crit res pour effectuer les mesures de similarit et de diversit mol culaire dans notre approche Les r sultats de nos calculs seront pr sent s et analys s dans le chapitre 5 Des applications possibles en gestion des bases de donn es et en chimie m dicinale seront envisag es Nous finirons ce manuscrit avec la conclusion et les perspectives futures R f rences Bath1993 Bath P A Morris C A Willett P Effects of Standardization on Fragment Based Measures of Structural Similarity J Chemomet 7 1993 543 550 Brown1997 Brown R D Descriptors for diversity analysis Persp Drug Disc Design 7 8 1997 31 49 Holliday2002 Holliday J D Hu C Y Willett P Grouping of coefficients for the calculation of Inter molecular similarity and dissimi
210. plus de n ud cela signifie que la structure cible poss de moins de n uds que la sous structure interrog e et qu en cons quence il n existe pas 75 d isomorphisme S il reste des n uds non parcourus l algorithme essaie de trouver de nouvelles possibilit s Cette derni re tape sera r p t e jusqu ce que tous les n uds soient parcourus L algorithme de Figueras Figueras1972 sert effectuer des isomorphismes entre graphes Son m canisme d action repose sur la th orie des ensembles et l alg bre Bool enne Quand les propri t s des atomes sont cod es et ordonn es ces informations peuvent tre analys es pour rejeter les codes non compatibles dans la recherche d isomorphismes Dans cet algorithme la taille de la structure cible est r duite progressivement Lorsque l ensemble ne peut plus tre r duit le processus de comparaison s arr te La recherche invers e ou back tracking n est pas utilis e dans cet algorithme et par cons quent son ex cution est tr s rapide Les algorithmes faisant l objet de modifications ces derni res ann es sont nombreux Soit pour les adapter des applications particuli res soit pour des raisons d optimisation les modifications et les combinaisons des proc dures ne se comptent plus Par exemple les algorithmes pour la recherche d isomorphismes 2D peuvent tre appliqu s avec quelques variantes aux structures chimiques en 3D Ceci est possible en prenant en compte que le
211. position spatiale 3D de mol cules ou les isom res optiques et chiraux a comme cons quence probable l apparition d un m me vecteur repr sentatif pour plusieurs mol cules La mesure de similarit entre les deux vecteurs mol culaires sera donc moins repr sentative de la r alit chimique IV 3 2 Comparaison reposant sur la structure et les propri t s des mol cules Le deuxi me niveau de calcul propos inclut les propri t s physicochimiques p Comme nous l avons indiqu auparavant l usager peut param trer l importance des propri t s choisies en utilisant des poids propri t v Dans la section IV 3 2 nous avons montr comment param trer certains types de sous structures fi en utilisant des poids structuraux w La valeur par d faut de tous les poids est gale l unit et permet de donner la m me importance toutes les propri t s et toutes les structures propos es l usager A l instar de 2 on peut donc d finir de mani re g n rique l effet des poids de propri t s sur les mol cules V et V de la mani re suivante 116 V pv wes pv j j 7 LEM V Y DV x W 2 pw X W j J O pij est la j propri t du 177 fragment des deux mol cules V et V v le poids propri t et w le PY J prop 5 poids structure correspondants Pour chaque fragment i avec j propri t s 7 gt p j 1 VW on peut regrouper l in
212. pr c demment Ainsi les r gles de liaison d ordre et de combinaison des balises sont sp cifi es par la D finition de Type de Document DTD La DTD a pour but de d finir chaque l ment en pr cisant son contenu comme une expression r guli re introduisant la s quence ou l alternative I d un nombre d autres l ments et ses attributs en pr cisant le type de valeur prise la pr sence exig e ou optionnelle et ventuellement la valeur par d faut lt li po mens espe S ars ener FOX ths gt lt ELEMENT molecule name atomList gt lt ATTLIST molecule CAS_number CDATA REQUIRED gt lt ELEMENT atomList atoml atom2 gt lt ELEMENT atoml PCDATA gt lt ELEMENT atom2 PCDATA gt Code 4 Exemple de DTD Cette DTD d clare les trois types d l ments pr sents dans le code IL3 molecule lt name gt et lt atomsList gt Chacun de ces l ments est d fini par son contenu l aide du mot cl ELEMENT et par ses attributs avec le mot cl ATTLIST Dans notre exemple de DTD on observe deux types de donn es attributs de type chaine de caract res obligatoire REQUIRED et l ments de type chaine de caract res Le document XML pr sent dans le code I 3 est un document lt valide gt au sens XML vis vis de la DTD du code 1 4 car la grammaire y est conforme celle d fini
213. pr diction des propri t s entre autres Un chantillon des travaux abordant les approches structurales pour des outils de criblage virtuel et d analyse de la similarit et de la diversit mol culaire est pr sent par la suite Plusieurs approches ont t trait es au m me niveau les approches utilisant des graphes ou des sous graphes le calcul d indices topologiques en utilisant des fragments ou des sous structures g n r s automatiquement et enfin l analyse de la ressemblance mol culaire travers les environnements atomiques atomes fragments ou liaison autour d un n ud Gillet Gillet2003 a tudi l efficacit des graphes pour les recherches de similarit Elle a ITS d montr que l on peut d finir une hi rarchie de graphes et que ceux ci peuvent tre utilis s pour trouver des similarit s entre composants appartenant diff rentes s ries chimiques figure I 3 et aider l identification de composants avec la m me bioactivit Cuissart Cuissart2002 a utilis l extraction de sous structures des mol cules cibles comme clef de recherche des nouvelles mol cules Il est possible de chercher soit des isomorphismes i e common substructure subgraph CSS ou maximal common substructure subgraph MCSS soit des homomorphismes des graphes La similarit entre les mol cules est calcul e ensuite en utilisant le nombre calcul d atomes communs Ces descripteurs ont montr leur efficacit pour tablir d
214. propri t s en s lectionnant le bouton CUSTOM dispos droite de chaque type d analyse Cette s lection fait apparaitre une fen tre FENETRE W2 2 et ou FENETRE W2 1 qui invite l usager param trer le calcul selon le cas Si l utilisateur choisit il quitte l assistant Si l utilisateur choisit CONTINUE jj FENETRE ws apparait L usager suit ensuite la m me proc dure que pour le tutoriel Wizard jusqu l obtention des r sultats affich s sur la FENETRE W6 1 198 A1 3 Menus du programme L interface de MoIDIA compte pour l instant avec les menus suivants File Options Help File Options Menu File File Options Wizard Beginners Quick Analysis Advanced Wizard acc de au tutoriel d butant FENETRE W1 Quick Analysis acc de au tutoriel avanc FENETRE 01 Exit sortie du programme Menu Options File Options Custom Properties Weight Custom Fragments Weight Custom Properties Weight acc de la FENETRE W2 1 Custom Fragment Weight acc de la FENETRE W2 2 199 Menu Help MolDi Online MolDiA Help acc de au pr sent tutoriel MoIDiA Online acc de la page web de pr sentation du logiciel MolDia About fournit de l information sur le logiciel MolDiA travers la fen tre ci dessous About MolDiA v2 1 This software was made by Fan Maldonado ITODYS Laboratory 1
215. pteurs de la dite mol cule C est pour cette raison qu il est important de choisir d une mani re optimale la composition de la FragDB La qualit des descripteurs mol culaires d pendra en grande partie de la composition de cette base car pour calculer des ressemblances entre mol cules nous utilisons comme crit re principal leurs l ments structuraux Comme nous l avons expliqu dans le chapitre I le lt principe de similarit des propri t s gt est la base m me de notre approche Donc des mol cules structuralement similaires auront plus de chances de se comporter de mani re similaire Etre structuralement similaire signifie en langage chimique partager les m mes fragments ou sous structures et plus important encore les m me groupes fonctionnels Nous avons donc cherch sans vouloir tre exhaustifs quels taient les groupes fonctionnels les plus courants et les plus importants Quelques travaux ont fait l tude de la fr quence d apparition de sous structures fragments atomes etc extraites des bases de donn es mol culaires et ont publi des listes d taill es et ordonn es de ces donn es Un des travaux de r f rence est l article du CAS Stobaugh1988 Dans cet article les statistiques de la base de CAS Registry System pour la fr quence d apparition des substances des syst mes cycliques et des l ments sont pr sent es On remarque d j l poque l abondance des syst mes
216. quement car elles sont enferm es dans les l ments Toutefois deux inconv nients sont noter Les fichiers XML g n r s sont d une taille assez grande car le langage a besoin de beaucoup de texte pour d crire des informations parfois simples Dans l annexe 2 la fin du manuscrit est inclus un fichier index XML qui occupe plusieurs pages malgr le fait qu il ne contienne qu une quantit restreinte des fragments R cemment des fichiers binaires pour XML ont t propos s comme alternative aux fichiers conventionnels ce qui r duit consid rablement l encombrement BinXML Le deuxi me inconv nient est li la nature m me des langages de marquage malgr le fait d avoir des informations tr s bien structur es un robot ou logiciel ne 57 comprendra pas leur sens Par exemple dans le code suivant l l ment lt mol cule gt se r f re clairement la mol cule de HCI compos e d un atome d hydrog ne et d un atome de chlore ceci est assez compr hensible pour un humain lt molecule gt lt name gt Hydrochloric acid lt name gt molecule lt atoml gt H lt atoml gt iron Cl gt name atom 1 atom2 lt molecule gt Code II 5 Exemple de document XML Si nous changeons l l ment molecule et name par chat et chien nous obtenons le code 6 Ce document XML est parfaitement valable il respecte les r gles de syntaxe et de grammaire d XML fix
217. r l usager Ces donn es sont utilis es par notre outil pour effectuer des mesures de comparaison en utilisant une formule D 1 2 qui pourra tre choisie parmi une liste de mesures disponibles Prenons nouveau par exemple les deux mol cules montr es dans la figure IV 5 On consid re que l algorithme d Ullmann a d tect les fragments fi fo fs et GL Si chaque fragment fi a 3 propri t s pij associ es on obtient l instar de 7 le groupe d quations 10 Structure Fragments du Vecteur Nom de la Mol cule mol cule Repr sentatif O Mol cule V fi AGCC 014R 1 Chloro propan 2 one CI ANSX 000X 2 gt lt fi AGCC 014R Mol cule V 1 Methylamino propan 2 one A vw fs 82 0002 ANSZ 000Z 3 gt gt Figure IV 7 Vecteur r sultat pour les deux mol cules de la figure IV 5 y Un 14 PaVa he Pov PaVa 10 111 2172 3173 JWis U71371 2372 33 3 J39 F141 2472 34 3 J 4 V p p v w p vV DV p v p V DV p v On remarque que les deux vecteurs ont un seul fragment commun Une analyse de premier niveau comme celle pr sent e dans la section IV 3 1 et qui compare exclusivement les structures des mol cules donnera comme mesure de similarit simple 0 25 rappelons que nous avons obtenu 0 20 pour le cas 1 et 0 50 pour le cas 2 119 Si l on effectue une analyse de deuxi me niveau sur
218. r le d tail des tapes de fonctionnement de l algorithme on peut consulter les r f rences donn es plus haut Les syst mes cycliques avec leur premier niveau d atomes voisins sont alors reconstruits et regroup s dans des mol cules cycliques temporaires qui pourront tre ensuite compar s avec la base des fragments cycliques figure III 10 L algorithme de reconnaissance des atomes voisins est d taill plus bas O LI UU Hi s ET Figure III 10 M canisme de coupure d une mol cule mol cule enti re fragments obtenus addition des atomes voisins et modifications subs quentes pour augmenter les correspondances Une fois les syst mes cycliques d tect s et extraits de la liste d atomes de la mol cule cible on effectue une reconstruction de la connectivit et des propri t s des atomes restants Pour cela on a utilis le m me algorithme de reconnaissance des atomes voisins d j utilis pour trouver les atomes voisins des cycles Dans un premier temps l algorithme traite les voisins imm diats des atomes non cycliques d j identifi s Ensuite il analyse si les atomes appartiennent aux cycles ou non Finalement les structures de donn es des atomes choisis et de ses voisins s lectionn s sont 91 remplies De cette mani re on transforme les atomes isol s n appartenant pas des cycles en nouvelles mol cules part enti re Ces mol cules acycliques temporaires serviront de base des f
219. r ou modifier des poids L utilisateur peut d cider de ne pas modifier les valeurs par d faut donc de ne pas param trer le calcul Dans ce cas il choisit dans les FENETRES W2 1 et ou W2 2 sans rien modifier CANCEL Si l utilisateur choisit on revient en tout cas la FENETRE W2 qui permet de continuer l analyse selon le choix fait Si l utilisateur choisit BACK i revient la FENETRE 1 Si l utilisateur choisit il quitte l assistant Si l utilisateur choisit CONTINUE 14 FENETRE W3 apparait 188 FENETRE W3 Choose the Cardinality of this SIMPLE S Analysis 2 x Please select the nature of the comparison Similarity Analysis Diversity Analysis one molecule with molecule with a database with a database with one molecule group of molecules itself another database 04 6 N NN C N M C Continue Quit Dans cette fen tre on peut choisir parmi 4 types d analyse Si l utilisateur choisit 1 1 on fera alors un calcul de la similarit entre deux mol cules diff rentes Si l utilisateur choisit 1 N on fera alors un calcul de la similarit entre une mol cule et une base Si l utilisateur choisit N N on fera alors un calcul de la diversit d une base de mol cules donn es Si l utilisateur choisit N M on fera alors un calcul de la diversit entre deux bases de mol cules Si l utilisateur choisit BACK il revient la FENETRE W2 QUIT j quitte l
220. raison de la pr cision le rappel et la F Mesure vs nombre d atomes pour les mol cules appartenant la base Zinc La zone bleue montre la tendance observ e des mesures de pr cision et de rappel avec l augmentation du nombre d atomes des mol cules test es Evaluation du vecteur representatif Vs nombre d atomes pour les mol cules de la Base Zinc 006011010061 QO 6610061 enn en de correspondance Sg St e Pr cision Rappel F Measure 15 20 25 30 35 40 45 50 55 Nombre d atomes V 3 2 Etude des faux isomorphismes pour des mesures de similarit N N Dans notre cadre d valuation un faux isomorphisme est d fini comme une comparaison entre deux descripteurs qui malgr sa valeur unitaire ne correspond pas une correspondance exacte du point de vue mol culaire Ceci peut avoir plusieurs raisons Les descripteurs structuraux d finis pour la construction de l outil de criblage virtuel ne prennent pas en compte la position de liaison de la sous structure Des isom res structuraux et optiques peuvent donc donner des valeurs de similarit unitaires 173 Si le vecteur descripteur a plus ou moins d l ments qu il devrait voir section V 4 1 pour une liste non exhaustive de possibilit s des correspondances peuvent s av rer erron es Les deux tableaux ci dessous nous montrent que ind pendamment de la base utilis e il y a moins de 1 de faux isomorphi
221. re mais la plupart d entre eux peuvent tre regroup s en trois grandes classes les mesures de distance les coefficients d association et les coefficients de corr lation D autres classifications ont t rapport es dans la litt rature notamment la classification en coefficients de corr lation mesures probabilistes associatives et de distances Holliday2002 et la diff renciation entre les indices de similarit sym triques et asym triques SimWeb Finalement en fonction des donn es utilis es on peut aussi les classer comme indices binaires et quantitatifs Les mesures de distance quantifient le degr de diff rence entre deux objets et ont t intensivement employ es dans beaucoup d applications des statistiques multi vari es particuli rement dans des cas o des variables valeurs continues sont utilis es en raison probablement de l interpr tation g om trique simple qui est attach e bon nombre d entre elles par exemple la distance euclidienne Avec les mesures de distance plus le degr de similitude entre deux objets est grand plus la valeur du coefficient de leur distance est petite et vice versa Les coefficients d association sont employ s le plus g n ralement avec des donn es binaires variables d notant la pr sence ou l absence des descripteurs dans un objet Ils sont souvent 99 normalis s pour se situer dans un intervalle compris entre z ro aucune similitude du tout diff re
222. res l identification d un atome savoir le type d atome l hybridation la charge la connectivit la valence les H attach s les isotopes et le caract re aromatique Nous avons essay d extraire un ensemble minimal et le moins redondant possible des caract ristiques envisageables Les valeurs assign es correspondent aux valeurs r elles extraites ou calcul es du fichier MOL Si la valeur n est pas disponible incertaine ou non pr cis e la valeur 99 est assign e Une fois toute l information extraite on l ordonne sur une structure de donn es vide interne l outil Cette structure de donn es sera la base de tous les traitements effectu s dans le futur sur la les mol cule s cible s et elle permettra d identifier les fragments de la FragDB La seconde tape est celle de la comparaison atome par atome Ceci sera effectu en examinant les propri t s explicit es dans le tableau 1 et en appliquant des filtres de plus en plus s lectifs pour optimiser la comparaison Par exemple si l atome Cs est compar l atome un premier test sur le type d atome sera n gatif et il ne sera plus n cessaire de continuer la comparaison entre les deux atomes Par contre une comparaison entre l atome et Ns passera les premiers tests mais chouera au test de connectivit Plus l atome est g n rique plus il faut aller loin dans le test pour tre sur que les deux atomes soient identiques ou au moins comp
223. rnal of Classification 2 193 218 1985 Lajiness1997 Lajiness M S Dissimilarity based compound selection techniques Persp Drug Discuss Design 7 8 1997 65 84 Martin2002 Martin Y C Kofron J L Traphagen L M Do structurally similar molecules have similar biological activity J Med Chem 45 2002 4350 4358 Pearlman1999 Pearlman R S Novel Software Tools for addressing Chemical Diversity Network Science 1999 Disponible sur http www netsci org Science Combichem feature08 html SimWeb Information disponible sur http pro chemist online fr cours similarite htm Whittle2004 Whittle M Gillet V Willett P Enhancing the effectiveness of virtual screening by fusing nearest neighbor lists a Comparison of Similarity Coefficients J Chem Inf Comput Sci 44 2004 1840 1848 Van Rijsbergen1979 Van Rijsbergen C J Information Retrieval second ed London Butterworths 1979 Willett1986 Willett P Winterman V Bawden D Implementation of Nearest Neighbor Searching in an Online Chemical Structure Search System J Chem Inf Comput Sci 26 1986 36 41 Willett1986 Willett P Winterman V A Comparison of some measures for the determination of intermolecular structural similarity measures Quant Struct Act Relat 5 1986 18 25 Willet1987 Willett P Similarity Clustering in Chemical Information Systems Letchworth Research Studies Press 1987 Willett1996 Willett P
224. rnational Joint Conference on Artificial Intelligence Seattle 6 Ao t 2001 Bremser1978 Bremser W HOSE a novel substructure code Anal Chim Acta 103 1978 355 365 Carabedian1988 Carabedian M Dagane I Dubois J E Elucidation by Progressive Intersection of Ordered Structures from Carbon 13 Nuclear Magnetic Resonance Analytical Chemistry 60 1988 2186 2192 CMLWeb Chemical Markup Language CML Information disponible sur http www xml cml org Dalby1992 Dalby A Nourse J G Hounsell W D Gushurst A K I Grier D L Leland B A Laufer J Description of several chemical structure file formats used by computer programs developed at Molecular Design Limited MDL J Chem Inf Comput Sci 32 1992 244 255 DTDWeb Document Type Definitions Information disponible sur http www xmlfiles com dtd Dubois1980a Dubois J E Carabedian M Ancian B Automatic structural elucidation by C 13 NMR DARC EPIOS method Search for a discriminant chemical structure displacement relationship Comptes Rendus Hebdomadaires Des Seances De L Academie Des Sciences Serie C 290 1980 369 372 Dubois1980b Dubois J E Carabedian M Ancian B Automatic structural elucidation by C 13 69 NMR DARC EPIOS method Description of progressive elucidation by ordered intersection of substructures Comptes Rendus Hebdomadaires Des Seances De L Academie Des Sciences Serie C 290 1980 383 386 Dubois1986 D
225. rtoire results du logiciel FENETRE W6 1 MolDi amp v2 0 Results Sim Div Indices Sim Div indices v Tanimoto file d MolDiA Interface MolDiA results Alllndices xml Simpson Query 1 molecules file d MolDiA Interface MolDi amp results Q ueryFiepV ector s Cosine ml Test 2 molecules View Representative Vectors ile d MolDi amp Interface MolDiA results TestRepVector m Yes C No Compute indices Quit Les fichiers de r sultats peuvent tre ouverts en utilisant Internet Explorer pour l affichage et la visualisation des figures de mol cules On peut galement utiliser Excel ou tout autre outil graphique qui supporte le format XML pour effectuer un post traitement sur les tableaux des valeurs ranking plotting statistics etc ainsi que tout outil d dition de texte pour effectuer des modifications au sein du fichier des r sultats L affichage automatique des tableaux de r sultats peut tre contr l en modifiant les feuilles de style XSL plac es dans le m me dossier que les fichiers de r sultats Le document XSL commande l apparence que les donn es auront au moment d tre affich es par Internet Explorer De la m me mani re qu une page web affiche des informations format es XML permet de construire des tableaux des graphes et de personnaliser l apparence des donn es issues de MoIDiA Si l usager d sire obtenir les r sultats sous forme d un fichier texte
226. ructures pour chaque fragment ainsi que les fichiers r sultats pour les indices choisis sont structur s en XML et peuvent galement tre pr sent s en utilisant une feuille de style XSL Cette pr sentation automatise l laboration des tableaux de r sultats et inclus une pr sentation graphique de la mol cule en 2D ou 3D pour faciliter l analyse des r sultats obtenus Des copies d cran des fichiers XML ouverts avec Internet Explorer en utilisant le fichier XSL fourni dans l outil sont donn es par la suite Veuillez noter que tous ces fichiers format s sont g n r s automatiquement et peuvent tre ouverts sous Excel ou tout outil graphique qui supporte les fichiers XML la plupart aujourd hui Des fragments du code original sont galement montr s pour mettre en vidence l usage des balises dans la structuration de l information qui sera ensuite utilis e pour effectuer la pr sentation des donn es 166 Figure V 3 Copies d cran de fichiers de mesures de similarit 1 N ouverts avec Internet Explorer A droite un extrait du fichier XML de similarit diversit original olDiA D dice Joj x Fichier Editon Affichage Favoris Outils 2 ay O rr c d nte EY x 2 4 Rechercher Favoris Q Ate wl Je Adresse E C Documents and Settings Ana Bureau Ana MolDiA results RandSim5 1New OK Google lt xml version 1 0 encoding iso 8859 1 standalone no gt
227. s etc STE L analogie attributive s applique des objets A et B qui ont respectivement les propri t s ou attributs a et b Quand une propri t repr sente l autre ou plus g n ralement s il existe des correspondances entre les deux propri t s ces deux propri t s sont analogues L analogie fonctionnelle s applique des objets A et B ayant une fonction commune ou poss dant des composants jouant le m me r le L analogie inductive s applique une s rie d objets A B C etc Ces objets poss dent des propri t s communes par exemple P et Q Si les objets A et B poss dent galement une autre propri t R nous pouvons d duire selon la logique inductive que l objet C a probablement aussi cette propri t R L analogie proportionnelle s applique aux propri t s de l objet qui sont proportionnelles Pour les objets A B C et D qui ont respectivement les propri t s a b c et d l analogie proportionnelle peut tre exprim e avec la notation a b c d c est dire que a est proportionnel b comme c est proportionnel d L analogie structurale s applique deux syst mes dont l un est un mod le de l autre Les deux syst mes peuvent tre d crits par le m me ensemble d galit s Cette analogie s appelle aussi isomorphisme La chimie a depuis longtemps recours l analogie attributive D j en 1869 Dmitrii Mendeleiev proposait l arrangement des l ments chimiqu
228. s En tout cas les informations chimiques ainsi que les crit res de similarit ne devront avoir aucune ambiguit notamment pour le traitement informatique du probl me 3 Probl matique et apercu du syst me d velopp 3 1 Probl matique particuli re D au nombre lev des techniques de criblage virtuel et de haut d bit nous sommes oblig s de circonscrire notre probl me un cadre plus succinct Nous avons d j indiqu dans la section 1 de E 5 cette introduction les probl mes li s au traitement des bases de donn es chimiques l augmentation de leur taille mais aussi le souci de diversit qui r gne aujourd hui dans les centres de criblage La recherche de nouvelles mol cules semble donc tre au c ur des besoins actuels dans beaucoup de domaines li s la chimie industrielle organique m dicinale etc Notre probl matique est centr e sur l analyse de grandes bases de donn es chimiques Notre m thode consiste effectuer des analyses de similarit et de diversit en utilisant une approche mixte structure propri t s pour comparer des mol cules ou des bases de mol cules et extraire des connaissances utiles au criblage l analyse et l am lioration de ces m mes bases mol culaires Pour impl menter notre m thode nous nous sommes vus dans le besoin de structurer les informations chimiques contenues dans les bases mol culaires en utilisant des langages de marquage et de construire un outil
229. s d exemples Comme son nom l indique ces possibilit s dites combinatoires ne sont pas infinies mais tr s nombreuses d o le probl me du traitement r el ou virtuel de ces mol cules Aux donn es combinatoires s ajoutent de nouvelles mol cules issues des synth ses des extractions et d autres proc d s chimiques dans les bases de donn es chimiques caract re acad mique ou industriel Ainsi chaque ann e le CAS Chemical Abstract Service voit sa base de mol cules chimiques augmenter de millions de nouveaux composants Les structures les propri t s physicochimiques et biologiques de ces mol cules sont ensuite cod es et enregistr es g n rant plus d informations L organisation l analyse la recherche et la gestion de cette grande quantit d informations ouvre de nouvelles possibilit s aux techniques novatrices de chimie informatique parmi lesquelles on compte le criblage de haut d bit virtuel ou r el virtual screening et high troughput screening la fouille de donn es data mining etc 12 Sites de Substitution R1 o Squelette Support R2 Ri A H 4 I C R H oOo 9 G t R1 R2 Biblioth que Combinatoire R S i Ri TOT la i N Rs Ba R union lt Y gt ef R Re N Rg Clip Clip Aminothiazole o Ry 3 Br 1 Re Ra Thiour e amp Bromoc tone R i dt R action R 2 R _ 5 H H 8 N amp 32
230. s algorithmes modifi s d Ullmann et l algorithme de SSSR pour obtenir une liste de fragments propres chaque mol cule et qui servira de descripteur mol culaire dans la section suivante III 2 1 2 G n ration des vecteurs descripteurs Les matrices de r sultats apr s l utilisation de l algorithme d Ullmann permettent d identifier les fragments contenus dans la FragBD pr sents dans la mol cule analys e Cette op ration est effectu e tr s rapidement cause de la simplicit de l algorithme et des principes de la comparaison atome atome On extrait les donn es des fragments d tect s partir des r sultats de la matrice d Ullmann et on construit un vecteur r sultat qui contient toute l information concernant les fragments d tect s et la mol cule analys e Mol cule cible 1 3 Methylamino cyclohexyl propanone Masse mol culaire 155 24 Formule CoH47NO O O R Q Q R R ResultVector lt 1 3 Methylamino cyclohexyl propanone lt lt CNUQ6 074bs AGCQ 014Q ANSZ 000Z ANSZ 000Z 4 gt gt Figure III 16 Construction du vecteur r sultat de 1 3 Methylamino cyclohexyl propanone partir des informations extraites des matrices Ullmann Le vecteur descripteur ou vecteur r sultat respecte une structure d termin e con ue pour contenir les informations correspondant aux fragments ainsi que leurs informations attach es nom de fichier propri t s physico chimiques etc Ce ve
231. s aliphatiques Ces caract ristiques se traduisent en une pauvre diversit mol culaire l gard par exemple d une base d origine pharmaceutique comme celle du Zinc Malgr tout Random comprend galement des fragments cycliques mais en plus petite quantit que la base Zinc D autres tests non montr s ici mettent en vidence la quasi absence des cycles aromatiques et de syst mes multi cycliques 5143 Les sous structures de type groupe fonctionnel sont galement moins courantes comme en t moignent les graphiques V 7 et V 8 La base est particuli rement pauvre en sous structures contenant des atomes de Fluor tous indices confondus comme en t moigne le graphique V 8 qui montre les mesures de similarit entre la base Random et RandSel100 74 V 1 3 Comparaison des indices selon le rang Pour tudier le comportement des mesures de similarit diversit utilis es savoir Tanimoto Simpson et Cosinus nous pouvons effectuer un graphique indice de similarit vs noms de mol cules dans lequel on peut superposer les r sultats pour les 3 indices Les tendances de trois mesures de similarit peuvent tre ainsi mieux appr ci es en faisant un classement des mol cules de la base utilis e Cette tude a t r alis e pour les mol cules des deux bases de test V 1 3 1 Graphiques de comparaison d indices avec la base Zinc Dans les figures suivantes on constate que la tend
232. s dans les tableaux V 1 V 4 L ordre des mesures correspond celui de l index de Simpson Si on fait un graphique indice de similarit vs noms de mol cules on peut construire pour chaque tableau de r sultats Tanimoto Simpson et Cosinus un graphe de la tendance de la base par rapport chaque index Quelques mol cules composant la base Zinc sont montr es la fin de ce chapitre 126 x Filename Simpson mol ZincQueries Query 1 Z2 mol 1 000000 mol ZincTest zinc 10 mol 0 666667 0 800000 0 800000 mol ZincTest zinc 58 mol 0 565685 0 800000 fmol ZineTestzine_1146 mol 0333333 9 516398 0 666667 0 600000 mol ZincTest zinc 1527 mol 0 600000 mol ZincTest zinc_370 mol 0 300000 0 474342 0 600000 CI 3 O Tableau V 2 R sultats avec cible Query2Z2 mol Tableau V 1 R sultats avec cible Query1Z2 mol 127 Graphique V 1 Graphique de mesures de similarit pour la base lt Zinc gt et la cible Query1Z2 mol Graphique de l index de Tanimoto pour N m 5 gt rins gt 5 x pul Base Zinc Graphique du coefficient Simpson pour Query1Z2 Vs la Base Zinc 1 0 8 0 6 0 4 0 2 x pul Base Zinc Graphique du coeffcient Cosine pour Query122 Vs la Base Zinc Base Zinc 128
233. s doublons lors de recherches structurales La cr ation d un codage du nom de fichier ainsi qu une hi rarchie des atomes g n riques pour notre base de fragments Ceci permet d extraire des informations chimiques difficiles formaliser ainsi que d effectuer des requ tes avec des mol cules contenant des atomes g n riques L utilisation des langages de marquage XML pour la structuration l exploitation et l change des donn es chimiques complexes La base de fragments les vecteurs descripteurs ainsi que les fichiers de r sultats sont index s et structur s en utilisant les technologies XML Ces fichiers structurent les informations dans un format compatible avec la plupart des outils graphiques modernes facilitant la t che de post traitement et d analyse des r sultats L usage de feuilles de style permet galement de visualiser d une mani re rapide et facile les donn es issues du calcul et les 179 informations concernant les mol cules impliqu es la structure 2D ou 3D si disponible ainsi que le nombre d atomes L exploitation de ces ressources sur le Web est quasi automatique Le syst me MolDiA construit dynamiquement des vecteurs descripteurs partir des informations chimiques extraites du fichier MOL des mol cules requ tes et test Le temps de calcul des vecteurs d pend de la taille de la complexit et du nombre de mol cules analyser Des optimisations de l algorithme d Ullmann pour
234. s l espace la mauvaise reconnaissance d isom res et l absence de traitement de probl mes conformationnels Une solution alternative est propos e par Schuffenhauer Schuffenhauer2000 qui sugg re une combinaison de descripteurs 2D et 3D Ses r sultats montrent que ceux ci ont une meilleure performance par rapport au groupe de descripteurs 2D pour retrouver des mol cules dans une base de donn es BIOSTER Une autre possibilit est pr sent e par Sun Sun2004 qui propose un descripteur mol culaire universel pour pr dire des propri t s ADME affirme que les descripteurs ID 2D et 3D ont des difficult s pour codifier les informations pertinentes de la mol cule Il propose l utilisation de variantes du fingerprint en utilisant la classification des type d atomes comme un moyen de description insuffisamment exploit jusqu aujourd hui selon l auteur Conclusion Dans ce chapitre nous avons introduit les concepts et l historique de quelques techniques de criblage virtuel et de criblage de haut d bit L interrogation des bases de donn es et l analyse de la similarit et de la diversit des mol cules ont t au centre de notre analyse Diff rents travaux de comparaison des descripteurs ont t discut s notamment ceux en rapport avec les descripteurs structuraux Leurs conclusions nous m nent consid rer l approche des sous structures comme une voie viable pour d crire les mol cules dans le cadre de criblage virtuel
235. s noeuds du graphe repr sentent toujours les atomes des structures ou des fragments mol culaires et que les ar tes du graphe peuvent repr senter les liaisons en 2D ou les distances r elles entre deux atomes en 3D Une adaptation de l algorithme de clique d tection t effectu e par Bron et Kerbosh Bron1973 pour comparer efficacement des graphes chimiques et calculer des distributions de similarit et de diversit dans des librairies Le m me algorithme a t utilis pour comparer des graphes 2D et pour valuer d autres param tres structuraux comme la chiralit mol culaire et l identification des degr s de libert internes Un autre algorithme alternatif repose sur l algorithme de Sussenguth Celui ci peut tre utilis pour faire des recherches SSC Toutefois cette modification est valable seulement pour la recherche de petites sous structures car la place m moire n cessaire est presque double celle utilis e dans l algorithme de Sussenguth 76 Un autre algorithme souvent utilis pour faire des recherches structurales mais en 3D est l algorithme de Crandell et Smith Crandell1983 Il utilise un processus it ratif pour trouver la sous structure commune maximale des sous structures 3D parmi un groupe de structures o toutes les sous structures communes ont une taille particuli re Le principe est d ajouter peu peu des atomes et d liminer ceux qui ne conviennent pas dans la recherche des cand
236. s physicochimiques activit s structures mol culaires etc A partir d une 83 m trique d termin e pour un groupe de mol cules d fini on construit un mod le qui permet d analyser des nouvelles mol cules Ceci tant un probl me de r gression et d extrapolation on peut appliquer les m thodes d apprentissage pour le r soudre QSAR et QSPR sont en cons quence des applications des concepts inductifs Finalement l application de l analogie structurale n a t possible en chimie que depuis l usage de mod les structuraux comme les graphes mol culaires voir figure III 1 Ceux ci ont permit de caleuler non seulement des analogies mais toutes les op rations math matiques qui sont couramment appliqu es aux graphes La construction des vecteurs mol culaires qui sont utilis s dans notre outil repose sur l analogie structurale et l analogie attributive Cette comparaison exploite la diff rence pr sence ou absence de caract ristiques ou de propri t s d termin es ainsi que les diff rences structurales comme mesures de comparaison Mais ce seront les m mes d finitions d analogie math matique qui nous permettront plus tard de g rer les vecteurs descripteurs g n r s par l outil III 2 Reconnaissance des motifs structuraux et cr ation des vecteurs descripteurs Dans le chapitre II nous avons expliqu la mani re dont les bases de donn es qui composent notre outil ont t cr es section 1 et comment
237. s pour la DTD mais en m me temps il n a aucun sens chimique On pourrait m me interroger le document on lui demandant l l ment chien et au retour on aura la chaine de caract res Hydrochloric acid chat chien Hydrochloric acid name chat atoml H atoml Tee Cl lt gt chien atom1 atom2 lt chat gt Code 6 Document XML modifi Cet inconv nient nous am ne la prochaine tape dans la structuration de donn es avec les langages de marquage la repr sentation des connaissances Ceci sera le sujet de la section II 2 5 Dans la prochaine partie nous aborderons l outil qui permet de valider notre document XML pour son futur traitement ou change la D finition de Type de Document ou DTD 58 II 2 2 2 Une DTD pour valider l index XML La DTD a pour but de d finir les r gles de liaison d ordre et de combinaison des balises dans un document XML DTDWeb Ceci permet notamment de bien interpr ter les donn es structur es avec XML et d viter des erreurs de syntaxe ou de grammaire qui auraient pu s infiltrer dans l dition du document Nous avons d j expliqu la mani re de construire une DTD et la signification des termes la composant section 2 1 2 xml version 1 0 encoding iso 8859 1 standalone no gt Sammele OF g Darta Szeen ox zeg 2 lt Index gt File name AGCZ 01442 mol Keys Key name FID value 0
238. s tous les aspects de l informatique chimique de la publication scientifique de la transformation et traduction des donn es de la construction des formats chimiques de l extraction et du traitement des donn es instrumentales etc La transformation des donn es chimiques actuelles en un syst me orient vers la connaissance aura un effet consid rable dans le traitement la recherche l entretien et la r utilisation de l information chimique future 68 Conclusion Dans ce chapitre nous avons trait en d tail le lexique et la construction de la base de donn es des sous structures n cessaire la construction des vecteurs descripteurs mol culaires Des informations structurales et des propri t s ont t proprement encod es et structur es sous forme de fichiers XML Ceci nous permettra plus tard d extraire et de traiter cette information avec comme but d effectuer des analyses de similarit et de diversit entre diff rents groupes de mol cules R f rences Bebak1989 Bebak H Buse C Donner W T Hoever P Jacob H Klaus H Pesch J Roemelt J Schilling P Woost B Zirz C The Standard Molecular Data Format SMD Format as an integration tool in computer chemistry J Chem Inf Comput Sci 29 1989 1 5 BinXML Binary XML Information disponible sur http www expway com Bolev2001 Bolev H Decker S Sintek M Tutorial on Knowledge Markup and Semantic Resources IJCAI 01 Inte
239. s vecteurs descripteurs g n r s pour les mol cules de la base Zinc sont r capitul s On observe dans ce tableau que malgr une haute pr cision pour l ensemble des donn es le rappel n atteint pas toujours 100 Ceci est une cons quence de la g n ration des vecteurs exp rimentaux avec plus ou moins de fragments que ceux attendus Nombre de mol cules Nombre de mol cules Nombre de mol cules ayant 100 de ayant plus de 80 de ayant moins de 50 de correspondance St Sg correspondance St Sg correspondance St Sg Pr cision 26 76 47 30 88 24 0 0 Rappel 10 29 4196 22 64 71 3 8 82 F Measure 10 29 41 24 70 59 2 5 88 Tableau V 20 Tableau r capitulatif des correspondances St Sg en fonction du nombre de mol cules Deux cas sont donc possibles Si le vecteur descripteur a plus de fragments et si ceux ci sont des doublons l effet sur la comparaison est de donner plus d importance cette structure car elle aura plus de chances d tre d tect e que les autres L impl mentation de filtres devrait liminer ce probl me Si ceux ci ne sont pas des doublons ils sont alors des fragments approximatifs la sous structure voulue Ceci est d l usage d atomes g n riques L effet sur la comparaison est de diminuer les correspondances totales avec la cible Pour corriger ce probl me l impl mentation d un niveau de comparaison flou valable seulement si
240. sans obligation de modifier la structure des donn es On obtient ainsi une g n ration automatique et dynamique de structures de donn es par extraction de l information structural Le programme traitera tout ce que l utilisateur lui donnera en forme de donn es chimiques aromaticit cycles h t oatomiques etc sous condition que la mol cule soit dans un format MOL valide Une fois les traitements sur les mol cules effectu s on peut mettre en forme les r sultats de mani re automatique avec une feuille de style XSLT qui interpr te les informations enferm es dans les balises XML et qui les affiche sous forme de tableaux de texte etc La figure II 12 r sume les avantages du format XML par rapport aux formats conventionnels Dans la section suivante nous aborderons la repr sentation et la structuration des donn es chimiques de nature mixte qui compose notre base de sous structures chimiques Des exemples de l impl mentation du code XML pour construire un index de fragments ainsi que les DTDs correspondants seront galement donn s 5 II 2 2 La structuration de la FragDB avec XML Dans cette section nous allons expliquer en d tail la mani re dont nous avons repr sent et structur la base de fragments FragDB De la cr ation de l index des fragments jusqu son remplissage et sa validation l utilisation de XML comme format de donn es pour structurer les informations mol culaires complexes montre beaucoup
241. sibilit s de correspondances avec les mol cules de la base Zinc L usage d atomes g n riques diminue la reconnaissance fine des sous structures mais augmente les possibilit s de correspondances malgr une faible mesure de similarit d environ 0 1 0 5 151 Graphique V 17 Comparaison de trois mesures de similarit en fonction de la taille de mol cules de Index de similarit la base lt Zinc gt pour la cible Query1Z2 mol Comparaison d indices de similarit selon nombre d atomes pour Query122 et la Base Zinc nombre d atomes des mol cules de la Base Zinc e Tanimoto m Simpson Cosine Graphique V 18 Comparaison de trois mesures de similarit en fonction de la taille de mol cules de O s x la base Zinc pour la cible Query2Z2 mol Comparaison d indices de similarit selon nombre d atomes pour Query222 et la Base Zinc Base Zinc 152 e Tanimoto Simpson Cosine Graphique V 19 Comparaison de trois mesures de similarit en fonction de la taille de mol cules de la base lt Zinc gt pour la cible Query1Z3 mol Comparaison d indices de similarit selon nombre d atomes pour Query1Z3 et la Base Zinc e Tanimoto 02 m Simpson Cosine Index de similarit Base Zinc Graphique V 20 Comparaison de trois mesures de similarit en fonction de la taille de mol cules de
242. smes si on utilise les indices de Tanimoto et de Cosinus et entre 2 et 3 avec le coefficient de Simpson o plus de la moiti appartient une m me mol cule On remarquera galement que pour la base Random presque la moiti des mol cules impliqu es dans des faux isomorphismes ont moins de 7 atomes tout indices confondus et que pr s de 10096 avaient moins de 10 atomes Ceci confirme la tendance d j observ e dans les analyses N N des bases mol culaires Zinc Mesures de similarit Mol cules concern es Index faussement identiques faux Is 1 appartenant une m me cible Tanimoto 1 0 09 0 0 Cosinus 1 0 09 0 0 Simpson 39 3 73 28 73 68 Tableau V 21 Tableau r capitulatif des faux isomorphismes observ s dans la base Zinc Mesures de similarit e Random Mol cules concern es Mol cules concern es faussement identiques Index ayant lt 7 atomes ayant lt 10 atomes faux Is 1 Tanimoto 8 0 13 4 50 8 100 Cosinus 8 0 13 4 50 8 100 Simpson 113 1 90 50 44 24 111 98 23 Tableau V 22 Tableau r capitulatif des faux isomorphismes observ s dans la base Random 174 V 3 3 Limites et avantages de l outil Le cadre d application et les limites de l approche peuvent tre r sum s en quelques points La base de fragments est pour l instant limit e 700 sous structures Ceci est toutefois ex
243. son Cosine Query2Z2 mol 10 1 0000 1 0000 1 0000 zinc 18 mol 30 0 4444 0 6667 0 6172 zinc 38 mol 39 0 3333 0 6667 0 5164 zinc 1037 mol 43 0 2857 0 6667 0 4714 zinc 1527 mol 43 0 2857 0 6667 0 4714 zinc 189 mol 44 0 3636 0 6667 0 5443 zinc 447 mol 45 0 3636 0 6667 0 5443 zinc 888 mol 37 0 2857 0 6667 0 4714 zinc 28 mol 26 0 3750 0 6000 0 5477 zinc 707 mol 36 0 3750 0 6000 0 5477 zinc 7 mol 43 0 2000 0 5000 0 3536 zinc 370 mol 41 0 2727 0 5000 0 4330 zinc 660 mol 32 0 3333 0 5000 0 5000 zinc 11 mol 43 0 1176 0 3333 0 2265 zinc 17 mol 34 0 2000 0 3333 0 3333 zinc 57 mol 48 0 1333 0 3333 0 2462 zinc 58 mol 45 0 1429 0 3333 0 2582 zinc 1036 mol 47 0 2000 0 3333 0 3333 zinc 1145 mol 32 0 1250 0 3333 0 2357 zinc 1152 mol 27 0 1250 0 3333 0 2357 zinc 249 mol 38 0 1818 0 3333 0 3086 zinc 948 mol 51 0 1818 0 3333 0 3086 zinc 10 mol 25 0 1000 0 2000 0 1826 zinc 1514 mol 40 0 1000 0 2000 0 1826 zinc 1531 mol 28 0 1000 0 2000 0 1826 zinc 48 mol 30 0 0833 0 1667 0 1543 zinc 252 mol 45 0 0909 0 1667 0 1667 zinc 32 mol 22 0 0000 0 0000 0 0000 zinc 41 mol 22 0 0000 0 0000 0 0000 zinc 52 mol 35 0 0000 0 0000 0 0000 zinc 53 mol 20 0 0000 0 0000 0 0000 zinc 1146 mol 31 0 0000 0 0000 0 0000 zinc 1326 mol 29 0 0000 0 0000 0 0000 zinc 1385 mol 25 0 0000 0 0000 0 0000 zinc 530 mol 34 0 0000 0 0000 0 0000 222 R sultats avec la cible Query1Z3 mol FileName atom Tanimoto Simpson Cosine zinc 530 mol 34 0 0909 1 0000 0 3015 Query1Z3 mol 20 1 0000 1 0000
244. sous structures pour sa description Une fois les vecteurs descripteurs construits une mesure de distance est tablie entre les mol cules appartenant la base de mol cules requ te QueryDB et celles de la base de mol cules test TestDB Diff rentes formules de calcul de la similarit sont choisies dans une liste de possibilit s pour adapter le calcul aux besoins divers de l usager Quatre types de comparaisons diff rentes 1 1 N M sont propos s donnant des informations interpr tation diverse Trois niveaux de complexit par un syst me de poids ont galement t impl ment s Les mesures de similarit ou diversit ainsi obtenues pourront tre interpr t es par l usager pour trouver des mol cules ayant les propri t s ou la structure de la mol cule cible pour rendre plus h t rog ne une base de mol cules optimiser une base de r actifs etc Dans la figure suivante les parties principales de l outil de criblage virtuel propos ainsi que la proc dure suivie pour le calcul de similarit s sont pr sent es On peut distinguer cinq tapes principales 1 Choix de la QueryDB et de la TestDB partir des fichiers mol fournis par l usager 2 G n ration pour chaque fichier mol d un vecteur descripteur correspondant que l on indexe MS 3 Choix des types de comparaisons 1 1 N M 4 Choix des niveaux de complexit poids propri t s et ou poids sous structure 5 Choix des formules et calcul
245. t pa L erreur quadratique avantage les vecteurs o il y a beaucoup de petits carts par rapport ceux qui sont exacts presque partout mais qui font de grosses erreurs en un petit nombre de points Le fait de prendre la racine carr e permet de manipuler des quantit s qui ont la m me dimension que les valeurs pr voir Toutes ces mesures d erreur sont d impl mentation facile dans l outil Ceci dit ce qui est moins facile est de disposer des vecteurs th oriques pour un grand groupe de mol cules en raison de leur construction essentiellement manuelle Quant aux performances de l outil les r sultats de l valuation du rappel de la pr cision et de la F mesure sont pr sent s dans le chapitre 5 IV 3 Les diff rents niveaux de comparaison Pour effectuer les diff rents niveaux de comparaison on proc de l analyse des vecteurs descripteurs et des fragments les composant D abord la comparaison stricte ou exacte des noms de fichier des fragments trouv s nous permet d effectuer des homomorphismes entre les fragments de la mol cule d tect s par l outil et ceux de la FragDB Si cette recherche stricte choue on passe l analyse des informations cod es par le nom de fichier des fragments trouv s On extrait la connaissance d ordre structural de classes de mol cules et des propri t s choisies incorpor e dans les vecteurs descripteurs Cette information nous permet d effectuer des comparaisons non
246. t et lt Ctrl gt du clavier pour s lectionner un groupe de mol cules Nous soulignons que le choix des mol cules est fait en respectant le type d analyse 1 1 1 N etc Ainsi pour les analyses de type N N la fen tre inf rieure droite ne sera pas disponible car les mol cules cibles et tests seront les m mes Les mol cules pourront donc seulement tre entr es dans la fen tre sup rieure droite l aide des fl ches de la m me mani re que expliqu e ci dessus 190 FENETRE W4 1 Select Your Input Files 31 xl Please select from the left panel the molecule files to add in the QUERY right panel and in the TEST right panel User Molecular Files Query Molecules E mol zinc 21 Name Size Das Query2Z2 915 03 07 2006 1 O Query1Z2 mol 1000 09 07 2006 1 S Query1Z3 mol 1779 09 07 2006 1 Query2Z2 mol 315 09 07 2006 1 QueryGen mol 830 09 07 2006 1 zinc_10 mol 2264 09 07 2006 1 09 07 2006 1 09 07 2006 1 09 07 2006 1 zinc_1036 mol 4174 zinc 1037 mol zinc 11 mol Test Molecules Name ________ Date 1 1 1 1 nen Sat D Quit FENETRE W4 2 Select Your Input Files k 31 Please select from the left panel the molecule files to add in the QUERY right panel and in the TEST right panel User Molecular Files Query Molecules C moliZinc Name Size 09 07 2006 1 cuve Continue
247. t des programmes traitant les documents XML e Permettre de produire des documents lisibles par l homme et raisonnablement clairs e Avoir une conception formelle et concise Le XML est donc un meta langage qui permet de repr senter et de structurer l information en reprenant l id e initiale de SGML mais en adoptant la simplicit de HTML II 2 1 2 Principes RecomXMLWeb Chaque document XML contient un ou plusieurs l ments dont les limites sont marqu es soit par des balises ouvrantes et lt fermantes gt soit par une balise d l ment vide L information se trouve ainsi encapsul e dans des balises ce qui rend plus facile la recherche et l analyse d l ments par un programme ou une personne Les l ments de XML sont extensibles on peut en d finir tant qu on veut et ont des relations entre eux sous la forme d arbres parents fils Dans le code III l l ment p re molecule contient deux l ments fils name et atomsList L l ment atomsList contient lui m me deux l ments atom L information correspondant la mol cule est maintenant organis e d une mani re logique Ainsi cette mani re 45 d exprimer l information la rend compr hensible pour une personne et facile retrouver pour un programme ou une unit logique lt molecule gt lt name gt Hydrochloric acid lt name gt molecule lt atomList gt lt atoml gt lt atoml gt atomList lt a
248. te des probl mes de conformation d nergie et aussi de disponibilit des bases de donn es 3D D autre part les tautom res et les ions pr sentent de nouvelles contraintes Des approches dites mixtes sont tr s utilis s actuellement mais l encore il faut choisir un groupe de descripteurs en veillant leur ind pendance et leur utilit Dans ce choix le probl me traiter est souvent NP complet c est dire un probl me pour lequel le temps de r solution peut s av rer exponentiel Ainsi l usage de techniques d apprentissage automatique semble n cessaire En raison de l existence de bases de mol cules de plus en plus grandes le facteur de vitesse de traitement ne pourra pas tre n glig au moment de choisir la repr sentation optimale Il est important de noter qu il n existe pas de bon ou de mauvais descripteur l utilit et l efficacit sont troitement li es aux types de mol cules traiter ainsi qu au calcul effectuer Par cons quent la plupart des descripteurs connus aujourd hui sont employ s de pr f rence dans le contexte pour lesquels ils ont t cr s De nombreux travaux abordent les t ches difficiles de calcul s lection et comparaison des descripteurs Par exemple la m thode UFS Unsupervised Forward Selection de Whitley 16 Whitley2000 permet de calculer de grandes quantit s de descripteurs et d liminer ensuite tous ceux qui ont un coefficient de corr lation
249. tensible Le traitement des mol cules est fait strictement sous format MDL mol bien d fini voir annexe Si le fichier mol d une mol cule n est pas bien d fini erreur dans la structure absence d une marque fin de fichier etc ceci peut emp cher l outil de traiter la mol cule et interrompe le d roulement du calcul Les informations mol culaires telles qu elles sont d finies dans les fichiers mol sont strictement respect es lors du calcul par exemple la d finition des liaisons aromatiques Pour le moment seules les mesures de similarit diversit avec les coefficients de Cosinus Simpson et Tanimoto sont calcul es L outil a t con u de fa on ce que d autres mesures puissent tre impl ment es avec une perte n gligeable de temps de calcul et une difficult minimale Pour l instant seules quatre propri t s physicochimiques sont utilis es caract re hydrophobe caract re accepteur de proton aromaticit et polarisabilit D autres propri t s peuvent tre impl ment es par construction de r gles partir des informations disponibles dans le fichier XML De plus quelques points positifs peuvent tre remarqu s Possibilit d effectuer diff rents calculs de similarit 1 N N N N M Choix entre plusieurs mesures de similarit Simpson Cosinus et Tanimoto avec l opportunit d effectuer des techniques de fusion de donn es pour obtenir des meilleurs r sultats Possi
250. ties File Suite de l indexCyc dans environ 122 pages File name CNUQ6 195bd mol 21 Keys Key name FID value 195bd Key name FAtomSum value 11 gt Key name FRing value 6 gt Key name FGF value none gt lt Keys gt lt Properties gt lt Property name HBondA value 1 gt lt Property name PotNCharged value 1 gt Property name Aromat value 1 gt Property name Polar value 1 0 gt Properties lt File gt 3 5 Mod le d index des r sultats indexResult XML lt xml version 1 0 encoding iso 8859 1 standalone no gt Query fileName ici le nom du fichier de la cible Results Test fileName ici le nom du fichier de la mol cule test 1 gt Index Tanimoto ici un nombre r el Simpson ici un nombre r el Cosine ici un nombre r el Test Test fileName ici le nom du fichier de Index Tanimoto ici un nombre r el Simpson ici un nombre r el Cosine ici un nombre r el Test suite pour n molecules test Test fileName ici le nom du fichier de Index Tanimoto ici un nombre r el Simpson ici un nombre r el Cosine ici un nombre r el Test lt Results gt lt Query gt la mol cule test 2 gt la mol cule test n DTD correspondant au mod le d index des r sultats indexResult XML
251. tion context experiments in quantitative structure biodegradability relationships J Chem Inf Comput Sci 42 2002 1043 1052 Consonni2002a Consonni V Todeschini R Pavan M Structure Response correlation and Similarity Diversity analysis by GETAWAY descriptors 1 Theory of the novel 3D molecular descriptors J Chem Inf Comput Sci 42 2002 682 692 Consonni2002b Consonni V Todeschini R Pavan M Structure Response correlation and Similarity Diversity analysis by GETAWAY descriptors 2 Application of the novel 3D molecular descriptors to QSAR QSPR studies J Chem Inf Comput Sci 42 2002 693 705 Doucet1998 Doucet J P Panaye A 3D Structural Information form property prediction to substructure recognition with neural networks SAR and QSAR Envirom Res 8 1998 249 272 Dubois1986 Dubois J E Mercier C Panaye A DARC topological system and computer aided design Acta Pharm Jugosl 36 1986 135 169 Dubois1999 Dubois J E Doucet J P Panaye A Fan B T DARC site toplogical correlations ordered structural descriptors and property evaluation In Devillers J and Balaban T Eds Topological indices and related descriptors in QSAR and QSPR Gordon and Breach Sciences Publishers Amsterdam 1999 pp 613 673 Faulon2003 Faulon J L Visco D P Jr Pophale R S The signature Molecular Descriptor 1 Using extended valence sequences in QSAR and QSPR studies J Chem Inf Comput
252. tom2 gt Cl lt atom2 gt lt atomList gt atom1 atom2 lt molecule gt Code 1 Exemple de document XML Nous avons pu choisir une autre mani re d ordonner l information selon nos besoins En tout cas l information sera toujours structur e non pas seulement pr sent Une possibilit alternative est montr e dans le Code II 2 molecule name Hydrochloric acid name molecule atomi H atoml atom2 Cl lt atom2 gt name atom 1 atom2 lt molecule gt Code II 2 Exemple de structure XML alternative De plus chaque l ment peut avoir une paire attribut valeur Les attributs sont utilis s pour donner des informations additionnelles aux l ments qui structurent les donn es Par exemple dans le cas pr c dent il se peut que le nombre CAS de soit important pour une application particuli re Il sera alors repr sent comme un attribut de l l ment molecule Sa valeur 7647 01 0 devra tre 66 22 enferm e entre guillemets pour tre reconnaissable molecule CAS number z 7647 01 0 name Hydrochloric acid name 2 atomList umben _ EE atomList lt atom2 gt Cl lt atom2 gt lt atomList gt T esta na lt molecule gt Code II 3 Exemple de document XML avec la pr sence d attributs et de valeurs 46 Pour interpr ter correctement les donn es structur es avec XML il est n cessaire de respecter la grammaire d crite
253. trons ci dessus dans le code IL 10 Cet exemple montre la structuration de deux mol cules diff rentes et de leurs vecteurs correspondants La DTD contient donc la d finition des l ments et des attributs du mod le de VecteurRepresentatif X ML Oi DIY gt lt ELEMENT indexResultOF Moleculet gt lt ELEMEN lectiile melee Eoi gt lt ATTLIST Molecule fileName CDATA REQUIRED gt lt ELEMENT ExpRepVector Frag gt lt ATTLIST Frag ref CDATA REQUIRED gt Code II 10 DTD correspondant au fichier XML du code 9 2 3 3 Une DTD pour valider l indexResult XML Dans les figures 19 et IL 20 nous avons repr sent d une mani re simplifi e les deux tapes suivre pour cr er et remplir une liste d indices de similarit et de diversit partir de QueryDB TestDB la premi re tape tant la cr ation des descripteurs mol culaires et la deuxi me la comparaison des 65 descripteurs pour obtenir des valeurs de similarit et de diversit index s dans un fichier XML Pour garantir la validit des r sultats vis vis le langage XML il faut impl menter son correspondant DTD Le code 11 reprend l exemple montr dans la figure II 19 On observe que l indexResult XML est compos e d autant l ments Query qu il y a de requ tes dans la QueryDB Chaque l ment Query a comme attribut le nom de l
254. ubois J E Mercier C Panaye A DARC topological system and computer aided design Acta Pharm Jugosl 36 1986 135 169 Dubois1999 Dubois J E Doucet J P Panaye A Fan B T DARC site toplogical correlations ordered structural descriptors and property evaluation In Devillers J and Balaban T Eds Topological indices and related descriptors in QSAR and QSPR Gordon and Breach Sciences Publishers Amsterdam 1999 pp 613 673 Ertl2003 Ertl P Chemoinformatics analysis of Organic Substituents Identification of the most common substituents calculation of substituent properties and automatic identification of Drug like Bioisosteric Groups J Chem Inf Comp Sci 43 2003 374 380 Gkoutos2001 Gkoutos G V Murray Rust P Rzepa H S The application of XML Languages for Integrating Molecular Resources Internet J Chem 2001 article 6 Harold2001 Elliot Rusty Harold XML Bible Wiley Eds 2 edition 2001 Murray Rust1999 Murray Rust P Rzepa H S Chemical Markup XML and the Wold Wide Web 1 Basic Principles J Chem Inf Comput Sci 39 1999 928 942 Murray Rust2001 Murray Rust P Rzepa H S Chemical Markup XML and the Wold Wide Web 2 Information Objects and the CML DOM J Chem Inf Comput Sci 41 2001 1113 1123 Murray Rust2002a Murray Rust P Rzepa H S Chemical Markup XML and the Wold Wide Web 3 Toward a signed Semantic Chemical Web of Trust J Chem Inf Comput Sci 41 200
255. ue l indice de Tanimoto est pr f r m me si quelques avis d favorables ont t formul s Dixon1999 et Lajiness1997 lui reprochent notamment des r sultats biais s pour les petites mol cules quand des analyses de diversit sont effectu es Ceci est d au fait que l index de Tanimoto ne prend pas en compte l absence d entit s dans la comparaison de deux mol cules et les petites mol cules seront donc d savantag es par rapport aux grandes Quant la consid ration ou non des absences de caract ristiques comme mesure de similarit des discussions on t men es dans la communaut scientifique pour d terminer la validit et l application chimique d une telle affirmation Des propri t s analogues ont t remarqu es pour d autres mesures de similarit Ainsi d autres diff rences importantes ont t relev es entre la distance Euclidienne et la distance de Hamming d une part et les coefficients de Tanimoto Dice et Cosinus d autre part les premiers prennent en consid ration l absence commune d attributs comme une vidence de similarit contrairement aux derniers Willett1998 102 Un autre crit re de classification et ou d valuation des mesures de similarit est en relation avec le principe de similarit des propri t s Johnson1990 Martin2002 principe qui a t d j introduit dans le chapitre I 1 Selon ce crit re ce sont les indices ou coefficients qui expriment au mieux la relati
256. ultats avec la cible RandSel100 29 mol FileName atom Tanimoto Simpson Cosine RandSel100_29 10 1 0000 1 0000 1 0000 RandSel100_15 6 0 6667 0 8000 0 8000 RandSel100_16 9 0 5714 0 8000 0 7303 RandSel100_2 9 0 5000 0 8000 0 6761 RandSel100_6 10 0 5714 0 8000 0 7303 RandSel100_8 8 0 5714 0 8000 0 7303 RandSel100 27 9 0 5000 0 8000 0 6761 RandSel100 32 10 0 5000 0 8000 0 6761 RandSel100 35 8 0 5714 0 8000 0 7303 RandSel100 37 9 0 4444 0 8000 0 6325 RandSel100 40 6 0 6667 0 8000 0 8000 RandSel100 42 7 0 5714 0 8000 0 7303 RandSel100 45 7 0 5714 0 8000 0 7303 RandSel100 46 9 0 5714 0 8000 0 7303 RandSel100 47 8 0 5000 0 8000 0 6761 RandSel100 68 7 0 5714 0 8000 0 7303 RandSel100 77 8 0 5000 0 8000 0 6761 RandSel100 87 8 0 5714 0 8000 0 7303 RandSel100 89 9 0 5000 0 8000 0 6761 RandSel100 92 9 0 5000 0 8000 0 6761 RandSel100 95 12 0 4000 0 8000 0 5963 RandSel100 98 12 0 4444 0 8000 0 6325 RandSel100 84 8 0 5000 0 7500 0 6708 RandSel100 86 7 0 5000 0 7500 0 6708 RandSel100 4 7 0 3333 0 6667 0 5164 RandSel100 75 7 0 3333 0 6667 0 5164 RandSel100 90 7 0 3333 0 6667 0 5164 RandSel100 1 9 0 4286 0 6000 0 6000 RandSel100 22 10 0 4286 0 6000 0 6000 RandSel100 59 6 0 4286 0 6000 0 6000 RandSel100 67 8 0 4286 0 6000 0 6000 RandSel100 70 7 0 4286 0 6000 0 6000 RandSel100 13 3 0 1667 0 5000 0 3162 RandSel100 18 8 0 2857 0 5000 0 4472 RandSel100 63 8 0 2857 0 5000 0 4472 RandSel100 83 8 0 2857 0 5000 0 4472 RandSel100 88 6 0 1667 0 5000 0 3162 RandSel100
257. un code alphanum rique qui d signe un nombre d usage interne Ce code permet de regrouper les mol cules par famille Ainsi pour une sous structure avec nom de fichier CAUNS 156Qb lt CAUNS gt d signe un cycle aromatique cinq n uds avec un azote le code lt 156 gt d signe la famille des pyrroles et lt Qb gt nous indique que il est substitu dans 3 n uds voir figure II 3 Nous avons pris la pr caution de limiter les combinaisons possibles pour viter des contradictions chimiques ou de non sens Par exemple un fragment ne pourra jamais s appeler car la condition pour qu une mol cule soit aromatique est qu elle soit cyclique Les combinaisons possibles de noms de fichiers sont r duites celles montr es dans les figures suivantes II 1 2 3 Un aper u des bases de fragments Dans notre outil de criblage virtuel quatre bases de donn es FragDB ont t construites et ordonn es selon les crit res de la section 1 2 2 Ces bases sont associ es aux diff rents types d informations structurales traiter Leur classification ob ie la nomenclature montr e dans les figures II 4 et ILS La FragDB concerne actuellement 1 60 fragments contenant des cycles aromatiques CA 2 450 fragments contenant des cycles non aromatiques CN 3 11 fragments contenant des chaines acycliques AN 4 50 fragments contenant des groups fonctionnels AG 40 Carbon_atom Cyclic Aromatic Single Cyc
258. utures comparaisons La figure III 11 nous montre sch matiquement les tapes de l algorithme Donn es Liste d atomes appartenant aux cycles de la mol cule cible Extraction des atomes n appartenant pas aux cycles dans la mol cule cible LISTE A On copie dans la matrice M des fragments aliphatiques le premier atome P de la LISTE A Le voisin V de P appartient la LISTE A OUI On regarde les voisins de V On copie l atome dans M OUI NON On copie l atome dans M Reste t il des atomes P dans la LISTE A non encore copi s dans la matrice M Le voisin V de V appartient la LISTE A NON On copie l atome dans M NON Remplissage des structures de donn es des atomes contenus dans la matrice M FIN Figure 11 Algorithme de reconstruction des fragments aliphatiques partir des atomes isol s n appartenant pas aux cycles de la mol cule cible 92 Une fois que la mol cule cible a t d coup e on obtient une s rie de mol cules fragmentaires temporaires cycliques et acycliques pr tes l analyse avec notre adaptation de l algorithme d Ullmann Pour les parties cycliques de la mol cule cible on compare la partie cyclique de la base de fragments et les sous structures acycliques sont compar es leur tour avec les fragments acycliques de la mol cule analys e L algorithme pour la recherche des isomorphismes entre la mol cule cibl
259. vons montr galement la structuration de cette information en utilisant des langages de marquage IV 2 1 Analyses de Similarit La figure suivante montre de mani re sch matique le calcul de la similarit pour une paire de mol cules repr sent es par ses vecteurs descripteurs 1 et 2 Ces deux vecteurs descripteurs peuvent tre soit calcul s directement par le logiciel avant d effectuer la comparaison soit charg s par l outil dans leur format XML d origine qui permet de r cup rer toutes les informations n cessaires l op ration Une fois les vecteurs descripteurs pr ts on proc de la recherche des fragments communs aux deux vecteurs Ceci peut se faire de mani re stricte en comparant les noms cod s des fragments concern s homomorphisme structural ou de mani re plus floue en comparant seulement l appartenance d un fragment une classe particuli re car certaines informations du nom du fragment identifient l appartenance de ses fragments une m me famille On peut aussi ajouter des poids pour que tous les fragments ne contribuent pas de la m me mani re au calcul de la similarit ou pour qu une propri t particuli re joue le r le de discriminant principal 104 Recherche des VecteurDescripteur1 gt fragments communs VecteurDescripteur2 Eve a nombre fragments de la mol1 b nombre fragments de la mol2 c nombre fragments communs Tanimoto 2 Cosin us Calcul de Similarit
260. ycle Triple Cycle S Saturated CAU N5 S D Fused Double Cycle Q 4 Cycle Unsaturated C Carbonyl C Carbon_atom O Heteroatom_O N Heteroatom_N S Heteroatom_S M Mixture_Heteroatoms W Special_atom X Halogen_atom Q 3 9 Number_atomstring 3 9 Number_atoms3ring 3 9 Number_atoms2ring 3 9 Number_atoms4ring etc Figure II 3 Exemple de la signification des lettres et des chiffres composants le nom de fichier des l ments de la FragDB Comme montre la figure IL3 deux grands groupes de fragments constituent FragDB les fragments cycliques C et les fragments acycliques A Dans la cat gorie Acyclique nous avons regroup principalement les fragments par famille de groupes fonctionnels AG la cat gorie AN restant toutefois possible particuli rement pour d crire les fragments acycliques simples du type C C CI N et qui n appartiennent pas une cat gorie de groupe fonctionnel La cat gorie C est divis e en cycles aromatiques CA et non aromatiques CN Dans les cycles avec des h t roatomes les lettres S O N M se chargent de designer leur apparition La plupart des cycles 39 li s et pont s sont analys s et s par s pr alablement la comparaison avec FragDB en cons quence les cat gories D T et Q sont rest s hors usage apr s l impl mentation de l outil de coupure A la fin du nom de fichier on observe galement

THESE DE DOCTORAT - Ana Maldonado Webpage

Contents

Download Pdf Manuals

Related Search

Related Contents