Home

Département de génie logiciel et des TI RAPPORT D`ÉTAPE LOG

image

Contents

1. 5 4 1 1 D finition des besoins du client 5 4 1 2 Exploration des diff rents technologies 9 4 1 3 Test Effectu s sur diff rentes technologies 11 4 2 Recommandations ssiri rrn RA Eddi SE dE Eeer 12 Be Livrables et planification eeeeeierhteeueegdeg eeh acid tanec rans Ge nenid cara cual Gactnrie eceaninesdtaradeicecnd ete 13 5 1 Description des art facts restr rntrnn Ene sern nennen 13 5 2 STI 1016 E 13 6 E E 13 1 R f rences EE 15 8 Table des mati res du rapport enneren nn nenne 15 Annexe A Plan de travail r vis 17 EEGEN 21 Annexe C Installation de Hadoop et Hbase dans linux 30 Annexe D D cument de VISION ennemie 38 Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 HE eee me ETS logiciel et des TI EndoMine Rapport d tape 4 38 1 PROBLEMATIQUE ET CONTEXTE Actuellement le d partement de diagnostic m dical du JGH poss de une base de donn es de production Oracle contenant toutes les donn es diagnostics Pour des raisons de s curit des donn es et de performance une base de donn es Access a t cr e et elle est actuellement utilis e pour effectuer des extractions et des fonctions de data mining Cette approche comporte des limites et le Dr Eintrachtt aimerait avoir des propositions de solutions pour l avenir d
2. Positionnement 2 1 nonc du probl me age oP A SN UNE TR NM LU ALS ES 2 11 Probleme l reve rte AE e Patent Win AE RE tes Mr e E 2 12 Probleme 2 gt ss AA oo ates A aes ho ce Ya ea E ee Sd ie ets 2153 IPTODIETI ES A e echt a cee ge Sie a ee dE e ee gee ee Sod 2 2 Positionnement du produit Descriptions des intervenants et des utilisateurs 3 1 R sum des intervenants stakeholders 3 2 R sum des utilisateurs 3 3 Environnement utilisateur 3 4 Principaux besoins des intervenants et utilisateurs 3 5 Alternatives et Comp tition Vue d ensemble du produit 4 1 Perspective du produit 542 20 saciu opasni don Be M ange 40 a nes 42 S curit et Confidentialit 4 3 Principaux Vantage e sas de de A ge ne de E he a a Ge aa ae Aa 4 4 Hypoth ses et d pendances HYPOT BD de staging ioe oa agur EN he di RER et deal eer E N HYP02 SYmChrONISAUON LE Le amp 4k oe e EE a E PY GE EE o es acosa ea doe aa De E a a a aana a a HYPO4 Prototype eee Ae Ee ER ee ee EEE ee Eas HYP05 Conception d veloppement et test 45 Licences et installation Caract ristiques features du produit FEAO1 Config
3. Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e is LOG 792 1 0 2012 09 24 1 0 5 D partement de g nie ETS logiciel et des TI as TASE DEE EndoMine Rapport d tape 9 38 Variable Size 115 154 22 96 95 2218 347 3047 Max Size per TOW 161 210 68 142 101 2360 353 3395 magnitude 1 2 4 36 per hour 84 140 367 3 048 3 639 per day 2 014 3 366 8 810 73 150 741 4 321 1 243 87 340 per week 14 098 23 562 61 670 512 050 611 380 per month 60 420 100 980 264 300 2 194 500 2 620 200 31 879 10 per year 735 110 1 228 590 3 215 650 26 699 750 0 Table 1 Row count statistiques Comme on peut voir la majorit des tables v_p ont au moins 1 million de rang es par ann e Faire les jointures sur des rang es de cette taille serait tr s difficile Vue la taille des donn es il va devenir tres compliqu d effectuer des jointures entre les grosses tables 4 1 2 Exploration des diff rents technologies Etant donn que le probleme d une grande quantit des donn es n as pas de solution fixe nous allons d crire les diff rentes m thodes analys es Les bases de donn es Relationnelles NoSQL Open Source et technologies propri taires seront d crites 4 1 2 1 Base de donn es relationnelles Oracle Avant de r inventer la roue nous avons pens utiliser les bases de donn es existantes En th orie
4. e V_p_lab_specimen contient les sp cimens physiques pris pour faire des tests e V_s lab test_group d crit les composantes d un test particulier e Les tables restantes n ont pas besoins d tre d crits pour le moment Une fois les tables et les relations particuli res effectu es nous avons pris un soin de d finir la taille de chaque table a partir d un chantillon de 1 jour de donn es Voici les r sultats obtenus vs_la vs_la b_test vp_lab vp_lab_ vp_lab_s vp_ lab te b_spe vs la _grou Data Type Table _stay order pecimen st_ result cimen b_test p TOTAL 34 75 19 62 11 145 47 393 Bytes Number 5 2 0 1 0 0 0 4 1 6 Number 10 4 7 9 7 7 0 10 1 41 Number 14 6 2 2 2 2 1 1 0 10 0 double 8 0 0 0 0 0 11 0 11 0 datetime 3 2 2 2 2 0 0 0 8 char 1 1 1 7 0 1 0 7 1 17 varchar 1 1 8 33 4 40 5 56 0 146 varchar 2 2 0 1 0 1 0 0 0 varchar 3 3 1 0 1 1 1 2 0 varchar 4 4 0 0 0 0 0 1 0 varchar 5 5 8 18 3 7 0 13 41 90 varchar 7 7 1 0 0 0 0 0 0 1 varchar 10 10 0 0 0 0 1 0 0 1 varchar 1 1 11 3 2 0 0 0 28 0 33 varchar 15 15 0 0 0 1 1 3 0 5 varchar 23 23 1 0 0 0 1 0 1 3 varchar 30 30 0 0 0 0 0 1 0 1 varchar 39 39 0 0 0 0 1 0 0 1 varchar 59 59 0 0 0 0 0 2 2 4 varchar 79 79 0 0 0 0 0 4 0 4 varchar 239 239 0 0 0 0 0 1 0 1 mediumtext 1024 0 0 0 0 0 1 0 1 0 Fixed Size 46 56 46 46 6 142 6 348
5. COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 ip SE ma ETS logiciel et des TI EndoMine Rapport d tape 1 38 D partement de g nie logiciel et des TI RAPPORT D ETAPE LOG 792 Projet de fin d tudes D partement de g nie logiciel et des TI EndoMine Projet de d veloppement d outils de forage de donn es de r sultats de tests patients endocrinologie m tabolisme et pid mologie clinique du JGH Auteurs Anton Zakharov ZAKA12038406 David Lauzon LAUD01028300 Professeur superviseur Alain April Date 29 Octobre 2012 Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 HE SE 0 ETS logiciel et des TI EndoMine Rapport d tape 2 38 Suivi des changements A Ajout M Modifi S Supprim NUM RO NUM RO DE A NUM RO DE DATE FIGURE TABLE M BR VE DESCRIPTION DEMANDE DE VERSION 22a4 nmm OU SECTION S DU CHANGEMENT CHANGEMENT 1 0 2012 10 28 A Document Complete Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 10 se me ETS logiciel et des TI EndoMine Rapport d tape 3 38 Table des mati res 1 Probl matique et contexte EE 4 2 Objectifs lte 4 3s Eege 4 4 Sommaire des travaux r alis s et recommandations 5 4 1 Sommaire des travaux r alis s
6. Important parall les FEA05 Environnement de forage de Propos Elev Moyen Faible Moyen Critique donn es distinct des sources de donn es en production FEA06 Synchronisation des donn es Propos Elev Moyen Moyen Faible Important automatique entre les sources de don n es et le syst me EndoMine FEAO7 G n rateur de requ tes int gr Propos Elev Elev Elev Faible Critique FEAO8 Recherche par filtrage incr Propos Moyen Elev Elev Faible Critique mentiel de la requ te originale FEA09 Exportation des r sultats de re Propos Elev Moyen Faible Faible Critique cherche FEA10 Exportation des cl s anonymi Propos Moyen Faible Faible Moyen Important s es FEA11 Ajout de champs suppl men Propos Moyen Elev Elev Faible Critique taire des r sultats de recherche FEA12 Trier les r sultats de recherche Propos Moyen Moyen Faible Moyen Utile 9 Autres exigences du produit 9 1 Exigences du syst me ES1 R quis minimaux de l ordinateur ex cutant la recherche Fureteur Firefox 8 ou quivalent 2 GB de m moire vive RAM Suite de bureautique Office install e optionnel Logiciel s d analyse s statistique s optionnel Confidentiel EndoMine_ _ Vision pdf Page 15 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 9
7. 0 row s in 2 1320 seconds hbase main 013 0 gt list TABLE test 1 row s in 0 0610 seconds hbase main 016 0 gt drop test 0 row s in 1 4340 seconds hbase main 017 0 gt list TABLE 0 row s in 0 0520 seconds sudo apt get install sqoop Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee SE ETS logiciel et des TI EndoMine Rapport d tape 37 38 sqoop help sqoop version sqoop import http archive cloudera com cdh4 cdh 4 sqoop SqoopUserGuide html http archive cloudera com cdh4 cdh 4 sqoop SqoopDevGuide htm Install MySQL JDBC Driver tar xzf Downloads mysqal connector java 5 1 22 tar gz sudo cp mysql connector java 5 1 22 mysql connector java 5 1 22 bin jar usr lib sqoop lib chmod a r usr lib sqoop lib mysql connector java 5 1 22 bin jar Should we set the connector path somewhere export SQOOP_HOME home hadoop software sqoop 1 3 0 export PATH PATH SQOOP_HOME bin ERROR sqoop Sqoop Got exception running Sqoop java lang RuntimeException Could not load db driver class com mysq jdbc Driver Test JDBC connector and connection java cp usr lib sqoop lib mysql connector java 5 1 22 bin jar jdbctest jdbc mysql localhost endomine_access user root amp passworde Initial test hbase key sql key sqoop import libjars usr lib sqoop lib mysql connector java 5 1 22 bin jar connect
8. Voici la structure d une entr e dans HBase Figure 3 HBase entr e http www larsgeorge com 2009 10 hbase architecture 101 storage html Faire des recherches en connaissant la valeur d une cl o d un pr fixe de cl est tr s rapide Tous les autres types de recherche vont demander de faire un scan complet de la table qui est plus inefficace dans HBase que dans Hive ll serait tr s difficile d utiliser cette solution directement pour le Dr Eintracht car ce dernier a besoin de rechercher en utilisant comme crit re plusieurs colonnes sans ordre pr d fini Par contre il pourrait tre difficile si le probleme du Dr Eintracht puisse tre r duit a un sch ma en toile http en wikipedia org wiki Star_ schema Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 10 Re me ETS logiciel et des TI EndoMine Rapport d tape 11 38 Impala Cloudera Le probl me principal de Hive est le start up cost a cause de l utilisation du MapReduce Impala est un projet s par d velopp par Cloudera L objectif est d tre un engin de recherche en temps r el pour Hadoop http www theregister co uk 2012 10 24 cloudera_hadoop impala real time ouer En gros on peut le voir comme Hive mais plus rapide Important noter il n as pas toutes les possibilit s de Hive mais dans notre cas d utilisation on peut consid rer comme te
9. 11 2012 07 11 2012 10 BD miroir AZ 8 4 01 11 2012 07 11 2012 20 Installation de l co syst me Hadoop DL 08 11 2012 21 11 2012 Phase de Construction It ration C1 9 1 08 11 2012 08 11 2012 1 5 Rencontre au JGH avec le client DL AZ Impl mentation de la structure Hadoop pour stocker les 9 2 08 11 2012 14 11 2012 10 donn es DL 9 3 08 11 2012 14 11 2012 5 Importer les donn es dans Hadoop DL 9 4 08 11 2012 14 11 2012 5 Tester l int grit des donn es et des relations DL 10 1 15 11 2012 15 11 2012 1 5 Rencontre au JGH avec le client DL AZ 10 2 15 11 2012 21 11 2012 20 Impl mentation de l engin de recherche part 1 AZ 22 11 2012 05 12 2012 Phase de Construction It ration C2 11 1 22 11 2012 22 11 2012 1 5 Rencontre au JGH avec le client DL AZ 11 2 22 11 2012 22 11 2012 1 Rencontre professeur superviseur DL AZ 11 3 22 11 2012 28 11 2012 5 Impl mentation de l engin de recherche part 2 AZ 11 4 22 11 2012 28 11 2012 5 Tester l engin de recherche DL 11 5 22 11 2012 28 11 2012 10 Impl mentation de l affichage et exportation des r sultats DL 11 6 22 11 2012 28 11 2012 5 Interface avec le syst me de visualisation des donn es DL 11 7 22 11 2012 28 11 2012 15 Tester le prototype de data mining AZ 12 1 29 11 2012 29 11 2012 1 5 Rencontre au JGH avec le client DL AZ Prototype de 12 2 29 11 2012 30 11 2012 2 D monstration d un prototype de data min
10. 2 Exigences de performance 2 SVP Pr cisez si cette section s applique 10 Exigences de documentation 10 1 Manuel de l utilisateur EMU1 Un manuel d utilisateur simple et complet permettra l utilisateur d apprendre rapide ment le fonctionnement de l interface de cr ation de requ tes 10 2 Guides d installation de configuration et fichier lire EGCF1 Documenter les configurations requises pour installer et configurer une machine suppl mentaire pour le syst me EndoMine EGCF2 Documenter les configurations requises pour ajouter une nouvelle source de donn es ou table suppl mentaire si le temps le permet Confidentiel EndoMine Vision pdf Page 16 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 11 Bibliographie 1 Access 2010 specifications Microsoft Consult le 3 octobre 2012 http office microsoft com en us access help access 2010 specifications HA010341462 aspx 2 ArchSummary Query 10 f v 2010 Jessica Iannone Consult le 3 octobre 2012 a http jessica iannone com img interactive ArchSummQry jpg Confidentiel EndoMine_ _ Vision pdf Page 17 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 Microsoft Access Query Builder E ArchSummary_Query NEW Select Query ArchSummary_QuerySOs V_ORDER_TO_WO V_JOB_HEADER V_SALESPEOPLE SALESPERSON_CODE SALESPERSON
11. Commande d un ou plusieurs tests effectu e 4 une date pr cise pour un s jour en particulier Test Result Contient les informations relatives au r sultat du test ex quantit de mL de glucose Test Specimen Fait r f rence l chantillon de test ex l prouvette de sang 1 4 R f rences Voir le Plan de Projet pour la liste des art facts livrables de ce projet Les autres r f rences cit es se trouvent la fin dans la section 10 2 intitul e Bibliographie 1 5 Langue de r daction La langue de r daction principale des documents sera le fran ais Toutefois lorsque appropri l anglais pourrait tre utilis pour s assurer la compr hension de l ensemble des utilisateurs d Endo Mine 2 Positionnement 2 1 nonc du probl me 2 1 1 Probl me 1 Le probl me de l extraction de statistiques compl tes et pr cises sur l utilisation des ressources m dicales scanner microscope tout ce qui ce trouve dans les laboratoires est compliqu e voire impossible Cela affecte les gestionnaires du laboratoire biom dical dont l impact est la difficult de prendre des d cisions objectives d achat et d alloca tion de mat riels Une bonne solution serait d ajouter les diagnostics m dicaux et les relier aux tests m dicaux dans le syst me de forage de donn es Cela permettrait de prouver que des tests demand s par des m decins sont effectu s inutilement en v rif
12. DOCUMENT NO DATE VERSION z D partement de g nie LOG 792 10 eee 0 ETS logiciel et des TI EndoMine Rapport d tape 28 38 Date Date de de consul Auteur l article Titre de l article tation URL 13 novem 21 bre octobre http datawarehouse ittoolbox com groups strategy planning dw Glenn Engstrand 2011 OLAP Versus Big Data 2012 projectmanagement olap versus big data 4508739 28 DataMeer Enterprise Analytics at the speed octobre DataMeer of business 2012 http www datameer com enterprise index html 24 28 Marcel Kornacker amp octobre Cloudera Impala Real Time Queries in octobre http blog cloudera com blog 201 2 1 0 cloudera impala real time Justin Erickson 2012 Apache Hadoop For Real 2012 queries in apache hadoop for real 28 octobre https ccp cloudera com display IMPALA10BETADOC Cloudera Im Cloudera Cloudera Impala 1 0 Beta Documentation 2012 pala 1 0 Beta Documentation legrand_legrand SQLeo Visual Query Builder http sqleo sourceforge net index html 11 mai Tomer 2012 Announcing the MapR Hive ODBC Driver http www mapr com blog 269 ltemid 78 Apache Software Foundation Hive JDBC Driver https cwiki apache org Hive hivejdbcinterface htm 16 28 mars octobre Rahul Patodi 2011 Hue Features 2012 http www technology mania com 201 1 03 hue features htm 29 septem 28 bre Using Different Reporting Frameworks with octobre http wso2 org library articles 2012 09 using different reporting Sachini Jayasekara 2012 WSO2 Bu
13. FIGURE 3 Exemple d une requ te construite avec le Microsoft Access Query Builder image tir e d un siteweb 2 Confidentiel EndoMine Vision pdf Page 18 20 Projet Document EndoMine 2012 076 Version 0 9 1 Vision Date 11 octobre 2012 Attributs des caract ristiques TABLE 8 L gende tat des caract ristiques Propos La caract ristique est propos e mais n a pas encore t approuv e par les parties prenantes Approuv La caract ristique est approuv e par les parties prenantes Incorpor La caract ristique est incluse dans le produit TABLE 9 L gende B n fice des caract ristiques Faible La caract ristique apporte peu de valeur ajout e au produit et n est pas n cessaire son bon fonctionnement Moyen La caract ristique apporte une valeur ajout e additionnelle au produit mais n est pas critique son bon fonctionnement lev La caract ristique apporte une valeur ajout e importante au produit et est essentielle son bon fonctionnement ou la r alisation de ses t ches TABLE 10 L gende Effort des caract ristiques Faible La r alisation de la caract ristique n cessite un effort de moins de 20 heures personnes Moyen La r alisation de la caract ristique n cessite un effort entre 20 et 40 heures personnes lev La r alisation de la caract ristique n cessite un effort de plus de 40 heures personnes Confidentie
14. hadoop conf hdfs site xml initial sudo vi etc nadoop conf hdfs site xml lt property gt Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee mE EFS logiciel et des TI EndoMine Rapport d tape 33 38 lt name gt dfs datanode max xcievers lt name gt lt value gt 4096 lt value gt lt property gt Restart HDFS services sudo service hadoop hdfs datanode stop sudo service hadoop hdfs secondarynamenode stop sudo service hadoop hdfs namenode stop sudo service hadoop hdfs namenode start sudo service hadoop hdfs secondarynamenode start sudo service hadoop hdfs datanode start Install HBase Master sudo apt get install hbase master sudo service hbase master start Install HBase REST Interface sudo apt get install hbase rest sudo cp etc hbase conf hbase site xml etc hbase conf hbase site xml initial sudo vi etc hbase conf hbase site xml lt property gt lt name gt hbase rest port lt name gt lt value gt 60050 lt value gt lt property gt sudo service hbase rest restart Pseudo distributed mode differs from standalone mode in that each of the component processes e g HBase Master Region Server and ZooKeeper peer run in a separate JVM Stop standalone HBase Master sudo service hbase master stop Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee mE E
15. la base de donn e Oracle pr sentement en production devrait permettre de faire des requ tes n cessaires Dr Eintracht Il nous faudrait les donn es au complet ainsi que des requ tes sp cifiques du Dr Eintracht pour pouvoir le tester Cette solution va couter une licence Oracle et ne pourrait pas vraiment tre mise niveau si le nombre de donn es augmente 4 1 2 2 Base de donn es NoSQL Open Source Les bases de donn es NoSQL dont on va pr senter vont tre b ties en utilisant le syst me de gestion de fichier distribu Hadoop Pr senter l architecture de Hadoop vas au del du scope du pr sente document mais si vous tes int ress voici un lien qui la d crit assez sommairement http en wikipedia org wiki Apache Hadoop Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 10 se me ETS logiciel et des TI EndoMine Rapport d tape 10 38 De base les donn es sont stock es dans des fichiers qui sont automatiquement r pliqu s sur plusieurs disques MapReduce est un framework utilis pour cr er des taches fonctionnent en parall le et permettant de faire des op rations sur les fichiers stock s dans Hadoop Durant l tape Map le n ud principal master prends les donn es d entr es les divises en probl mes plus petits et les distribue aux n uds de travail Durant l tape Reduce le n ud princi
16. sera utilis e Les it rations et t ches exactes seront d crites dans l Annexe A Par contre certaines parties comme par exemple reproduction de la BD de production n ont pas une d finition exacte du temps car nous n avons aucune id e pour le moment quelle technologie nous allons utiliser Ces questions seront r solues au fur et mesure Chaque it ration prendrait 2 semaines environ 15h de travail par personne par semaine Un bilan serait fait la fin de chaque valuation et les t ches seront r valu es selon le temps disponible et l valuation des besoins du client Voici le sch ma des livrable propos s Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 n ee me ETS logiciel et des TI EndoMine Rapport d tape 5 38 Projet It ration 3 It ration 1 It ration 2 pan Mai 2015 Juin Ao t 2013 Plan de projet Data Mining 1 4 SOMMAIRE DES TRAVAUX REALISES ET RECOMMANDATIONS 4 1 Sommaire des travaux r alis s Pour la facile de pr sentation du projet nous allons diviser cette section en 3 parties D finition des besoins du client exploration des diff rents technologies et test effectu es sur diff rentes technologies Apr s nous allons d crire les installations effectu es 41 1 D finition des besoins du client tant donn que le projet est r alis pour un client r el la cr ation d un
17. un environnement de data mining a grande chelle Parall lement le d partement d endocrinologie du JGH aimerait avoir un outil de data mining pour effectuer des recherches sp cifiques a son domaine d expertise 2 OBJECTIFS DU PROJET Notre projet contient plusieurs aspects e Adapter le scope du projet d pendant l impact qu il aurait sur diff rents intervenants e La mise en place d une base de donn es exploitable par des outils de data mining qui remplacerait la base de donn es Access e Le choix ou le d veloppement d outils base de logiciels libres de data mining afin de permettre l tude des donn es d une mani re interactive Nous avons d cid d explorer les diff rentes technologies de l cosyst me Hadoop tant donn e leurs co t de mise l chelle peu lev e Nous allons aussi explorer quelques solutions propri taires e Reproduction de la B D de production Oracle actuelle dans l environnement de data mining Synchronisation entre la B D de production et l environnement de data mining et de la base de donn es de staging e Cr ation d une interface permettant de 1 faire la recherche dans l environnement de data mining et 2 En affichage graphique des donn es style tableau ou visuel 3 M THODOLOGIE Vu la port e et la nature du projet l approche it rative par phase cr ation laboration construction transition du processus unifi U P
18. 0 on Ubuntu 12 04 LTS 2012 04 Its 8 d cem 19 bre Installing a Pentaho demo server on Ubuntu octobre S bastien Dejean 2006 6 10 Server Edition 2012 http ubuntu pentaho blogspot ca 20 novem 19 bre Pentaho Forums Kettle repository use and octobre http forums pentaho com showthread php 65955 Kettle repository codek 2008 how to create 2012 use and how to create 19 12 Sept Joining Data Sources Performing Lookups octobre bizcubed 2012 and Joins in Pentaho Data Integration 2012 http www youtube com watch v na6yRrhxX5yo 19 octobre http wiki pentaho com display BAD Configure Pentaho for Cloude Pentaho Configure Pentaho for Cloudera CDH4 2012 ra CDH4 19 octobre Wikipedia Classpath Java 2012 http en wikipedia org wiki Classpath_ Java 17 19 f vrier octobre Mark Hall John Paz 2012 HBase Input 2012 http wiki pentaho com display EAl HBase Input 21 ao t Pentaho Hadoop Series Big Data Analytics octobre htip www pentaho com resources videos 25 hadoop series part 1 James Dixon 2010 Part 1 5 2012 big data architecture 21 What are the advantages of Hadoop over octobre http www quora com What are the advantages of Hadoop over Quora distributed RDBMS 2012 distributed RDBMS 21 octobre http www IBM Informix Features and Benefits 2012 01 ibm com software data informix feature html S CMP rnav Auteurs David Lauzon et Anton Zakharov COURS
19. 41 3 Test Effectu s sur diff rentes technologies 4 1 3 1 Installation de Hadoop et HBase Nous avons utilis la distribution CDH4 1 de Cloudera car elle est stable et que l installation est plus facile De plus nous avons utilis la version 1 de MapReduce Mrv1 car la version 2 Yarn n est pas encore consid r e comme stable Voir Annexe C pour les instructions d installation Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 1 0 Be m ETS logiciel et des TI EndoMine Rapport d tape 12 38 Le package Scoop est utilis pour importer les donn es relationnelles dans HBase Nous avons utilis une base de donn es MySQL comme source de donn es initiale mais a devrait marcher avec la base de donn es Oracle 4 2 Recommandations tant donn les donn es disponibles nous recommandons d avoir les requ tes exactes de Dr Eintracht S il est possible d avoir une solution mod lis en tant que sch ma en toile ou autre mod le dimensionnel nous allons utiliser Pentaho Si ce n est pas possible nous n aurions pas d autre choix que d utiliser Hive avec les pertes de performance que a encours Dans ce cas le cas d utilisation de Hive les donn es des tables V_P seront d normalis s en une seule table puis partitionn s par semaine L outil Visual SQL Query Builder pourrait tre utilis pour faire le Front End Auteurs David La
20. Bow Ae Wh Ga a lee nt nn de eS 10 Confidentiel EndoMine Vision pdf Page 2 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 3 Exemple d une requ te construite avec le Microsoft Access Query Builder image tir e ME E EE EE AN ioe Rake Bn ae RAE a ep be 18 Confidentiel EndoMine Vision pdf Page 3 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 TABLE 1 Historique des R visions Version Description Auteur 27 sept 2012 v0 1 Sections 2 2 2 3 3 4 3 7 4 1 Anton Zakharov 27 sept 2012 v0 2 Sections 1 3 3 2 3 3 4 1 4 3 David Lauzon 3 oct 2012 v0 2 1 Formattage et mise en page David Lauzon 3 oct 2012 v0 3 Section 1 2 et 3 7 Anton Zakharov preview 5 oct 2012 v0 4 Section 4 2 4 4 4 5 5 7 Anton Zakharov 7 oct 2012 v0 5 Section 1 3 1 5 3 2 3 4 8 11 David Lauzon 8 oct 2012 v0 5 1 Revue des sections 4 David Anton Zakharov 9 oct 2012 v0 9 rc1 Revue des sections Anton David Lauzon 11 oct 2012 v0 9 1 Corrections sugg r es par Fodil David Lauzon 2 1 4 4 4 5 9 3 Confidentiel EndoMine Vision pdf Page 4 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 1 Introduction 1 1 Objectif Le but de ce document est de collecter analyser et d finir les besoins et caract ristiques de haut niveau du syst me EndoMine Il se concentre sur les fonctionalit s recherch es
21. FS logiciel et des TI EndoMine Rapport d tape 34 38 Set host to matches fs default name or fs defaultFS in core site xml sudo vi etc hbase conf hbase site xml lt property gt lt name gt hbase cluster distributed lt name gt lt value gt true lt value gt lt property gt lt property gt lt name gt hbase rootdir lt name gt lt value gt hdfs localhost 8020 hbase lt value gt lt property gt Create user for HBase sudo u hdfs hadoop fs mkdir hbase sudo u hdfs hadoop fs chown hbase hbase Installing the ZooKeeper Server Package and Starting ZooKeeper on a Single Server sudo apt get install zookeeper server sudo service zookeeper server init sudo service zookeeper server start Tell HBase to use separate JVM for ZooKeeper in etc hbase conf dist nbase env sh export HBASE MANAGES _7ZK false Starting HBase Master sudo service hbase master start Installing and Starting a HBase RegionServer sudo apt get install hbase regionserver sudo service hbase regionserver start Verifying the Pseudo Distributed Operation sudo jps sudo usr lib jvm jdk1 6 0_34 bin jps 32694 Jps 30674 HRegionServer 29496 HMaster Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee mE EFS logiciel et des TI EndoMine Rapport d tape 35 38 28781 DataNode 28422 NameNode 30348 QuorumPeerMain Installing and St
22. ION D partement de g nie LOG 792 10 ee 0 TS logiciel et des TI EndoMine Rapport d tape 17 38 ANNEXE A PLAN DE TRAVAIL R VIS Indiquez les changements et ajouts en gras Efforts S Livrable s Responsabl Commence Termine Estim s T ches Jalon a S s 13 09 2012 26 09 2012 Phase d Inception It ration 11 1 1 14 09 2012 14 09 2012 1 Rencontre au JGH avec le client DL 1 2 14 09 2012 14 09 2012 1 5 Rencontre professeur superviseur DL Fiche de 1 3 14 09 2012 20 09 2012 1 D finition de la fiche de renseignements renseignements DL 1 4 18 09 2012 28 09 2012 2 Planification du projet Plan de projet DL 2 1 20 09 2012 20 09 2012 4 Rencontre au JGH avec le client DL AZ Identification et r partition des taches du projet par 2 2 20 09 2012 24 09 2012 4 it ration Ech ancier DL Proposition de 2 3 20 09 2012 24 09 2012 3 D finition de la proposition de projet projet DL AZ 27 09 2012 10 10 2012 Phase d Inception It ration 12 3 1 27 09 2012 27 09 2012 3 Rencontre au JGH avec le client DL AZ Sch ma relationnel de 3 2 27 09 2012 03 10 2012 6 Analyse du syst me existant production actuel DL AZ Recherche sur le forage de donn es grande chelle part 3 3 27 09 2012 03 10 2012 5 1 DL 4 1 04 10 2012 04 10 2012 1 5 Rencontre au JGH avec le client DL AZ 4 2 04 10 2012 10 10 2012 5 Identifier les probl mes du syst me existant DL AZ Identifier les besoins et caract ristique
23. MastersReport_Full_2009 08 lan Varleys 2009 Relational Databases 2012 07 pdf 25 14 janvier App Engine datastore tip monotonically octobre http ikaisays com 2011 01 25 app engine datastore tip Ikai Lan 2011 increasing values are bad 2012 monotonically increasing values are bad HBASE 3551 Issue Loaded hfile indexes 20 occupy a good chunk of heap look into 14 f vrier shrinking the amount used and or evicting octobre Michael Stack 2011 unused indices 2012 https issues apache org jira browse HBASE 3551 14 http search 24 mai HBase mail user a question octobre hadoop com m hemBv1iLiN4Q1 a question storefilelndexSize amp subj Gaojinchao 2011 storefilelndexSize 2012 a question storefilelndexSize 24 15 http search mars octobre hadoop com m nvbiBp2TDP Stargate 252Bhbase amp subj Stargate Sreejith P K 2011 HBase mail user Stargate hbase 2012 hbase 9 15 f vrier octobre Matteo Bertozzi 2011 HBase 1 0 HFile 2012 http th30z blogspot ca 201 1 02 hbase io hfile html spref tw 15 Apache Sofware octobre http nbase apache org xref org apache hadoop hbase io hfile HFile Foundation HFile Source Code 2012 html 13 15 f vrier octobre Michael Stack 2009 HBASE 1200 Issue Add bloomfilters 2012 https issues apache org jira browse HBASE 1200 12 15 octobre octobre Wikipedia 2012 Bloom filter 2012 http en wikipedia org wiki Bloom_filter 15 15 mai StackOverflow HBase MemStore and octobre http stackoverflow com question
24. arting the HBase Thrift Server sudo apt get install hbase thrift Verifying HBase shell hbase shell status detailed sudo u hbase hbase shell HBase Shell enter helb lt RETURN gt for list of supported commands Type exit lt RETURN gt to leave the HBase Shell Version 0 92 1 cdh4 1 0 rUnknown Sat Sep 29 11 55 59 PDT 2012 hbase main 001 0 gt list TABLE 0 row s in 0 5590 seconds hbase main 002 0 gt create test cf 0 row s in 1 2210 seconds hbase main 004 0 gt list TABLE test 1 row s in 0 0400 seconds hbase main 006 0 gt put test row cf a value1 0 row s in 0 0900 seconds hbase main 007 0 gt put test row2 cf b value2 Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee mE ETS logiciel et des TI EndoMine Rapport d tape 36 38 0 row s in 0 0310 seconds hbase main 008 0 gt put test row3 cf c value3 0 row s in 0 0280 seconds hbase main 009 0 gt scan test ROW COLUMN CELL row1 column cf a timestamp 1349751 879062 value value1 row2 column cf b timestamp 1349751 884145 value value2 row3 column cf c timestamp 1349751892350 value value3 3 row s in 0 0780 seconds hbase main 011 0 gt get test row1 COLUMN CELL Ca timestamp 1 349751879062 value value1 1 row s in 0 0150 seconds hbase main 012 0 gt disable test
25. at You octobre http blog sematext com 2012 07 16 hbase memstore what you Alex Baranau 2012 Should Know 2012 should know Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 E 0 ETS logiciel et des TI EndoMine Rapport d tape 26 38 Date Date de de consul Auteur l article Titre de l article tation URL 24 septem 19 bre How partitioning collecting and spilling work octobre Alex Holmes 2012 in MapReduce 2012 http grepalex com 201 2 09 24 map partition sort spill http www wired com wiredenterprise 2012 08 googles mind 19 blowing big data tool grows open source 21 ao t Google s Mind Blowing Big Data Tool Grows octobre twin utm_source Contextly amp utm_medium RelatedLinks amp utm_cam Cade Metz Wired 2012 Open Source Twin 2012 paign Previous 19 Dj Walker Morgan h 21 ao t octobre http Awww h online com open news item Apache to Drill for big online 2012 Apache to Drill for big data in Hadoop 2012 data in Hadoop 1671686 html 19 9 ao t Apache Drill Interactive Analysis of Large octobre http wiki apache org incubator DrillProposal action AttachFile amp do Tomer Shiran 2012 Scale Datasets 2012 view amp target Drill slides pdf 19 Apache Software 9 ao t octobre Foundation 2012 Apache Incubator Wiki Drill Proposal 2012 http wiki apache org incubator DrillProposal 19 octobre Wik
26. c Date Sub Type Doctor StartDate Length bes 1 1 Test d Group Test Test Result 1 Catalog Date Ge 1 Type Diagnostic Value Date Diagnostic Test Specimen x 1 Specimen Catalog Specimen Specimen Type FIGURE 1 Mod le du domaine 1 3 D finitions acronymes et abr viations BD DB Base de donn es banque de donn es database Diagnostic Associe le s jour d un patient un code de diagnostic Diagnostic Catalog D cris un diagnostic ex diab te TS cole de Technologie Sup rieure Confidentiel EndoMine Vision pdf Page 5 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 GELOG Software Engineering Research Laboratory Group Test Catalog D cris le type g n ral d un test ex Testost rone JGH HGJ Jewish General Hospital H pital g n ral juif Patient Personne ayant un dossier ou fiche l h pital JGH Patient Stay S jour d un patient l h pital associ une clinique en particulier ex endocrinologie Specimen Catalog D cris la m thode du test ex urine sang etc SQL Structured Query Language Test D cris le test effectuer sur un patient Contient des informations sur les unit s du r sultat de test ex g mL Test Catalog D cris le type sp cifique d un test ex Testost rone B Testost rone C Test Order
27. dans l environ nement du JGH Le Production Environment repr sente l environnement o les donn es sont collect es et la BD Oracle de production est popul e par le logiciel SoftLab La Staging DB est une copie miroir de la BD de production dont les informations confi dentielles ont t anonymis es Seul le d partement de biochimie a acc s au Staging Environment Les utilisateurs effectueront le forage de donn es sur le syst me EndoMine et pourront par la suite importer leur r sultats dans des logiciels de statistiques et de graphiques 4 2 S curit et Confidentialit Cette section d crit les diff rentes mesures prendre pour prot ger la confidentialit des donn es L acc s au syst me EndoMine serait restreint selon les protocoles de s curit du JGH Les informations confidentielles noms des patients num ro de RAMQ num ro d h pital etc seront absentes du syst me EndoMine EndoMine contiendra la clef anonymis e des patients mais la correspondance entre la clef anonymis e et la fiche d h pital du patient ne sera pas accessible par le syst me EndoMine 4 3 Principaux avantages TABLE 6 Avantages EndoMine B n fices pour le client N1 Confidentialit et s curit des donn es Voir la section 4 4 Hypoth ses et d pendances pour plus d informations HYPO01 HYP03 HYP04 FEAO5 FEA10 VCO1 VC02 VCO3 N2 Forage de donn es n i
28. document de vision d crivant les diff rents intervenants et leurs besoins est essentielle Le document de vision complet avait t ajout l annexe D Les besoins des clients pouvant tre divis en 3 projets avec une architecture diff rente nous avons d cid de se concentrer sur le projet r pondant au Dr Eintrachtt Ce dernier voudrais pouvoir faire de recherches rapidement sur la base de donn e avec un g n rateur de requ tes de type Ms Access Voici un exemple Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 18 EE 0 ETS logiciel et des TI EndoMine Rapport d tape 6 38 Si ArchSummary_Query NEW Select Query ArchSummary QuerySOs _ORDER_TO_WO _JOB_HEADER V_SALESPEOPLE d SALESPERSON_CODE SALESPERSON PE SEH ES ORDER LINE 308 JSUFFIX 106 DUE DATE Dt QTY COMPLETED y RTO WO V_ORDER TO WO JV ORDER TO WO Jop HEADER v JOB HEADER Saat reg een ees eee _ IS CS ER CES E SEET CS EE SE ET Se LE Figure 1 G n rateur de requ tes MS Access Le nombre de tables dans la base de donn es est norme Comme nous ne faisons qu un prototype importer toutes les tables avec toutes les relations d passe le scope de ce projet Nous avons donc extrait et format les tables que le Dr Einthracht allait utiliser Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION
29. e D partement de g nie LOG 792 n eee me ETS logiciel et des TI EndoMine Rapport d tape 7 38 1 ab gi clinic_id patent aa id requesting_doctor_i A receiving_doc1 5_id 1 aa_id receiving doc1 5_ id ordering_clinic_id order aa_id en_type order aa_id 4 group est di specimen_type test_id D reflex_test_id 1 fid 1 ordef_aa_id 1 id d ibesb Figure 2 Relations entre les tables principales Les tables commen ant par v_p contiennent les donn es particuli res alors que les v_p servent d crire l information dans les tables v_p Par exemple vs lab _ test contient le nom du test et les caract ristiques propres servant classifier un test par rapport aux autres V_p_lab_test_ result contient des donn es comme les dates des tests r alis s ainsi que les valeurs reli es aux tests Voici la description des tables e V_p_lab_ patient est une table vide Une cl anonymis e est utilis e pour rendre chaque patient unique e V_p_lab_ stay contient les s jours de patients dans l h pital e V_p_lab_ order contient la commande de tests effectu s durant un s jour particulier e V_p_ lab test result contient les r sultats des tests Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 HE eee 0 ETS logiciel et des TI EndoMine Rapport d tape 8 38
30. e des donn es de SoftLab tout en conservant une fa ciilit d utilisation comme MS Access 2 2 Positionnement du produit Pour les chercheurs et gestionnaires des d partements d endocrinologie et diagnos tique m dicale de l hopital g n ral Juif qui veulent une solution efficace pour faire des recherches dans leur banque de donn es EndoMine est une solution de forage de donn es qui est efficace rapide et permet une mise l chelle scaling faible co t Contrairement une base donn es relationnelle traditionnelle on reuse surcharg e et lente notre produit est facile utiliser sauve du temps pr cieux dans la r alisation de recherches grande chelle tout en conservant un faible co t de possession TCO Confidentiel EndoMine_ _ Vision pdf Page 7 20 0 9 1 11 octobre 2012 Version Date Projet Document EndoMine 2012 076 Vision 3 Descriptions des intervenants et des utilisateurs 3 1 R sum des intervenants stakeholders TABLE 3 R sum des intervenants stakeholders Nom STK1 Dr Elizabeth Mac Responsabilit s Pilote sponsor states long term requi Description Chief Medical Biochemis Namara try JGH rements STK2 Dr Shaun Eintracht Medical Biochemist Pilote will operate and use the resul Dept of Diagnostic ting data mining system Medecine JGH Chief Endocrinology and Metabolism JGH Chief Clinical Epidemi
31. echercher La m moire de L architecture d En de donn es toutes les donn es MS Access li doMine n as pas cette sans limite de disponibles mite la taille des restriction taille recherches 1 3 5 Alternatives et Comp tition A notre connaissance il n existe pas de solution cl en main pour faire directement du forage de donn es sur la structure de la base de donn es actuelle Une impl mentation sp cifique aux besoins du JGH est donc n cessaire Confidentiel EndoMine_ _ Vision pdf Page 9 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 Production Environment test labs Staging Environment Dep of Biochemistry Middlewares amp Dr Eintracht SoftLab Unrestricted Results i gt Lab Equipments EndoMine Backend Data Mining Environment EndoMine A Statistical Graphing Softwares Softwares Restricted Environ gt Anonymized Results Workstation Workstation Workstation FIGURE 2 Perspective du produit Confidentiel EndoMine_ _ Vision pdf Page 10 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 4 Vue d ensemble du produit 4 1 Perspective du produit La figure 2 situe EndoMine en perspective avec les autres produits mis en place
32. ent de g nie LOG 792 10 E 0 EFS logiciel et des TI EndoMine Rapport d tape 21 38 ANNEXE B REFERENCES Date Date de de consul Auteur l article Titre de l article tation URL 8 octobre http www oracle com technetwork java javasebusiness downloads Oracle Java SE 6 Downloads 2012 ava archive downloads javase6 41 9409 html 8 4 mai octobre Charles Toepfer 2012 Install Oracle Java JDK 7 in Ubuntu Mint 12 2012 http www iokom com drupal node 9 8 https ccp cloudera com display CDH4DOC Before You Install CD octobre H4 on a Single Node BeforeYoulnstallC DH4onaSingleNode Cloudera Before You Install CDH4 on a Single Node 2012 SupportedOperatingSystemsforCDH4 8 octobre http archive cloudera com cdh4 cdh 4 hadoop hadoop project Cloudera Deprecated Properties 2012 dist hadoop common DeprecatedProperties html 8 https ccp cloudera com display DOC CDH Version and Packagin octobre g Information CDHVersionandPackaginginformation Cloudera CDH Version and Packaging Information 2012 CDHVersion4 1 0Packaging 8 octobre Cloudera CDH4 Installation 2012 https ccp cloudera com display CDH4DOC CDH4 Installation 8 Installing CDH4 on a Single Linux Node in octobre https ccp cloudera com display CDH4DOC Installing CDH4 on a Cloudera Pseudo distributed Mode 2012 Single Linux Node in Pseudo distributed Mode 8 octobre https ccp cloudera com display CDH4DOC HBase Installation HB Cloudera HBase Installation 2012 aselnstallation Instal
33. fication 3 sus EE EE oe EE He mn 14 7 Gammes de qualit 14 8 Attributs des caract ristiques 14 9 Autres exigences du produit 15 9 1 Exigences du syst me 15 9 2 Exigences de performance 16 10 Exigences de documentation 16 10 1 Manu el d l utilisateur socca a Suk ae AE ee ee UE ne en bn rente 16 10 2 Guides d installation de configuration et fichier lire 16 11 Bibliographie 17 Liste des tableaux 1 Historique des R visions 4 3 R sum des intervenants stakeholders 8 4 R sum des utilisateurs 8 5 Besoins 24 E golive A Ae ae Re ae ig RE AR M a e 9 6 Avantages EndoMine pu des dua es ee eo ee wh ev Eee 11 7 Attributs des caract ristiques 2 ooo e a a 15 8 L gende tat des caract ristiques 42222 Judas Oe A oe ae ard BAe e ews 19 9 L gende B n fice des caract ristiques 19 10 L gende Effort des caract ristiques 19 11 L gende Risque des caract ristiques 20 12 L gende Stabilit des caract ristiques 20 14 L gende Priorit des caract ristiques 20 Table des figures 1 Mod le du domaine s x ses Nu ges de late be edo Se AN AT ew es 5 2 P rsp ctive du broduit risio ea
34. hypertable hypertable_vs_hbase_2 10 16 octobre grokbase HBase user Hbase internally row octobre http grokbase com t hbase user 1 0ab7vvfzy hbase internally row William Kang 2010 location mechanism 2012 location mechanism 27 16 janvier octobre Lars Hofhansl 2012 Scanning in HBase 2012 http nadoop hbase blogspot ca 2012 01 scanning in hbase html 4 16 f vrier octobre Quora 2011 How are bloom filters used in HBase 2012 http www quora com How are bloom filters used in HBase 16 Culvert A Robust Framework for Secondary octobre Culvert 2012 Indexing 2012 https github com booz allen hamilton culvert 16 Apache Software HBase API Docs Package octobre http nbase apache org apidocs org apache hadoop hbase coproces Foundation org apache hadoop hbase coprocessor 2012 sor package summary html 7 16 http hadoop hbase blogspot ca 2012 10 musings on secondary Lars Hofhansl Octobr Musings on Secondary Indexes octobre indexes html Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 E 0 ETS logiciel et des TI EndoMine Rapport d tape 25 38 Date Date de de consul Auteur l article Titre de l article tation URL e 2012 2012 16 2 Juin octobre http stackoverflow com questions 375194 how to design hbase Yonatan 2011 how to design Hbase schema 2012 schema 16 Installing the Sqo
35. iant les tests avec les diagnostics Confidentiel EndoMine_ _ Vision pdf Page 6 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 2 1 2 Probl me 2 Le probl me de Cela affecte forer des donn es grande chelle temporelle donn es chelonn es sur plusieurs ann es prend trop de temps et ralentis le syst me pour tous les utilisateurs les chercheurs et les utilisateurs d quipements m dicaux dans les laboratoires de biochimie dont l impact est Une bonne solution serait 2 1 3 Probl me 3 Le probl me de que les chercheurs doivent soit a limiter la quantit de donn es re cherch es ou b attendre que les r sultats d une recherche compl te soient disponibles un syst me de forage de donn es rapide dont le traitement d une re cherche intensive soit quasi transparente pour les autres utilisateurs non concern s De plus la solution devrait s adapter facilement une quantit de donn es et un nombre d utilisateurs grandissants la limite de 1GB de r sultats de MS Access ne permet pas de re chercher l ensemble des donn es disponible r f rence 1 Cela affecte dont l impact est les chercheurs utilisant MS Access l obligation de limiter la quantit de donn es trait es lors d une m me recherche Une bonne solution serait un syst me de forage de donn es permettant de faire des recherches sur l ensembl
36. inclusion dans le produit a peu d impact sur la satisfaction du client et sur l utilisation du syst me Important La caract ristique apporte des fonctionnalit s suppl mentaires au syst me Son inclusion dans le produit peut influencer la satisfaction du client mais son absence n emp che pas l utilisation du syst me Critique La caract ristique est primordiale au fonctionnement du syst me Il est n ces saire de l inclure en priorit dans le produit pour assurer la totale satisfaction du client et son absence pourrait emp cher l utilisation du syst me Confidentiel EndoMine_ _ Vision pdf Page 20 20
37. ing data mining DL AZ 12 3 29 11 2012 05 12 2012 2 Manuel d utilisation Manuel AZ Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 Mae a 0 ETS logiciel et des TI EndoMine Rapport d tape 20 38 d utilisation 06 12 2012 14 12 2012 Phase de Transition It ration T1 13 1 06 12 2012 06 12 2012 1 5 Rencontre au JGH avec le client DL AZ Sp cifications de 13 2 03 12 2012 14 12 2012 4 Documentation sur la continuation du projet prochaine version DL AZ 13 3 06 12 2012 10 12 2012 2 Pr sentation oral David Lauzon DL 13 4 06 12 2012 10 12 2012 2 Pr sentation oral Anton Zakharov AZ Rapport final 13 5 06 12 2012 12 12 2012 4 Rapport final d quipe d quipe DL AZ 13 6 06 12 2012 12 12 2012 5 Rapport final individuel David Lauzon Rapport final DL DL 13 7 06 12 2012 12 12 2012 5 Rapport final individuel Anton Zakharov Rapport final AZ AZ 13 09 2012 14 12 2012 JALON 1 Prototype de data mining En heures En heures Efforts r els Total d heures David 207 5 Total d heures Anton 185 Grand total 392 5 Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION z D partem
38. ipedia Pentaho 2012 http en wikipedia org wiki Pentaho 19 octobre http www pentaho com resources videos 67 pentaho mapreduce a Pentaho Video Pentaho Presentation MapReduce 2012 major league baseball use case 19 Pentaho Community Edition CE octobre Pentaho Community Wiki Home 2012 http wiki pentaho com display COM Community Wiki Home 19 Pentaho Community Edition CE Latest octobre Pentaho Stable Builds 2012 http wiki pentaho com display COM Latest Stable Builds Sergey Melnik Andrey Gubarev Jing Jing Long Geoffrey Romer Shiva Shivakumar Matt 19 Tolton Theo Vassilakis Dremel Interactive Analysis of WebScale octobre http static googleusercontent com external_content untrusted_dlcp Google Inc 2010 Datasets 2012 research google com en pubs archive 36632 pdf Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION e D partement de g nie LOG 792 1 ee 0 ETS logiciel et des TI EndoMine Rapport d tape 27 38 Date Date de de consul Auteur l article Titre de l article tation URL 19 24 mai Install Pentaho BI Server 4 5 on Ubuntu 12 04 octobre http akbarahmed com 201 2 05 24 install pentaho bi server 4 5 on Akbar Ahmed 2012 LTS Desktop 2012 ubuntu 12 04 lts desktop 19 29 mai octobre http akbarahmed com 201 2 05 29 install kettle 4 3 0 on ubuntu 1 2 Akbar Ahmed 2012 Install Kettle 4 3
39. jdbc mysal localhost endomine_access username root P table vp_lab_order split by AA ID hbase table vp_lab_order column family d hbase row key ID hbase create table list get vp_lab_order H3010002 get vp_lab_order H3010002 d AA_ID disable vp_lab_order drop vp lab order Auteurs David Lauzon et Anton Zakharov e D partement de g nie EFS logiciel et des TI COURS DOCUMENT NO DATE VERSION LOG 792 1 0 2012 09 24 1 0 TITRE PAGE PAGES EndoMine Rapport d tape 38 38 ANNEXE D DOCUMENT DE VISION attach a la page suivante Auteurs David Lauzon et Anton Zakharov ENDOMINE PROJET DE DEVELOPPEMENT D OUTILS DE FORAGE DE DONNEES DE RESULTATS DE TESTS PATIENTS ENDOCRINOLOGIE METABOLISME ET EPIDEMIOLOGIE CLINIQUE Projet 2012 076 Version 0 9 1 Date d mission 4 octobre 2012 Date de r vision 11 octobre 2012 Vision Pr sent Auteurs SE 9 Universit du Qu bec D I Ecole de technologie sup rieure NS Jewish General Hospital David Lauzon Anton Zakharov D partement d endocrinologie Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 Table des mati res 1 Introduction Let GE EE L2 erte Boegen re e an de dE Ee de 1 3 D finitions acronymes et abr viations WA Reference arei actos e DR ME A CSA AE Ae Ae ete un 1 5 Langue de r daction
40. l Voici le lien du papier de google sur lequel il est bas http static googleusercontent com external content untrusted dicp research google com en pu bs archive 38125 pdf Le projet est encore en stage beta Pour cette raison nous allons viter de l utiliser part si on n a compl tement pas le choix Pentaho Pentaho est un outil open source pouvant int gr s divers sources de donn es ainsi que de faire des solutions de BI Business Intelligence Nous avons essay les fonctions d int gration est ils marchent plut t bien Nous n avons pas encore eu le temps de tester les solutions BI car nous ne savons pas si le probl me de Dr Eintracht peut tre r sum ces derniers Le GUI pour les solutions BI n est pas gratuit dans les majeures parties des cas 4 1 2 3 Technologies Propri taires Datameer A la conf rence de Hadoop World on a eu une d monstration d un d veloppeur de DataMeer Le logiciel prend une approche de chiffrier et permet de faire des jointures ainsi que des pr visualisations rapides sur des sous ensembles de donn es Hadoop roule en back end e La version Personal 300 an 1 node devrait suffire pour le prototype e La version Enterprise permet d utiliser un cluster Hadoop approx 9000 an Vertica Greenplum Teradata Des bases de donn es avec stockage par colonne Toutes ces base de donn es sont ch res mais peuvent r pondre au besoin de Mise l chelle
41. l EndoMine_ _ Vision pdf Page 19 20 Projet Document EndoMine 2012 076 Version 0 9 1 Vision Date 11 octobre 2012 TABLE 11 L gende Risque des caract ristiques Faible La technologie utilis e et la m thode d impl mentation sont connues et bien maitris es Moyen La technologie utilis e est r cente ou la m thode d impl mentation n cessite une attention particuli re Elev La technologie utilis e est nouvelle et peu prouv e ou la m thode d impl mentation est complexe et demande une analyse plus compl te TABLE 12 L gende Stabilit des caract ristiques Faible Les exigences concernant la caract ristique ont de fortes chances de changer ou le bon fonctionnement de la caract ristique a un impact critique sur le fonctionnement g n ral du syst me et peut compromettre son ex cution Moyen Les exigences concernant la caract ristique sont susceptibles de changer ou le bon fonctionnement de la caract ristique a un impact sur le fonctionnement g n ral du syst me sans toutefois compromettre son ex cution Elev Les exigences concernant la caract ristique ont peu de chance de changer et le bon fonctionnement de la caract ristique n a pas d impact sur le fonction nement g n ral du syst me TABLE 14 L gende Priorit des caract ristiques Utile La caract ristique apporte des fonctionnalit s accessoires au syst me Son
42. lingHBase 8 octobre https ccp cloudera com display CDH4DOC ZooKeeper Installation Cloudera ZooKeeper Installation 2012 ZooKeeperlnstallation InstallingtheZooKeeperServerPackage 19 8 Apache Sofware f vrier HDFS File System Shell Guide hadoop octobre Foundation 2010 0 20 2 2012 http hadoop apache org docs r0 20 2 hdfs_shell html Apache Sofware 8 Foundation Apache HBase Book octobre http archive cloudera com cdh4 cdh 4 hbase book htm Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 ee 0 ETS logiciel et des TI EndoMine Rapport d tape 22 38 Date Date de de consul Auteur l article Titre de l article tation URL 2012 12 septem 8 bre HBase Error assignment of ROOT failure octobre Nathan 2011 Cant connect to web interface 2012 http blog nemccarthy me p 1 10 28 8 janvier Quick install HBase in pseudo distributed octobre http ria101 wordpress com 2010 01 28 setup hbase in pseudo Dominic Williams 2010 mode and connect from Java 2012 distributed mode and connect java client 9 9 avril HBaseWD Avoid RegionServer Hotspotting octobre http blog sematext com 2012 04 09 hbasewd avoid regionserver Alex Baranau 2012 Despite Sequential Keys 2012 hotspotting despite writing records with sequential keys novem 9 bre Hadoop World 2011 Advanced HBase octobre ht
43. mbitieuse les prochaines quipes qui travailleront sur le projet Le projet sera r alis en plusieurs courtes it rations afin de pouvoir obtenir r guli rement de la r troaction de la part du client Le prototype r alis de r pondra qu un seul besoin du client ce qui fournira une preuve de concept et offrira un minimum de fonctionnalit s au client Nous avons diminu le scope afin de r pondre au besoin du Dr Eintracht i seulement R2 La confidentialit Elev Faible Afin de r duire le risque que les donn es des donn es soit confidentielles sur les patients soient compromise divulgu s les informations personnelles sur les patients seront omises du syst me Hadoop Seul le Dr Shaun aura acc s aux donn es confidentielles R3 Les technologies Moyen Faible Lire la documentation et faire des utilis es sont mal exercices De plus nous consid rons la connues possibilit d assister la conf rence Hadoop World en Octobre ce qui inclue une activit de formation Nous avons une bonne id e des limitations des technologies R4 L cosyst me Moyen Moyen Nous allons commencer s informer sur Hadoop ne r pond Hadoop le plus t t possible De plus pas aux besoins du nous allons collaborer troitement avec le client client pour nous assurer qu il comprend la solution et qu il re oit la formation n cessaire Nous nous somment inform s Les besoins du Dr Shawn ne pourrons pas tre r solus en
44. nterf rant pas avec la collection de donn es HYP02 FEAO5 FEA06 VC05 N3 Outil simple pour cr er des requ tes FEA07 FEAO08 FEA09 FEA11 FEA12 VC04 N4 Mise a l chelle facile du syst me FEAO1 FEA02 FEA03 FEA04 VCO4 N5 Forage de donn es sans limite de m moire FEA02 FEA03 FEA11 Confidentiel EndoMine_ _ Vision pdf Page 11 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 4 4 Hypoth ses et d pendances HYP0O1 BD de staging La BD de staging sera fournie par le JGH et sera d ja anonymis e voir la section 4 2 HYP02 Synchronisation La BD de staging sera synchronis e automatiquement une fois par jour ou toute autre fr quence jug e acceptable par le client HYP03 Anonymisation Les scripts pour anonymiser d sanonymiser seront mis a la disposition du Dr Eintracht par le JGH HYP04 Prototype Lors du prototype seul le Dr Eintracht aura acc s au syst me EndoMine install au JGH HYP05 Conception d veloppement et test Les ressources de VETS doivent avoir acc s aux donn es anonymis es et au syst me pilote pour les besoins de conception d veloppement et test 4 5 Licences et installation 1 EndoMine sera impl ment avec logiciels libres ayant prouv leur efficacit sur des sites tels que Facebook Amazon et Yahoo Donc aucune license a acheter 2 Le code d velopp pour le logiciel EndoMine se
45. o STK3 Dr Mark Trifiro Client sponsor states long term requi rements STK4 Dr Sami Suissa Client sponsor states long term requi logy JGH rements STK5 Dr Alain April Directeur du GELOG Provide Information Technology solu ETS tions and guide ETS students STK6 Chris Polykandriotis IT Specialist JGH Help with IT issues 3 2 R sum des utilisateurs TABLE 4 R sum des utilisateurs Intervenant Responsabilit s Description USRI Utilisateur ayant acc s la Faire d herch STK1 Dr Mac Na Utilisateur base de donn es de production SE E EE mara STK2 Dr privil gi Oracle et au syst me Endo SE Eintracht Gs se Produire des rapports Mine Il s agit des utilisateurs Rat de recherche du d partement de biochimie du SE G rer l utilisation de JGH a ressources m dicales USR2 Utilisateur externe au d parte Faire d herch STK3 Dr Trifiro Utilisateur ment de biochimie ayant ac E te ere EE Dr Suissa S sp cifiques restreint c s seulement au syst me Endo Mine donc ils n ont pas acc s aux informations confidentielles des patients Il s agit des utili sateurs des autres d partements du JGH Confidentiel EndoMine Vision pdf Page 8 20 0 9 1 11 octobre 2012 Version Date Projet Document EndoMine 2012 076 Vision 3 3 Environnement utilisateur Poste de travail ayant
46. o t La r alisation et l installation du prototype doit tre de faible co t VCO5 Modification La base de donn es de production ne doit pas tre modifi e par EndoMine 7 Gammes de qualit Le forage de donn es doit tre au minimum deux fois plus rapide que le syst me actuel 8 Attributs des caract ristiques Le tableau suivant permet Confidentiel EndoMine Vision pdf Page 14 20 Projet EndoMine 2012 076 Document Vision Version Date 0 9 1 11 octobre 2012 Au client de prendre connaissance des efforts et risques associ s au projet Aux d veloppeurs de jauger les b n fices et priorit que le client associe chaque caract ris tique Et d identifier les caract ristiques les plus susceptibles de changer dans le futur La l gende des valeurs possibles pour chacune des colonnes est pr sent 110 2 TABLE 7 Attributs des caract ristiques Caract ristiques Etat B n fice Effort Risque Stabilit Priorit FEAO1 Configuration minimale pour Propos Moyen Moyen Moyen Elev Important ajouter d autres machines FEA02 Code supportant le parall lisme Propos Moyen Faible Faible Elev Important FEAO3 Distribution automatique des Propos Moyen Faible Faible Elev Important donn es pour supporter parallelisme FEA04 Supporter plusieurs requ tes en Propos Elev Faible Faible Elev
47. op HDFS Hbase Hive etc Sch ma architectural D crit les vues architecturales du syst me de data mining Rapport d tape Rapport interm diaire pour le PFE Exigences syst mes Exigences d taill es du syst me S R S Sc narios detest D crit les diff rents cas et sc narios de test pour confirmer la validit du Cas de test syst me pour le client Prototype de data mining Prototype fonctionnel utilisable par le client Sp cifications de prochaine version Sp cifications pour les personnes d sirant poursuivre le projet avec le client Rapport final d quipe Rapport final d quipe a remettre la fin du projet Rapport final DL Rapport final de David Lauzon remettre la fin du projet Rapport final AZ Rapport final d Anton Zakharov remettre la fin du projet 5 2 Voir Annexe A 6 RISQUES Planification Les changements par rapport la proposition de projet sont en gras Risque Impact Probabilit Mitigation att nuation Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION 2 5 se LOG 792 1 0 2012 09 24 1 0 ETS et a genie TITRE PAGE PAGES EndoMine Rapport d tape 14 38 R1 La port e Faible Moyen L emphase du projet sera sur la scope du projet documentation pr cise ce qui facilitera est tres a
48. op RPM or Debian octobre https ccp cloudera com display CDH4DOC Sqoop Installation Sqo Cloudera Packages 2012 opinstallation installRPM 16 Scoop User Guide 7 2 11 Importing Data octobre http archive cloudera com cdh4 cdh 4 sqoop SqoopUserGuide html Cloudera Into HBase 2012 _importing data _ into hbase Apache Software Foundation Sqoop Developer s Guide v1 4 1 cdh4 1 0 http archive cloudera com cdh4 cdh 4 sqoop SqoopDevGuide html 16 2 mars octobre JJ Singh 2012 Sqoop installation tutorial 2012 http jugnu life blogspot ca 2012 03 sqoop installation tutorial htm 4 octobre Google Groups Cloudera Forum Unable to https groups google com a cloudera org forum fromgroups topic Becky Benton 2011 load com mysal jdbc Driver sqoop user pwdahVfAAAc 16 octobre Oracle MySQL Download Connector J 2012 http www mysql com downloads connector j 16 Apache Sofware HBase Book 16 1 Using existing ZooKeeper octobre Foundation ensemble 2012 http hbase apache org book zookeeper html 16 http mail archives apache org mod_mbox hbase 13 avril Hbase user mailing list Zookeeper available octobre user 201204 mbox 3CCAPcDmSviyQXUG8u5dPmarjakFddndyCb N Keywal 2012 but no active master location found 2012 m6Pcgd8T6AR aErw3g mail gmail com 3E 19 18 juin Cloudera Developer Center HBase Write octobre Jimmy Xiang Cloudera 2012 Path 2012 http www cloudera com blog 201 2 06 hbase write path 16 19 juillet Configuring HBase Memstore Wh
49. op donn es DL AZ Sch ma 6 4 18 10 2012 21 10 2012 10 Concevoir une architecture pour le data mining architectural DL AZ 6 5 18 10 2012 21 10 2012 5 Design des interface graphiques recherche r sultats etc AZ Recherche sur le forage de donn es a grande chelle part 6 6 18 10 2012 21 10 2012 5 4 DL 22 10 2012 07 11 2012 Phase d laboration It ration E2 7 1 22 10 2012 22 10 2012 1 5 Rencontre au JGH avec le client DL AZ 7 2 22 10 2012 22 10 2012 1 Rencontre professeur superviseur DL AZ 7 3 23 10 2012 25 10 2012 18 Formation Conf rence Hadoop World DL AZ 7 4 27 09 2012 29 10 2012 3 R valuation des objectifs du projet Rapport d tape DL AZ Exigences 7 5 15 10 2012 31 10 2012 5 D finition des exigences du client syst mes S R S AZ Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 E 0 TS logiciel et des TI EndoMine Rapport d tape 19 38 8 1 01 11 2012 01 11 2012 1 5 Rencontre au JGH avec le client DL AZ Sc narios de test 8 2 01 11 2012 09 11 2012 5 laboration des sc narios de test cas de tests Cas de test DL AZ Extraction Conversion des donn es de BD production vers 8 3 01
50. pal collecte les r sultats de tous les sous problemes et les combine dans un r sultat Ce r sultat est une r ponse au probl me pos initialement http en wikipedia org wiki MapReduce Hive Hive est une infrastructure de data warehouse construite en top de Hadoop Hive permet de faire de l analyse des r sum s et des requ tes dans Hadoop http en wikipedia org wiki Apache_ Hive avec un langage ressemblant de beaucoup SQL Ceci fait en sorte que c est une solution tr s simple impl menter Le probleme avec Hive est qu il est qu il utilise les fonctions MapReduce qui sont tr s lentes a starter aux alentour de 20 secs selon nos test De plus les jointures qui peuvent tre faites sont limit es De plus si jamais la structure des donn es de base change les donn es devraient tre r import es d oracle Hive ne supporte pas facilement les op rations d update ou d effacement des donn es Hbase HBase est une infrastructure par dessus Hadoop mais qui n utilise pas MapReduce HBase store les tables par colonnes alors que traditionnellement ils sont stock es par rang es ce qui luis permet de r duire grandement le temps de recherche car on ne lits que les informations des colonnes dont on a besoin HBase supporte les updates et les suppressions naturellement avec son syst me de Versionnement Par contre il n y a aucun moyen simple et efficace de faire des jointures avec HBase
51. par les parties prenantes et explique pourquoi ces besoins existent Les documents de cas d utilisations UC et les sp cifications des exigences logicielles SRS d taillent comment EndoMine satisfait ces besoins 1 2 Port e Ce document de vision porte sur le d veloppement et l int gration du syst me de forage de donn es EndoMine L outil permettrait aux chercheurs du JGH de r aliser du forage de donn es grande chelle sur la banque de donn es de tests biom dicaux Les requ tes pourraient tre faites partir d une interface utilisateur tout en respectant les r gles de s curit et de confidentialit de l h pital La figure 1 pr sente les relations entre les principaux concepts dans le domaine du client Une toile signifie plusieurs Par exemple la relation entre Test Order et Test se lit comme suis 1 commande de tests peut comporter plusieurs tests et la relation entre Test et Test Result se lit un m me test n a qu un seul r sultat Les diagnostics en jaune et son lien avec le s jour n existe pas encore dans le contexte du d partement de biochimie m dicale mais il est attendu qu ils seront ajout s en cours de projet Se r f rer a la section 1 3 D finitions acronymes et abbr viations pour Vexplication de ces concepts et autres terminologie mentionn dans ce document Patient 1 Patient Stay Test Order 1 Test Catalog Billing Number 1 Clini
52. r var lib hadoop hdfs cache mapred mapred staging sudo u hdfs hadoop fs chmod 1777 var lib nadoop hdfs cache mapred mapred staging sudo u hdfs hadoop fs chown R mapred var lib nadoop hdfs cache mapred sudo u hdfs hadoop fs ls R Start Map Reduce services sudo service hadoop 0 20 mapreduce jobtracker start Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 eee mE ETS logiciel et des TI EndoMine Rapport d tape 32 38 sudo service hadoop 0 20 mapreduce tasktracker start Create a directory structure in HDFS for current user to run mapreduce jobs sudo u hdfs hadoop fs mkdir user david sudo u hdfs hadoop fs chown david user david sudo u hdfs hadoop fs ls R Grep all config that starts with dfs from the hadoop config hadoop fs mkdir input hadoop fs put etc nadoop conf xml input hadoop fs Je input hadoop jar usr lib nadoop 0 20 mapreduce hadoop examples jar grep input output dfs a z hadoop fs ls hadoop fs Je output hadoop fs cat output part 00000 head sudo apt get install hbase dpkg L hbase Increase maximum number of open files for hdfs hbase user sudo vi etc security limits conf hdfs nofile 32768 hbase nofile 32768 sudo vi etc pam d common session session required pam_limits so Increase maximum number of files that can be served by a DataNode sudo cp etc hadoop conf hdfs site xml etc
53. r SQL query strings 2012 http hiddentao github com squel 28 octobre http wiki servoy com display public DOCS Query builder jsessionid Servoy Servoy Query Builder 2012 7D0E08E4433B09432DC71E4F5584DE72 Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION S D partement de g nie LOG 792 ee 0 EFS logiciel et des TI EndoMine Rapport d tape 30 38 ANNEXE C INSTALLATION DE HADOOP ET HBASE DANS LINUX cd Downloads chmod a x jdk 6u34 linux x64 bin sudo jdk 6u34 linux x64 bin sudo mv jdk1 6 0 34 usr lib jvm Is I usr lib jvm sudo In s usr lib jvm jdk1 6 0_ 34 usr lib jvm java 6 oracle sudo update alternatives install usr bin java java usr lib jvm java 6 oracle jre bin java 2 sudo update alternatives install usr bin javac javac usr lib jvm java 6 oracle bin javac 1 sudo update alternatives install usr bin javaws javaws usr lib jvm java 6 oracle bin javaws 1 sudo update alternatives config java sudo update alternatives install usr lib mozilla plugins mozilla javaplugin so mozilla javaplugin so usr lib jvm java 6 oracle jre lib amd64 libnpjp2 so 1 sudo mkdir p opt google chrome plugins sudo update alternatives install opt google chrome plugins chrome javaplugin so chrome javaplugin so usr lib jvm java 6 oracle jre lib amd64 libnpjp2 so 1 sudo update alternatives config chrome javaplugin so sudo update alternatives config mozilla javaplugin so s
54. ra la propri t commune du JGH de DEITZ et des d veloppeurs ayant travaill sur EndoMine Les propri taires du logiciel pourront installer une copie du logiciel sur d autres serveurs et y effectuer des modifications 3 Les donn es provenant de la base de donn es de production Oracle ainsi que les r sultats de recherches r alis s avec EndoMine sont la propri t exclusive du JGH 4 Le syst me EndoMine sera install sur le serveur du JGH par les d veloppeurs de ETS 5 Aucune installation requise sur les postes de travails des chercheurs 5 Caract ristiques features du produit FEAO1 Configuration minimale pour ajouter d autres machines L objectif est de monter le syst me de telle fa on que le co t de configuration stabilit avec l ajout d une nouvelle machine parall le soit minimal FEAO2 Code supportant le parall lisme Confidentiel EndoMine Vision pdf Page 12 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 En lien avec FEAO1 le forage de donn es devrait pouvoir exploiter le parall lisme du sys t me de machines distribu s FEAO03 Distribution automatique des donn es pour supporter parallelisme Une fois une nouvelle machine install e le syst me devrait balancer automatiquement le plus possible la charge de traitement sur la nouvelle machine FEA04 Supporter plusieurs requ tes en parall les Plusieurs requ tes d un m me ou plusieu
55. rs utilisateur s devraient pouvoir tre ex cut s en parall le FEAO5 Environnement de forage de donn es distinct des sources de donn es en pro duction L utilisation du syst me d veloppe ne devrait avoir aucun impact sur le contenu ou le fonc tionnement des sources de donn es en production FEA06 Synchronisation des donn es automatique entre les sources de donn es et le syst me EndoMine EndoMine devrait pouvoir se synchroniser automatiquement avec les sources de donn es dans l environnement de staging intervalles r guli res configurables FEAO7 G n rateur de requ tes int gr Un g n rateur de requ tes permettant de faire des requ tes d une mani re interactive et simple devrait tre fournis EndoMine s inspirera de Microsoft Access Query Builder voir la Figure 3 de 110 2 FEAO8 Recherche par filtrage incr mentiel de la requ te originale Modification d une requ te en ajoutant des conditions de recherche qui ne faisait pas par tie de la requ te originale C est dire de pouvoir filtrer les r sultats d une recherche avec des nouveaux crit res sans que le syst me aille besoin de r ex cuter la requ te originale Effectuer un filtrage secondaire devrait prendre une fraction du temps de la requ te originale Par exemple si on recherche les r sultats de Glucose en 2010 on devrait pouvoir ajouter les r sultats de Glucose en 2009 et ou ajouter les r sultats de Fructose FEAO9 Expo
56. rtation des r sultats de recherche Les r sultats de recherche devraient pouvoir tre export s selon au moins 1 format d change de fichier d un logiciel d analyse statistique FEA10 Exportation des cl s anonymis es Confidentiel EndoMine_ _ Vision pdf Page 13 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 Permettre de facilement exporter seulement l ensemble unique des cl s anonymis es des pa tients pr sents dans les r sultats d une recherche FEA11 Ajout de champs suppl mentaire des r sultats de recherche A partir de r sultats de recherche il doit tre possible d ajouter des champs qui n taient pas inclus dans la s lection Par exemple on pourrait vouloir ajouter le champs sexe et Age du patient Tous les champs disponibles dans EndoMine devraient pouvoir tre ajout s de cette fa on FEA12 Trier les r sultats de recherche Pouvoir trier les r sultats de recherche selon n importe quel champ inclus dans dans la re cherche 6 Contraintes VCO1 Accessibilit Le syst me EndoMine ne doit pas tre accessible l ext rieur du r seau du JGH VCO2 Confidentialit Les utilisateurs restreints ne peuvent acc der aux informations confidentielles sur les pa tients Voir la section 4 2 S curit et Confidentialit VCO3 R gles du JGH Les r gles de s curit informatique et de confidentialit du JGH doivent tre respect es VC04 C
57. s 105967 17 hbase memstore and khan 2012 Garbage Collection 2012 garbage collection 15 5 ao t StackOverflow Where does HBase store all octobre http stackoverflow com questions 6956400 where does hbase leon 2011 the row keys 2012 store all the row keys Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 ae SE ETS logiciel et des TI EndoMine Rapport d tape 24 38 Date Date de de consul Auteur l article Titre de l article tation URL 12 15 octobre octobre http www larsgeorge com 2009 10 hbase architecture 101 Lars George 2009 HBase Architecture 101 Storage 2012 storage html 22 15 janvier StackOverflow How to Scan HBase Rows octobre http stackoverflow com questions 8961989 how to scan hbase Panks 2012 efficiently 2012 rows efficiently 15 3 ao t octobre http permalink gmane org gmane comp java hadoop hbase user 28 AlexBaranau 2012 Re How to query by rowKey infix 2012 109 15 mai octobre http www slideshare net cloudera 3 h base coprocessors hbase Lars George 2012 HBaseCon HBase Coprocessors 2012 con may 2012 16 22 mai octobre http jimbojw com wiki index php title Understanding_Hbase_and_ Jimbojw 2008 Understanding HBase and BigTable 2012 BigTable 16 HYPERTABLE VS HBASE PERFORMANCE octobre Hypertable EVALUATION II 2012 http hypertable com why_
58. s du nouveau 4 3 04 10 2012 10 10 2012 8 syst me et les prioriser DL AZ Recherche sur le forage de donn es a grande chelle part 4 4 04 10 2012 10 10 2012 5 2 DL 45 01 10 2012 12 10 2012 5 Elicitation des besoins d affaire Document de AZ Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 es 0 TS logiciel et des TI EndoMine Rapport d tape 18 38 Vision B R S 11 10 2012 21 10 2012 Phase d laboration It ration E1 5 1 11 10 2012 11 10 2012 1 5 Rencontre au JGH avec le client DL AZ 5 2 11 10 2012 17 10 2012 4 Concevoir les cas d utilisations DL AZ Identifier les exigences fonctionnelles non fonctionnelles 5 3 11 10 2012 17 10 2012 5 et contraintes de conception AZ Etablir une strat gie de miroir de la BD de production 5 4 11 10 2012 17 10 2012 5 actuelle DL Recherche sur le forage de donn es a grande chelle part 5 5 11 10 2012 17 10 2012 5 3 DL 6 1 18 10 2012 18 10 2012 1 5 Rencontre au JGH avec le client DL AZ D normaliser le sch ma relationnel et s lection des 6 2 18 10 2012 21 10 2012 5 champs importants DL AZ Structure de stockage des 6 3 18 10 2012 21 10 2012 5 D finir le sch ma des relations Hado
59. siness Activity Monitor 2012 frameworks wso2 business activity monitor 28 octobre The Eclipse Foundation New and Notable Features within BIRT 3 7 2012 http www eclipse org birt phoenix project notable3 7 php 27 septem 28 bre phpHiveAdmin Big data to Drive Make octobre xianglei 2012 easier for Hive 2012 http www phphiveadmin net 26 28 janvier StackOverflow JavaScript Boolean Search octobre http stackoverflow com questions 9022033 javascript boolean yahelc 2012 Query Builder Interface Library 2012 search query builder interface library Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 ee 0 ETS logiciel et des TI EndoMine Rapport d tape 29 38 Date Date de de consul Auteur l article Titre de l article tation URL 28 RedQueryBuilder JavaScript SQL Query octobre salk31 Builder Ul 2012 http redquerybuilder appspot com 28 octobre http www developerextensions com index php extjs grid query Developer Extensions Ext Grid Query Builder Example 2012 builder 28 23 mai Sencha octobre http www sencha com forum showthread php 208444 martinorth 2012 Ext ux window VisualSQLQueryBuilder 2012 Ext ux window VisualSQLQueryBuilder 28 octobre martinorth Visual SQL Query Builder 2012 http www cfsolutions de qb 28 Squel js Lightweight Javascript for building octobre Ramesh Nai
60. soins les plus courants de fa on plus sp cifique 7 R F RENCES CONSULT ES La liste des r f rences ayant t consult es pour la r alisation du travail la recherche de technologies existantes et l tude de faisabilit est plac e l Annexe B 8 TABLE DES MATI RES DU RAPPORT Introduction Probl matique et contexte Objectifs du projet M thodologie Sommaire des travaux r alis s et recommandations Sommaire des travaux r alis s D finition des besoins du client Exploration de diff rentes technologies Test Effectu s sur diff rentes technologies Choix technologique effectu Description de l architecture Description d installation des technologies Description du d ploiement de la solution technologie chez le client R f rence pour modifier du sch ma importation des nouvelles donn es Auteurs David Lauzon et Anton Zakharov VERSION 5 D partement de g nie FrkE ETS logiciel et des TI COURS DOCUMENT NO DATE LOG 792 1 0 2012 09 24 1 0 PAGE PAGES EndoMine Rapport d tape 16 38 Recommandations Livrables et planification Description des art facts Risques Restants R f rences consult es Bibliographie Table des mati res du rapport Annexe A Installation des technologies Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERS
61. ti rement par aucun syst me sans ajout d argent machines suppl mentaires R5 L importation des lev Faible Nous allons d velopper un bon jeu de donn es est inexacte test pour s assurer que les donn es sont bien import es Nous allons probablement skipper cette partie Auteurs David Lauzon et Anton Zakharov DOCUMENT NO DATE VERSION ETS D partement de g nie LOG 792 SE me G logiciel et des TI EndoMine Rapport d tape 15 38 R6 Le syst me lev Des discussions importantes avec le d velopp est moins client seront r alis es afin de s assurer performant que la que le syst me d velopp soit plus solution Oracle performant que le syst me existant existante Avec une seule machine c est certains Les syst mes distribu s sont faits pour marcher avec plusieurs machines Donc court terme c est in vitable R7 Les besoins du Faible Nous avons planifi des rencontres client sont mal compris hebdomadaires avec le client en plus de r aliser plusieurs documents pr cisant le projet de mani re it rative Vision SRS Cas d utilisation etc Chaque document sera pr sent au client afin de collecter une r troaction permettant d ajuster le projet aux besoins du client Les besoins sont biens compris mais ne sont pas r alisables tels quels Par contre la performance pourrait tre am lior e si Dr Shawn nous pr sente les be
62. tp www slideshare net cloudera hadoop world 201 1 advanced Lars George 2011 Schema Design 2012 hbase schema design 9 june Berlin Buzzwords June 2012 Advanced octobre http www slideshare net larsgeorge hbase advanced schema Lars George 2012 HBase Schema Design 2012 design berlin buzzwords june 2012 11 octobre http dev mysql com doc refman 5 5 en connector odbc examples Oracle Using Connector ODBC with Microsoft Access 2011 tools with access html 11 Configuring a Connector ODBC DSN on octobre http dev mysql com doc refman 5 5 en connector odbc Oracle Windows 2011 configuration dsn windows html 11 octobre Oracle MySQL Download Connector ODBC 2011 http dev mysql com downloads connector odbc 11 4 mars MySQL ODBC 32 vs 64 bit answer from octobre Justin Gr goire 2010 Justin Gr goire 2011 http stackoverflow com questions 2381906 mysql odbc 32 vs 64 bit 12 octobre Google Google Refine 2012 http code google com p google refine 12 octobre OpenTSDB Open Time Series Database 2012 http opentsdb net Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 10 et 0 ETS logiciel et des TI EndoMine Rapport d tape 23 38 Date Date de de consul Auteur l article Titre de l article tation URL 14 Ao t No Relation The Mixed Blessings of Non octobre http ianvarley com UT MR Varley_
63. udo vi etc profile d java sh bin bash export JAVA_HOME dirname dirname dirname readlink e usr bin java export JDK_HOME JAVA_HOME export JRE_HOME JAVA_HOME jre export PATH JAVA_HOME bin PATH sudo chmod x etc profile d java sh source etc profile d java sh java version sudo reboot Auteurs David Lauzon et Anton Zakharov COURS DOCUMENT NO DATE VERSION D partement de g nie LOG 792 1 eee mE ETS logiciel et des TI EndoMine Rapport d tape 31 38 CTRL ALT F1 login as root env grep JAVA_HOME Remove entries relating to 127 0 1 1 lt COMPUTER NAME gt from etc hosts Make sure etc hostname matches the value in etc hosts Default data dir var lib nadoop hdfs cache hdfs dfs data sudo u hdfs hdfs namenode format Start HDFS services sudo service hadoop hdfs namenode start sudo service hadoop hdfs secondarynamenode start sudo service hadoop hdfs datanode start Create Hadoop directory structure sudo u hdfs hadoop fs mkdir tmp sudo u hdfs hadoop fs chmod R 1777 tmp sudo u hdfs hadoop fs ls sudo u hdfs hadoop fs mkdir var sudo u hdfs hadoop fs mkdir var lib sudo u hdfs hadoop fs mkdir var lib hadoop hdfs sudo u hdfs hadoop fs mkdir var lib hadoop hdfs cache sudo u hdfs hadoop fs mkdir var lib hadoop hdfs cache mapred sudo u hdfs hadoop fs mkdir var lib nadoop hdfs cache mapred mapred sudo u hdfs hadoop fs mkdi
64. un acc s intranet au serveur d EndoMine 3 4 Principaux besoins des intervenants et utilisateurs TABLE 5 Besoins Besoin Priorit Pr occupations Solution actuelle Solution propos e N1 Confi Critique Informations confiden Mesures de s cu Voir la section 4 2 S dentialit des tielles prot g es contre rit inconnues curit et Confidentiali donn es l acc s de personnes non t autoris es N2 Forage de Critique Comme le forage est Aucune S paration distincte des donn es n in trait directement sur environnements de pro terf rant pas l environnement de duction et de forage de avec la collec collection des donn es donn es tion de don des pannes surviennent n es bloquant temporaire ment l acc s tous les utilisateurs N3 Outil Critique Courte formation pour Dr Eintracht Interface similaire MS simple pour apprendre l outil Au utilise MS Access Access Query Builder cr er des cune connaissance de Query Builder voir la Figure 3 de requ tes SQL requise 110 2 N4 Mise Important Accommoder un nombre Incapable de r Extensibilit horizontale l chelle facile de donn es et d utilisa pondre ce be graduelle en ajoutant du syst me teurs grandissant sans soin d autres ordinateurs au que les co ts ne de syst me La configura viennent exponentiels tion modifier serait mi nimale N5 Forage Important Pouvoir r
65. uration minimale pour ajouter d autres machines FEA02 Code supportant le parall lisme FEA03 Distribution automatique des donn es pour supporter parallelisme FEA04 Supporter plusieurs requ tes en parall les FEA05 Environnement de forage de donn es distinct des sources de donn es en production 2 2 4 HL Ae eee dete Abel ant eo EA yee FEA06 Synchronisation des donn es automatique entre les sources de donn es et le syst me EndoMine FEA07 G n rateur de requ tes int gr FEA08 Recherche par filtrage incr mentiel de la requ te originale IIS D HD Ot Ot Or CT OO CO o 11 11 11 12 12 12 12 12 12 12 Confidentiel EndoMine Vision pdf Page 1 20 Projet EndoMine 2012 076 Version 0 9 1 Document Vision Date 11 octobre 2012 FEA09 Exportation des r sultats de recherche 13 FEA10 Exportation des cl s anonymis es 13 FEA11 Ajout de champs suppl mentaire des r sultats de recherche 14 FEA12 Trier les r sultats de recherche 14 6 Contraintes 14 VCO Accessibilit sei 2 e D teas bee Hoe An ne Ae en ee AE e dr 14 VC02 Confidentialit e 14 VC03 R gles du JG ese 404 dau ee ee e a ae pe a due 14 KUER EE Sek Se Bee BA Boke ae Be ee EB ee eet Se 14 VG05S Modi
66. uzon et Anton Zakharov D partement de g nie logiciel et des TI COURS LOG 792 1 0 DOCUMENT NO DATE 2012 09 24 VERSION 1 0 TITRE EndoMine Rapport d tape PAGE PAGES 13 38 5 LIVRABLES ET PLANIFICATION 5 1 Description des art facts Nom de l artefact Description Plan de projet Plan d crivant bri vement le projet l architecture technologie et les personnes ressources permettant d initier le dialogue avec le client ch ancier plan de travail Plan d crivant la distribution des t ches dans le temps Les t ches sont sujettes a changement Proposition de projet Document d crivant la proposition du projet incluant la description la proposition les risques et l allocation du temps Sch ma relationnel de production actuel Sch ma relationnel des tables utiles de la base de donn es de production Pour des raisons de confidentialit il est possible que certaines tables soient renomm es ou retir es du sch ma Document de Vision B R S Document donnant plus de d tails que la proposition du projet Inclut la description et la port e Inclut aussi le besoins du client les caract ristiques du syst me ainsi que les demandes mat rielles du syst me Permet la discussion entre divers parties prenantes stake holders gt Structure de stockage des donn es D finit la structure des fichiers dans Hado

Download Pdf Manuals

image

Related Search

Related Contents

Descargar archivo  V200 Work Station Extended, V300 Work Station Extended  ECO 3-ST ECO 3 R-ST ECO 5R N-ST  User Manual VRscope  210 Unités multi-canalisations à condensation par air avec  トリニク!  Apell SQ4530ISC sink  Onkyo PR-SC5507 User's Manual  KESSEL-Pumpstation Aqualift® S LW 600/LW 1000 für  Guia de Instalação - Epson America, Inc.  

Copyright © All rights reserved.
Failed to retrieve file