Home

Report (french) (pdf...)

1. answer2 str2mat answer if answer2 1 1 fprintf Tableaux des sigma auc moyen et cart type n c 1 while isempty c 0 prompt strcat Quel pourcentage regarder parmi pourcents EKES dlg_title Pr cision du pourcentage def num2str pourcentages 1 a inputdlg prompt dlg title num lines def b str2double a c find pourcentages b end resultatsil c prompt Enregistrement de la courbe 1 si oui 0 sinon dlg title Sauvegarde def 1 answer inputdlg prompt dlg title num lines def if numel answer 0 answer3 str2mat answer if answer3 1 1 savefilel strcat pwd file ladate file lad ate 1 1 6 metl1 r1 num2str b sit num2str param_iteration k num2str k s num2str b2max TE WKLY wkiwrite savefilel resultatsl c end end end if answer2 2 1 fprintf Tableaux des sigma optimaux et auc correspondants Nm c while isempty c 0 prompt strcat Quel pourcentage regarder parmi pourcents EEES 85 dlg title Pr cision du pourcentage def num2str pourcentages 1 a inputdlg prompt dlg_title num lines def b str2double a c find pourcentages b end resultats2 c prompt Enregistrement de la courbe 1 si oui O sinon dlg_title Sauvegarde def 1 answer inputdlg prompt dlg title num lines d
2. b1 b1 1 83 end o erreur ordre croissant sort erreur Tri des donn es dans l ordre croissant Initialisation des param tres de la courbe de rec dont on calcule l aire 0 abscisse 0 ordonn e nt 0 aire sous la courbe de rec calcul par la m thode des trap zes Pr paration de la boucle croissante sur les erreurs b2 1 param tre de boucle b2maxi size erreur ordre croissant b2max2 b2maxl 2 while b2 b2max2 1 Boucle sur les erreurs xo x trace de l abscisse pour le calcul de l aire du trap ze courant yo y trace de 1 ordonn e pour le calcul de l aire du trap ze courant o x erreur ordre croissant b2 incr mentation de l abscisse y y 1 b2max2 incr mentation de l ordonn e while b2 b2max2 s amp erreur ordre croissant b2 erreur ordre croissant b2 1 o Boucle en cas d galit sur les erreurs o x erreur ordre croissant b2 1 incr mentation de l abscisse y y 1 b2max2 incr mentation de 1 ordonn e b2 b2 1 end While Fin de la boucle en cas d galit sur les erreurs int int x x0 y yo 2 ajout de l aire du trap ze b2 b2 1 end While Fin de la boucle sur l ensemble de test XO X x epsilon int int x xo ajout de l aire du trap ze final o int int epsilon normalisation de l aire sous la courbe de rec valeur aoc l int Code du fichier methode1 m Partie a
3. a inputdlg prompt dlg title num lines def b str2double a find pourcentages b end 87 sinon ate 1 1 6 met1l close figure 3 figure 3 hold off i 1 1l iterations c plot 1 resultats2 c 1 1 i resultats2 c 1 2 o title valeur du sigma optimal et de l auc correspondant legend Xsigma optimal auc correspondant axis 0 iterations c 1 0 max sigma max 1 xlabel Num ro d it ration grid prompt Enregistrement de la courbe 1 si oui O dlg_ title Sauvegarde def 1 answer inputdlg prompt dlg title num lines def if numel answer 0 answer3 str2mat answer if answer3 1 1 savefile2 strcat pwd file ladate file lad r2 num2str b sit num2str param iteration k num2str k s num2str b2max r fig end saveas figure 3 savefile2 end end if answer2 3 1 courbe d auc dessus close figure 4 figure 4 hold off Calcul des 3 courbes de r sultats courbe d auc moyenne moyenne cart s de 2 fois l cart type au dessus et en i 1 1 numel pourcentages errorbar pourcentages i resultats3 1 1 2 resultats3 1 2 axis 0 100 0 1 xlabel pourcentages du train utilis title valeur des auc pour diff rents pourcentages extraits de 1 ensemble d apprentissage sinon ate 1 1 6 metl1 legend auc moyen obten
4. fichiers Pour faire apparaitre le nom des fichiers s lectionn es methodes Pour faire appara tre le num ro des m thodes choisies pour chaque fichier for i 1 str2double answer tic D but du chronom trage d un xp rienc if methodes i 1 ex cution de la m thode 1 avec ses param tres methodel pourcentages param iteration k sigma auto nb sigma sigma m in sigma max test sauvegarde automatique sans affichage fichiers i 1l longueurs i lseif methodes i 2 ex cution de la m thode 2 avec ses param tres methode pourcentages param iteration k sigma auto nb sigma sigma m in sigma max test sauvegarde automatique sans affichage fichiers i l longueurs i lseif methodes 1 3 execution de la m thode 3 avec ses parametres methode3 pourcentages param iteration k sigma auto nb sigma sigma m in cisma mav taet camionsnarda antamat irnia eana affichansa firhiarels 1TeTAnauanure Figure 30 pilotage m 3 Execution des m thodes end durees i toc Fin du chronom trage d une m thod durees Pour faire appara tre les dur es de toutes les m thodes execut es end end Affichage d un signal de fin des exp riences fprintf fin de toutes les exp riences demand es Figure 31 pilotage m 4 Ex cution des ordres Code du fichier methode1 m function methodel pourcentages param iteration k sigma auto nb sigma sigma min sigma max test
5. n DO e e 0 e Equation 4 Matrice de covariance du noyau gaussien multi vari e n 1 La diagonalisation de la matrice doit permettre d obtenir une matrice diagonale dans cette base et d interpr ter une matrice de covariance dans ce cas le plus g n rale Le cas o la matrice est diagonale dans la base orthonorm directe de l espace est un cas particulier Equation 5 Matrice de covariance diagonale du noyau gaussien multi vari e Lorsque toutes les variances qui forment la diagonale de la matrice de covariance sont gales Alors les propri t s du noyau gaussien sont les m mes selon toutes les directions de l espace Pour cette raison la matrice de covariance sp cifique est appel e iso tropique Elle est galement appel e sph rique car les courbes de niveau du noyau forme des hyper sph res Ce n est que dans ce cas tr s sp cifiques que le noyau gaussien ne poss de qu un seul param tre o 12 n quation 6 Matrice de covariance du noyau iso tropique d finie partir de la matrice identit Le noyau gaussien L2 s apparente alors la distribution gaussienne que l on utilise fr quemment dans des calcule de probabilit s et de statistiques avec o la variance carr de l cart type et u la moyenne 1 x u Not e 27 OV 2T quation 7 Distribution Gaussienne ou Normale Le noyau gaussien L2 peut tre d finit sans son terme de normalisation comme suit 2 a x 2 g quation
6. rep rer des regroupements comme celui et corriger la valeur de o en cons quence Ic 4 Discussion La m thode dite de Sch lkopf offre un r glage d une extr me simplicit Et pourtant les r sultats obtenus sont bons dans l ensemble et souvent tr s bons L apprentissage des donn es par la variance et la dimension semble tre concluant Peut tre faudrait il compl ter cet apprentissage par un troisi me param tre tenant compte du regroupement par paquets des donn es comme Damier nous le sugg re Il parait d ores et d j non simple de trouver une m thode quivalente en efficacit puisque cette m thode cumule performance rapidit et simplicit 47 Xnamtpe R glage du l aide d une m thode de r gression c 1 Introduction R le et attentes vis vis des exp riences On teste une m thode de pr diction une fen tre de Parzen en r gression sur des jeux de donn es que l on a d munit d tiquettes Cette m thode est ainsi plus r aliste On esp re obtenir de meilleurs r sultats avec cette m thode d obtention qui utilise la fen tre de Parzen plut t que une m thode utilisant seulement un r sultat brut des donn es On esp re s approcher des performances de la fen tre de Parzen de classification c 2 Impl mentation Particularit s de la proc dure On d termine avant l exp rience les param tres utiles telles que e utilis pour le calcul de l AOC o min et max cf Gamme de vale
7. t2 zeros 1000 t3 zeros 1000 8 t4 zeros 1000 while bl k 1 Pr paration de la boucle b2 sur le nombre d instances transferer b2 1 79 while b2 mat b1 1 boucle permettant le transfert d un instance chaque tour if repartitions b1 0 si l indice est gal 0 on place l l ment dans l ensemble d apprentissage b5 1 b5maxl size tab b5max2 b5maxl 2 while b5 b5max2 1 t1 b3 b5 tab b4 b5 b5 b5 1 end t2 b3 clas b4 b3 b3 1 passage l instance suivante en criture b4 b4 1 passage l instance suivante en lecture else sinon on le place dans l ensemble de test b5 1 b5maxl size tab b5max2 b5maxl 2 while b5 b5max2 1 t3 b6 b5 tab b4 b5 b5 b5 1 end t4 b6 clas b4 b6 b6 1 passage l instance suivante en criture b4 b4 1 passage l instance suivante en lecture end b2 b2 1 passage l instance suivante parmi les mat b1 end b1 b1 1 end app tab tl app_clas t2 test_tab t3 test_clas t4 Code du fichier kfcv3 m function app tab test tab kfcv3 tab repartitions D termination de k qui est le nombre d l ments du vecteur de r partitions w numel repartitions D termination du nombre d instances de l ensemble d instances cardtab0 size tab cardtab cardtab0 1 oe Afficher un message d avertissement si le nom
8. D termination du sigma comme la racine carr e de la dimension des donn es dl size tr sigma sqrt dl 2 l re boucle sur les pourcentages du train utilis pour l exp rience for i 1 numel pourcentages o pourcentage en cours 100 Pour l affichage du poucentage en cours moyenneauc 0 on initialise la moyenne des auc pour chaque pourcentage o for j l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage iterations en cours j Pour l affichage de l it ration en cours tr2 c12 extraction tr cl 100 extraction de 100 des ensembles on enregistre la valeur de sigma test e resultats2 1 3 1 sigma on r alise une pr diction predictions parzenl tr2 ts cl2 nb clas sigma if test 1 auctestfinal auctest cs predictions else auctestfinal aucesperee cs predictions end resultats2 i j 2 auctestfinal enregistrement de cette valeur d auc dans un tableau d auc associ son sigma optimal 69 o moyenneauc moyenneauc auctestfinal iterations i calcul de o la moyenne des auc pour le pourcentage courant o waitbar i 1 iterations i j numel pourcentages param iteration end o var2 0 initialisation de la variance attribu chaque pourcentage for j l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage var2 var2 resultats2 i j 2 moy
9. Protocole exp rimentale et donn es utilisateurs IL 1 Jeux de donn es utilis es 11 1 1Descriptions Jeux de donn es L information peut avoir dans la nature des formes tr s diverses sonore visuelle num rique etc Echantillonn es d un contexte r el et quelconque puis trait es par l informatique l information est transform e en vecteurs de donn es num riques ou instances Les instances et leur tiquette sont r unies dans un tableau contenu dans un fichier Pour les exp riences r aliser nous allons utiliser au moins 10 jeux de donn es issus de l UCI machine learning repository sur le site de l universit de Californie C est un lieu de d p t 19 pour des dizaines de jeux de donn es issues des travaux de groupes scientifiques www ics uci edu mlearn MLSummary html Jeu de Dimension Instance de Instance de donn es Train Test Damier 2 200 400 Iris 4 90 60 Glass 9 107 107 Wine 13 119 59 Pima 8 354 354 Australian 14 345 345 Segment 19 310 1998 Ionosphere 34 240 111 Sinx3 2 2000 30000 USPS2 256 317 1998 Emovoc 20 3783 1622 Letters 16 13400 6600 Tableau 4 Jeux de donn es utilis s Donn es Les donn es se trouvent sous forme d instances des vecteurs d une dimension unique car d un m me espace On caract rise l appartenance de ces vecteurs une classe gr ce une tiquette Cette tiquette d crit le groupe d origine un point qui est rouge ou bleu un portrait qui repr sente
10. duire les donn es de test de la dimension choisie en Algorithme 2 Normalisation des donn es IL2 Utilisation des Fen tres de Parzen 11 2 1En classification Un apprentissage supervis La classification correspond une premi re utilisation d une fen tre de Parzen dans un contexte supervis En effet cet apprentissage consiste utiliser un apprentissage sur des donn es dont la classe est connue afin de r aliser des pr dictions et classer d autres donn es Le fait de pouvoir comparer sorties pr dites et sorties r elles pour am liorer le mod le implique que l on se situe dans un apprentissage supervis cf description des exp riences Chapitre I 3 3 Classification En apprentissage la classification est l attribution de classe des instances Lorsque les classes sont des tiquettes on dit que l on tiquete des instances Cette attribution est un choix qui se fait parmi les classes du probl me Pour que ce choix se fasse correctement il faut que toutes ces 22 classes se trouvent dans attribu es des donn es d apprentissage et que ces instances soient repr sentatives Dans notre contexte de classification toutes les classes sont disponibles On cache donc les classes des instances de test temporairement pour pouvoir r aliser les pr dictions Lorsque celles ci sont termin es on compare les pr dictions avec la classe masqu On value alors la performance de la classificat
11. es n resultats3 savefile3 strcat pwd file ladate file ladate 1 1 6 met1 r3 pourcents sit num2str param_iteration k num2str k s num2str b2max wk1 wkiwrite savefile3 resultats3 for c 1 numel pourcentages close figure 2 figure 2 for j l param iteration i 1 1 b2max color 0 0 0 0 0 1 0 1 0 1 0 0 0 8 0 0 8 0 6 0 6 0 0 0 8 0 8 0 O 11 errorbar resultatsl i 1l c j resultats1 i 2 c j 2 resultats1 i 3 c 13 Color color mod 3 7 1 aucminimum min resultatsl 2 c j max resultats1 3 c j axis 0 sigma_max aucminimum 1 title Valeur des auc moyen en fonction de sigma xlabel param tre sigma utilis pour la fen tre de parzen legend une it ration 4 hold on end grid savefilel strcat pwd file ladate file ladate 1 1 6 met1 r1 num2str pourcentages c it num2str param_iteration k num2str k s num2str b2max fig saveas figure 2 savefilel close figure 3 89 figure 3 hold off i 1 1l iterations c plot 1 resultats2 c 1 1 i resultats2 c 1 2 o title valeur du sigma optimal et de l auc correspondant legend Xsigma optimal auc correspondant axis 0 iterations c 1 0 max sigma max 1 xlabel Num ro d it ration grid savefile2 strcat pwd file ladate file ladate 1 1 6 met1 r2 num2str pourcentages c it num2str
12. gles pr dictions d exemples valeurs de certains param tres etc Il existe plusieurs modes d apprentissages Certains sont automatiques et passif les apprentissages ne n cessitent alors pas l intervention d un op rateur Ces strat gies s opposent l apprentissage actif o l op rateur intervient de mani re optimale dans le processus d apprentissage Les apprentissages passifs peuvent tre soit supervis s soit non supervis s l 1 1Apprentissage supervis En apprentissage supervis la base d apprentissage contient des exemples de donn es d j trait es On supervise l apprentissage en exploitant ces exemples pour en apprendre de nouveaux La base d apprentissage est dans ce cas de figure un ensemble de N couples entr es sorties Ln Yn 1 lt n lt N Un algorithme d apprentissage supervis a pour but de g n raliser sur les nouvelles entr es ce qu il a appris des couples entr es sorties fournis par la base Dans notre cas les entr es Tn E X Sont toutes contenues dans un m me hyperespace Chaque l ment d entr e est un vecteur appel instance Les sorties quant elles appartiennent l espace des r els Y CR le couple est alors un couple de valeurs explicatives et valeurs cibles ou aux entiers naturels Y 1 1 les sorties sont appel es des classes 1 1 2Apprentissage non supervis En apprentissage non supervis et contrairement l apprentissage supervis cf sous section pr c dente
13. il n y a pas de sorties au sens des couples entr es sorties vu pr c demment L apprentissage non supervis consiste donc trouver un autre moyen d extraire des r gles 5 l 1 3Apprentissage Actif L apprentissage actif est une m thode d apprentissage statistique qui n cessite l intervention d un op rateur expert l oracle Cette m thode a pour vocation de mieux s apparenter l apprentissage humain en optimisant la rapidit de l apprentissage L cole active A la mani re d autres m thodes de l intelligence artificielle telles que les r seaux de neurones l apprentissage actif simule un moyen d apprentissage humain ou naturel L id e vient du p dagogue suisse Adolphe Ferri re au XXe si cle Il a nonc le concept d une cole active o on peut faciliter l apprentissage des enfants Pour cela on leur fait choisir judicieusement des l ments de leur v cu puis en leur enseigne des connaissances associ es Les l ves sont ainsi amen s cr er leurs propres connaissances de mani re participative donc active L Apprentissage Actif L apprentissage statistique actif est l image de l cole active L enfant est simul par la partie automatique qui recherche parmi les exemples traiter les plus judicieux pour son apprentissage Le professeur est repr sent par l oracle Il fournit la proc dure automatique les sorties des exemples traiter qu elle lui a demand Contrairement aux autres m thodes
14. on r alise des pr dictions gr ce la fenetre de parzen de classification pour le sigma courant predictions parzenl app tab test tab app clas nb clas sigma Pour obtenir une visualisation des courbes d auc on donne le choix d executer une fonction auc test if test 1 auccourant auctest test clas predictions else auccourant aucesperee test clas predictions end On remplit ce stade un tableau de valeurs resultats1 b2 1 i j sigma Chaque ligne correspond une valeur de sigma tableauauc b2 bl auccourant resultats1 b2 2 i j resultatsl b2 2 i j t auccourant bimax2 on fait la moyenne des k valeurs des auc if resultatsl b2 2 i j gt maxaucmoy pour tous les sigma on teste la moyenne qui se construit maxaucmoy resultats1l b2 2 i j maximas obtenu pour toutes les partitions sigmaxaucmoy sigma end sigma sigmat sigma pas b2 b2 1 o end Fin de la boucle sur les valeurs de sigma b1 b1 1 end o Cr ation du tableau des variances Pr paration de la boucle sur les listes de k partitions bl 1 while bl blmax2 1 Boucle sur les listes de k partitions Pr paration de la boucle sur les valeurs de sigma b2 1 while b2 b2max 1 Nouvelle boucle sur les valeurs de sigma afin de calculer la variance des auc sur les k partitions 67 var b2 var b2 resultatsl b2 2 1 3 tableauauc b2 b1 72 blmax2 calcul
15. param_iteration k num2str k s num2str b2max fig saveas figure 3 savefile2 end close figure 4 figure 4 hold off Calcul des 3 courbes de r sultats courbe d auc moyenne courbe d auc moyenne cart s de 2 fois l cart type au dessus et en dessus i 1 1 numel pourcentages errorbar pourcentages i resultats3 1 1 2 resultats3 1 2 axis 0 100 0 1 xlabel pourcentages du train utilis title valeur des auc pour diff rents pourcentages extraits de 1 ensemble d apprentissage legend auc moyen obtenue 2 grid savefile3 strcat pwd file ladate file ladate 1 1 6 met1 r3 pourcents sit num2str param_iteration k num2str k s num2str b2max tofiga saveas figure 4 savefile3 end 90 Annexe Structure des r sultats Les r sultats sont contenus dans un sous dossier du dossier Parzen Projet Un dossier de r sultat porte le nom d un jeu de donn es et la date de l exp rience Attention c est la date au moment de l obtention des r sultats la fin de l exp rience Un dossier rassemble tous les r sultats d un jeu de donn es qui se sont termin es le m me jour Les donn es peuvent tre des tableaux wk1 ou des figures fig En mode d enregistrement automatique les r sultats contiennent exactement le m me nombre de fichiers fig et wk1 puisque un fig correspond un wk1 Un nom de fichier contient le nom du jeu le nom
16. pond rant par la proportion des classes Fin Pour Fin Pour Algorithme 5 Commun aux m thodes 1 et 3 R les des validations On observe dans l algorithme 4 que la k fold cross validation permet d obtenir plusieurs valeurs de performance pour un m me o Ces valeurs permettent d obtenir effectivement une moyenne et un cart type cart type qui pour rappel donne l estim de l erreur de g n ralisation La partie test final qui comprend l ex cution d une fen tre de classification r gl avec le o optimal et de l AUC se retrouve galement dans la 2 me m thode dite de Sch lkopf Ainsi toutes les m thodes de pr diction et ou de d termination du o optimal peuvent tre compar es selon leur performance r gler le param tre pour la fen tre de Parzen de classification 11 4 2Format des r sultats Ci dessous un r capitulatif des trois r sultats que l on se propose de r colter R sultat n 1 pour les m thodes de classification et de r gression uniquement Pour une exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi D terminer la performance des pr dictions de la fen tre de Parzen et ce en fonction de o R sultat n 2 o optimal Pour une exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi et partir du R sultat n 1 31 D signer parmi toutes les valeurs de o celui dont la pe
17. une personne ou un objet un son d une voix ou d un choc etc Pour faciliter notre t che et les exp riences toutes les tiquettes sont remplac es par des classes 1 2 3 Ainsi plut t que de manipuler des cha nes de caract res on manipulera des nombres Des caract ristiques intrins ques Les donn es sont diverses Issue du monde r el ou logique celles ci ne sont priori pas al atoires Dans le cas contraire il serait impossible de faire un apprentissage sur la localisation des vecteurs de donn es En effet des donn es al atoires signifieraient que les classes sont attribu es al atoirement On suppose que les donn es que l on poss de doivent permettre de faire un apprentissage Les donn es ont des caract ristiques facilement exploitables comme le nombre de dimension le nombre de classes possibles le maximum le minimum la moyenne et l cart type des valeurs On peut s int resser galement aux caract ristiques relatives chaque dimension En effet chaque dimension d un jeu de donn es poss de un maximum minimum moyenne et cart type Les dimensions ne seront a priori pas aussi informatives les unes que les autres Mais par simplicit nous supposerons que toutes les dimensions ont la m me importance pour l apprentissage Cette hypoth se nous est n cessaire pour utiliser le r glage d une fen tre de Parzen avec le param tre calcul comme la racine carr de la dimension des donn es norm
18. 2 Variance 0 256 0 1y 1256 0 1 Tableau 3 Param tres du jeu de donn es USPS d apr s Chapelle 3 3La probl matique du stage Motivations Les exp riences r alis es dans ce projet ont pour but d obtenir une fen tre de Parzen param tr e convenablement pour l Apprentissage Actif Le param trage de la fen tre de Parzen s est fait jusque l d une mani re simple et judicieuse certes Mais nous avons besoin de r aliser un r glage pr cis dans l optique de bien s loigner des mauvais r glages vus la sous section de l hyper param tre Chapitre I 2 Il s agit alors de trouver d autres m thodes judicieuses que l on va confronter la m thode de Sch lkopf dans le but de trouver la meilleure m thode de param trisation Probl matique s Pour confronter diff rentes m thodes d apprentissage nous avons besoin de crit res 2 crit res vont entrer en compte la performance ou ventuellement la non performance l erreur du param tre choisi et la capacit du mod le g n raliser son apprentissage sur d autres donn es Comme on voudrait savoir l impact de la quantit des donn es sur l apprentissage on analysera l impact de la variation du nombre de ces donn es en fonction de la m thode d apprentissage utilis e On regardera galement les r sultats sur tous les jeux de donn es afin de nous assurer que les performances ne s effondrent pas sur certains jeux Dans cette tude nous nous interrogerons donc sur
19. Estimateur de la Fen tre de Parzen de R gression Yi On observe que cette formulation est bien une moyenne des valeurs cibles o la pond ration utilis e n est pas 1 mais la proximit ou distance au sens de Parzen des instances de l ensemble d apprentissage On retrouve comme une moyenne classique la somme de toutes les pond rations utilis es au d nominateur Au lieu de fournir une valeur de probabilit pour diff rentes classes la fen tre de Parzen en r gression fournit une valeur r gress e parmi les valeurs cibles pond r es 11 2 3Gamme de valeur du param tre Principe Le param tre o va servir dans le cas des apprentissages supervis s superviser l apprentissage En effet on cherchera obtenir la valeur du o qui maximise les performances de notre m thode de pr diction C est celui l qui sera lu comme le o optimal de la m thode Pour ce faire on va tester un grand nombre de valeur de o Dans nos exp riences ce nombre de valeur est un param tre utilisateur Une proc dure permet le calcul de o minimal et de y maximal afin d viter la proc dure d exp rimenter des valeurs de o inint ressantes La gamme d finit par ces 2 extrema est ensuite segmenter r guli rement selon le nombre de valeurs examiner Les param tres o minimal et 6 maximal d pendent uniquement du jeu de donn es et ne change pas selon les m thodes Ces deux param tres peuvent aussi tre choisis arbitrairement vitant ainsi u
20. Mining Researchers Jinbo Bi Kristin P Bennett 2003 Regression Error Characteristic Curves Autres sources Wikipedia http fr wikipedia org Voir les sections Apprentissage supervis Apprentissage non supervis www ulb ac be Pr sentations www stat ucla edu sczhu Courses UCLA Stat_231 Lect note 2005 Lect10_knn pdf www stat ucla edu sczhu Courses UCLA Stat_231 Lect note 2005 Lect9 Parzen pdf http www iro umontreal ca vincentp ift3390 index html knn parzen pdf gaussienne evalperf pdf 94
21. ad E DCR Y 3 3 Latour de la performance Dile ui caida 29 dl 2 Impl mentation 2 111 3 R sultats il LA Don STA OE A OAE OAN NIEA 48 Chapitre IV R glage du o l aide des variances des donn es ssssssseseesessessessosocesenseese ee 49 IVl de A A A E i 49 D AN Une CAR LES Le LUE 49 a a a A E EE 50 AAA A 52 Chapitre V R glage du o l aide d une m thode de r gression esssssssssssccsessssssesecsessssssssesse 53 k o POSER AE AEA AE AT E EANO A O 53 A la o A RA 53 Te N IA 59 Introduction Les exp riences et les enseignements de ce stage appartiennent au domaine de la statistique d cisionnelle ou apprentissage statistique C est une partie de la statistique dont la finalit est de prendre des d cisions A partir de bases de donn es on pr dit la valeur de variables non observ es On parle plut t d apprentissage statistique En effet la statistique d cisionnelle est d un int r t majeur pour les recherches et d veloppements en intelligence artificielle Elle permet la reproduction d un apprentissage humain par un apprentissage artificiel L apprentissage statistique comporte de nombreux algorithmes et voies d apprentissage dont certaines seront vues dans ce rapport Il est important d introduire galement le data mining fouille de donn es qui serait l un des dix grands enjeux du XXIe si cle selon la revue scientifique MIT Technological Il s agit d une application
22. apprentissage en 2D 1 3 2Contexte bibliographique Description du contexte Le r glage d une fen tre de Parzen a t trait par d autres scientifiques mais pas au point de la recherche d une v ritable d optimalit du param tre En effet en 1999 Sch lkopf Sch lkopf a propos une solution simple pour le r glage du noyau gaussien Ce r glage a t repris ensuite par Chapelle et par d autres La m thode semble marcher mais aucune justification n a t apport e cet tat de fait Par cons quent on se demande si la m thode marche pour tous les jeux de donn es et si d autres m thodes pourraient apporter de meilleurs r sultats Travaux de Sch lkopf 15 Bernhard Sch lkopf chercheur l institut Max Planck en Allemagne a fait part de ses tudes sur le sujet des algorithmes noyaux Comme nous l explique J r me Louradour dans sa th se Sch lkopf utilise la fois la moyenne quadratique des carts types de chaque composante vectorielle et la dimension des donn es pour r gler sa fen tre de Parzen Le calcul de l cart type moyen des donn es est le suivant Tu correspond aux variables d entr es d est la dimension du jeu de donn es 7 ya Elz Elea quation 9 Calcul de l cart type des donn es Le calcul du o qui en r sulte est o oo Vds quation 10 Param tre choisi par Sch lkopf D apr s eux condition que toutes les variables d entr es aient la m me importance on peut
23. auc qui sont utiles pour le calcul de la variance ableauaoc zeros b2max blmax2 oe Initialisation du tableau de variance permettant le calcul de l cart type var zeros b2max 1 oe while bl blmax2 1 Boucle sur les listes de k partitions 1 listes b1 Pour l affichage de la s quence des partitions utilis es Regroupement des ensembles de test et d apprentissage en fonction de la s quence des partitions utilis es app tab Cest tab kfcv3 tr2 1 sigma sigma min on initialise le sigma courant Pr parationde la boucle sur les valeurs de sigma b2 1 while b2 b2max 1 Boucle sur les valeurs de sigma Pr paration de la boucle sur chacune des dimensions des valeurs explicatives b3 1 b3maxi size app tab b3max2 b3maxl1 2 Initialisation de l aoc courant aoccourant 0 71 while b3 b3max2 1 oe on r duit les valeurs explicatives d une dimension qui devient l ensemble des valeurs cibles app tab reduit test tab reduit app valeurs cibles explicative2cible app tab test tab b3 on r alise des pr dictions gr ce la fenetre de parzen de r gression pour le sigma courant estimations parzen3 app tab reduit test tab reduit app valeurs cibles sigma 00 test valeurs cibles o oe oe Pour obtenir une visualisation des courbes d aoc on donne le choix d executer une
24. calculer une moyenne et un cart type Algorithme 33 tant donn s e le jeu de donn es sous un formatage particulier e des pourcentages n choisis pour le tirage des donn es du train e un nombre d it rations choisis pour chaque pourcentage e un param tre k choisi de la k fold cross validation e le nombre de valeurs de o examiner Lire le jeu de donn es s par en 2 ensembles le premier d apprentissage Train et l autre de Test Normaliser les donn es D terminer le o minimal plus petite distance entre 2 instances et maximal plus grande distance avec le barycentre des instances Calculer le pas de o partir du min et du max et du nombre de valeurs de o Pour les pourcentages n choisis faire Pour j variant de 1 J faire Extraire n de l ensemble d apprentissage par un tirage sans remise Pour toutes les combinaisons possibles des k partitions en 2 partitions Regrouper les k partitions en 2 s ensembles New_Train New_Test avec k 1 partitions pour New_Train et 1 pour New_Test Pour 6 variant de Omin Omax AVEC UN pas Opas faire valuer la fen tre de Parzen de classification r gl e avec le o courant sur les instances de l ensemble d apprentissage New Train pour les instances de l ensemble de test New Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour C
25. instances d apprentissage b2 1 r initialisation du param tre de boucle while b2 b2max2 1 2 me boucle sur les instances pour calculer la variance var var app tab b2 b1l moy 2 b2max2 incr mentation de la variance b2 b2 1 incr mentation du param tre de boucle end while fin de la boucle sur les instances d apprentissage b2 1 r initialisation du param tre de boucle while b2 b2max2 1 3 me boucle sur les instances d apprentissage pour les normaliser if var 0 74 app tab b2 b1 app _tab b2 b1 moy sqrt var normalisation end b2 b2 1 incr mentation du param tre de boucle end while fin de la 3 me boucle sur les instances d apprentissage Pr paration de la boucle sur les instances de l ensemble de test b3 1 Initialisation du param tre de boucle b3maxi size test tab b3max2 b3max1 1 Obtention du nombre d l ments dans l ensemble de test while b3 b3max2 1 boucle sur les instances de test pour les normaliser if var 0 test_tab b3 b1 test_tab b3 b1 moy sgrt var normalisation end b3 b3 1 incr mentation du param tre de boucle end while fin la boucle sur les instances de test bl b1 1 incr mentation du param tre de boucle end while fin de la boucle sur les dimensions Code du fichier parzen1 m function predictions parzenl ens train ens test classes du train nbclasse sigm
26. le point de la courbe o l on se trouve Ajouter l inverse du nombre d instance de test l ordonn e de la courbe Prendre comme abscisse l erreur correspondant l l ment courant Pour tous les l ments tri s suivants ayant la m me valeur d erreur Passer l l ment suivant Ajouter l inverse du nombre d instance de test l ordonn e de la courbe Prendre comme abscisse l erreur correspondant l l ment courant Fin Pour Calculer l aire du trap ze sous segment point courant de la courbe et point m moris Ajouter cette aire l aire sous la courbe de REC Fin Pour Normaliser l aire sous la courbe de REC en la divisant par le param tre epsilon maximal Calculer l AOC comme le compl mentaire 1 de l aire sous la courbe de REC normalis Algorithme 12 l AOC Area Over the REC Curve C 3 R sultats La m thode 3 doit nous permettre d obtenir avant tout la validation de la performance de l exp rience en fonction des jeux de donn es et d un autre crit re la portion de l ensemble d apprentissage utilis e D autres r sultats interm diaire sont int ressants tels que la performance de la m thode de pr diction Fen tre de Parzen en r gression en fonction de son param tre o ou encore le o optimal toujours selon le jeu de donn es et la portion d instances apprises Ci dessous un r capitulatif des trois r sultats que l on s est propos de r colter R sultat n 1 Pour u
27. les tiquettes des donn es En effet cette m thode revient exploiter un probl me de classification r solue pour 18 param trer ce m me probl me de classification C est un mode triche qui nous sert de t moin des fins d valuations des performances des autres m thodes Ensuite nous essaierons la m thode de Sch lkopf chapitre associ chapitre IV en choisissant directement la racine de la dimension comme valeur du o optimal cf figure Nous cherchons bien entendu une m thode plus performante qu un r glage issu de ce simple choix Enfin nous d velopperons une m thode dite de r gression chapitre associ chapitre V C est une m thode d apprentissage qui va chercher d terminer notre param tre sur un probl me d j r solue sans que celui ci soit un probl me de classification et que les tiquettes soient apparentes Cette m thode pourra donc tre utilis e pour l apprentissage actif D autres m thodes comme l estimation de densit donneront probablement lieu d autres exp riences du m me type l avenir Ces 3 m thodes seront commun ment trait es dans le chapitre IT selon leurs points de similarit ceux contenus dans les jeux de donn es les fen tres de Parzen et les mesures de performances utilis es Puis elles seront vues individuellement dans chacun de leur chapitre respectif II IV et V selon leur impl mentation les r sultats obtenus et les interpr tations r alis es Xnamitpe I
28. les questions Quelles sont les m thodes parmi les m thodes passives vues dans cette tude qui permettent le mieux de d terminer le 6 optimal d un jeu de donn es Quelles sont les hypoth ses quantitatives quantit d instances et de dimensions des ensembles utilis s et qualitative ind pendance distribution sur les jeux de donn es qui ont une influence sur la d termination du param tre L aboutissement de l exp rience peut tre l utilisation de certaines de ces m thodes dans de nouvelles exp riences testant cette fois ci des m thodes d apprentissage actif Sujet de l tude Nous allons donc r aliser des exp riences dont l objectif est d obtenir l optimalit de o Ces exp riences sont 3 m thodes d apprentissage auxquelles pourront s ajouter par la suite d autres m thodes L illustration suivante rassemble parmi de nombreux l ments vus dans ce chapitre les 3 m thodes d obtention du optimal 17 Jeu de donn es z Jeu de donn es n Jeu de donn es n Jeu de donn es n 1 Apprentissage Actif 1 l Echantillonnage Echantillonnage Adaptatif S lectif l Cas de figure o on a beaucoup de a donn es et le droit de les utiliser 75 Train E E 100 du Train donn es d apprentissage l Etiquettes Etiquettes Etiquettes l connues non connues non connues I RE PES Sat ee Obtention partir du r sultat d un d un r sultat bru
29. m et ce de mani re optimis e algorithme quicksort Fonction qui a t utile dans le code de l AOC D autres fonctions permettent de g rer tr s efficacement les entr es et sorties du syst me permettant par exemple l export de donn es dans de multiples formats de fichiers Un autre avantage Matlab poss de une excellente pr cision de calcul de l ordre de 1 10 Structure du prototype Association de fichiers matlab pour la programmation des m thodes de d termination du sigma optimal pour la performance de l apprentissage pilotage m Lp methodel m k methode2 m methode3 m RE A odas extraction m reglagesigma m glagesig F T ST CS ENE RIADA AAA AA SN ll li EE i f A kfcv1 m Il arzen1 m aucesperee m kfcv3 m explicative2cible m iparzen3 mi aoc m P P i p ja n A AA A E A AEA A Figure 26 Structure des fichiers Matlab Note importante concernant le code Les fichiers Matlab sont regroup s dans un m me dossier Parzen Conception de la m thode 3 La m thode de r gression telle qu elle a t envisag e est compos de 5 fonctions incontournables qui assurent les calculs de l exp rience sur nos donn es savoir la fen tre de Parzen en r gression en classification la construction le calcul de l aire sous la courbe de ROC AUC la construction le calcul de l aire sous la courbe de REC AOC et enfin la k fold cross valida
30. mani re non lin aire et prendre en compte la non lin arit des donn es Louradour p 27 Concept du noyau radial Il existe deux types de noyau le noyau projectif et radial ou m trique Le noyau projectif se base sur le produit scalaire de deux vecteurs Le noyau radial s appuie sur le produit scalaire par lui m me de la diff rence de deux vecteurs soit la distance euclidienne au carr ou norme L2 au carr Notre objectif est d obtenir une mesure de distance entre deux instances de donn es l aide d un noyau non lin aire Le noyau que l on doit utiliser est donc un noyau m trique ou radial Le calcul du carr de la distance euclidienne sera donc un interm diaire de calcul pour la d termination des noyaux Ci dessous quelques exemples de noyaux radiaux sont illustr s pour tout o positif 10 Tableau 1 Illustration de noyaux radiaux Gaussien Noyau Gaussien TT Cauchy Noyau de Cauchy ee ou mm Noyau de Laplace cr Noyau radial uniforme 7 1 y1 Extension de la fen tre l infini le noyau gaussien Pour la d finition de la fen tre de Parzen on doit faire le choix d un noyau il en existe une grande vari t Notre choix a t fait sur un noyau particulier le noyau gaussien L2 Il s agit d une extension de la fen tre de Parzen qui donne un poids tous les l ments de l espace de donn es mais ce poids tend tr s rapidement vers 0 lorsque l on s
31. moyenne end resultats3 i l moyenneauc enregistrement de la moyenne des auc pour chaque pourcentage resultats3 1 2 sqrt var2 enregistrement de la variance des auc pour chaque pourcentage end Code du fichier methode2 m function methode pourcentages param iteration k sigma auto nb sigma sigma min sigma max test sauvegarde automatique sans affichage filename 68 Choix du nombre d it rations par pourcentage en fonction que l argument fourni est un tableau ou une valeur if numel param iteration lt numel pourcentages iterations param iteration ones numel pourcentages else iterations param iteration end Extraction des donn es du fichier trb cl tsb cs nb clas donnees filename o recopie du nombre de sigma a tester b2max nb sigma o Pr paration de la r ception des r sultats dans 2 tableaux diff rents resultats2 zeros numel pourcentages param iteration 2 Stockage de racine de d et des auc que l on a obtenues avec resultats3 zeros numel pourcentages 2 stockage des auc et de leur variance pour chaque pourcentage de train utilis Normalisation des donn es tr ts normalisation trb tsb si reglages automatiques de sigma min et sigma max if sigma auto sigma min sigma max reglagesigma tr end Pr paration de l exp rienc sigma pas sigma max sigma min nb sigma
32. ou mauvais des donn es extraites On obtient donc au final plusieurs valeurs d AUC pour chaque pourcentage de l ensemble d apprentissage extrait Ceci permet d en calculer une moyenne et un cart type utile la comparaison de cette m thode par rapport aux autres Algorithme 48 tant donn s le jeu de donn es sous un formatage particulier des pourcentages n choisis pour le tirage des donn es du train un nombre d it rations choisis pour chaque pourcentage un param tre k choisi de la k fold cross validation un sigma minimal maximal et un pas de calcul Lire le jeu de donn es s par en 2 ensembles le premier d apprentissage Train et l autre de Test Normaliser les donn es D terminer le o minimal plus petite distance entre 2 instances et maximal plus grande distance avec le barycentre des instances Calculer le pas de o partir du min et du max et du nombre de valeurs de o D terminer e param tre de l AOC en majorant l cart entre les donn es et 0 Pour les pourcentages n choisis faire Pour j variant de 1 J faire Extraire n de l ensemble d apprentissage par un tirage sans remise Pour toutes les combinaisons possibles des k partitions en 2 partitions Regrouper les k partitions en 2 s ensembles New_Train New_Test avec k 1 partitions pour New_Train et 1 partition pour New_Test Pour o variant de Omin Omax AVEC UN PAS Opas faire Pour toutes les dimensions des instances Enleve
33. sauvegarde automatique sans affichage filename Choix du nombre d it rations par pourcentage en fonction que l argument fourni est un tableau ou une valeur if numel param iteration lt numel pourcentages 65 iterations param iteration ones numel pourcentages else iterations param iteration end Extraction des donn es du fichier trb cl tsb cs nb clas donnees filename o recopie du nombre de sigma a tester b2max nb sigma o Pr paration de la r ception des r sultats dans 3 tableaux diff rents resultatsl zeros b2max 3 numel pourcentages param iteration Stockage de toutes les valeurs de sigma d auc de variance resultats2 zeros numel pourcentages param iteration 2 Stockage des sigma optimaux et des auc que l on a obtenues avec resultats3 zeros numel pourcentages 2 stockage des auc et de leur variance pour chaque pourcentage de train utilis o listes eye k Cr ation du tableau des combinaisons de destinations possibles 1 parmi k Pr paration du tableau des combinaisons Normalisation des donn es tr ts normalisation trb tsb si reglages automatiques de sigma min et sigma max if sigma auto 1 sigma min sigma max reglagesigma tr end Pr paration de l exp rienc sigma pas sigma max sigma min nb sigma l re boucle sur les pourcentages du train utilis pour l exp rience f
34. thode des trapezes while b2 0 Boucle sur l ensemble de test xo x trace de l abscisse pour le calcul de l aire du trap ze courant yo y trace de 1 ordonn e pour le calcul de l aire du trapeze courant if bl classe du test indice prediction b2 v rification de la pr diction y y 1 incr mentation de 1 ordonn e en cas de bonne pr diction else x x 1 incr mentation de l abcisse en cas de mauvaise pr diction end if si bonne pr diction alors sinon while b2 1 0 amp s predictions ordre croissant b2 predictions ordre croissant b2 1 76 Boucle en cas d galit sur les pr dictions if bl classe du test indice prediction b2 1 v rification de la pr diction y y 1 incr mentation de l ordonn e en cas de bonne pr diction else x x 1 incr mentation de l abscisse en cas de mauvaise pr diction end if si bonne pr diction alors sinon b2 b2 1 end While Fin de la boucle en cas d galit sur les pr dictions int int x x0 y yo 2 ajout de l aire du trap ze b2 b2 1 end While Fin de la boucle sur l ensemble de test if x y 0 v rification que l aire du graphe n est pas nulle int int x y normalisation de l aire sous la courbe de roc end if if x 0 int 1 end if Pr paration de la boucle sur les classes de test b4 1 Param tre de boucle sur l ensemble des classes de test b4maxl size classe du test b4m
35. toutes les classes A nsi toute l information cr e par notre mod le de pr diction est exploit e par la suite dans l analyse de performance du mod le lui m me On remarque que dans une utilisation plus pratique de la fen tre de Parzen de classification l algorithme indiquerait un tableau des classes les plus probables pour l ensemble de test au lieu des pr dictions sur toutes les classes Algorithme tant donn s Une valeur choisie pour le param tre sigma du noyau gaussien Les ensembles d instances de test et d apprentissage Les classes de l ensemble d apprentissage Le nombre de classe du probl me Pour toutes les instances de test faire Pour toutes les classes du probl me faire Initialiser le num rateur et le d nominateur de la fen tre de Parzen Pour toutes les instances d apprentissage faire Calculer la distance euclidienne entre instance de test et d apprentissage Calculer la distance au sens de Parzen Noyau l aide de la distance euclidienne Si la classe de l instance d apprentissage est la classe courante Ajouter le Noyau calcul au num rateur Fin Si Ajouter le Noyau calcul au d nominateur Fin Pour Calculer le rapport Num rateur et D nominateur Mettre cette valeur dans un tableau de pr dictions par classe et instance de test Fin Pour Fin Pour Algorithme 7 Fen tre de Parzen de Classification AUC 35 L AUC signifie area under the curve soit l aire e
36. tres et 300 valeurs de o pour la classification et la r gression Comme pr vu la m thode 1 rassemble globalement les meilleures performances c est un apprentissage id al parce que cette m thode se donne les r ponses au probl me de classification alors que les classes ne devraient pas y tre disponibles Les performances des m thodes 2 et 3 ne sont pas loin de la m thode 1 On s attendait d abord une plus grande pertinence de la m thode 3 qui r alise sur les donn es un apprentissage approfondi En r alit elle n est pas beaucoup plus pertinente que la m thode 2 puisque celle ci ne sait pas toujours proposer un param tre optimal Elle est m me parfois en mesure de d signer une valeur de o parmi toute une gamme de valeurs convenables cf figure 25 A noter toutefois que la m thode de classification a elle m me r guli rement une grande gamme de valeurs convenables pour 6 Mais ce d faut semble tre aggrav dans le cas de la m thode de r gression Malgr tout sur le plan des performances on constate que les m thodes 2 et 3 offrent des r sultats quasiment quivalents Les r sultats sont souvent bons Les m thodes subissent le sur apprentissage et le lissage ph nom nes qui d pendent largement de la r partition des donn es dans l espace des donn es du jeu La m thode 2 ne subit que le lissage tandis que la m thode 3 subit l un ou l autre Mais le sur apprentissage est vu nos exp riences plus dangereux que l
37. 1 0 001077 Moyens instables et 0 111229 0 960218 0 002421 r sultat stable 0 372651 0 961246 0 001216 0 060185 0 998553 2 53E 05 0 064997 0 998307 0 000279 Petits stables et r sultat 0 086651 0 998299 0 000155 stable 0 093869 0 99774 0 000927 Grands o assez stables bon r sultat stable ne 1 192748 0 99351 0 003419 0 72963 0 98744 0 006867 Moyens instables et Grands instables et r sultat stable 0 237924 0 989077 0 008977 r sultat stable 25 o0266512 0 979175 0 002812 Optimalit du Param tre de la fen tre Les r sultats sont globalement bons et stables ce qui signifie que les donn es utilis es peuvent tre apprises facilement dans un but de classification Comme il l a t dit pr c demment ces r sultats sont a priori les meilleurs que l on puisse obtenir 39 Valeur des auc moyen en fonction de c 25 2 w D o 20 une it ration Il 15 param tre o utilis pour la fen tre de parzen IE I Ii UI al ll 14 AUC fonction de o sur emovoc et effet du sur apprentissage Valeur des auc moyen en fonction de param tre o utilis pour la fen tre de parzen Figur Figure 15 AUC fonction de o sur damier et effet du lissage 40 Influence de la quantit de donn es Lorsque la quantit des donn es les r sultats se maintiennent bien La m thode d
38. 1 b2 app tab ind b2 b2 b2 1 incr mentation du param tre de boucle end While fin de la boucle sur les dimensions des instances app clas reduit bl app clas ind controle ind 1 b1 b1 1 end end Code du fichier reglagesigma m function sigma min sigma max reglagesigma app tab Initialisation de sigma min et sigma max sigma mini 1000000000 sigma max 0 Pr paration de la boucle sur les instances de l ensembl d apprentissage bl 1 Param tre de boucle bimaxi size app tab blmax2 b1max1 1 Obtention du nombre d l ments dans l ensemble d apprentissage while bl blmax2 1 1 re boucle sur les instances pour calculer la moyenne normeL2 norm app tab b1 norme L2 if normeL2 gt sigma max sigma max normeL2 end Pr paration de la boucle sur les instances de l ensembl afin de les examiner deux deux b2 b1 1 while b2 blmax2 1 normeL2 norm app tab bl app tab b2 norme L2 if normeL2 lt sigma minl amp amp normeL2 0 sigma _minl normeL2 end b2 b2 1 end bl b1 1 incr mentation du param tre de boucle end While fin de la boucle sur les instances d apprentissage sigma min sigma min1 32 Code du fichier kfcv1 m function app tab test tab app clas test clas kfcvl tab clas repartitions 78 D termination de k qui est le nombre d l ments du vecteur de r partitions k numel repartitio
39. 100 iterations_en_cours 1 4 Start Busy ZO RAA Li En mode non automatique tout est enregistr la fin En mode non automatique on peut faire 4 choses Visualiser des donn es au choix dans la fen tre de dialogue Afficher une courbe au choix enregistrer une courbe au choix enregistrer un tableau au choix Attention pour enregistrer un tableau il faut le visualiser une erreur s est gliss il est mis enregistrer une courbe De m me on 92 ne peut pas enregistrer une courbe sans la visualis e f Menu de r cup ration des donn es X Pour afficher valeurs graphiques souhait s ou enregistrer des donn es cliquez sur OK Attention Annuler quitte d finitivement le menu Annuler Graphique des auc moyen cart type en fonction des sigma 1 si oui 0 Tableaux des sigma auc moyen et cart type 1 si oui O sinon sinon a Tableaux des sigma optimaux et auc correspondants 1 si oui O sinon Graphique des sigma optimaux et auc correspondants 1 si oui O sinon o 0 Graphique des auc cart types par pourcentages de train utilis es 1 si Tableaux des auc et cart types par pourcentages de train utilis es 1 si oui l 0 sinon oui 0 sinon o 0 oK Ganceld OK Cancel Note Importantes La normalisation s effectue uniquement avant et elle se fait sur tous les l ments de l ensemble d apprentissage quelque soit le pourcentage que l on extrait La normalis
40. 8 Noyau Gaussien L2 k x x exp Ci dessous une illustration du noyau gaussien dans un espace de dimension 2 Figure 4 Repr sentation d un Noyau Gaussien L2 en 2 dimensions Nous adoptons le noyau gaussien L2 pour toutes les exp riences Celui ci nous cr e un enjeu pour cette tude Il s agit de r gler correctement le param tre de ce noyau Ce qui quivaut au bon r glage de la fen tre de Parzen 13 L3 Le r glage d une Fen tre de Parzen 1 3 1L hyper param tre o Comme nous l avons vu la fen tre de Parzen utilise une brique l algorithme de Nadaraya Watson diff remment selon les m thodes d apprentissage Cet algorithme contient un noyau gaussien C est ce noyau qui donne des param tres r gler pour la fen tre de Parzen Si on adopte le cas le plus simple du noyau iso tropique alors il n y a qu un unique param tre de ce noyau qui est o Celui ci quantifie la largeur du d me C est un hyper param tre puisqu il intervient sur toutes les dimensions du noyau dans l hyperespace consid r Ce param tre est positif car sinon le noyau n aurait pas de sens m trique Il tendrait galement vers l infini lorsque la distance euclidienne tendrait lui aussi vers l infini Enfin ce param tre est galement le param tre unique de la fen tre de Parzen via l algorithme de Nadaraya Watson C est donc sur lui que se porte toute la connaissance de notre fen tre de Parzen en vue de son r glage dans notre but d apprentis
41. Fen tres de Parzen 1 2 1Qu est ce qu un mod le pr dictif Principe des pr dictions sur les donn es 7 Un mod le pr dictif est un outil Sa finalit est de r aliser les pr dictions n cessaires un ou des apprentissages Ainsi le mod le forme un noyau pour un algorithme d apprentissage Le mod le est d termin par l exp rience qui est faite et peut d pendre du jeu de donn es utilis es comme exemple Ainsi si un mod le pr dictif est d termin par une m thode de pr diction chaque exp rience peut d finir un mod le diff rent pour chaque jeu de donn es Le mod le pr dictif doit pouvoir donner une r ponse au probl me traiter et galement estimer la fiabilit de sa r ponse Sch ma de principe 2 Entr e a Sortie sa Mod le individu Heureux Donn e n Descri te Urs Source V Lemaire et A Bondu Brute p f Figure 1 Cha ne de traitement d un mod le pr dictif Comme la montre la cha ne de traitement d un mod le pr dictif le mod le intervient la suite d un chantillonnage rassemblant un certain nombre d entr es et permet une pr diction en sortie Beaucoup de mod les poss dent un ou plusieurs param tres qui vont permettre le fonctionnement puis l optimisation du mod le Certaines m thodes de pr dictions utilisent des exemples d apprentissages pour leurs mod les Ainsi le mod le de pr diction est fonction du r glage et des exemples d appr
42. Les k 1 ensembles d instances forment un grand ensemble d apprentissage La k i me ensemble d instances devient un petit ensemble de test Une illustration de ce partitionnement et regroupement et repr sent ci contre 26 Bloc 1 D Bloc 1 Bloc 3 DN Bloc 2 DN Bloc k Bloc k 1 Source Pascal Vincent Universit de Montr al Bloc k IA ner Eu ue Figure 12 k fold cross validation Partitionnement et regroupement des ensembles La r p tition des exp riences va permettre d obtenir des valeurs moyennes et des carts types des performances Ce sont ces carts type qui donne un estim de l erreur de g n ralisation Algorithme de la k fold cross validation Dans la r alisation faite la k fold cross validation construit de nouveaux ensembles d apprentissage et de test partir d une matrice de destination Celle ci permet d attribuer tour de r le les partitions d apprentissage et la partition de test Chaque ligne correspond une des k regroupements possibles 1 d signe la partition qui constituera elle seule l ensemble de test et 0 d signe les partitions qui seront regroup s dans l ensemble d apprentissage Ci dessous un exemple de matrice de r partition et ci contre l algorithme utilis pour la k fold cross validation O Se O O E 0 o S O 0 0 0 0 1 quation 14 Matrice de destinations k x k dans le cas k 5 27 tant donn s e Le param tr
43. Maxime Chesnel 4 me ann e lectronique et Informatique Industrielle france telecom R amp D RAPPORT DE STAGE D veloppement d une exp rimentation pour la recherche pp p P D termination du param tre d une fen tre de Parzen dans le cadre de l apprentissage actif Ma tre de stage M Lemaire Vincent France Telecom R amp D Remerciements Je remercie chaleureusement Vincent Lemaire de m avoir propos et d avoir encadr ce stage qui s inscrit dans le contexte de la recherche r alis e par le laboratoire TSI Traitement statistique de l information dans le centre de Recherche et D veloppement de France Telecom Lannion Je veux galement remercier Alexis Bondu pour sa participation active dans ce projet Je n oublie pas non plus l aide efficace des autres coll gues en particulier Pascal Gouzien et Carine Hue SOMMAIRE Antros du ctio n POD POD EO CO TE 2000000000 0000000000 000000000000 000000000000 000 0000000 O0 00 CO OO COCO ECO OO CO rr rrrrrrrrrrrrrrrr rro rr 4 112 rs e non supe L13 o Actif de L 2 rm r dictifs l Fen tres de Parzen IL 1 e de Pama dtilistes Dec Ce IL 1 1 Descriptions rss mue ee E AA TAE ORT one oo ne al ES E 23 12 Utilisation des Fen tres de Paren cie ZA IL 2 1 En e ue La T asis 24 123 e de valeur du PERTE a E A EE TE AE E E EE A EAE EEE E O E 11 3 1 Crit re PE tt O E P E AA A ENT E AEI E EA ILE Validation ESS un dd a
44. NY close figure 2 figure 2 c while isempty c 0 prompt strcat Quel pourcentage regarder parmi EERI dlg_title Pr cision du pourcentage def num2str pourcentages 1 a inputdlg prompt dlg title num lines def b str2double a c find pourcentages b end for j l param iteration i 1 1 b2max color 0 0 0 0 0 1 0 1 0 1 0 0 0 8 0 0 8 0 6 0 6 0 0 errorbar resultatsl i 1l c j resultats1 i 2 c j 2 res ultats1 i 3 c j Color color mod j 7 1 aucminimum min resultatsl 2 C 3 max resultats1 3 c j parzen sinon ate 1 1 6 met1l axis 0 sigma_max aucminimum 1 title Valeur des auc moyen en fonction de sigma xlabel param tre sigma utilis pour la fen tre de legend une it ration 4 hold on end grid prompt Enregistrement de la courbe 1 si oui 0 dlg_title Sauvegarde def 1 answer inputdlg prompt dlg_title num_lines def if numel answer 0 answer3 str2mat answer if answer3 1 1 savefilel strcat pwd file ladate file lad r1 num2str b sit num2str param_iteration k num2str k s num2str b2max r fig pourcents saveas figure 2 savefilel end end if answer2 2 1 c 1 while isempty c 0 prompt strcat Quel pourcentage regarder parmi DO dlg title Pr cision du pourcentage def num2str pourcentages 1
45. Pima Valeur des auc moyen en fonction de c une it ration j 5 9 0 1 2 3 4 5 6 param tre o utilis pour la fen tre de parzen Figure 18 AUC fonction de o sur le jeu de donn es Glass 42 III 4 Discussion La m thode de classification propose des valeurs de optimales auxquelles devront se rapprocher les autres m thodes Ces valeurs sont diverses car il y a un facteur 100 entre la plus petite valeur obtenue et la plus grande On a observ galement une forme typique des courbes de performance en fonction de la valeur de o Cette courbe est un effondrement une performance d environ 0 5 pour les valeurs suffisamment inf rieures au o optimal Ce qui signifie que le risque de sur apprentissage est la fois grand et cons quent La courbe maintient relativement bien ses performances pour une gamme de valeur de o au dessus du o optimal L effet du lissage des gaussiennes fait son effet tr s progressivement Ce qui pose provoque un effondrement ou non des valeurs pour de grandes valeurs de o Le risque du lissage est quasi inexistant On est donc amen penser que les m thodes qui fourniront une relativement grande valeur de o seront plus fiable que celles qui prendront des risques dans les petites valeurs de o 43 Xnamtpe Ic R glage du l aide des variances des donn es Ic 1 Introduction R le et attentes vis vis des exp riences Cette m thode utilise le r glage de Sch lkopf pour trouv
46. a calcul du sigma au carr sigma carre sigma 2 pr paration de la premi re boucle sur l ensemble de test b1 1 Param tre de boucle bimaxi size ens test blmax2 b1max1 1 taille de l ensemble de test en nombre d instances initialisation du tableau de pr diction une valeur pour chaque couple d instances de test et de classe predictions zeros blmax2 nbclasse while b1 blmax2 1 boucle sur l ensemble de test fprintf ligne de test r sultat interm diaire qui peut tre affich ens test bl r sultat interm diaire qui peut tre affich b2 1 Param tre de boucle o oe while b2 nbclasse 1 boucle sur les classes nbclasse b2 r sultat interm diaire qui peut tre affich rn O rd 0 Pr paration de la boucle sur l ensemble d apprentissage b3 1 param tre de boucle b3maxi size ens train b3max2 b3max1 1 Obtention du nombre d instance de l ensembl d apprentissage while b3 b3max2 1 boucle sur l ensemble d apprentissage ens train b3 r sultat interm diaire qui peut tre affich normeL2 norm ens train b3 ens test bl norme L2 o dist parzen exp normeL2 2 2 sigma_carre kernel distance au sens de parzen if b2 classes du train b3 si galit entre la classe courante et la classe de l instance d apprentissage rn rn dist parzen alors ajout de la distance au sens
47. a m thode 1 nous donne la validation de la performance de la m thode de classification en fonction des jeux de donn es et la portion de l ensemble d apprentissage utilis e Nous exploiterons d autres r sultats interm diaires int ressants tels que la performance de la m thode de pr diction Fen tre de Parzen en r gression en fonction de son param tre o ou encore le o optimal toujours selon le jeu de donn es et la portion d instances apprises Ci dessous un r capitulatif des trois r sultats que la m thode produit R sultat n 1 37 Pour une exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi D terminer la performance des pr dictions de la fen tre de Parzen en classification et ce en fonction de o R sultat n 2 o optimal Pour une exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi et partir du R sultat n 1 D signer parmi toutes les valeurs de o celui dont la performance est la meilleure donner ce o et sa performance R sultat n 3 Selon les exp riences faites sur des jeux de donn es pour tous les pourcentages de l ensemble d apprentissage choisis et partir du R sultat n 2 D terminer les performances d une fen tre de Parzen de classification muni du o optimal selon la fen tre de Parzen de classification Les repr sentations graphiques utilisant les moustaches utilisent 2 fois l cart
48. ables entre les diff rents essais et entre tous les jeux de donn es Nous utiliserons une m thode appropri e la classification AUC et une autre la r gression l AOC Utilisation AUC et AOC L AUC est l Area Under the ROC Curve c est dire l aire sous la courbe de ROC L AOC est quant lui l aire sur la courbe de REC Area Over the REC Curve Ce sont toutes deux des m thodes de quantification des performances des pr dictions L un l AUC est appropri la classification cf figure 8 l autre la r gression cf figure 9 On remarque que l AOC fournit une erreur au lieu d une performance On peut se ramener une performance en prenant le compl ment 1 de l erreur Mais les m thodes de calcul tant tr s diff rentes nous avons pr f r garder ce calcul d erreur qui permet de ne pas faire de confusion ou de comparaison dangereuse des r sultats de l AOC et l AUC Nous verrons par la suite et dans les m thodes de classification et de r gression que l on cherchera plut t le param tre o qui maximise l AUC ou qui minimise l AOC Instances pour Hyper param tre Classes des l apprentissage instances du mod le d apprentissage vecteurs et classes Matataas Fen tre de AUC etes Parzen Pr dictions Area Under the Performance vecteurs de Classification P instance ROC Curve de test et par classe Figure 10 Traitement des pr dictions par l AUC en classification 25 Instances pour Hyper para
49. alculer l esp rance des AUC pond rant par la proportion des classes Fin Pour Fin Pour valuer l AUC moyen et sa variance en fonction de la valeur de o Choisir un o optimal valuer la fen tre de Parzen de classification r gl e avec le o optimal sur les instances de l ensemble d apprentissage Train pour les instances de l ensemble de test Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour Calculer l esp rance des AUC pond rant par la proportion des classes Fin Pour Fin Pour Obtention d un AUC moyen et de sa variance pour le choix de o optimal selon la strat gie n 1 et pour chaque pourcentage Algorithme 6 M thode 1 Obtention du c optimal partir d une m thode de classification Fen tre de Parzen de classification 34 La fen tre de Parzen de classification r cup re 2 ensembles d instances un ensemble d apprentissage et un ensemble de test Les instances y sont toutes d finies dans une m me espace Pour chaque instance la fen tre va calculer les pr dictions de chaque classe Ces pr dictions sont compl mentaires 1 et permettraient d ores et d j de d terminer la classe pr dite pour une instance Cependant l analyse de la performance par la courbe de ROC et l AOC n utilisera pas les classes pr dites mais les valeurs de pr dictions pour
50. alis es Les donn es sont enfin sujettes au bruit Il en existe de plusieurs sortes gaussien blanc Ces d fauts des donn es sont des contraintes pour les diff rentes fen tres de Parzen Le r glage 20 devra se prot ger pour cela du sur apprentissage cf sous section sur l hyper param tre oO Chapitre I 2 Segmentation pr tablie Nous avons op r un formatage particulier facilitant la lecture des fichiers Ce formatage a permis de segmenter les donn es en 2 cr ant ainsi un ensemble d apprentissage et de test Illustration avec le jeu de donn es damier data 35 gt z 5 amp m T T T T 90 O a D o OO a 00 IS 30L O CE js 25F Da El ES SE e 4 E e S 9 o _ Fe 4 Eb 20 O 8 sE a 150 o F A el lo els O i o an O O did 005 d C 10F Yo Si FHF Bo 2 Se ha F o E HSE E ES Bao 7 E MT LE ae ee ZO o P RE A Don D ED Lak 0 5 10 15 20 25 30 35 Figure 8 Repr sentation de l ensemble d apprentissage et de ses 2 classes 10 15 Figure 9 Repr sentation de l ensemble de test et de ses 2 classes I 1 2Normalisation 21 Normalisation On choisit de centrer et r duire toutes nos donn es selon leur dimension Ainsi sur chaque dimension on doit obtenir une distribution des donn es r partie selon une loi normale Pou
51. aram tre k choisi de la k fold cross validation le nombre de valeurs de sigma examiner Lire le jeu de donn es s par en 2 ensembles le premier d apprentissage Train et l autre de Test Normaliser les donn es Choisir sigma comme la racine carr du nombre de dimensions Pour les pourcentages n choisis faire Pour j variant de 1 J faire Extraire 100 de l ensemble d apprentissage par un tirage sans remise valuer l AUC moyen et sa variance du sigma choisi Choisir un sigma optimal valuer la fen tre de Parzen de classification r gl e avec le sigma optimal sur les instances de l ensemble d apprentissage Train pour les instances de l ensemble de test Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour Calculer l esp rance des AUC pond rant par la proportion des classes Fin Pour Fin Pour Obtention d un AUC moyen et de sa variance pour le choix de sigma optimal selon la strat gie n 2 et pour chaque pourcentage Algorithme 9 M thode 2 Obtention du c optimal partir d un r sultat brut pr lev sur les donn es Ic 3 R sultats La m thode 2 nous donne la validation de la performance de la m thode de Sch lkopf en fonction des jeux de donn es et la portion de l ensemble d apprentissage utilis e Il n y a cette fois ci pas de performanc
52. ation se fait selon les dimensions de tous les l ments apprentissage et de test partir de l ensemble des donn es d apprentissage C est une normalisation centr e r duit Un pourcentage extrait de l ensemble d apprentissage est utilis pour l obtention du sigma optimal mais l ensemble des donn es d apprentissage est en fait exploit pour le test final Dans la m thode de r gression le sigma optimal est obtenu en minimisant la moyenne des AOC moyen obtenu pour chaque sigma En effet pour chaque sigma et pour chaque dimension il est calcul un AOC L ensemble des dimensions permet d obtenir pour chaque sigma une valeur d AOC moyen Enfin la k fold cross validation permet d obtenir une moyenne de l AOC moyen R f rences Bibliographiques D Cohn L Atlas R Ladner 1992 Improving Generalization with Active Learning V Lemaire A Bondu 2006 Etat de l art sur les m thodes statistiques d apprentissage actif Yoshua Bengio Pascal Vincent 2004 Manifold Parzen Windows Pascal Vincent 2003 Mod les noyaux structure locale Bernhard Sch lkopf 1999 Input Space Versus Feature Space in Kernel Based Methods 93 Bernhard Sch lkopf 2000 Statistical Learning and Kernel Methods Olivier Chapelle Active Learning for Parzen Window Classifier J rome Louradour 2007 Noyaux de s quences pour la v rification du locuteur par Machines Vecteurs de Support Tom Fawcett 2003 ROC Graphs Notes and Practical Considerations for Data
53. ax2 b4max1 2 Obtention de la tail de l ensemble des classes de test proba _classe 0 initialisation de la probabilit de la classe courante while b4 b4max2 1 boucle sur les classes de test if classe du test b4 b1 si la classe de test est gale la classe courante proba_classe proba_classe 1 b4max2 incr mentation de la probabilit de la classe courante end if si galit des classes alors sinon b4 b4 1 end While Boucle sur les classes de test auc auc int proba classe calcul de l esp rance des AUC pond ration par la probabilit des classes de l ensemble de test oe o b1 b1 1 end While Fin de la boucle sur les classes Code du fichier extraction m function app tab reduit app clas reduit extraction app tab app clas pourcentage Pr paration de la boucle sur les tirages de l ensemble d apprentissage bl 1 Param tre de boucle nb instancel size app tab nb instance nb instancel 1 Obtention du nombre d instances dans l ensemble d apprentissage tirage floor nb instance pourcentage 100 controle zeros nb instance 17 while bl tirage 1 ind floor rand nb instance 1 if controle ind 0 Pr paration de la boucle sur les dimensions des instances b2 1 b2maxl size app tab b2max2 b2maxl1 2 while b2 b2max2 1 recopie des instances app tab reduit b
54. ble des lements j 1 while j dim 2 if mod j dim 1 boucle sur chaque ligne trb i 1 dim 1 1 j element i j 1 else cl i 1 dim 1 1 element i j 1 1 173 end j j 1 end i i dim 1 end fgetl fid element2 fscanf fid Sg fclose fid i 1 while i nb test dim 1 1 j 1 while j dim 2 if mod j dim 1 tsb i 1 dim 1 1 j element2 i j 1 else cs 1 1 dim 1 1 element2 1 3 1 pr venir le d calage des classes end J 3 1 1 Ajout de un pour end 1 1 dim 1 end end Code du fichier normalisation m function app tab test tab normalisation app tab test tab Pr paration de la boucle sur les dimensions b1 1 Param tre de boucle bimaxi size app tab bimax2 bimaxl 2 Obtention du nombre de dimensions while bl blmax2 1 boucle sur les dimensions Initialisation 0 de la variance et de la moyenne pour chaque dimension moy 0 var 0 Pr paration de la boucle sur les instances de l ensembl d apprentissage b2 1 Param tre de boucle b2maxi size app tab b2max2 b2max1 1 Obtention du nombre d l ments dans l ensemble d apprentissage while b2 b2max2 1 l re boucle sur les instances pour calculer la moyenne o moy moy app tab b2 b1 b2max2 incr mentation de la moyenne b2 b2 1 incr mentation du param tre de boucle end While fin de la boucle sur les
55. bre d l ment de 1 tom oe est inf rieur au partitionnement if cardtab lt k 80 fprintf Attention le nombre d instances de 1 ensembl au param tre de partitionnement k end if fin de l avertissement conditionnel oe D termination du nombre d instances minimale par partition floor cardtab k D o Cr ation de la matrice d effectifs par partitions mat ones k n o D termination du nombre d instances restantes a distribuer partitions fourni est inf rieur entre les m mod cardtab k Pr paration de la boucle sur les m premieres partitions de mat b1 1 while bl m 1 mat b1 mat b1 1 R partition des instances restantes dans les partitions bl b1 1 passage a la partition suivante end While Fin de la boucle sur les m premieres partitions Cr ation et remplissage de app tab et de test tab Pr paration de la boucle sur le vecteur de r partition b1 1 Initialisation du rep re de la ligne du tableau app tab criture b3 1 Initialisation du rep re de la ligne du tableau app tab criture b 6 1 Initialisation du repere de la ligne du tableau tab lecture b4 1 while bl k 1 o Pr paration de la boucle b2 b2 1 while b2 mat b1 1 chaque tour boucle permettant le transfert if repartitions b1 0 dans l ensemble d apprentissage si l indic
56. clusion L apprentissage statistique noyaux offre de bonnes possibilit s d apprentissage en particulier avec la fen tre de Parzen Cet outil permet quand il est bien r gl de fournir des performances optimales d apprentissage en classification en r gression en estimation de densit etc Mais l optimalit du r glage n est pas ais e La recherche d une m thode qui fournirait le m me apprentissage du param tre o que la classification supervis e est maintenant bien entam e La m thode d obtention de o par les variances et la dimension des donn es parait satisfaisante mais peut tre incompl te car elle ne convient pas tous les jeux de donn es Damier en particulier Peut tre faudrait il l accompagner d un apprentissage des regroupements des donn es En attendant l apprentissage actif qui permet une nouvelle forme d apprentissage plus efficace se voit conforter dans le r glage d un de ces outils la fen tre de Parzen de classification Par cette tude on sait que parmi toutes les m thodes test es la m thode de Sch lkopf pr vaut pour son r glage 60 Annexe D veloppement du projet sous Matlab Langage Matlab Le langage utilis est Matlab C est un langage interpr t qui propose de nombreuses fonctions de haut niveau offrant beaucoup de libert s l utilisateur Par exemple il poss de des fonctions permettant de trier un tableau de valeurs tout en fournissant les indices des l ments correspondant sort
57. d apprentissage il y a une interaction entre le mod le et son environnement C est une strat gie active par opposition aux strat gies passives o tous les exemples apprendre sont choisis avant l exp rience Mais avant d en venir une m thode d apprentissage actif il se pose le probl me de l chantillonnage des donn es chantillonnages et chantillonnage S lectif Un chantillonnage de donn es est la s lection d un ensemble de donn es extrait d un ensemble plus grand Dans le cas de l apprentissage actif l chantillonnage peut prendre deux formes que sont l chantillonnage s lectif et adaptatif L chantillonnage s lectif est comme son nom l indique un chantillonnage qui se contente d une s lection parmi les donn es poss d es Ces donn es peuvent avoir une forme brute image son etc ou peuvent tre repr sent es par des descripteurs des vecteurs de donn es Dans le cas s lectif on est certain que les donn es s lectionn es existent puisqu elles proviennent directement des donn es L chantillonnage adaptatif permet quant lui l exploitation enti re de l existence des instances de donn es ou descripteurs En effet les descripteurs forment un espace qui contient toutes les donn es r elles Il est donc possible de s interroger sur des donn es virtuelles cr es par une variation des descripteurs ne correspondant aucune donn es brutes L int r t d une telle pratique est lorsque l on pos
58. d it rations Par contre l utilisation d un pourcentage double peut multiplier par quatre la dur e d une exp rience munie d un pourcentage Chargement du nombre d exp riences r aliser prompt Combien de jeux de donn es examiner Ve dlg title Exp rimentation des performances des m thodes sur des donn es def 1 num lines 1 answer inputdlg prompt dlg title num lines def if numel answer 0 answer2 str2mat answer o Initialisation du tableau des m thodes methodes zeros str2double answer2 1 fichiers Pour initialisation de la chaine de caract re du fichier r cup rer initialisation du tableau des longueurs des noms de fichiers longueurs zeros str2double answer2 1 o initialisation du tableau des dur es durees zeros str2double answer2 1 Figure 28 pilotage m 2 Interface graphique et demandes d ordres La partie suivante cf figure 28 du code de pilotage m concerne l interface graphique et la sauvegarde des ordres de l utilisateur dans un tableau La 1 sous partie est une demande l utilisateur Combien de jeux de donn es examiner Cette demande doit r cup rer un chiffre qui en convertit en cha ne de caract re puis en nombre 63 Un If permet de s assurer que rien ne sera ex cut si aucun l ment n est r cup r Ils sont alors cr es 1 tableau num rique et 1 cha ne de caract re qui perm
59. de parzen au num rateur du r sultat 75 end if galit entre les 2 classes rd rd dist parzen ajout quelque soit l l ment de 1 ensembl d apprentissage de sa distance au sens de parzen au d nominateur du r sultat Toe D03 F De r rn rd r sultat interm diaire qui peut tre affich end while fin de la boucle sur l ensemble d apprentissage if rd 0 rd eps end predictions b1 b2 rn rd enregistrement de la valeur obtenue dans le tableau b2 b2 1 end while fin de la boucle sur les classes b1 b1 1 end while fin de la boucle sur l ensemble de test Code du fichier aucesperee m function auc aucesperee classe du test predictions Pr paration de la boucle sur les classes b1 1 Param tre de boucle bimaxl size predictions bimax2 bimaxl 2 nombre de classes diff rentes Initialisation des r sultats o auc 0 while b1 blmax2 1 bouble sur les classes predictions ordre croissant indice prediction sort predictions b1 Tri des donn es dans l ordre croissant Pr paration de la boucle d croissante sur les pr visions b2maxl size indice prediction b2max2 b2maxl1 1 b2 b2max2 param tre de boucle Initialisation des param tres de la courbe de roc dont on calcule l aire x 0 abscisse y 0 ordonn e int 0 aire sous la courbe de roc calcul par la m
60. de l apprentissage statistique Sa vocation est d exploiter des bases de donn es afin d en extraire des connaissances usages professionnels Les bases de donn es des entreprises comportent un g n ral un tr s grand nombre de donn es A la diff rence de l apprentissage statistique aucune hypoth se n est faite sur les donn es Ainsi le logiciel de data mining doit d terminer lui m me les corr lations et caract ristiques int ressantes des donn es qu il explore Le stage et ses objectifs se situent la fois dans ces deux domaines En effet il concerne l apprentissage actif une voie d apprentissage statistique que l on veut munir d algorithmes d apprentissages en les valuant sur un grand nombre de donn es L apprentissage actif a t formalis en 1992 par des chercheurs am ricains Il consiste d terminer les donn es les plus instructives pour l apprentissage Dans un premier temps nous verrons l apprentissage actif le 4 cadre de ce stage et la fen tre de Parzen outil qui nous fournira plusieurs algorithmes d apprentissages statistiques Nous aborderons ensuite la conception des proc dures exp rimentales et les choix r alis s Nous terminons par les justifications faites sur chaque algorithme et les r sultats obtenus Xnamitpe I Fen tre de Parzen dans le cadre de l apprentissage Actif L1 Apprentissages et Apprentissage Actif Les m thodes d apprentissage exploitent la base d apprentissage pour produire des r
61. de la m thode la nature du r sultat cod par rl r2 ou r3 le ou les pourcentages utilis es le param tre k de la k fold cross validation le nombre d it rations et enfin le nombre de valeurs de sigma Attention il r side un dysfonctionnement pour la r alisation du tableau r3 Pour pouvoir exploiter les valeurs num riques il faut r unir les r sultats r2 de tous les pourcentages utilis es et faire des calculs de moyenne et d cart type dans un tableur Tableaux des R sultats R1 Ils sont constitu s de s ries de 3 colonnes mises ensemble Si 5 it rations ont t r alis es cela fera 3 5 15 colonnes Ils contiennent les valeurs de sigma 1 re colonmne les valeurs d AOC moyen c est une moyenne de moyenne moyenne des AUC esp r e en 2 colonne et enfin les carts types des AOC moyen AUC esp r es en 3 colonne Ils y a autant de lignes que de sigma calcul es Tableaux des R sultats R2 Ils n y a qu un seule ligne Elle contient le sigma optimal autant de fois que d it rations puis la valeur d AUC calcul e sur ce sigma optimal l encore autant de fois que d it rations Les valeurs de sigma optimal sont mis ensemble et les valeurs d AUC aussi Tableaux des R sultats R3 Partie non fonctionnelle 11 faut utiliser R2 Tableaux des Figures R1 AUC et AOC fonction de sigma et donn es contenues dans tableau R1 voir tableau R1 Tableaux des Figures R2 AUC optimaux et AUC calcul es avec donn es cont
62. de la variance partir de la moyenne b2 b2 1 end b1 b1 1 end o Cr ation du tableau des carts types Pr paration de la boucle sur les valeurs de sigma b2 1 while b2 b2max 1 Nouvelle boucle sur les valeurs de sigma afin de calculer l cart type resultats1 b2 3 i j sqrt var b2 calcul de l cart type partir de la variance b2 b2 1 end resultats2 1 3 1 sigmaxaucmoy Pour chaque it rations on enregistre le sigma optimal obtenu predictions parzenl tr ts cl nb clas sigmaxaucmoy on execute la fen tre de parzen de classification r gl e l aide du sigma optimal lauctestfinal aucesperee cs predictions on mesure la performance des pr dictions obtenues gr ce l auc resultats2 i j 2 auctestfinal enregistrement de cette valeur d auc dans un tableau d auc associ son sigma optimal moyenneauc moyenneauc auctestfinal iterations i calcul de la moyenne des auc pour le pourcentage courant waitbar i 1 iterations i j numel pourcentages param iteration end o Calcul de la variance des donn es selon les it rations var2 0 initialisation de la variance attribu chaque pourcentage for j l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage var2 var2 resultats2 i j 2 moyenneauc 2 iterations i calcul de la variance partir de la
63. du tableau des combinaisons de destinations possibles 1 parmi k Normalisation des donn es tr ts normalisation trb tsb si reglages automatiques de sigma min et sigma max if sigma auto sigma min sigma max reglagesigma tr end 70 Pr paration de l exp rienc sigma pas sigma max sigma min nb sigma D termination du param tre epsilon chapeau n cessaire pour l aoc la m thode consiste trouver l cart le plus grand avec un mauvais estimateur qui donnerait tout le temps 0 epsilon max max max max tr max max ts min min min tr min min ts l re boucle sur les pourcentages du train utilis pour l exp rience for i l numel pourcentages pourcentage en cours pourcentages i Pour l affichage du poucentage en cours moyenneauc 0 on initialise la moyenne des auc pour chaque pourcentage for j 1l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage o iterations en cours j Pour l affichage du num ro d it ration en cours o tr2 c12 extraction tr cl pourcentages 1 extraction d un pourcentage des ensembles Pr parations de la boucle sur les k listes b1 1 blmax1l size listes blmax2 blmaxl 1 on initialise tous les sigma de r sultat la valeur de sigma min sigminaoc sigma_min oe o on cr e un tableau qui va permettre de recueillir les valeurs d
64. e classification doit rester l encore la plus performante Il se peut par contre que dans des cas de pourcentage de donn es inf rieur 100 on observe de meilleurs r sultats sur d autres m thodes Ceci est dans l hypoth se o un tirage bon ou excellent se produise d un c t et un mauvais ou tr s mauvais tirage de l autre valeur des auc pour diff rents pourcentages extraits de ensemble d apprentissage auc moyen obtenue DO mesa ea pensas nets ere PS ENEE hennerenecnnnnon Dresser terres DO sees A ee SS ESAS eee ERRATA OE Join OLSEN ica sn SR iii TO PEIEE TITANIA A sac res J luis AE ETNE aso Peesertereeeeesireeennenseeeei as ges sg al 0 10 20 30 40 50 60 70 80 90 100 pourcentages du train utilis Figure 16 Variations des performances selon la quantit de donn es sur Wine Influence du choix du Jeu de donn es Pima et Glass semble tre les jeux les plus difficiles apprendre On peut constater cette difficult sur les graphes des r sultats 1 r alis es sur ces 2 jeux de donn es sur lesquels on observe soit un effondrement pr coce pour les grands o et courbe plus basse Pima 41 Valeur des auc moyen en fonction de o lero Il A o t i j LE j bi m quil ii ODIA ll i qu Il il Mu Il ll NU La E a Fl ill ANNAN 0 1 2 3 4 5 6 7 5 param tre o utilis pour la fen tre de parzen Figure 17 AUC fonction de o sur le jeu de donn es
65. e de la m thode examiner en fonction des valeurs de o puisque celui ci est d j choisi Ci dessous un r capitulatif des r sultats de cette m thode R sultat n 2 o optimal Pour une exp rience faite sur un jeu de donn es D signer la valeur de o et sa performance R sultat n 3 45 Selon les exp riences faites sur des jeux de donn es pour tous les pourcentages de l ensemble d apprentissage choisis et partir du R sultat n 2 D terminer les performances d une fen tre de Parzen de classification muni du o optimal selon la le choix de Sch lkopf Optimalit du Param tre de la fen tre La valeur de o d termin e par la dimension des donn es semble convenir Hormis avec le jeu Damier o le r sultat est tr s mauvais tous les jeux de donn es donnent de bon r sultats Le r glage r alis n est peut tre pas optimal mais il s en approche vraiment en donnant pour toutes les donn es normalis es un o forc ment sup rieur ou gal 2 Il vite tout risque de sur apprentissage Par contre il ne peut viter le risque de lissage qui repr sente un risque tr s mod r sauf dans le cas de certains jeux de donn es comme Damier En effet les donn es y sont regroup s par des paquets de tels sorte que s y on donne beaucoup d importances aux paquets voisins en augmentant o 2 par exemple les performances s effondrent On pourra se donner une id e en regardant la figure 8 qui repr sentent
66. e est 0 on opte pour des interruptions et des interrogations des choix de l utilisateur chaque fin d exp rience Les sauvegardes se vont semi automatiquement car l utilisateur contr le ce qu il veut sauvegarder Dans la fen tre de dialogue Matlab peuvent tre r alis s des sauvegardes Mais a priori toutes autres extractions de donn es copies manuelles du contenu des variables doit revenir modifier le code du prototype ou mieux n ex cuter qu une seule m thode la fois afin de profiter du contenu des variables toujours existantes Ensuite il vient le choix du param tre de la k fold cross validation qui doit au minimum gal 2 et peut tre aussi bien pair qu impair Pour finir avec les param tres le r glage de la gamme du sigma demande d abord l utilisateur si ce r glage doit se faire automatiquement Si oui 1 peu importe les valeurs donn es de sigma min et sigma max car elles ne seront pas pris en compte Ces valeurs seront r gl es dans les m thodes selon les m thodes vues au Chapitre II Sigma min et sigma max peuvent aussi tre r gl manuellement et pour cela sigma auto devra tre gal 0 La pr cision du nombre de sigma est obligatoire pour l exp rience Le renseignement des param tres est obligatoire et doit tre sauvegard s avant la compilation et l ex cution des exp riences La dur e de l exp rience sera a priori proportionnelle avec la valeur de k le nombre de sigma et avec le nombre
67. e est gal 0 sur le nombre d instances transferer d un instance on place l l ment b5 1 b5maxl size tab b5max2 b5maxl 2 while b5 b5max2 1 t1 b3 b5 tab b4 b5 b5 b5 1 end b3 b3 1 passage l instance suivante en criture b4 b4 1 passage l instance suivante en lecture 81 o else sinon on le place dans l ensemble de test b5 1 b5maxl size tab b5max2 b5maxl 2 while b5 b5max2 1 t3 b6 b5 tab b4 b5 b5 b5 1 end b 6 b6 1 passage a l instance suivante en criture b4 b4 1 passage a l instance suivante en lecture end b2 b2 1 passage l instance suivante parmi les mat b1 instances end b1 b1 1 end app tab t1 test_tab t3 Code du fichier explicative2cible m function app tab reduit test tab reduit app valeurs cibles test valeurs cibles explicative2cible app tab test tab dimension o Pr paration de la boucle sur les dimensions de lecture bl 1 blmaxl size app tab bimax2 bimaxl 2 nombre de colonnes gt dimensions de l ensemble de test et d apprentissage oe Pr paration du parametre d criture des dimensions pour les 2 nouveaux ensembles b2 1 while b1 blmax2 1 boucle de lecture sur les dimensions de l ensemble d test et d apprentissage if dimension b1 Si la dimension courante des valeurs explicatives est celle qui est demand e alors app valeu
68. e k e Un ensemble d instances et si besoin leurs classes si classification Construire une matrice k x k de r partitions des instances pour le partitionnement avec des 0 et des 1 avec 0 pour les partitions destin es l ensemble d apprentissage et 1 destin es l ensemble de test Construire une liste de k nombre d instances mettre dans les k partitions Pour toutes les lignes de la matrice faire Pour toutes les partitions faire Se placer au niveau du ler l ment de cette partition Lire le nombre d instances r cup rer dans la liste voir plus haut Si la valeur associ e dans la matrice de r partition est 0 et la destination est l ensemble d apprentissage Mettre le nombre d instances calcul es dans l ensemble d apprentissage Mettre si besoin les classes correspondantes dans l ens des classes d apprentissage Sinon la valeur associ e dans la matrice de r partition est 1 et la destination est l ensemble de test Mettre le nombre d instances calcul es dans l ensemble de test Mettre si besoin les classes correspondantes dans l ens des classes de test Fin si Op rer sur ces nouveaux ensembles de test et d apprentissage Selon la m thode Fen tre de Parzen AUC etc Fin Pour Fin Pour Algorithme 3 k fold cross validation 11 3 3Estimation de la performance finale Principe Nous devons valuer les performances et comparer les diff rentes valeurs des o obtenues On utilise donc un
69. e lissage cf figure 14 et 17 La m thode de r gression prend donc davantage de risques dans l obtention de o La pr cision des choisi n est bonne pour aucune des m thodes mais cette t che est assez difficile La m thode de classification a en effet aussi cette grande gamme de valeurs convenables pour 6 De toute fa on la pr cision des o c est dire la capacit d une m thode fournir le m me o que la m thode de classification importe peu priori L essentiel est la performance et la pertinence des o choisies Etant performance et pertinence peu pres gal gale les m thodes 2 et 3 se d partagent sur le crit re de la rapidit notre r alisation de la m thode de r gression devait contenir 5 boucles de calcul tandis que la m thode 2 n en contenait que 2 Les exp riences de la m thode 2 offrent des r sultats rapidement de l ordre de l heure au maximum tandis que la m thode 3 peut prendre des semaines sur des grands jeux de donn es La m thode 2 assure donc une supr matie sur la m thode 3 malgr une pertinence limit e 58 a cs Damier omoow mismos ia ame 0202 omo Die ose mous 2 ons ones roman oms oes morn men eme noms Crime zos ooe 20 ous ue emoon Mustratian 2260 oem are 000 orom sms sinx coso roman ue osoon ame moe Cusrss us mous 10 oo 20329 emo Tableau 6 Comparaison des performances des m thodes 59 Con
70. ef if numel answer 0 answer3 str2mat answer if answer3 1 1 savefile2 strcat pwd file ladate file lad ate 1 1 6 metl1 r2 num2str b sit num2str param iteration k num2str k s num2str b2max a dl IDO wklwrite savefile2 resultats2 c end end end if answer2 3 1 fprintf Tableaux des auc et cart types par pourcentages de train utilis es n resultats3 prompt Enregistrement de la courbe 1 si oui 0 sinon dlg_title Sauvegarde def 1 answer inputdlg prompt dlg title num lines def if numel answer 0 answer3 str2mat answer if answer3 1 1 savefile3 strcat pwd file ladate file lad ate 1 1 6 met1l r3 pourcents it num2str param iteration k num2str k s num2str b2max wk1 wkiwrite savefile3 resultats3 end end end end end answer 1 while numel answer 0 prompt Graphique des auc moyen cart type en fonction des sigma 1 si oui O sinon Graphique des sigma optimaux et auc correspondants 1 si oui 0 sinon Graphique des auc cart types par pourcentages de train utilis es 1 si oui 0 sinon dlg title Courbes def AO AI E answer inputdlg prompt dlg title num lines def if numel answer 0 si un affichage de courb st demand answer2 str2mat answer 86 pourcents 0 8 0 8 0 0 1 if answer2 1 TI
71. ence du choix du Jeu de donn es On observe que dans le cas de jeux de donn es Australian et Damier les valeurs de o ne sont pas optimales ou risque de le devenir avec la diminution de la quantit de donn es utilis es Pima et Glass jeux de donn es les plus difficiles apprendre en classification maintiennent bien leurs performances partir d un r glage en r gression Les autres jeux de donn es voient un maintien ou une l g re diminution de la performance de leur apprentissage en classification Dans les figures 21 22 et 23 on observe 3 courbes diff rentes qui s loignent de la cuill re obtenue avec Pima Elles r v lent les difficult s trouver la valeur de o qui minimise l AOC Dans la figure 23 la courbe est tellement plate que la d termination du o est quasi al atoire l int rieur d une certaine gamme de o 55 Valeur des aoc moyen en fonction de o o T T v Z 3 param tre o utilis pour la fen tre de parzen Figure 23 AOC en fonction de o sur Australian Valeur des aoc moyen en fonction de 0 03 0 06 0 07 tion 2 era m 5 param tre o utilis pour la fen tre de parzen Figure 24 AOC en fonction de o sur Glass 56 Valeur des aoc moyen en fonction de o une it ration 0 0 5 1 1 5 2 param tre o utilis pour la fen tre de parzen Figure 25 AOC en fonction de o sur Sin x 3 c 4 Discussion La m thode de r gression fourni
72. enneauc 2 iterations i calcul de la variance partir de la moyenne end resultats3 i l moyenneauc enregistrement de la moyenne des auc pour chaque pourcentage resultats3 1 2 sqrt var2 enregistrement de la variance des auc pour chaque pourcentage end Code du fichier methode3 m function methode3 pourcentages param iteration k sigma auto nb sigma sigma min sigma max test sauvegarde automatique sans affichage filename Choix du nombre d it rations par pourcentage en fonction que l argument fourni est un tableau ou une valeur if numel param iteration lt numel pourcentages iterations param iteration ones numel pourcentages else iterations param iteration end Extraction des donn es du fichier trb cl tsb cs nb clas donnees filename o recopie du nombre de sigma a tester b2max nb sigma o Pr paration de la r ception des r sultats dans 3 tableaux diff rents resultatsl zeros b2max 3 numel pourcentages param iteration Stockage de toutes les valeurs de sigma d auc de variance resultats2 zeros numel pourcentages param iteration 2 Stockage des sigma optimaux et des auc que l on a obtenues avec resultats3 zeros numel pourcentages 2 stockage des auc et de leur variance pour chaque pourcentage de train utilis Pr paration du tableau des combinaisons Q listes eye k Cr ation
73. entissage comme dans le sch ma ci dessous Exemples pour Param tres de l apprentissage r glages du mod le du mod le Entr e Sortie Mod le p Figure 2 Le mod le pr dictif 1 2 2Un mod le pr dictif la fen tre de Parzen La fen tre de Parzen est la fois un outil statistique et un mod le pr dictif muni d un param tre Mais le fonctionnement et la d termination de la fen tre se basent sur des exemples de donn es qu on lui propose Ainsi un jeu de donn es correspond un mod le alors que la m thode de pr diction reste la m me Concept de Fen tre de Parzen La fen tre de Parzen est une m thode de pr diction sugg r e par M Parzen Elle s intitule fen tre car en effet elle propose de ne regarder dans un espace de donn es que les l ments situ s dans un hyper volume autour de l l ment pr dire Ce volume serait par cons quent un cadre ou une fen tre dans un espace deux dimensions La fen tre de Parzen permet un apprentissage par voisinage et noyau Elle est donc proche de la m thode des k ppv les k plus proches voisins k nn K Nearest Neighbors en Anglais Elles permettent toutes les deux de r aliser une pr diction quelconque sur un l ment en prenant en compte les l ments les instances dont la proximit sera jug e suffisante La diff rence r side dans le fait que les k plus proches voisins d finissent partir de donn es une fen tre qui les encercle tandi
74. enues dans tableau R2 voir tableau R2 Tableaux des Figures R3 AUC moyen et cart type pour chaque pourcentage extraits de l ensemble d apprentissage 91 Annexe Mode d emploi Pr parer le nombre d exp riences et charger cette commande Exemple 5 exp riences Pima m thode 1 Damier m thode 2 Iris m thode 3 Australian m thode 1 Iris m thode 1 Ce qui donne 5 OK Pima OK 1 OK Damier OK 2 OK Iris OK 3 OK Australian OK 1 OK Iris OK 1 OK Annuler quitte tout A la fin l exp rience peut commencer Combien de jeux de donn es examiner Select a file Quelle m thode doit tre utilis e 7 m Australian03 Aug 2007 a Australian16 Aug 200 OK Cancel OK Cancel Australian 1 Aug 200 Australian2 2 Aug 200 Australian 7 Aug 200 Australian 7 Jul 2007 Australian28 Aug 200 7 Damier03 Aug 2007 Damier21 Aug 2007 Damier21 Aug 2007 Damier27 Aug 2007 file Edit Debug Desktop Windo Damier27 Jul 2007 D X m pl Emovoc data Emovoc 08 Aug 2007 Emovwoc29 Jul 2007 Glass data Glass03 Aug 2007 Damier data Glass03 Sep 2007 Glass16 Aug 2007 L noces On peut suivre l volution de Loo l 1 Shortcuts Z How to Add 2 What s New Current Directory fichiers l exp rience avec l affichage de certains param tres comme le nombre da ace d it rations le pourcentage en cours le or partitionnement etc sigma_max 2 2321 pourcentage_en_cours
75. er le meilleur o de la fen tre de Parzen de classification On peut s attendre ce qu elle ait de bonnes performances puisqu elle a plusieurs t fois utilis e jusque l Mais on pense qu elle pourrait avoir aussi des limites dans certains cas de figure vu sa simplicit Ic 2 Impl mentation Particularit s de la proc dure Pour des soucis de similarit s avec les autres m thodes la m thode d obtention par la dimension prend en param tre exactement les m mes arguments que les autres m thodes Une extraction par un tirage sans remise est galement r alis e mais elle est toujours de 100 On d termine avant l exp rience le o optimal comme la racine carr de la dimension des donn es normalis es Une exp rience ne contient qu une seule tape le test final utilisant ce param tre Le test final calcule la performance du o optimal sur la fen tre de Parzen de Classification et fournit la valeur d AUC esp r e correspondante L exp rience est r it r e suivant tous les pourcentages examiner et le nombre d it rations demand es On obtient donc finalement plusieurs valeurs d AUC pour chaque pourcentage de l ensemble d apprentissage extrait Ceci permet d en calculer une moyenne et un cart type Algorithme 44 tant donn s le jeu de donn es sous un formatage particulier des pourcentages n choisis pour le tirage des donn es du train un nombre d it rations choisis pour chaque pourcentage un p
76. ers fichiers strvcat fichiers filename o Choix de la m thode par bo te de dialogue prompt Quelle m thode doit tre utilis e pe dlg title Choix de la m thode def 1 answer inputdlg prompt dlg title num lines def o Si il y a eu une r ponse r cup rer la m thode et la mettre dans un tableau if numel answer 0 answer3 str2mat answer methodes i str2double answer3 end end Figure 29 pilotage m 3 Interface graphique et demandes d ordres La Proc dure de r cup ration du nom du fichier et de sa m thode cf figure 29 est incluse l int rieur d une boucle qui fait appel 2 bo tes de dialogue chaque tour de boucle Le nom de fichier est d abord concat n verticalement la cha ne de caract re existante ce qui fait qu une ligne correspondra bien un fichier La longueur du nom de fichier est ajout e au tableau de longueurs Puis le num ro de la m thode est ensuite ajout au tableau des m thodes 64 Pour finir cf figure 31 une boucle est r alis e sur le nombre d exp riences et ex cute en fonction du num ro de m thode la m thode appropri e avec tous les param tres n cessaires un parall lisme a t souhait et conserv entre les m thodes Une fois l ex cution termin la boucle se termine et un chronom tre qui a t lanc se termine enregistrant dans le tableau de dur e celle de l exp rience termin e
77. ettent la sauvegardes des m thodes et des noms de fichiers qui leurs correspondent Le but est d ainsi conna tre l avance toutes les fichiers ex cuter et sur une m thode parmi 1 2 ou 3 Le tableau est de la taille du nombre d exp riences r aliser qui est d j indiqu par l utilisateur La cha ne de caract re est vide au d part et sera r alis par concat nation Un tableau longueurs tient une trace de la longueur du nom de fichier Ceci est d un int r t pratique puisque le tableau de noms de fichiers a la largeur du plus grand nom de ces fichiers Il faut donc sauvegarder la longueur pour extraire correctement un nom de fichier de ce tableau Un dernier tableau qui est alors cr e est un tableau de dur es des exp riences qui permet la fin d une s rie de dizaines d exp riences de conna tre la contribution des exp riences dans le temps d ex cution Ceci afin de mieux g rer le choix des param tres ou par la suite de programmer des exp riences d une certaine dur e Boucle sur le nombre d exp riences r aliser for i 1 str2double answer2 Proc dure de r cup ration du nom du fichier avec interfac d dir str d name s v listdlg PromptString Select a file SelectionMode single ListString str filename str s R cup ration de la longueur du nom du fichier longueurs i numel filename Pour concatener verticalement les noms des fichi
78. ffichage Les partie affichages de methode2 m et methode3 m se trouvent la fin des fichiers Les fichiers sont accessibles dans les r pertoire Parzen Projet pourcents strrep num2str pourcentages DPI EE E Pr paration des noms de fichiers pour les sauvegardes file filename 1 1 length filename 5 ladate date o Pr paration du dossier de sauvagarde mkdir strcat file ladate if sauvegarde automatique sans affichage 0 button questdlg Pour afficher valeurs graphiques souhait s ou enregistrer des donn es cliquez sur OK Attention Annuler quitte d finitivement le menu Menu de r cup ration des donn es Ok Annuler Ok while button 1 0 close figure 1 84 pourcents strrep num2str pourcentages PE EE Pr paration des noms de fichiers pour les sauvegardes file filename 1 1 length filename 5 ladate date Pr paration du dossier de sauvagarde mkdir strcat file ladate answer 1 while numel answer 0 prompt Tableaux des sigma auc moyen et cart type 1 si oui O sinon Tableaux des sigma optimaux et auc correspondants 1 si oui 0 sinon Tableaux des auc et cart types par pourcentages de train utilis es 1 si oui 0 sinon dlg title Donn es num lines Ls def EN LEON ONE answer inputdlg prompt dlg title num lines def if numel answer 0 si un affichage de donn es est demand
79. fold cross validation e le nombre de valeurs de o examiner Lire le jeu de donn es s par en 2 ensembles le premier d apprentissage Train et l autre de Test Normaliser les donn es D terminer le o minimal plus petite distance entre 2 instances et maximal plus grande distance avec le barycentre des instances Calculer le pas de o partir du min et du max et du nombre de valeurs de o Pour les pourcentages n choisis faire Pour j variant de 1 J faire Extraire n de l ensemble d apprentissage par un tirage sans remise Pour toutes les combinaisons possibles des k partitions en 2 partitions Regrouper les k partitions en 2 s ensembles New_Train New_Test avec k 1 partitions pour New_Train et 1 pour New_Test Pour o variant de Omin Omax AVEC UN pas Opas faire valuer la performance du o courant selon la m thode de classification ou r gression Fin Pour Fin Pour valuer la performance moyenne et sa variance erreur de g n ralisation en fonction de la valeur de o Choisir un o optimal celui qui maximise la performance valuer la fen tre de Parzen de classification r gl e avec le o optimal sur les instances de l ensemble d apprentissage Train pour les instances de l ensemble de test Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour Calculer l esp rance des AUC
80. fonction aoctest if test 1 valeur aoc aoctest test valeurs cibles estimations epsilon else valeur aoc aoc test valeurs cibles estimations epsilon end aoccourant aoccourant valeur aoc b3max2 calcul de l aoc moyen partir des aoc b3 b3 1 end r alisation d un tableau de valeur comparatives resultats1 b2 1 i j sigma pour un sigma donn e tableauaoc b2 b1 aoccourant resultatsl b2 2 1 3 resultatsl b2 2 1 aoccourant blmax2 on fait la moyenne des k valeurs des a0c oe sigma sigma sigma_pas b2 b2 1 o end Fin de la boucle sur les valeurs de sigma b1 b1 1 end minaoc 1 b1 1 while bl blmax2 1 Boucle sur les listes de k partitions b2 1 while b2 b2max 1 Nouvelle boucle sur les valeurs de sigma afin de calculer la variance des aoc sur les k partitions var b2 var b2 resultats1l b2 2 i j tableauaoc b2 b1 2 blmax2 calcul de la variance partir de la moyenne if resultats1l b2 2 i j lt minaoc minaoc resultatsl b2 2 1 3 minimas obtenu pour la partition en cours sigminaoc resultatsl b2 1 1 3 end b2 b2 1 end b1 b1 1 end b2 1 while b2 b2max 1 Nouvelle boucle sur les valeurs de sigma afin de calculer l cart type 12 resultats1 b2 3 i j sqrt var b2 calcul de l cart type partir de la variance b2 b2 1 end resultats2 1 3 1 sigminaoc predictions par
81. ich rn 0 rd 0 Pr paration de la boucle sur l ensemble d apprentissage b2 1 param tre de boucle b2maxi size ens train b2max2 b2max1 1 Obtention du nombre d instance de l ensembl d apprentissage while b2 b2max2 1 boucle sur l ensemble d apprentissage ens train b2 r sultat interm diaire qui peut tre affich normeL2 norm ens train b2 ens test bl norme L2 o dist parzen exp normeL2 2 2 sigma_carre kernel distance au sens de parzen rn rn dist parzen valeurs cibles b2 ajout de la distance au sens de parzen au num rateur du r sultat rd rd dist parzen ajout de la distance au sens de parzen au d nominateur du r sultat b2 b2 1 r rn rd r sultat interm diaire qui peut tre affich end while fin de la boucle sur l ensemble d apprentissage if rd 0 rd eps end estimations bl rn rd enregistrement de la valeur obtenue dans le tableau b1 b1 1 end while fin de la boucle sur l ensemble de test Code du fichier aoc m function valeur aoc aoc test valeurs cibles estimations epsilon Pr paration de la boucle sur les valeurs cibles b1 1 bimaxl size test valeurs cibles blmax2 bimaxl l Cr ation du tableau des valeurs absolues de l erreur entre les valeurs cibles test et leurs estimations while bl blmax2 1 erreur b1 abs test valeurs cibles b1l estimations b1
82. idation le nombre de valeurs de 6 examiner les pourcentages etc Une exp rience contient 2 tapes la d termination du o optimal et le test final utilisant ce param tre La d termination du o optimal utilise la m thode de classification avec la fen tre de Parzen de classification et l AUC esp r e sa mesure de performance Cette premi re classification est r p t e selon 2 boucles L une permet le changement des partitions de test et d apprentissage l aide de la k fold cross validation L autre fait varier o selon la gamme de o d finie par ces extrema et selon le nombre de o Le o optimal est la valeur de o qui maximise l AUC moyen On rappelle que l AUC moyen est la moyenne des AUC esp r e obtenue pour chaque et gr ce la r p tition de la classification gr ce la k fold cross validation Le test final calcule la performance du o optimal sur la fen tre de Parzen de Classification et fournit la valeur d AUC esp r e correspondante L exp rience est r it r e suivant tous les pourcentages examiner et le nombre d it rations demand es Le nombre d it rations a pour but de nous assurer que lorsque les pourcentages de l ensemble d apprentissage sont petits que les performances ne soient pas exag r ment basses ou hautes selon le choix mauvais ou bons des donn es extraites On obtient donc au final plusieurs valeurs d AUC pour chaque pourcentage de l ensemble d apprentissage extrait Ceci permet d en
83. ification r gl e avec le o optimal sur les instances de l ensemble d apprentissage Train pour les instances de l ensemble de test Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour Calculer l esp rance des AUC pond rant par la proportion des classes Fin Pour Fin Pour Obtention d un AUC moyen et de sa variance pour le choix de o optimal selon la strat gie et pour chaque pourcentage Algorithme 4 commun toutes les m thodes Algorithme commun aux m thodes 1 et 3 D apr s les Sections Utilisation des Fen tre de Parzen et mesure de performances dans le chapitre courant les m thodes 1 et 3 ont de tr s nombreux aspects communs Les algorithmes qui leur ont t propos s sont donc assez proches Leur partie commune est crite ci dessous On observe dans cet algorithme que le jeu de donn es a un formatage particulier pour faciliter sa lecture Il est format de telles mati res que les premiers ensembles d apprentissage Train et de tect ami cert an tect finale uniauement enient fio es nour tantes leo evn riences Autre remaraue Etant donn s e le jeu de donn es sous un formatage particulier e des pourcentages n choisis pour le tirage des donn es du train un nombre d it rations choisis pour chaque pourcentage un param tre k choisi de la k
84. ion Algorithme de Nadaraya Watson en classification L algorithme de Nadaraya Watson correspond un poids qui est utilis pour les pr dictions de la fen tre de Parzen chapitre I 2 2 Dans le cas de la classification l algorithme de la m thode de pr diction est une somme de plusieurs poids d une classe sachant l instance de test choisie L algorithme permet d estimer une pr diction des probabilit s qu une instance de test ait chacune des classes Donc sachant l instance de test il calcule partir des T instances d apprentissage une probabilit pour toutes les classes Donc pour une instance de test choisie ces probabilit s se somment 1 Ci dessous le pr dicateur de la fen tre de Parzen qui sera utilis pour la classification gt K x 1p gt tn y Wi x quation 12 Pr dicateur de la Fen tre de Parzen de Classification e OS St On observe que l algorithme calcule la proportion des proximit s des points d une classe parmi toutes les classes I1 2 2En r gression Un apprentissage supervis La r gression est une m thode d apprentissage supervis puisqu elle utilise des couples entr es et sorties Les estimations de sorties et leurs comparaisons avec les valeurs r elles vont ainsi permettre l am lioration du mod le de pr diction R gression On ne peut plus pr voir les classes des instances de test puisque celles ci ne sont plus apparentes dans notre ensemble de donn es Au lieu de p
85. is de tracer une fronti re dans l espace des donn es Ce trac est dans le cas du sur apprentissage trop minutieux Figure 5 Exemple de sur apprentissage en 2 dimensions 14 Lissage Lorsque que o tend vers o on a un ph nom ne de lissage Toutes les gaussiennes deviennent plates La fen tre de Parzen ne parvient plus extraire de l information partir des distances s parant les instances dans l hyper espace Beaucoup d informations sont donc comme effac es l int rieur du mod le de pr diction Par exemple le mod le donnera toujours la classe majoritaire dans un probl me de classification et la moyenne des valeurs dans un probl me de r gression Le noyau gaussien devient ou s approche dans ce cas un noyau constant Laroudour Sur le dessin repr sent plus haut Source www ulb ac be Optimalit Tandis que le lissage et le sur apprentissage apportent normalement une diminution observable de la performance Nos algorithmes d apprentissages devront s en carter afin de trouver un bon ou le meilleur param tre pour notre fen tre de Parzen Mais comme il s agit pour nous d am liorer nos connaissances de la fen tre de Parzen muni du noyau gaussien Nous allons rechercher le param tre qui maximise les performances de la fen tre en fait le o optimal Ceci va nous permettre de comparer plusieurs m thodes de pr dictions entre elles Source www ulb ac be Figure 6 Illustration d un meilleur
86. la m thode utilis e pour d terminer le o optimal dans le but de la performance de la fen tre de Parzen de la classification La fen tre de Parzen de r gression cherche d terminer directement c est une estimation une valeur dans l espace des r els C est une fonction adapt e au probl me de la r gression en apprentissage non supervis Dans ce cas de figure on cherche apprendre de chaque dimension en la d signant comme ensemble de valeurs cibles Comme la classification ce sont les instances d apprentissage qui vont permettre le calcul de la valeur cible la plus probable pour une dimension choisie et une instance de test Contrairement la classification n ayant plus aucune classe disposition on ne s y int resse plus Le calcul d une valeur cible est une moyenne des valeurs d apprentissage pond r e par les noyaux distances au sens de Parzen calculer pour les instances correspondantes et r duites d une dimension L analyse de performance qui se fera ult rieurement l aide de la courbe de REC et l AOC op rera directement sur les estimations de valeurs cibles en les comparant avec leurs vraies valeurs Algorithme tant donn s e Les ensembles d instances de test et d apprentissage r duits d une dimension choisie e Un ensemble de valeur cibles d apprentissage e Une valeur choisie pour le param tre sigma du noyau gaussien Pour toutes les instances de test faire Initialiser le num rateur et le d
87. les exp riences de r gression nous amenant utiliser le calcul de l AOC on d termine l epsilon maximal qui correspond la distance maximale d une instance par rapport la moyenne des instances et parmi toutes les instances d apprentissage C est donc ce param tre qui borne la courbe de REC droite et c est par celui ci galement que l on divise l AOC afin de la normaliser Pour mieux comprendre la construction de la courbe de REC on peut se r f rer au tutorial fait par Messieurs Bi et Bennett Bi et al Classement entre 0 et 1 des carts Valeur absolue entre valeurs explicatives et cibles 1 0 9 0 8 0 7 0 6 0 5 0 4 0 3 0 2 0 1 0 1 2 3 4 5 6 7 Taille de cet cart compris entre 0 et e Figure 20 Exemple de courbe de REC r alis e sur le jeu de donn es Pima Algorithme 51 tant donn s e Un tableau d estimations des valeurs cibles pour toutes les instances de test e Les vraies valeurs cibles des instances e Le param tre epsilon maximal Pour toutes les instances de test faire Calculer l erreur comme la valeur absolue de la diff rence entre vraie valeur cible et estim e Ajouter cette valeur au tableau d erreurs Fin Pour Trier le tableau d erreur dans l ordre croissant Commencer tracer la courbe de REC en partant de l origine Initialiser l aire sous la courbe de REC 0 Pour le ler l ment de la liste tri e puis l l ment suivant jusqu la fin de la liste faire M moriser
88. les donn es non normalis es de Damier Les r sultats de la m thode 2 ont t rassembl s dans le tableau ci dessous Australian 3 74 0 93 2 00 097 Segment 3 00 0 77 Ionosphere Tableau 5 6 et AUC correspondants obtenues sur chaque jeu de donn es Influence de la quantit de donn es Contrairement aux autres m thodes cette m thode ne tient pas compte de l apprentissage pr alable sur un pourcentage extrait des donn es d apprentissage Il y a donc un unique r sultat comme sur le graphique ci dessous contrairement aux autres m thodes Cette repr sentation est donc inutile 46 valeur des auc pour diff rents pourcentages extraits de ensemble d apprentissage 1 auc moyen obtenue OL RRRTETEEEEEEEE rr i RITA SIE 2 A ons parsans raras basal NS A insta a leones AA A A ne RTA ETETE PA AAA tant n ess RADAR A AA A ES nos 0 30 LL LL ens es 20 RA A AA i IR 11 4 STRESS PRUEBAS ES DENT AE AEA NES bre 0 20 40 60 60 100 pourcentages du train utilis Figure 19 Valeur des performances quelque soit les pourcentages sur Ionosphere Influence du choix du Jeu de donn es Le choix du jeu de donn es importe semble t il dans la r partition des classes de donn es comme nous le montre l exp rience sur Damier Les regroupements de ce jeu de donn es ont eu semble t il eu un effet tr s n faste sur le r sultat Peut tre un apprentissage par clustering pourrait aider
89. loigne du point d o on consid re la fen tre L2 d signe la norme L2 qui permet d exploiter la distance euclidienne entre 2 points Si les points et B ont pour coordonn es respectives Tar YA ZA er TB YB ZB alors leur distance euclidienne est A y zs ZA Un Ya 28 z4 Equation 2 Distance euclidienne d un vecteur 3 dimensions Le carr de la distance euclidienne est le produit scalaire de la diff rence de deux vecteurs Le Noyau Gaussien utilise ce carr de la distance euclidienne il est donc un noyau radial Il n est par contre pas vident que la forme du noyau gaussien ne poss de qu un seul param tre comme la formule du tableau 1 En r alit notre noyau est inclus dans un espace du m me nombre de dimensions que les donn es que ce noyau utilise Donc il correspond un param tre pour toutes les dimensions d un vecteur d entr es Dans le cas g n ral et pour toutes les bases g n ratrices de l espace vectoriel correspondant l espace des donn es on peut d finir une matrice de covariance qui d finit un noyau gaussien multi vari e Ci dessous figure une criture du noyau gaussien multi vari e Z est la matrice de covariance et 2 son d terminant La formule comporte galement un terme de normalisation Ainsi dans R 11 a te x x Ky r x En aaa PAT quation 3 Noyau Gaussien L2 multi vari e avec son terme de normalisation O0 n 1 n
90. ltat stable De une 100 036402457 0 9975 1248 16 7s o3698207 0 9975 1 24E 16 Assez petit o bon r sultat stable EA 0 75077515 0 813368 0 003033 0 80006109 0 817623 0 001816 Moyens assez instable et 2 70249809 0 83813 _ 0 006176 r sultat bon et stable 0 96599039 0 824858 0 00324 Des Segment 0 3770078 0 963212 6 74E 05 0 41622103 0 963128 0 00012 Moyens un peu instables et 0 49464747 0 963077 0 000189 bon r sultat stable 0 64278632 0 963611 _ 0 000846 53 2 40362988 0 95898 1 67557401 0 962403 0 006853 z o max et bon r sultat stable 2 02155694 0 961465 0 005557 1 73283683 0 965528 0 014006 USPS 300 au lieu de 1000 valeurs de et 4 it rations 2 79103061 0 933765 0 2 8506847 0 933747 _2 05E 05 Grands stables bon 2 91033878 0 933729 0 r sultat stable 2 96999287 0 933714 _1 69E 05 1 00406996 0 986919 0 00172 1 04981001 0 989657 0 00195 Assez grands et bonne 1 11498957 0 992214 0 performance 1 20418266 0 992858 0 000695 Optimalit de Param tre de la fen tre La m thode fonctionne et fournit des valeurs de o convenables mais tr s diverses souvent petites et parfois assez grandes Aucun lien vident n appara t entre ces valeurs et celles de la classification Il appara t donc parfois des divergences Celles ci provoquent des cons quences n fastes sur l apprentissage de certains jeux de donn es et aussi parfois selon la varia
91. m tre Valeur cible l apprentissage O r elle du mod le valeurs A et cibles me Fen tre de Valeur cible AOC p Parzen estim es Area Over the oniatves de R gression 12 natence REC Curve Figure 11 Traitement des estimations par l AOC en r gression 11 3 2Validation crois e Principe et Objectifs Toutes les pr dictions r alis es sont exploit es par une mesure de performance interpr table Cependant ce n est pas suffisant car on s int resse conna tre la capacit de g n ralisation du mod le sur de nouvelles instances Pour cela on va estimer l erreur de g n ralisation l aide d une m thode de validation crois e k fold cross validation Nous avons choisi la k fold cross validation comme m thode de validation crois e Comme toute m thode de validation crois e elle consiste r p ter la proc dure ici les pr dictions sur l ensemble de donn es d apprentissage A chaque r p tition on divise diff remment cet ensemble en un sous ensemble d apprentissage et de test Dans la k fold cross validation il y a k partitions o k est un param tre constant pour toutes les exp riences que l on voudra pouvoir comparer Selon cette m thode on r p te k fois une d coupe de l ensemble de donn es en ensemble de test et d apprentissage La d coupe de l ensemble d instances se fait en k sous ensembles que l on r unie ensuite en k 1 ensembles selon les 1 parmi k combinaisons possibles
92. n dessous de la courbe o la courbe d sign e est la courbe de ROC Receiver Operating Characteristics Alors que la courbe de ROC est un outil de visualisation de la performance d un classifieur l AUC permet de quantifier la performance partir de l aire sous la courbe Pour construire une courbe de ROC on repr sente la bonne ou mauvaise classification d un certain nombre d l ments dans une classe donn e On exploite pour cela les pr dictions faites par un mod le de pr diction pour tous ces l ments et pour la classe donn e L AUC correspond une valeur de performance Mais c est en r alit l esp rance des AUC de toutes les classes qui est calcul e Elle est obtenue en faisant une sorte de moyenne des AUC mais en pond rant chaque valeur par la proportion de la classe dans l ensemble d apprentissage utilis Nombre de pr dictions 120 100 60 60 40 20 0 50 100 150 200 250 Nombre de non pr dictions Figure 13 Exemple de courbe de ROC r alis e sur le jeu de donn es Pima Test final Algorithme Pour comprendre l impl mentation de l algorithme de l AUC et en particulier la construction d une courbe de ROC on pourra se reporter au tutorial de Tom Fawcett Fawcett 36 tant donn s e Un tableau de pr dictions par l ments instances pr dites par le mod le et par classe e Les vraies classes des instances Pour toutes les classes faire Trier les l ments classer dans l ordre d croi
93. ne proc dure automatique de leur d termination o minimal Une proc dure permet la d termination du o minimal qui a priori ne doit pas tre plus petit que le plus petit cartement entre les donn es On obtient le o minimal en mesurant tous les cartements entre les instances d apprentissage deux deux et en choisissant le plus petit Apr s des premi res exp riences nous avons constat que le o minimal tait tout de m me pris trop grand Il est donc arbitrairement divis par 32 2 24 o maximal Pour d terminer le o maximal il a t choisi de trouver le plus grand cartement entre une instance et la moyenne de ces instances sur l ensemble des donn es d apprentissage Cette moyenne est l origine de l espace de donn es puisque les donn es ont t normalis es L cartement est mesur par la distance euclidienne Un des 2 points tant l origine on mesure donc la norme L2 des instances et on cherche le maximum IL3 Mesures des performances 11 3 1Critere de mesure de r sultats Principe Lorsqu on utilise une fen tre de Parzen en classification ou en r gression on obtient effectivement des valeurs qui correspondent au r sultat d un apprentissage r alis sur les donn es On peut effectivement comparer pr dictions de classes et classe valeurs cibles estim es et r elles Mais lorsqu on utilise de grandes quantit s de donn es des m thodes existent pour calculer des performances de l apprentissage compar
94. ne exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi D terminer la performance des pr dictions en r gression de la fen tre de Parzen en r gression et ce en fonction de o 52 R sultat n 2 o optimal Pour une exp rience faite sur un jeu de donn es avec un pourcentage de l ensemble d apprentissage choisi et partir du R sultat n 1 D signer parmi toutes les valeurs de o celui dont la performance est la meilleure R sultat n 3 Selon les exp riences faites sur des jeux de donn es pour tous les pourcentages de l ensemble d apprentissage choisis et partir du R sultat n 2 D terminer les performances d une fen tre de Parzen de classification muni du o optimal selon la fen tre de Parzen de r gression Performance des pr dictions en r gression Pourcentage Sigma moyen AUC Ecart type C mme ntaltes extrait des donn es obtenu Moyen de l AUC 0 01716565 0 518804 0 009537 0 01476615 0 514539 0 01168 Tres petits stables et 0 01476615 0 514539 0 01168 r sultat tr s mauvais 0 01956516 0 556967 0 123483 0 22610678 1 ol 0 47651772 0 784094 0 295877 Petits peu stables et 0 41179475 0 813158 0 253776 r sultat qui s effondre 1 53038625 0 552119 0 251132 Petits o peu stables et j relativament BONES stable ea Ionosphere 100 o 76409512 0 994505 0l 7s 0785580904 0 994505 o Moyens stables et bon r su
95. nominateur de la fen tre de Parzen Pour toutes les instances d apprentissage faire Calculer la distance euclidienne entre instance de test et d apprentissage Calculer la distance au sens de Parzen Noyau l aide de la distance euclidienne Ajouter le produit du Noyau calcul et de la valeur cible d apprentissage au num rateur Ajouter le Noyau calcul au d nominateur Fin Pour Calculer le rapport Num rateur et D nominateur Mettre cette valeur dans un tableau des estimations par instance de test Fin Pour Algorithme 11 La Fen tre de Parzen de R gression 50 AOC L AOC signifie Area Over the Curve c est dire l aire au dessus de la courbe o la courbe d sign e est la courbe de REC Regression Error Characteristics La courbe de REC est construite partir des erreurs r alis es par les estimations en r gression Ces erreurs sont class es par ordre croissant puis r parties r guli rement en ordonn e Chacune des erreurs quantifie la distance horizontale entre l emplacement de cette erreur sur l axe des ordonn es et la courbe de REC Pour la normalisation l axe des ordonn es permet la repr sentation des erreurs mais uniquement sur le segment entre O et 1 donc il n y a pas normaliser l aire selon l axe des ordonn es Pour l axe des abscisses il y a n cessit de normaliser ind pendamment de l cart maximal des valeurs d erreurs calcul es Pour cela pour un jeu de donn es et avant toutes
96. normaliser les donn es et se contenter de prendre pour o o Vd quation 11 Simplification du param tre de Sch lkopf Dans l exp rimentation du jeu de donn es USPS Sch lkopf utilise donc 256 la dimension du jeu de donn es et 0 5 un bruit gaussien qu il a appliqu sur les donn es USPS Jeu de donn e USPS 256 256 0 25 256 0 5 Tableau 2 Param tres du jeu de donn es USPS d apr s Sch lkopf C est pour quoi il a utilis le param tre o r gl selon le tableau ci dessus Travaux de Chapelle Dans sa publication Active Learning for Parzen Window Classifier Apprentissage actif pour la fen tre de Parzen de classification Olivier Chapelle galement de l institut Max Planck explicite l utilisation de la fen tre de Parzen dans un algorithme d apprentissage actif Son but est de d terminer la fonction qui d termine l esp rance de l erreur de test qui s apparente la fonction utile vu la sous section Apprentissage Actif Chap I Nous avons observ comment Chapelle r gle la largeur de sa fen tre de Parzen de classification Chapelle exploite 2 jeux de donn es que sont le Damier un jeu de donn e artificiel et l USPS un jeu de donn e provenant d un probl me r el Dans les 2 cas il r gle o selon la valeur de la dimension des donn es comme dans le tableau suivant Ces r sultats proviennent bien des travaux de Sch lkopf Jeu de donn e Damier Jeu de donn es USPS 16 Variance 0
97. ns D termination du nombre d instances de l ensemble d instances cardtab0 size tab cardtab cardtab0 1 Afficher un message d avertissement si le nombre d l ment de l ensembl est inf rieur au partitionnement if cardtab lt k fprintf Attention le nombre d instances de 1 ensemble fourni est inf rieur au param tre de partitionnement k end if fin de l avertissement conditionnel oe D termination du nombre d instances minimale par partition floor cardtab k 3 Cr ation de la matrice d effectifs par partitions mat ones k n D termination du nombre d instances restantes distribuer entre les partitions m mod cardtab k Pr paration de la boucle sur les m premieres partitions de mat b1 1 while bl m 1 mat b1 mat b1 1 R partition des instances restantes dans les partitions bl b1 1 passage a la partition suivante o end While Fin de la boucle sur les m premieres partitions oe Cr ation et remplissage de app tab et de app_clas o oe Pr paration de la boucle sur le vecteur de r partition bl 1 Initialisation du rep re de la ligne du tableau app tab criture Initialisation du rep re de la ligne du tableau app tab criture Initialisation du repere de la ligne du tableau tab lecture nitialisation des tableaux de donn es I St1 zeros 1000 8
98. or i 1 numel pourcentages pourcentage en cours pourcentages i Pour l affichage du poucentage en cours moyenneauc 0 on initialise la moyenne des auc pour chaque pourcentage for j l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage iterations en cours j Pour l affichage du num ro d it ration en cours tr2 c12 extraction tr cl pourcentages i extraction d un pourcentage des ensembles initialisation du maximum des auc moyens a 0 maxaucmoy 0 Pr parations de la boucle sur les k listes b1 1 bimaxl size listes blmax2 bimaxl l on initialise tous les sigma de r sultat la valeur de sigma min sigmaxaucmoy sigma min oe on cr e un tableau qui va permettre de recueillir les valeurs d auc qui sont utiles pour le calcul de la variance tableauauc zeros b2max blmax2 66 Initialisation du tableau de variance permettant le calcul de l cart type var zeros b2max 1 oe while b1l blmax2 1 Boucle sur les listes de k partitions 1 listes b1 Affichage de la s quence de la k fold cross validation en cours app tab test tab app_clas test clas kfevl tr2 c12 1 sigma sigma min on initialise le sigma au sigma courant Initialisation du param tre du boucle sur les valeurs d sigma b2 1 while b2 b2max 1 Boucle sur les valeurs de sigma
99. r dire les probabilit s de ces classes avec des instances de donn es comme en classification on estime directement une valeur cible partir de valeurs explicatives Les valeurs explicatives sont des instances de donn es r duites d une dimension qui nous sert de valeurs cibles On peut faire le choix de pr dire un ensemble de valeurs cibles Pour cela toute une dimension des instances est enlev e des valeurs explicatives et devient un ensemble de valeurs cibles On va chercher les pr dire l aide des autres dimensions de valeurs explicatives et galement les valeurs cibles des donn es d apprentissage et ce au niveau d une instance de test Mais la diff rence des classes du probl me de classification nos valeurs cibles 23 s talent sur l espace des r els Il n est donc pas possible de classifier une instance de test selon une certaine valeur cible Cette classification en valeur r elle n a pas d int r t car on devrait consid rer quasiment autant de classes que d instances de test On cherche donc r gresser l instance de test selon les valeurs cibles choisies parmi les valeurs explicatives et la proximit des instances d apprentissages L algorithme de NW utilis par notre fen tre en r gression est formul ci dessous n est le nombre d instances de l ensemble d apprentissage Algorithme de Nadaraya Watson en r gression K x 2 y 9 2 D 1 K 5 gt 51 Wilz Y quation 13
100. r r aliser cette normalisation on exploite les instances des donn es en laissant les classes ou tiquettes On calcule pour chaque dimension la moyenne et l cart type On retranche d abord la moyenne toutes les valeurs et ensuite on les divise par l cart type La normalisation nous permet de faire l obtention du param tre simplement partir de la dimension des donn es 2 m thode qui sera vu au Chapitre IV Elle a un int r t pratique pour la fen tre de Parzen car certains jeux de donn es contiennent des donn es de valeurs trop importantes Le noyau contenant la fonction exponentielle demanderait un calculateur maniant plusieurs dizaines de chiffre apr s la virgule Algorithme de la normalisation L algorithme 2 r sume les op rations qui ont t faite dans nos exp rimentations pour les normaliser On constate que les normalisations se font partir des moyennes et cart types extraites des donn es d apprentissage et s applique aux donn es d apprentissage et de test tant donn s 2 ensembles de m me dimension sans leur classe e L ensemble d instances de test e L ensemble d instances d apprentissage Pour toutes les dimensions faire Calculer la moyenne des donn es d apprentissage de la dimension choisie Calculer l cart type des donn es d apprentissage de la dimension choisie partir de la moyenne calcul e Centrer et r duire les donn es d apprentissage de la dimension choisie pp g Centrer et r
101. r une dimension des instances qui devient valeur cible valuer la fen tre de Parzen de r gression r gl e avec le sigma courant sur les instances de l ensemble d apprentissage New_Train pour les instances de l ensemble de test New_Test avec la dimension choisie comme valeur estimer Remplir un tableau de valeur pr dite par instance de test Construire la courbe de REC Calculer l aire sous la courbe de REC AOC Fin Pour Calculer la moyenne des AOC sur les dimensions Fin Pour Fin Pour valuer l AOC moyen et sa variance en fonction de la valeur de sigma Choisir un sigma optimal qui minimise l AOC moyen valuer la fen tre de Parzen de classification r gl e avec le sigma optimal sur les instances de l ensemble d apprentissage Train pour les instances de l ensemble de test Test Remplir un tableau de pr diction par classe et instance de test Pour toutes les classes Construire la courbe de ROC Calculer l aire sous la courbe de ROC AUC Fin Pour Calculer l esp rance des AUC pond rant par la proportion des classes Fin Pour Fin Pour Obtention d un AUC moyen et de sa variance pour le choix de sigma optimal selon la strat gie n 3 et pour chaque pourcentage Algorithme 10 M thode 3 Obtention du c optimal partir d une m thode de r gression 49 Fen tre de Parzen de r gression La fen tre de Parzen de r gression est selon la m thode de r gression
102. rain utilis mettre des entiers o param iteration 5 une valeur ou un vecteur de m me taille que pourcentages o Modes utilisateur test 0 sauvegarde automatique sans affichage 1 k 5 Param tre de la k fold cross validation o Param tre de la boucle sur sigma sigma_auto 1 les sigmas max et min seront d termin s automatiquement sigma min 0 5 Mettre une valeur quelconque dans le cas automatique sigma max 3 idem nb sigma 1000 Figure 27 pilotage m 1 Initialisation des param tres Les param tres r gler manuellement sont d abord les pourcentages utilis s pour toutes les exp riences Ce pourcentage est celui que l on extrait de l ensemble d apprentissage Il n est pas possible d ex cuter plusieurs m thodes avec des pourcentages diff rents entre les m thodes Bien qu ils soient quasi inutiles concr tement dans la m thode 2 il est toujours indispensable de mentionner un tableau de valeurs de pourcentage comme ci dessus Sa taille peut tre variable et les valeurs de pourcentages quelconques Si un pourcentage tr s petit est utilis le prototype doit fonctionner normalement mais affichera un message d erreur s il ne peut plus remplir correctement ses partitions lors de la k fold cross validation param iteration est soit une valeur soit un vecteur de m me nature et taille que pourcentages Lorsqu il est une valeur il permet un nombre d it rations constant pour
103. rentissage L Les ensembles Ux et Lx d exemples non tiquet s et tiquet s lt N le nombre d exemples d apprentissage souhait L ensemble d apprentissage T avec N lt n La fonction Utile X X M R qui estime l utilit d une instance pour l apprentissage d un mod le R p ter A Entra ner le mod leMgr ce L et T et ventuellement Ux B Rechercher l instance q argmaxu e Ux Utile u M C Retirer q de Ux et demander l tiquette f q l oracle D Ajouter q Lx et ajouter q f q T Algorithme 1 Apprentissage Actif selon Muslea L apprentissage Actif dans cette tude L apprentissage actif est un axe contemporain d exploration de la recherche Le projet que je r alise contribue cette recherche en lui apportant les connaissances d un outil statistique la fen tre de Parzen Les exp rimentations de cet outil au lieu de se faire dans les conditions contraignantes de l apprentissage actif se feront plut t et d abord en apprentissage passif afin de comparer sur de grands jeux de donn es les performances des diff rentes m thodes Le projet consiste donc d terminer notre fen tre de Parzen dans un apprentissage supervis ou non supervis Comme nous verrons que notre fen tre de Parzen ne poss de qu un seul param tre sa d termination est finalement le but en pratique de nos exp rimentations d apprentissages sur les donn es L2 Mod les pr dictifs et
104. rformance est la meilleure R sultat n 3 Selon les exp riences faites sur des jeux de donn es pour tous les pourcentages de l ensemble d apprentissage choisis et partir du R sultat n 2 D terminer les performances du o optimal obtenue pour la fen tre de Parzen de classification Xnamitpe I R glage du o l aide d une m thode de classification TIT 1 Introduction Un apprentissage Id al La m thode d obtention du o optimal par une m thode de classification permet de r gler cette m me m thode de classification C est donc une m thode id al au sens o elle se trouve dans un cas id al on poss de d j les classes de nos instances Il ne sera priori pas possible de faire mieux que cette m thode Mais il sera possible d approcher voire d galer ses performances Attentes vis vis des exp riences 32 La m thode de classification devrait nous permettre d valuer assez rapidement l efficacit des autres m thodes En effet gr ce au test final on compare dans les m mes conditions les performances obtenues par les o optimal r glant la fen tre de Parzen de classification I 2 Impl mentation Particularit s de la proc dure On d termine avant l exp rience les param tres utiles telle que le o min et max cf Gamme de valeur du param tre o Chapitre II 2 3 D autres param tres sont n cessaires mais sont fournis la proc dure au pr alable tel que k le param tre de k fold cross val
105. rs cibles app tab b1 ajout de la colonne courante de l ensemble aux valeurs cibles test valeurs cibles test tab b1 ajout de la colonne courante de l ensemble aux valeurs cibles o else si c est une autre dimension app tab reduit b2 app tab b1 ajout de la colonne courante de l ensemble au nouvel ensemble test tab reduit b2 test tab b1 ajout de la colonne courante de l ensemble au nouvel ensemble b2 b2 1 incr mentation du param tre d criture des nouveaux ensembles o end fin de la s paration de la colonne des valeurs cibles aux valeurs explicatives bl b1 1 incr mentation du param tre de lecture des ensembles o end fin boucle sur la lecture des ensembles Code du fichier parzen3 m 82 function estimations parzen3 ens train ens test valeurs cibles sigma calcul du sigma au carr sigma carre sigma 2 pr paration de la premi re boucle sur l ensemble de test b1 1 Param tre de boucle bimaxi size ens test blmax2 blmax1 1 taille de l ensemble de test en nombre d instances initialisation du tableau de pr diction une valeur pour chaque instance de test estimations zeros b oe o oe lmax2 while b1 blmax2 1 boucle sur l ensemble de test fprintf ligne de test r sultat interm diaire qui peut tre affich ens test bl r sultat interm diaire qui peut tre aff
106. s de peu de donn es et qu on accepte de s interroger sur n importe de fausses donn es Elle poss de l inconv nient d inventer des donn es qui ne repr sentent plus la r alit ce qui va poser des probl mes pour leur s traitement s Par exemple il peut tre impossible de classifier de telles donn es Notre cas est celui du Groupe France Telecom o les donn es clients sont tr s nombreuses et par cons quent nous n avons pas besoin d en inventer L chantillonnage est donc s lectif 6 Le lecteur pourra se reporter avantageusement l Etat de l art r alis sur les m thodes statistiques d apprentissage actif Bondu et al pour apprendre sur les possibilit s d chantillonner et de traiter des donn es dans le cas de l apprentissage actif Un mod le d apprentissage actif par chantillonnage s lectif L tat de l art Bondu et al nous apporte l algorithme d un mod le d apprentissage actif par chantillonnage s lectif qui a t formul par Muslea Muslea Comme le dit cette tat de l art cet algorithme met en jeu une fonction d utilit Utile u M qui estime l int r t d une instance U pour l apprentissage du mod le M Gr ce cette fonction le mod le pr sente l oracle les instances pour lesquelles il esp re la plus grande am lioration de ses performances Ci dessous l algorithme pr sent dans l tat de l art tant donn s M un mod le pr dictif muni d un algorithme d app
107. s que la fen tre de Parzen est une fen tre que l on d finit avant de consid rer les proches voisins situ s l int rieur La fen tre de Parzen est munie d un algorithme qui d pendra du contexte consid r classification r gression estimation de densit On utilise un poids fournit par l algorithme de Nadaraya Watson NW formul e simultan ment et ind pendamment par Nadaraya et Watson en 1964 Ce poids sera utilis diff remment en fonction qu il s agit d un probl me de classification ou de r gression Mais dans tous les cas il s agira de sommer les poids afin d obtenir une pr diction probable en sortie quation 1 Poids de l estimateur de Nadaraya Watson 1964 Remarque On utilisera toujours la convention O O 0 avec cet estimateur Voici en r sum un sch ma r capitulatif explicitant le mod le pr dictif de la fen tre de Parzen Instances pour Hyper param tre l apprentissage o du mod le Instance de test Fen tre de Pr diction p p Parzen Figure 3 Le mod le pr dictif de la fen tre de Parzen Concept du noyau Un noyau est une fonction scalaire de deux variables des vecteurs En effet partir de deux variables il fournit une valeur sans fournir autre chose par d finition d une fonction scalaire Dans un algorithme un noyau peut tre plac l o ou se trouve un produit scalaire ou une distance euclidienne Son but est de traiter les instances de donn es de
108. sage actif Mais nous pouvons d ores et d j raisonner sur le r le de o Dans les m thodes d apprentissages utilisant la fen tre de Parzen on consid rera une somme de noyaux gaussiens tous r gl es avec le m me param tre o et calcul s dans le voisinage de l instance de test o une pr diction est faire Influence du param tre sur l apprentissage Sur apprentissage Lorsque que o tend vers 0 les courbes tendent vers des pics ou Dirac Ainsi au voisinage d une instance d apprentissage les noyaux calcul s seront tr s grands par rapport aux autres noyaux Ils n auront pas d impacts dans le cas consid r o l on somme les noyaux La cons quence est que seul ce noyau sera pris en compte En dessous d une valeur de o petite des noyaux sont o proximit sont suffisamment distanc es pour ne pas tre pris en compte Si un nombre significatif de ces noyaux taient importants galement pour la pr diction de la fen tre de Parzen On doit observer une diminution de la performance pour les petites valeurs de o On dit que l on a un ph nom ne de sur apprentissage En effet on a sur appris les donn es c est dire que l on a apprit avec trop de pr cision au point de n gliger de l information Le noyau gaussien devient ou s approche dans ce cas un noyau de Dirac Laroudour Dans l exemple de classification ci dessous les 2 classes attribu es aux donn es d apprentissage repr sent es par des et des o ont perm
109. ssant de leurs pr dictions de la classe courante Commencer tracer la courbe de ROC en partant de l origine Initialiser l aire sous la courbe de ROC 0 Pour l l ment tri suivant D abord Pour le 1er l ment de la liste tri e faire M moriser le point de la courbe o l on se trouve Si la pr diction est bonne si la classe pr dite courante est bien la classe de l l ment Alors on ajoute 1 l ordonn e de la courbe Sinon si la pr diction est mauvaise on ajoute 1 l abcisse de la courbe Fin Si Pour tous les l ments tri s suivants ayant la m me valeur de pr diction Si la pr diction est bonne classe courante est la vraie classe de l l ment Alors on ajoute 1 l ordonn e de la courbe Sinon si la pr diction est mauvaise on ajoute 1 l abcisse de la courbe Fin Si Fin Pour Calculer l aire du trap ze sous segment point courant de la courbe et point m moris Ajouter cette aire l aire sous la courbe de ROC Fin Pour Si l abcisse de la courbe de ROC est nulle l AUC est gale 1 Fin Si Si l ordonn e et l abcisse de la courbe de ROC sont non nulles Normaliser l AUC en divisant l aire par l abcisse et l ordonn e Fin Si Calculer la proportion de la classe courante parmi les vraies classes de tous les l ments Fin Pour Calculer l esp rance des AUC pond r e par la proportion des classes Algorithme 8 AUC esper e Area Under the ROC Curve III 3 R sultats L
110. t d un m thode de apprentissage pr lev dans les r gression id al donn es Figure 7 Sch ma des exp rimentations Le sujet du stage se situe dans le domaine du Data mining ou Fouille de donn es On cherche y d velopper des m thodes d apprentissage appropri es aux donn es dont on dispose L apprentissage actif permet une s lection judicieuse d instances de donn es pour acqu rir de nouvelle information et un gain d efficacit Comme vu la sous section Echantillonnage S lectif Chapitre I 1 on se place dans le cas de l apprentissage s lectif o l on poss de beaucoup de donn es et le droit de les utiliser Pour cet apprentissage on utilisera la fen tre de Parzen qui est un outil judicieux pour l apprentissage de donn es ce qui nous demande des exp riences pour la ma triser Pour cela 3 exp riences sont propos es Description des exp riences Comme il l a t dit la sous section de la probl matique du stage Chapitre 1 3 Nous proposons 3 exp riences diff rentes visant d terminer le o optimal et qui seront confront s selon la quantit de donn es et les jeux de donn es utilis es cf figure pr c dente Nous traiterons d abord une m thode d apprentissage id al de classification chapitre associ chapitre III C est elle qui doit nous montrer les meilleures performances parmi toutes les m thodes Elle ne pourra pas cependant pas tre retenue puisqu elle utilise
111. t des valeurs de o une peu moins optimales pour la m thode de classification Elle pr sente de grands inconv nients Un premier est le fait de ne pas avoir de lien apparent avec la m thode de classification pour la d termination du o ce qui s explique en bonne partie car on ne fait pas du tout le m me apprentissage sur les donn es Le second est la difficult que l on a mettre en vidence l optimalit On observe dans la figure 23 que parfois la m thode de r gression ne peut donner aucune pr cision dans sa d termination de o car l optimalit ne correspond plus une valeur mais une gamme Ainsi les faiblesses de cette m thode viennent de la m thode de classification et de la m thode de r gression elle m me Ceci nous apprend qu une m thode de d termination du o pour la fen tre de Parzen de classification doit absolument viter de s approcher de la gamme de sur apprentissage d une part et d autre part elle doit viter d tre plus ou moins al atoire C est ce qui arrive parfois avec la m thode de r gression lorsque la courbe AOC en fonction de o forme un graphe plat figure 23 plut t qu une cuill re figure 19 57 Xnomntpe cl Interpr tation des r sultats Les performances et l volution de celles ci avec les pourcentages extraits ont t rassembl es dans le tableau 6 et ce pour la plupart des jeux de donn es Elles ont t r alis es dans une exp rience exploitant les 3 m thodes avec les m mes param
112. t la d termination du o optimal qui utilise la m thode de pr diction demand e Dans la m thode d obtention par la dimension des donn es il n y a pas d op rations de pr dictions pour d terminer o optimal Elle est donc faite au tout d but de la proc dure Dans les autres m thodes une exp rience contient 2 tapes cette d termination et le test final utilisant le param tre d termin Le test final calcule la performance du o optimal sur la fen tre de Parzen de Classification L exp rience est r it r e suivant tous les pourcentages examiner et le nombre d it rations demand es Le nombre d it rations a pour but de nous assurer que lorsque les pourcentages de l ensemble d apprentissage sont petits les performances ne soient pas exag r ment basses ou hautes selon le choix mauvais ou bons des donn es extraites Etant donn s e le jeu de donn es sous un formatage particulier e des pourcentages n choisis pour le tirage des donn es du train e un nombre d it rations choisis pour chaque pourcentage e un param tre k choisi de la k fold cross validation e le nombre de valeurs de o examiner Lire le jeu de donn es s par en 2 ensembles le premier d apprentissage Train et l autre de Test Normaliser les donn es Pour les pourcentages n choisis faire Pour j variant de 1 J faire Extraire des donn es de l ensemble d apprentissage par un tirage sans remise valuer la fen tre de Parzen de class
113. test final pour tous les o optimaux Ce test est identique quelque soit les m thodes de d termination de ces o Utilisation de Fen tre de Parzen de Classification Choisie comme test final la fen tre de Parzen de classification est utilis e une derni re fois pour valider le o optimal obtenu par la m thode choisie Son but est de r aliser des pr dictions sur l ensemble de test que l on lui propose partir de l ensemble d apprentissage Cet ensemble de test n a pas t exploit jusqu pr sent Utilisation de l AUC La valeur AUC est calcul e suite aux pr dictions r alis es par la fen tre de Parzen de classification Cette valeur permet la comparaison de toutes les exp rimentations ayant vis la d termination d un o optimal avec leur jeu de donn es et leur quantit de donn es d apprentissage initialement utilis e 28 11 4 R sultats I1 4 1Synth se des m thodes Algorithme commun toutes les m thodes Le r glage de o commence par des tapes pr alables indispensables Il faut d abord lire les 2 ensembles d apprentissage et de test qui sont pr alablement tablis dans le fichier contenant le jeu de donn es Ces 2 ensembles sont ensuite normalis s on normalise l ensemble de test partir des moyennes et cart types obtenus sur les dimensions de l ensemble d apprentissage L exp rience commence par l extraction d un pourcentage de l ensemble d apprentissage par un tirage sans remise Ensuite vien
114. tion Ces fonctions ne sont pas seulement des fonctions de traitement des donn es mais elles permettent galement d extraire de l information sur les donn es 61 Ces fonctions de premier plan sont accompagn es de fonctions qui permettent seulement un traitement mais les hypoth ses qui leur sont faites sont tous aussi significatives pour le sens de l exp rience et d terminantes pour les r sultats Ces autres fonctions sont l extraction le r glage de sigma la normalisation et une fonction qui transforme une dimension de valeur explicative en valeurs cibles Enfin une ou des fonction s devront g rer les entr es et sorties du syst me permettant une lecture exacte des donn es et un affichage complet et efficace des r sultats Commentaires pour le code du fichier pilotage m pilotage m est le ficher principal du prototype C est de celui ci que se lancent les exp riences Ce fichier comporte un en t te destin sa pr sentation une partie o sont initialis s tous les param tres des exp riences jug s importants une autre qui permet la mise en place d une interface de dialogue et la r ception des volont s de l utilisateur Enfin une dernier partie permet l ex cution des m thodes par des appels aux fichiers methodel m methode2 m et methode3 m comme indiqu dans la figure 26 Pour r initialiser l interface matlab ele Param tre de l exp rience d finir pourcentages 100 75 50 25 pourcentage de t
115. tion de la quantit d instances exploit es Valeur des aoc moyen en fonction de c 0 25 0 2 0 05 0 1 2 3 4 5 6 7 i param tre o utilis pour la fen tre de parzen Figure 21 AOC fonction de o sur le jeu de donn es Pima Sur la figure 19 on observe que l optimalit du param tre o est nettement mise en vidence par la forme de la courbe en cuill re 54 Influence de la quantit de donn es La diminution du pourcentage de donn es utilis es joue un r le parfois positif En effet en obtenant de plus petits chantillons on augmente o et on arrive mieux compenser les premiers effets du sur apprentissage qui provoque d apr s la m thode de classification un effondrement des performances de classification Ceci n est probablement vrai que pour les pourcentages choisis et moins pour les tr s petits pourcentages Par contre dans d autres jeux de donn es comme Damier qui n cessite une toute petite valeur de o cette augmentation provoque l effondrement de la performance de la classification valeur des auc pour diff rents pourcentages extraits de ensemble d apprentissage 1 0 9 aAa A PR 3 RES i STRESS AAA 7 A A RS A TEAN 061 E N io binne A EEEIEE AN a PETT RARE E A j 2222 iras N TOA on A ni pahe SeA milena AA ea AX A AA IA AN HE RSR NAS SRE ER eus RARES aa TE 0 20 40 60 60 100 pourcentages du train utilis Figure 22 Performance du r glage sur Australian Influ
116. toutes les valeurs de pourcentages extraits Sinon il peut tre variable ce qui peut tre judicieux si on veut viter des it rations sur une extraction de 100 qui ne n cessite pas d it rations Rappel le but de l it ration est d obtenir le r sultat de diff rents tirages pour att nuer les relativiser les tirages trop chanceux ou malchanceux 2 modes utilisateurs sont disponibles et sont gaux O si d sactiv s ou 1 si activ s Le test ex cute des fonctions de calculs de performances auctest m et aoctest m semblables aux aucesperee m et AOC Leur but est d observer certains param tres et surtout elle permet la 62 visualisation des courbes de REC et de ROC ce qui permet d avoir une id e en pr alable sur l apprentissage d un jeu de donn es en classification et en r gression C est ce mode qui a permis la r alisation des figures 13 et 18 en fin d exp rience Attention l utilisation de ce mode est co teuse en temps il vaut mieux la r aliser sur de petits jeux de donn es sous peine de ne pas arriver finir une exp rience Le mode sauvegarde automatique sans affichage doit tre de pr f rence mis 1 C est un mode automatique qui permet l ex cution d un grand nombre d exp rience avec sauvegarde des donn es au fur et mesure graphiques fig et tableaux wk1 et ce sans interruption Par d faut tout ce qui peut tre sauvegard semi automatiquement par le programme l ait automatiquement dans ce mode Si ce mod
117. type au dessus et en dessous de la moyenne Performance des pr dictions en classification Les exp riences ont t nombreuses mais limit es des jeux de donn es d une certaine taille ainsi le jeu de donn e Letters n a pas t test Un choix de param tres des exp riences a t pr alablement r alis Celui ci a t de r aliser 5 it rations des 4 valeurs de pourcentage 100 75 50 25 De plus le param tre de la k fold cross validation a t fix 4 La plupart des jeux de donn es ont t test s pour 2 ou 3 valeurs du nombre de o parmi 100 300 et 1000 Pourcentage extrait om n A Ecart t ENA Australian Grands instables et r sultat stable 0 011405 1f o 0 011405 1 o Tr s Petits et r sultat 0 009173 1 0 parfait 0 011405 al ol 0 44374768 0 712085 0 652254 0 70673341 0 720105 0 653934 Moyens et r sultat stable 1 364 0 658304 et tr s faible 1 06857192 0 711119 0 63994 Ionosphere 38 1 535436 0 984066 0 004618 50 0 955319 0 99011 0 003556 APO 0 463015 0 997667 0 000697 0 035623 0 993583 0 00744 Moyens instables et 0 568111 0 9955 0 002327 r sultats stable 0 02161 0 991375 0 008472 2 996571 0 838256 0 004417 1 953352 0 841833 0 001847 Grands instables r sultat 5 970155 0 83813 0 006176 stable et plus faible 1 731565 0 8388 0 006168 EA Segment 0 568717 0 963547 0 000374 0 634072 0 96230
118. ue 2 grid prompt Enregistrement de la courbe 1 si oui O dlg title Sauvegarde def 1 answer inputdlg prompt dlg title num lines def if numel answer 0 answer2 str2mat answer if answer2 1 1 savefile3 strcat pwd file ladate file lad r3 pourcents Sit num2str param iteration k num2str k s num2str b2max ATT saveas figure 4 ssavefile3 end 88 end end end end button questdlg Cliquez sur OK pour afficher ou enregistrer des donn es Attention Annuler quitte d finitivement le menu Menu de r cup ration des donn es Ok Annuler Ok end else en cas de sauvegarde automatique close figure 1 for c 1 numel pourcentages fprintf Tableaux des sigma auc moyen et cart type n resultatsl C savefilel strcat pwd file ladate file ladate 1 1 6 met1 r1 num2str pourcentages c Sit num2str param_iteration k num2str k s num2str b2max wk1 wkiwrite savefilel resultatsl C fprintf Tableaux des sigma optimaux et auc correspondants n resultats2 c savefile2 strcat pwd file ladate file ladate 1 1 6 met1 r2 num2str pourcentages c it num2str param_iteration k num2str k s num2str b2max wk1 wklwrite savefile2 resultats2 c end fprintf Tableaux des auc et cart types par pourcentages de train utilis
119. ur du param tre o Chapitre II 2 3 Les autres param tres sont n cessaires mais sont fournis la proc dure au pr alable tel que k le param tre de k fold cross validation le nombre de valeurs de o examiner les pourcentages etc L exp rience contient 2 tapes la d termination du o optimal et le test final utilisant ce param tre La d termination du o optimal utilise la m thode de r gression avec la fen tre de Parzen de classification et l AOC sa mesure de performance Cette premi re classification est r p t e selon 3 boucles La premi re permet de choisir tour de r le la dimension qui doit servir comme valeur cible La seconde fait varier o selon la gamme de o d finie par ces extrema et selon le nombre de o La derni re permet le changement des partitions de test et d apprentissage l aide de la k fold cross validation Le o optimal est la valeur de o qui minimise l AOC moyen L AOC moyen est une double moyenne de valeurs AOC obtenue pour chaque o Le test final calcule la performance du o optimal sur la fen tre de Parzen de Classification et fournit la valeur d AUC esp r e correspondante L exp rience est r it r e suivant tous les pourcentages examiner et le nombre d it rations demand es Le nombre d it rations a pour but de nous assurer que lorsque les pourcentages de l ensemble d apprentissage sont petits que les performances ne soient pas exag r ment basses ou hautes selon le choix bons
120. zenl tr ts cl nb clas sigminaoc auctestfinal aucesperee cs predictions resultats2 1 3 2 auctestfinal enregistrement de cette valeur d auc dans un tableau d auc associ son sigma optimal moyenneauc moyenneauc auctestfinal iterations i calcul de la moyenne des auc pour le pourcentage courant iterations i j numel pourcentages param iteration o waitbar i 1 end o var2 0 initialisation de la variance attribu chaque pourcentage o for j 1l iterations i 2nd boucle sur le nombre d it rations attribu chaque pourcentage var2 var2 resultats2 i j 2 moyenneauc 2 iterations i calcul de la variance partir de la moyenne end resultats3 i l moyenneauc enregistrement de la moyenne des auc pour chaque pourcentage resultats3 1 2 sqrt var2 enregistrement de la variance des auc pour chaque pourcentage end Code du fichier donnees m function trb cl tsb cs nb clas donnees filename fid 0 fid message fopen filename rt fid est 1 ET identifier if fid 1 disp message else fgetl fid fgets fid 24 dim fscanf fid g fgets fid 18 nb clas fscanf fid sg fgets fid 34 nb train fscanf fid g fgets fid 26 nb test fscanf fid g fgetl fid element fscanf fid Sg i 1 while i nb _train dim 1 1 boucle sur l ensem

Report (french) (pdf...)

Contents

Download Pdf Manuals

Related Search

Related Contents