Home

TH`ESE Dominique Joël GAY CALCUL DE MOTIFS - LIRIS

image

Contents

1. Comme exemple consid rons la base de donn es binaires r d crite par la table 2 1 Fue c de Ali 1 1 11 19 0 0 1 1 0 tj 1 0 1 1 1 5410 1 1 1 1 t51 1110 Pole its de pd TABLE 2 1 Exemple de base de donn es binaires r Dans cet exemple l itemset ace n est pas ferm car son sur ensemble direct acde est de m me fr quence 3 Par contre l itemset acde est l unique sur ensemble maximal de ace ayant la m me fr quence c est pourquoi cl ace r acde Consid rons maintenant un 34 2 3 Les itemsets libres seuil de fr quence minimum y 3 L ensemble des itemsets fr quents ferm s dans r est F y cl r acd acde bcd bcde cde Leur fr quence respective est 4 3 3 6 4 Ces deux seules connaissances nous permettent de g n rer tout itemset fr quent X et sa valeur de fr quence en consid rant le plus petit l ment de F cl r qui est un sur ensemble de X par exemple nous savons que ae est fr quent car cl ae r acde et acde F y cl r nous savons aussi que freq ae r 3 car freq acde r 3 2 3 Les itemsets 6 libres La notion d itemset 6 libre a t introduite la premi re fois dans BBR00 BBR03J Elle fait appel la notion de r gle d association forte Intuitivement une r gle d association forte est une r gle dont le nombre d erreurs commises dans la base est born par un entier gt 0 g n r
2. Donn es Objets Attributs 7 Classes et r partition balance scale 625 4 288 49 288 breast cancer 286 9 201 85 breast w 699 9 458 241 car 1728 6 1210 384 69 65 colic 368 22 232 136 credit a 690 15 307 383 diabetes 768 8 500 268 heart c 303 13 165 138 heart h 294 13 188 106 heart s 270 13 150 120 hepatitis 155 19 32 123 iris 150 1 50 50 50 labor 57 16 20 37 sonar 208 60 97 111 tic Tac Toe 958 9 626 332 vote 435 16 267 168 waveform 5000 40 1657 1647 1696 wine 178 13 59 71 48 700 101 17 41 20 5 13 4 8 10 TABLE 5 3 Description des bases de donn es UCI Appendice Preuves Dans cette section nous reportons les preuves des diff rentes propositions utilis es au cours du manuscrit Preuve de la proposition 1 Afin d all ger les notations consider la table de contigence pour la r gle 7 X c voir figure 5 10 FIGURE 5 10 Table de contingence pour la r gle X c concluant sur un attribut classe Cj X c c C D X a b a b X c d c d D a c b d rl a b c d Selon la d finition du facteur d int r t TSK05 X est dit positivement corr l avec la classe c si a r a b a c a b c gt 1 COrT T Ci D autre part soit un entier p gt 1 X est un p EP si a b4 d She bad SpA bs ae US a d gt p a b b c Grm fa b ab ad gt pab pbc alors b d gt p
3. CPAR fitcare 80 4 HARMONY Pr cision pour la classe 1 minoritaire D S eo of S 33 25 20 33 25 20 Pourcentage de r duction de la classe 1 Pourcentage de r duction de la classe 1 a b c FIGURE 4 2 Evolution de la pr cision par classe lorsque la classe 1 est minoritaire pour CPAR fitcare et HARMONY sur la base waveform 33 25 20 Pourcentage de r duction de la classe 1 ratio et sont donc minoritaires et nous avons donc une classe majoritaire Nous retrouvons les m mes observations que pr c demment la r duction de la taille des classes implique une chute de pr cision pour CPAR et HARMONY sur les classes concern es minoritaires et une augmentation de la pr cision sur la classe majoritaire Au contraire la pr diction de fitcare sur les classes minoritaires reste stable face la r duction des classes et diminue l g rement pour la classe majoritaire a 98 96 85 CPAR 94 8 fitcare HARMONY 2 a o a 2 S S o mo Pr cision pour la classe 3 n e CPAR FSCPAR 8 filcare B fitcare 60 4 HARMONY HARMONY 80 Pr cision pour la classe 1 minoritaire m a Pr cision pour la classe 2 minoritaire 35 78 16 10 56 16 10 50 33 25 20 33 25 Pourcentage de r duction des classes 1 et 2 Pourcentage de r duction des classes 1 et 2 FIGURE 4 3 Evo
4. F y 1r Notons qu une m thode d extraction des itemsets fr quents maximaux est propos e dans Bay98 Bdt F 7 r constitue d j une premi re repr sentation condens e de F y r En effet Bd F y r C F y r et tous les sous ensembles des itemsets fr quents maximaux sont fr quents et peuvent tre d duits sans retour aux donn es Cependant dans la majorit des applications en plus des itemsets fr quents on veut aussi connaitre leur fr quence Par exemple si l on d sire d river des r gles d association partir des itemsets fr quents la fr quence des itemsets est indispensable pour le calcul de mesure d int r t des r gles comme la confiance La bordure n gative de F y r not e Bd IF y r est l ensemble des plus petits itemsets qui ne sont pas fr quents et est d finie comme suit Bd F y r 1 e P Z NE Qy r Ve P T JCI JEF yr Bien que tout sous ensemble strict de Bd IF r est fr quent Bd IF y r ne sera pas consid r e comme une repr sentation condens e de F y r car Bd F y r F y r Toutefois la d finition de la bordure n gative nous sera utile pour la pr sentation des autres repr sentations condens es Ainsi une repr sentation condens e C R qui permet de d duire tous les itemsets fr quents mais pas leur valeur de fr quence sera dite non informative Par exemple Bd
5. 1 11 else 12 re Poest 13 classId DECREASEMOSTPROLEMATICDELTA 14 else 15 classId classId 1 16 if classId p then 17 if BETTERVALIDATION then 18 Poest p 19 else 20 re Poest 21 classId DECREASEMOSTPROBLEMATICDELTA 22 isParametersModified true 23 return Ibest 4 4 Validation exp rimentale Impl mentation L extracteur de r gles de caract risation OVE l algorithme fitcare CGSBO08 ainsi que le classifieur base de r gles fitcarc ont t impl ment s en C Bien que fitcare soit libre de tout param trage il est toutefois possible de jouer avec certains param tres 3 fitcare et fitcarc ont t impl ment s par Loic Cerf au LIRIS 100 4 4 Validation exp rimentale couverture fr quence matrice de fr quences la demande de l utilisateur Pour plus de d tails sur les options de fitcare et de fitcarc leurs manuels pages man sont report s en appendice Exp rimentations et protocole Pour valider l approche fitcare nous l exp rimentons sur des donn es aux ca ract ristiques diff rentes i des donn es deux classes ii des donn es multi classes iii des donn es aux classes disproportionn es Toutes les bases utilis es sont issues du r pertoire UCI ANO07 l exception de la base meningite fournit par P Fran ois et B Cr milleux Lorsque les donn es contiennent des attributs continus la base d appren tis
6. 1 L initialisation Partant de T initialis ses param tres maximaux respectant Chigne et Ccotonne l tape d initialisation a pour objectif de trouver de nouveaux param tres pour I par d cr mentation Ces nouveaux param tres doivent fournir la couverture positive maximale pour chaque classe c par l ensemble Se extrait tout en respectant Chane t Ceolonne 2 La couverture maximale La couverture de la base d apprentissage tant un point cl en classification associative nous posons la contrainte suppl mentaire suivante La couverture positive maximale atteinte lors de l initialisation doit tre maintenue et ce tout au long de la phase d optimisation 3 La fonction optimiser le choix de la fonction optimiser tout au long de l optimi sation est cruciale Nous proposerons une mesure d valuation pour un ensemble de r gles S extrait par rapport aT Plus cette mesure sera grande plus S sera consid r comme meilleur Nous devrons donc maximiser cette mesure 4 Le choir du param tre diminuer le param tre diminuer que nous choisirons sera le plus prometteur pour am liorer la mesure optimiser Initialisation L initialisation sera r alis e en trois tapes successives Etape 1 Initialisation de d part Puisque nous sommes amener diminuer les param tres de I alors au d part tous les param tres de I sont leur maximum bd si i j iel nns Ze 1 sinon Nos pr
7. 1 Usage multiple des motifs locaux en classification supervis e 1 1 Contexte sens ent see edu he oe ES EB E as AL tate 1 2 M thodes base de r gles 220 oes vex oe Renee 1 2 1 R gles inductives 1 4 de 4 4 Sas EUR bua RE RE RUE e REUS 1 2 2 Classification associative 4 42 54 25446 22444 2443 44 1 3 M thodes base d itemsets mergents TA ENTER SSSR ade Oe Sotto ES ae dde Mens desde ee 2 Repr sentations condens es des itemsets fr quents 2 1 Th ories bordures et repr sentations condens es 2 2 Les itemsets ferm s 2 3 Les itemsets d libres 13 15 15 16 17 23 26 28 31 31 34 35 xi Table des mati res 2 4 Autres repr sentations condens es 37 2 4 1 Les itemsets V libres oe eat oo Gog ag Ee ee SS Ee Se Bok 37 2 4 2 Les itemsets non d rivables 38 2 4 3 Applications et discussion 41 2 5 Usage multiple des itemsets libres 41 2 5 1 Beslesuxlassociation o forteS 4 yeu 26e Se ea Ge Sun ee 42 2 5 2 Motifs tol rants aux erreurs 43 2 5 3 Caract risation de groupes 44 2 5 4 Classification supervis c9 ok Bee Re eR TAE ER 46 2 0 Discussioni cy Be sind EIC ITE mei pM NBuusdu v is 47 III Contributions m thodologiques 49 3 Construction de descript
8. rosion des sols en Nouvelle Cal donie 50 100 150 200 250 300 L L i L L L 100 200 300 400 500 600 700 FIGURE 5 5 Cartographie des zones d rosion par pr diction avec fitcare sur le bassin de la Dumb a Il apparait visuellement sur les cartes des figures 5 5 et 5 6 que les zones rod es sont surestim es En effet 13 des sols du bassin de la Dumb a et 24 des sols de la Ouenghi sont pr dits sol rod par notre classifieur alors que l indice de brillance couche test nous indique respectivement 396 et 596 Une tude d taill e des zones concern es par ce biais montrent que ces zones sont souvent des sols de type lat rites indiff renci es sur p ridodite Ce type de sol est souvent pr sent dans le corps de r gles concluant sur sol rod et ayant un taux d accroissement moyen entre 1 et 3 5 et explique une grande partie des faux positifs 5 2 4 Estimation de l al a rosion Pour chaque objet t au lieu de la version simplifi e de la pr diction sol rod ou sol non rod fitcarc a la possibilit de fournir les fr quences normalis es dans chaque classe des r gles de Soyg qui couvrent t Ainsi au lieu de ne garder que la classe c qui maximise le score de ressemblance de t avec cj on normalise les scores obtenus de mani re obtenir une somme de ces scores gale 1 pour t Plus la fr quence normalis e li e la classe sol rod
9. supp I a r supp 1 N b r supp 1 a 0 r Puisque I est y fr quent alors I ab r IN b r et I a b r sont aussi fr quents et de taille inf rieure k Par hypoth se d induction nous pouvons d duire leurs valeurs de fr quence De plus comme I C J J a b a V b est aussi valide Encore une fois par hypoth se d induction si J a r JN b r et JN a b r sont fr quents on peut d terminer leurs valeurs de fr quence dans ce cas Et gr ce l galit supp J r supp J a r supp J b r supp JN a b r on pourra d terminer si J est fr quent et sa valeur de fr quence Noter que J sera fr quent uniquement si J a J b et J a b sont fr quents Ainsi F y V r et Bd IF y V r forment une repr sentation condens e des itemsets fr quents Notons aussi la g n ralisation de ce concept dans KG02 les auteurs g n ralisent les itemsets V libres en tendant la notion de V r gle plusieurs disjonctions dans le cons quent Ainsi une V r gle g n ralis e est de la forme 7 gt a4V Va V Va Et un itemset sera V libre g n ralis si et seulement si pour tout n gt 0 il n existe pas de r gle valide m JV 5405 2s gt a1 Vis Ma Ves Vias telle que 81 0 76505 C I 2 4 2 Les itemsets non d rivables Introduit dans CG02 CG07 comme une nouvelle repr sentation condens e des itemsets f
10. CG02 CG03 CG07 CGSBOS CJK04 CJZ09 CLO CM02 Coe04 Coh95 March 11 13 2004 Revised Selected Papers volume 3848 of LNCS Springer 2005 Yves Bastide Rafik Taouil Nicolas Pasquier Gerd Stumme and Lotfi Lakhal Mining frequent patterns with counting inference SIGKDD Explorations 2 2 66 75 2000 Carla E Brodley and Paul E Utgoff Multivariate decision trees Machine Learning 19 1 45 77 1995 Peter Clark and Robin Boswell Rule induction with CN2 Some recent improvements In EWSL 91 pages 151 163 1991 Bruno Cr milleux and Jean Frangois Boulicaut Simplest rules characteri zing classes generated by delta free sets In Proceedings ES 02 pages 33 46 Springer 2002 Nitesh V Chawla David A Cieslak Lawrence O Hall and Ajay Joshi Au tomatically countering imbalance and its empirical relationship to cost Data Mining and Knowledge Discovery 17 2 225 252 2008 Toon Calders and Bart Goethals Mining all non derivable frequent itemsets In PKDD 02 pages 74 85 2002 Toon Calders and Bart Goethals Minimal k free representations of frequent sets In PKDD 03 pages 71 82 2003 Toon Calders and Bart Goethals Non derivable itemset mining Data Mining and Knowledge Discovery 14 1 171 206 2007 Loic Cerf Dominique Gay Nazha Selmaoui and Jean Frangois Boulicaut A parameter free associative classifier In Proceedings DaWaK 08 volume 5182 of LNCS pages 238 247
11. Pourcentage de r duction des classes 1 et 3 b 33 25 20 16 10 Pourcentage de r duction des classes 1 et 3 c FIGURE 4 4 Evolution de la pr cision par classe lorsque les classes 1 et 3 sont minoritaires pour CPAR fitcare et HARMONY sur la base waveform o o o 8 a 8 8 x a Pr cision pour la classe 1 g e CPAR fitcare Pr cision pour la classe 2 minoritaire Pr cision pour la classe 3 minoritaire HARMONY CPAR e CPAR 55 fitcare 55 Er fitcare HARMONY HARMONY 50 50 0 10 50 10 50 10 33 25 20 16 Pourcentage de r duction pour les classes 2 et 3 a 33 25 20 16 Pourcentage de r duction des classes 2 et 3 b 33 25 20 16 Pourcentage de r duction des classes 2 et 3 c FIGURE 4 5 Evolution de la pr cision par classe lorsque les classes 2 et 3 sont minoritaires pour CPAR fitcare et HARMONY sur la base waveform 104 4 5 Discussion et limites 4 5 Discussion et limites Concernant les trois points cl s de la classification associative nonc s en introduction notre approche fitcare propose les solutions suivantes la d finition des OVE CRs indique que les r gles extraites ont un corps minimal et que l ensemble 5 5 des OVE CRs extraites est exempt de redondance Le respect des contraintes Crigne et Ceotonne sur I nous assurent que le corps des OVE CRs extraites ont le pouv
12. Springer 2008 Nitesh V Chawla Nathalie Japkowicz and Aleksander Kotcz Editorial special issue on learning from imbalanced data sets SIGKDD Explorations 6 1 1 6 2004 Nitesh V Chawla Nathalie Japkowicz and Zhi Hua Zhou editors PAKDD 09 Workshop Data Mining When Classes are Imbalanced and Er rors Have Costs 2009 Chih Chung Chang and Chih Jen Lin LIBSVM A library for support vector machines 2001 http www csie ntu edu tw cjlin libsvm Antoine Cornu jols and Laurent Miclet Apprentissage Artificiel Concepts et algorithmes Eyrolles 2002 Frans Coenen The LUCS KDD software library 2004 http www csc liv ac uk frans KDD Software William W Cohen Fast effective rule induction In CML 95 pages 115 123 1995 145 Bibliographie CRB05 CYHHO7 DL99 DZWL99 EMO05 F193 FPSSU96 FRO3 Fre00 FSFG 10 F r02 FW94 GFF 08 GKLO6 146 Toon Calders Christophe Rigotti and Jean Fran ois Boulicaut A survey on condensed representations for frequent sets In Constraint Based Mining and Inductive Databases volume 3848 of LNCS pages 64 80 Springer 2005 Hong Cheng Xifeng Yan Jiawei Han and Chih Wei Hsu Discriminative frequent pattern analysis for effective classification In Proceedings ICDE 07 pages 716 725 IEEE Computer Society 2007 Guozhu Dong and Jinyan Li Efficient mining of emerging patterns discove ring trends an
13. c3 d crite en figure 4 1 La r partition des objets de r dans les classes C est telle que T 10 Z 85 Z 5 et r 100 Nous consid rons deux itemsets dans r l itemset X tel que freq X r 9 freq X r4 7 fregiX vu 90 freg X re 2 et l itemset Y tel que freg Y r 45 freq Y ra 0 freq Y Te 40 freqlY fu 5 10 c1 85 c2 5 c3 FIGURE 4 1 Exemple de donn es aux classes disproportionn es D finition 17 Facteur d int r t et corr lation positive Soit 7 I c une r gle d association de classe concluant sur un attribut classe c Selon TSKO05 le facteur d int r t du couple I c dans r T Z R est d fini comme suit IT X fu Fint I c r 1H fix X ha 87 Vers une solution pour les classes in galement distribu es Ic C C y Be Nr fi m I foi foo fox M Tuc fo fe T TABLE 4 1 Table de contingence pour la r gle d association J c qui conclut sur l attribut classe c Puis 1 sil etc sont ind pendants FInt I c r Q4 gt 1 sil etc positivement corr l s lt 1 sil et c n gativement corr l s Le cadre fr quence confiance Dans l exemple 1 nous avons conf Y co r 40 50 Ainsi Y c peut tre consid r e comme une r gle forte confiance pour ca ract riser la classe cg Pourtant nous avons TA Y re 5 5 40 95 gt 2 ce qui in dique que Y apparait relativement deux fois plu
14. de classe c et N l ensemble courant des objets n gatifs i e des autres classes Pour construire une r gle FOIL part de la r gle vide m c ligne 2 rajoute successivement le meilleur attribut selon une mesure d int r t au corps de 7 ligne 6 et retire de P et N les objets non concern s par la r gle en construction jusqu ce qu il n y ait plus d objets n gatifs dans N ou que les attributs soient puis s ligne 5 La mesure d int r t utilis e est la fonction de gain Pour un attribut a et une r gle x est d fini comme suit i P P gain a x P ioe N log IP x o P resp est le nombre d objets positifs resp n gatifs couverts par m et P resp N le nombre d objets positifs resp n gatifs couverts par la r gle m dont le corps a t augment de l attribut a Algorithme 2 FOIL ApprendreRegle Entr e r 7 Z R un contexte binaire C c c l ensemble des classes par ordre croissant de taille c C la classe courante P l ensemble des objets positifs de classe c N l ensemble des objets n gatifs Sortie 7 une r gle induite 1 begin 2 I 3 N N 4 P P 5 while N gt 0 A z taille lt taille max regle do 6 Trouver l attribut a qui apporte le plus de gain v selon P et N 7 ITU a 8 Enlever de P les objets non couverts par 7 9 Enlever de N les objets non couverts par 7 10 T l c 11 end FOIL Suppressi
15. e g HARMONY Toutefois elle est loin d tre triviale dans notre cadre de travail En effet les valeurs de y et de 6 tant li es tendre notre cadre de travail plusieurs seuils de fr quence demanderait aussi plusieurs seuils d erreurs et donc de plus amples investigations Dans le chapitre suivant nous nous int ressons plus particuli rement ces probl mes d actualit en classification supervis e les probl mes multi classes disproportionn es FC et bruit de classe En parall le de notre travail pr sent dans ce m moire le processus FC a t aussi prouv dans des donn es o les attributs classes sont bruit s L application directe de FC originellement d di aux contextes dont les attributs non classe sont bruit s ce type de probl mes fournit des r sultats d cevants En effet les classifieurs classiques r sistent mieux au bruit de classe sur les donn es avec les descripteurs originaux qu avec les nou veaux descripteurs fournis par FC Nous pensons que cette divergence de r sultats entre donn es aux attributs bruit s et donn es aux classes bruit es vient de la diff rence des impacts des diff rents types de bruits En effet la pr sence de bruit dans les attributs d un objet t de classe c a peu de chances de transformer cet objet en quelque chose de similaire un objet de classe c Au contraire le bruit de classe par d finition change la classe 81 Construction de descripteu
16. et c un attribut particulier l attribut cible ou classe Nous nous restreignons au cas o c est attribut nominal Nous ne parlerons donc pas des m thodes de regression qui s appliquent lorsque l attribut classe est de type num rique Le but d un processus de classification supervis e est d apprendre une fonction surjective qui chaque enregistre ment associe une valeur de l attribut classe c La fonction apprise est appel e mod le de classification ou classifieur Ce mod le de classification peut tre utilis par la suite pour la phase de pr diction o l on assigne une classe de nouveaux enregistrements entrants voir figure 2 Nouvelles donn es Algorithme de classification li Donn es d entrainement Mod le de classification Nouvelles donn es class es FIGURE 2 Processus de classification supervis e et pr diction Classification supervis e base de motifs locaux Les domaines de l apprentissage automatique et des statistiques ont donn lieu une multitude de m thodes de classification supervis e Parmi les plus connues on trouve la construction d arbres de d cision celle de classifieurs bay siens l induction de r gles de classification l apprentissage de r seaux de neurones ou encore de Support Vector Machines ou SVM appel s S parateurs Vastes Marges dans CM02 Nous renvoyons le lecteur par exemple HK00 pour une tude approfondie D autre part depuis
17. i e la fr quence du 68 3 3 Processus g n rique de construction de descripteurs corps d une r gle dans la classe qu elle caract rise et sa fr quence dans le reste de la base Les autres approches classique ou par classe ne disposant pas de ces deux valeurs post traitent l ensemble de motifs Dans la suite nous montrons que le concept de 6 CEC et l information qu il contient permettent d viter cette phase Propri t s d une CEC Selon la formalisation de CB02 x X c est une r gle d association forte de caract risation 6 SCR si c est un attribut classe et le corps X est minimal X est minimal s il n existe pas d autre r gle fr quente 7 Y c telle que Y C X et conf n r gt 1 y Cette formalisation nous permet d viter des conflits de r gles dans l ensemble des 0 SCRS extraites sous de simples conditions sur les valeurs de y et En effet si 0 y 2 nous n avons pas de conflits de corps de r gles dans 5 c est dire qu il n existe pas deux r gles 7 X c et 1 Y cj telles que j Z iet Y CX Cependant la d finition de SCR bas e uniquement sur la mesure de confiance n est pas suffisante pour les t ches de pr diction Dans BMS97 les auteurs montrent que m me des r gles 7 X c de forte confiance n assurent pas que X est positivement corr l avec c et donc peuvent induire en erreur C est pourquoi dans la suite nous exploiterons aussi le ta
18. la fois r duire le temps de calcul et le nombre de r gles extraites il faudrait trouver un compromis entre l optimalit de I et les y afin peut tre de stopper le processus d optimisation avant terme Cela des demande des investigations plus approfondies 105 Zz lement distribu es z in ga Vers une solution pour les classes ANOWYVH 39 YVd9 294V uosre1eduroo 3o eqe2317 op UOISI91d op syeqynsoy cv ATAVL 06 6 28 94 s c6 0r 001 9 26 06 001 92 001 09 001 96 76 08 ec 06 001 0c 001 29 v6 20 c6 v0 G6 SI 6 OURETO 8 96 221 96 T9 96 16 L6 60 8 19 96 86 19 6 v1 c6 90 96 LST6 98 6 id 969T 2LP9T LG9T 66 T8 vc T8 14 1 68 v8 12 18 v8 99 8 22 66 G1 8c1 08 vL 6L 8C TOSAN ix sd C 9c9 1 6 c 66 10 6 1188 0 09 80 LL 8T 46 2868 86 0L Po 8T 08 c eg 4891 82 91 4 18 1 0L 4T18 P94 8S p RO RR peee Gyc v8 6S 66 19 7L 16 6 60 88 69 S6 9V TL L t6 196 1928 oySuraout 8 8 0 L 81 88 41 cg eg ya 2 08 2 08 19 89 c6 c6 001 v6 06 001 19 c6 19 c6 001 1976 2976 1976 987 qe EZT ZE v6 06 vo 82 Ae vg 6 c6 66 9G 9T98 see ve 8A anedon c 11 99 78 99 18 99 v8 co T8 ce cg SP IS 8 gris Su c6 49 cv 06 0 99 89 c8 96 84 T9 18 Ig c8 LS 8L g eL 901 881 y yreoy 80 92 TcT8 ST T8 08 9 6L 62 08 18 82 cS 08 Z8
19. min_freg 7 G n rer l ensemble C4 des itemsets candidats de taille k 1 8 k k 1 jak nm U Es 9 10 end APRIORI effectue une recherche en largeur en g n rant les itemsets candidats Cz de taille k 1 en commen ant avec k 0 un itemset est candidat si tous ses sous ensembles sont fr quents Au d part C1 contient tous les attributs de puis pour un niveau k les candidats sont g n r s de la mani re suivante i pour X Y IF on consid re l union XUY si X et Y contiennent un k 1 itemset en commun ii Puis X UY est ins r dans C41 si tous leurs sous ensembles directs appartiennent F Le calcul des fr quences des itemsets candidats se fait en une seule passe sur l ensemble des objets 7 de r A chaque objet t 7 la fr quence de chaque itemset candidat couvrant l objet est mis jour Puis tous les k itemsets fr quents sont ins r s dans F Noter que la g n ration des candidats avec APRIORI profite de la propri t d anti monotonicit de la fr quence C est dire si un itemset n est pas fr quent aucun de ses sur ensembles ne seront fr quents ce qui permet d laguer l espace de recherche Cette approche rentre parfaitement dans le cadre des algorithmes par niveaux et de la th orie des bordures introduit dans MT97 que nous d taillerons dans le chapitre 2 Puisque nous nous int ressons aux r gles d association de classe que nous d rivons partir des it
20. offre aussi une propri t de corps minimal identifi e comme un point cl en classification associative On d finit les r gles de corps minimal de la fa on suivante D finition 12 R gle de corps minimal Soit seuil de fr quence minimum et 6 un entier seuil d exceptions maximum Une r gle x I c a un corps minimal s il n existe pas d autre r gle y 6 fr quente n J gt c telle que J C I et conf r r gt 1 y Ainsi nous nous int ressons aux r gles de corps minimal qui concluent sur un attribut classe c avec un degr d incertitude gouvern par Dans CB02 les auteurs d montrent la propri t suivante qui lie r gles de corps minimal et itemsets 0 libres Propri t 3 Soit y seuil de fr quence minimum et un entier seuil d exceptions mazi mum etm I c une r gle de corps minimal alors I est un itemset 6 libre Toutefois ce lien n est en rien une quivalence Il peut exister des r gles fortes dont le corps libre n est pas minimal Par exemple dans la base de donn es de l exemple 2 1 46 2 6 Discussion et la figure 2 1 pour 6 0 nous avons ae c et a c deux r gles fortes avec ae et a deux itemsets libres et a C ae Il est tout de m me possible avec les techniques d extraction par niveaux de reconnaitre la propri t de corps minimal et ainsi d obtenir directement les r gles de corps minimal Sous certaines conditions sur les valeurs de y et
21. on peut approximer la fr quence de J U J o J cl I r V I ainsi que la confiance de m I cls I r I et d duire si m est de fr quence et confiance suffisantes on choisira les ensembles J maximaux comme cons quents de r gles Lorsque 6 0 les itemsets cl I r V I constituent les cons quents de nos r gles De cette mani re on obtient des r gles dites maximales 7 I J est dite maximale si il n existe pas d autre r gle fr quente z H K de confiance proche telle que H C I et J C K Dans cette direction dans BBJ 02 les auteurs appliquent l extraction de r gles fortes 6 0 l analyse de donn s d expression de g nes humains 2 5 2 Motifs tol rants aux erreurs L analyse de concepts formels Wil82 GSW05 est une approche de d couverte de connaissances qui a t tr s tudi e dans les bases de donn es binaires Intuitivement un concept formel est un rectangle maximal de 1 dans r Par exemple dans la table 2 1 le rectangle form par le bi ensemble des objets f t4 et des attributs b d c e est un concept formel Ainsi un concept formel associe un ensemble maximal d objets un en semble maximal d attributs Dans la litt rature plusieurs algorithmes ont t propos s pour extraire l ensemble des concepts formels voir KO02 pour une vue d ensemble Par construction un concept formel est compos d un ensemble ferm d objets et d un ensemble ferm d attributs tous deux li
22. ridotite 0 0118405 0 0234879 1 9837 pente gt 48 1 1826 precipitations 1956 0 00778466 0 0246942 3 1722 savane_arbustive_et_arbor e 0 0109247 0 0375548 3 4376 2872 lt precipitations lt 3008 0 00098126 0 0200467 20 4295 precipitations gt 3008 0 000130835 0 0216879 165 7653 132 lt altitude lt 442 1956 lt precipitations lt 2197 0 0118405 0 0189146 1 5974 132 lt altitude lt 442 1310 lt precipitations lt 1481 0 0125601 0 0170473 1 3573 2289 precipitations 2435 0 0129526 0 0238262 1 8395 TABLE 5 2 R gles de caract risation OVE concluant sur la classe sol non rod 116 5 2 Sc nario de d couverte de connaissances 5 2 3 Construction d un mod le pr dictif fitcarc l algorithme de classification supervis e associ fitcare nous permet de construire un classifieur partir des r gles de Sgyg Nos donn es test sont les bassins de la Ouenghi et de la Dumb a La phase de pr diction de l rosion des sols dans ces zones se fait via les commandes fitcarc s r tontouta ove rules txt dumbea txt fitcarc s r tontouta ove rules txt ouenghi txt Nous reportons les r sultats de pr cision pour chaque bassin dans les matrices de confusion des figures 5 3 et 5 4 Dumb a Classes r elles Pr dictions sol non rod sol rod sol non rod 112827 743 sol rod 14437 926 FIGURE 5 3 Matrice confusion pour les r sultats de pr cision sur le bassin de la Dumb
23. s par une connexion de Galois Les r cents chal lenges GZ03 BGZ04 sur le calcul des itemsets fr quents ferm s ont apport des avanc es non n gligeables pour la d couverte de concepts formels autant en terme de performance via de nouveaux algorithmes qu en terme de nouveaux domaines d applications Toutefois l association entre les objets et les attributs induite par un concept formel est bien souvent trop forte dans des cas r els o les donn es sont imparfaites C est dire que m me si l extraction compl te reste faisable c est le post traitement puis l interpr tation des r sultats qui devient vite fastidieux voire impossible Car bien s r dans les donn es bruit es le nombre de concepts formels peut tre gigantesque mais surtout beaucoup d entre eux ne sont tout simplement pas pertinents Ces limites ont motiv es plusieurs travaux de recherche qui ont amen tendre la notion de concept formel pour les donn es bruit es le but tant de d couvrir des rectangles contenant des imperfections i e des bi ensembles denses en valeur 1 mais contenant aussi un nombre de 0 contr l Les premi res approches pour ce probl me ont donn naissance deux nouveaux motifs les CBS Consistent Bi Set BRB05b et les DRBS Dense and Relevant Bi 3 SAGE Serial Analysis of Gene Expression 43 Repr sentations condens es des itemsets fr quents Set BRB05a CBS et DRBS sont d finis avec des contraintes
24. sultats moyenn s obtenus par d PDT avec les dopt sont moins percutants par rapport aux autres classifieurs Toutefois on voit tout de m me que l emploi des nouveaux descripteurs est b n fique dans 6 PDT par rapport aux attributs originaux dans C4 5 En effet voir colonne moyenne PDT utilisant les sp emporte 8 fois sur 12 face C4 5 Enfin la derni re ligne moyenne pond r e des pr cisions sur toutes les bases montre que PDT obtient des r sultats meilleurs que l arbre de d cision C4 5 original 5 10 SCV en anglais pour 10 folds stratified cross validation 6 CBA http www comp nus edu sg dm2 64 base de motifs ecision Zz 3 2 Arbre de d Ldd 9p suorstooud sop uosrededuro pe ATAV T I 48 SPSS LEES CL 98 G8 Y8 19 78 euuoAo q 9 01 6146 096 9 G6 PS 26 9676 10 96 eutn 191 POT 8 04 9FTL SEL 6629 8669 TOTY A G OT GC I8 e662 OT SS 20 T8 1864 I8 64 zeuos z ST G6 GC 66 CC I6 6416 ES v6 Srargurueu g 01 6F 98 86 18 708 OSPS 07 qdu T 0 e 0 2 0 OT 71 18 19 68 008 LUT6 98 OFZ zoqeT z o cte rec e rest LF eese LL S6 1976 96 6 STIT gT lt r 01 Ie v8 C618 LUTS PUPS ZOIS 90798 2t 102 es20q 0 9 con OT S8 PL TS Sees PS SIS 898 oraedeq g c 6 98 6F e8 9678 OL ES 48 I8 078
25. 1 1956 lt precipitations lt 2197 0 0155693 0 0278662 1 7898 harzburgites 728 lt altitude lt 851 0 0111864 0 032229 2 8811 harzburgites 1826 precipitations 1956 0 0151768 0 0305826 2 0151 851 lt altitude lt 1193 maquis minier clairsem 0 0162235 0 0189543 1 1683 851 lt altitude lt 1193 maquis minier dense 0 00346712 0 0193219 5 5729 851 lt altitude lt 1193 pente gt 48 1 0 00935468 0 0323688 3 4602 for t dense 0 0113826 0 090274 7 9309 32 3 lt pente lt 40 3 maquis minier dense 0 00771925 0 0207819 2 6922 32 3 pente 40 3 132 altitude 442 0 0164198 0 0170939 1 0411 40 3 lt pente lt 48 1 maquis minier dense 0 00765383 0 0264649 3 4577 40 3 lt pente lt 48 1 132 altitude 442 0 0135414 0 0205385 1 5167 maquis minier dense pente gt 48 1 132 altitude 442 0 00902759 0 0497785 5 514 maquis minier dense pente gt 48 1 1481 precipitations 1826 0 012691 0 0325604 2 5656 maquis minier dense 728 lt altitude lt 851 0 0064109 0 0190751 2 9754 maquis minier dense 541 altitude 728 0 0139993 0 0394911 2 8209 maquis minier dense 442 altitude 541 0 00614923 0 0240333 3 9083 maquis minier dense 132 lt altitude lt 442 1481 precipitations 1826 0 00856967 0 0258453 3 0159 maquis minier dense lat rites indiff renci es sur p ridotite 0 0123639 0 0176116 1 4244 maquis minier dense 1956 precipitations 2197 0 010663 0 023361 2 1914 maquis minier dense 1310 precipitations 1481 0 00667257 0 01737 2 6032 lat rites_minces_sur_p
26. 258 1997 Bibliographie NHO5 PB05 PBTL98 PBTL99 PFO07 PRBO6 QCJ93 Quis6 Qui93 RB07 RF07 SFFG 09 SG B09 SLGBO06 TSK05 UB90 Canh Hao Nguyen and Tu Bao Ho An imbalanced data rule learner In PKDD 05 pages 617 624 2005 Ruggero G Pensa and Jean Fran ois Boulicaut From local pattern mining to relevant bi cluster characterization In DA 05 volume 3646 of LNCS pages 293 304 Springer 2005 Nicolas Pasquier Yves Bastide Rafik Taouil and Lotfi Lakhal Pruning closed itemset lattices for associations rules In BDA 98 1998 Nicolas Pasquier Yves Bastide Rafik Taouil and Lotfi Lakhal Efficient mining of association rules using closed itemset lattices Information Systems 24 1 25 46 1999 Sang Hyeun Park and Johannes F rnkranz Efficient pairwise classification In ECML 07 pages 658 665 2007 Ruggero G Pensa C line Robardet and Jean Fran ois Boulicaut Supporting bi cluster interpretation in 0 1 data by means of local patterns Intelligent Data Analysis 10 5 457 472 2006 J Ross Quinlan and R Mike Cameron Jones FOIL A midterm report In ECML 93 pages 3 20 1993 J Ross Quinlan Induction of decision trees Machine Learning 1 1 81 106 1986 J Ross Quinlan C4 5 programs for machine learning Morgan Kaufmann 1993 Umaa Rebbapragada and Carla E Brodley Class noise mitigation through instance weighting In Pro
27. 7 8 9 10 11 12 18 FIGURE 3 12 Evolution de la pr cision d entrainement de FC C4 5 en fonction de 6 pour diff rents seuils de y et de bruit pour les donn es tic tac toe dans WK05 WK06 nous utilisons HARMONY avec diff rents seuils de fr quence 5 10 15 et reportons le meilleur r sultat de pr cision Nous comparons donc HARMONY avec les r sultats de FC en colonnes Maz Les classifieurs classiques C4 5 NB SVM RBF gagnent respectivement 9 66 37 66 et 33 66 contre HARMONY Except pour NB HARMONY est g n ralement plus performant que C4 5 et comparable SVM RBF Pour avoir une id e de l am lioration de la pr cision qu apporte FC nous comptons combien de fois un classifieur classique perd face HARMONY et gagne lorsqu il est en fin de processus FC FC C4 5 affiche un r sultat de 23 FC NB 12 et FC SVM 9 Une fois encore il est int ressant d utiliser FC pour am liorer la description des donn es et par cons quent les r sultats de pr cision des classifieurs appris En effet avec la nouvelle description g n r e par FC des classifieurs classiques comme C4 5 NB SVM RBF deviennent comparables voire meilleurs que HARMONY FC C4 5 gagne 32 fois sur 66 FC NB 44 66 et FC SVM 40 66 80 3 5 Discussion et limites 3 5 Discussion et limites Si nous revenons aux trois points cl s de la classification associative nonc s en in troduction int r t des r gles couverture des donn es d apprentissag
28. 70 40 82 02 88 28 88 82 93 27 91 42 93 79 96 08 95 24 96 63 91 01 50 82 12 85 11 87 58 88 10 89 29 90 42 91 60 68 76 69 74 88 76 vote 95 19 96 32 96 78 90 37 92 14 92 20 95 41 95 29 95 41 94 71 10 94 26 94 53 94 94 89 68 92 20 92 44 95 64 95 13 95 42 95 63 20 92 42 93 78 94 24 89 91 91 18 91 59 95 41 94 84 95 18 94 48 30 93 11 91 25 91 96 88 98 90 77 91 28 94 72 94 38 94 49 94 94 40 90 59 90 56 91 72 89 21 90 71 91 74 93 58 92 91 93 11 92 64 50 89 44 88 58 89 21 89 21 90 19 90 36 92 20 89 78 90 13 93 10 Average 1 44 2 79 0 99 2 2 0 51 0 23 10 0 75 2 27 0 63 2 22 0 27 0 25 20 1 21 2 69 0 21 1 52 4 74 5 25 30 1 31 3 20 0 20 1 08 0 36 0 99 40 1 94 3 47 2 21 0 75 0 57 0 70 50 1 80 3 48 0 29 1 62 1 56 0 43 TABLE 3 5 R sultats de pr cision des classifieurs classiques de FC et de HARMONY Construction de descripteurs base d itemsets libres 84 Chapitre 4 Vers une solution pour les classes in galement distribu es Sommaire 4 1 Introduction et probl matiques 85 4 1 1 Contexte g n ral 85 4 1 2 Exemple motivant 87 4 2 Vers une approche OVE 89 4 2 1 Matrice de seuils et r gles de caract risation OVE 90 4 2 2 Contraintes entre param tres 90 ADS Extraction 5 2 tects tot ns get ADU de N eO s 92 4 2 4 Classification 22444 dou d
29. Coconne et du fait que Y C X nous avons l in quation suivante Vii lt freq X Te lt freq Y re S Vi et donc Yii lt ji ce qui entre en contradiction avec l hypoth se de la contrainte Cooonne 132 Appendice Manuel de fitcare Pour informations fitcare et fitcarc version 0 16 2 sont utilis es pour les exp rimentations report es dans ce manuscrit 133 FITCARE 1 FITCARE 1 NAME Fitcare Is The Class Association Rule Extractor SYNOPSIS fitcare options dataset fitcare help version OVERVIEW From a classified data set fitcare computes the bodies of the rules concluding on the classes such that every rule is frequent in one class and not frequent in any of the other classes Either every frequency threshold is bound to a parameter set by the user or these parameters are automatically learned Then fitcarc can apply these rules on unclassified data RETURN VALUES fitcare returns values which can be used when called from a script They are conformed to sysexit h 0 is returned when fitcare terminates successfully 64 is returned when fitcare was called incorrectly 65 is returned when input data is not properly formatted 74 is returned when data could not be read or written on the disk GENERAL fitcare help or simply fitcare h displays a reminder of the dif ferent options that can be passed to fitcare fitcare version or simply fitcare V displays version info
30. ainsi matrice de param tres contraintes param trage automatique et extraction des OVE CRs pour construire un classifieur libre de tout param trage d di aux donn es multi classes disproportionn es L originalit de notre approche vient compl ter les r sultats probants en terme pr cision sur les classes mineures Perspectives Les perspectives de travail la suite de notre approche OVE fitcare sont multiples Tout d abord court terme on pourrait penser exp rimenter notre m thode dans des contextes bruit s et ainsi valuer sa robustesse face aux donn es imparfaites D autre part fitcare est bas sur une technique simple d optimisation pour la recherche locale de solutions le hill climbing Il existe beaucoup d autres algorithmes de recherche locale Une tude plus approfondie des diff rentes m thodes et de leur application notre probl me pourrait nous mener de meilleures solutions pour I la fois en terme d efficacit de calcul de pertinence et de pr cision A moyen terme une piste de travail pourrait tre d adapter notre approche fitcare aux probl mes de classification supervis e sensible aux co ts de classification Dans ce type de probl me les erreurs de classification d une classe c une classe c sont diff rentes selon la classe tudi e et la classe o les erreurs sont faites Classes disproportionn es et co ts de classification sont intimement li es CCHJ08 Une matrice de co ts
31. approches pour am liorer les performances de l extraction Toutefois le nombre d itemsets fr quents est souvent trop grand Le stockage des FI et le calcul de leur fr quence n est pas support par les calculateurs d aujourd hui C est le cas lorsque le seuil de fr quence minimum est tr s bas ou lorsque les donn es sont tr s corr l es En effet dans le pire des cas le nombre d itemsets fr quents dans r est exponentiel par rapport au nombre d attributs complexit exponentielle O 27 Il est possible d viter cette explosion combinatoire en calculant des repr sentations condens es des itemsets fr quents Le principe est de calculer un ensemble CR C P Z le plus concis possible partir duquel nous pouvons d duire efficacement T h r P T Cy minfreq i e sans acc der nouveau r Une premiere solution consiste en le calcul des bordures positive ou n gative de la th orie Th r P T C minfreg Pour simplifier les notations de notre probl me nous renommons 1 FIM pour Frequent Itemset Mining en anglais 32 2 1 Th ories bordures et repr sentations condens es la th orie T h r P T Cy minfreq en F y r i e l ensemble des itemsets y fr quents de r La bordure positive de F y r not e Bd F r est l ensemble des plus grands itemsets y fr quents au sens de l inclusion de F y r et est donc d finie comme suit Bd F y r 1 F 7 r VJ PZ 1 CJ SJ
32. avec plusieurs r gles De plus iv apr s g n ration chaque r gle est valu e par une estimation de la pr cision attendue en utilisant l estimation de l erreur attendue de Laplace CB91 Na 1 Laplace estimateur m I gt c r Ntotal F P O Nota est le nombre d objets de r couverts par 7 ne le nombre d objets de r couverts par 7 et p le nombre classes Puis v pour pr dire la classe d un nouvel objet t entrant CPAR s lectionne les k meilleures r gles selon l estimateur de Laplace qui couvrent t pour chaque classe La classe qui maximise la valeur moyenne de l estimateur indique la classe pr dire 22 1 2 M thodes base de r gles Ainsi parmi les diff rentes approches par r gles inductives CPAR est la m thode la plus r cente semble la plus volu e et la plus performante au vu des r sultats de pr cision an nonc s dans l article original Toutefois bien que CPAR g n re plus de r gles que ces concur rents le syst me de pond ration n assure pas d avoir les meilleures r gles pour chaque objet De plus CPAR d pend d un param trage plus lourd En effet le ga n minimum le facteur de pond ration a la condition d arr t param tr e par et le nombre de r gles utiliser k sont loin d tre intuitifs pour l utilisateur et d pendra du domaine de travail 1 2 2 Classification associative Regles d association itemsets fr quents et extraction La classification a
33. avons abord le concept de repr sentation condens e de l ensemble F des itemsets fr quents Dans la suite nous proposons une m thode de construction d arbres de d cision base d itemsets fr quents libres et de r gles fortes 3 2 2 R gles fortes et classes d quivalence Depuis BTP 00 il est maintenant commun de grouper les itemsets qui ont la m me fermeture dans une classe d quivalence de fermeture En effet ces itemsets d crivent les m mes objets D finition 13 Classe d quivalence de fermeture ou de support Deuz itemsets I et J sont dits quivalents par rapport l op rateur de fermeture cl on note I wa J si et seulement si cl I r cl J r Ainsi une classe d quivalence de fermeture CEC est compos de tous les itemsets qui ont la m me fermeture Par d finition de la fermeture ils ont aussi le m me support Objets I r Objets J r et une CEC est aussi appel classe d quivalence de support Chaque CEC contient un unique l ment maximal selon C qui est un itemset clos ferm De plus une CEC contient un ou plusieurs l ments minimaux qui sont des itemsets libres appel s aussi itemsets cl s dans BTP 00 Cette formalisation utilisant les CECs est tr s int ressante pour d river des r gles d association En effet la propri t 4 ci dessous indique que l on peut d river une r gle d association forte de confiance 1 entre un itemset libre et chaque l ment d
34. base de motifs et proposons deux contributions m thodologiques i D un c t lorsque les attributs sont bruit s les performances des classifieurs peuvent tre d sastreuses Les m thodes existantes consistent corriger les valeurs d attributs ou supprimer les objets bruit s ce qui g n re une perte d informa tion Dans ce m moire nous proposons une m thode g n rique de construction de descripteurs robustes au bruit d attributs sans modifier les valeurs d attri buts ni supprimer les objets bruit s Notre approche se d roule en deux tapes premi rement nous extrayons l ensemble des r gles fortes de caract risation Ces r gles offrent des propri t s de corps minimal de non redondance et sont bas es sur les itemsets libres et leur fermeture qui ont d j fait leur preuve pour la caract risation de groupements dans des contextes bruit s Deuxi mement nous construisons un nouveau descripteur num rique robuste pour chaque r gle extraite Les exp rimentations men es dans des donn es bruit es montrent que des classi fieurs classiques sont plus performants en terme de pr cision sur les donn es munies des nouveaux descripteurs que sur les donn es avec les attributs originaux ii D autre part lorsque la distribution des classes est in gale les approches exis tantes de classification base de motifs ont tendance tre biais es vers la classe majoritaire La pr cision sur la ou
35. but de r quilibrer la distribution des classes Si le sous chantillonnage implique des pertes d informations potentiellement importantes contenues dans les objets le sur chantillonnage en plus de rajouter des objets au risque de rendre la t che plus laborieuse peut produire des effets de sur apprentissage Derni rement diff rents chercheurs se sont int ress s des approches de classifica tion supervis e bas es sur des r gles pour le probl me des classes disproportionn es Par exemple dans NH05 les auteurs proposent d laguer les corps de r gles inductives is sues d un arbre de d cision Plus r cemment certains chercheurs ont point du doigt les d fauts des approches de classification associative bas es sur le cadre fr quence confiance Pour y rem dier AC06 VCO07 utilisent des r gles de classification dont les corps sont positivement corr l s avec une classe Toutefois des probl mes persistent et dans la suite nous montrons par l exemple que lorsque nous sommes face des probl mes n classes dits multi classes lorsque n gt 2 les diff rentes approches existantes bas es sur le cadre fr quence confiance sur les motifs mergents ainsi que celles bas es sur la corr lation positive montrent leurs limites Nous montrons que les probl mes rencontr s par ces diff rentes approches sont dus au fait que la r partition des classes et ou la fr quence des motifs extraits dans chacune des classes du pro
36. construction based on closedness properties is not that simple In Procee dings PAKDD 08 volume 5012 of LNCS pages 112 123 Springer 2008 Dominique Gay Nazha Selmaoui and Jean Fran ois Boulicaut Application independent feature construction from noisy samples In Proceedings PAKDD 09 volume 5476 of LNCS pages 965 972 Springer 2009 Bernhard Ganter Gerd Stumme and Rudolf Wille editors Formal Concept Analysis Foundations and Applications volume 3626 of Lecture Notes in Computer Science Springer 2005 Bart Goethals and Mohammed Javeed Zaki editors IEEE ICDM 03 Work shop on Frequent Itemset Mining Implementations volume 90 of CEUR Work shop Proceedings CEUR WS org 2003 Bart Goethals and Mohammed Javeed Zaki Advances in frequent itemset mi ning implementations report on FIMI 03 SIGKDD Explorations 6 1 109 117 2004 C line H bert and Bruno Cr milleux Optimized rule mining through a unified framework for interestingness measures In Proceedings DaWaK 06 volume 4081 of LNCS pages 238 247 Springer 2006 Jiawei Han and Micheline Kamber Data Mining Concepts and Techniques Morgan Kaufmann 2000 Jiawei Han Jian Pei and Yiwen Yin Mining frequent patterns without candidate generation In Weidong Chen Jeffrey F Naughton and Philip A Bernstein editors ACM SIGMOD 00 pages 1 12 ACM 2000 George H John and Pat Langley Estimating continuous distributions in baye sian classifiers In Pro
37. construire de nouveaux descripteurs partir des itemsets ferm s Pour claircir cette divergence d avis nous d taillons les principes des diverses approches Approche classique Dans la premi re approche bien que la maximalit fait des item sets ferm s de bons candidats pour caract riser des donn es labellis es cette m me maxi malit n est pas efficace quand il s agit de pr dire Ainsi pour la pr diction l utilisation des itemsets libres sera plus judicieuse en raison de leur minimalit Noter qu en raison des propri t s de fermeture tous les itemsets d une m me CEC couvrent exactement les m mes objets de r et donc ont la m me fr quence Donc tous les itemsets libres d une CEC et leur itemset ferm correspondant sont quivalents par rapport toute mesure d int r t bas e sur la fr quence Bien que dans ce cadre libres et ferm s sont quivalents c est lors de la phase de pr diction que le choix va se faire Consid rons un nouvel objet t entrant qui est d crit exactement par l itemset Y i e Items t r Y Supposons que F C Y C cl F r tel que F est un itemset libre et donc F Y cl F r font partie de la m me CEC Cfp Ici utiliser les libres ou les ferm s pour pr dire la classe de t ne conduira pas la m me d cision En effet tems t r D F et t est couvert par la r gle F c alors que Items t r 2 cl F r et n est pas couvert par la r gle cl F r c Suivant Vintuition Qui peut le plus p
38. continus ils sont tout d abord discr tis s comme au paravant puis on y injecte du bruit enfin on proc de la binarisation ce qui nous vite qu un objet soit d crit par plusieurs intervalles de valeurs d un m me attribut ancienne ment num rique Dans nos exp riences toutes les tapes de pr traitement injection de bruit discr tisation binarisation ainsi que les r sultats de pr cision pour C4 5 NB SVM FC C4 5 FC NB et FC SVM sont obtenus par 10 CV en utilisant la plateforme WEKA WF05 et avec les biblioth ques LibSVM et WLSVM CLO1 EMO5 Tous les r sultats de pr cision ainsi que ceux de HARMONY sont obtenus sur la m me 10 CV pour une comparaison plus pertinente Nous utilisons le prototype d HARMONY fourni par ses auteurs pour obtenir les r sultats de pr cision Param trage Notre processus d pend donc fortement des deux param tres le seuil de fr quence mi nimum y et le seuil d erreurs maximum admises Nous avons vu que les valeurs extr mes pour ne sont pas la solution pour les plus basses valeurs de y l ensemble des r gles Sys peut tre un tr s grand et parmi ces r gles beaucoup apporte tr s peu d information puisqu elles ne concernent qu un petit ensemble d objets d un autre c t pour les plus hautes valeurs de y S 5 contient trop peu de r gles pour couvrir convenablement len semble d apprentissage En v rit s lectionner un seuil judicieux de fr quence minimum y est to
39. dans des processus de classification supervis e Le domaine d application choisi est l analyse des ph nom nes d rosion des sols Les principales contributions sont d ordre m thodologique Tout d abord nous proposons des m thodes g n riques c est dire ind pendantes d un domaine d application particulier pour calculer des motifs locaux utiles la construc tion de mod les pr dictifs classification supervis e Nous nous int ressons ensuite des contextes de classification r put s difficiles comme par exemple la construction de des cripteurs robustes lorsque les exemples d apprentissage sont bruit s ou encore le cas des r partitions de classes possiblement nombreuses et d s quilibr es Ce doctorat a t pr par sous la tutelle de deux universit s l Universit de la Nouvelle Cal donie UNC et l Institut National des Sciences Appliqu es de Lyon INSA Lyon et nos travaux ont t r alis s au sein des quipes ERIM EA3791 et PPME EA3325 l UNC et de l quipe TURING du LIRIS CNRS UMR5205 l INSA Lyon Contexte Les quipes TURING et l quipe Data Mining des EA ERIM PPME ont pour axe de recherche commun la fouille de donn es Une partie des efforts de recherche est d di e l extraction de motifs dans les donn es Bool ennes dans la litt rature elles sont aussi appel es donn es transactionnelles et aux usages multiples de ces motifs La fouille de donn es est une partie int
40. de correction de bruit de classe ou de suppression d objets dont la classe serait bruit e ce qui serait une premiere piste pour des travaux futurs D autre part leur d finition originelle oblige une unique valeur de 9 Une autre piste de travail serait d tudier diff rentes valeurs de dans la d finition de la 6 libert et de fermeture pour les attributs classes et les autres attributs Bases de donn es multi classes disproportionn es Les probl mes multi classes disproportionn es disposaient de deux familles de solutions en classification base de motifs i les approches OVA tentent de caract riser chaque classe par rapport au reste des donn es ii les approches OVO divisent les probl mes n classes en plusieurs sous probl mes deux classes les classifieurs obtenus sur les sous probl mes sont ensuite mix s par divers proc d s Si les approches OVA peuvent mener des incoh rences conflits de r gles biais vers la classe majoritaire dans ce type de probl me les approches OVO travaillent en post traitement des diff rents classifieurs issus des sous probl mes afin de traiter les redondances et conflits de r gles De plus en classification associative OVA comme OVO il est n cessaire de fixer un ou souvent plusieurs param tres qui influent grandement sur la qualit du classifieur qui en d coule Dans ce manuscrit nous avons d cid de d velopper une approche hybride qu on pour rait situer
41. de onn es binaires y entier positif seuil de fr quence minimum entier positif seuil d erreurs maximum output r T T R une nouvelle base de donn es num riques 1 begin 2 T FeaturesExtraction r 7 0 3 fortc T do 4 for l E Z do RG po UD 6 re 1 T R y 7 end pr cis ment 1 1 R t I 0 zd 1 1 Nous pensons que ce codage num rique est moins strict et plus pertinent qu un simple codage binaire En effet une tape suppl mentaire de discr tisation supervis e de tels descripteurs peut nous permettre d obtenir une segmentation plus pertinente dans le pire des cas la segmentation du domaine de d finition de I se fera entre les valeurs F 1 L et 1 ou 0 et 1 J dans les autres cas plusieurs segmentations plus prometteuses pourront se faire entre j 1 I et j o 1 j lt 1 1 Enfin ligne 6 r est notre nouvelle base de donn es construite partir de nos nouveaux descripteurs Notre processus de construction de descripteurs peut tre r sum par le sch ma de la figure 3 7 Extraction sous contraintes Classification Donn es Donn es originales Donn es originales ensemble de motifs modifi es Construction de nouveaux descripteurs FIGURE 3 7 Processus g n rique de construction de descripteurs base de motifs Dans la suite nous exp rimentons ce processus travers diverses i
42. entre approches OVA et OVO Notre approche de classification associative OVE permet de caract riser chaque classe du probl me par rapport chaque autre classe Pour ce faire il est n cessaire de consid rer n param tres dont n seuils de fr quence minimum et n n seuils d infr quence ou d erreurs maximum qu on peut voir sous forme de matrice de param tres I Pour r pondre au probl me pos et garder une certaine coh rence dans l ensemble de r gles respectant les param tres seuils nous avons impos des contraintes entre seuils La formalisation de notre approche avec une telle matrice de param tres et ses contraintes a vu na tre un nouveau type de r gle les r gles de caract risation OVE OVE CRs Les OVE CRs apportent une solution chacun des probl mes nonc s qui a motiv sa cr ation conflits de r gles redondance biais post traitement Les corps des OVE CRs peuvent aussi tre vus comme une g n ralisation de la notion d itemset mergent 126 adapt e aux donn es multi classes disproportionn es Si l extraction des OVE CRs en fonction de I n est pas la t che la plus difficile trouver les bons param tres est probl matique sachant que ces param tres sont diff rents selon les donn es Dans notre approche nous faisons face la multitude de param tres inh rent notre formalisation du probl me par une technique automatique et intelligente de pa ram trage Notre prototype fitcare int gre
43. est d crit par six attributs et tiquet par sol rod ou sol non rod Pour passer de la forme de grille une base de donn es transactionnelles chaque pixel devient une transaction objet Pour l ensemble des trois bassins versants cette transformation des rasters de donn es vers les donn es transactionnelles aura g n r environ 8 10 objets Lors de la prise des photos satellitaires une petite partie des sols correspondant envi ron 10000 pixels tait couverte par des nuages rendant le calcul de l indice de brillance impossible Ces pixels sont limin s des donn es Apr s une premi re tude dans GRM 07 nous avons remarqu que la couche th matique sur la pente biaisait le probl me de la caract risation des sols et les mod les pr dictifs construits En effet il en ressort que les sols de faible pente sont quasiment toujours associ s des ph nom nes d rosion ce qui est contre intuitif En fait dans les zones tudi es la tr s grande majorit des sols de pente faible correspondent aux lits de rivi res Suivant le conseil des experts du domaine pour carter ces zones de notre tude nous appliquons un filtre afin de ne retenir que les donn es o la pente est sup rieure 15 No tons toutefois que ce filtre grossier n carte qu une infime partie des plateformes mini res et des rares plateaux pr sents dans la zone d tude en raison de la pr cision 30m Pour la t che de p
44. est proche de 1 plus l objet concern a de chances d tre rod Nous utilisons cette valeur pour donner une estimation de l al a rosion dans les bassins versants de la Ouenghi et de la Dumb a Le calcul des fr quences normalis es est r alis par les commandes suivantes fitcarc r tontouta ove rules txt dumbea txt 118 5 3 Discussion 700 100 200 300 400 FIGURE 5 6 Cartographie des zones d rosion par pr diction avec fitcare sur le bassin de la Ouenghi fitcarc r tontouta_ove_rules txt ouenghi txt Dans les figures 5 7 et 5 8 nous reportons les cartes de l al a rosion pour les deux bassins versants test 5 3 Discussion Le d roulement du processus de d couverte de connaissances pr sent dans ce chapitre a permis de produire un ensemble de r gles de caract risation du ph nom ne d rosion des sols en Nouvelle Cal donie Nombre de ces r gles ont t confirm es et valid es par les experts du domaine d application L ensemble de r gles extrait permet aussi de quantifier et qualifier les ph nomenes observ s De plus le mod le pr dictif base de r gles issu de ce processus offre la possibilit de g n rer automatiquement une cartographie des zones d rosion et de l al a rosion Cependant la cartographie automatique g n r e par fitcare subit l effet dit de poivre et sel c est dire il peut arriver que des zones identifi es comme rod es soient 119 Caract risat
45. ferm s qui sont alors retrouv s ne sont plus assez repr sentatifs des tendances qu il faudrait retrouver dans les donn es Ce probl me motive les travaux r cents sur la d tection de motifs qui tol rent des exceptions et notam ment des extensions du concept d itemset ferm s pour une tol rance aux erreurs voir par exemple BRB06 pour une proposition ou encore GFF 08 pour une synth se Dans BBR00 BBRO03 les auteurs proposent une repr sentation condens e approxima tive bas e sur les itemsets libres Dans cette approche l approximation est gouvern e par un entier qui indique un nombre d exceptions maximal par attribut Ainsi au lieu de re grouper les itemsets qui ont un support quivalent on regroupe les itemsets ayant presque le m me support avec un gap maximum de entre les supports des diff rents itemsets Cette g n ralisation a t cr e pour pouvoir approximer la valeur de la fr quence des autres itemsets non libres dans des contextes difficiles Cependant les itemsets 9 libres et leur fermeture ont d j t utilis s pour diff rentes t ches de fouille de donn es comme l extraction d itemsets fr quents la d couverte de sous ensembles de r gles d as sociation a priori int ressantes ou encore la caract risation de clusters Dans le chapitre 3 nous consid rons leurs utilisations dans un contexte de classification supervis e en pro posant une m thode g n rique de c
46. fouille de donn es s appuient sur les itemsets fr quents beaucoup de travaux de recherche se sont tout d abord attaqu s l extraction d itemsets fr quents Dans certains cas face la complexit du probl me l extraction de la totalit des itemsets fr quents reste impossible ou alors le r sultat contient beaucoup de redondance et le post traitement devient fastidieux Les repr sentations condens es apportent des r ponses ses deux probl mes Il est ainsi possible d extraire une partie repr sentative des itemsets fr quents partir de laquelle la g n ration de tous les autres itemsets fr quents via des m canismes d inf rence est peu co teuse Toutefois plut t que de reg n rer la totalit des itemsets fr quents certains chercheurs se servent directement de l ensemble repr sentatif ou d une partie et de ses propri t s pour certaines t ches telles que la g n ration de r gles d association la caract risation de groupements la clas sification associative etc Dans le chapitre suivant notre contribution adopte le sch ma de la figure 2 2 et suit cette voie puisque nous proposons une m thode de construction de descripteurs bas e sur AT Repr sentations condens es des itemsets fr quents Fouille de donn es base de motifs fr quents Repr sentation condens e des itemsets fr quents T ches de fouille de donn es e R gles d associations Extraction sous contrainte
47. freq 5 couverture 96 Heart data couverture 96 e freq 2 Hepatic data 5 freq3 BOP e freq 3 freg5 78r y E freq 5 v freq 7 1 76r freq 7 7 gt freq 10 4 74 V freq 10 9 10 11 12 0 1 FIGURE 3 4 Processus g n rique de construction de descripteurs a base de motifs 4 http archive ics uci edu ml University of California Irvine 63 Construction de descripteurs base d itemsets libres R sultats de pr cision et comparaison Nous testons notre m thode 0 PDT sur onze bases de donn es UCI ANO7 et une base de donn es meningitis voir les descriptions en annexe Pour avoir une bonne estimation de la pr cision de d6 PDT nous proc dons une validation crois e 10 blocs stratifi s selon les classes 10 SCV C est dire chaque chantillon respecte l unit pr t la r partition des objets dans les diff rentes classes Certaines bases UCI contiennent des attributs continus dans ce cas on utilise une m thode de dicr tisation supervis e bas e sur l entropie F193 sur les donn es d apprentissage puis les attributs discrets sont binaris s pour pouvoir extraire les r gles fortes Le sch ma de binarisation est ensuite report sur les donn es test Pour PDT les valeurs de fr quence relative des itemsets 0 libres test es varient entre 0 et 10 except pour les do
48. grante du processus de d couverte de connais sances dans les bases de donn es en anglais KDD pour Knowledge Discovery in Data bases La communaut internationale de fouille de donn es s accorde sur les principales tapes du processus KDD FPSSU96 HK00 TSK05 Nous rappelons les diff rentes tapes de ce processus en figure 1 La premi re tape de pr traitement consiste transformer les donn es brutes en un format appropri pour les tapes suivantes d analyse Des exemples de pr traitement 3 Post traitement Connaissances Fouille de donn es Mod les Pr traitement Donn es pr par es oooooooososocoosseseseseeceseesesecsesece eccccccocccccecccccccd A Donn es brutes FIGURE 1 Processus d extraction de connaissances dans les donn es sont la s lection d un sous ensemble des enregistrements la s lection de sous ensembles d attributs descripteurs la construction de nouveaux attributs descripteurs une norma lisation de certains attributs la discr tisation ou binarisation des attributs num riques l limination du bruit dans les donn es le traitement des valeurs manquantes etc Il faut galement travailler ici la d finition des ventuels param tres d entr e de la t che de fouille de donn es r aliser Selon TSK05 les t ches de fouille de donn es peuvent tre consid r es selon deux cat gories Les t ches descriptives le but est d ex
49. la propri t de non d rivabilit est anti monotone par rapport la sp cialisation des attributs CGO02 Ainsi si J est d rivable alors ces sur ensembles le sont aussi Une autre propri t int ressante des itemsets non d rivables est qu ils ne sont pas tr s grand ie ils ne compos s de peu d attributs En effet soit l intervalle w 1 UB I LB I Les auteurs CG02 montrent que w 1 d croit exponentiellement par rapport I Ainsi nous avons w JU i w 1 2 pour tout itemset J et attribut i I Comme les w 1 ne peuvent tre divis s en deux qu un nombre logarithmique de fois les itemsets non d rivables ne seront pas tr s grands D autre part la taille d une r gle Rx 1 i e le nombre de terme dans la somme des in quations augmente exponentiellement avec X appel profondeur de amp x I Cal culer toutes les r gles peut paraitre compliqu mais en pratique seules les r gles de faible profondeur sont utilis es Dans la suite LB 1 et U B T d noteront la plus grande borne inf rieure et la plus petite borne sup rieure pour J obtenues par l valuation de r gles de profondeur inf rieure ou gale k Ainsi l intervalle LB amp 1 U B I est d fini par les bornes calcul es gr ce l ensemble de r gles Rx 1 X CIA I X k Les itemsets non d rivables en tant que repr sentation condens e Dans CG02 les auteurs d finissent une repr sentation condens e des items
50. les classe s majoritaire s est alors lev e au d triment de la pr cision sur la ou les classe s minoritaire s Nous montrons que ce probl me est d au fait que les approches existantes ne tiennent pas compte de la r partition des classes et ou de la fr quence relative des motifs dans chacune des classes de la base Pour pallier ce probl me nous proposons un nouveau cadre de travail dans lequel nous extrayons un nouveau type de motifs les r gles de ca ract risation One Versus Each OVE r gles Ce nouveau cadre de travail n cessite le param trage d un nombre cons quent de seuils de fr quence et d infr quence Pour ce faire nous proposons un algorithme d optimisation de param tres fitcare ainsi qu un algorithme d extraction d OVE r gles Les exp rimentations men es sur des donn es UCI multi classes disproportionn es et sur des donn es de diagnostic de m ningite aigu montrent que notre approche fitcare est plus performante que les approches existantes en terme de pr cision sur les classes mineures L application de notre m thode de classification associative l analyse de donn es d rosion des sols en Nouvelle Cal donie a mis en vidence l int r t de notre proposition pour caract riser les ph nom nes d rosion Mots cl s Extraction de motifs sous contraintes Classification Associative Construc tion de Descripteurs Tol rance au Bruit Probl mes Multi Classes in galement distribu es Abst
51. les classes in galement distribu es 4 2 1 Matrice de seuils et r gles de caract risation OVE Soit l une matrice de seuils de fr quence pour un probl me de classification p classes 7911 na fp 792 1 922 72 P ae Sao OS ode Ypl YVp2 pp Les param tres d une ligne 7 de I sont les seuils de fr quence et d infr quence pour les motifs X caract risant la classe c Plus pr cis ment yi i ligne et 7 colonne de D est le seuil de fr quence minimum pour la classe c et les 7 sont les seuils de fr quence maximum pour X dans les classes c j i Ainsi X sera 7 fr quent dans re et infr quent dans chacune des autres classes Nous pouvons maintenant d finir les r gles de caract risation OVE comme suit D finition 18 R gle de caract risation OVE Soit T une matrice de seuils de fr quence et d infr quence La r gle d association mn X c est une r gle de ca ract risation OVE par rapport IT pour la classe ci not e OVE CR si et seulement si les trois conditions suivantes sont v rifi es 1 X est fr quent dana Te i e freg X T 2 Yii 2 X est infr quent dans toutes les autres classes i e Vj 1 freq X Te lt Vig 3 X le corps de n est minimal i e VY C X 3j i freq Y ro Vig Si les conditions 1 et 2 nous assurent que les motifs X extraits respectent bien les contraintes de fr quence et d infr quence impos es par I la condition 3 nous assure l
52. me de recherche automatique de param tres La derni re extraction avec I nous fournit un ensemble S de OVE CRs respectant toutes les contraintes nonc es pr c demment et qui constitue notre classifieur Hill climbing contraint par le taux de couverture Comme voqu pr c demment bien que dirig par une fonction optimiser l tape d optimisation de fitcare sera premi rement contraint par le taux de couverture posi tive maximal atteint pour chaque classe lors de l initialisation Ainsi lors de la phase d optimisation si une diminution du param tre le plus prometteur nous am ne une im possibilit de maintenir la couverture positive maximale alors la ligne modifi e r affect e son ancienne valeur et la diminution du deuxi me param tre le plus prometteur est tudi e Maximiser le taux d accroissement global Intuitivement la fonction optimiser doit nous promettre l volution vers un tat meilleur que l tat courant dans le processus d hill climbing Un tat sera une instance de 96 4 3 Param trage automatique avec fitcare T et nous modifierons des seuils de I pour passer d un tat un autre A une instance de I correspond un ensemble S d OVE CRs extraits en fonction de I Comme notre classifieur ainsi que ses performances est bas sur S la fonction optimiser que nous choisirons sera bas e sur S Une premi re vision naive serait de consid rer la maximisation du nombre d objets d entrainem
53. mm an moyenn es sur 30 ans Lithologie donn es de terrain relatant la nature du sol e g lat rites minces paisses serpentinites dunites Altitude donn es sur l altitude issues de mesures physiques et du mod le num rique de terrain MNT avec une pr cision 30m valeurs en m tres de 0 1500m Occupation du sol donn es sur le type de v g tation occupant le sol e g maquis minier savane herbeuse mangrove clairsem e dense Pente donn es sur la pente inclinaison du sol issues du mod le num rique de terrain Erosion c est la couche classe sol rod sol non rod issue des valeurs calcul es d indice de brillance sur des photographies satellitaires SPOT 5 Altitude m High 1193 43 Tontouta pe Dumb a Low 20 FIGURE 5 1 Repr sentation de l altitude pour les trois bassins versants de la zone d tude 111 Caract risation de l rosion des sols en Nouvelle Cal donie 5 2 Sc nario de d couverte de connaissances Sur l ensemble des trois bassins seuls 3 du sol est rod le reste tant consid r comme non rod Nous sommes typiquement face des donn es aux classes dispropor tionn es Dans cette section nous d veloppons un sc nario de d couverte de connaissances bas e sur l extraction de r gles de caract risation OVE afin de r pondre aux attentes des experts g ologues Le sch ma d crivant notre sc nario est report dans la figu
54. nous utilisons FC sur plusieurs bases de donn es UCI voir une description des donn es en appendice Pour mettre sur un point d galit les classifieurs classiques et les classifieurs classiques branch s FC lorsque les bases de donn es contiennent des attributs continus nous proc dons une discr tisation supervis e FI93 puis une binarisation de la base d ap prentissage Ce sch ma est ensuite report sur les donn es test Donn es aux attributs bruit s Nous voulons aussi tudier le comportement de FC en pr sence de bruits dans les donn es Dans un tel contexte nous voulons tre capables d apprendre des mod les pr dictifs performants malgr la pr sence de bruit dans les at tributs Pour valuer la r sistance de FC aux bruits d attributs dans nos exp riences nous traiterons des donn es d apprentissage artificiellement bruit es et des donn es test propres non artificiellement bruit es Pour ce faire nous ajoutons du bruit al atoirement 73 Construction de descripteurs base d itemsets libres diff rentes quantit s seulement dans les donn es d apprentissage de la mani re suivante Pour une base de donn es r et un niveau de bruit de x96 x 10 20 30 40 50 chaque attribut a Z a r de chances de prendre une autre valeur de son domaine de d finition incluant sa valeur courante dans chaque objet t 7 de l ensemble d apprentissage Lorsque les attributs originaux sont
55. positive Nous pouvons voir l extraction des corps de OVE CRs qui respectent la contrainte Crigne par rapport une matrice I de seuils comme une g n ralisation de la d finition de l mergence d un motif en consid rant son int r t par rapport chaque classe prise individuellement En effet si Vi 1 p et Vj i yi y et yi 0 alors tout corps X d une OVE CR 7 X cj est un JEP fr quent si Ji j tel que Yii 4 7j alors nous extrayons toujours des JEPs fr quents mais avec des seuils de fr quence diff rents pour certaines classes si Vi 1 p et Vj i yi y et yi gt 0 alors tout corps X d une OVE CR T X cj est un p EP 4j fr quent o p max Yiz si Ji j tel que Yi A 7 alors nous extrayons toujours des EPs fr quents mais avec des seuils de fr quence et de TA diff rents pour certaines classes Dans tous les cas les corps X de OVE CRs qui concluent sur c extraits selon les seuils de la 2 ligne de I ont une fr quence relative plus lev e dans la classe c que dans chacune des autres classes Ceci nous assure que T A X r gt 1 et donc que X est positivement corr l avec c voir proposition 1 page 69 Toutefois nous avons vu qu il est possible qu un itemset X tel que TA X r gt 1 soit positivement corr l avec plusieurs classes ce qui g n re des conflits de corps de r gles Par la proposition 3 voir la d monstration
56. probl mes 2 classes Chaque sous probl me donne lieu la construction d un classifieur Pour un nouvel exemple t les diff rents classi fieurs sont combin s pour d cider la classe de t Par exemple dans F r02 un simple vote des diff rents classifieurs est utilis pour d terminer la classe pr dire pour t Toutefois les probl mes aux classes disproportionn es sont identifi s aussi comme une limite aux approches OVO voir F r02 En effet les classifieurs issus des sous probl mes contenant la classe majoritaire peuvent tre biais s vers la classe majoritaire Ce biais sera report la phase de combinaison des classifieurs et la classe majoritaire aura tendance tre la plus pr dite 4 2 Vers une approche OVE Consid rons r 7 21 R une base de donn es binaires p classes c1 C2 Cp C Pour tenir compte des diff rentes tailles de classes 7 7 et viter un biais vers la classe majoritaire nous devons disposer pour chacune des classes d un seuil de fr quence minimum partir duquel un motif extrait sera consid r comme int ressant Pour prendre en compte la r partition des erreurs faux positifs d un motif caract risant c dans chaque autre classe cj ci nous devons aussi disposer d un seuil de fr quence maximum d finissant une limite d infr quence pour chaque c Nous utilisons alors une matrice I pour repr senter tous ces seuils locaux 89 Vers une solution pour
57. se fera avec la premi re classe afin de garantir Ceolonne Si la couverture maximale est perdue alors LEARN PARAMETERS renvoie faux et on revient la meilleure matrice l permettant une couverture maximale avant de d terminer le param tre le plus prometteur dimi nuer et repartir pour un tour de boucle avec un nouveau classId lignes 12 13 Validation pour valider une nouvelle matrice I de param tres ligne 17 on teste si elle est meilleure que la matrice T4 courante Au lieu de comparer la pr cision des classifieurs issus des r gles extraites en fonction de I et Feest sur toute la base d appren tissage on r serve une partie de la base d apprentissage cet effet voir l option t dans le manuel de fitcare en appendice La matrice de param tres permettant la meilleure pr cision sur cette partie test est gard e comme nouvelle meilleure matrice 99 Vers une solution pour les classes in galement distribu es Algorithme 10 fitcare Entr e r 7 Z R un contexte binaire C c c2 c l ensemble des classes Sortie Ibest la meilleure matrice de param tres seuils de fr quence et d infr quence 1 T INIT r 2 isParametersModified false 3 classId p 4 while classId lt p do 5 if isParametersModified then 6 isParametersModified RATIONALIZEPARAMETERS classId 7 if isParametersModified then 8 if LEARNPARAMETERS classId then 9 isParametersModified false 10 classId
58. separated by the characters or and or and The fact that two attributes may be separated by se veral separators does not raise any trouble To be properly understood the user must indicate the separators other wise defaults are used The related option is iis for Input Item Separators In the previous example fitcare can be called as fol lows fitcare iis dataset txt FIXED THRESHOLDS To extract class association rules respecting given frequency thre sholds one must provide them in the form of a file containing a matrix Every non empty line of this matrix starts with the class attribute When extracting the class association rules concluding on this class the following float numbers are the frequency thresholds The first one correspond to the frequency threshold in the first class the second one to the frequency threshold in the second class etc For example this could be the frequency matrix for the extraction of class association rules in a data set organized in three classes excellent 0 5 0 2 0 good 0 2 0 4 0 2 bad 0 1 0 2 0 5 The characters that can be used to separate the classes and the thre sholds from each other are and tabulation To avoid conflicts every value on the diagonal corresponding to the minimal frequency threshold in the class the extracted class associa tion rules are concluding on must be strictly greater than every other threshold on its colu
59. sous ensembles soit infr quent Extension de la non d rivabilit et unification itemsets k libres D finition 10 Itemset k libre Un itemset I est k libre si freq I r LB L et freq I r UB I Un itemset sera oo libre si freq I r A LB I et freq I r UB I Dans CG03 les auteurs montrent que l ensemble des itemsets y fr quents k libres F k r et leurs valeurs de fr quence agr ment de la bordure suivante J freq r Yj J J I F k r forme aussi une repr sentation condens e des itemsets fr quents D autre part dans CG03 les auteurs pr sentent les itemsets k libres comme unifi cateurs des notions de 0 libert d libert avec 6 0 V libert et non d rivabilit voit propri t suivante Propri t 1 Soit I CT un itemset fr quent I libre i e libre et 6 0 si et seulement si I est 1 free k 1 40 2 5 Usage multiple des itemsets libres I est V libre si et seulement si I est 2 libre k 2 I est V libre g n ralis si et seulement si I est oo libre Cette nouvelle repr sentation condens e par les k libres permet aussi de classer les diff rentes repr sentations par taille et par complexit pour calculer la repr sentation et d duire les valeurs de fr quence en fonction de la valeur de k En effet plus k est grand plus la repr sentation est concise mais plus elle devient complexe Dans la suite nous discuton
60. sultats de pr cision obtenus par 10 CV sur les sous ensembles correspondants Par exemple lorsque la classe c est r duite 50 respectivement 33 25 la pr cision report e dans les graphiques de la figure 4 2 est la moyenne des 2 respectivement 3 4 pr cisions obtenues par 10 CV sur les 2 respectivement 3 4 sous ensembles de donn es Dans les graphiques de la figure 4 2 seule c est r duite et est donc la classe minoritaire On voit tr s bien que plus elle est r duite plus la pr cision de CPAR et HARMONY sur c diminue voir graphique a Cette diminution est notable puisque la pr cision sur c chute jusqu 10 pour CPAR et 25 pour HARMONY Au contraire la pr cision de fitcare sur c est beaucoup plus stable lors de la r duction de la taille de cj Dans les graphiques b et c nous nous int ressons la pr cision des classifieurs sur les classes majoritaires C9 et c4 lorsque c est r duite Plus c est r duite plus la pr cision de CPAR et HARMONY augmente pour les classes majoritaires Au contraire la pr cision de fitcare sur les classes majoritaires diminue l g rement avec la r duction de la taille de cy Dans les graphiques des figures 4 3 4 4 et 4 5 deux classes sont r duites selon le m me 102 4 4 Validation exp rimentale 2 S E S un 2 8 a S a 2 S e CPAR fitcare 4 HARMONY 9 CPAR RB fitcare HARMONY
61. sur un attribut classe est alors 59 voir table 3 3 Attributs Classes T outlook temperature humidity windy play gt 8 m B 9 fb Fle za sla Elz d Y 5 8 ES 8 B 8 38 8 E E L NE NER EE 0 01 0 0 1 no 8 45 1 0 0 1 0 0 1 0 1 0 no E tz 0 1 0 1 0 O0 1 0 0 1 yes lts O0 0 lo 0 1 0 1 0 1 yes 4 lo 1 0 0 0 110 1 1 0 yes amp ts 1 0 0 0 1 0 1 0 0 1 no a to 1 0 0 0 0 1 0 1 0 1 yes tio 0 0 1 0 1 0 0 1 0 1 yes 8 lt 1 0 0 0 1 0 0 1 1 0 yes gt 2 0 1 0 0 1 40 1 0 1 0 yes Oo tia 0 1 0 1 0 0 0 1 0 T yes talo 0 1 0 1 0 1 0 1 0 no t 0 0 1 0 1 0 1 0 0 1 yes lt lo 0 1 0 0 lo 1 1 0 no TABLE 3 2 Base de donn es binaires weather So fre Lr outlook overcast yes 4 temperature cool yes 3 humidity normal yes 6 2 3 2 outlook sunny temperature hot no outlook sunny humidity high no outlook rainy windy FALSE yes TABLE 3 3 Liste des r gles de S29 pour la base weather binaire Puis en utilisant notre algorithme 7 sur la base d entrainement PDT weather entrainement yes no 59 0 nous permet de construire l arbre de d cision pr sent en figure 3 3b Nous le confrontons l arbre de d cision C4 5 construit sur les m mes donn es d apprentissage voir figure 3 3a Nous remarquons que les premi res segmentations de 6 PDT et C4 5 sont diff rentes Il en r sulte une s paration des donn es diff ren
62. taux de couverture rencontr lors de la descente de Ainsi les seuils de fr quence utilis s pour atteindre la plus grande couverture de c sont les seuils de I la sortie de cette tape tape 3 Respect des contraintes Cugne et Colonne Apres la recherche de couverture maximale pour chaque classe c chaque ligne de I respecte la contrainte Crqne Toutefois il n est pas garanti que Ceoionne soit respect e puisque chaque ligne de I a t trait e ind pendamment Dans cette tape pour respecter Ceolonne nous proc dons des modifications de P ligne par ligne Pour une ligne de I toute mauvaise valeur de y j i e sup rieur y est diminu a minima pour satisfaire Ceotonne Puis une extraction est effectu e avec cette nouvelle ligne de param tres Si le taux de couverture de T n est plus le m me que celui obtenu l tape 2 alors 7 est diminu de l quivalent de 1 objet et une extraction est effectu e jusqu ce que le taux de couverture maximal de c soit retrouv si besoin est pour respecter Crigne les Yi sont diminu s en cons quence Si l ancien taux de couverture maximal ne peut tre atteint les param tres apportant le meilleur taux sont retenus Il en est ainsi pour chaque ligne et tant qu une ligne contient des mauvaises valeurs de j j c est dire jusqu ce que Cyigne et Ceotonne soient respect es A la fin de cette tape I constitue une premi re solution notre probl
63. 1 et fso est connue et il en est de m me pour le nombre d objets de la base f Toutefois l approche par classe ne nous donne directement acc s qu la valeur fi qui est la fr quence de l itemset ferm X dans r Par d duction nous connaissons aussi foi mais nous ne savons rien de la fr quence de X dans le reste de la base fio et foo Au contraire l approche classique nous renseigne directement sur la valeur de fj qui est la fr quence de l itemset ferm ou libre X dans r Par d duction on connait fy mais on ne sait rien sur la fr quence de X dans les diff rentes classes Enfin dans notre approche puisque 7 S X est y fr quent libre et c cls X r Ainsi fi la fr quence de X notons yx gt y et foi le nombre d erreurs commises no tons dy lt par m sont connues Et par d duction nous connaissons aussi toutes les autres valeurs de la table f11 la fr quence de m dans r est yx x foi et foo sont respectivement 7 yx 6x et Ze x T Xoc ec C gt X fr dw X fou foo fox X fa Jan pn FIGURE 3 5 Table de contingence pour la r gle de classification m X c qui conclut sur la classe c La connaissance des valeurs fi et fio que procure le concept de 0 CEC est tr s pr cieuse En classification supervis e bas e sur les motifs la plupart des mesures d int r t bas es sur la fr quence sont calcul es partir de ces deux valeurs
64. 18 5 39 Discussion 443m RU as m VUES Rue wes 5 119 5 1 Contexte g n ral La Nouvelle Cal donie est un archipel fran ais situ dans le pacifique sud ouest 1500 kilom tres l est de l Australie C est aussi une des zones dans le monde tre consid r e comme hot spot pour la bio diversit En 2008 les 2 3 des 24000km du lagon n o cal donien ont t ajout s la liste du Patrimoine mondial de UNESCO La gestion et la protection de l environnement est un enjeu majeur en Nouvelle Cal donie Notons aussi que la Nouvelle Cal donie poss de elle seule 1 4 des r serves de nickel de la plan te Forte de ses trois industries mini res de grande envergure elle est ainsi le 5 me producteur mondial de nickel La pr sence de trois grands projets miniers sur le territoire n cessite une approche globale de la surveillance de l environnement Divers travaux sur les th mes 109 Caract risation de l rosion des sols en Nouvelle Cal donie du changement climatique et de l impact anthropique sur l environnement sont financ s par des plans r gionaux et nationaux 5 1 1 Probl matique de l rosion Dans ce contexte une des th matiques principales tudi es au sein du PPME P le Pluridisciplinaire de la Mati re et de l Environnement est l rosion des sols En Nouvelle Cal donie l rosion des sols a un impact fort et global sur les cosyst mes terrestres et c tiers des montagnes en pa
65. 345678 E C 5 heart cleveland bruit 30 heart cleveland bruit 40 85 85 oo eo oo o zi a M a Pr cision Pr cision T s ES o 65 012345 6 7 8 9 10111213141516 17 18 19 20 0123 56789 ne MIS EO TT Used 65 FIGURE 3 10 Evolution de la pr cision de FC SVM en fonction de 6 pour divers niveaux de bruits et seuils de fr quence pour les donn es heart cleveland 7 test es et en utilisant 0 4 ii la colonne Maz reporte la meilleure pr cision obtenue pour un certain y en utilisant le opt correspondant Tout d abord nous remarquons que sur les donn es non bruit es FC C4 5 et FC NB obtiennent de meilleures pr cisions que les classifieurs classiques respectifs FC C4 5 gagne 10 fois sur 11 contre C4 5 et FC NB 7 11 contre NB Si nous consid rons une bonne valeur de y voir colonne Max les r sultats de comparaison sont de 11 11 pour FC C4 5 et de 8 11 pour FC NB En ce qui concerne SVM RBF les r sultats sont moins significatifs 4 11 et 7 11 pour une bonne valeur de y Ici SVM RBF branch FC est utilis avec son param trage par d faut nous pensons que ce non param trage est la cause des pauvres r sultats de pr cision pour FC SVM Lorsque les donn es sont bruit es FC est l oeuvre et les classifieurs appris sur les donn es am lior es par les nouveaux descripteurs robustes sont plus performants FC C4 5 78 3 4 Vers de nouveaux descri
66. 51 lat rites indiff renci es sur p ridotite 0 0227987 0 0104373 2 1843 728 lt altitude lt 851 1481 lt precipitations lt 1826 0 0271226 0 0102438 2 6477 541 lt altitude lt 728 lat rites_indiff renci es_sur_p ridotite 0 0604036 0 0116368 5 1907 541 lt altitude lt 728 1956 precipitations 2197 0 0303328 0 0156966 1 9324 sol nu 0 178656 0 00592296 30 1633 442 lt altitude lt 541 lat rites indiff renci es sur p ridotite 0 0184093 0 00451265 4 0795 442 lt altitude lt 541 1956 precipitations 2197 0 0165094 0 0102282 1 6141 132 altitude 442 lat rites_indiff renci es_sur_p ridotite 0 0275157 0 00637233 4 318 lat rites_indiff renci es_sur_p ridotite 1481 precipitations 1826 0 0678066 0 0127931 5 3002 alluvions actuelles et r centes Fyz 0 0193265 0 00158487 12 1944 d charges mini res non contr l es et coul es de mat riaux 0 0220781 0 00134636 16 3984 zones_d exploitations_et_d blais_miniers 0 0280398 0 000888358 31 5636 78 lt altitude lt 132 0 0229298 0 0154841 1 4809 1255 lt precipitations lt 1299 0 0239125 0 00654689 3 6525 TABLE 5 1 R gles de caract risation OVE concluant sur la classe sol rod 115 Caract risation de l rosion des sols en Nouvelle Cal donie precipitations gt 3008 sol_non_erode que nous pouvons regrouper et traduire par fortes_precipitations sol_non_erode A priori cela semble contre intuitif car de fortes pr cipitations sur un
67. 70 plus pr cis ment de l analyse de concepts formels GSW05 L utilisation de cette th orie pour l extraction d itemsets fr quents dans une base de donn es binaires r a t initi e par Pasquier et al PBTL98 PBTL99 Formellement un itemset ferm est d fini comme suit D finition 7 Itemset ferm et fermeture Un itemset I C T est dit ferm ou clos dans r si et seulement si il n existe pas de sur ensemble J de I ayant le m me support et donc la m me fr quence que I c est dire AJ CLI I CIA freq I r freq J La fermeture d un itemset I C T dans r not e cl I r est l unique sur ensemble maximal selon C de I qui a le m me support que I Notons qu un itemset ferm est gal sa fermeture dans r Ainsi tant donn un seuil de fr quence minimum y gt 0 la seule connaissance de l en semble des itemsets fr quents ferm s et de leur fr quence dans r nous suffit pour g n rer tous les itemsets fr quents IF r ainsi que leur support L ensemble des itemsets fr quents ferm s de r not F y cl r constitue une repr sentation condens e de IF r En effet soit un itemset J C T Si J n a pas de sur ensemble dans FF cl r alors cl I r n est pas fr quent et par cons quent J ne peut tre fr quent Au contraire s il existe au moins un sur ensemble de J dans FF cl r alors freq I r freq J r o J cl I r J est en fait le plus petit sur ensemble de J dans F y cl r
68. 70 70 74 50 59 26 64 07 65 55 55 55 61 18 65 18 59 63 55 55 63 70 hepatitis 81 87 82 71 85 17 82 00 82 22 84 50 83 21 81 33 83 87 10 80 62 80 19 81 33 83 25 82 90 84 50 80 67 79 37 79 37 83 87 20 78 62 78 93 79 83 85 21 84 46 86 42 79 37 79 37 79 37 81 29 30 79 29 78 23 81 08 86 46 83 81 84 37 79 37 79 37 79 37 81 93 40 76 04 78 41 79 79 85 79 82 34 83 79 79 37 79 37 79 37 78 06 50 80 58 79 46 83 79 79 37 79 81 81 21 79 37 79 37 79 37 81 93 iris 93 33 93 33 93 33 92 67 94 00 94 00 94 67 94 00 94 67 95 33 10 92 67 93 00 94 67 92 67 92 67 94 00 94 67 94 00 94 67 90 00 20 90 00 89 22 93 33 92 67 93 11 94 67 94 00 94 00 94 67 90 67 30 90 00 86 50 89 33 92 67 91 33 92 00 92 00 92 00 94 67 91 33 40 86 00 84 67 84 67 92 67 88 00 88 33 90 67 88 80 90 67 90 00 50 84 00 17 33 77 33 94 00 17 33 71 33 90 67 80 77 84 00 82 00 t t t 93 21 99 40 100 00 68 47 79 72 81 73 87 79 86 40 89 24 97 08 10 92 06 97 65 99 17 68 57 75 99 78 81 81 10 76 90 717 97 96 97 20 88 95 96 26 97 18 70 14 73 81 74 42 71 92 65 34 65 45 94 68 30 82 78 93 00 95 62 71 92 73 56 74 53 65 65 65 34 65 34 91 13 40 77 98 89 43 91 55 74 11 73 56 74 83 65 34 65 34 65 34 89 67 50 71 39 83 82 85 60 70 57 71 16 71 39 65 34 65 34 65 34 81 84 wine 91 08 91 53 93 76 98 89 92 92 93 86 98 33 96 91 97 22 96 63 10 91 63 91 87 94 38 96 6 93 24 94 41 98 30 96 48 97 19 95 50 20 91 01 91 74 92 71 96 04 94 42 95 00 97 19 97 19 97 19 96 07 3096 84 37 88 15 91 04 94 38 91 73 94 97 97 19 97 19 97 74 92
69. 8 31eeu t re o0Dj 8 8 2078 Ircs L9 ES 8 8 8884 BA8TO 0 2 0 OT F6 86 6 5 99 26 06 88 9 c6 res 9 baaf ino eur ouuo amp out SdMfS 4Vd va G TO soouuo Ldd 9 65 Construction de descripteurs base d itemsets libres 3 2 5 Discussion Au vu de la validation exp rimentale PDT est comparable en terme de pr cision aux classifieurs base de motifs CPAR SJEP C et semble plus performant que l arbre de d cision original C4 5 et CBA Ceci est d aux nouveaux descripteurs discriminants pour la classe que nous avons construits partir des itemsets y fr quents libres et qui deviennent les noeuds Depuis d autres m thodes ont vu le jour Notons par exemple le travail de A Zim mermmann Zim08 L auteur propose une approche ET Ensemble Trees similaire pour utiliser le pouvoir discriminant d ensemble de r gles dans les arbres de d cision la diff rence pr s qu chaque it ration de la construction de l arbre un nouvel ensemble de k meilleures r gles est extrait Par rapport aux arbres originaux la taille des ET est moindre et les r sultats de pr cision des ET sont comparables Dans cette section nous nous sommes restreints la construction de descripteurs pour les arbres de d cision Dans la suite nous allons plus loin dans la formalisation de la construction de descripteurs puis tendons notre m thode pour qu elle soit applic
70. 81 51 82 61 diabetes 73 58 73 96 74 23 73 96 73 61 75 00 74 74 75 05 75 56 73 05 10 72 79 72 79 73 31 73 31 72 69 73 83 73 44 75 19 75 39 73 70 20 72 02 72 02 72 27 73 83 72 50 73 32 72 92 71 58 72 61 73 70 30 71 23 72 02 73 06 73 44 72 56 73 70 72 01 65 24 65 62 72 66 40 68 88 69 57 70 96 75 13 71 76 72 97 70 06 65 11 65 11 70 96 50 68 37 67 94 69 15 70 45 67 55 68 75 67 59 65 11 65 11 68 10 heart c 80 47 82 48 84 13 81 79 83 20 84 12 83 77 83 88 84 10 82 18 10 78 83 80 17 81 18 82 78 83 39 84 78 83 12 84 64 85 09 81 19 20 75 85 79 46 82 18 83 12 83 26 84 46 82 48 84 59 84 79 80 86 30 77 19 78 40 80 21 84 45 83 93 84 82 81 82 83 13 83 79 82 84 40 77 50 76 40 78 52 84 45 82 63 84 48 79 16 81 90 82 84 78 88 50 72 28 75 53 77 52 79 52 79 93 88 20 77 48 79 14 80 51 76 24 heart h 75 55 79 60 81 64 84 07 82 50 83 03 81 38 82 49 83 38 82 31 10 77 62 78 83 80 56 83 73 80 70 81 31 82 02 83 31 83 71 84 01 20 76 60 78 24 80 29 83 39 82 30 83 00 82 70 81 88 82 67 80 61 30 75 56 79 08 80 00 84 05 83 10 84 34 81 32 82 34 82 67 79 93 40 74 17 79 19 80 96 83 37 80 51 82 80 29 82 40 83 01 81 63 50 73 83 79 93 81 68 79 95 80 17 82 34 68 63 81 83 82 00 78 57 heart s 81 85 83 33 86 67 81 48 82 10 84 45 83 33 83 18 83 70 81 48 10 80 74 81 17 84 45 81 48 81 17 85 92 83 70 83 40 84 07 81 85 20 78 52 79 75 80 74 82 59 81 60 84 07 80 00 83 27 84 45 80 74 30 74 07 74 07 76 30 81 11 81 92 84 07 78 15 84 81 77 41 40 72 96 70 15 73 33 81 85 71 70 72 59 72 59 63
71. 82 d j1eoq Let 897 009 2 6S Z 08 L8 SL 9 8S Cv V9 C 1 POEL SY79 I A e ias 86 L0 62 68 T TS vVc c8 Lv 6 10 66 0 6L go TOTS 1968 po c 12 6968 Lv 91 16 v8 I 64 ce vg 88 cs 6218 SC I8 do 69 29 9 vc 19 a8 1 26 v8 4 19 99 12 19 6 c6 S0 2 v 6g 91 ve ca to 68 gets cv 84 CT K Ivc scy 6 c6 1 16 89 96 c 96 v0 v6 8V T6 02 66 0L 96 vl T6 Ravel Fa 38 107 89 0S T 84 6799 7901 G6 T9 cT 82 6 69 80909 8904 qooues 4se01q 88c 6Tv 88C c1 81 0 cc 08 6c c8 v 9862 T 8 co 99 cre vo gz 8002 Badius ANOWHVH 92e2117 vd ANOWHVH 921923117 vd sfraisod soa ap xznvo3 255079 Lod uors1994 2109016 0191224 soauuo f p 1 24d 19901 Dub puuoq 106 Quatri me partie Sc nario de d couverte de connaissances appliqu l rosion des sols en Nouvelle Cal donie Chapitre 5 Caract risation de l rosion des sols en Nouvelle Cal donie Sommaire 5 1 Contexte g n ral 109 5 1 1 Probl matique de l rosion 110 5 1 2 Bases de donn es sur l rosion 110 5 2 Sc nario de d couverte de connaissances 112 5 2 Br ctraitement 2 214006 R3 poe dO de Yep ROS Y Eo ug 113 5 2 2 Extraction des r gles de caract risation OVE 113 5 2 3 Construction d un mod le pr dictif 117 5 2 4 Estimation de l al a rosion 1
72. A D C devient T h r P T Cy minfreg 1 P T freg 4 r gt y Apr s l introduction du probl me d extraction d itemsets fr quents FIM AIS93 les premi res approches furent d velopp es pour extraire de mani re efficace tous les itemsets fr quents d une base de donn es r Notons deux familles diff rentes de techniques de parcours de l espace de recherche i les m thodes de parcours en largeur et ii les m thodes de parcours en profondeur Toutes deux profitent de la propri t d anti monotonicit de la contrainte de fr quence minimum C 5 pour viter des parties de l espace de recherche Pour rappel D finition 6 Contrainte anti monotone Soit C P T vrai faux une contrainte C est une contrainte anti monotone dans r si et seulement si V J EX2 OQ V AJCIS OU Apr s le premier algorithme AIS AIS93 plusieurs autres algorithmes ont vu le jour et ont apport de multiples am liorations en terme de performance par exemple APRIORI AS94 pr sent au chapitre pr c dent permet un meilleur lagage de l espace de recherche ou encore FP Growth vite une g n ration explicite des itemsets candidats Il en existe beaucoup d autres les meilleurs r sultant de deux challenges GZ03 GZ04 BGZ04 sont d taill s et accessibles sur la page des challenges FIMI http fimi cs helsinki fi Notons que certains de ces derniers algorithmes combinent plusieurs am liorations de diff rentes
73. EBAUCHE N d Ordre TH SE pr sent e devant L UNIVERSIT DE LA NOUVELLE CAL DONIE et L INSTITUT NATIONAL DES SCIENCES APPLIQU ES DE LYON pour obtenir LE GRADE DE DOCTEUR Sp cialit INFORMATIQUE ECOLE DOCTORALE PLURIDISCIPLINAIRE NUM RIQUE DES MILIEUX INSULAIRES ULTRA MARINS pr sent e par Dominique Joel GAY CALCUL DE MOTIFS SOUS CONTRAINTES POUR LA CLASSIFICATION SUPERVIS E Soutenue publiquement le 30 novembre 2009 devant le jury Henri Bonnel Professeur Universit de la Nouvelle Cal donie Pr sident Bruno Cr milleux Professeur Universit de Caen Rapporteur Ho Tu Bao Professeur Japan Advanced Institute of Science and Technology Rapporteur Marc Boull Chercheur France T l com R amp D Examinateur Eibe Frank Associate Professor Universit de Waikato Examinateur Nazha Selmaoui Folcher Maitre de Conf rences Universit de la Nouvelle Cal donie Co directeur de th se Jean Frangois Boulicaut Professeur INSA Lyon Co directeur de th se Remerciements Tout d abord je tiens remercier mes directeurs de th se Nazha Selmaoui Folcher et Jean Fran ois Boulicaut pour leur encadrement leur aide leurs conseils et encouragements tout au long de ce travail Je souhaite galement remercier Bruno Cr milleux et Ho Tu Bao pour m avoir fait l honneur d accepter d tre rapporteurs de ce m moire de th se Je remercie galement Marc Boull Eibe Frank et Henri Bonnel pour avoi
74. En effet on aimerait pouvoir expliquer pourquoi tels objets et ou tels attributs se retrouvent dans le m me groupement Les approches de co classification donnent un premier l ment de r ponse ce sujet En effet les techniques de co classification g n rent des bi regroupements ou bi partitions ie une application entre une partition d objets et une partition d attributs Chaque bi regroupement est donc compos d un ensemble d objets T C 7 et d un ensemble d at tributs J C Z Intuitivement on peut interpr ter un bi regroupement T de la mani re suivante les attributs de J sont des caract ristiques des objets de T Toutefois cette premiere interpr tation reste au niveau global de la bi partition et finalement on passe c t de potentielles associations fortes entre sous ensembles d objets et sous ensembles d attributs Pour pallier ce probl me dans PB05 PRBO6 les auteurs proposent de compl ter les techniques de co classification par une tape de caract risation des bi regroupements en utilisant un ensemble de motifs locaux une collection de bi ensembles Dans les exp riences concepts formels et bi ensembles sont mis l preuve Ainsi partant d un ensemble de k regroupements d objets CT CT associ s par application k regrou pements d attributs CT CI qui donne une premi re caract risation globale les au teurs proposent d associer chaque bi ensemble au bi regroupement qui lui ressemb
75. F 7 r est non informative Si les valeurs de fr quence peuvent tre d duites on dis tinguera deux cas lorsque C R permet de d duire de mani re exacte la valeur de fr quence de chaque itemset fr quent on dit que CR est une repr sentation condens e exacte si seulement une valeur approximative est accessible alors CR est appel e repr sentation condens e approximative Outre l informativit une repr sentation condens e pourra aussi tre qualifi e par sa taille le plus petit tant le meilleur l efficacit et la compl tude des algorithmes permettant de la g n rer ainsi que la rapidit avec laquelle on peut g n rer des informations int ressantes partir d elle e g les itemsets fr quents les r gles d association int ressantes Dans la suite nous exposons les diff rents concepts cl s d velopp s ces derni res ann es pour le calcul de repr sentations condens es d itemsets fr quents Nous traiterons entre autres des repr sentations condens es bas es sur les itemsets ferm s BB00 PBTL98 PBTL99 les itemsets 0 libres BBR00 BBRO3 les itemsets V libres BR01 BR03 et leur g n ralisation KG02 les itemsets non d rivables CG02 CG07 ainsi qu un cadre unificateur CG03 33 Repr sentations condens es des itemsets fr quents 2 2 Les itemsets ferm s Les notions d itemset ferm et de fermeture d un itemset sont issues de la th orie des treillis Bir67 BM
76. Society 2007 Ian H Witten and Eibe Frank Data Mining Practical machine learning tools and techniques 2nd edition Morgan Kaufmann 2005 Robert Wille Restructuring lattice theory an approach based on hierarchies of concepts In I Rival editor Ordered stes pages 445 470 Reidel 1982 Jianyong Wang and Georges Karypis HARMONY efficiently mining the best rules for classification In Proceedings SIAM SDM 05 pages 34 43 2005 Jianyong Wang and George Karypis On mining instance centric classification rules IEEE Transactions on Knowledge and Data Engineering 18 11 1497 1511 2006 Xindong Wu Vipin Kumar J Ross Quinlan Joydeep Ghosh Qiang Yang Hiroshi Motoda Geoffrey J McLachlan Angus F M Ng Bing Liu Philip S Yu Zhi Hua Zhou Michael Steinbach David J Hand and Dan Steinberg Top 10 algorithms in data mining Knowledge and Information Systems 14 1 1 37 2008 Ting Fan Wu Chih Jen Lin and Ruby C Weng Probability estimates for multi class classification by pairwise coupling Journal of Machine Learning Research 5 975 1005 2004 Xiaoxin Yin and Jiawei Han CPAR Classification based on predictive as sociation rules In Proceedings SIAM SDM 03 pages 369 376 2003 Ying Yang Xindong Wu and Xingquan Zhu Dealing with predictive but unpredictable attributes in noisy data sources In Proceedings PKDD 04 volume 3202 of LNCS pages 471 483 Springer 2004 Mohammed J Zaki Generating n
77. a Ouenghi Classes r elles Pr dictions sol non rod sol rod sol non rod 137016 835 sol rod 31173 3194 FIGURE 5 4 Matrice confusion pour les r sultats de pr cision sur le bassin de la Ouenghi La classe mineure sol rod est la classe qui nous int resse Les taux de vrais positifs obtenus par fitcare sont respectivement de 55 et 79 pour les bassins de la Dumb a et de la Ouenghi Bien que les r sultats pour le bassin de la Dumb a soient moyens il est bon de noter que dans les m mes conditions d exp rimentations NB respectivement C4 5 obtient des taux de vrais positifs de 17 et 33 respectivement 2 et 18 pour les bassins de la Dumb a et de la Ouenghi Nous remarquons aussi les taux relativement bas de faux positifs 11 pour la Dumb a et 18 pour la Ouenghi Toutefois les rapports de vrais positifs sur faux positifs 926 926 14437 0 06 pour la Dumb a et 3194 3194 31173 0 09 indiquent que le classifieur pr sente un biais vers la classe minoritaire sol rod Ce biais est cependant l ger si l on consid re les faibles taux de faux positifs 14437 14437 112827 0 11 pour la Dumb a et 3194 3194 31173 0 18 pour la Ouenghi Le classifieur ainsi construit nous permet de g n rer une cartographie pr dite des zones d rosion dans les deux bassins test Ces cartes sont report es dans les figures 5 5 et 5 6 117 Caract risation de l
78. a minimalit du corps X de m Toutefois pour s attaquer un probl me de classification supervis e d autres contraintes sont n cessaires sur la combinaison des param tres de I 4 2 2 Contraintes entre param tres Contraintes sur les param tres de I Intuitivement si l on veut qu une OVE CR 7 X c soit caract ristique de la classe Ci il faut que sur la 4 ligne de I le seuil de fr quence relative soit sup rieur chaque autre y de la m me ligne i e ainsi les X extraits apparaissent relativement plus souvent dans r que dans chacune des autres classes c j i D autre part soit 7 Y c une OVE CR qui caract rise c alors il faut que 7 le nombre d erreurs maximum autoris es pour 7 dans c soit inf rieur sans quoi Y serait assez fr quent relativement 90 4 2 Vers une approche OVE dans re pour tre aussi caract ristique de c Nous formalisons ces deux intuitions avec les deux contraintes suivantes Contrainte ligne Cua Vi 1 nb V 55 Contrainte colonne Cootonne Vi 1 n Vj i Yii lt Tii Dans la suite nous montrons que les deux contraintes Cygne et Ceotonne nous permettent de faire le lien entre OVE CR motifs mergents et corr lation Plus important elles per mettent d viter des conflits de corps de r gles et de nous assurer la pertinence de nos motifs pour la classification supervis e Liens avec les EPs et la corr lation
79. able pour tout type de classifieurs pas seulement aux arbres de d cision D autre part pour faire face au bruit potentiel dans les donn es nous proposons une m thode de construction de descripteurs num riques plus souples au lieu de descripteurs binaires GSB08 GSB09 SGB09 3 3 Processus g n rique de construction de descrip teurs Avant de d velopper notre approche g n rique nous la motivons par une tude pr cise des derni res approches de la litt rature en classification base de motifs fr quents utili sant les propri t s de fermeture Itemsets libres ou itemsets ferm s Dans la litt rature l utilisation des repr sentations condens es bas es sur les propri t s de fermeture a d j t tudi e pour la classification supervis e On peut diff rencier deux types d approches i apr s avoir enlev l attribut classe de la base de donn es dans LLWO7 les auteurs proposent d extraire les itemsets libres et les itemsets ferm s pour pr f rer finalement les libres pour les probl mes de classification De m me dans BC04 les auteurs construisent des r gles essentielles dont le corps est un itemset libre 66 3 3 Processus g n rique de construction de descripteurs ii apr s avoir partitionn la base de donn es selon l attribut classe dans GKL06 GKLOS les itemsets ferm s sont choisis pour caract riser les classes De m me dans CYHHO7 les auteurs proposent de
80. ait dommage de se limiter aux attributs simples car cela quivaudrait se priver du potentiel de discrimination des k itemsets ou ensembles de taille k De plus les itemsets tr s peu fr quents ont une valeur de gain d information limit e Les itemsets fr quents peuvent donc tre utiles pour un processus de classification supervis e L une des applications les plus tudi es des itemsets fr quents est la d couverte de r gles d association un probl me introduit dans AIS93 Le but est d extraire l ensemble des r gles de la forme m J J o J l ant c dent et J le cons quent sont des en sembles d attributs ou itemsets disjoints qui satisfont certaines contraintes d int r t par exemple selon des seuils de valeurs pour une mesure d int r t donn e Les premieres tudes se sont focalis s sur les r gles d association valides i e respectant une contrainte de fr quence minimale et une contrainte de confiance minimale La fr quence not e freq r r est le nombre d occurrences de m dans les donn es r La confiance est la proba bilit conditionnelle dans les donn es que tous les attributs du cons quent d une r gle appartiennent une transaction qui implique tous les attributs de l ant c dent soit freq r freq 1 r Il existe d autres mesures d int r t dans la litt rature la plupart de ces mesures tant souvent bas es sur la notion de fr quence 6 Int r t des k itemsets Int r t des it
81. alement petit par rapport 7 Plus formellement r gle forte et itemset d libre se d finissent comme suit D finition 8 r gle d association forte itemset libre Une r gle d association forte est une r gle d association de la forme m I 5 a o I CT aeT Iet un entier naturel On dit que x est valide dans r si freq I r freq I U a r en d autres termes s il y a moins de 6 transactions o m est viol e Un itemset J C T est un itemset libre si et seulement si il n existe pas de r gle forte valide x I 5 a telle que I C J ac J eta I Soit F y 0 r l ensemble des itemsets y fr quents libres de r La connaissance des fr quences des l ments de F 7 0 r nous permet d approximer la fr quence des item sets fr quents de r qui ne sont pas libres En effet soit J un itemset fr quent non 6 libre Par d finition il existe une r gle forte m I a telle que J C J eta J De plus si m est forte valide alors J V a a est aussi valide De ce fait on peut approximer la fr quence de J par la fr quence de l itemset fr quent J a En effet freq J a r freq J r indique que freq J aj r est une borne sup rieure pour freq J r Ainsi si J a est y fr quent libre l approximation est donn e sinon on tudiera une approximation par la fr quence d un itemset de plus petite taille Lorsque plusieurs bornes sup rieures existent la plus p
82. b p 131 42 p 19 p gt car pol bc eee comme d gt donc Corr T ci gt zT a Donc X est positivement corr l avec c Preuve de la proposition 2 Soient trois entiers y et p gt 1 respectivement des seuils pour la fr quence le nombre d erreur et le taux d accroissement nous savons que pour assurer qu un corps X d une SCR a X cj soit p EP il est suffisant que 1 mial gt p C est dire il est suffisant que 4 y Iis y Te gt y donc gt p 1 Val A mie a pila APN AA ac es fo p ra FINTE Observons que Ir ra le Ir Fey donc E Ir Ta gt p Fa r fa p Pal EXT p Pal r Te Pour prendre en compte le fait que la distribution des classes peut tre in gale il suffit que l in quation pr c dente soit v rifi e pour la classe majoritaire Donc x res gt o c est la classe majoritaire est une condition suffisante pour que le corps X soit un p EP Preuve de la proposition 3 Preuve par l absurde Soient deux OVE CRs de S 7 X c et 1 Y cj telles que Y CX et j 7 et qui respectent les contraintes de fr quence et d infr quence de I et les contraintes Crigne et Cou Nous avons freg X r gt y et Vk A tfreg X re lt Yin en raison de Cygne De m me freq Y r gt yj et Vl A 3 freq X ra lt Y En raison de
83. binaires et C c1 c l ensemble des attributs classe Le taux d accroissement d un itemset I C T pour la classe c dans r est 0 si freq I ra 0 TAL ra oo si fregr 1 re gt 0 A freg 1 Te 0 Vjzi freq I re frear Er re SOP 26 1 3 M thodes base d itemsets mergents o re est la base de donn es restreinte aux objets de classe c Pour un entier p gt 1 on dit que I est un itemset p mergent p EP pour la classe c dans r si TA I ra gt p Lorsque T A I r oo i e I n est support que par des objets de la classe c on dit que I est un Jumping Emergent Pattern JEP Soit un entier y gt 0 on parle de p EPs ou de JEPs y fr quents pour des motifs mergents par rapport un seuil de fr quence y L extraction de l ensemble des itemsets p mergents est un probl me difficile En effet il s agit d extraire les itemsets qui sont fr quents dans une classe et infr quents dans le reste des donn es Ici la propri t d anti monotonicit ne tient plus car si un itemset J n est pas mergent il se peut que J U i soit mergent Dans DL99 les auteurs proposent un algorithme d extraction des itemsets mergents pour une classe c en utilisant deux bordures i l ensemble des itemsets infr quents minimaux au sens de l inclusion et ii l ensemble des itemsets fr quents maximaux Ainsi les itemsets dans l intervalle de ces deux bordures sont des itemsets mergents Bien que le
84. bl me Nous montrons que ces probl mes sont inh rents au cadre de travail uti lis le cadre OVA 0ne Versus A11 dans lequel les motifs extraits sont caract ristiques d une classe par rapport l union des autres classes La solution que nous proposons pour r soudre ces probl mes identifi s nous am ne d finir un nouveau cadre de travail de type OVE One Versus Each pour l extraction de motifs int ressants i e des r gles de caract risation OVE Dans ce cadre la r partition des classes et la r partition des motifs extraits est prise en compte Pour ce faire nous utilisons un seuil de fr quence mi nimum pour chaque classe et un seuil de fr quence maximum pour chaque type d erreur de classification d une classe c vers une classe c Le nombre cons quent de param tres seuils n cessitant une m thode automatique nous proposons un algorithme d optimi sation fitcare CGSB08 pour d terminer des param tres prometteurs Un algorithme d extraction des r gles de caract risation OVE ainsi qu un classifieur bas sur l ensemble des r gles OVE est aussi propos et exp riment sur des bases de donn es multi classes disproportionn es 86 4 1 Introduction et probl matiques 4 1 2 Exemple motivant A travers l exemple simple suivant nous montrons les limites rencontr es par les ap proches OVA Exemple 1 Limites des approches OVA base de motifs Consid rons la base de donn es r trois classes C c1 c2
85. ble des bi ensembles dans les grandes bases de donn es puisqu il est possible d extraire les itemsets libres et leur fermeture dans de tels contextes Dans des donn es synth tiques artificiellement bruit es les exp riences BPRB06 montrent qu il est pr f rable de consid rer les FBS que les concepts formels pour obte nir des bi ensembles pertinents Non seulement parce que le nombre de FBS n explose pas dans les donn es bruit es et ainsi le post traitement reste envisageable mais surtout parce que les bi ensembles sont plus proches des motifs originaux sans bruit que les concepts formels 2 5 3 Caract risation de groupes La classification non supervis e est une t che importante de la fouille de donn es Le but est d identifier de groupements d objets et ou d attributs de mani re optimiser une fonction objective qui value la qualit des regroupements Par exemple il peut tre bon de maximiser les similarit s entre l ments d un m me regroupement et les diff rences entre l ments de regroupements diff rents Dans la litt rature il existe beaucoup d al gorithmes qui fournissent des partitions pertinentes d objets et ou d attributs Toutefois 4 FBS pour Free set based Bi Set 44 2 5 Usage multiple des itemsets libres une des grandes faiblesses des approches existantes vient du fait que l on ne peut pas caract riser de mani re explicite les partitions g n r es par un algorithme
86. ble des itemsets y fr quents V libres de r Pour pouvoir d duire si un itemset J C Z est fr quent ou non nous consid rons en plus la bordure n gative de F y V r d finie comme suit Bd F y V r le P T FO V r vJeP 2 JcIo J EF y V r 37 Repr sentations condens es des itemsets fr quents Ainsi les ensembles IF V r Bd F V r et les valeurs de fr quence de leurs l ments nous permettent de d terminer si un itemset J est fr quent et de donner sa fr quence La d monstration se fait par induction sur la taille des itemsets on suppose qu partir de F y V r Bd F y V r et des valeurs de fr quences de leurs l ments on peut d duire la fr quence de tout itemset de taille inf rieure ou gale k Soit J C T un itemset tel que J k 1 Si J F y V r alors il est fr quent et sa fr quence est connue Si J IF V r alors il existe J C J tel que I Bd IF o V r Consid rons un tel itemset J Bien s r si J J nous connaissons la fr quence de J Dans le cas o 2 CJ soit I n est pas y fr quent auquel cas il n y a aucune raison pour que J soit fr quent soit I est 4 fr quent Comme I Bd F y V r I n est pas V libre et donc il existe H C I et a b IN H tels que H a V b est une V r gle valide En particulier I V a b a V b est valide Donc nous avons l galit supp I r
87. called as follows fitcare c yes no maybe p 1 1 0 925 dataset txt To avoid costly and possibly fruitless extractions of very specific set of rules option frequencies f constrains fitcare to keep their frequencies inside their class above the given thresholds On the command line do not forget to protect the list of frequencies by using double quotes In the previous example if you want any class association rule concluding on yes or no to match at least 25 of the objects in their respective classes and do not want such a con straint on the rules concluding on maybe you must call fitcare as follows fitcare c yes no maybe f 0 25 0 25 0 dataset txt Option all a is used to print not only the final set of class association rules which may overfit the data set but every good set of rules during the learning process which goes from general rules to specific ones The output files are named according to the argument of option out an integer starting from 0 DATA Option out o is used to set the output file name When omitted the output file name is the input file name car For example if dataset is dataset txt the default output file name is dataset txt car The output data is composed of a preamble describing the format ended with a line End Of Parameters and the rules Every rule is stated in one line composed of the list of attributes of the body of the r
88. ccuracy results for the majority class are abnormally high to the expense of poor accuracy results for the minority class es In this thesis we explain the whys and whens of this bias Existing methods do not take into account the class distribution or the error repar tition of mined patterns in the different classes In order to overcome this problem we suggest a new framework and deal with a new pattern type to be mined the One Versus Each characterization rules OVE However in this new framework se veral frequency and infrequency thresholds have to be tuned Therefore we suggest fitcare an optimization algorithm for automatic parameter tuning in addition to an extraction algorithm for OVE characterization rule mining The experimentations on imbalanced multi class data sets have shown that fitcare is significantly more accurate on minor class prediction than existing approaches The application of our OVE framework to a soil erosion data analysis scenario has shown the added value of our proposal by providing a soil erosion characterization validated by domain experts Keywords Constraint based Pattern Mining Pattern based classification Feature Construction Noise Tolerance Classification Imbalanced Data Sets Multi class Classifi cation Note for English readers To enjoy the main contributions of this thesis English readers may refer to GSB08 CGSB08 GSBO09 ix Table des mati res I Introduction II Etat de l art
89. ceedings ECML 07 volume 4701 of LNCS pages 708 715 Springer 2007 Kotagiri Ramamohanarao and Hongjian Fan Patterns based classifiers World Wide Web 10 1 71 83 2007 Nazha Selmaoui Folcher Fr d ric Flouvat Chlo Grison Isabelle Rouet and Dominique Gay D couverte de colocations dans un SIG extension et appli cation l tude de l rosion en nouvelle cal donie In SAGEO 09 2009 Nazha Selmaoui Dominique Gay and Jean Fran ois Boulicaut Construction de descripteurs pour classer partir d exemples bruit s In Actes d EGC 09 RNTI E 15 pages 91 102 CEPADUES 2009 Nazha Selmaoui Claire Leschi Dominique Gay and Jean Fran ois Boulicaut Feature construction and delta free sets in 0 1 samples In Proceedings DS 06 volume 4265 of LNCS pages 363 367 Springer 2006 Pang Ning Tan Michael Steinbach and Vipin Kumar ntroduction to Data Mining Addison Wesley 2005 Paul E Utgoff and Carla E Brodley An incremental method for finding multivariate splits for decision trees In CML 90 pages 58 65 1990 149 Bibliographie VCo7 WFO05 Wil82 WKO05 WKO6 WKQ 08 WLW 04 YH03 YWZ04 Zak00 ZDR00 Zim08 ZW04 ZWO01 150 Florian Verhein and Sanjay Chawla Using significant positively associated and relatively class correlated rules for associative classification of imbalanced datasets In Proceedings IEEE ICDM 07 pages 679 684 IEEE Computer
90. ceedings UAI 95 pages 338 345 Morgan Kaufmann 1995 Marzena Kryszkiewicz and Marcin Gajek Concise representation of frequent patterns based on generalized disjunction free generators In PAKDD 02 pages 159 171 2002 147 Bibliographie KMO3 KO02 LDR00a LDROOb LDRO1 LDRW04 LHM98 LHPO1 LLW07 LRDO00 LRDO1 MT 96 MT97 148 Jeremy Kubica and Andrew W Moore Probabilistic noise identification and data cleaning In Proceedings ICDM 03 pages 131 138 IEEE Computer So ciety 2003 Sergei O Kuznetsov and Sergei A Obiedkov Comparing performance of al gorithms for generating concept lattices Journal of Experimental and Theo retical Artificial Intelligence 14 2 3 189 216 2002 Jinyan Li Guozhu Dong and Kotagiri Ramamohanarao Instance based clas sification by emerging patterns In Proceedings The 4th European Conference on Principles and Practice of Knowledge Discovery in Databases pages 191 200 Springer 2000 Jinyan Li Guozhu Dong and Kotagiri Ramamohanarao Making use of the most expressive jumping emerging patterns for classification In Proceedings PAKDD 00 volume 1805 of LNCS 2000 Jinyan Li Guozhu Dong and Kotagiri Ramamohanarao Making use of the most expressive jumping emerging patterns for classification Knowledge and Information Systems 3 2 131 145 2001 Jinyan Li Guozhu Dong Kotagiri Ramamohanarao and Limsoon Wong DeEPs A ne
91. conde partie Bien qu il existe diff rentes m thodes de classification supervis e base de motifs les diff rents auteurs s accordent sur plusieurs points cl s que se doit de respecter l ensemble de motifs afin d esp rer de bonnes performances de classification i Les motifs de l ensemble doivent tre int ressants selon une mesure d int r t discriminante pour l attribut classe ii L ensemble des motifs doit offrir une bonne couverture des donn es d apprentis sage i e il faut que la quasi totalit des transactions utilis es lors de l apprentissage puissent tre couvertes par au moins un motif iii L ensemble des motifs doit tre concis et sans redondance Probl mes identifi s Le contexte tant pos nous identifions quelques probl mes ouverts en classification supervis e base de motifs Repr sentations condens es pour la classification supervis e La principale faiblesse commune aux approches de classification bas es sur les motifs itemsets ou r gles d associations est le grand nombre de motifs extraits En effet pour capturer certaines tendances dans les donn es un seuil de fr quence assez bas peut tre requis On se retrouve alors devant un tr s grand nombre de motifs fr quents extraire De plus l ensemble r sultat peut contenir et des motifs redondants et des motifs inutiles lorsqu on est face des donn es imparfaites au sens o elles pourraient tre bruit es Dan
92. ction nous proposons une m thode automatique appel e fitcare pour param trer et qui utilise une approche de recherche locale par hill climbing escalade de colline Ainsi fitcare indiquera automatiquement les bons param tres de I pour la t che de classification supervis e 4 3 1 Hill climbing principe La m thode Hill climbing est une technique d optimisation pour la recherche locale de solution dans un espace de recherche tats discrets Le but est d optimiser i e maximiser ou minimiser une fonction f x o les x sont des tats discrets L espace de recherche est souvent repr sent sous forme de graphe o les sommets sont des tats de l espace de recherche et les arcs entre sommets repr sente la possibilit d aller d un tat un autre La m thode Hill climbing parcourt ainsi le graphe de sommet en sommet tout en optimisant i e augmentant ou diminuant f x jusqu atteindre un optimum local Lm qui est la solution en sortie 4 3 2 Hill climbing et fitcare Les points cl s de fitcare La m thode de Hill climbing est bien adapt e notre probl me de recherche de pa ram tres et consiste en quatre points cl s que nous d taillerons apr s 1 fitcarc est l acronyme r cursif en anglais pour fitcarc is the class association rule classifier 2 fitcare est l acronyme r cursif en anglais pour fitcare is the class association rule extractor 94 4 3 Param trage automatique avec fitcare
93. d Les param tres optimaux d couverts par fitcare sont report s dans la matrice suivante T EN Yerode erode Yerode non erode M 0 03998 0 03969 asp 0 03998 0 41428 Ynon erode erode Ynon erode non erode Le taux de couverture de la base d entrainement par Spyg est de 90 7 respectivement 93 pour les objets pixels de classe sol rod respectivement sol non rod ce qui nous donne une bonne couverture de la base Le taux d accroissement global de Sove est de 1 95 voir d finition au chapitre 4 La matrice Ibest obtenue est en fait la matrice obtenue lors de la phase d initialisation de fitcare La phase d optimisation ne permet pas d obtenir de meilleurs param tres tout en maintenant les taux de couverture maxi maux obtenus lors de la phase d initialisation Pour chaque r gle nous reportons aussi la fr quence de leur corps dans chacune des classes et la valeur du taux d accroissement Analyse de l ensemble des r gles OVE Dans la table 5 1 nous remarquons la r gle solnu solerode tr s fr quente 17 et avec une forte valeur de T A 30 Cette r gle confirme l intuition des experts du domaine un sol d nud qui est un type d occupation du sol sera plus propice l apparition du ph nom ne d rosion Il en est de m me pour les autres r gles fort taux d accroisse ment en gras dans la table 5 1 lorsque T A gt 4 Les types de sols alluvions actuelles et r centes
94. d charges mini res non contr l es zones d exploitations et d blais mi niers sont aussi propices l rosion D autre part nous remarquons que certains facteurs reviennent souvent dans le corps des r gles le type de sol lat rites indiff renci es sur p ridotite et l occupation du sol v g tation maquis minier clairsem Ce sont aussi des facteurs combin s d autres propices l rosion Outre toutes ces confirmations pour les experts l ensemble de r gles OVE permet de quantifier les ph nom nes d rosion observ s gr ce aux fr quences des corps de r gles dans les deux classes De plus le taux d accroissement donne une valeur qualitative aux ph nom nes observ s En ce qui concerne la caract risation des zones moins propices l rosion les r gles du type X sol non eorde sont report es dans la table 5 2 Comme attendu par les experts le type de sol harzburgites et le type de v g tation maquis minier dense sont pr dominants dans le corps des r gles OVE et sont des facteurs limitant l apparition des ph nom nes d rosion De m me les for ts denses assurent une bonne tenue du sol Toutefois trois r gles forte valeur de 7 A son plut t inattendues 2483 precipitations 2872 sol non erode 2872 lt precipitations lt 3008 sol non erode 114 5 2 Sc nario de d couverte de connaissances Itemsets X corps de r gles fregr X Terode freqe X T
95. d differences In Proceedings KDD 99 pages 43 52 ACM Press 1999 Guozhu Dong Xiuzhen Zhang Limsoon Wong and Jinyan Li CAEP Clas sification by aggregating emerging patterns In Proceedings DS 99 volume 1721 of LNCS pages 30 42 Springer 1999 Yasser El Manzalawy WLSVM Integrating libsvm into weka environment 2005 http www cs iastate edu yasser wlsvm Usama M Fayyad and K B Irani Multi interval discretization of continous valued attributes for classification learning In Proceedings IJCAI 93 pages 1022 1027 Morgan Kaufmann 1993 Usama M Fayyad Gregory Piatetsky Shapiro Padhraic Smyth and Rama samy Uthurusamy editors Advances in Knowledge Discovery and Data Mi ning AAAI MIT Press 1996 Hongjian Fan and Kotagiri Ramamohanarao A bayesian approach to use emerging patterns for classification In Proceedings of the Fourteenth Austra lasian Database Conference on Database Technologies pages 39 48 Darling hurst Australia 2003 Australian Computer Society Inc Alex Alves Freitas Understanding the crucial differences between classifica tion and discovery of association rules a position paper SIGKDD Explora tions 2 1 65 69 2000 Fr d ric Flouvat Nazha Selmaoui Folcher Dominique Gay Isabelle Rouet and Chloe Grison Constrained colocation mining application to soil erosion characterization In Proceedings SAC 10 ACM Press 2010 To appear Johannes F rnkranz Round robin classi
96. de la m me classe ou s il n existe pas un nouvel attribut test pour lequel au moins deux branches sont associ es plus de n objets par d faut n 2 ii Pour choisir l attribut test qui constitue un noeud C4 5 calcule le gain d information pond r Gain Ratio bas sur l entropie dans le sous ensemble de donn es courant r pour chaque attribut a de la 1 Noter que dans le nombre de branches dues aux segmentations issues d un noeud d pend de l arit de l attribut test du noeud Ainsi dans le cas d attributs binaires les donn es seront segment es en deux parties celle qui v rifie la propri t a et le reste 53 Construction de descripteurs base d itemsets libres Algorithme 6 Algorithme g n rique de construction d arbre de d cision Entr e r 7 Z R une base de donn es C 61 62 Cp l ensemble des classes Sortie AD l arbre de d cision r sultat 1 begin 2 Initialisation de AD l arbre vide 3 Le noeud courant est la racine de l arbre vide 4 repeat 5 if Le noeud courant est terminal then 6 Affecter une classe au noeud courant i e feuille 7 else 8 S lectionner un attribut test 9 Cr er le sous arbre de AD associ l attribut test 10 until Toutes les feuilles sont tiquet es 11 end mani re suivante I Gain Ratio a r NE o IG ar E r M freg a r x Elro aj Dom a IG est le gain d information Dom a le domaine de valeurs
97. de bruit d attribut dans les donn es pour diff rentes valeurs de y une par graphe et diff rentes valeurs de une par courbe Nous remarquons que pour de faibles niveaux de bruit de petites valeurs de 6 suffisent pour assurer de meilleurs r sultats de pr cision pour FC C4 5 compar C4 5 Lorsque le bruit augmente FC C4 5 avec des petites valeurs de y i e qui utilise des r gles presque fortes obtient de pi tres r sultats de pr cision par rapport C4 5 Ainsi essayer de trouver des corr lations fortes dans des donn es bruit es se r v le inefficace A l inverse pour des valeurs de 6 plus grandes FC C4 5 semble mieux capter des motifs bruit s qu avec de petites valeurs Notons aussi que lorsque FC C4 5 obtient de meilleurs r sultats de pr cision ce n est pas le fait d un seuil y Maintenant que nous avons une meilleure compr hension des relations entre les pa ram tres y et le niveau de bruit ainsi que de leur impact sur les r sultats de pr cision de FC nous proposons une strat gie pour d terminer automatiquement une valeur pertinente pour Comme nous ne connaissons pas a priori la quantit de bruit dans les donn es et que nous ne pouvons pas utiliser la pr cision sur les donn es test notre strat gie s adaptera l importance du bruit via les donn es d apprentissage En figure 3 12 nous repr sentons la pr cision sur les donn es d entrainement de FC C4 5 en fonction de pour diverses vale
98. de classification Teost de la m me taille que I dirigerait alors le processus d optimisation afin de limiter les co t des erreurs de classification Ainsi couverture int r t des r gles et co ts de classification seraient les crit res optimiser Clairement cela augmente la difficult du probl me Caract risation de l rosion des sols en Nouvelle Cal donie Avant notre tude la cartographie des zones d rosion ainsi que l estimation de l al a rosion l chelle de r gion taient co teuses en temps et en argent Bien que l rosion ait un fort impact sur l environnement les zones rod es dans les r gions tudi es ne couvrent qu environ 3 des sols La mise en commun de donn es sur diff rents param tres physiques consid r s par les experts comme facteurs du ph nom ne d rosion r sulte en une grosse base de donn es dont la r partition des classes sol rod sol non rod est tr s d s quilibr e 127 Dans ce manuscrit afin de r pondre aux attentes des experts nous avons d velopp un processus complet de d couverte de connaissances dont l tape cl est l extraction de r gles de caract risation OVE Une premi re analyse des r gles extraites a permis de confirmer certaines combinaisons de facteurs responsables du ph nom ne d rosion Mais aussi gr ce des mesures d int r t des r gles OVE intuitives pour les experts e g la fr quence et le taux d accroissement il nous es
99. de consistance sur chaque ligne et chaque colonne l int rieur et l ext rieur du bi ensemble Plus pr cis ment chaque objet respectivement chaque attribut hors du bi ensemble doit contenir moins d attributs respectivement moins d objets qu l int rieur du bi ensemble De telles contraintes rendent l extraction de l ensemble des CBS ou DRBS tr s co teuse voire im possible dans de grandes bases de donn es Voulant adoucir ces contraintes dans BPRB06 les auteurs proposent d utiliser un nouveau type de motif bas sur les itemsets 0 libres et leur fermeture les bi ensembles dits FBS Tout d abord introduit dans PB05 comme motif local pour la caract risation de bi regroupements issus de solutions de co classification les bi ensembles sont d finis comme suit D finition 11 Soit T I un bi ensemble dans r tel que T C T et I CT T I est un 0 bi ensemble si et seulement si I peut tre d compos en I I U I5 o I est un itemset 0 libre dans r In l ensemble des l ments de la fermeture de D I clg I3 r Li et T Objets I r Ainsi un 0 bi ensemble est un concept formel Dans un bi ensemble T I le nombre de 0 par colonne attribut de la partie fermeture I de I est limit mais pas par ligne Ainsi il peut exister des lignes en dehors de T I avec le m me nombre de 0 qu une ligne l int rieur de T I Cette perte de consistence permet toutefois une extraction de l ensem
100. des motifs peu int ressants et des motifs redondants i e couvrant les m mes objets ou avec le m me pouvoir discriminant tout en tant en relation via C qui oblige une tape de post traitement pour liminer les motifs ind sirables De plus la confiance qui est la mesure d int r t phare de ces m thodes ne tient pas compte de la distribution des classes Ainsi pour un probl me deux classes c c deux r gles va lides 7 X c et 7 Y c de m me fr quence et confiance caract risant deux classes diff rentes distributions in gales c gt c auront le m me pouvoir discriminant alors que leur taux d erreurs relatives seront tr s diff rents freq X ra gt freq Y r o ro est la base de donn es restreinte aux objets de classe c Dans la suite nous discutons des travaux de la litt rature bas es sur les itemsets mergents qui tiennent compte de la distribution des classes et traite ce probl me 1 3 M thodes base d itemsets mergents Dans DL99 les auteurs introduisent un nouveau type de motif local les item sets mergents Intuitivement un itemset mergent pour une classe c apparait plus fr quemment dans les donn es de la classe c que dans le reste de la base on parle ici de fr quence relative Plus formellement un itemset mergent pour une classe c est d fini comme suit D finition 5 Taux d accroissement et itemset p mergent Soit r 7T 7 R une base de donn es
101. e concision et non redondance de l ensemble de r gles nous voyons que FC propose une solution de choix chacun d eux Les contraintes sur les valeurs de y et nous assurent des r gles de bonne qualit Notre strat gie pour ajuster en fonction de y nous assure d obtenir une bonne couverture positive des donn es d apprentissage Enfin le fait d utiliser l ensemble des r gles fortes de caract risation nous vitons des redondances de r gles et obtenons un ensemble concis De plus nous profitons de la robustesse d j prouv e dans d autres t ches de fouille pour construire des nouveaux descripteurs num riques r sistants aux bruits d attributs Toutefois on peut identifier au moins un type de probl mes pour lequel FC peut faillir les probl mes o les classes sont multiples et disproportionn es en nombre d objets Dans ces cas l comme nous utilisons un seul seuil de fr quence global pour esp rer caract riser les objets de la classe minoritaire une valeur de y tr s basse est n cessaire La valeur de tant contrainte par celle de y doit tre plus basse voire proche de z ro on est alors pr t rechercher des r gles exactes Si les donn es sont quelque peu bruit es FC sera alors moins performante en raison du faible int r t des r gles extraites Il faut noter que dans ce cas l extension des techniques de classification associative plusieurs seuils de fr quence un par classe est possible
102. e construction de l algorithme C4 5 La diff rence 3 0 PDT pour Pattern based Decision Tree 58 3 2 Arbre de d cision base de motifs fondamentale se fait lors du choix des noeuds test o nous utiliserons une r gle forte au lieu d un attribut La mesure d int r t utilis e e g le gain ratio doit nous permettre de choisir le meilleure r gle forte discriminante pour les classes au lieu du meilleur attribut comme auparavant ligne 6 Pour ce faire nous proposons une adaptation triviale de calcul de la mesure d int r t pour des r gles En effet pour un attribut Z le gain d information exploite le nombre d occurrences de i dans les diff rentes classes de donn es En exploitant le nombre d occurrences d une r gle forte m I c dans les classes de donn es nous pouvons calculer le gain d information de 7 de la mani re suivante IG r r E r rent x E r4 1 freq I r x Er Le splitinfo tant bas sur la r partition des objets dans les classes en fonction des diff rentes valeurs de l attribut courant est tendu de la mani re suivante SI m r D freq 1 7 x log freqr 1 r a 1 mn freq 1 r x logs 1 freq 1 r Ainsi le gain ratio est GR z r I G a r SI a r Noter que pour calculer GI etST pour un motif les sommes sont r duites deux termes puisqu on consid re qu un motif apparait ou n apparait pas dans un objet Il en r sulte des segmentations bina
103. e multiple des itemsets libres 41 2 5 1 R gles d association fortes 42 2 5 2 Motifs tol rants aux erreurs 43 2 5 3 Caract risation de groupes 44 2 5 4 Classification supervis e 46 2 6 DISCUSSION Romo umm a a a ds home reum et ere a AT 2 1 Th ories bordures et repr sentations condens es L extraction des itemsets fr quents est une t che essentielle de la fouille de donn es L ensemble des itemsets fr quents r sument en quelque sorte les tendances sous jacentes aux donn es Ainsi les itemsets fr quents nous permettent de trouver des motifs int ressants cach s dans les donn es comme par exemple des r gles d association des s quences des pisodes des regroupements ou encore des classifieurs Dans ce chapitre 31 Repr sentations condens es des itemsets fr quents nous repla ons la t che d extraction d itemsets fr quents dans le cadre de travail de Ma nilla et Toivonen MT97 Dans un tel cadre calculer l ensemble des itemsets fr quents revient calculer la th orie TA D C C 6 C D o D est une base de donn es et correspond ici notre contexte binaire r 7 Z R est un langage de motifs et correspond ici P Z l ensemble des parties de Z C est un pr dicat de s lection ou contrainte et est r duit ici une contrainte de fr quence minimum Ainsi T
104. e sa fermeture Propri t 4 Soit F une classe d quivalence de fermeture dans le contexte binaire r Si I E est un itemset libre alors Vj cl I x I j est une r gle forte de confiance oe Ainsi dans certains cas une CEC pourra nous permettre de d river des r gles d asso ciation concluant sur un attribut classe En effet il existe quatre cas typiques de CECs voir figure 3 2 Il est clair que la CEC du cas 1 dont l itemset ferm ne contient pas d attribut classe ne nous permettra pas de d river de r gles fortes concluant sur une classe Dans le cas 2 2 CEC pour Closure Equivalence Class 56 3 2 Arbre de d cision base de motifs 1 2 3 4 FIGURE 3 2 Les 4 cas typiques de 0 CECs bien que l itemset ferm contienne l attribut classe c tous les itemsets libres eux aussi contiennent l attribut classe ce qui ne nous apprend rien sur la classe part Xc cj Les cas 3 et 4 sont int ressants car dans la CEC le ferm contient l attribut classe et il existe un ou plusieurs libres qui ne contiennent pas la classe Ainsi on peut avoir X c et ou Y cj comme r gles fortes i e X et ou Y sont des JEPs Bien str il est possible de d river d autres r gles dont le corps appartient aussi la CEC et est un sur ensemble d un 0 libre Toutefois suivant l intuition qui peut le plus peut le moins nous choisirons les r gles bas es sur les minimaux i e l
105. e zone seraient un facteur d apparition des ph nom nes d rosion Nous pensons que cela est d a la nature m me de la couche de donn es sur les pr cipitations La granularit 30m n implique pas que nous disposons de donn es de pluviom trie pour chaque zone de 30m x 30m En effet seuls quelques pluviom tres sont disponibles par bassin versant et les donn es r colt es sont extrapol es en utilisant l altitude des zones aux alentours via le mod le AURELHY sur le reste de la zone d tude Intuitivement plus l altitude est lev e plus la quantit de pr cipitations sera grande Dans les zones tudi es les sols en haute altitude sont souvent des sols non propices l rosion e g harzburgites C est pourquoi nous obtenons ce type de r gle Toutefois pour confirmer notre hypoth se une tude plus pouss e focalis e sur ces zones est n cessaire Itemsets X corps de r gles freqr X Terode freqe X Tnon erode T A X 2483 precipitations 2872 0 00817717 0 0522101 6 3849 harzburgites 851 lt altitude lt 1193 0 00889676 0 0360154 4 0481 harzburgites maquis minier dense 1481 lt precipitations lt 1826 0 0146535 0 041746 2 8489 harzburgites pente gt 48 1 541 altitude 728 0 0164198 0 044539 2 7125 harzburgites pente gt 48 1 442 lt altitude lt 541 0 0117097 0 028579 2 4406 harzburgites pente gt 48 1 132 lt altitude lt 442 1481 precipitations 1826 0 0117751 0 0240419 2 0418 harzburgites pente gt 48
106. ed Papers volume 3933 of LNCS pages 55 71 Springer 2006 Artur Bykowski and Christophe Rigotti condensed representation to find frequent patterns In PODS 01 2001 Artur Bykowski and Christophe Rigotti DBC a condensed representation of frequent patterns for efficient mining Infomation Systems 28 8 949 977 2003 J r my Besson C line Robardet and Jean Frangois Boulicaut Approxima tion de collections de concepts formels par des bi ensembles denses et perti nents In CAp 05 pages 313 328 2005 J r my Besson C line Robardet and Jean Francois Boulicaut Mining formal concepts with a bounded number of exceptions from transactional data In Proceedings KDID 04 volume 3377 of LNCS pages 33 45 Springer 2005 J r my Besson C line Robardet and Jean Frangois Boulicaut Mining a new fault tolerant pattern as an alternative to formal concept discovery In Proceedings ICCS 06 volume 4068 of LNAI pages 144 157 Springer 2006 J r my Besson C line Robardet Jean Fran ois Boulicaut and Sophie Rome Constraint based concept mining and its application to microarray data ana lysis Intelligent Data Analysis 9 1 59 82 2005 Jean Fran ois Boulicaut Luc De Raedt and Heikki Mannila editors Constraint Based Mining and Inductive Databases European Workshop on Inductive Databases and Constraint Based Mining Hinterzarten Germany Bibliographie BTP 00 BU95 CB91 CB02 CCHJOS
107. eere emus 93 4 3 Param trage automatique avec fitcare 94 TI Hill climbing principe se 4 arme d a ned t hat RII er o 94 132 Hill climbing et fitcare 2 4 2 54b ROUES aee s 94 4 4 Validation exp rimentale 100 207 Discussion et limites wx v eorpore dude wie cad acie cm mein 105 IV Sc nario de d couverte de connaissances appliqu l rosion des sols en Nouvelle Cal donie 107 5 Caract risation de l rosion des sols en Nouvelle Cal donie 109 5 1 Contexte g n ral un ea den LAN Sp et To Dante ile des 109 5 1 1 Probl matique de rosion 110 5 1 2 Bases de donn es sur l rosion 110 5 2 Sc nario de d couverte de connaissances 112 52 1 Pretraitement yog mus dei on Seno x erre Pe Ee Ye 113 Table des mati res 5 2 2 Extraction des r gles de caract risation OVE 5 2 3 Construction d un mod le pr dictif 5 2 4 Estimation de l al a rosion Oia DISCUSSION 4 4 7 2 48 Shh Sel patine EE xis V Conclusion amp Perspectives Appendice Description des donn es d exp rimentation Appendice Preuves Appendice Manuel de fitcare xiv 129 131 133 Table des figures 1 1 2 1 2 2 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 Processus d extraction de connaissances dans les donn es Processus de classification supervis e e
108. emi res d finitions de I et des OVE CRs voir d finition 18 utilise des seuils relatifs L initialisation ainsi que les autres tapes sont pr sent es avec des seuils absolus car la diminution des de certains param tres se fait de 1 en 1 i e correspondant 1 objet La conversion de fr quence absolue en fr quence relative est triviale et ne change rien au bon d roulement des diff rentes tapes tape 2 Recherche de la couverture maximale pour chaque classe c en partant de la i ligne de param tres fitcare recherche les param tres qui procurent le meilleur taux de couverture possible pour T Cette recherche se fait en diminuant y de la plus petite unit possible i e 1 objet en absolu tant que la couverture maximale n est pas atteinte et s arr te d s qu elle est atteinte Noter que pour respecter la contrainte Cygne les Jij Sont diminu s en cons quence A chaque fois que est diminu il y a extraction avec l algorithme 9 Dans l id al le meilleur taux atteindre est 10096 Toutefois dans certaines 95 Vers une solution pour les classes in galement distribu es bases de donn es contenant du bruit de classe i e certains objets sont mal class s il peut se r v ler impossible de couvrir enti rement une classe c tout en respectant Cyigne C est pourquoi dans ces cas l lors de cette tape on pourra d cider d un taux de couverture inf rieur 10096 en pratique on gardera le meilleur
109. emsets fr quents nous pouvons nous int ress s uniquement aux itemsets fr quents contenant un attribut classe Pour ce faire il suffit d initialiser l ensemble des candidats C1 C l ensemble des classes Ainsi les itemsets fr quents g n r s par la suite contiendront un attribut classe Ensuite pour la g n ration des r gles d association de 24 1 2 M thodes base de r gles classe les candidats cons quents de r gles sont restreints aux attributs classe Si deux r gles ont le m me corps mais concluent sur deux classes diff rentes le conflit est r solu par les valeurs de confiance la r gle la plus confiante est gard e Dans la suite nous d crivons deux approches pionni res de classification supervis e bas es sur les r gles d association valides CBA et CMAR LHM98 LHPOI Toutes deux proc dent selon le m me sch ma tout d abord l ensemble des r gles d association valides est extrait puis les r gles redondantes et les moins int ressantes sont retir es de cet ensemble Enfin partir de cet ensemble post trait un classifieur est construit La m thode CBA Classification Based on Associations Introduite dans LHM98 CBA utilise un algorithme de type APRIORI pour extraire les r gles d association de classe valides en fonction de deux seuils de fr quence min freq et de confiance min conf A chaque r gle extraite 7 X cj CBA teste si le taux d erreur pessimiste Qui93 de 7 est sup rieu
110. emsets fr quents wine 0 7 0 7 0 6 1 0 6 j 0 5 1 0 57 4 S 7 5 E E E 04 i d 1 E 4 E Eolo d H 1 i o J T o amp p RO X oO 0 2 og T 3 J 4 f sap foe 3 i O17 i LOI Poi 1 J H TE i foi oc E es oi E LOEO d a S 0 1 2 3 4 6 7 9 10 11 12 13 14 50 60 70 80 90 100 110 120 5 8 Taille des itemsets k Fr quence FIGURE 3 Gain d information des itemsets en fonction de leur taille et de leur fr quence pour les donn es wine Bien qu il soit important de diff rencier l extraction de r gles d association du calcul de r gles pour la classification supervis e Fre00 on sent bien que sous certaines conditions une r gle d association qui conclut sur un attribut classe peut tre utile pour construire un mod le de classification Les pionniers en la mati re LHM98 se sont donc int ress s l ensemble des r gles d association concluant sur un attribut classe et respectant des seuils de fr quence et de confiance minimum L ensemble des r gles extraites est ensuite ordonn e sous forme de liste selon leur valeur de confiance et de fr quence Cet ensemble ordonn forme le mod le de classification Ainsi la premi re r gle de la liste support e par un nouvel exemple entrant t indique la classe pr dire pour t Depuis d autres classifieurs associatifs ont t d velopp s LHPO1 YH03 WK025 Nous reviendrons en d tails sur ces m thodes dans la se
111. en appendice nous montrons que la contrainte C j nous permet d viter ce probl me de conflits de corps de r gles Proposition 3 Soit S l ensemble des OVE CRs dont les corps respectent les seuils de fr quence et d infr quence d une matrice I et les contraintes Crigne et Ccolonne Alors S est sans conflit de corps de r gles i e il n existe pas deux r gles v X cj etn Y c telles que Y C X et j Fi Dans la suite nous d crivons techniquement comment partir d une base de donn es r extraire l ensemble S U S des OVE CRs o Se est l ensemble des OVE CRs qui 91 Vers une solution pour les classes in galement distribu es concluent sur la classe c respectant les contraintes de fr quence et d infr quence d une matrice I donn e et les contraintes Cygne et Ceotonne et tel que S est sans conflit de corps de r gles Cet ensemble S constituera notre ensemble de r gles int ressantes pour la classification supervis e 4 2 3 Extraction L extraction des r gles de caract risation OVE est effectu e classe par classe Soit c C une classe l extraction complete de l ensemble Se des OVE CRs qui concluent sur c se fait en fonction des param tres de la ligne de la matrice de param tres I est le seuil de fr quence minimum relatif la classe c et les 7 sont les seuils de fr quence maximum relatifs aux classes c j i L espace de recherche des OVE CRs est partiellement o
112. ent bien class s par S Toutefois i toute l information sur l int r t des r gles est perdue iz le fait qu un objet soit couvert par plusieurs r gles n est pas pris en compte et iii maximiser la pr cision sur la base d entrainement peut conduire un sur apprentissage Dans notre approche fitcare nous proposons de maximiser les taux d accroissement globaux tant donn es deux classes ci c5 C le taux d accroissement global g c cj mesure la confusion avec c lorsqu on classifie les objets de Ze et est d fini comme suit 3 to t To 3 U t c t To g ci cj Ainsi plus g c c est grand moins il y a de confusion Cette mesure a l avantage de prendre en compte l int r t de toutes les r gles de S support es par des objets de Te et aussi de mettre en rapport les ressemblances des objets de 7e avec les classes c et cj A partir de S extrait en fonction de I fitcare calcule toutes les confusions entre les classes soit n n confusions fitcare tente de maximiser le taux minimal d accroissement global Si aucune am lioration n est possible fitcare tente de maximiser le deuxi me plus petit taux sans diminuer le plus petit et ainsi de suite Choisir le bon param tre modifier Soit g c c la plus grande confusion i e le taux d accroissement global minimal de c par rapport c g c c est donc la mesure optimiser Pour esp rer am liorer g c c il nous faut dimin
113. ercast 81 15 FALSE yes tia rainy 71 91 TRUE no TABLE 3 1 Base de donn es exemple weather Le probl me est d apprendre un mod le pr dictif pour nous aider d cider si on va pouvoir jouer au tennis en fonction d une nouvelle situation m t orologique Pour traiter les attributs continus comme temperature et humidity C4 5 utilise une m thode de discr tisation bas e sur l entropie Il en r sulte un attribut cat goriel dont chaque valeur d crit un intervalle de valeurs de l attribut Apr s application de l algorithme C4 5 gr ce la plateforme WEKA WF05 l arbre r sultat est repr sent en figure 3 1 Noter que tant la racine de l arbre l attribut outlook est le plus discriminant pour la classe selon le gain ratio sunny overcast rainy lt 75 gt 75 TRUE Es xD EE FIGURE 3 1 Arbre de d cision C4 5 pour les donn es weather 55 Construction de descripteurs base d itemsets libres Nous avons vu que les itemsets fr quents peuvent contenir plus d informations discri minantes pour la classe que les items singletons attributs L id e est d utiliser les item sets fr quents discriminants pour la classe au lieu des attributs simples pour construire un nouveau type d arbre de d cision Toutefois l ensemble des itemsets fr quents peut tre tr s grand et contenir des l ments moins int ressants ou redondants par rapport d autres Dans le chapitre 2 nous
114. es disjonctives pour segmenter les donn es Enfin PDT est un algorithme r cursif lignes 9 et 12 et est donc lanc avec l arbre vide et le contexte binaire r de d part 59 Construction de descripteurs base d itemsets libres Algorithme 7 PDT Construction d arbre de d cision base de motifs 10 11 12 13 14 Entr e r 7 Z R un contexte binaire C 61 62 Cp l ensemble des classes S l ensemble des itemsets y fr quents 0 libres dont la d fermeture contient une classe AD l arbre de d cision courant Sortie PDT l arbre de d cision r sultat begin NoeudCourant AD racine if EstTerminal NoeudCourant then Affecter une classe au NoeudC ourant else a arg Baron selon la mesure d int r t m Tjauche t E T t couv a r Tgauche A PE R AD filsGauche 6 PDT Trgauche C S 6 0 Tarot t T t couv a r Tdroit SILET HR RE AD filsDroit 6 PDT raroit C S 5 0 PDT AD end 60 3 2 Arbre de d cision base de motifs Revenons notre exemple weather La figure 3 2 rapporte une version discr tis e et binaire de la base exemple weather Pour notre exemple nous avons s lectionn les objets t4 et tg comme objets test le reste servant de base d apprentissage Consid rons les param tres de fr quence minimum et de nombre d erreurs maximum permises suivants y 2 et 6 0 L ensemble des r gles fortes m J c concluant
115. es libres pour notre probl me de classification supervis e En effet il suffira un nouvel objet t de respecter les propri t s d un itemset libre pour tre consid r comme similaire aux objets d crits par tous les itemsets de la CEC dont fait partie l itemset libre 57 Construction de descripteurs base d itemsets libres Toutefois de tels motifs peuvent tre rares dans des cas r els de donn es imparfaites ou l g rement bruit es Pour introduire un peu de souplesse dans notre processus nous parlerons ici de r gles fortes et de classes d quivalence de fermeture D finition 14 Classe d quivalence de fermeture Deux itemsets I et J sont dits quivalents par rapport l op rateur de fermeture cls on note I a J si et seule ment si cls I r cls J r Ainsi une classe d quivalence de fermeture 6 CEC est compos de tous les itemsets qui ont la m me 6 fermeture Lorsque 6 0 les CECs sont bien s r des CECs De la m me mani re qu avec les CECs les l ments minimaux des d CECs sont des libres et il est possible de d river des r gles fortes entre un itemset libre et chaque l ment de sa fermeture Encore une fois le cas int ressant est lorsqu un ou plusieurs itemsets libres ne contiennent pas la classe qui est un l ment de leur fermeture Ainsi nous pouvons d river des r gles fortes qui concluent sur un attribut classe Bien sur le param tre 6 influe f
116. es zones d rosion par pr diction avec fitcare sur le bassin Ce MID VAC Bis S vous D TE os c Ae 5 6 Cartographie des zones d rosion par pr diction avec fitcare sur le bassin del Ouenghi ersa oe patani e ie qe de awe bp tare PARE aq 5 7 Estimation de l al a rosion pour le bassin dela Dumb a 5 8 Estimation de l al a rosion pour le bassin dela Ouenghi 5 9 Effet poivre et sel sur une partie zoom e du bassin de la Dumb a 5 10 Table de contingence pour la regle X c concluant sur un attribut classe Cure ue aem Stt Rob Ses et tori P t a ths NE attore bod a ek A Oe Ea RR stie Liste des Algorithmes 1 Algorithme de couverture s quentielle 17 2 FOIL ApprendreRegle i an e o 20a ee ee Ble sh TOME Su S ph ete y 18 3 RIPPER ApprendreRegle 4 o amp jan ug Seek ue Neve HER CX EHE Be es 19 4 CPAR ApprendreRegle 3 5 sr ace dex Rede x yw PT REIS 21 5 APRIORI ages eee zh ii a aes Se Wee pe RSS eed une edt e iere 24 6 Algorithme g n rique de construction d arbre de d cision 54 7 PDT Construction d arbre de d cision base de motifs 60 8 FC construction de descripteurs bas s sur les motifs 72 9 EXTRACT i Series des asco ate i a etri late ee 93 EE soo PC Tr r 100 xvii xviii Premi re partie Introduction Introduction Ce manuscrit pr sente nos travaux de recherche sur l exploitation de motifs
117. etite sera la plus pr cise et celle qu on choi sira en pratique sera issue de la plus petite valeur de fr quence des itemsets y fr quents 6 libres inclus dans J Notons que l erreur commise lors de l approximation est facteur de et est petite en pratique BBR03 De plus lorsque 0 les fr quences d duites sont exactes Si F y 0 r nous permet d approximer la fr quence de tous les itemsets y fr quents non libres cela ne nous permet pas de dire si un itemset est y fr quent Pour y rem dier nous utilisons l ensemble des itemsets non fr quents libres minimaux en plus de F y r 35 Repr sentations condens es des itemsets fr quents Notons tout d abord que la propri t de 6 libert est anti monotone en effet par contra pos e si un itemset X n est pas libre alors il existe une r gle d association forte valide entre deux de ses sous ensembles et qui sera aussi valide dans tout sur ensemble Y 2 X Nous pouvons donc d finir la bordure n gative de F 7 0 r comme suit Bd F 7 6 r 1 PZ Fy 6 7 VV E PX J CIS J F y 5r Les l ments de Bd IF 0 r sont ou non fr quents ou non libres Donc si l on note F r l ensemble des itemsets libres alors les l ments de Bd IF r QF r sont des itemsets non fr quents libres et les itemsets minimaux de cet ensemble nous per mettent de d terminer si un itemset J est fr q
118. ets fr quents N DI Rep bas e sur les itemsets d rivables et les r gles de d duction de la mani re 39 Repr sentations condens es des itemsets fr quents suivante NDIRep r y frea 1 7 freal r gt y LB I ZUB I Gr ce NDI Rep pour tout itemset I C Z il est possible de savoir si J est fr quent ou non et s il est fr quent il est possible de d terminer sa valeur de fr quence Consid rons un itemset NDI Rep I est soit infr quent soit d rivable ou encore les deux Apr s calcul de LB I et UB I si LB I A U B I alors I n est pas fr quent sinon J appartiendrait NDI Rep Si LB I UB I alors I est d rivable et freq I r LB I UB I Toutefois pour calculer les bornes pour J il est n cessaire de connaitre la fr quence de tous les sous ensembles de J Premi rement nous calculons les bornes des sous ensembles de J qui sont dans la bordure n gative de N DI Rep d finie comme suit Bd NDIRep r y 1 e P L NDIRep r y V E P Z Jc I Je NDIRep r vy Si l un d eux est infr quent alors sera infr quent aussi Dans le cas contraire nous connaissons les valeurs de fr quence de tous les sous ensembles de qui sont dans Bd NDIRep r y De la m me mani re nous pouvons calculer les bornes pour les sous ensembles de J qui sont juste au dessus de Bd N DI Rep r et ainsi de suite jusqu ce que les fr quences de tous les sous ensembles de J soient connus ou qu un des
119. eurs base d itemsets libres 51 dob ntrod clion 3 4 LE SU LASER be eite epic s e oido a 51 3 2 Arbre de d cision base de motifs s ey Ay ene RE XR HERE OE EE 52 3 2 1 Principe des arbres de d cision 53 3 2 2 R gles fortes et classes d quivalence 56 3 2 8 0 PDT un arbre de d cision base de r gles fortes 58 3 2 4 Param trage du processus et validation 62 229 ADISCUSSION coe em ok ake pees Cn ae Ne Behe 66 3 3 Processus g n rique de construction de descripteurs 66 3 4 Vers de nouveaux descripteurs num riques 71 3 4 1 Nouveau codage num rique des descripteurs 71 3 4 2 Param trage et validation dans les contextes bruit s 73 xii Table des mati res mu Discussion et limites uoce mue a v RUP vo tg egt ce ud eR e 81 4 Vers une solution pour les classes in galement distribu es 85 4 1 Introduction et probl matiques 42 455 bote Sh ale RED RD RAS 85 HET Conte te g n ral s scrisa ena d S ey a din a eee ane a re roe 85 AE Exemple motivant Ju uim iod prd t e EG canc SRS dante ies 87 4 2 Vers une approche OVE aou Me 3 sS XXI ES umque 89 4 2 1 Matrice de seuils et r gles de caract risation OVE 90 4 2 2 Contraintes entre param tres 90 42s Extractions s te en te Gee pe Erates durae x hod 92 200 GC DSSROUO deck Ze es We sa eh i eh Gk GE
120. eut le moins les libres sont ici pr f r s aux ferm s Approche par classe Pour les approches par classe consid rons sans perte de g n ralit un probl me deux classes c1 c3 Dans un tel contexte l quivalence entre libres et ferm s par rapport aux mesures d int r t bas es sur la fr quence ne tient plus En effet l approche par classe suit l intuition suivante soit Y un itemset libre dans re et X cl Y re son ferm L itemset ferm X est consid r comme plus pertinent que Y ou tout autre itemset de la CEC pour caract riser c car Objets X r Objets Y re et Objets X r Objets Y r Dans CYHHO07 les auteurs se contentent des item sets ferm s pour caract riser c D autre part dans GKLO06 pour caract riser c les auteurs choisissent les itemsets ferm s X cl X ra tels qu il n existe pas d autre ferm X cl X r pour lequel cl X r cl X r Bien s r dans certains cas un item set libre peut tre quivalent son ferm X cl Y ra c est dire Objets X r Objets Y re Dans ces cas l pour les m mes raisons que pr c demment le libre sera pr f r Noter tout de m me que dans cette approche la pertinence des itemsets ferm s ne permet pas d viter de g n rer des r gles conflictuelles En effet il est possible d avoir deux itemsets ferm s X et Y pertinents pour c et co respectivement alors que X C Y Ainsi le dilemme du choix entre libres e
121. f rer la fr quence des item sets am liore consid rablement les performances d extraction Plusieurs repr sentations condens es bas es sur ces id es ont t propos es Elles peuvent tre bas es sur des itemsets particuliers des classes d quivalence comme par exemple les itemsets ferm s l unique maximal au sens de l inclusion d une classe d quivalence ou bien les itemsets cl s ou libres les minimaux d une classe d quivalence Nous renvoyons le lecteur CRB05 pour une synth se sur cette question Puisque les itemsets d une m me classe d quivalence ont la m me fr quence ils ont aussi la m me valeur d int r t pour toute mesure d int r t bas e sur la fr quence Pour viter de la redondance un seul itemset par classe d quivalence peut tre retenu Le choix d un tel itemset repr sentant pour la classification supervis e a t beaucoup discut Certains auteurs sugg rent les itemsets ferm s GKL06 CYHHO07 d autres les itemsets libres BC04 LLW07 Il nous a sembl important de mieux comprendre les argumentaires des uns et des autres et d apporter notre tour quelques l ments de r ponse sur cette question voir chapitre 3 Classification supervis e dans les donn es bruit es Il est admis que les donn es d entr e sont rarement parfaites Souvent la collection des donn es reste probl matique et impr cise les tapes de discr tisation peuvent produire des codages Bool ens re
122. fication Journal of Machine Learning Research 2 721 747 2002 Johannes F rnkranz and Gerhard Widmer Incremental reduced error pru ning In CML 94 pages 70 77 1994 Rohit Gupta Gang Fang Blayne Field Michael Steinbach and Vipin Kumar Quantitative evaluation of approximate frequent pattern mining algorithms In KDD 08 Proc of the 14th SIGKDD Int Conf on Knowledge Discovery and Data Mining pages 301 309 ACM Press 2008 Gemma C Garriga Petra Kralj and Nada Lavrac Closed sets for labeled data In Proceedings PKDD 06 pages 163 174 Springer 2006 Bibliographie GKLOS GMTO05 GRM 07 GSBO7 GSB08 GSB09 GSW05 GZ03 GZ04 HC06 HK00 HPY00 JL95 KGO2 Gemma C Garriga Petra Kralj and Nada Lavrac Closed sets for labeled data Journal of Machine Learning Research 9 559 580 2008 Bart Goethals Juho Muhonen and Hannu Toivonen Mining non derivable association rules In SIAM DM 05 2005 Dominique Gay Isabelle Rouet Morgan Mangeas Nazha Selmaoui and Pas cal Dumas Assessment of classification methods for soil erosion risks In MODSIM 07 2007 Dominique Gay Nazha Selmaoui and Jean Francois Boulicaut Pattern based decision tree construction In Proceedings of the 2nd International Conference on Digital Information Management ICDIM 07 pages 291 296 IEEE Press 2007 Dominique Gay Nazha Selmaoui and Jean Fran ois Boulicaut Feature
123. g classification rules for characterizing chemical carcinogens In Proceedings Predictive Toxicology Challenge co located with PKDD 01 2001 143 Bibliographie BC04 BFOS84 BGZ04 Bir67 BM70 BMR0 BMS97 BPRB06 BRO1 BRO3 BRBO5a BRBO5b BRB06 BRBRO5 BRMO5 144 Elena Baralis and Silvia Chiusano Essential classification rule sets ACM Transactions on Database Systems 29 4 635 674 2004 Leo Breiman J H Friedman R A Olshen and C J Stone Classification and Regression Trees Wadsworth 1984 Roberto J Bayardo Bart Goethals and Mohammed Javeed Zaki editors IEEE ICDM 04 Workshop on Frequent Itemset Mining Implementations vo lume 126 of CEUR Workshop Proceedings CEUR WS org 2004 Garrett Birkhoff Lattice Theory American Mathematical Society 1967 Marc Barbut and Bernard Monjardet Ordre et Classification Alg bre et Combinatoire Hachette 1970 James Bailey Thomas Manoukian and Kotagiri Ramamohanarao Fast al gorithms for mining emerging patterns In PKDD 02 pages 39 50 2002 Sergey Brin Rajeev Motwani and Craig Silverstein Beyond market baskets Generalizing association rules to correlations In SJGMOD 97 pages 265 276 ACM Press 1997 J r my Besson Ruggero G Pensa C line Robardet and Jean Frangois Bou licaut Constraint based mining of fault tolerant patterns from boolean data In KDID 05 Selected and Invited Revis
124. grettables ou encore l tiquetage des donn es d apprentissage valeur de l attribut classe sera sujet caution En classification supervis e la pr sence de bruit peut avoir un impact n gatif sur la performance des classifieurs et par cons quent sur la pertinence des d cisions prises avec ces mod les ZW04 On peut identifier deux types de bruits dans des donn es binaires le bruit de classe lorsque le bruit affecte l attribut classe et le bruit d attributs lorsque le bruit affecte uniquement les attributs non classe Le bruit de classe a t intensivement tudi dans la litt rature Le probl me du bruit d attribut reste insuffisamment tudi Si les m thodes de traitement du bruit de classe suivant le processus d tection correction d l tion am liorent la performance des classifieurs rien n est garanti lorsqu on est face au bruit d attribut En effet corriger les valeurs des attributs soi disant d tect s ne nous rend pas des donn es parfaites et supprimer les attributs ou transactions bruit s peut conduire une perte inacceptable d information Ainsi la performance des classifieurs est d t rior e Dans ce manuscrit nous nous int ressons au probl me de la classification supervis e bas e sur les motifs en pr sence de bruit d attribut Dans un tel contexte le nombre d itemsets ferm s explose car les motifs ferm s que nous devrions avoir en l absence de bruit deviennent fragment s De fait les motifs
125. gt p pour un p gt p donn Si a et b ne sont pas v rifi s et s n est le sur ensemble d aucun itemset s de 57 alors on ajoute s dans S7 Enfin pour un nouvel objet t CAEP prend en compte tous les EPs qui couvrent et calcule le score suivant pour chaque classe c T A s r scoreE P t c X me x fredr s Toi seS sCt 1 EP est le sigle de Emerging Pattern pour motif mergent en anglais 27 Usage multiple des motifs locaux en classification supervis e Enfin apr s normalisation des scores la classe obtenant le plus haut score est la classe pr dire pour t La m thode JEPC Jumping Emerging Patterns based Classifier Introduit dans LDROOb LDROI JEPC se focalise sur les JEPs ces itemsets qui n apparaissent que dans une seule classe des donn es L extraction des bordures pour les JEPs se fait de la m me mani re qu avec CAEP Toutefois ici la post s lection des JEPs ne se fait plus en fonction de T A puisque les JEPs sont quivalents par rapport T A mais en fonction de leurs fr quences Ainsi les JEPs forte fr quence sont pr f r es et forment l ensemble des JEPs les plus expressifs pour une classe c MEJEP r ceux ci se trouvent sur les bordures des infr quents minimaux construites lors de l extraction Enfin pour un nouvel objet t JEPC calcule pour chaque classe c un score repr sentant l impact collectif des JEPs qui couvrent t selon la formule suivante ImpactCol
126. i Ainsi chaque bit indique si l objet correspondant est couvert par X 1 ou non 0 et un simple ET bit a bit rend efficace le calcul des vecteurs de bits des niveaux sup rieurs vecteurs de bits de child De plus pour stocker les forbiddenPrefixes nous utilisons une structure d arbre de pr fixes qui a d j fait ses preuves en terme d efficacit dans les algorithmes par niveaux 92 4 2 Vers une approche OVE Algorithme 9 EXTRACT Entr e r 7 Z R un contexte binaire c C c1 C2 Cp une classe Yi seuil de fr quence minimum pour la classe cj y Seuils de fr quences maximum pour les classes c j 7 i Sortie Se l ensemble des r gles de caract risation OVE pour c 1 forbiddenPrefixes 2 parents 0 3 while parents do 4 futureParents 5 for all parent parents do 6 forbiddenAtts FORBIDDENATTS forbiddenPrefixes parent 7 for all attribute gt LASTATTRIBUTE parent do 8 if attribute forbiddenAtts then 9 child CONSTRUCTCHILD parent attribute 10 if f child gt yii then 11 if INTERESTING child then 12 output child cj 13 INSERT child forbiddenPrefixes 14 else 15 l futureParents futureParents U child 16 else 17 INSERT child forbiddenPrefixes 18 parents parents parent 19 parents futureParents 4 2 4 Classification Soit t 7 un nouvel objet entrant la classe pr dire pour t e
127. i procurent une meilleure description des objets d apprentissage afin d am liorer les performances de pr diction des classifieurs appris Dans la litt rature les premieres approches se focalisent sur les arbres de d cision Originalement uni vari s i e un seul attribut par noeud les 51 Construction de descripteurs base d itemsets libres arbres de d cision deviennent alors multi vari s i e plusieurs attributs sont pris en compte dans un noeud par diverses m thodes par exemple un noeud peut tre compos d une combinaison lin aire d attributs UB90 BU95 Si les r sultats de pr cision sont meilleurs l arbre de d cision perd grandement en interpr tabilit Depuis les ann es 90 AIS93 l extraction de motifs fr quents est une des t ches phare de la fouille de donn es Itemsets fr quents et r gles d association repr sentent certaines tendances ou associations entre sous ensembles d attributs dans les donn es Dans le cha pitre pr c dent nous avons vu que leur extraction est facilit e via les repr sentations condens es et dans le chapitre pr sent nous proposons une m thode de construction de nouveaux descripteurs bas s sur les itemsets y fr quents 6 libres Dans un premier temps nous int grons notre m thode dans la construction d arbres de d cision dont nous rap pelons le principe afin d obtenir un arbre de d cision d PDT plus performants en terme de pr cision sans pour autant perdre en interp
128. ia tion rules between sets of items in large databases In Proceedings ACM SIGMOD 93 pages 207 216 1993 Arthur Asuncion and David Newman UCI machine learning repository 2007 http archive ics uci edu ml Rakesh Agrawal and Ramakrishnan Srikant Fast algorithms for mining as sociation rules in large databases In Proceedings VLDB 94 pages 487 499 Morgan Kaufmann 1994 Roberto J Bayardo Efficiently mining long patterns from databases In ACM SIGMOD 98 pages 85 93 1998 Jean Frangois Boulicaut and Artur Bykowski Frequent closures as concise representation for binary data mining In Proceedings 4th Pacific Asia confe rence on Knowledge Discovery and Data mining PAKDD 00 volume 1805 of LNCS pages 62 73 Springer 2000 C line Becquet Sylvain Blachon Baptiste Jeudy Jean Frangois Boulicaut and Olivier Gandrillon Strong association rule mining for large gene expres sion data analysis a case study on human SAGE data Genome Biology 12 2002 Jean Frangois Boulicaut Artur Bykowski and Christophe Rigotti Approxi mation of frequency queries by means of free sets In Proceedings PKDD 00 volume 1910 of LNCS pages 75 85 Springer 2000 Jean Frangois Boulicaut Artur Bykowski and Christophe Rigotti Free sets A condensed representation of boolean data for the approximation of fre quency queries Data Mining and Knowledge Discovery 7 1 5 22 2003 Jean Frangois Boulicaut and Bruno Cr milleux stron
129. ia soe ko RR RUE XR RO OR 93 4 3 Param trage automatique avec fitcare 94 4 8 4 Hill climbing principe 94 4 8 2 Hill climbing et fitcare 94 4 4 Validation exp rimentale 100 4 5 Discussion et limites 105 4 1 Introduction et probl matiques 4 1 1 Contexte g n ral Lorsque les diff rentes classes de donn es ne sont pas galement fournies en nombre d objets on parle alors de probl mes aux classes in galement distribu es ou de donn es mal balanc es Souvent dans les cas r els les donn es deux classes sont compos es 85 Vers une solution pour les classes in galement distribu es d une grande proportion d objets dits normaux de la classe majoritaire et d une petite proportion d objets dits anormaux ou int ressants Une autre mani re de voir les choses est de consid rer que le co t de mal classer un objet anormal comme objet normal est bien plus lev que l inverse Au vu des ateliers sp cialis s CJK04 le probl me des classes disproportionn es a t un probl me tr s tudi ces derni res ann es et est toujours d actualit CJZ09 Les approches les plus communes utilisent le principe d chantillonnage soit l on consid re un sous chantillonnage des objets de la classe majoritaire soit l on consid re un sur chantillonnage de la classe minoritaire les deux approches ayant pour
130. il a t d montr que l ensemble des r gles fortes fait fi de certains types de conflits de classification En effet si lt y 2 l ensemble des r gles fortes ne peut contenir deux r gles 7 I cj et m J cj telles que I C I de cette mani re on vite des conflits dits d inclusion de corps de r gles Ainsi l ensemble des r gles fortes de caract risation de classes sont les r gles fortes de corps minimal qui concluent sur un attribut classe et qui ne g n rent pas de conflits de classification Cet ensemble est le centre du classifieur d velopp dans BC01 CB02 et appliqu la pr diction dans des donn es sur le cancer Plus tard dans BC04 les auteurs exploitent les propri t s de condensation et de non redondance des itemsets 0 libres pour d finir un ensemble de r gles essentielles i e un ensemble minimal de r gles ayant le m me pouvoir de classification que l ensemble complet de r gles de classification Par d finition une r gle m I c est essentielle si et seulement si J est 0 libre Cette formalisation des r gles essentielles permet un gain en terme de performance la fois dans la phase d extraction des r gles et dans la phase de post traitement dans les techniques de classification associatives telles que CBA CMAR 2 6 Discussion Enfin la figure 2 2 r sume bien le sch ma de pens e de certains chercheurs qui est aussi le notre comme les principales t ches de
131. ion condens e approximative des itemsets fr quents au fil des ann es qui suivirent les itemsets libres se sont trouv s de multiples usages dans diverses t ches de fouille de donn es L application la plus connue des itemsets libres est certainement la d rivation de r gles d association fortes qui se montrent plus pertinentes que les r gles d asso ciation classiques dans les donn es denses et fortement corr l es Par dela les r gles fortes les itemsets libres ont aussi servi comme base pour construire un nouveau type de motif tol rant aux fautes les 6 bi ensembles BPRB06 qui se r v le pertinent dans les bases de donn es bruit es A1 Repr sentations condens es des itemsets fr quents Dans PB05 PRBO6 les bi ensembles sont aussi utilis s pour fournir une descrip tion de groupements d objets et d items issus de t ches de co classification Enfin deux approches de classification associative CB02 BC04 bas es sur les item sets 0 libres ont aussi vu le jour Dans cette section nous passons en revue les principaux usages des itemsets libres en fouille de donn es avant d ouvrir sur un nouvel usage pour la classification supervis e que nous pr sentons comme contribution au chapitre 3 2 5 1 R gles d association fortes De part la d finition des itemsets libres il est clair que les notions d itemset 6 libre et de r gle forte sont li s D un point de vue
132. ion de l rosion des sols en Nouvelle Cal donie Pixels 100 200 300 400 500 600 700 Pixels FIGURE 5 7 Estimation de l al a rosion pour le bassin de la Dumb a 700 100 200 300 400 Pixels 100 200 300 Pixels 400 500 600 FIGURE 5 8 Estimation de l al a rosion pour le bassin de la Ouenghi 120 5 3 Discussion en fait des pixels isol s La figure 5 9 donne un exemple de cet effet Ces pixels n ont a priori pas de signification int ressante selon les experts Nous pensons que c est prin cipalement d deux raisons i la couche des sols rod s non rod s est issue d une segmentation et pr sentait d j cet effet poivre et sel typique des m thodes de segmen tation ii La nature m me des donn es i e des grilles de pixels et donc la pr diction de classe pour des pixels sont aussi connues pour tre sujettes l effet poivre et sel Si une premi re solution peut consister en un post traitement pour liminer les pixels isol s une autre solution serait de consid rer des couches de donn es segment es en zones plus significatives que de simples pixels Ainsi un objet de notre base ne serait plus un pixel mais une zone groupement de plusieurs pixels obtenue par segmentation 180 200 220 240 260 280 FIGURE 5 9 Effet poivre et sel sur une partie zoom e du bassin de la Dumb a 121 Caract risation de l rosion des sols en Nouvelle Cal do
133. ion des donn es offerte par FC nous permet d obtenir de meilleurs r sultats de pr cision Toutefois pour FC NB les r sultats doivent tre contrast s Les r sultats montrent que NB est naturellement plus r sistant au bruit que les autres classifieurs classiques donc les r sultats de FC NB sont moins impressionnants Pour un haut niveau de bruit dans les donn es les r sultats en moyenne sont m me moins bons surtout lorsque nous ne disposons pas d une bonne valeur de y Nous avons reproduit des r sultats de classification pour HARMONY en utilisant la m me validation crois e pour une comparaison plus judicieuse Comme conseill par les auteurs 79 Construction de descripteurs base d itemsets libres 100 Pr cision d entra nement 96 tic tac toe bruit 20 tic tac toe bruit 30 100 95r 90r 85r 80r Pr cision d entra nement 96 75 EB 140 75 gt 40 35 35 70 30 70 d 130 65 L L L L L i L L J 6 L L L L i L L L i i L n 0 5 6 7 8 9 10 11 12 13 0 1 2 3 4 5 St 8 9 10 11 12 13 tic tac toe bruit 40 tic tac toe bruit 50 100 95 95r 90r 85r 80r NI a 75r H 140 Pr cision d entra nement Pr cision d entra nement oo o 8 40 2 135 135 70 4 1590 Ter 130 25 25 9S0 1 2 3 4 5 6 7 8 9 10 11 12 18 90 1 2 3 4 5 6
134. ires et donc un arbre de d cision binaire lignes 7 12 Noter que dans certaines CECS il est possible de d river plusieurs r gles fortes qui concluent sur la m me classe Par d finition d une 6 CEC ces r gles concernent peu pr s les m mes objets de la base car leur corps est un itemset libre d une m me 0 CEC Un nouvel objet t sera consid r comme similaire aux objets d crits par les itemsets d une CEC s il respecte les propri t s d un des itemsets 0 libres Si la segmentation binaire se fait sur un des itemsets 0 libres disons J d une 6 CEC et que t respecte les propri t s d un autre itemset J de cette d CEC mais pas celles de J il ne sera pas consid r comme similaire aux objets de Objets I r Pour viter ce d sagr ment nous proposons d utiliser des r gles fortes au corps disjonctif D finition 15 R gles fortes disjonctives Soit C une classe d quivalence de 6 fermeture dont certains itemsets 6 libres I L 1 ne contiennent pas d attribut classe et dont la fermeture contient l attribut classe c L unique r gle 6 forte disjonctive de C qui conclut sur c est de la forme m I4 V I3 NV V Ip gt c Noter que la fr quence du corps d une telle r gle forte disjonctive est freq I V I5 V V Ip r Utt Objets I r ce qui nous permet d tendre facilement le calcul du gain d information et du gain ratio pour les r gles fortes disjonctives 6 PDT utilisera donc des r gl
135. issement des itemsets D autre part les approches bas es sur les r gles d association valides comme les ap proches bas es sur les EPs sont des approches de type OVA dans le sens o les motifs extraits caract risent une classe par rapport au reste de la base Bien que les m thodes base d EPs prennent en compte d une certaine maniere la distribution des classes elles ne tiennent pas compte de la r partition des erreurs des EPs dans les diff rentes classes du reste de la base Ainsi un EP pour une classe c peut tre corr l positivement avec une classe c j i ce qui peut g n rer des incoh rences et des conflits entre motifs dans les probl mes multi classes distributions in gales Dans le chapitre 4 nous nous attaquons ce probl me et proposons une approche OVE o la r partition des erreurs dans les diff rentes classes est prise en compte 29 Usage multiple des motifs locaux en classification supervis e 30 Chapitre 2 Repr sentations condens es des itemsets fr quents Sommaire 2 1 Th ories bordures et repr sentations condens es 31 2 2 Les itemsets ferm s 5 222 922 x ce oe m are ne 34 2 3 Les itemsets libres 35 2 4 Autres repr sentations condens es 37 2 4 1 Les itemsets V libres 37 2 4 2 Les itemsets non d rivables 38 2 4 3 Applications et discussion 41 2 5 Usag
136. l extraction compl te de l en semble des itemsets fr quents pour d river des r gles d association e g r gles fr quentes et confiantes De plus lorsque l extraction de r gles est malgr tout possible beau coup d entre elles m nent des conflits de r gles sont redondantes produisent du sur apprentissage et donc sont inutiles Les efforts de recherche de ces derni res ann es sur les repr sentations condens es des itemsets fr quents ont redonn espoir la classification associative autant en terme de performance d extraction que pour traiter les probl mes de redondance Dans BC01 CB02 les auteurs d veloppent une premi re approche de classification associative bas e sur les itemsets libres et les r gles fortes Dans cette approche le centre d int r t est les r gles fortes de la forme I c qui concluent sur un attri but classe tant donn qu une r gle forte a un nombre d exceptions born par 6 on peut d duire une borne inf rieure de la confiance des r gles fortes construites partir d itemsets libres Ceci est exprim dans la propri t suivante Propri t 2 Soit 7 I c une r gle 5 forte telle que I C T est un itemset y fr quent libre Alors conf n r gt 1 y Il est clair que pour des petites valeurs de par rapport y les r gles fortes sont de forte confiance proche de 1 En plus de cette propri t la notion de r gle forte
137. l i e une feuille ii s lectionner un test associer un noeud non terminal iii affecter une classe une feuille Nous formalisons la construction g n rique d un arbre de d cision par l algorithme 6 L arbre est initialis la racine vide qui est le noeud courant ligne 2 Si le noeud courant est terminal alors on lui affecte une classe ligne 6 Sinon successivement on choisit le meilleur attribut a Z qui maximise une certaine mesure d int r t discriminante pour l attribut classe ligne 8 Cet attribut sert de noeud test pour le noeud courant Puis les donn es sont segment es selon les valeurs de l attribut a et on applique le m me processus aux diff rents segments cr s ligne 9 jusqu obtenir un noeud terminal D autre part selon les m thodes il est possible d laguer les arbres i e liminer des sous arbres apr s construction afin de diminuer les erreurs commises par l arbre et r duire les effets de sur apprentissage dus une sur sp cialisation de l arbre construit CART BFOS84 ID3 Qui86 et son extension C4 5 Qui93 sont les m thodes de construction d arbres de d cision les plus connues Ils diff rent de part leur facon de traiter les trois points cl s cit s pr c demment mais aussi de leur m thode d lagage apr s construction Dans ce m moire nous nous int ressons plus particuli rement C4 5 i C4 5 d cide qu un noeud est terminal si tous les objets associ s au noeud sont
138. le d but des ann es 90 de nombreux chercheurs se sont int ress s la t che descriptive de l extraction de motifs fr quents Cet effort de recherche a mo tiv l tude de m thodes de classification supervis e qui produiraient des classifieurs ex exploitant de tels motifs Dans des donn es transactionnelles les motifs fr quents sont typiquement des sous ensembles d attributs itemsets dont le nombre d occurrences est significatif i ee sup rieur un seuil donn L ensemble des itemsets fr quents capture donc certaines tendances ou r gularit s dans les donn es L intuition serait que Ce qui est fr quent peut tre int ressant En classification supervis e ce que nous recherchons ce sont des m canismes qui sont discriminants pour l attribut classe Ainsi un motif sera int ressant s il s pare bien les objets qui le respectent de ceux qui ne le respectent pas au regard des tiquettes de classes disponibles La figure 3 confirme bien cette intuition Dans les deux graphiques pour la base de donn es UCI wine ANO7 nous repr sentons la valeur de gain d information pour chaque itemset en fonction respectivement de leur taille k et de leur fr quence Plus le gain d information pour un motif est grand plus ce motif est discriminant Nous voyons clairement que les plus grandes valeurs de gain d infor mation sont atteintes pour des valeurs de k Z 1 et des valeurs de fr quences diff rentes des extr mes Ainsi il ser
139. le le plus L valuation de cette ressemblance se fait via une fonction de similitude sim entre un bi regroupement CT C1 et un bi ensemble X Y d finie comme suit AAC FACE sim X Y Ck Ch IXUCZ YUCH k k Intuitivement sim mesure le rapport entre l aire d intersection des deux rectangles X Y et CT CI et l aire de leur union Le bi ensemble X Y est associ au bi regroupement CZ Cl qui maximise sim Puis afin de ne garder que les bi ensembles les plus perti nents seuls ceux dont les taux d exceptions relatifs aux objets er X C1 et aux colonnes ei Y Ci inf rieurs certains seuils p et z sont retenus Ces taux d exceptions sont d finis comme suit ri X z CE X _KHneYlu cil er X C1 F er Y Ci zu Y Exp rimentalement parlant dans les donn es bruit es les bi ensembles sont plus perti nents i e plus robustes au bruit pour la caract risation que les concepts formels De plus l ensemble des bi ensembles est significativement plus petit que l ensemble des concepts formels facilitant l interpr tation 45 Repr sentations condens es des itemsets fr quents 2 5 4 Classification supervis e Dans le chapitre 1 nous avons vu que les motifs fr quents e g r gles d association se r v lent tr s utiles en classification supervis e Un des probl mes majeurs des ap proches de classification associative vient de la difficult de
140. lecti f t ci 2 fred ire TEMEJEP rce AICt Le plus haut score obtenu indique la classe pr dire pour t Discussion Il existe d autres m thodes de classification base d EPs FR03 LDRW04 D autre part dans RF07 il est propos un r sum des diff rentes approches base d EPs Contrairement aux approches bas es sur les r gles d association valides les m thodes base d EPs par d finition du taux d accroissement tiennent compte d une certaine mani re de la r partition des classes Ainsi le cadre des EPs semble plus appro pri que le cadre fr quence confiance pour certaines t ches de classification difficiles o les classes sont disproportionn es Toutefois l extraction de l ensemble des EPs est une t che difficile Les premiers algorithmes se limitent aux y fr quents EPs DL99 ou aux JEPs LRD00 Plus tard dans ZDR00 BMR02 d autres algorithmes plus efficaces sont d velopp s pour am liorer l extraction des EPs Malgr tout l ensemble des EPs peut contenir des l ments moins int ressants que d autres et redondants C est pourquoi un post traitement est n cessaire Dans la phase de post traitement CAEP pr f re les EPs g n raux J fort taux d accroissement ou tr s fr quents plut t que leurs sur ensembles J D I JEPC quant lui pr f re les JEPs g n raux les plus fr quents Ainsi le probl me de la redondance est pris en compte en post traitement 1 4 Limites Nous avons iden
141. les fortes apparait comme une alternative l extraction de r gles d association classiques qui peut devenir impossible dans des contextes o le nombre d itemsets fr quents est gigantesque e g lorsque le seuil de fr quence est tr s bas et ou le nombre d attributs est relativement lev et ou les donn es sont tr s corr l es En effet l approche classique requiert la recherche et le calcul de la fr quence d au moins chaque itemset fr quent pour pouvoir ensuite g n rer des r gles d association valides i e de fr quence et confiance d passant des seuils donn s De plus m me lorsqu il est possible de g n rer l ensemble des r gles valides certaines de ces r gles sont redondantes On dit que 75 If J est redondante par rapport 71 l Ji si m1 et 7 sont deux r gles fr quentes de confiance proche et J C Ip et Jo C J Ainsi on pr f rera 7 7 car 71 est plus g n rale que 72 La notion de r gle forte propose une solution ces deux probl mes D abord au lieu 42 2 5 Usage multiple des itemsets libres de s appuyer sur l ensemble des itemsets fr quents on consid re un sous ensemble les itemsets 0 libres qui seront les corps des futures r gles L extraction des itemsets fr quents 6 libres supportent mieux les contextes difficiles nonc s plus haut Puis les cons quents de r gles sont form s partir de la fermeture cls I r des itemsets libres I Lorsque 6 gt 0
142. lever de N les objets non couverts par 7 12 forall b Z gain b x gain a x gt 99 do 13 I IU bk 14 Enlever de P les objets non couverts par 7 15 Enlever de N les objets non couverts par 7 16 CPAR ApprendreRegle r cj P N I 17 end 21 Usage multiple des motifs locaux en classification supervis e nombre de fois maximum qu un objet positif peut tre couvert en fonction de P Les valeurs de ces param tres sont donn es par les auteurs Discussion Pour les probl mes deux classes ci co telles que r 4 gt r les al gorithmes de g n ration de r gles de FOIL et RIPPER permettent de g n rer des r gles inductives pour une classe donn e c et une r gle par d faut pour la classe majoritaire m cy Pour les probl mes p classes p gt 2 les classes sont ordonn es par ordre croissant de taille FOIL et RIPPER est utilis pour g n rer un ensemble de r gles inductives pour s parer la classe minoritaire c des autres classes co c Puis les ob jets couverts par l ensemble de r gles est retir de r et FOIL et RIPPER sont utilis s pour g n rer un autre ensemble de r gles inductives pour s parer c des autres classes C3 Cp Le nouvel ensemble de r gles est mis la suite de l ensemble courant Et ainsi de suite jusqu atteindre la derni re classe majoritaire c qui est la classe par d faut la r gle defaut Cp est cr e Notons que ce
143. lled as follows fitcare c yes no maybe t 0 25 dataset txt NEGATION Option neg n makes fitcare extract rules which can contain nega tions of attributes VERBOSE MODE Option verbose v makes fitcare display on the standard output information about every extraction These information depend on which options were chosen when fitcare was compiled However fitcare will at least print what is the current extraction and whether the extracted class association rules covers all the objects of the class BUGS Report bugs to lt magicbanana gmail com gt SEE ALSO fitcare 1 COPYRIGHT 2008 INSA Lyon Contributor Loic Cerf magicbanana gmail com Loic Cerf Dec 2008 FITCARE 1 FITCARC 1 FITCARC 1 NAME Fitcarc Is The Class Association Rule Classifier SYNOPSIS fitcarc options rules rules dataset fitcarc help version OVERVIEW From a set of class association rules typically output by fitcare fitcarc predicts which class an object of dataset probably belongs to RETURN VALUES GENERAL OPTIONS fitcare returns values which can be used when called from a script They are conformed to sysexit h 0 is returned when fitcarc terminates successfully 64 is returned when fitcarc was called incorrectly 65 is returned when input data is not properly formatted 74 is returned when data could not be read or written on the disk fitcarc help or simply fitcarc h displays a reminde
144. llement modifi es pour tudier les effets de la disproportion des classes sur les r sultats des diff rents classifieurs Evolution de la pr cision par rapport la disproportion des classes pour avoir une meilleure id e du comportement de CPAR fitcare et HARMONY face des probl mes multi classes disproportionn es nous exp rimentons les trois classifieurs sur la base de donn es waveform dont la r partition des classes est modifi e artificiellement waveform est une base de donn es trois classes telle que 7 1657 7 1647 et Z 1696 originalement bien proportionn e A partir de la base originale nous construisons diverses bases dans lesquelles une ou deux classes c cj sont artificiellement disproportionn es Pour ce faire nous partitionnons les objets de la classe concern e c en x sous ensembles d peu pr s la m me taille x 2 3 4 5 6 10 La classe c se trouve alors r duite y 5096 3396 2596 2096 1696 ou 1096 de sa taille originale Une nouvelle base ainsi construite est compos e d un sous ensemble des objets de classe c et de tous les objets de classe c j i Les graphiques des figures 4 2 4 3 et 4 4 rapportent l volution de la pr cision par classe de CPAR fitcare et HARMONY sur les versions de waveform avec des classes disproportionn es Les r sultats de pr cision pour une version de waveform dont la classe c a t r duite y sont obtenus en moyennant les x r
145. ls de fr quence pour les donn es heart cleveland 3 11 Evolution de la pr cision de FC C4 5 en fonction du bruit pour diff rents seuils de y et 6 pour les donn es tic tac toe 3 12 Evolution de la pr cision d entrainement de FC C4 5 en fonction de 6 pour diff rents seuils de y et de bruit pour les donn es tic tac toe 4 1 Exemple de donn es aux classes disproportionn es 4 2 Evolution de la pr cision par classe lorsque la classe 1 est minoritaire pour CPAR fitcare et HARMONY sur la base waveform 4 3 Evolution de la pr cision par classe lorsque les classes 1 et 2 sont minori taires pour CPAR fitcare et HARMONY sur la base waveform 4 4 Evolution de la pr cision par classe lorsque les classes 1 et 3 sont minori taires pour CPAR fitcare et HARMONY sur la base waveform 4 5 Evolution de la pr cision par classe lorsque les classes 2 et 3 sont minori taires pour CPAR fitcare et HARMONY sur la base waveform 78 5 1 Repr sentation de l altitude pour les trois bassins versants de la zone d tude 111 5 2 Sc nario d extraction de connaissances dans les donn es d rosion en Nouvelle Cal donie 4 4 2 5 3 Matrice confusion pour les r sultats de pr cision sur le bassin de la Dumb a 117 5 4 Matrice confusion pour les r sultats de pr cision sur le bassin de la Ouenghi 117 5 5 Cartographie d
146. lution de la pr cision par classe lorsque les classes 1 et 2 sont minoritaires pour CPAR fitcare et HARMONY sur la base waveform 33 25 20 16 10 Pourcentage de r duction des classes 1 et 2 Notre tude exp rimentale de l volution de la pr cision par classe des approches OVA comme CPAR et HARMONY dans les donn es aux classes disproportionn es confirme les probl mes nonc s en d but de chapitre savoir un biais des approches OVA vers la classe majoritaire et donc une d t rioration de la pr cision sur la classe minoritaire Notre approche fitcare suivant une approche OVE offre une solution pour pallier ce probl me En effet en tenant compte de la r partition des classes et la r partition des erreurs des r gles extraites dans les diff rentes classes fitcare vite le biais vers la classe majoritaire et obtient des r sultats de pr cision bien sup rieurs aux approches OVA comme CPAR ou HARMONY pour la classe minoritaire 103 Vers une solution pour les classes in galement distribu es Pr cision pour la classe 1 minoritaire CPAR 35 fitcare A HARMONY 30 50 20 16 10 33 25 Pourcentage de r duction des classes 1 et 3 a Pr cision pour la classe 2 e S o oco 9 CPAR 8 fitcare HARMONY Pr cision pour la classe 3 minoritaire 65 CPAR fitcare 60 HARMONY 33 25 20 16 10
147. mble des JEPs n offrira pas une bonne couverture des 62 3 2 Arbre de d cision base de motifs donn es Evidemment les tr s grandes valeurs de 6 m nent des r gles peu discriminantes en raison du trop grand d erreurs accept es Le point cl semble tre la couverture de la base d apprentissage Pour mieux com prendre les effets du param trage de notre processus sur la couverture dans les graphiques de la figure 3 4 nous repr sentons le taux de couverture de la base d apprentissage en fonc tion de y et Nous prenons ici comme exemples les bases breast cleve heart hepatic du r pertoire de base de donn es UCI Chaque courbe repr sente un seuil de fr quence y En ordonn e le taux de couverture est repr sent en fonction de en abscisse Comme attendu pour petit le taux de couverture est bas Plus augmente plus le taux de couverture augmente jusqu un point de stabilisation proche ou gal 10096 Nous pensons que ces points de saturation not s opt sont importants et indiquent la valeur de choisir pour l extraction En effet pour lt 055 Sy ne couvre pas assez bien la base d apprentissage et pour 0 gt dopt 54 5 contient des r gles moins pertinentes que Sysop kk hk P couverture 96 couverture 96 Cleve data 1 F e freq 2 E freq 3 freq 5 v freq 7 freq 10 Breast data e freq 1 B freq 2 freq 3 v
148. meilleurs alors que fitcare obtient 8 et CPAR seulement 3 Pour les comparaisons deux deux gagn nul perdu les r sultats sont les suivants fitcare vs CPAR 14 1 4 et fitcare vs HARMONY 6 2 11 En terme de pr cision globale HARMONY est meilleur que fitcare Toutefois lorsque les classes sont disproportionn es ce sont souvent les r sultats de pr cision sur la ou les classes minoritaires qui sont importants Les r sultats de pr cision par classe voir r sultats en gras en table 4 2 donne fitcare gagnant En effet fitcare obtient 14 fois sur 19 la meilleure pr cision ou une des meilleures sur les classes mi noritaires alors que CPAR et HARMONY obtiennent seulement 5 meilleurs r sultats Les 101 Vers une solution pour les classes in galement distribu es r sultats de comparaisons deux deux sont 13 3 3 pour fitcare vs CPAR et 12 4 3 pour fitcare vs HARMONY Clairement fitcare est plus performant en terme de pr cision sur les classes minoritaires que CPAR et HARMONY Notons aussi que pour les bases diabetes hepatitis labor et meningite alors que fitcare r alise un meilleur score de pr cision sur la classe minoritaire CPAR et HARMONY quant eux obtiennent de bien meilleurs scores de pr cision sur la classe majoritaire ce qui tend confirmer l hypoth se concernant le biais vers la classe majoritaire nonc e en d but de chapitre Dans la suite nous menons d autres exp riences sur des bases artificie
149. mn Option mat m is used to set the matrix file name When omitted the matrix file name is supposed to be the input file name mat For example if dataset is dataset txt the default output file name is dataset txt mat The matrix file is mandatory LEARNED THRESHOLDS OUTPUT To extract class association rules with learned frequency thresholds one must only provide the list of strings related to the class attributes in the input data This list is set with option classes c On the command line do not forget to protect it by using double quotes For example the following command can be used to compute rules concluding on the class attributes yes no or maybe fitcare c yes no maybe dataset txt The parameter matrix is printed on the standard output at the end of the execution By default the class association rules concluding on each class must cover every objet of the class If this requirement is too stringent fitcare will loosen it by itself However this may take much time Hence if some classes contain known proportions of noise or misclas sified objects option proportions p can be used It sets minimal proportions of covered objects in each class On the command line do not forget to protect the list of proportions by using double quotes In the previous example if the class maybe is known to contain at least 6 25 of junk or misclassified objects fitcare can be
150. n d obtenir une premi re caract risation du ph nom ne d rosion ainsi qu une premi re estimation de l al a rosion sur les zones tudi es Ainsi nous pourrons produire une cartographie des zones rod es et de l al a rosion Les ph nom nes d rosion apparaissant sur une petite partie des sols des zones tudi es environ 396 nous sommes face une base de donn es 2 classes sol rod sol non rod disproportionn es et fitcare sera au coeur de notre sc nario de d couverte de connaissances 5 1 2 Bases de donn es sur l rosion La zone d tude est constitu de trois bassins versants limitrophes celui de la Ouen ghi de la Tontouta et de Dumb a voir la carte des altitude dans la figure 5 1 Un bassin versant est une zone g ographique d limit e par une ligne de cr te et dont tous les coulements se dirigent vers le m me exutoire ici la mer La zone d tude a t di vis e ainsi car le bassin versant est une entit significative pour les g ologues experts du 1 al a rosion probabilit d apparition des ph nom nes d rosion 110 5 1 Contexte g n ral domaine Pour chaque bassin versant les experts ont identifi six param tres physiques comme tant des facteurs du ph nom ne d rosion Ces param tres sont repr sent s en couches th matiques de donn es 1 Pluviom trie donn es m t orologiques quantifiant les pr cipitations par extrapo lation valeurs en
151. n de 6 pour divers niveaux de bruits et seuils de fr quence pour les donn es colic R sultats de pr cision et comparaison Tous les r sultats de pr cision obtenus par 10 CV sont report s dans la table 3 5 Nous ferons deux types de comparaisons de pr cision premi rement nous comparons les r sultats de pr cision des classifieurs classiques C4 5 NB SVM RBF sur les donn es aux attributs originaux ventuellement bruit s avec les pr cisions du m me classifieur classique branch en fin de FC Deuxi mement nous comparons le processus FC avec HARMONY Pour chaque base nous utilisons divers seuils de fr quence minimum y et pour chaque valeur de y nous appliquons notre strat gie nonc e pr c demment pour d terminer Ainsi les r sultats de FC sont report s en deux colonnes dans la table 3 5 i la colonne FC reporte la moyenne des r sultats de pr cision pour toutes les valeurs de 9 RBF pour Radial Basis Function 77 Construction de descripteurs base d itemsets libres heart cleveland bruit 0 heart cleveland bruit 2096 85r B ee amas es A 80r o 5 75 SVM RBF a SVM RBF D B f45 m B f 45 140 e 140 135 f 35 70 30 70 130 125 gt f25 65 L L L L L L L L L L L L L L L L L L L J 65 L L L L L L L L L L L L L L i L L n 0123 45 6 7 8 910111213141516 17 181920 012
152. nductives ure Rats MAUR ee ROS eth ed 17 1 2 2 Classification associative o o ooo a a 23 1 3 M thodes base d itemsets mergents 26 1 4 Limites 22 52 he 6E ee Des A eie bee done es ete es 28 1 1 Contexte g n ral Dans ce chapitre nous donnons le contexte de travail i e les bases de donn es tran sactionnelles binaires labellis es puis nous passons en revue les principales approches de classification supervis e bas e sur les motifs locaux itemsets ou r gles D finition 1 Base de donn es transactionnelles binaires labellis es Une base de donn es binaires ou contexte binaire est un triplet r T Z R o T est un en semble d objets appel s aussi transactions T un ensemble d attributs Bool ens appel s aussi items ou propri t s et R une application telle que R T x T 0 1 Lorsque R t i 1 on dit que la transaction t contient l item i ou encore l objet t res pecte la propri t i On distingue les attributs classe ou labels des autres attributs C c1 C2 Cp CT 15 Usage multiple des motifs locaux en classification supervis e Utiliser les motifs locaux pour la classification supervis e semble intuitif Bien qu il existe diff rentes approches le processus utilis est g n rique cf figure 1 1 i partir des donn es binaires on extrait un ensemble de motifs puis iz partir de l ensemble de motifs extraits on construit un classifieur Construc
153. ner les 05 4 En effet consid rons S l ensemble des motifs extraits le taux de couverture de la base d ap prentissage et donc do choisi strat giquement est le m me quel que soit le classifieur classique en fin de FC Malheureusement nous observons exp rimentalement que les bon nes valeurs de 6 ne sont pas forc ment les m mes selon le classifieur branch en fin de processus Ceci est tout simplement d au fonctionnement m me des diff rents classi fieurs C est pourquoi nous pr f rons analyser l volution de la pr cision d entrainement afin d obtenir diff rentes valeurs de 055 selon le classifieur en fin de processus 76 3 4 Vers de nouveaux descripteurs num riques colic bruit 0 colic bruit 20 S S S 75 Pep 5 B8 150 8 NB E 150 a 145 45 140 40 185 135 65 30 125 125 eoi i LL E E LL a d EE i eg i i i rr riii di i i i i 1l i3 0123456 7 8 9 1070 12131415 16 17 18 93 389 58 50 9 78 3 1017 12 13 14 1516 17 18 colic bruit 30 colic bruit 40 85r 85r A 2 IE 2 E a E a Pr cision N o Pr cision 96 N o 65 65 60 BE EN Ne NE PET PS NS PS PET E 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 605 10 11 12 13 14 15 16 17 18 ot FIGURE 3 9 Evolution de la pr cision de FC NB en fonctio
154. nie 122 Cinqui me partie Conclusion amp Perspectives 123 Conclusion amp Perspectives Dans ce m moire nous nous sommes int ress s au calcul de motifs sous contraintes et leur utilisation pour des probl mes difficiles de classification supervis e Nos deux principales contributions proposent des solutions deux probl mes clairement identifi s i la construction de descripteurs pour la classification supervis e dans les domaines aux attributs bruit s ii la classification supervis e base de motifs dans les bases de donn es multi classes disproportionn es Construction de descripteurs bas e sur les propri t s de ferme ture Avant notre travail les techniques de construction de descripteurs pour la classification supervis e ainsi que les techniques de classification associative utilisant les propri t s de fermeture exploitaient tant t les itemsets 0 libres tant t les itemsets ferm s pour ca ract riser les classes S il existait des divergences d avis ce sujet notre tude a point du doigt les raisons de cette divergence i lorsqu on proc de une extraction dans la base enti re sans tenir compte de l attribut classe les itemsets 0 libres sont choisis ii lorsqu on proc de une extraction par classe les itemsets ferm s sont choisis Dans les deux cas le choix est fait par souci de redondance Le dilemme est ainsi li la m thode d extraction De plus pour obtenir des motif
155. nn es car pour lesquelles freq 0 0 8 Les valeurs de 6 sont contraintes par y afin que les itemsets y fr quents libres soient mergents p gt 1 Ainsi nous reportons deux types de r sultats de pr cision i le meilleur r sultat de pr cision obtenu avec PDT toutes combinaisons 7 6 confondues ii la moyenne sur les valeurs de y des pr cisions pour 6 dope Nous comparons les r sultats de pr cision de 6 PDT avec C4 5 et d autres classifieurs de la litt rature CBA CPAR SJEP C pour C4 5 nous utilisons l impl mentation J48 de la plateforme WEKA et la meme discr tisation et validation crois e que pour PDT Pour CBA nous utilisons la version disponible en ligne avec les param tres de fr quence et confiance des r gles comme indiqu s dans l article original 1 et 50 Et pour les autres classifieurs nous reportons les r sultats annonc s dans les articles originaux Tous ces r sultats de pr cision sont report s dans la table 3 4 La meilleure pr cision obtenue pour une base de donn es est indiqu e en gras On remarque qu il existe souvent 7 fois sur 12 une combinaison de param tres y pour laquelle PDT obtient de meilleurs r sultats de pr cision que ces concurrents Dans le d tail avec la meilleure combinaison 6 6 PDT l emporte sur CBA 11 12 sur CPAR 8 12 sur SJEP C 6 8 et enfin sur C4 5 11 12 ce qui est encourageant pour peu qu on ait la bonne combinaison Les r
156. non erode TA X harzburgites 20 9 lt pente lt 27 3 0 0176887 0 0134585 1 3143 harzburgites maquis minier clairsem 1481 lt precipitations lt 1826 0 0197851 0 0134222 1 4741 20 9 lt pente lt 27 3 1481 precipitations 1826 0 0174921 0 00485659 3 6017 maquis minier clairsem 32 3 lt pente lt 40 3 0 0210954 0 013913 1 5162 maquis minier clairsem 40 3 lt pente lt 48 1 0 0212264 0 014511 1 4628 maquis minier clairsem pente gt 48 1 132 lt altitude lt 442 0 0186714 0 0110405 1 6912 maquis minier clairsem pente gt 48 1 1481 precipitations 1826 0 024109 0 0108003 2 2323 maquis minier clairsem 541 altitude 728 0 0346567 0 0163534 2 1192 maquis minier clairsem lat rites indiff renci es sur p ridotite 0 0447458 0 015688 2 8522 maquis minier clairsem 1956 precipitations 2197 0 0259434 0 0122607 2 116 32 3 lt pente lt 40 3 541 lt altitude lt 728 0 0170335 0 0105082 1 621 32 3 lt pente lt 40 3 lat rites_indiff renci es_sur_p ridotite 0 026533 0 00751302 3 5316 32 3 lt pente lt 40 3 1481 lt precipitations lt 1826 0 0246331 0 0113706 2 1664 40 3 lt pente lt 48 1 lat rites indiff renci es sur p ridotite 0 0233884 0 00782931 2 9873 40 3 lt pente lt 48 1 1481 precipitations 1826 0 023978 0 0143969 1 6655 17 5 lt pente lt 20 9 0 0281053 0 00822509 3 417 pente gt 48 1 541 lt altitude lt 728 1481 lt precipitations lt 1826 0 0214885 0 014091 1 525 17 5 lt pente 0 0235849 0 00498448 4 7317 728 lt altitude lt 8
157. nstantiations pour 72 3 4 Vers de nouveaux descripteurs num riques le valider exp rimentalement 3 4 2 Param trage et validation dans les contextes bruit s Nous notons notre processus de construction de descripteurs FC Notre validation exp rimentale r pondra aux questions suivantes Q Consid rons des classifieurs dits classiques WKQ 08 l arbre de d cision C4 5 Qui93 le classifieur na f de Bayes NB JL95 et les machines vecteurs sup port SVM Ces classifieurs sont il plus performants en terme de pr cision lorsqu on utilise les nouveaux descripteurs g n r s par FC que lorsqu on utilise les attributs originaux Q Que se passe t il lorsque les attributs sont soumis au bruit FC procure t il de meilleurs r sultats de pr cision que les classifieurs classiques En d autres termes FC est il un processus tol rant aux bruits Comment choisir les valeurs de 6 lorsque les donn es sont bruit es Qs Est ce qu un classifieur classique en fin de processus FC est comparable en terme de pr cision un classifieur avanc bas sur les motifs nous prendrons ici comme r f rence le classifieur HARMONY WK05 WK06 Protocole Pour r pondre aux trois questions pr c dentes nous posons deux protocoles d exp rimentations pour les donn es originales non bruit es et pour les donn es ar tificiellement bruit es Donn es originales Pour asseoir l efficacit de notre processus
158. objets couverts par cette nouvelle r gle induite sont enlev s de la base ligne 6 enfin l algorithme s arr te lorsque la condition d arr t prenant en compte la couverture totale de la base par les r gles est remplie ligne 4 Les points cl s de cet algorithme sont bien s r la m thode d apprentissage des r gles la fa on dont les objets couverts par les r gles sont enlev s et la condition d arr t et c est ce que diff rencie les m thodes existantes Dans la suite nous d crivons trois approches d apprentissage par regles inductives en fonction de ces trois points cl s Algorithme 1 Algorithme de couverture s quentielle Entr e r 7 Z R un contexte binaire C e Cp l ensemble des classes par ordre croissant de taille Sortie II un ensemble de r gles induites 1 begin 2 II 3 forall c C do 4 while ConditionArret do 5 m ApprendreRegle T 7 ci 6 Enlever de 7 les transactions couvertes par 7 7 II IIU T 8 II HMU ta 0 cx 9 end 17 Usage multiple des motifs locaux en classification supervis e La m thode FOIL First Order Inductive Learner Introduite dans QCJ93 FOIL est d di e la logique du premier ordre Nous reportons ici la version propositionnelle de FOIL adapt e aux contextes binaires FOIL Apprentissage de r gle FOIL construit ses r gles selon l algorithme 2 Pour la classe courante c P est l ensemble courant des objets positifs i e
159. ointill 2 4 Autres repr sentations condens es 2 4 1 Les itemsets V libres Dans BR01 BR03 les auteurs proposent une nouvelle repr sentation condens e des itemsets fr quents bas e sur les itemsets V libres La notion d itemset V libre s appuie sur la notion de V r gle Intuitivement une V r gle a un cons quent compos d une disjonction d attributs Les auteurs les d finissent formellement comme suit D finition 9 V r gle et itemset V libre Une V r gle est une r gle de la forme m I avb ou I CT eta b ZMI m est dite valide si et seulement si supp I r t r t supp I U aj V supp I U b en d autres termes si toute transaction supportant I supporte aussi a et ou b Un itemset J CT est un itemset V libre si et seulement si il n existe pas de V r gle valide m I aVb telle que IC J a bEJ etad I etb I De la d finition d une r gle V libre m a V b on retire les galit s suivantes supp I r supp I U a r supp I U b r supp I U a b r 2 1 supp I U a b r supp I U a r supp I U b r supp I r 2 2 L galit 2 2 est quivalente la validit de 7 et nous indique que nous pourrons d duire la fr quence de l itemset JU a b grace la fr quence de trois itemsets de taille inf rieure Notons aussi que pour des raisons similaires la propri t de libert la propri t de V libert est anti monotone Soit IF y V r l ensem
160. oir discriminant des motifs mergents tout en vitant des conflits de r gles dans S s Ces contraintes prennent aussi en compte la distribution des classes et la fr quence relative des corps de r gles dans chacune des classes Enfin tout au long de l optimisation fitcare maintient le taux de couverture maximal obtenu lors de l initialisation ce qui nous assure un taux de couverture satisfaisant Les r sultats exp rimentaux ont montr que l approche OVE fitcare est bien plus per formante en terme de pr cision sur les classes minoritaires dans les contextes multi classes disproportionn es que des approches OVA comme CPAR et HARMONY De plus fitcare vite le biais vers la classe majoritaire que subissent CPAR et HARMONY Notons toutefois la principale limitation de fitcare dans certains cas l approche par optimisation des param tres de I peut tre tr s gourmande en temps de calcul En effet pour des bases de donn es de taille cons quente avec un grand nombre d attributs l extraction des OVE CRs pour des seuils de fr quence tr s bas est difficile Si de plus la base contient un grand nombre d objets fitcare devra r aliser plusieurs de ces extractions difficiles Pour cette raison le temps d ex cution de fitcare est bien sup rieur celui des approches comme CPAR ou HARMONY Notons aussi que si l est optimal selon fitcare pour des seuils de fr quence tr s bas alors le nombre d OVE CRs peut tre tr s grand Pour
161. oissement et T X c une r gle d association 6 forte qui conclut sur une classe c Alors doe rud IF TA X r gt p ainsi X est un p EP 3 1 p T lt y 2 gt conf r r gt 1 2 3 2 o c est la classe majoritaire dans r 70 3 4 Vers de nouveaux descripteurs num riques Ainsi pour y fix les itemsets y fr quents libres X dont la fermeture contiennent un attribut classe c et tels que satisfait les quations 3 1 et 3 2 de la proposition 2 forment un ensemble de p EPs sans conflits Dans la suite y et respecteront les contraintes des quations 3 1 et 3 2 Extraction des r gles fortes de caract risation Pour extraire S l ensemble des r gles fortes de caract risation nous utilisons une extension de l algorithme par niveau d extraction d itemsets y fr quent libres rappel dans le chapitre 2 Aux contraintes anti monotones de fr quence et de 6 libert notre extension rajoute les contraintes suivantes 1 C dc C c cl X r contrainte syntaxique 2 C2 TY Sa Y X contrainte de minimalit Ces deux contraintes ne font que r duire le nombre de motifs extraits et le temps d ex traction par rapport l impl mentation AC like qui extrait tous les itemsets y fr quents libres X et leur fermeture cl X r En effet ici nous ne gardons que les itemsets X tels qu il existe une classe c dans cl X r et si X respecte cette contrainte ces s
162. on des transactions couvertes Apr s avoir g n r une r gle 7 FOIL enl ve de r tous les objets de classe c couverts par m donc seulement les objets 18 1 2 M thodes base de r gles positifs FOIL Condition d arr t FOIL s arr te lorsque tous les objets de classe c sont couverts Il est appliqu pour chacune des classes de r La m thode RIPPER Repeated Incremental Pruning to Produce Error Reduction Introduite dans Coh95 RIPPER est une am lioration de l approche IREP Incremental Reduced Error Pruning FW94 RIPPER Apprentissage de r gle RIPPER construit ses r gles selon l algorithme 3 Tout d abord pour une classe c donn e on diff rencie l ensemble P des objets positifs de classe c de l ensemble N des objets n gatifs Les objets de la base sont ensuite r partis al atoirement en respectant la taille des classes en deux sous ensembles Papp U Napp et Prest U Nyest utilis s pour l accroissement et l lagage de r gles respectivement Noter que Papp U Napp repr sente 2 3 de la base courante Apr s accroissement la FOIL d une r gle T I c en tenant compte de Papp U Napp ligne 2 celle ci est imm diatement lagu e en utilisant Pres UNyest de la mani re suivante ligne 3 On consid re la mesure suivante pour une r gle 7 construite U T Piest Ntest Ptest Ntest Ptest Ntest O Ptest resp Ntest est le nombre d objets de Piest reps Nest couverts par 7 Noter que cet
163. on redundant association rules In Procee dings ACM SIGKDD 00 pages 34 43 ACM Press 2000 Xiuzhen Zhang Guozhu Dong and Kotagiri Ramamohanarao Exploring constraints to efficiently mine emerging patterns from large high dimensional datasets In KDD 00 pages 310 314 2000 Albrecht Zimmermann Ensemble trees Leveraging ensemble power inside decision trees In Proceedings DS 08 volume 5255 of LNCS pages 76 87 Springer 2008 Xingquan Zhu and Xindong Wu Class noise vs attribute noise A quanti tative study Artificial Intelligence Revue 22 3 177 210 2004 Yan Zhang and Xindong Wu Noise modeling with associative corruption rules In Proceedings ICDM 07 pages 733 738 IEEE Computer Society 2007 Bibliographie 2WC03 ZWZLOS Xingquan Zhu Xindong Wu and Qijun Chen Eliminating class noise in large datasets In CML 03 pages 920 927 2003 Shichao Zhang Xindong Wu Chengqi Zhang and Jingli Lu Computing the minimum support for mining frequent patterns Knowledge and Information Systems 15 2 233 257 2008 151
164. onstruction de nouveaux descripteurs tol rants aux bruits d attributs Probl mes multi classes in galement distribu es Le probl me de la fouille de donn es sur des classes in galement distribu es est l un des dix probl mes ouverts mis en avant par la communaut scientifique Dans ce manus crit nous proposons des l ments de solution pour la mise en oeuvre d une classification supervis e bas e sur des motifs dans les bases de donn es multi classes et in galement distribu es De mani re informelle dans ce type de probl me le nombre de classes est sup rieur deux et parmi celles ci au moins une appel e classe minoritaire comporte beaucoup moins d objets que certaines autres classes majoritaires Dans ce contexte les approches utilisant le cadre fr quence confiance atteignent leurs limites Em effet pour esp rer capturer des motifs qui caract risent une classe minoritaire le seuil de fr quence doit tre bas bien inf rieur la taille de la classe minoritaire Imposer un tel seuil global peut g n rer des motifs inint ressants pour la classe majoritaire De plus il a t montr que le cadre fr quence confiance est biais vers la classe majoritaire VC07 Ce biais vient du fait que la taille des diff rentes classes n est pas prise en compte dans un cadre fr quence confiance Les performances des classifieurs sont alors d t rior es en particulier pour les classes minoritaires Dans DL99 les auteur
165. ont g n r es avec les diff rents attributs et le processus d accroissement de chacune des r gles continue CPAR Suppression des transactions couvertes A l initialisation de CPAR tous les objets positifs de classe c sont initialis s avec un poids de 1 Ainsi on a PoidsDepart P P qui est aussi le poids total PoidsTotal P des objets positifs Apr s chaque g n ration de r gle 7 on d croit le poids de chaque objet couvert par 7 en multipliant le poids par un facteur a 2 3 et le PoidsT otal P se retrouve diminu Ainsi chaque objet positif de P pourra tre couvert par plusieurs r gles induites CPAR Condition d arr t Pour 6 0 05 donn lorsque PoidsTotal P lt 6 x PoidsDepart P CPAR s arr te Notons que les param tres a et 6 sont li s indiquent le 20 1 2 M thodes base de r gles Algorithme 4 CPAR ApprendreRegle Entr e r 7 Z R un contexte binaire C e Cp l ensemble des classes par ordre croissant de taille c C la classe courante P l ensemble des objets positifs de classe c N l ensemble des objets n gatifs I CT l ensemble d attributs de d part de la r gle construire Sortie 7 une r gle induite 1 begin 2 N N 3 P P 4 while true do 5 Trouver l attribut a qui apporte le plus de gain v selon P et N 6 if gain a T lt gain minimum then 7 Break 8 else 9 I TIU a 10 Enlever de P les objets non couverts par 7 11 En
166. orte 7 X c et bornes en fonction de y et Par construction est une borne inf rieure pour freq X r De m me est une borne sup rieure pour freq X r re Notons que par d duction nous pouvons obtenir d autres bornes pour les autre cellules Par cons quent nous obtenons des bornes inf rieures pour nos mesures TA et conf T A n Te gt y B r Ta Irc and conf r r gt 1 6 7 Nous utilisons ces bornes pour tendre la d finition des d SCRs Par la suite nous utilise rons cette d finition D finition 16 R gle forte de caract risation Soit y gt 0 un entier seuil de fr quence minimum et 6 gt 0 un entier seuil d erreurs maximum n X cj est une r gle forte de caract risation 0 SCR si c est un attribut classe et le corps X est minimal X est dit minimal s il n existe pas d autre r gle fr quente n Y cj telle que Y C X et conf r r 21 i et TA T ra gt v Ed 3 Ire Cette formalisation des d SCRs nous permet d assurer qu tant donn un seuil de taux d accroissement p gt 1 sous de simples conditions sur les valeurs de y et les corps de 6 SCRs de sont des p EPs Nous traduisons ces conditions suffisantes dans la proposition 2 voir sa preuve en appendice Proposition 2 Soit y gt 0 et 6 gt 0 deux entiers respectivement seuil de fr quence mi nimum et seuil de d erreurs maximum Soit p gt 1 un seuil de taux d accr
167. ortement sur la qualit des r gles Pour un y donn plus est grand moins la r gle forte sera int ressante r gle dont le corps est un itemset y fr quent libre Selon certaines conditions sur les valeurs de y et nous allons nous assurer que les r gles fortes extraites sont bien discriminantes pour la classe Propri t 5 Soit y et 6 deux entiers positifs et X un itemset y fr quent libre dans r tel que c cls X r o c C est un attribut classe Alors T A X r gt 1 si 0 7 x 1 freq ci r o re classe majoritaire gt ra Ve ci i e ci est la Ainsi sous cette simple condition les corps X de r gles fortes m X c extraites se ront relativement plus fr quents dans r que dans le reste de la base De plus dans CB02 les auteurs montrent que si 0 y 2 alors l ensemble S des r gles fortes extraites ne contient pas de conflits du type X c et Y cj pour X C Y et i Z j Dans la suite nous consid rerons des ensembles 5 de r gles fortes disjonctives tel que y et respectent cette condition 0 lt lt 7 2 et la condition en propri t 5 et d veloppons une m thode d utilisation de cet ensemble pour construire un arbre de d cision 3 2 3 0 PDT un arbre de d cision base de r gles fortes La construction d arbre de d cision base de r gles fortes 6 PDT GSB07 est d crite dans l algorithme 7 et suit les principes d
168. ositivement corr l s Dans le cadre des itemsets po sitivement corr l s nous sommes confront s au m me probl me que pour les itemsets mergents En effet nous avons FInt X ci r 100x7 9 10 gt 1 et FInt X cs r 88 4 2 Vers une approche OVE 100 x 2 9 x 5 gt 1 qui indiquent que X est positivement corr l s avec les classes c et c3 Ces conflits sont aussi dus la r partition des erreurs dans les diff rentes classes Les diff rents cadres rappel s dans l exemple pr c dent suivent une approche dite OVA One Versus A11 car les motifs extraits caract risent une classe c par rapport l union des autres classes qui constituent le reste des donn es Nous avons montr que les probl mes li s aux diff rentes mesures d int r t confiance taux d accroissement facteur d int r t et aux conflits de r gles sont intrins quement li s l approche OVA i e viennent du fait que soit la taille des classes soit la fr quence relative des motifs dans chaque classe n est pas prise en compte Dans la suite nous proposons un nouveau cadre de travail appel OVE One Versus Each dans lequel la taille des classes ainsi que la fr quence relative des itemsets dans chaque classe sera consid r e Une autre mani re de traiter les probl mes multi classes est de suivre une approche dite OVO F r02 WLW04 PFO07 Le principe est de diviser un probl me de classification supervis e n classes en n n 1 2 sous
169. param tres sinon l garde sa meilleure pr c dente valeur respectant toutes les contraintes et le deuxi me param tre le plus pro metteur issu de la deuxi me plus grande confusion est diminu et ainsi de suite fitcare un algorithme d optimisation Le pseudo code de notre approche fitcare reprenant et mettant en forme les diff rents points cl s nonc s est report dans l algorithme 10 A la ligne 1 ls est initialis avec la meilleure matrice de param tres issue de la phase d initialisation en trois tapes pr sent e pr c demment Puis la variable isParametersModified indiquant si un param tre de Ta t modifi est initialis faux et la classe en cours de traitement classId qui indique la classe sur laquelle on extrait les r gles la ligne courante de qui est trait e est initialis e la derni re classe La principale boucle ligne 4 qui constitue la partie optimisation de notre approche fitcare prend fin lorsque la classe traiter classId d passe p 98 4 3 Param trage automatique avec fitcare Premier tour au premier tour de boucle il ne passe rien car les param tres ne sont pas modifi s Au test de validation ligne 17 Vos est initialis let enfin ligne 21 la diminution des param tres et donc modification de T commence et indique la classe pour le prochain tour de boucle En fait l initialisation de classId p force le passage de la condition ligne 16 pour lancer une val
170. pour l attribut a Ti est la base de donn es restreinte aux objets ayant la valeur a pour l attribut a et E est la fonction entropie d finie comme suit Ci Cp E r V frea cir x logo fregr cs r Ci C1 Pour pond rer le gain d information et favoriser les attributs binaires C4 5 utilise la fonction SplitInfo d finie comme suit Sl a r M freq aj r x logi reglant aj Dom a Enfin iii CA 5 attribue la classe majoritaire du sous ensemble de donn es courant pour tiqueter les feuilles de l arbre Consid rons l exemple classique de base de donn es repr sent par la table 3 1 Ici Tr 7 T R o T ti tua T outlook temperature humidity windy play C yes no et les relations de R entre objets et attributs sont repr sent es par le tableau 54 3 2 Arbre de d cision base de motifs deux dimensions en figure 3 1 Dans notre exemple r est un ensemble de situations d crites par le temps qu il fait et dans lesquelles on a jou au tennis ou non yes ou no r Attributs Classes outlook temperature humidity windy play t sunny 85 85 FALSE no t sunny 80 90 TRUE no t3 overcast 83 86 FALSE yes t4 rainy 70 96 FALSE yes ts rainy 68 80 FALSE yes n te rainy 65 70 TRUE no E tz overcast 64 65 TRUE yes 5 tg sunny 72 95 FALSE no to sunny 69 70 FALSE yes tio rainy 15 80 FALSE yes ti sunny 75 70 TRUE yes ty overcast 72 90 TRUE yes 143 ov
171. pproche APRIORI FP Growth g n re le m me ensemble de r gles puisque que la t che d extraction de r gles valides est un probl me d terministe CMAR lagage des r gles CMAR consid re le m me ordre que CBA sur les r gles d associations de classe valides De plus on consid re qu une r gle 7 X c est plus g n rale que 75 Y cj si X C Y CMAR propose trois types d lagage i on pr f re 25 Usage multiple des motifs locaux en classification supervis e les r gles g n rales de forte confiance plut t que les r gles sp cifiques faible confiance Ainsi 75 sera lagu si 7 gt 72 et m est plus g n rale que 7 ii CMAR s lectionne uniquement les r gles positivement corr l es en fonction du test du y iii CMAR lague encore l ensemble de r gles en fonction de leur couverture des objets de la base afin que certains objets soient couverts au moins par 6 4 r gles est donn par les auteurs Enfin pour classer un nouvel objet entrant t CMAR regroupe les r gles support es par t selon leur cons quent la classe puis mesure l effet combin de chaque groupe en calculant la valeur du x pond r et le groupe ayant la plus grande valeur d effet combin indique la classe Discussion Les approches de classification supervis e bas e sur les r gles d associa tions de classe valides sont confront es l explosion du nombre de motifs extraits De plus l ensemble extrait contient
172. pteurs num riques tic tac toe minfreq 25 tic tac toe minfreq 30 100 100 8 C45 76 C45 95 B d 0 B d 0 d 1 d 1 2 2 90r d 3 d 3 g d 4 amp d 4 85 d 5 5 d 5 E d 6 E d 6 sol d 7 d 7 z d 8 z d 8 75r d 9 d 10 70 63 0 20 30 40 50 9 0 20 30 40 50 bruit 96 bruit 96 tic tac toe minfreq 35 tic tac toe minfreq 40 C45 C45 E d 0 E d 0 d 1 21 d 2 d 2 5 d 3 _ d 3 Ej d 4 d 4 s d 5 s d 5 2 de6 2 d 6 d a7 D d 7 e d 8 d 8 d 9 d 9 d 10 d 10 d 11 d 11 d 12 d 12 E meg 0 13 30 bruit bruit FIGURE 3 11 Evolution de la pr cision de FC C4 5 en fonction du bruit pour diff rents seuils de y et 6 pour les donn es tic tac toe gagne 35 fois sur 55 contre C4 5 et pour FC NB et FC SVM les ratios sont respectivement 28 55 et 40 55 voir les r sultats en gras Une fois encore si nous consid rons une bonne valeur pour y nous avons de meilleurs ratios respectivement 50 55 41 55 et 42 55 Dans la table 3 5 nous reportons aussi l am lioration moyenne de la pr cision sur toutes les donn es qu apporte le processus FC Nous voyons clairement que pour des donn es bruit es dans la plupart des cas l apport de la nouvelle descript
173. q I r gt min freq I peut tre divis en deux parties un cons quent Y et un corps de r gle X J V Y pour former la r gle fr quente m X Y Le processus de d couverte de r gles d association valides partir de I est it ratif Tout d abord on consid re le cas Y Dans ce cas I est va lide car fr quente et de confiance maximale 1 Puis est g n r l ensemble des candidats cons quents C de taille k 1 en partant de k 0 On sait qu un cons quent est can didat si tous ses ensembles sont cons quents de r gles confiantes et donc valides Pour calculer la confiance d une r gle candidate on peut utiliser les fr quences de I et de X calcul es lors de l extraction des itemsets fr quents 23 Usage multiple des motifs locaux en classification supervis e Depuis les efforts de recherche se sont focalis s sur les algorithmes d extraction d itemsets fr quents qui semble tre le point critique pour la t che d extraction de r gles d associa tion Dans AS94 les auteurs proposent l algorithme de recherche en largeur APRIORI d crit dans l algorithme 5 Algorithme 5 APRIORI Entr e r 7 Z R un contexte binaire min freq un seuil de fr quence minimum Sortie F l ensemble des itemsets fr quents de r 1 begin 2 C ili e zy 3 k l 4 while C 4 do 5 Calculer la fr quence des itemsets candidats de Ck 6 Fy X Cxlfreg X r gt
174. r diction avec les conseils des experts nous choisissons le bassin de la Tontouta comme base d apprentissage Ce bassin est le plus grand et pr sente la plus grande diversit en terme de ph nom nes d rosion Les donn es de ce bassin sont discr tis es selon la m thode de Fayyad et Irani FI93 Le sch ma de discr tisation ob tenu est report sur les donn es des bassins de la Ouenghi et de Dumb a qui serviront de validation Nous disposons maintenant de donn es pr par es l extraction de r gles de caract risation OVE 5 2 2 Extraction des r gles de caract risation OVE La base de donn es sur le bassin de la Tontouta constitue notre base d apprentissage des r gles de caract risation OVE Le nombre de pixels tant cons quent environ 4 9 x 10 pixels nous utilisons la moiti des donn es en respectant la r partition originale des classes pour valuer chaque matrice de param tres produites De cette mani re le processus d optimisation par hill climbing est plus rapide L ex cution de cette tape se fait par la seule commande 113 Caract risation de l rosion des sols en Nouvelle Cal donie fitcare c sol rod sol non rod t 0 5 tontouta txt et dure plusieurs heures L ensemble Sous des 66 r gles de caract risation OVE en sortie est report dans la table 5 1 pour les 32 r gles concluant sur la classe sol rod et dans la table 5 2 pour celles concluant sur la classe sol non ro
175. r quents les itemsets non d rivables s appuient sur un ensemble de r gles de d duction afin de d duire des bornes pour la fr quence des itemsets Puis dans CG03 les auteurs proposent une nouvelle repr sentation condens e bas e sur les itemset k libres 2 Il faut bien faire la diff rence entre k libert et libert 38 2 4 Autres repr sentations condens es R gles de d duction et itemsets non d rivables Soit C Z un itemset Les in quations suivantes permettent de borner la fr quence de J en fonction de ses sous ensembles X C T freqlI r lt bD 1 VP freg J r si IXX impair XCJCI fral oz gt gt D frer si I X pair XCJCI Par la suite nous appellerons cette r gle R x 1 Selon la taille de J et de son ensemble X la borne sera une borne sup rieure lorsque A X est impair ou une borne inf rieure lorsque X pair Ainsi si nous disposons de la fr quence de tous les sous ensembles de I alors nous pouvons d duire plusieurs bornes inf rieures et sup rieures pour la fr quence de I en utilisant Rx 1 pour tout X C I Notons LB I la plus petite borne sup rieure de J et UB sa plus grande borne inf rieure En pratique il arrive souvent que LB I UB I Lorsque c est le cas I est un itemset d rivable puisqu on connait son fr quence freq I r LB I UB I Les itemsets non d rivables sont donc les itemsets I tels que LB I 4 UB I On peut d montrer que
176. r tabilit Puis par souci d abstraction nous g n ralisons notre approche de construction de descripteurs FC plusieurs classifieurs et ce dans des contextes difficiles i e aux attributs bruit s La pr sence de bruit dans les donn es peut avoir des effets d sastreux sur la performance des classifieurs et donc sur la pertinence des d cisions prises au moyen de ces mod les Traiter ce probl me lorsque le bruit affecte un attribut classe a t tr s tudi Plusieurs approches ont t propos es pour par exemple l limination et la correction du bruit de classe ou encore la pond ration des instances e g ZWC03 ZW04 RB07 Au contraire le probl me du bruit d attribut non classe a t peu tudi Il existe tout de m me des travaux sur la mod lisation et l identification du bruit KM03 ZWO07 ainsi que des techniques de filtrage pour nettoyer les attributs bruit s ZW04 YWZ04 Dans ce chapitre nous proposons une m thode de construction de descripteurs robustes au bruit d attributs sans pour autant liminer les exemples bruit s ni modifier les valeurs des attributs dans les donn es d apprentissage Nos descripteurs seront bas s sur les itemsets libres qui ont d j fait leurs preuves pour la caract risation de groupements dans les donn es bruit es voir chapitre 2 3 2 Arbre de d cision base de motifs Dans cette section nous d crivons notre approche de construction d arbre de d cision ba
177. r au taux d erreur pessimiste d une r gle a dont le corps est un sous ensemble direct de X Si c est le cas 7 n est pas gard dans l ensemble final de r gles CBA lagage de l ensemble de r gles Pour r duire l ensemble de r gles IT CBA classe d abord les r gles selon l ordre suivant soient m X c et 75 Y cj deux r gles de II m gt 7 si i conf m r gt conf m2 r ii si conf m r con f m2 r mais freq m r gt freq ms r iii si confiance et fr quence gale mais X lt Y Puis l ensemble de r gles est lagu en fonction de leur ordre dans II et de leur couverture des objets de la base afin d liminer les redondances entre r gles et ne garder que les meilleures r gles selon gt Ainsi chaque objet t de la base est couvert par la meilleure des r gles qui couvrent t selon De plus lorsqu une r gle est choisie c est qu elle classifie correctement au moins un objet de la base Enfin l ensemble final IIc des r gles constitue le classifieur et pour pr dire la classe d un nouvel objet entrant t la premi re r gle qui couvre indique la classe pr dire La m thode CMAR Classification based on Multiple Association Rules Introduite dans LHP01 CMAR s appuie aussi sur l ensemble des r gles d association de classe valides pour construire un classifieur Pour extraire les r gles d association valides CMAR utilise l algorithme FP Growth HPY00 Bien que diff rent de l a
178. r of the dif ferent options that can be passed to fitcarc fitcarc version or simply fitcarc V displays version informa tion Any option passed to fitcarc may either be specified on the command line or in an option file If an option is present both in the option file and on the command line the latter is used The option file can be specified through option opt When omitted a file named as the input data file opt is supposed to be the option file related to the input data file For example if dataset is dataset txt and dataset txt opt exists it is supposed to be the related option file The options have the same name in the option file as on the command line Only long names can be used though Arguments passed to an option are separated from the name of the option by For example these lines may constitute an option file rules home user dataset rules d 17 ois INPUT DATA RULES OUTPUT The name of the file containing the input data set must be passed as argument dataset The syntax of the input data set is flexible Every line must be either empty it is ignored or contain all the attributes of an object Sev eral different characters may be used to separate the attributes The attributes can be any string as far as they do not include any of the separators Let us take an example This line could be part of an input data set male basketball gymnastics The object rela
179. r particip l valuation de mon travail lors de la soutenance du m moire Je remercie aussi les membres pass s et pr sents des quipes PPME et ERIM de l Uni versit de la Nouvelle Cal donie et de l quipe TURING du LIRIS l INSA Lyon pour leur accueil chaleureux Merci en particulier Christophe Rigotti Claire Leschi J r my Besson et Fr d ric Flouvat pour leurs discussions porteuses d id es Merci Isabelle Rouet pour sa collaboration et son courage il en faut pour expliquer des informaticiens cer taines facettes de l rosion des sols Merci aussi Loic Cerf pour ses discussions passionn es sur certains aspects de la fouille de donn es mais aussi sur d autres sujets de geek Je remercie bien s r ma famille et mes amis pour m avoir soutenu pendant toute la dur e de ce travail Enfin merci Virginie pour sa pr sence en chaque instant iii Jean Marc et Ma dhili On se r jouissait ta naissance et tu pleurais Vis de mani re que tu puisses te r jouir au moment de ta mort et voir pleurer les autres Proverbe persan R sum Ces derni res ann es l extraction de motifs locaux itemsets fr quents et r gles d as sociation a suscit beaucoup d entrain pour la classification supervis e Cette th se traite du calcul et de l usage de motifs sous contraintes pour la classification supervis e Nous nous attaquons deux probl mes difficiles en classification supervis e
180. ract Recent advances in local pattern mining eg frequent itemsets or association rules has shown to be very useful for classification tasks This thesis deals with local constraint based pattern mining and its use in classification problems We suggest methodological contributions for two difficult classification tasks i When training classifiers the presence of attribute noise can severely harm their performance Existing methods try to correct noisy attribute values or de lete noisy objects thus leading to some information loss In this thesis we propose an application independent method for noise tolerant feature construction without modifying attribute values or deleting any objects Our approach is two step Firstly we mine a set strong characterization rules These rules own fair properties such as a minimal body redundancy awareness and are based on freeness and closedness both have already served as a basis for a fault tolerant pattern and for cluster characterization in noisy data sets Secondly from each extracted rule we build a new numeric robust descriptor The experiments we led in noisy environments have shown that classical classifiers are more accurate on data sets with the new robust features than on original data thus validating our approach ii When class distribution is imbalanced existing pattern based classification me thods show a bias towards the majority class In this case a
181. rdonn selon et a une structure de treillis Pour extraire nous utiliserons un algorithme par niveaux et parcourrons l espace de recherche en largeur de type APRIORI comme d crit dans l algorithme 9 tant donn un niveau k du processus de construction pour construire un candidat child de niveau k 1 la fonction CONSTRUCTCHILD ligne 9 teste si le candidat est fr quent dans c Puis ligne 12 si le candidat child est int ressant i e il est le corps d une OVE CR alors il est retenu et ses surensembles sont lagu s de l espace de recherche forbiddenPrefixes sinon ligne 15 il fera partie des futurs parents pour le niveau d extraction suivant De m me ligne 17 si child n est pas fr quent ses surensembles sont lagu s L algorithme 9 nous permet d obtenir Se l ensemble des OVECRs pour la classe c selon les seuils de fr quence et d infr quence de la i ligne de I Pour obtenir S Ucec S l ensemble de toutes les OVE CRs on r p te l algorithme d extraction pour chaque classe de C Dans la suite nous proposons une m thode pour agr ger les r gles de S et pr dire la classe d un nouvel objet o entrant D un point de vue technique pour calculer les fr quences d un motif X dans chaque classe c X tant le corps d une OVE CR concluant sur c nous maintenons p vecteurs de bits un par classe pour chaque X La taille de chacun de ces vecteurs est la m me que la taille de la classe laquelle il est l
182. re 5 2 Plus pr cis ment nous allons extraire des r gles de caract risation OVE Cela nous permet de caract riser les ph nom nes d rosion des sols couverts par notre ensemble de regles et ainsi d iden tifier les combinaisons de facteurs des couches th matiques propices l rosion construire un mod le pr dictif bas sur l ensemble des r gles extraites pour le ph nom ne d rosion et le valider proposer une m thode d estimation de l al a rosion qui d coule directement de notre mod le pr dictif Pr diction et Interpr tation fitcare Extraction d OVE r gles et construction d un classifieur Connaissances Pr traitement Ensemble de r gles et mod le pr dictif Donn es pr par es Donn es brutes FIGURE 5 2 Sc nario d extraction de connaissances dans les donn es d rosion en Nouvelle Cal donie 112 5 2 Sc nario de d couverte de connaissances 5 2 1 Pr traitement L h t rog n it des donn es fait qu elles ne sont pas exploitables directement En ef fet les diff rentes couches de donn es ne sont pas la m me granularit Pour pallier ce probl me nous ramenons toutes les couches de donn es l chelle la plus grande i e celle de la couche d altitude issue du mod le num rique de terrain 30m Puis chaque couche est transform e en grille dont chaque cellule pixel repr sente une partie du sol de 30m x 30m Chacun de ces pixels
183. rma tion OPTIONS Any option passed to fitcare may either be specified on the command line or in an option file If an option is present both in the option file and on the command line the latter is used The option file can be specified through option opt When omitted a file named as the input data file opt is supposed to be the option file related to the input data file For example if dataset is dataset txt and dataset txt opt exists it is supposed to be the related option file The options have the same name in the option file as on the command line Only long names can be used though Arguments passed to an option are separated from the name of the option by For example these lines may constitute an option file verbose true dud m Trp ois INPUT DATA The name of the file containing the input data set must be passed as argument dataset The syntax of the input data set is flexible Every line must be either empty it is ignored or contain all the attributes of an object Seve ral different characters may be used to separate the attributes The attributes can be any string as far as they do not include any of the separators Let us take an example This line could be part of an input data set male basketball gymnastics good The object related to this line is described by four attributes male basketball gymnastics and good One of them should be a class attribute The attributes are
184. rs base d itemsets libres d un objet La confusion ainsi g n r e est donc plus grande Consid rons un ensemble d objets T de classe c ayant certaines caract ristiques J en commun et qui ont quasiment tous chang s de classe vers cj FC pourrait consid rer J comme caract ristique de la classe cj tout en occultant d autres caract ristiques que T ou un de ces sous ensembles aurait avec d autres objets de c Ce qui impliquera des erreurs de classification dans la phase test 82 3 5 Discussion et limites Data sets C4 5 FC C4 5 Max NB FC NB Max SVM FC SVM Max HARMONY breast w 95 57 95 62 95 85 97 28 96 59 96 85 96 85 97 19 97 42 95 85 10 95 14 94 59 95 14 96 99 97 22 97 56 96 56 97 19 97 42 95 71 20 93 28 92 31 92 99 96 99 97 05 97 14 95 85 95 82 96 14 95 71 30 89 56 91 00 91 85 96 85 97 14 97 28 95 14 95 16 95 42 94 99 40 87 70 87 73 88 41 96 42 94 99 97 28 92 56 91 28 91 85 93 56 50 87 56 86 30 87 56 96 28 96 51 97 21 86 41 83 06 83 98 90 99 colic 85 04 84 31 85 85 79 90 82 73 85 31 84 77 84 59 84 77 82 88 10 83 14 82 95 85 29 78 81 82 59 84 77 84 50 85 17 86 12 82 06 20 82 04 80 88 83 12 78 81 81 28 85 31 83 94 84 88 85 82 81 79 30 80 95 80 78 82 85 79 09 81 37 83 96 80 98 84 61 85 28 82 88 40 80 93 81 72 84 21 78 00 82 32 84 22 69 55 81 87 85 30 83 15 50 81 53 82 04 83 66 73 92 80 56 82 31 63 05 76 14
185. s Regroupements e Construction de descripteurs e Classification supervis e Donn es binaires Itemsets fr quents FIGURE 2 2 Usage multiple des repr sentations d itemsets fr quents les itemsets libres pour la classification supervis e initi e dans SLGBO6 48 Troisi me partie Contributions m thodologiques 49 Chapitre 3 Construction de descripteurs base d itemsets libres Sommaire 3 1 Introduction ses 44 kx durs 51 3 2 Arbre de d cision base de motifs 52 3 2 1 Principe des arbres de d cision 53 3 2 2 R gles fortes et classes d quivalence 56 3 2 3 6 PDT un arbre de d cision base de r gles fortes 58 3 2 4 Param trage du processus et validation 62 3 2 0 DISCUSSION L3 ee Acs LEUR MR A oy unus 66 3 3 Processus g n rique de construction de descripteurs 66 3 4 Vers de nouveaux descripteurs num riques 71 3 4 1 Nouveau codage num rique des descripteurs 71 3 4 2 Param trage et validation dans les contextes bruit s 73 3 5 Discussion et limites 81 3 1 Introduction La construction de descripteurs est un des principaux th mes de recherche dans les t ches de classification supervis e partir de l ensemble des descripteurs originaux attributs le but est construire un ensemble de nouveaux descripteurs qu
186. s qui contraignent l extraction de S Dans la suite nous tudions via des exp riences les effets de y et sur notre processus et nous le testons sur un plus large panel de bases de donn es 3 2 4 Param trage du processus et validation Impact de y et 6 D un c t le dilemme li au seuil de fr quence minimum y est bien connu Pour un seuil tr s petit le nombre de r gles dans S4 est consid rable Parmi ces r gles beaucoup sont peu utiles puisqu elles sont tr s locales et ne concernent qu un petit sous ensemble de donn es Ces r gles auront une faible valeur de gain d information et il en r sultera une segmentation peu pertinente des donn es Pour un seuil tr s grand trop peu de r gles seront g n r es pour pouvoir couvrir raisonnablement la base d apprentissage ce qui ne donne pas une bonne repr sentativit des donn es d apprentissage De plus nous l avons vu en figure 3 les itemsets tr s fr quents ont une valeur de gain d information limit e ce qui implique une segmentation peu pertinente des donn es D autre part le nombre d erreurs maximum autoris es influence aussi la qualit des r gles extraites En effet pour 0 les r gles de S 5 sont des r gles fortes de confiance 1 ou encore les itemsets y fr quents libres corps de r gles sont des JEPs Malheureu sement si les donn es sont imparfaites i e l g rement bruit es et c est souvent le cas les JEPs peuvent tre rares et l ense
187. s dans la classe c3 que dans le reste de la base Y est donc un motif mergent pour la classe c3 De plus nous avons aussi FInt Y c3 r 100 x 5 45 x 5 gt 1 donc Y est positivement corr l avec c3 Par contre la confiance nous induit en erreur car le calcul de la confiance de Y c ne tient pas compte de la taille des classes ni de la r partition des erreurs des r gles dans les diff rentes classes du reste de la base Notons aussi que d une mani re g n rale si l on utilise un seuil global de fr quence minimale alors pour esp rer caract riser la classe minoritaire ce seuil devra s abaisser l chelle de la classe minoritaire ce qui aura pour effet de cr er un biais vers la classe majoritaire i e on obtiendra beaucoup plus de r gles pour la classe majoritaire Le cadre des itemsets mergents Si l on consid re l approche base de motifs mergents nous avons TA X rea 7 10 2 90 gt 31 X apparait donc relativement 31 fois plus dans c que dans le reste de la base et peut tre consid r comme un mo tif qui caract rise c Pourtant TA X r 2 5 7 95 gt 5 indiquerait que X est caract ristique de la classe ca Le taux d accroissement bien que tenant compte d une certaine mani re de la taille de certaines classes nous induit aussi en erreur et g n re des conflits de r gles car la r partition des erreurs dans les diff rentes classes n est pas prise en compte Le cadre des itemsets p
188. s de tels cas les temps d extraction sont tr s longs et les phases de post traitement deviennent difficiles et tr s couteuses Un progr s essentiel pour la faisabilit et la pertinence des calculs de motifs fr quents r side dans l tude des repr sentations condens es notamment celles qui exploitent des propri t s de fermetures BB00 BTP 00 Zak00 Intuitivement une repr sentation condens e d une collection de motifs fr quents est une repr sentation alternative et plus concise permettant si besoin est de retrouver tous les motifs fr quents et leurs fr quences sans avoir acc der aux donn es MT96 Le concept est g n ral et peut tre tudi pour diff rents types de motifs et diff rentes mesures i e pas seulement la mesure de fr quence Les avantages des repr sentations condens es sont clairs elles peuvent tre extraites plus efficacement en terme de temps et d espace que les collections de motifs qu elles per mettent de retrouver La formalisation de BTP 00 est l gante Les auteurs proposent de grouper les itemsets ayant le m me support et support s par un m me ensemble de transactions Ainsi les classes d quivalence de support contiennent des itemsets qui ont le m me support et donc la m me fr quence Avec un itemset par classe d quivalence et sa fr quence il est donc possible de d duire la valeur de fr quence de tous les autres itemsets de la classe d quivalence Cette possibilit d in
189. s des itemsets fr quents ainsi que leurs usages multiples en fouille de donn es Dans cette partie nous poserons aussi le cadre th orique de l extraction de motifs sous contraintes BRMO05 ainsi que les d finitions n cessaires aux d veloppements de nos contributions La troisi me partie d crit nos deux principales contributions la classification su pervis e base de motifs dans des contextes difficiles Le chapitre 3 pr sente notre m thode de construction de descripteurs bas e sur les itemsets libres pour la classi fication supervis e de donn es binaires ventuellement bruit es Puis dans le chapitre 4 nous d veloppons une nouvelle m thode de classification associative d di e aux probl mes multi classes in galement distribu es Ces deux chapitres contiennent galement les indis pensables tudes exp rimentales qui permettent l tude empirique de nos propositions En quatri me partie nous d veloppons un sc nario d extraction de connaissance pour l analyse de l rosion des sols en Nouvelle Cal donie Enfin la cinqui me partie propose un bilan des travaux men s au cours de cette th se et ouvre sur des perspectives de travaux futurs 11 12 Deuxi me partie Etat de l art Chapitre 1 Usage multiple des motifs locaux en classification supervis e Sommaire 11 Contexte g n ral scra snes Se wk le sa ee as 15 1 2 M thodes base de r gles 16 1 2 1 R gles i
190. s des principales applications des repr sentations condens es expos es 2 4 3 Applications et discussion En raison de la d finition m me des repr sentations condens es toutes applications ayant besoin des itemsets fr quents y trouvent leur compte En effet les itemsets fr quents sont g n r s plus rapidement partir des repr sentations condens es dans les contextes difficiles e g donn es denses Cependant utiliser les repr sentations ne changent pas le nombre d itemsets fr quents Ainsi dans des probl mes tr s difficiles la taille m me de l ensemble complet des itemsets fr quents peut faire chouer le processus de reg n ration C est pourquoi certains chercheurs se sont int ress s d river des motifs pertinents e g des r gles d associations directement partir des repr sentations condens es sans passer par la collection complete e g Zak00 GM T05 Les repr sentations condens es qui ont attir le plus d applications diverse sont celles bas es sur les propri t s de fermeture i e les itemsets 0 libres et les itemsets ferm s Par exemple les itemsets ferm s dans des donn es d expression des g nes repr sentent de r els groupes de synexpression BRBR05 Dans la suite de l tat de l art nous nous int ressons plus particuli rement aux multiples applications utilisant les itemsets libres 2 5 Usage multiple des itemsets libres Premi rement introduit en tant que repr sentat
191. s int ressants pour la caract risation des classes un post traitement est n cessaire Dans ce manuscrit nous proposons une m thode de construction de descripteurs bas s sur des motifs qu on extrait en tenant compte de l attribut classe En extrayant les itemsets y fr quents 0 libres dont la fermeture contient un attribut classe nous traitons la fois la redondance dans l ensemble des itemsets fr quents et le pouvoir discriminant des r gles fortes de caract risation construites sur ces motifs Notre approche FC est ainsi sans post traitement Les itemsets 6 libres ayant d j servi dans la construction de motifs tol rants aux erreurs comme dans la caract risation de groupements dans les contextes bruit s nous montrons dans notre approche qu un ajustement strat gique des valeurs de par rapport y permet de construire des descripteurs robustes et tol rants au bruit 125 d attribut Ainsi des classifieurs classiques comme C4 5 NB SVM voient leur pr cision am lior e sur des donn es munies des nouveaux descripteurs que nous construisons et ce pour des donn es originales comme pour des donn es dont les attributs sont bruit s Perspectives Les itemsets libres auront bient t dix ann es d applications fructueuses depuis leur cr ation Si l application directe de notre approche FC n est pas adapt e aux donn es dont les classes sont bruit es nous n avons pas tudi leur utilisation dans des processus
192. s itemsets mergents soient accessibles via ces deux bordures pour calculer le taux d accroissement d un itemset mergent le retour aux donn es est in vitable en effet si on sait qu un itemset est mergent parce qu il est fr quent dans une classe et infr quent dans le reste de la base les valeurs de fr quence sont inconnues et donc le taux d accroissement est inconnu aussi De plus l algorithme d extraction des itemsets p mergents doit tre appliqu pour chacune des classes de la base Dans la suite nous exposons deux m thodes de classification bas es sur la notion d mergence CAEP DZWL 99 utilisant les p EPs et JEPC LDROOb utilisant les JEPs La m thode CAEP Classification by Aggregating Emerging Patterns Introduite dans DZWL99 CAEP fonctionne de la mani re suivante i tant donn s deux seuils de fr quence y et de taux d accroissement p pour chaque classe c CAEP extrait len semble Se des itemsets 7 fr quents p mergents pour c ii Comme Se peut tre tr s grand contenir des redondances et des EPs moins int ressants CAEP ne garde que les EPs dits essentiels dans S Tout d abord Se est ordonn selon le taux d accroissement p puis la fr quence Puis l ensemble st est initialis avec le pu l ment de S Pour chaque autre itemset s Se on remplace tous les l ments s Se par s si s C s et a TA s r4 gt TA s Tre b ou freq s r gt freq s r et TA s r
193. s proposent un principe de classification bas sur le concept de motif mergent Les motifs mergents sont les motifs qui sont significativement plus fr quents dans une partie des donn es que dans le reste de la base La mesure d int r t qui caract rise les motifs mergents est le taux d accroissement Le taux d accroisse ment d un motif pour une classe c est simplement le rapport entre la fr quence re lative de J dans r et la fr quence relative de J dans le reste des donn es r re soit freq r r freq 4 r r4 r re La construction de classifieurs bas s sur des motifs mergents a bien t tudi e DZWL99 LDR00b LDR00a LDRO01 LRDO01 et ces mod les ont fait leurs preuves Cependant les motifs mergents d une classe c tiennent compte de la taille c et de la taille du reste des donn es Malheureusement si le reste des donn es est compos e de plusieurs classes les approches actuelles base de motifs mergents n en tiennent pas compte Ainsi dans certains cas un motif mergent pour une classe c pourra tout aussi bien tre mergent pour une autre classe c appartenant au reste des donn es Le r sultat sera l apparition de conflits de motifs et donc une d gradation de la performance des classifieurs utilis s 1 10 challenging problems at http www cs uvm edu icdm 10 D une mani re g n rale les classifieurs base de motifs existants suivent une approche dite OVA One Ver
194. sage est discr tis e selon la m thode de Fayyad et Irani FI93 puis binaris e Le sch ma de binarisation obtenu est report sur la base test Les r sultats de pr cision pr sent s plus loin sont obtenus par 10 CV Nous comparons nos r sultats de pr cision avec ceux de CPAR et HARMONY Pour une comparaison honn te les r sultats de pr cision de fitcare CPAR et HARMONY sont obtenus avec la m me discr tisation binarisation et avec la m me validation crois e g n r e par WEKA Pour ce faire nous utilisons l impl mentation de CPAR r alis e en JAVA par Coe04 que nous modifions l g rement pour produire des r sultats de pr cision par classe et l impl mentation de HARMONY r alis e en C par ses auteurs WK05 WK06 R sultats de pr cision et comparaison Tous les r sultats de pr cision sont report s dans la table 4 2 La premi re colonne Donn es indique la r partition des classes pour chaque base utilis e Lorsqu une classe c est telle que 7 7 lt 0 6 o Cmax est la classe majoritaire alors nous consid rons que nous sommes face un probl me aux classes disproportionn es et c est une des classes minoritaires mise en gras Dans les autres colonnes nous reportons la pr cision globale et la pr cision par classe pour chaque classifieur Au vu des r sultats de pr cision globale HARMONY semble le plus performant En effet HARMONY obtient 11 fois sur 19 le meilleur score ou un des
195. se de motifs Au lieu de consid rer des attributs singletons comme noeuds de l arbre nous consid rons des motifs plus pertinents des disjonctions d itemsets libres Avant tout rappelons le principe de construction d arbre de d cision classique 52 3 2 Arbre de d cision base de motifs 3 2 1 Principe des arbres de d cision La construction d arbre de d cision est une technique de classification supervis e tr s r pandue En effet l arbre de d cision est un mod le pr dictif tr s intuitif applicable de grosses bases de donn es et facile interpr ter De plus il peut s appliquer des donn es binaires comme des donn es cat gorielles ou num riques L arbre de d cision est un arbre au sens informatique du terme Ses noeuds sont des tests sur des attributs de la base qui peuvent s appliquer tout objet de la base Les r ponses possibles aux tests des noeuds sont repr sent es par les labels des arcs qui sont issus des noeuds Enfin chaque feuille est tiquet e par une classe de la base Ainsi pour pr dire la classe d un nouvel exemple t il suffit de partir de la racine de l arbre de descendre dans l arbre en suivant les arcs issus des noeuds tests que t v rifie jusqu une feuille qui indique la classe pr dire Bien qu il existe plusieurs algorithmes de construction d arbre de d cision on peut g n raliser ces algorithmes autour de trois points cl s i d cider si un noeud est ter mina
196. ssant par les plaines alluviales et les mangroves jusqu au lagon et aux barri res de corail Feux de brousse d forestation et activit s humaines sont des acc l rateurs du processus d rosion en montagne Les s diments ainsi produits sont transport s vers les plaines c ti res la mer et le lagon via les principales lignes de drain L impact sur les activit s humaines telles que les mines ciel ouvert l levage ou la p che est imm diat et r current Il est donc important d identifier les facteurs des processus d rosion afin de planifier une gestion durable de l environnement Plus pr cis ment une estimation de l al a rosion est n cessaire pour assurer des nouveaux d veloppements avec des impacts r duits de l rosion Cependant la cartographie des zones d rosion ainsi que l estimation de l al a rosion l chelle de r gion sont co teuses en temps et en argent et sont rarement mises jour Les donn es disponibles pour tenter de d crire le ph nom ne d rosion sont volumineuses et h t rog nes images satellitaires mesures physiques ob servations qualitatives Ainsi pour comprendre et pr dire ce ph nom ne environne mental des techniques d analyse avanc es et semi automatique sont n cessaires Dans la suite nous d crivons les donn es d rosion mises notre disposition et utilis es dans nos exp rimentations Puis nous proposons un sc nario complet de d couverte de connaissances afi
197. sso ciative est une m thode de classification supervis e bas e sur les r gles d association Avant de discuter de ces m thodes nous rappelons bri vement les travaux pionniers sur l extraction des itemsets fr quents et des r gles d association Lors de leur introduction dans AIS93 AS94 les auteurs proposent d extraire les r gles d associations valides en utilisant l ensemble des itemsets fr quents voir d finitions 3 et 4 D finition 3 Itemset Itemset fr quent Support Un itemset I C T est un sous ensemble d attributs de T La fr quence d un itemset I C T est freq I r Objets I r o Objets I r t T Vi Z R t 4 1 est appel support de I et not supp J r tant donn un entier positif y un itemset est dit y fr quent si JreqI r gt y Par la suite nous utiliserons aussi la notion de fr quence relative d un itemset I qui est freq Jr freq lr lrl D finition 4 R gle d association Une r gle d association dans r est une expression de la forme 7 I gt J o I C T et J C Z MI La fr quence d une telle r gle x dans r est freq n r freq I U J r et sa confiance conf r r freq U J r f req I T Soit min freq et min conf deux valeurs de seuil donn es la r gle d association m est dite valide si freq a r gt min freq et conf r r gt min conf Lorsque J est un attribut classe c 7 I c est appel e r gle d association de classe En effet soit J C Z un itemset tel que fre
198. st d termin e en fonction de l ensemble S U ec S des OVE CRs et de leur fr quence relative dans chaque classe Pour ce faire pour chaque classe c nous calculons un score t c qui refl te la ressemblance de t avec la classe cj I t Ci freq X Ta cec r X cesS XCltems tr En fait pour une classe c L t c somme les fr quences relatives par rapport re de toutes les r gles que t supporte Ainsi les erreurs relatives dans re des r gles concluant sur les classes c j i et support es par t sont aussi prises en compte dans le calcul de 93 Vers une solution pour les classes in galement distribu es I t ci La classe c qui maximise l t c est la classe pr dire pour t Notre impl mentation de ce classifieur CGSBOS8 est appel fitcarc et son manuel d utilisation est report en appendice 4 3 Param trage automatique avec fitcare Le probl me inh rent notre approche vient du fait que nous devons positionner une multitude de param tres en fait exactement p param tres pour un probl me p classes contre un ou deux param tres pour les approches existantes e g fr quence et confiance fr quence et taux d accroissement Si positionner un ou deux param tres n est d j pas chose ais e pour un utilisateur final ventuellement non expert en fouille de donn es il n est pas question ici de positionner les param tres de l manuellement C est pourquoi dans cette se
199. struit pour c jusqu alors est l ensemble de r gles finales pour c Deuxi me condition si tous les objets positifs sont couverts alors RIPPER s arr te Dans les deux cas RIPPER est appliqu aux classes restantes Noter que RIPPER dispose aussi de techniques d optimisation suppl mentaires bas es sur la longueur minimale de description MDL Minimum Description Length pour d cider si certaines r gles de l ensemble final peuvent tre remplac es par d autres r gles Ceci sort de notre cadre de travail Toutefois les int ress s peuvent se r f rer l article origi nal FW94 La m thode CPAR Classification based on Predictive Association Rules Introduit dans YH03 CPAR propose deux am liorations par rapport FOIL et RIPPER i CPAR propose d apprendre plusieurs r gles en m me temps iz Au lieu d enlever les objets couverts par une regle induite les objets couverts sont pond r s de telle sorte qu ils puissent tre couverts nouveau par de nouvelles r gles induites CPAR Apprentissage de r gle CPAR construit ses r gles selon l algorithme 4 en utilisant la m me fonction de gain que FOIL Lors de l accroissement du corps de la r gle seuls les attributs qui apportent un gain sup rieur un gain minimum donn gain minimum 0 7 sont retenus ligne 6 Lorsque plusieurs attributs apportent peu pr s le m me gain au plus 1 de diff rence la r gle courante ligne 12 alors plusieurs r gles s
200. sus All i e pour un motif donn on s int resse sa fr quence dans une classe donn e et sa fr quence dans le reste des donn es Nous pensons que la nature m me de cette approche est la raison premi re des probl mes rencontr s par les classifieurs base de motifs dans les donn es multi classes in galement distribu es en particulier en ce qui concerne la faible pr cision dans les classes minoritaires et le biais des classifieurs OVA vers la classe majoritaire Dans le chapitre 4 nous mettons en vidence les probl mes rencontr s par les approches OVA et proposons une nouvelle m thode pour pallier aux probl mes identifi s Plus pr cis ment nous proposons un classifieur base de motifs sp cialement d di ce type de probl me en suivant une approche dite OVE One Versus Each o pour un motif donn on s int ressera sa fr quence dans une classe c et sa fr quence dans chacune des autres classes c j i du reste des donn es Organisation du m moire Ce m moire est organis en cinq parties de la mani re suivante La prochaine partie est consacr e un tat de l art de nos deux th mes centraux Le chapitre 1 passe en revue les principales approches de classification supervis e base de motifs Nous rappellerons les m thodes base de regles inductives de r gles associa tion et d itemsets fr quents Dans le chapitre 2 nous exposons l existant en mati re de repr sentations condens e
201. t celles utilisant les r gles d asso ciation Ces deux types de r gles diff rent par leur construction D finition 2 R gle Une r gle est une expression de la forme x I J o I CT et J C ZI I est appel ant c dent ou corps de la r gle et J cons quent Lorsque J est un attribut classe x est appel e r gle de classe Un objet t T est couvert par une r gle T 1 J siVi I on a R t i 1 L ensemble des objets couverts par n dans r est not couu T r 16 1 2 M thodes base de r gles Intuitivement une r gle de classe 7 J c peut tre interpr t e de la mani re suivante si un objet t est d crit par les attributs de J alors t est aussi de classe c Typiquement les regles de classe servent d cider la classe de nouveaux objets entrants de ce fait elles sont aussi appel es r gles de d cision dans la litt rature 1 2 4 R gles inductives Dans la litt rature les diff rentes approches d apprentissage de r gles induc tives QCJ93 Coh95 YH03 suivent l approche g n rique par couverture s quentielle d crite dans l algorithme 1 Par la suite nous d crivons le fonctionnement des diff rentes approches et proposons une discussion comparative des classifieurs trait s Approche g n rique par couverture s quentielle L algorithme de couverture s quentielle est un algorithme de type glouton A chaque tape une r gle est apprise en utilisant une heuristique ligne 5 puis les
202. t clos comme motifs pour la classification supervis e est principalement due la fa on d extraire les motifs extraire dans toute 67 Construction de descripteurs base d itemsets libres la base ou par classe De plus comme les deux approches ne prennent pas en compte la distribution des classes dans les donn es un post traitement est n cessaire pour acc der aux motifs libres ou ferm s discriminants En effet nous ne recherchons pas uniquement les propri t s de fermeture pour traiter la redondance mais nous voulons aussi exploiter les mesures d int r t pour obtenir des motifs discriminants Pour prendre en compte la distribution des classes et viter un post traitement nous proposons par la suite de garder l attribut classe lors de la phase d extraction et ainsi utiliser l information contenue dans une CEC qui contient l attribut classe Comme pr c demment nous nous int resserons aux CECs dont un libre ne contient pas d attribut classe et dont la fermeture contient une classe voir les cas 3 et 4 de la figure 3 2 Dans la suite nous montrons que les 0 CECs de notre approche contiennent plus d informations que les motifs utilis s dans les autres approches classique ou par classe Informations contenues dans une CEC Consid rons la table de contingence pour la r gle de classification m X c en fi gure 3 5 Pour toutes les approches classique par classe et la notre la distribution des classes f
203. t maintenant possible de qualifier les facteurs d rosion De plus l ensemble des r gles OVE sert comme base pour la construction d un classifieur d di aux donn es aux classes disproportionn es Nous avons alors propos un mod le pr dictif performant pour les zones d rosion ainsi qu une m thode d estimation de l al a rosion en Nouvelle Cal donie La cartographie des zones d rosion et de l al a rosion s en trouve facilit e Perspectives Une perspective int ressante pour les travaux de recherche sur la caract risation de l rosion des sols serait de prendre en compte la dimension spatiale dans les donn es En effet par exemple la proximit de certains sols de type lat rite ou forte pente ou encore couvert par du maquis minier clairsem et des plateformes mini res est intuitivement une combinaison propice l apparition de l rosion Cette combinaison est inaccessible via nos m thodes qui ne prennent pas en compte la notion de voisinage des zones Depuis 2009 l quipe Data Mining du PPME a tendu ses axes de recherche la fouille de donn es spatiales Spatial Data Mining Les avanc es dans ce nouvel axe offre de belles perspectives dans ce domaine d application A titre d exemple dans SFFG 09 FSFG 10 une premi re approche d extraction de motifs spatiaux i e co locations int ressantes d v nements est propos e pour la caract risation de l rosion des sols 128 Appendice Descrip
204. t pr diction Gain d information des k itemsets fr quents Processus de classification supervis e base de motifs Repr sentation des itemsets ferm s libres et des classes d quivalence sous forme de treillis pour l exemple de la table 2 1 Usage multiple des repr sentations d itemsets fr quents Arbre de d cision C4 5 pour les donn es weather Les 4 cas typiques de 6 CECs Arbres de d cision sur weather Processus g n rique de construction de descripteurs base de motifs Table de contingence pour la r gle de classification m X c qui conclut s r larclass ur dole eem Sob NVPP E Ree Gide Nude a ie eed Table de contingence pour la r gle forte m X c et bornes en fonction PACE Der 2s 2 d aom ded de Sus d dur true dens Nee M i Det de a feld tub edd Processus g n rique de construction de descripteurs base de motifs Evolution de la pr cision de FC C4 5 en fonction de pour divers niveaux de bruits et seuils de fr quence pour les donn es tic tac toe Evolution de la pr cision de FC NB en fonction de pour divers niveaux de bruits et seuils de fr quence pour les donn es colic 36 XV Table des figures xvi 3 10 Evolution de la pr cision de FC SVM en fonction de 6 pour divers niveaux de bruits et seui
205. te mesure volue de la m me mani re que la pr cision de 7 sur l ensemble d lagage Puis en partant du dernier attribut a ajout m si v m IN a gt ci Prog Nie gt v m I ci Piest Neest alors on limine a Et ainsi de suite pour les autres attributs Noter que la fonction d apprentissage de RIPPER contient une fonction d arr t ligne 4 qui stoppe l apprentissage d s lors que le taux d erreur de la r gle en construction est sup rieur 50 Algorithme 3 RIPPER ApprendreRegle Entr e r 7 Z R un contexte binaire C c l ensemble des classes par ordre croissant de taille c C la classe courante P l ensemble des objets positifs de classe c N l ensemble des objets n gatifs Sortie 7 une regle induite 1 begin 2 m FOIL ApprendreRegle r ci Papp Napp 3 m Elaguer 7 Piest Ntest 4 if Taux Erreur n Piest Niest gt 50 then 5 return CurrentRuleSet 6 end 19 Usage multiple des motifs locaux en classification supervis e RIPPER Suppression des transactions couvertes Lorsqu une r gle 7 est ra jout e tous les exemples positifs comme n gatifs couverts par m sont enlev s de la base RIPPER Condition d arr t RIPPER dispose de deux conditions d arr t Premi re condition apr s chaque construction de r gle 7 si le taux d erreur de m exc de 50 dans Piest U Nyest alors m n est pas rajout l ensemble de r gles et RIPPER s arr te l L ensemble con
206. technique les r gles fortes peuvent tre construites partir des itemsets d libres qui sont en fait les corps des r gles fortes BBRO03 Les itemsets libres sont aussi li s aux notions de presque fermeture ou fermeture BB00 et de fermeture lorsque 0 En effet lorsque 0 un itemset 0 libre J et sa fermeture J cl I r ayant le m me support il existe donc une r gle forte exacte entre J et chacun des l ments de sa fermeture i e I a o a J I Lorsque gt 0 on consid re que la fermeture cl I r d un itemset libre J est l ensemble des attributs b Z tels que freq I r freq I U b r Ainsi il existe une r gle forte entre et chacun des l ments de sa fermeture i e I b o b cl I I Notons que pour des valeurs faibles de par rapport y les r gles fortes extraites commettent peu d erreurs et sont alors de forte confiance Consid rons l exemple de base de donn es binaires de la table 2 1 Pour un seuil de fr quence minimum y 3 et un seuil d erreurs maximum 6 1 l ensemble des itemsets y fr quents libres est a b et e Leur fermeture respective associ e au gap de fr quence entre libre et l l ment de la fermeture est c 0 d 0 e 1 a 1 c 0 d 0 e 1 et a 1 c 0 d 0 Par exemple a e est une r gle 1 forte de confiance 0 75 et a c est une r gle de confiance 1 L extraction de r g
207. ted to this line is described by three attributes male basketball and gymnastics The attributes are separated by the charac ters or and The fact that two attributes may be separated by several separators does not raise any trouble To be properly understood the user must indicate the separators other wise defaults are used The related option is iis for Input Item Separators In the previous example fitcarc can be called as fol lows fitcarc iis dataset txt Option rules r is mandatory Its argument rules is a file contain ing class association rules It typically is the output of an extrac tion with fitcare The manpage of fitcare provides more information about its format DATA Option out o is used to set the output file name When omitted the output file name is the input file name classified For exam ple if dataset is dataset txt the default output file name is dataset txt classified The output data is composed of a preamble describing the format ended with a line End Of Parameters and the rules Every rule is stated in one line composed of the list of attributes of the body of the rule followed by the normalized frequencies of the rules in each class the frequencies of all classes sum to 1 The string separating the different elements of the rules are listed in the preamble after classes the classes on which the rules are concluding after ois
208. tes C4 5 s pare les donn es selon l attribut qui r colte le plus haut gain ratio humidity high R sultat de la s paration 6yes 0no et 2yes 4no De son c t PDT utilise le gain ratio de la r gle 0 forte m outlook sunny humidity high no pour segmenter les donn es R sultat de la s paration 8yes 1no et 0yes 2no Ainsi pour C4 5 G humidity high r 0 4592 GR humidity high r 0 4592 et pour PDT G z r 0 5409 GR z r 0 6667 Selon IG et GR a est plus discri minante que n importe quel attribut singleton Il en r sulte une meilleure segmentation des donn es 61 Construction de descripteurs base d itemsets libres 0 1 E a Arbre de d cision C4 5 appris sur la base d en b Arbre de d cision base de motifs appris sur trainement la base d entrainement FIGURE 3 3 Arbres de d cision sur weather Consid rons maintenant les deux objets test t4 tg C4 5 classe mal ces deux si tuations car pour t4 pour les propri t s humidity high et outlook overcast C4 5 indique no et pour tg pour la propri t humidity high C4 5 indique yes Au contraire avec une segmentation diff rente 6 PDT permet de bien classer t4 Avec cet exemple nous avons une premi re id e des effets de l utilisation de r gles fortes pour construire un arbre de d cision Toutefois il parait clair que ce processus d pend fortement des pa ram tres fr quence et 6 nombre d erreur
209. the string separating the attributes of the objects after bfs the string separating the objects from the normalized frequencies of the class association rules matching them or the most probable class attribute if simple is used after fs the string separating the normalized frequencies of the class association rules matching the object These separating strings can be chosen The attributes are separated by a string set with option ois by default The object is separated from the prediction with the string set with option bfs by default The normalized frequencies are separated by a string set with option ES by default FN Option simple s simplifies the prediction form Instead of out putting the normalized frequencies of the class association rules matching the object the most probable class related to the greatest frequency is output BUGS Report bugs to lt magicbanana gmail com gt SEE ALSO fitcare 1 COPYRIGHT 2008 INSA Lyon Contributor Lo c Cerf magicbanana gmail com Loic Cerf Dec 2008 FITCARC 1 142 Bibliographie AC06 AIS93 AN07 AS94 Bay98 BBO00 BBJ 02 BBRO0 BBR03 BCo1 Bavani Arunasalam and Sanjay Chawla CCCS A top down associative classifier for imbalanced class distribution In Proceedings ACM SIGKDD 06 pages 517 522 2006 Rakesh Agrawal Tomasz Imielinski and Arun N Swami Mining assoc
210. tifi les faiblesses de certaines approches de classification supervis e base de motifs locaux Les approches par r gles inductives n assurent pas d obtenir l en 2 MEJEP Most Expressive Jumping Emerging Patterns pour l ensemble des JEPs les plus expressifs 28 1 4 Limites semble des meilleures r gles en raison de la nature m me de l algorithme de couverture s quentielle Les approches par r gles d association au contraire misent sur un ensemble ex haustif ou presque des r gles valides L extraction est alors co teuse l ensemble r sultant est vaste et contient des motifs ind sirables car moins int ressants et redondants par rap port d autres Dans le chapitre 2 nous replacons l extraction de motifs fr quents dans le cadre de travail de MT97 nous discutons des diff rentes repr sentations condens es des motifs fr quents que nous utilisons pour traiter la redondance en classification supervis e dans le chapitre 3 Dans WK05 WKO06 pour viter la phase exhaustive d extraction et de post traitement les auteurs proposent un nouveau cadre de travail centr sur les objets de la base Ils extraient directement les k r gles les plus confiantes pour chaque objet Tou tefois la confiance ne prenant pas en compte la distribution des classes n est pas tr s appropri e pour les probl mes aux classes disproportionn es Les approches base d EPs apportent une solution ce probl me avec le taux d accro
211. tion de mod le pr dictif Extraction de motifs Donn es binaires Ensemble de motifs Mod le de classification FIGURE 1 1 Processus de classification supervis e base de motifs Si la mani re de combiner les motifs locaux afin de construire un classifieur est im portante et reste un probl me ouvert l extraction de motifs est l autre phase critique du processus En effet la qualit en terme de pr cision d un classifieur base de motifs d pend fortement de la qualit de l ensemble des motifs extraits Dans la litt rature les auteurs s accordent sur certains points cl s qui caract risent un bon ensemble de mo tifs pour la classification supervis e chaque motif doit tre consid r comme int ressant par rapport une mesure d int r t pour tre repr sentatif des donn es d apprentissage l ensemble des motifs extraits doit couvrir une grande majorit des objets enfin l en semble des motifs doit tre concis et sans redondance Dans la suite nous ferons le lien entre chacun de ces points cl s et chacune des m thodes expos es Toutes les m thodes pr sent es dans ce chapitre sont de type OVA One versus All les motifs extraits sont caract ristiques d une classe par rapport l union des autres classes 1 2 M thodes base de r gles Les m thodes de classification supervis e base de r gles peuvent tre regroup es en deux cat gories celles utilisant les r gles inductives e
212. tion des donn es d exp rimentation Base de donn es meningite La base de donn es meningite r pertorie des informations sur 328 enfants atteints de m ningite aigu Il existe deux types de m ningite d origine virale la majorit des cas soit 245 ou d origine bact rienne un quart des cas soit 84 Les 23 attributs discrets de descriptions des diff rents sont ou des param tres pid miologiques e g saison ge sexe ou des param tres sur l tat du patient e g temp rature forme encore des r sultats d analyse e g glucose Les traitements indiqu s contre la m ningite diff rent fortement selon le type Cela va de la simple surveillance m dicale pour le virus la prescriptions d anti biotiques appropri s contre la bact rie C est pourquoi il est important de rapidement bien diagnostiquer Bases de donn es UCI Dans la table 5 3 nous reportons une description succincte des donn es utilis es nombre d objets d attributs de classes et la r partition des objets dans les diff rentes classes Il faut savoir que le nombre d attributs indiqu correspond au nombre d attributs des donn es originales Apr s discr tisation le nombre d attributs est souvent plus grand Pour plus d informations sur chacune de ces bases nous invitons le lecteur consulter le r pertoire en ligne de bases de donn es de l Universit de Californie Irvine AN07 http archive ics uci edu ml 129 130
213. traire des motifs e g des corr lations entre ensemble d attributs des tendances dans les donn es des groupes pertinents d enre gistrements ou clusters ou encore des anomalies dans les donn es qui r sument les relations sous jacentes aux donn es Les t ches pr dictives le but est de pr dire la valeur d un attribut particulier l aide des valeurs des autres attributs Cet attribut particulier est souvent appel attribut classe ou label tandis que les autres attributs sont appel s des descripteurs Le post traitement peut consister en la visualisation l interpr tation ou l valuation des r sultats de la fouille Mais aussi cette tape peut avoir pour but d int grer les mod les construits descriptifs ou pr dictifs dans des syst mes d aide la d cision Notez que le processus KDD se veut it ratif Ainsi l interpr tation des informations ou connaissances obtenues l tape de post traitement peuvent nous conduire r it rer tout ou partie du processus en utilisant ces m mes connaissances selon les directives des experts du domaine d application Dans ce manuscrit nous nous focalisons sur la classification supervis e pour les t ches de pr diction appliqu es des donn es binaires Les donn es d entr e pour un algo rithme de classification supervis e sont des enregistrements galement appel s exemples Chaque enregistrement sera pour nous un tuple c o J est un ensemble d attributs
214. tte m thode n est pas tout fait de type OVA bien que les motifs extraits sont caract ristiques d une classe par rapport l union de plusieurs autres classes Pour pr dire la classe d un nouvel objet entrant t l ensemble de r gles est utilis comme une liste de d cision ordonn e par construction i e la premi re r gle support e par t indique la classe pr dire Les faiblesses de FOIL et RIPPER sont dues au fait que les exemples d apprentissage ne sont couverts qu une seule fois ce qui r sulte en un petit ensemble de r gles inductives En rai son de la nature m me de la proc dure Apprendre Regle qui s lectionne successivement le meilleur attribut pour accro tre une r gle certaines r gles importantes peuvent tre oubli es En effet la s lection du meilleur attribut occulte d autres attributs qui peuvent tre int ressants mais un peu moins De m me la nature de l algorithme de couverture s quentielle ne garantit pas que l ensemble final de r gles est le meilleur Le fait de retirer les objets couverts implique que les valeurs de gain calcul es par la suite ne sont plus globalement optimales CPAR au contraire i g n re des r gles inductives pour chacune des classes en la s parant des autres classes ii permet de g n rer plusieurs r gles la fois si plusieurs attributs apportent un gain similaire celui du meilleur attribut iii permet par un syst me de pond ration de couvrir certains objets
215. uation et ainsi vite p tours de boucle vide Optimisation apr s la premi re it ration lors d une it ration k de la boucle prin cipale si la ligne de param tres pour la classe courante classId n a pas t modifi e la fonction RATIONALIZEPARAMETERS force la ligne courante respecter les contraintes Chigne et Ceotonne en diminuant les param tres seuils d infr quence et renvoie vrai si mo dification il y a eu sinon faux lignes 5 6 Une bonne partie de notre espace de recherche est donc lagu Puis on teste si les param tres ont t modifi s lors de la rationalisation ou la ligne 21 lors de l it ration pr c dente Si les param tres n ont pas t modifi s on passe la classe suivante ligne 15 et lorsque classId gt p on teste si I nous fournit un meilleur ensemble de r gles Puis on continue la diminution de param tres ligne 21 Si les param tres ont t modifi s alors souvent la couverture maximale pour la classe courante a t perdue La fonction LEARNPARAMETERS ligne 8 tente de re trouver cette couverture maximale en diminuant les param tres i e en diminuant les seuils de fr quence et si n cessaires en diminuant les seuils d infr quence pour respec ter Crigne Si la couverture maximale est retrouv e alors les seuils d infr quence sont diminu s jusqu leur minimum tout en gardant la couverture maximale et LEARN PARAMETERS renvoie vrai le prochain tour de boucle
216. uent ou non En effet s il existe J un itemset non fr quent libre minimal tel que J J alors J n est pas fr quent sinon on peut approximer la fr quence de J et M 4 E i sciet y 3 FIGURE 2 1 Repr sentation des itemsets ferm s libres et des classes d quivalence sous forme de treillis pour l exemple de la table 2 1 Lorsque 6 0 les itemsets 0 libres rejoignent la notion des itemsets cl s ou g n rateurs BTP 00 Les notions d itemset libre et ferm sont unifi es dans la no tion de la classe d quivalence de fermeture ou encore appel classe d quivalence de sup port BTP 00 Dans une classe d quivalence de support sont regroup s tous les itemsets 36 2 4 Autres repr sentations condens es support s par le m me ensemble d objets Les itemsets d une m me classe d quivalence ont bien s r la m me fr quence mais aussi la m me unique fermeture Ainsi un itemset ferm est l unique itemset maximal selon C d une classe d quivalence Les itemsets 0 libres sont quant eux les minimaux des classes d quivalence ventuellement plusieurs par classe d quivalence En figure 2 1 nous repr sentons les classes d quivalence pour l exemple en table 2 1 En rouge les itemsets ferm s en vert les itemsets 0 libres et en bleu clair les classes d quivalence dont les l ments ne respectent pas la contrainte de fr quence minimum y 3 repr sent par la courbe en p
217. uer un param tre Yili k ou y k j A k qui sont des causes de la faiblesse de g c cj Pour d terminer la cause principale chaque classe mise en jeu dans 97 Vers une solution pour les classes in galement distribu es le d nominateur de g c cj est valu e s par ment freq X Tre teTe m X c1 X Cltems t r gt gt frea X ro t To nr X c2eS XCItems t r freg X re t To 1 X c S XC Items t r Nous pensons que le plus grand terme du d nominateur en est la cause principale En g n ral le plus grand terme est le 7 terme ou le j terme Le indique que les r gles concluant sur c sont trop fr quentes dans r le j au contraire indique que les r gles concluant sur c sont trop fr quentes dans re Ce terme nous d voile le param tre de T diminuer et qui est le plus prometteur En effet si le 7 terme est le plus grand alors 7 sera diminu de 1 en absolu si c est le j qui est le plus grand alors 7j sera diminu Une fois qu un param tre y ou Yj a t diminu si la contrainte de couverture posi tive maximale n est plus respect e alors il faut diminuer les ou y j jusqu retrouver la couverture maximale et ensuite diminuer les 7 ou Yj tout en gardant la couverture maximale Une nouvelle extraction est alors effectu e et si g c c est am lior alors T est gard comme nouvelle meilleure matrice de
218. ujours un probl me ouvert Il existe des solutions pr liminaires ce probl me e g ZWZL08 Et dans le chapitre 4 nous proposons une m thode pour s lectionner automatiquement des seuils de fr quence minimum Toutefois pour le chapitre pr sent nous nous focaliserons sur la s lection du param tre tant donn y tant donn un seuil de fr quence minimum comment d terminer une valeur de 6 pertinente L volution des mesures d int r t d pendantes telles que T A et conf sont bien connues Des valeurs d croissantes de 6 impliquent des valeurs croissantes pour TA mais de tels motifs peuvent tre rares et ou non pertinents dans des donn es bruit es D autre part lorsque 6 augmente l instar de la caract risation de groupes par des bi ensembles les motifs extraits pourront repr senter des motifs bruit s dans les donn es d apprentissage mais de plus grandes valeurs de y d t riorent la qualit des motifs de Sy5 i e TA d croit lorsque 6 augmente puisqu on autorise plus d erreurs Dans la suite nous proposons une strat gie pour d terminer Nous motivons notre strat gie par une tude exp rimentale de l volution des r sultats de pr cision en fonction des valeurs 74 3 4 Vers de nouveaux descripteurs num riques Une simple strat gie pour d terminer En figure 3 8 3 9 et 3 10 nous repr sentons les r sultats de pr cision en fonction de des valeurs de 6 pour diverses va leurs de
219. ule followed by the normalized frequencies of the rules in each class the frequencies in the positive class sum to 1 The string separating the different elements of the rules are listed in the preamble after classes the classes on which the rules are concluding after ois the string separating the attributes of the bodies of the rules after bfs the string separating the bodies of the rules from the normalized frequencies of these rules in each class after fs the string separating the normalized frequencies if the classifer includes class association rules with negations of attributes after np the prefix indicating such a negation These separating strings can be chosen The attributes are separated by a string set with option ois by default The body of the class association rule is separated from the normalized frequencies with the string set with option bfs by default The normalized frequencies are separated by a string set with option bs by default 3 PROPORTION OF TESTING OBJECTS By default the classifiers are assessed on the learning objects When learning the thresholds the data set may be overfitted Option test ing t is used to specify a proportion of objects that are set appart for testing purpose only the CARs are not directly derived from these objects For example to test the considered classifiers on 25 of the objects fitcare can be ca
220. ur ensembles ne seront pas candidats car nous voulons les minimaux selon l inclusion ensembliste Dans la suite nous proposons une m thode pour utiliser Sj pour construire des descripteurs robustes 3 4 Vers de nouveaux descripteurs num riques 3 4 1 Nouveau codage num rique des descripteurs L id e cl est de construire un nouveau descripteur pour chaque r gle forte de ca ract risation d SCR extraite Le nouveau descripteur sera alors un nouvel attribut Dans CYHHO7 les auteurs utilisent un codage binaire C est dire pour un objet t la valeur du nouveau descripteur est 1 si la SCR correspondante couvre t et 0 sinon Dans cette section nous proposons un codage num rique plus prometteur pour construire de nouveaux descripteurs Le processus de construction de descripteurs FC est r sum par l algorithme 8 Tout d abord ligne 2 la proc dure FeaturesExtraction extrait tous les itemsets fr quents libres I qui sont les corps de SCRs dans r Puis chaque J devient un nouvel attribut pour r Et ligne 5 la valeur de J pour un objet t est la proportion d attributs de J qui sont v rifi s par t dans r L op rateur tems est l op rateur dual pour Objets Ainsi R T x T 0 1 et R t I prend ses valeurs entre 0 et 1 plus 71 Construction de descripteurs base d itemsets libres Algorithme 8 FC construction de descripteurs bas s sur les motifs input r 7 1 R une base
221. urs de y et divers niveaux de bruit pour tic tac toe Comme attendu la pr cision d entrainement augmente avec jusqu stabilisation pour des valeurs not es opt Ces dpt Sont particuli rement int ressantes car pour 0 lt dop la pr cision d entrainement est moindre qu avec dope et pour gt dopt l am lioration de la pr cision d entrainement par rapport lt dop n est pas significative voire nulle car les r gles extraites sont moins 75 Construction de descripteurs base d itemsets libres tic tac toe bruit 20 tic tac toe bruit 30 100 Pr cision 96 Pr cision 96 tic tac toe bruit 5096 85r oo eo Pr cision 96 e Pr cision 96 N ol C45 40 70 70 35 30 25 9 1 2 8 4 5 6 7 8 9 10 11 12 13 65 1 2 3 4 5 6 7 8 9 10 11 12 13 FIGURE 3 8 Evolution de la pr cision de FC C4 5 en fonction de 6 pour divers niveaux de bruits et seuils de fr quence pour les donn es tic tac toe pertinentes Comme le niveau de bruit n est pas connu a priori nous proposons la strat gie suivante pour d terminer une valeur proche de 5 1 Augmenter en partant de 0 2 Analyser la pr cision d entrainement jusqu stabilisation Notons que par souci d adaptatilit nous analysons ici la pr cision d entrainement plut t que la couverture de base d entrainement pour d termi
222. ux d accroissement TA caract risant les motifs mergents ce qui nous assurera une corr lation positive voir la proposition 1 et sa preuve en appendice Proposition 1 Soit un entier p gt 1 seuil de valeurs minimum pour TA ett X gt ci une r gle d association concluant sur la classe c Alors TA X r gt 1 X est positivement corr l avec c Dans HC06 les auteurs placent plusieurs mesures d int r t dont conf et TA dans un cadre de travail plus g n ral appel les mesures d pendantes De telles mesures not es m d pendent de la fr quence y du corps de la r gle et du nombre d erreurs que commet la r gle dans r selon les deux principes suivants i lorsque y est fixe m X r augmente avec freq m r iti lorsque est fixe m X r augmente avec y Ce cadre de travail nous permet de d river des bornes inf rieures pour les mesures d int r t dites d pendantes en fonction des valeurs de y et 6 V rifions le pour la confiance et le taux d accroissement Consid rons la table de contingence pour une r gle forte X c en table 3 6 7 6 SCR pour strong characterization rule 8 Ici fr quente veut dire y 6 fr quente puisque est la fr quence du corps de r 69 Construction de descripteurs base d itemsets libres T X Ci Ci Cj M X y y X 3 gt Irc In rel r FIGURE 3 6 Table de contingence pour la r gle f
223. w instance based lazy discovery and classification system Ma chine Learning 54 2 99 124 2004 Bing Liu Wynne Hsu and Yiming Ma Integrating classification and asso ciation rule mining In Proceedings KDD 98 pages 80 86 AAAI Press 1998 Wenmin Li Jiawei Han and Jian Pei CMAR Accurate and efficient clas sification based on multiple class association rules In Proceedings ICDM 01 pages 369 376 IEEE Computer Society 2001 Jinyan Li Guimei Liu and Limsoon Wong Mining statistically important equivalence classes and delta discriminative emerging patterns In Proceedings of the 13th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining KDD 07 ACM Press 2007 Jinyan Li Kotagiri Ramamohanarao and Guozhu Dong The space of jum ping emerging patterns and its incremental maintenance algorithms In Pro ceedings of the Seventeenth International Conference on Machine Learning pages 551 558 2000 Jinyan Li Kotagiri Ramamohanarao and Guozhu Dong Combining the strength of pattern frequency and distance for classification In Proceedings of the 5th Pacific Asia Conference on Knowledge Discovery and Data Mining pages 455 466 2001 Heikki Mannila and Hannu Toivonen Multiple uses of frequent sets and condensed representations extended abstract In ADD AAAI Press 1996 Heikki Mannila and Hannu Toivonen Levelwise search and borders of theories in knowledge discovery Data Mining and Knowledge Discovery 1 3 241
224. y et de niveau de bruit pour FC C4 5 sur les donn es tic tac toe figure 3 8 pour FC NB sur les donn es horse colic figure 3 9 et pour FC SVM sur les donn es heart cleveland figure 3 10 Pour r f rence nous reportons aussi la pr cision obtenue avec le classifieur classique en question dans les m mes conditions de bruits voir la droite en gras dans chaque graphe Nous remarquons que la pr cision de FC augmente pas n cessairement de mani re monotonique avec jusqu un point maximal pour dmax souvent meilleur que la pr cision obtenue avec le classifieur classique sur les donn es aux attributs originaux Ensuite la pr cision de FC d croit Nous avons repr sent ici des graphiques pour trois bases et trois classifieurs classiques mais ce comportement est le comportement g n ral de la pr cision FC vis vis de 6 que nous pouvons observer aussi sur d autres bases de donn es Notons aussi que plus il y a de bruit d attribut plus doz est grand De m me si l on consid re 0 les plus petites valeurs de pour lesquelles FC produit une meilleure pr cision que le classifieur classique on observe que plus il y a de bruit plus ds doit tre grand pour capter le bruit et obtenir de meilleures perfor mances que le classifieur classique ce qui confirme bien les valeurs de sont li es la quantit de bruit dans les donn es En figure 3 11 nous repr sentons les r sultats de pr cision en fonction du niveau

Download Pdf Manuals

image

Related Search

Related Contents

UPT VHS - Mairie de Forbach  30" PEDESTAL FAN  5040pr.qxd (Page 2)  Philips SRC3036WM Big button Universal remote control  Philips 42PFL9742D 42" LCD DVB-T MPEG4 flat HDTV  ES Manual 68008 Sparrowhawk A5  Manual de usuario en español Modelo ZA950  FW-1884 - Teacmexico.net  Progress Lighting P2738-09 Instructions / Assembly  取扱説明書  

Copyright © All rights reserved.
Failed to retrieve file