Home
StatBox 7
Contents
1. Variables et observations suppl mentaires Options Sorties Mise enfome Variable s disponible s Variable s en ligne TFI S Impaired Driving S Possession of Narcotics S Theft Under 1000 Dollars Other S Mischief Variable s en colonne e SHAG7 amp Ces CE gt Variable s en ligne s variable s qualitative s manquantes ne sont pas autoris es l s des lignes du tableau de contingence suppl mentaire s dans le cas d un tableau observations variables saisissez la les s suppl mentaire s dont les modalit s constitueront les lignes suppl mentaires du tableau de contingence Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives Stai de refus StatBox propose alors d estimer les valeurs manquant Estimation des donn es manquantes sinon le traitement est ab Variable s en colonne s suppl mentaire s dans le cas d un la les variable s qualitative s suppl mentaire s dont les suppl mentaires du manquantes dans les contingence En cas variable cf l option Estimation des donn es manquantes sinon Yv StatBox Analyse n variabl Box propose de les ignorer lors de la construction du tableau de contingence En cas tes par le mode de la variable cf l option andonn tableau observations variables saisissez modalit s constitueront les colonnes ableau de contingence Les valeurs manquant
2. chantillonnage par quotas Description Mise en uvre Redressement Description Mise en uvre Cr ation d une distribution Description Mise en uvre R f rences Repr sentations graphiques Statistiques descriptives Description Mise en uvre R f rences Histogrammes Mise en uvre R f rences Nuages de points Description Mise en uvre R f rences Graphique avec libell s Mise en uvre Analyse sur une variable Tri plat d s Description Mise en uvre R f rences Statistiques descriptives Histogrammes Pr vision court terme Principes Pour pr voir il faut mod liser StatBox Sommaire Les m thodes de pr vision court terme par extrapolation Mise en uvre R f rences Ajustement d une loi de probabilit Description Mise en uvre R f rences Analyse deux variables Deux variables qualitatives Tris crois s Mise en uvre R f rences Tableaux de moyennes Description Mise en uvre Matrice de similarit dissimilarit corr lations Mise en uvre R f rences Nuages de points Graphiques avec libell s Analyse n variables Analyse en Composantes Principales ACP Description Mise en uvre Exemple R f rences An
3. Bien que donnant des r sultats peu pr s similaires le principe de l algorithme CART est un peu diff rent de celui employ dans CHAID Avant de pr senter l algorithme de s paration d un n ud employ par CART il faut d abord parler de la notion d impuret L impuret permet de mesurer l homog n it d une population Plus une population est homog ne et plus on trouvera la pr sence d une seule des modalit s de la variable expliquer Dans l exemple suivant la variable expliquer est le pourcentage de satisfaction Supposons que la sous population 1 soit compos de 11 personnes satisfaites et de 9 personnes insatisfaites soit en pourcentage 55 de satisfaits et 45 d insatisfaits les deux groupes de personnes sont presque autant repr sent s Cette sous population n est donc pas homog ne Une sous population 2 est quant elle est compos e de 15 personnes satisfaites et de 5 personnes insatisfaites soit de 75 et 25 On voit nettement que cette sous population est majoritairement compos e de personnes satisfaites elle est donc plus homog ne que la population pr c dente L impuret de la sous population 1 est donc plus grande que celle de la sous population 2 Pour calculer l impuret plusieurs m thodes peuvent tre utilis es On utilise g n ralement la formule de Gini pour calculer cette impuret l Impuret P X R tant la proportion de la modalit R dans notre population P X lt gt R
4. Dans la feuille de donn es vous devez avoir saisi sur la premi re ligne les noms des variables identiques ceux du fichier des libell s Le fichier de libell s doit respecter la structure suivante Q0 o prendriez vous conseil Aupr s de vos relations personnelles Les salons ou s minaires La presse Aupr s des entreprises qui en ont eu l exp rience Aupr s des organismes professionnels ou d un expert comp Aupr s de votre fournisseur habituel Aupr s de sp cialistes internes Q1 Profession agriculteur artisan commer ant cadre prof sup rieures Profession interm diaire employ ouvrier retrait inactif Q2 ge de l enqu t Q3 Taille de l agglom ration rurale 2 5000 5 10000 10 20000 20 50000 50 100 000 100 200 000 Plus de 200 000 Dans l exemple pr c dent la variable Age est num rique la modalit Aupr s de vos relations personnelles correspond au code 1 la modalit Les salons ou s minaires le code 2 etc La structure de saisie doit tre la suivante e nom de la variable entre crochets suivi d un espace puis le libell long de la variable libell s des modalit s sur les lignes suivantes e une ligne vide s pare les blocs de variables L ordre dans lequel les libell s seront introduits n a pas d importance Pour importer des libell s cliquez sur Importer des libell s dans le menu Outils s lectionnez le fic
5. VYVVYVYVYVYNVYY StatBox Prise en main de StatBox Vegetal 9 RAPPELS gt Les donn es extraites d un autre fichier Excel doivent toujours tre coll es en faisant collage sp cial puis Valeur gt Pour lancer une analyse statistique il faut imp rativement tre sur une feuille de notation ents t Notation 1 1 note variable type efficacit ex efficacit sur gaillet 8 10 Notation 2 X notes variable type infestation ex 20 plantes not es pour la septoriose Notation 3 X organes individu type maladie bl ex notation septoriose sur 20 plantes ou individus et sur plusieurs tages foliaires F1 F2 Notation 4 1 note modalit 1 note pour l ensemble des r p titions ex analyse qualit Rendement 11 variables fix es avec calculs automatiques Rendement divers variables au choix 0 1 Non significatif 0 005 0 01 Significatif lt 0 001 Hautement significatif Newman amp Keuls PPAS plus petite amplitude significative Bonferroni PPDS plus petite diff rence significative gt gt StatBox Prise en main de StatBox Vegetal ANNEXES LE RISQUE DE LA PREMI RE EBP CE Y a t il des diff rences entre les traitements entre des vari t s ou des r gimes alimentaires par exemple Votre d marche pour r pondre cette question est la suivante gt Vous supposez au d part que tous les traitements sont identiques gt En r al
6. chaque it ration un peu plus les donn es en entr e Si le nombre d it rations est trop important le r seau de neurones perd sa capacit de g n raliser sur un chantillon test voir le paragraphe sur le sur apprentissage Nous aurions pu galement choisir un taux plus important 0 9 par exemple avec 200 it rations Dans ce cas l volution de l erreur n est pas stable et ne nous permet pas de conclure un bon apprentissage m me si la courbe converge en d finitif Le r sultat risque d tre moins bon Le graphique de l apprentissage serait ici StatBox Analyse n variables Courbe d apprentissage RN avec le taux 9 0 16 0 14 0 12 0 10 4 0 08 0 06 0 04 0 02 0 00 TIRER SSELISSEUTESE La feuille Y calcul contient les erreurs calcul es entre la variable d origine et la variable calcul e Les erreurs sont mises au carr afin d liminer l influence du signe Observation Variable initiale Variable calcul e Erreur Erreur au carr 1 1 3500 0 5413 0 8087 0 6539 2 1 8000 0 8520 0 9480 0 8986 3 2 6280 1 5202 1 1078 1 2273 63 0 9720 0 7925 0 1795 0 0322 64 0 1530 1 4102 1 2572 1 5804 Erreur totale 151 3948 10 ooo w 20 ao 40 50 a 260 em sw Remarque la premi re analyse n est pas souvent la bonne Il fau bon nombre d it rations en effet trouver le bon taux d apprentissage et le Pour le bon taux d apprentissage
7. dire le nombre de variables que l on int gre au mod le et son pouvoir explicatif plus le R2 ajust est lev plus le pouvoir explicatif du mod le est fort En effet dans le cadre d une r gression multiple le meilleur mod le est le plus compact Dans notre exemple le mod le 2 ou 3 variables sont plus efficaces que les autres mod les Cette m thode est probablement plus efficace que les m thodes pas pas Si S Box Analyse n variables Une fois que vous avez d termin le mod le le plus compact vous pourrez refaire le traitement avec les variables es plus pertinentes Le mod le est PRIX 8239 363 3 505 CYL 282 169 PUIS 15 038 LON 208 694 LAR 12 575 POIDS 111 114 VITESSE Coef Stdev Std Coef t ratio B Constante 8239 363 42718 423 0 000 0 193 0 425 CYL 3 505 5 551 0 199 0 631 0 270 PUIS 282 169 174 883 0 875 1 613 0 067 LON 15 038 129 747 0 051 0 116 0 455 LAR 208 694 412 048 0 169 0 506 0 311 POIDS 12 575 24 622 0 262 0 511 0 310 VITESSE 111 114 222 257 0 205 0 500 0 313 R2 0 709 R2 ajust 0 55 Analyse de variance DDL SCE CM E Pi R gression 6 520591932 388 86765322 065 4 469 0 016 Erreur R siduelle 11 213563857 889 19414896 172 Total 17 734155790 278 Le tableau pr c dent donne les r sultats de la r gression multiple Le R2 et le R2 ajust part de la variance expliqu e par le mod le Coef Cette colonne vous donne le
8. l ordre de saisie Cliquez sur G n rer un plan de saisie la boite de dialogue suivante apparait F1 Ordre des parcelles Ordre croissant des modalit s Apartir du coinenhaut gauche Ordre d croissant des modalit s Apartir du coin en haut droite Aller Retour Horizontal A partir du coin en bas gauche Aller Retour Vertical A partir du coin en bas droite Aller Aller Horizontal Aller Aller Vertical Personalis S lectionnez dans la liste de gauche l ordre de navigation dans le plan et dans la liste de droite le point de d part de a saisie puis validez en cliquant sur OK L option Personnalis permet de partir d un plan de saisie vide et de renseigner manuellement l ordre de saisie en saisissant les valeurs des rangs dans chacune des parcelles Dans ce cas un rang doit tre fourni pour chaque parcelle et il ne doit pas y avoir de discontinuit dans les rangs I est galement possible de modifier manuellement une partie des rangs g n r automatiquement sur la feuille de plan de saisie StatBox Les essais en agriculture Une fois l ordre de saisie satisfaisant cliquez sur Actualiser sous G n rer un plan de saisie afin que la feuille de saisie de base reprenne l ordre de saisie Toutes les feuilles de saisie cr e par la suite reprendront cet ordre Remarque La feuille de plan de saisie existe tant que vous d sirez la conserver vous pouvez donc
9. tant la proportion de modalit s diff rentes de R dans notre population La formule de Gini P X R P X lt gt R soit IEE P XER 1 P X R Ainsi si on reprend l exemple pr c dent l impuret de la sous population 1 I n y a que deux modalit s dans la variable expliquer donc R ne peut prendre que deux valeurs satisfait et insatisfait P X satisfait 11 20 0 55 P X insatisfait 9 20 0 45 1 P X satisfait 1 P X satisfait P X insatisfait 1 P X insatisfait 1 0 55 0 45 0 45 0 55 0 495 Pour la sous population 2 P X satisfait 15 20 0 75 P X insatisfait 5 20 0 25 2 0 75 0 25 0 25 0 75 0 375 Comme pr vu 11 gt 12 Lors d une s paration d une population P d effectif E en deux sous populations P1 et P2 d effectifs E1 et E2 l impuret suit la loi suivante E I P gt E1 I P1 E2 I P2 En d autres termes la somme pond r e par les effectifs des impuret s des fils d un n ud est forc ment inf rieure l impuret du n ud p re StatBox Analyse n variables En proc dant des divisions successives l impuret globale diminue et la population de chaque n ud tend devenir homog ne au fur et mesure des divisions On appelle la baisse de l impuret le nombre Al E I P E1 I P1 E2 I P2 La diff rence entre les deux parties de la propri t pr c dente On reprend la sous population 1 et on introduit
10. v Niveau entrez le niveau de troncature Une premi re ex cution du module est g n ralement n cessaire afin de pouvoir d cider d un niveau de troncature correct StatBox Analyse n variables S Classification Ascendante Hi rarchique CAH Es Donn es Options Sorties Graphiques Mise enfome T R sum E Matrice de proximit distance euclidiene PI Description du dendrogramme V Partition V Composition des classes 5 Coordonn es des barycentres des classes 7 Observations centrales SHAG7 Se amie 7 gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Matrice de proximit dans le cas d un tableau observations variables affiche la matrice de proximit calcul e par StatBox avant d effectuer la CAH Description du dendrogramme affiche le dendrogramme Partition affiche la partition retenue Composition des classes affiche la composition des classes Coordonn es des barycentres des classes affiche la table des distances euclidiennes entre les barycentres des classes pour les diff rentes variables Observations centrales affiche dans une table pour chaque classe les coordonn es de l objet le plus proche du barycentre de la classe YVVYVYY v v 6 Ciassification Ascendante Hi rarchique CAH Es Dom es Options Sorties Graghiaues Mise enf
11. OK pour lancer la cr ation du classeur correspondant votre essai StatBox Prise en main de StatBox Vegetal Essaisimple Essaien regroupement Mod le Feuile Production v g tale Essai phytosantaire Grandes Essai phytosanitaire Essai semences e erei Goes D ne mr cis LA Essai phytosanitaire Vigne D Essai fertiisation Mod le d essai de produits phytosanitaires sur grandes cultures Bi Tendre Hiver Th me Fongicides 10 Code Protocole TESTI TEST Num rodesssi 1L F Activer l arborescence automatique 3 LA SAISIE DANS LES CLASSEURS Important utilisez chaque fois que c est possible les listes de choix pr sentes dans un bon nombre de cellules Cela permettra de limiter les erreurs de saisie mauvaise orthographe d un produit et ainsi de pouvoir faire par la suite des recherches fructueuses sur certains champs Important la saisie s effectue uniquement dans les zones bleues voire jaunes pour les cellules renseigner obligatoirement Important ne supprimez jamais une feuille de classeur autrement que par le menu StatBox Vegetal Outils Suppression de feuilles 4 LES CLASSEURS D ESSAI Introduction Les classeurs que vous cr ez vont tre conserv s dans la m moire de votre ordinateur tant que vous ne le supprimez pas Veillez donc bien remplir le plus compl tement possible tous les renseignements que l analyse minutieuse d un essai agr
12. Options Sorties Orientation Hoi Ordre des blocs Rando Texte 7 Forme personalis e Parcelles atteindre 40 Parcelles total 40 f R p tition en ligne 2 E Hauteur des r p titions 5 R p titions en colonne 2 E Largeur des r p titions p G Nombre total de 4 Taille des r p titions 10 r p titions Came SK gt Orientation s lectionnez l orientation des r p titions blocs gt Ordre des blocs s lectionnez l ordre de num rotation des blocs gt Randomisation choisissez si la randomisation doit tre totale ou exclure 1 ou 2 blocs Cette option peut tre utile si vous souhaitez par exemple conserver sur un bloc les modalit s dans l ordre saisie sur la feuille dispositif afin de les identifier plus rapidement sur le terrain Texte s lectionnez l orientation du texte sur la feuille de plan gt Forme personnalis e cochez cette option si vous souhaitez donner une forme particuli re au plan en termes de disposition des blocs et de taille de ceux ci Vous pouvez ainsi s lectionner le nombre de blocs en ligne et en colonne ainsi que la hauteur et la largeur des blocs Si les informations saisies ne permettent pas de tirer le plan le nombre de parcelle totale est indiqu en rouge 27 Remarques selon le type de dispositif certaines options de g n ration peuvent ne pas tre disponibles StatBox Les essais en agriculture I Pion Options Options Sorti
13. Sorties Mise enfome Nbrde neurones cach s 2 Nbr d it ratons 200 Taux d apprentissage 05 gt Nombre de Neurones cach s introduisez le nombre de neurones prendre en compte dans la couche cach e Ce nombre doit tre inf rieur aux nombres de variables en entr e Nombre d it rations entrez le nombre d it rations qui sera effectu lors de l analyse Taux d apprentissage entrez le taux d apprentissage Yvy Donn es Vi R sum F Estimation des Y FI Carte des erreurs d estimation 7 Courbe d apprentissage gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Estimation des Y s lectionnez cette option si vous tes en mode test Dans ce cas l activation des diff rentes options nombre de neurones cach s coefficient d apprentissage n est pas possible Dans cette phase de test vous devez s lectionner les m mes variables que celles s lectionn es pendant la phase d apprentissage Cliquez sur Ok pour lancer la R gression Neuronale gt Carte des erreurs d estimation affiche la carte des erreurs d estimation associ e au mod le retenu gt Courbe d apprentissage affiche la courbe d apprentissage de l estimation StatBox Analyse n variables Cet exemple est effectu sur la feuille R gression du fichier d exemple Data xls Lancez la boite de dialogue de r gression neuronale La
14. StatBox Analyse n variables gt Tableau observations variables Tableau de contingence choisissez la nature des donn es soit sous la forme d un tableau observations variables soit directement sous la forme d un tableau de contingence Pour un tableau observations variables F7 Analyse Factorielle des Correspondances AFC 2 Es Dorn es Vaisblescicbenons aunl nentaies Opions Sorties Mes enfome Variables disponible s Variables qualitatives en lignes T INDIVIDU S Logement s5023 r S Personnes 50231 Ajouter S Pi ces NQ232 J S Commune N Age S Marque S Satu sas Variable s qualitative s en colonne Sai 7 sou me fe Sai0s rs S0105 Donn es en entr e E Poids Tableau observations variables En Tableau de contingence amp H 4 7 amp gt Variables qualitatives en lignes dans le cas d un tableau observations variables saisissez les variables qualitatives dont les modalit s constitueront les lignes du tableau de contingence Lorsqu il y a des valeurs manquantes StatBox propose de les ignorer lors de la construction du tableau de contingence En cas de refus StatBox propose alors d estimer les valeurs manquantes par le mode de la variable cf l option Estimation des donn es manquantes sinon la bo te de dialogue est ferm e et le traitement est abandonn gt Variables qualitatives en colonnes dans le cas d un tableau observat
15. StatBox 7 Manuel d utilisation AVIVO AgroSolutions 83 avenue de la Grande Arm es 75782 Paris cedex 16 France SOMMAIRE Plus souple plus simple utiliser Des fonctionnalit s plus nombreuses Configuration minimale requise Prise en main Lancement Protection du logiciel Probl me d imprimante Param tres r gionaux Donn es d exemple Organisation des menus Gestion des donn es Lecture des donn es dans la feuille Types de donn es Libell s des variables cod es Les boites de dialogue de rapport Performances min Temps de calcul Temps d affichage Outils Reprendre un ancien rapport Classeur de synth se Options Codage Contr le de la qualit des donn es Mise en uvre Codage en classes Description Mise en uvre R f rences Regroupement de modalit s Description Mise en uvre Codage disjonctif Oui Non Description Mise en uvre R f rences Codage d une variable num rique en rangs Description Mise en uvre Codage d une variable Texte en codes Description StatBox Sommaire Mise en uvre Transformation Description Mise en uvre R f rences Calcul Matriciel Description Mise en uvre Calcul vectoriel Description Mise en uvre chantillonnage al atoire Description Mise en uvre
16. l it ration t 2 Pour viter des oscillations on lisse la modification du poids en ajoutant la formule une part momentum de la derni re modification des poids L erreur est r tropropag e pendant l apprentissage L ajustement des poids est un processus it ratif De la couche d entr e vers la couche cach e puis vers la couche de sortie Le taux d apprentissage permet de moduler l amplitude de la correction des poids Cet ajustement est fait apr s chaque it ration Le nombre d it ration suffisant varie entre 100 1 000 voire dans certains cas particuliers de 5 10 000 L important est d avoir un taux d apprentissage suffisamment petit pour que le processus de convergence s effectue c est dire que les modifications successives des poids r duisent l erreur d une part et que d autre part ce taux d apprentissage ne soit pas trop petit pour qu la fin des it rations on obtienne la valeur optimale des poids Un taux d apprentissage lev permet au r seau d apprendre rapidement mais on risque de ne pas obtenir la meilleure solution La courbe d apprentissage oscille et n arrive pas se stabiliser On peut dans une certaine mesure repr senter l apprentissage comme une balle qui saute le long d une pente Cette derni re descend dans la vall e puis remonte de l autre c t La longueur d un bond symbolise le taux d apprentissage Si ce taux est lev la balle fait de grands sauts va rebondir de l au
17. sinon le traitement est abandonn gt Libell s des observations choisissez la variable contenant les libell s qui correspondent aux lignes du tableau de donn es Poids choisissez la variable contenant le poids des observations Les valeurs manquantes dans les poids sont cumul es avec les valeurs manquantes dans les donn es StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne des poids cf l option Estimation des donn es manquantes calcul e sans tenir compte des ventuels poids nuls Yv F1 Classification Kmeans m ES Donn es Options Sorties Mise en fome G n ral 7 Standardiser Nombre de cinsses 4 E Calcul du nombre de classes optimales R p titions 10 Donn es manquantes I7 Estimation des valeurs manquantes par la moyenne de la variable SHAG 7 Se annuler _ ok 22 atBox Analyse n variables gt Standardiser standardise les variables c est dire diviser les valeurs par l cart type de la variable correspondante afin de supprimer des diff rences d unit s gt Nombre de classes entrez le nombre de classes de la partition obtenir gt Calcul du nombre de classes optimales le logiciel calcule automatiquement le nombre de classes traduisant la meilleure partition gt R p titions dans le cas d une partition initiale automatique saisissez le nombre de r p titions de l algori
18. tout moment modifier out ou partie de l ordre de saisie et actualiser la feuille de saisie LES SAISIES Vous pouvez cr er autant de feuilles de saisie que n cessaire en plus de la feuille de saisie cr e par d faut Pour ajouter une nouvelle feuille de saisie cliquez sur Nouvelle feuille de saisie Une copie de la feuille de saisie initiale est alors cr e avec un nom incr mentiel L ordre de saisie de la nouvelle feuille est ainsi identique celui en cours sur la feuille de saisie de base Pour les analyses seules les variables pr sentes sur la feuille de saisie de base seront propos es Vous pouvez fusionner les variables de toutes les feuilles de saisie en cliquant sur Fusionner dans le menu saisie La feuille de saisie de base reprend alors toutes les variables disponibles et les autres feuilles de saisies sont d truites Remarques e l est possible de fusionner des feuilles de saisie reprenant des ordres de saisie diff rents e l n est pas possible de fusionner lorsque 2 variables ont le m me nom sur l une ou l autre des feuilles Par d faut les codes sont affich s dans la feuille de Saisie Il est cependant possible de modifier l affichage sur cette feuille pour afficher selon les cas les codes ou les libell s des niveaux Pour afficher les codes cliquez sur Afficher les identifiants et pour afficher les libell s cliquez sur Afficher les libell s L ANALYSE DE VARIANCE L analyse
19. L AFD peut tre consid r e comme une extension de la r gression multiple dans le cas o la variable expliquer est une variable qualitative d crivant des groupes Remarque les calculs de AFD ne peuvent pas s ex cuter si les variables explicatives sont lin airement d pendantes multicolin arit En cons quence aucune variable ne doit pouvoir tre d duite des autres par une relation lin aire Par exemple dans un jeu de variables explicatives correspondant aux pourcentages de votes exprim s pour un ensemble de candidats il convient de ne pas inclure parmi les variables explicatives le pourcentage de votes non exprim s puisque cette variable se d duit lin airement de toutes les autres 100 moins la somme des pourcentages de votes exprim s Jusqu 50 variables explicatives StatBox propose de v rifier automatiquement que les variables explicatives sont bien lin airement ind pendantes en calculant la corr lation multiple de chaque variable avec toutes les autres Vous pouvez galement d tecter le probl me de la multicolin arit avec le module Matrice de similarit dissimilarit en calculant la matrice de corr lation entre les variables et en v rifiant qu il n y a pas de couples de variables fortement corr l es Remarque ce module accepte jusqu 250 variables explicatives TE Analyse Factorielle Discriminante AFD SN Es Donn es Options Sorties Mise enfome Variables disponibles V
20. Si le processus de convergence des r seaux de neurones est complexe suivre parce qu il s agit d un algorithme it ratif mettant en jeu de nombreux neurones les principes de base sont d une grande simplicit C est en effectuant des traitements que l utilisateur va comprendre le fonctionnement des r seaux de neurones et en particulier le processus de convergence La pratique est ici indispensable pour la ma trise de ces nouvelles techniques StatBox comporte les r seaux dont l apprentissage est supervis du type r tropropagation backpropagation On distingue deux tapes la phase d apprentissage pendant laquelle les poids sont calcul s pour que le mod le s ajuste au mieux aux donn es et une phase de test pendant laquelle on peut valuer le mod le sur de nouveaux jeux de donn es StatBox affiche la courbe d apprentissage et les valeurs estim es L utilisateur peut modifier le taux d apprentissage le nombre de neurones dans la couche cach e et le nombre d it rations maximum StatBox Analyse n variables Les r seaux de neurones compl tent les analyses statistiques des donn es pr sentes dans StatBox L utilisateur pourra ainsi obtenir ces r sultats avec les deux m thodes statistique et neuronale C est partir de cette comparaison que l on value l apport des algorithmes non lin aires des r seaux de neurones Les r seaux de neurones de StatBox int resseront ceux qui pratiquent d j l analyse des donn
21. Toujours g n rer un plan de contr le cochez cette option pour qu un plan de contr le soit g n r par d faut lors de la g n ration d un nouveau plan Toujours g n rer un plan cod cochez cette option pour qu un plan cod soit g n r par d faut lors de la cr ation d un nouveau plan etal et onglet Codification on uniquement ha ies ia Eicher iess Sete dorotion EE Tete oran E cote Petea Sets ei den coran a ous T Obama ooa as ace france m raque der ch jaa darane TE os groupes os failo pen apporte pr Cat ane on eregmnene ons Er Pat Bd ra o oaea gt Se reporter la section Essais en agriculture StatBox Introduction estion des profils Vous avez la possibilit de g rer plusieurs profils d options pour r aliser par exemple des s ries de test seuils diff rents ou avec des mises forme diff rentes Pour modifier la liste des profils disponibles cliquez sur G rer les profils sur l onglet G n ral La boite suivante apparait E Profils Z Profils actuels Defaut Herv gt Ajouter ajoutez un nouveau profil en l identifiant par un nouveau nom gt Supprimer supprimer le profil s lectionn Validez en cliquant sur Valider Si vous avez supprim des profils un message appara t alors vous demandant si vous d sirez galement supprimer les r pertoires sp cif
22. avoir moins de 18 ans A partir d une deux ou trois variables nominales ou qualitatives ce module permet de calculer automatiquement le poids de chaque individu ou observation Une nouvelle colonne sera cr e contenant le poids Pour valuer l importance du redressement effectuer vous pouvez au pr alable effectuer un tri plat des variables utilis es dans le redressement StatBox Codage Mise en uvre Onglet Donn es De DE D oomn es ras Options Sorties Mise en fome Libell des observations Nr z gt Libell des observations s lectionnez la variable contenant le libell des observations si vous souhaitez cr er un tableau de poids avec des libell s particuliers pour les observations Par d faut le libell d une observation est son num ro de ligne dans le tableau Cochez le nombre de variable servant au redressement et s lectionnez chacune d entre elles Onglet Poids Pour chaque modalit des variables servant au redressement introduisez les pourcentages th oriques obtenir Par exemple 8 d agriculteurs 20 d ouvriers Si la somme de ces pourcentages est sup rieure 100 pour une variable l effectif redress sera sup rieur l effectif observ vous pouvez ainsi effectuer des extrapolations StatBox Codag
23. est faible plus la probabilit d obtenir par hasard un r sultat aussi extr me que celui observ est faible et par cons quent plus le r sultat est significatif L usage classique d un risque de premi re esp ce a consiste alors accepter l hypoth se alternative si la p value est inf rieure ou gale a La relation entre la p value et le risque de premi re esp ce conduit interpr ter la p value comme le niveau de signification le plus faible auquel la valeur observ e de la statistique est significative dans une direction particuli re La p value est parfois d sign e comme la provalue ou la probabilit associ e Berger J O amp T Sellke 1987 Testing a point null hypothesis the irreconcilability of P values and evidence with discussion pp 123 139 Journal of the American Statistical Association 82 112 122 StatBox Annexes Casella G amp R L Berger 1987 Reconciling bayesian and frequentist evidence in the one sided testing problem with discussion pp 123 139 Journal of the American Statistical Association 82 106 111 Gibbons J D 1986 P values n Kotz S amp N L Johnson Eds Encyclopedia of statistical sciences John Wiley amp Sons New York pp 366 368 Yoccoz N G 1991 Use overuse and misuse of significance tests in evolutionary biology and ecology Bulletin of the Ecological Society of America 72 106 111 L examen de l histogramme des r sidus permet de v ri
24. la courbe doit baisser r guli rement pour se stabiliser horizontalement Si elle oscille r duisez le taux d apprentissage Une fois la bonne courbe obtenue refaites une analyse en limitant le nombre d it rations Choisissez celui qui correspond au d but de la stabilisation horizontale de la courbe d apprentissage Le r seau de neurones aura une meilleure capacit g n raliser sur des nouveaux jeux de donn es StatBox Analyse n variables MULTIDIMENSIONAL SCALING MDS __ _ E Utilisez le multidimensional scaling ou positionnement multidimensionnel pour repr senter dans un espace de faible dimension des observations pour lesquels seule une matrice de similarit ou de dissimilarit est disponible Le multidimensional scaling MDS est une m thode d analyse d une matrice de proximit similarit ou dissimilarit tablie sur un ensemble d observations Le MDS a pour objectif de mod liser les proximit s entre les observations de fa on pouvoir les repr senter le plus fid lement possible dans un espace de faible dimension g n ralement 2 dimensions Il existe diff rents algorithmes de MDS StatBox utilise l algorithme SMACOF Scaling by MAjorizing a COnvex Function Par ailleurs il existe plusieurs mod les de MDS ou fonctions de repr sentation c est dire plusieurs fa on de transformer les dissimilarit s en disparit s disparities Les disparit s sont des distances d crivant la repr sentation
25. la variation r siduelle pour tester l ventuelle pr sence d une interaction multiplicative entre les traitements et les blocs l cart entre 2 traitements sera plus lev dans un bloc dont la valeur moyenne sera importante Dans le cas o cette interaction est significative gt regardez attentivement la cartographie des r sidus pour en d terminer l origine L interpr tation des r sultats est cependant tr s d licate GRAPHIQUES DE L ANALYSE EXPLORATOIRE Un box plot ou bo te moustaches est une repr sentation graphique qui donne des indications sur la tendance centrale des valeurs leur variabilit la sym trie de la distribution et la pr sence d outliers valeurs tr s diff rentes des autres Le box plot est souvent utilis pour comparer plusieurs ensembles de donn es ll existe plusieurs possibilit s de repr sentation du box plot StatBox utilise la forme suivante StatBox Annexes e le premier quartile Q1 correspond au bord inf rieur de la bo te e la m diane Q2 correspond un trait noir e la moyenne correspond un trait rouge e le troisi me quartile Q3 correspond au bord sup rieur de la bo te Deux intervalles sont d finis de part et d autre des premier et troisi me quartiles lo 1 5 x Q3 Qi Q l Q3 Qs 1 5 x Qs Q e la moustache inf rieure du box plot s tend de Q1 jusqu la valeur la plus proche de la borne inf rieure de 1Q1 en restant l int rieur
26. n r par StatBox pour ce type de dispositif II est par exemple possible d analyser des alpha plans sortant des bornes de g n ration d alpha plan dans StatBox e La pr sence d une feuille de plan n est jamais n cessaire pour r aliser une analyse StatBox Les essais en agriculture REGROUPEMENTS D ESSAIS En exp rimentation les diff rences de classement des traitements sont g n ralement plus importantes d un lieu l autre qu l int rieur d un m me lieu entre les blocs ou les r p titions d un essai il est donc n cessaire de travailler en r seau d essais et il vaut alors mieux augmenter le nombre d essais quitte diminuer le nombre de blocs de r p titions pour chaque essai individuel Il faut donc consid rer l analyse de variance d un essai comme une analyse critique des r sultats une validation de ceux ci l examen des r sidus des erreurs histogramme cartographie cart type intra traitement et de l interaction traitement bloc sont donc particuli rement important Si vous devez effectuer un regroupement d essais il faut lancer d abord les diff rentes analyses de variance en cochant dans la bo te de dialogue du traitement la case Donn es pour les regroupement d essais Les moyennes et les variances r siduelles apparaissent ainsi la fin des r sultats Ces donn es devront tre introduites dans le calcul final Choisissez un type de classeur correspondant au nombre de facteurs
27. pendants Description du test t de Student pour chantillons appari s Mise en uvre R f rences Comparaison de deux proportions Description Mise en uvre R f rences Tests non param triques Comparaison de 2 chantillons ind pendants Description du test de Kolmogorov Smirnov Description du test de Mann Whitney Mise en uvre R f rences Comparaison de 2 chantillons appari s Description du test de Wilcoxon sign StatBox Sommaire Description du test du signe Mise en uvre R f rences Comparaison de k chantillons ind pendants test de Kruskal Wallis 139 Description Mise en uvre R f rences Comparaison de k chantillons appari s test de Friedman Description Mise en uvre R f rences Essais en agriculture ss sssssssnnernessesesensensossesresescnnensonsoesone ia 144 Introduction Traitement des donn es nulles Le dispositif Cr ation Supprimer niveau bloc Dupliquer un dispositif Le plan G n ration du plan Contr le de la qualit du plan Personnalisation de la position des parcelles dans le plan de l essai Gestion de l ordre de saisi Les saisies Gestion des feuilles de saisie Affichage sur la feuille de saisie L analyse Analyse de variance Description Mise en uvre Regroupements d essais ssusss
28. possible d utiliser la distance du khi qui fait intervenir la fois les sommes des colonnes et des lignes du tableau de donn es Dans le cas du calcul de la distance du khi entre deux lignes par exemple les termes de chaque ligne sont rapport s leur somme et une colonne contribue la distance en raison inverse de son poids Le calcul de la distance du khi revient calculer la distance euclidienne sur des donn es transform es selon xij gt xij xi Vx j avec xi la somme sur les colonnes pour la ligne i et x j la somme sur les lignes pour la colonne j La distance du khi satisfait au principe d quivalence distributionnelle c est dire que la distance ne change pas entre les lignes ou entre les colonnes en rempla ant deux colonnes ou deux lignes de m me profil par leur somme La distance du khi est particuli rement adapt e aux tableaux homog nes d effectifs ou de grandeurs additives ex tonnes kilom tres pourcentages e Distance de Manhattan m trique dite L1 calcul e sur la base des carts absolus au lieu des carts quadratiques comme dans le cas de la distance euclidienne StatBox Annexes Si i et j sont deux entr es dans le tableau deux lignes ou deux colonnes notons a le nombre de 1 communs i et j b le nombre pour 1 de i qui correspondent des 0 pour j c le nombre de 1 pour j qui correspondent des 0 pour i el d le nombre de Dissimilarit de Pearson transformation de la c
29. tape elle permet d am liorer la qualit de la mod lisation de la tendance sur laquelle repose toute la pr vision StatBox Analyse sur une variable SCHEMA DE LA METHODE PAR EQUIVALENCE D tection et correction des valeurs anormales Filtrage des al as D saisonnalisation Mod lisation de la tendance Prolongement de la tendance Pr vision des valeurs brutes Optimisation du coefficient de lissage par minimisation des carts pr vision r alisation Pr vision de la s rie brute StatBox Analyse sur une variable Mise en uvre Sorties Mise en fome Variables disponibles Variables pr voir NCA Libell s des observations Suaa amer C ok 7 gt Variable pr voir s lectionnez la variable repr sentant la s rie chronologique Si vous s lectionnez plusieurs variables le logiciel suppose que la variable en colonne repr sente les diff rentes ann es par exemple et qu en lignes se trouvent les p riodes les 12 mois les 4 trimestres ou les 52 semaines gt Libell s des observations s lectionnez la variable contenant le descripteur de p riode ann e mois StatBox permet d analyser des chroniques longues ou courtes Dans ce cas le nombre de p riodes minimum est gal la longueur de la p riode 4 Le logiciel permet galement l analyse de tendance lin aire parabolique avec de forts al as ou avec des ruptures de tenda
30. valeurs comprises entre 0 et 1 soit des effectifs valeurs inf rieures ou gales aux effectifs totaux respectifs gt Proportion 1 Effectif 1 entrez la proportion ou l effectif des observations poss dant la propri t C dans le groupe 1 vy Effectif total 1 entrez l effectif total du groupe 1 Proportion 2 Effectif 2 entrez la proportion ou l effectif des observations poss dant la propri t C2 dans le groupe 2 StatBox Tests param triques gt Effectif total 2 entrez l effectif total du groupe 2 11 Comparaison de 2 proportions Es Donn es ptions Sorties Mise en fome G n ral Seuil alpha 5 Orientation du test gt Seuil alpha entrez la valeur du risque de premi re esp ce du test du Khi gt Orientation du test choisissez le type de test r aliser bilat ral unilat ral gauche ou unilat ral droite 7 Comparaison de 2 proportions Es Donn es Options Sorties Mise en fome I R sum Test du Khi de comparaison de proportions amp H amp 7 amp Annuler ox gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Test du Khi de comparaison de proportions affiche un test du Khi de comparaison de proportions pour les proportions effectifs entr s Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agr
31. Dunod Paris pp 7 24 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 345 388 Johnson R A amp D W Wichern 1992 Applied multivariate statistical analysis Prentice Hall Englewood Cliffs pp 356 395 Lebart L A Morineau amp M Piron 1997 Statistique exploratoire multidimensionnelle 2 me dition Dunod Paris pp 32 66 Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 159 186 Sharma S 1996 Applied multivariate techniques John Wiley amp Sons New York pp 58 89 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 134 143 ANALYSE FACTORIELLE DES CORRESPONDANCES AFC Utilisez l analyse factorielle des correspondances afin d tudier la liaison entre deux ensembles de modalit s constituant les lignes et les colonnes d un tableau de contingence Description L analyse factorielle des correspondances AFC consiste rechercher la meilleure repr sentation simultan e de deux ensembles constituant les lignes et les colonnes d un tableau de contingence ces deux ensembles jouant un r le sym trique L AFC peut se ramener une analyse en composantes principales ACP en effectuant les changements de variables appropri s et constitue galement un cas particulier de l analyse factorielle discriminante AFD
32. M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 157 167 Gower J C amp P Legendre 1986 Metric and Euclidean properties of dissimilarity coefficients Journal of Classification 3 5 48 Jambu M 1978 Classification automatique pour l analyse des donn es 1 m thodes et algorithmes Dunod Paris pp 484 518 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 345 388 Legendre L amp P Legendre 1984 Ecologie num rique Tome 2 La structure des donn es cologiques Masson Paris pp 5 50 Roux M 1985 Algorithmes de classification Masson Paris pp 126 134 BO TE D AFFICHAGE DES GRAPHIQUES Options des mappings Er p ping Horizontal Vertical F1 F1 FixF2 Nombre max d observations affich s 100 Arner S lectionnez les croisements de facteurs symbolisant les axes repr senter pour les graphiques de r sultats sur les variables ou les observations Pour cela s lectionnez un facteur dans la liste pour l axe horizontal un facteur dans la iste pour l axe vertical puis cliquez sur Ajouter Nombre max d observations affich es entrez le nombre d observations actives repr senter class es par ordre d croissant des contributions moyenne des contributions sur les deux axes d finissant le plan factoriel pond r e par
33. Sorties Mise en fome G n ral Seuil alpha 2 5 Puissance I7 Ecarts tester 4 5 10 W Risques tester 5 10 20 Donn es manquantes Bi Estimation de Yates S 4 4 7 amp Came 7 C ok 7 gt Seuil alpha entrez la valeur du risque de premi re esp ce pour les tests de comparaisons de moyennes Ce risque doit tre de 1 ou 5 gt carts tester entrez les valeurs des carts tester pour les tests de puissance Il s agit des carts que vous cherchez montrer sur les variables mesur es par exemple un gain de 5 quintaux sur des vari t s pr sentant un rendement moyen de 100 quintaux correspond un cart de 5 gt Risques tester entrez les valeurs des risques tester pour les tests de puissance Vous pouvez ainsi tester un gain de rendement de 5 la fois pour un risque d erreur de 5 ou de 10 gt Estimation de Yates Si vous avez des donn es manquantes le logiciel vous propose dans la mesure du possible d estimer ces donn es manquantes En cochant cette option le logiciel calcule automatiquement les donn es manquantes et continu le traitement Sorties 67 Analyse de variance M Donn es Options Sores Mise enfome 3 T R sum F Tableaux des moyennes 7 Histogramme des r sidus VI Graphiques des moyennes 7 Indices de normalit PI Editer la puissance PA R sidus suspects Estimation des effets PA Cartographie
34. Une nouvelle m thode en classification automatique et reconnaissance des formes la m thode des nu es dynamiques Revue de Statistique Appliqu e 19 19 33 Diday E J Lemaire J Pouget amp F Testu 1982 El ments d analyse de donn es Dunod Paris pp 116 129 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 560 562 Johnson R A amp D W Wichern 1992 Applied multivariate statistical analysis Prentice Hall Englewood Cliffs pp 596 602 Lebart L A Morineau amp M Piron 1997 Statistique exploratoire multidimensionnelle 2e dition Dunod Paris pp 148 154 Roux M 1985 Algorithmes de classification Masson Paris pp 61 75 StatBox Analyse n variables Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 159 165 CLASSIFICATION ASCENDANTE HI RARCHIQUE CAH Utilisez la classification ascendante hi rarchique pour constituer des groupes d observations similaires classes sur la base de leur description par un ensemble de variables quantitatives ou ventuellement de tous types Remarque pour les variables qualitatives non binaires il est pr f rable d effectuer au pr alable une analyse des correspondances multiples ACM et de consid rer les coordonn es des observations sur les axes factoriels comme de nouvelles variables La class
35. amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 440 444 COMPARAISON DE K CHANTILLONS IND PENDANTS TEST DE KRUSKAL WALLIS Utilisez ce test non param trique lorsque vous tes en pr sence de k chantillons ind pendants afin de d terminer si les chantillons proviennent d une m me population ou si au moins un chantillon provient d une population diff rente des autres Remarque l utilisation du test de Kruskal Wallis constitue une alternative non param trique l utilisation de l analyse de variance 1 facteur ANOVA 1 Comme dans l ANOVA 1 les chantillons peuvent tre de tailles diff rentes L objectif du test de Kruskal Wallis est de d terminer si les chantillons proviennent d une m me population ou si au moins un chantillon provient d une population diff rente des autres Les hypoth ses nulle Ho et alternative H du test sont donc les suivantes Ho les k chantillons proviennent de la m me population H au moins un des chantillons provient d une population diff rente des autres Ce test a t d velopp en consid rant que e tous les chantillons sont des chantillons al atoires tir s de leurs populations respectives e en plus de l ind pendance au sein de chaque chantillon il y a ind pendance mutuelle entre les chantillons e les donn es sont au moins des donn es ordinales Stat
36. bo te de dialogue suivante appara t Statbox ES 1 observations ont des valeurs sup rieures 3 car types dans au moins une des variables mem Ce message appara t lorsqu une des variables a des valeurs extr mes d passant 3 cart types par rapport la moyenne L algorithme de r tropropagation fonctionne mieux lorsque la distribution des donn es n est pas trop importante Toutes les valeurs qui d passent l intervalle seront modifi es et born es A la fin du traitement entrez un nom de fichier de sauvegarde des poids de votre r seau de neurones Ce fichier vous permettra de relancer l analyse en mode estimation sur un chantillon test La feuille apprentissage comporte la valeur de l erreur chaque it ration Le graphique associ montre l volution de l erreur Courbe d apprentissage RN avec le taux 5 0 16 0 14 0 12 0 10 0 08 0 06 0 04 0 02 0 00 5 7 101 126 151 176 201 226 251 276 301 326 351 376 401 426 451 476 La courbe d apprentissage baisse rapidement et ne montre pas d oscillations Le taux d apprentissage est gal 0 5 et semble tre adapt au jeu de donn es Maintenant il est conseill de relancer l analyse en choisissant un nombre d it rations plus petit 150 par exemple correspondant au d but de stabilisation horizontale de la courbe afin d viter le ph nom ne de sur apprentissage Les r seaux de neurones apprennent
37. de pr requis peuvent tre n cessaires l installation et au bon fonctionnement de StatBox Le programme d installation d tecte automatiquement la pr sence des pr requis sur votre poste et tente de les installer si n cessaire Remarque il peut tre n cessaire de disposer d une connexion active Internet pour t l charger les pr requis manquants StatBox Introduction PRISE EN MAIN Lancer ment Pour lancer StatBox lancez simplement Excel StatBox tant un Addin d Excel il est charg automatiquement par Excel lors de son d marrage Remarque il est possible que vous constatiez un l ger ralentissement d Excel au d marrage suite l installation de StatBox Ce temps de chargement suppl mentaire est li la v rification des r gles de s curit des Addin des applications Microsoft Office il est incompressible Protec A la premi re utilisation de l application et ce tant que le logiciel ne sera pas activ le message suivant apparait vous demandant d activer votre version du logiciel S Proc dure d activation de Statbox Stlecionnez une des opors suivantes Vai un num ro de ai at un code cation etje souhaite activer Siathox S vous disposez dj dun m re de s rie La num ro s s n est eme 8298 92883 000020000 D souhaite sarl maia je re souhaite paa Taster maman S vos choisissez de ne pas aciver maintenant Sienverue dre Sato Cet assistant va vous aider activar S
38. de sa pr vision La m thode de mod lisation repose sur l ajustement de la tendance par son approximation par une s rie de polyn mes orthogonaux La troisi me tape est celle de la traduction des pr visions de tendance en pr visions brutes Pour cela les filtres de la premi re tape sont appliqu s l envers ils travaillent alors comme des amplificateurs Situons d abord ce que nous entendons par le terme pr vision La pr vision au sens statistique est ce qui doit arriver si tout reste gal par ailleurs La pr vision part de l id e que dans le pass il y a des comportements des lois qui si leurs conditions d application restent conserv es d terminent le futur L histoire c est ce qui emp che l avenir d tre n importe quoi disait Andr Gide Termes connexes extrapolation prolongement perspective La notion de pr vision ne doit pas tre confondue avec celle d OBJECTIF Objectif ce que l on voudrait voir arriver C est une vision volontariste du futur On se fixe un futur et on regarde comment y arriver ce titre le raisonnement par objectif fait tout pour que la pr vision soit fausse Techniquement le terme de pr vision englobe un ensemble de m thodes tr s diverses dont le point commun est de chercher diminuer l incertitude entra n e par la non connaissance du futur StatBox Analyse sur une variable On peut les distinguer en fonction de cr
39. de val min pourcentage du nombre de valeurs gales la valeur minimale Minimum valeur minimale er quartile valeur en de de laquelle se trouvent 25 des donn es M diane valeur en de de laquelle se trouvent 50 des donn es 3 me quartile valeur en de de laquelle se trouvent 75 des donn es Maximum valeur maximale Etendue diff rence entre le maximum et le minimum Somme des poids dans le cas de donn es pond r es indique la somme des poids des valeurs utilis es dans les calculs Total somme des valeurs ventuellement pond r e Moyenne somme des valeurs ventuellement pond r e divis e par le nombre de valeurs utilis es ou par la somme des poids si les donn es sont pond r es Moyenne g om trique moyenne peu influenc e par les valeurs lev es La moyenne g om trique n est pas d finie pour les donn es contenant des valeurs n gatives ou nulles Moyenne harmonique moyenne peu influenc e par quelques valeurs beaucoup plus lev es que l ensemble des autres valeurs mais sensible aux valeurs beaucoup plus petites La moyenne harmonique n est pas d finie pour les donn es contenant des valeurs nulles Aplatissement Pearson coefficient caract risant la forme de pic ou l aplatissement d une distribution par rapport une distribution gaussienne Pour une distribution gaussienne loi normale l aplatissement vaut 0 Une valeur n gative correspond une distri
40. des r sidus E Test de Dunnett Proportionnalit des r sidus E Test de Scheffe F Tableaux des carts types Z Test de Newman keuls F Test de Tukey Z Test de Bonferroni 7 Table d analyse de la variance E Afficher des contrastes F Indicateurs Z Donn es pour des regroupements SHAG7 Se Came JC o gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Histogramme des r sidus affiche un histogramme de r partition des r sidus afin d tudier de mani re visuelle la normalit de leur distribution StatBox Les essais en agriculture gt indices de normalit affiche les indices de sym trie et d aplatissement de Pearson associ s l histogramme des r sidus gt R sidus suspect effectue une d tection des r sidus suspects par la m thode de Grubbs gt Cartographie des r sidus affiche la r partition des r sidus sur le plan r el de l essai chaque parcelle est color e selon un gradient de couleur traduisant la valeur de son r sidu cr ation du gradient de couleur par la m thode des quartiles sur l intervalle de variation des r sidus Cela permet d appr cier visuellement l ind pendance des r sidus entre eux gt Proportionnalit des r sidus v rifie l ind pendance des r sidus par rapport la valeur de la variable tudi e gt Tableau des carts types affiche les tables d carts types pour chacun des fa
41. e Donn es Sorties Graphiques Mise enfome Variable s disponible s Variable s repr senter N Poids N Burger N Bread N Mik N Oranges N Tomatoes Ajouter f e I Type Vi Poids ii Continue Discr te SHAG 7Se annuler _ gt Type s lectionnez si les donn es repr senter sont des variables continues num riques ou discr tes ordinales gt Variable s repr senter s lectionnez la les variable s quantitative s repr senter Lorsqu il y a des valeurs manquantes StatBox propose d ignorer les lignes concern es En cas de refus le traitement est abandonn Poids cochez cette case si vous d sirez pond rer les donn es puis s lectionnez la variable contenant les poids Les valeurs manquantes dans les poids sont cumul es avec les valeurs manquantes dans les donn es v Onglet Sorties E Histogrammes CL Es Donn es Sorties Graphiques Mise en forme 7 R sum Y Tableau des classes gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Tableau des classes affiche la table de r partition des observations dans les diff rentes classes StatBox Repr sentations graphiques 7 Histogrammes Es Donn es Sorties Graphiques Mise enfome 7 Graphiques Type de graphique F1 Histogramme Histogramme 7 Distribution cumul e P
42. e sur les X affiche la table de la variance expliqu e sur les X Variance expliqu e sur les Y affiche la table de la variance expliqu e sur les Y R gression sur les variables d origine affiche le mod le de r gression sur les variables d origine R gression sur les variables centr es r duites affiche le mod le de r gression sur les variables centr es r duites Graphique affiche les cartes des erreurs d estimation par le mod le pour les variables et les observations Estimation des Y affiche pour chaque observation les valeurs pr dites par le mod le des variables expliquer v vyvyvvy vv Les r sultats suivants ont t obtenus avec les donn es Linerud Le nombre de facteur est gal 2 Ils ont t galement trait s dans l ouvrage de M Tenenhaus La r gression PLS Th orie et pratique Editions Technip 1998 Coefficients des variables explicatives X sur les composantes t de l ensemble X w1 w2 Tractions 0 827 0 074 Flexions 0 449 0 595 Sauts 0 337 0 803 Coefficients des variables expliquer Y sur les composantes t de l ensemble X ci c2 StatBox Analyse n variables Poids 0 311 0 383 Tour de taille 0 406 0 740 Pouls 0 119 0 319 Equation de r gression sur variables initiales Poids 205 448 1 334 Tractions 0 145 Flexions 0 098 Sauts Tour de taille 40 273 0 237 Tractions 0 032 Flexions 0 029 Sauts Pouls 52 581 0 167 T
43. ei dire soit n soit n 1 avec n l effeci croisez les lignes Dans le second le cadre d un mod le de loi normal Distance euclidienne Distance du khi Distance de Manhattan Dissimilarit de Pearson Dissimilarit de Spearman Dissimilarit de Kendall if nombre de lignes si vous croisez e multivari e Pour les donn es de tous types un seul indice est propos qui perme ou des colonnes similaires dans le deux lignes ou deux colonnes son consid r es comme semblables Indice de similarit dissimilarit calculer s lectionnez parmi les indic D tection de donn es similaires case pour mettre en vidence les lorsque la similarit g n rale est ui seuil sp cifi par Valeur seuil Valeur seuil entrez la valeur de la similarit minimale au del de semblables Les donn es sont d clar es semblables si la similarit es qui revient au m me si la dissimilarit est strictement inf rieure 100 moins la valeur seuil la Covariance n 1 diff rent uniquement par le d nominateur utilis c est es colonnes ou nombre de colonnes si vous cas il s agit de l estimation sans biais de la matrice de variance covariance dans notamment de mettre en vidence des lignes tableau de donn es en fixant un seuil de ressemblance minimale au del duquel es propos s l indice calculer ilis e donn es de tous types cochez cette donn es similaires lignes ou c
44. en dire Le mod le est par construction additif Fij a o pj Il conviendra de v rifier qu il y a bien additivit des effets traitements et des effets blocs c est dire qu il n y a pas d interaction traitements blocs Le mod le est bien s r th orique dans la r alit il y a un cart appel r sidu entre le rendement que vous mesurez sur la parcelle et le rendement obtenu par le mod le Ce r sidu est la traduction de diff rents types d erreurs indissociables mauvais choix de mod le erreurs de mesures erreurs al atoires 3 conditions importantes doivent tre remplies par ces r sidus Ils doivent e tre distribu s normalement e avoir une variance constante la m me pour tous les traitements e tre ind pendants Il conviendra de v rifier ces conditions d application Mise en uvre Pour lancez une analyse cliquez sur Analyse D ma aa M Donn es Options Sorties Mse enfome Variables disponibles Variables analyser N Potassium mg N Rendement vet N Talle organe 1 N Rendement sec N Pucerons N Rendement nom S HAS e gt Variable s analyser s lectionnez les variables analyser en les faisant passer dans la liste de droite Vous pouvez s lectionner toutes les variables disponibles en cliquant sur Ajouter tout StatBox Les essais en agriculture E Analyse de variance H Es Donn es Options
45. es Ils int resseront galement ceux dont les exigences ne sont pas satisfaites avec les m thodes statistiques classiques Enfin StatBox constitue un outil d une grande simplicit pour la formation aux m thodes d analyses neuronales et l analyse des donn es Le neurone lectronique comme le neurone biologique comporte plusieurs entr es et une seule sortie Chaque entr e est pond r e par un poids La somme pond r e obtenue est ensuite modifi e par une fonction d activation la plus utilis e est la fonction logistique 1 1 e x Fonction Logistique 1 08 0 1 x 0 9 0 8 x 0 1 0 2 x 0 5 0 27 1 sortie 557 0 567 lte Donn es Poids en entr e 0 1 ___ 08 Tr ae 0 567 61 7 0 8 05 0 2 r On multiplie chaque entr e par le poids correspondant et on fait la somme totale 0 27 La fonction d activation est appliqu e sur ce r sultat pour obtenir le r sultat final 0 567 qui sera transmis au neurone suivant Les neurones sont organis s en couches Chaque couche contient un certain nombre de neurones Tous les neurones d une couche sont connect s avec ceux de la couche suivante Pour l analyse en composantes neuronales la r gression neuronale et l analyse discriminante neuronale on a 3 couches une couche d entr e une couche cach e une couche de sortie La couche d entr e contient autant de neurones que de variables en entr e L
46. la liste gt Estimer Saisir si vous choisissez de saisir les valeurs des param tres des champs sp cifiques apparaissent dans la bo te de dialogue en fonction de la loi de probabilit choisie e uniforme e a nombre d finissant la borne inf rieure de l intervalle de la loi uniforme e b nombre d finissant la borne sup rieure de l intervalle de la loi uniforme StatBox Analyse sur une variable Remarque gaussienne standard ou loi normale centr e et r duite loi de Gauss de moyenne nulle et de variance unit gaussienne ou loi normale y valeur de l esp rance sigma valeur de la variance log normale le logarithme de la variable distribu e selon une loi lognormale suit la loi normale de param tres u et sigma u valeur de l esp rance de la loi normale selon laquelle est distribu In x sigma valeur de la variance de la loi normale selon laquelle est distribu In x de Student ddl nombre de degr s de libert de la loi de Student de Fisher ddl 1 nombre de degr s de libert du num rateur du F de Fisher ddl 2 nombre de degr s de libert du d nominateur du F de Fisher du khi ddl nombre de degr s de libert de la loi du khi B ta a nombre correspondant au premier param tre de forme de la loi B ta a2 nombre correspondant au deuxi me param tre de forme de la loi B ta exponentielle Lambda inverse du temps d attente moyen entre deux v nements d un ph n
47. le nombre de facteurs demand gt Estimation des valeurs manquantes par le mode cochez cette option pour que les donn es manquantes soient estim es automatiquement par le mode des variables consid r es Si cette option n est pas coch e et qu il y a des donn es manquantes alors le logiciel vous proposera de faire cette estimation au cours de la proc dure StatBox Analyse n variables FA Libell s longs 7 Test d ind pendance 7 Tableau de contigence 7 Valeurs propres T Coordonn es des colonnes T Contributions des colonnes 7 Cos des colonnes 7 Coordonn es des lignes Y Contributions des lignes F Cos des lignes S A amp 7 6 annuler _ ok yv R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Libell s longs utilise les libell s longs des variables lorsque ceux ci sont disponibles Tests d ind pendance affiche un test d ind pendance bas sur la statistique du Khi Tableau de contingence affiche la table de d nombrement des croisements de modalit s pour les variables s lectionn es Valeurs propres affiche les valeurs propres le de variance expliqu e et le graphique correspondant Le nombre de valeurs propres est gal au nombre de valeurs propres non nulles Coordonn es des colonnes affiche les coordonn es principales des points colonnes dans le plan factoriel Contributi
48. lectionnez la variable correspondant au premier chantillon Les valeurs manquantes ne sont pas autoris es gt Echantillon 2 s lectionnez la variable correspondant au second chantillon Les valeurs manquantes ne sont pas autoris es Onglet Options Comparaison de 2 chantilons appa s 0 0 D Donn es Options Sorties Mise enfome G n ral Seuil alpha 2 5 Orientation des tests Bistei m Sites S HA amp G Se Brmuier gt Seuil alpha entrez la valeur du risque de premi re esp ce du test gt Orientation du test choisissez le type de test r aliser bilat ral unilat ral gauche ou unilat ral droite Onglet Sorties E Comparaison de 2 chantillons sppar z D 0 0 D ES Donn es Options Soties Mise en fome EI R sum Test de Wilcoxon sign MA Test du signe amp 4 amp 7 amp Annuler x gt Test de Wilcoxon sign effectue le test de Wilcoxon sign gt Test du signe effectue le test du signe StatBox Tests non param triques Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 385 389 Lehmann E L amp H J M D Abrera 1975 Nonparametrics Statistical methods based on ranks Holden Day San Francisco pp 120 132 Siegel S 1956 Nonparametric statistics for the behavioral sciences McGraw Hill Kogakusha Tokyo Japan pp 68 83 Sokal R R
49. leur annulation n est pas limit de sorte qu il est toujours possible de revenir un tat ant rieur La liste de gauche permet de visualiser la correspondance entre les anciennes modalit s et les nouvelles la liste de droite permet de s lectionner les modalit s recoder Les valeurs manquantes sont autoris es et peuvent donc tre galement recod es Les valeurs manquantes sont repr sent es dans la liste des anciennes modalit s par un crochet ouvrant suivi d un crochet fermant lt gt StatBox Codage Regroupement de modalit s Donn es Modait s Soie Mise en fome F Ajouter les nouvelles donn es Nom de la nouvelle colonne FA R sum F Table de recodage W Nouveau codes E Nouveau libell s longs gt Ajouter les nouvelles donn es ajoute la colonne des nouvelles modalit s la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Table de recodage affiche la table de correspondance entre les anciens et les nouveaux codes gt Nouveau codes affiche la table des nouveaux codes pour chacune des observations gt Nouveau libell s longs affiche la table des nouveaux codes pour chacune des observations les codes sont repr sent s par
50. optimale des observations La mesure de l cart entre les disparit s etles distances mesur es sur la repr sentation obtenue par le MDS se nomme le stress plus le stress est faible meilleure est la repr sentation des observations Lorsque la fonction de repr sentation se contente de respecter les relations d ordre on parle de MDS ordinal ou non m trique ordinal MDS nonmetric MDS Lorsque la transformation des dissimilarit s en disparit s s effectue au moyen d une fonction param trique sp cifique on parle de MDS m trique metric MDS Les mod les propos s dans la version actuelle de StatBox sont les suivants gt absolu absolute MDS chaque dissimilarit dj doit correspondre exactement la distance entre les points i et j dans l espace de repr sentation gt rapport ratio MDS le rapport de tout couple de distances dans l espace de repr sentation doit correspondre au rapport des dissimilarit s correspondantes gt intervalle interval MDS le rapport des diff rences entre distances dans l espace de repr sentation doit correspondre au rapport des diff rences des dissimilarit s correspondantes Remarque StatBox ne g re pas les disparit s n gatives qui peuvent survenir lorsqu on utilise le mod le intervalle Si un message d erreur est affich ce sujet vous devez alors utiliser un autre mod le pour traiter vos donn es gt ordinal 1 la relation d ordre entre les distances dans l espace de
51. p e Transpos X n p e Produit de 2 matrices X n p x Z p m e Produit d un vecteur par une matrice X n p x Z p e Inversion d une matrice sym trique X n n e Valeur propre d une matrice sym trique X n n e Vecteur propre d une matrice sym trique X n n e Matrice Centr et r duite X n p e Produit de X X e Inverse de XX e D terminantde X n n Ces diff rentes fonctions permettent de proc der au calcul pas pas de certaines analyses comme l ACP ou la r gression par exemple StatBox Codage Mise en uvre Onglet Donn es Calcul Donn es Sorties Mise enfome Variables disponibles X 232 N Tomatoes E N Burger Ajouter N Bread ZG 32 N Ajouter N Mik Les Produit matrice vecteur X n p x z p Centr et r duit X n p Inversion X n n Produit de XX Valeur Propre Xin n Inverse Vecteur propre Xin n D terminant X n n Addition X n p Z n p C n p Transpos de X n p Produit X n p x Z p m Sauar Se Ex S lectionnez l op ration effectuer X Z s lectionnez les variables utiliser pour le calcul en les faisant passer dans la les liste s de droite En fonction de l op ration s lectionn e la liste des variables de la matrice Z peut tre facultative Des renseignements sur la taille des matrices d origine s affichent en haut des listes qui vous permette
52. passage 10 04 2005 Date de passage 09 05 2008 Stade de la culture 2 no vas Stade de la cuture Gaine cis T moin SEL comet FANDANGO Ti complet strob TOA 5 vRruosE T1 complet oidium NB dans le cas d une suppression d une modalit ou d une date de passage vous avez la possibilit de choisir le num ro de la modalit ou du passage que vous souhaitez supprimer Attention ce choix n est possible que dans le cas d une suppression dans le cas d un ajout celui ci se fera toujours en dernier Une fois un ajout ou suppression effectu e pensez mettre jour le tableau de synth se Attention le plan doit tre obligatoirement r alis m me s il est fictif pour pouvoir acc der aux feuilles suivantes Important avant de construire votre plan il est indispensable d avoir renseign dans la feuille Site exp rimental le type de dispositif s lectionn blocs randomisation carr latin apha plan Positionnez vous sur la feuille Plan Renseignez le nombre de r p titions blocs Cliquez sur le menu StatBox Vegetal Plan G n rer le plan Une fen tre d options va alors s ouvrir vous avez la possibilit de choisir l orientation du plan d effectuer une randomisation totale ou partielle etc Attention pour choisir l Alpha plan il faut au minimum 10 modalit s et 4 blocs StatBox Prise en main de StatBox Vegetal ET Orientation Honoa aaa E Opimi
53. plus lev e Les fonctions de classement sont utilis es pour d terminer quelle classe doit tre affect e une observation sur la base des valeurs prises pour les diff rentes variables explicatives gt Valeurs propres dans ce tableau sont affich es les valeurs propres associ es aux diff rents facteurs ainsi que les pourcentages et pourcentages cumul s de discrimination correspondant En analyse discriminante le nombre de valeurs propres non nulles est au plus gal k 1 o k est le nombre de classes gt Vecteurs propres affiche la table des vecteurs propres servant aux calculs des corr lations gt Test de Bartlett affiche un test de Bartlett Ce test de permet de v rifier l hypoth se selon laquelle les variables ne sont pas significativement corr l es gt Score des variables affiche les coordonn es des variables gt Score des observations affiche les coordonn es des observations Y VVYVYVY VV Y Au lancement de la proc dure s lectionnez les options d affichage des mappings pour plus d information consultez l annexe Boite d affichage des graphiques et validez Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 360 429 StatBox Analyse n variables Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 20
54. qualitatives un seul indice est propos les donn es tant consid r es au niveau le plus bas du point de vue de la structure alg brique c est dire au niveau d une variable nominale les valeurs ne sont donc plus distingu es entre elles que sur la base de l galit in galit stricte gt les colonnes les lignes s du tableau s lectionn lectionnez si l on doit tester la corr lation entre les lignes ou les colonnes Remarque Dans le cas d une variable quantitative par d faut le calcul d une similarit s effectue en croisant les colonnes par exemple la corr lation entre les variables d un tableau observations variables et le calcul d une dissimilarit s effectue en croisant les lignes par exemple la distance euclidienne entre les observations d un tableau observations variables Dans les autres cas par d faut les calculs s effectuent en croisant les lignes Similarit Dissimilarit choisissez si les valeurs calcul es doivent tre d autant plus lev es que les donn es sont ressemblantes similarit ou bien d autant plus faibles que les donn es sont ressemblantes dissimilarit Le choix du type de mesure conditionne la liste des indices propos s Pour les donn es quantitatives Similarit Dissimilarit Corr lation de Pearson Corr lation de Spearman Corr lation de Kendall Inertie Covariance n Covariance n 1 Remarque la Covariance n
55. sa pr vision optimiste partir des taux de croissance du pass il a b ti un mod s rie chronologique S il fonde sa pr vision sur une connaissance des relations conomiques il a construit impl conom trique ici le es sont en relation le chef de produit prix de vente si bien men envisager diff rent dans les e d extrapolation de ici tement un mod le M me inconsciemment le pr visionniste intuitif construit implicitement des mod les Une question se pose alors pourquoi ne pas les construire explicitement les estimer et les tester Plusieurs raisons incitent cette d marche de mod lisation Tout d abord cela force l observation tablir clairement et estimer les inter relations sous jacentes Ensuite la confiance aveugle dans l intuition peut amener l ignorance de liaisons importantes ou leur mauvaise utilisation De plus des relations marginales mais n anmoins explicatives qui ne sont qu un l ment d un mod le global doivent tre test es et valid es afin de les mettre leur v ritable place ce qui n est pas fait dans la pr vision intuitive Enfin il est n cessaire de fournir en m me temps que la pr vision une mesure de la confiance que l utilisateur peut avoir en celle ci c est dire la pr cision que l on peut en attendre L encore l utilisation de m thodes purement intuitives exclut toute mesure quantitative de la fiabilit d une pr
56. texte Les variables qualitatives peuvent comporter des valeurs num riques ou du texte toutes les valeurs tant trait es indiff remment par StatBox sous la forme de cha nes de caract res Remarque lorsque vous s lectionnez une variable nominale comportant des codes num riques veuillez ce que le nombre de valeurs diff rentes soit limit Exemple La variable expliquer dans une analyse factorielle discriminante doit tre nominale Si vous introduisez une variable num rique comme un chiffre d affaire le programme ne pourra pas fonctionner correctement Il s attend trouver un nombre limit de valeurs diff rentes 2 3 4 alors que pour ce chiffre d affaire on peut avoir autant de valeurs diff rentes que d observations dans le tableau de donn es La valeur d une cellule d apparence vide c est dire r ellement vide ou contenant un ou plusieurs caract res espace ainsi que les valeurs d erreur retourn es par Excel notamment e NOMBRE e DIVO e VALEUR e REF e NOM sont interpr t es par StatBox comme des valeurs manquantes Certains traitements de StatBox conduisent ventuellement des valeurs manquantes notamment dans le cas d une transformation effectu e sur des valeurs pour lesquelles la fonction utilis e n est pas d finie ex le logarithme d une valeur n gative La pr sence de valeurs manquantes n est g n ralement pas bloquante pour les modules de StatBox sauf lorsque le mot
57. tudi s 4 facteurs tudi s randomisation totale avec r p titions bloc carr latin alpha plan factoriel 2 facteurs en randomisation totale avec ou sans r p titions factoriel 2 facteurs en blocs actoriel 2 facteurs en carr latin split plot criss cross factoriel 3 facteurs en randomisation totale avec ou sans r p titions actoriel 3 facteurs en blocs actoriel 3 facteurs en carr latin split plot 3 tages 1 2 3 split plot factoriel 1 2 3 actoriel split plot 1 2 3 criss cross factoriel 1 2 3 criss cross split plot 1 2 3 actoriel 4 facteurs en randomisation totale avec ou sans r p titions StatBox Les essais en agriculture R p tition on entendra par r p titions les diff rentes observations recevant le m me traitement Niveau on entendra par niveaux le nombre de modalit s pour un facteur TRAITEMENT DES DONN ES NULLES Pour la variable analys e il est possible que certaines valeurs soient nulles Deux cas sont alors possibles 1 Ces valeurs nulles correspondent la r alit observ e par exemple on effectuait des comptages de pucerons sur des pis de bl et il n y en avait pas Ces informations doivent tre retenues dans l analyse et il suffit de r pondre ensuite que ce n est pas une donn e manquante 2 Ces valeurs nulles repr sentent des donn es manquantes non enregistr es ou mises z ro par l exp rimentateur car leur relev tait totale
58. une l gende pour l axe des abscisses facultatif gt L gende verticale entrez une l gende pour l axe des ordonn es facultatif StatBox Repr sentations graphiques ANALYSE SUR UNE VARIABLE TRI PLAT Description Ce module permet de faire un comptage des modalit s d une variable qualitative Les effectifs et les pourcentages apparaissent dans un tableau de r sultats Des histogrammes et des graphiques en secteurs peuvent tre ajout s aux r sultats En cas de pond ration on nommera poids les fr quences pond r es Mise en uvre Onglet Donn es Gr es Donn es Sorties Mise en fome Variables disponible s Variable s qualitative s F Poids SHAG7 amp gt Variable s qualitative s s lectionnez les variables d crire Lorsqu il y a des valeurs manquantes dans une colonne StatBox propose de les ignorer En cas de refus le traitement est abandonn gt Poids cochez cette case si vous d sirez pond rer les donn es puis s lectionnez la variable de poids Les valeurs manquantes dans les poids sont mises z ro et conduisent par cons quent l inactivation de la ligne correspondante Onglet Sorties Statistiques descriptives E Graphiques sur une feuille s par e ao atBox Analyse sur une variable gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options
59. une variable ventuellement explicative de la satisfaction homme femme Chez les hommes on obtient 7 satisfaits et 3 insatisfaits soit un total de 10 hommes Chez les femmes 4 satisfaites et 6 insatisfaites soit un total de 10 femmes Rappel de l impuret de la population de d part Calcul pr c demment 1 1 0 495 On peut maintenant calculer les impuret s des deux sous populations obtenues Population 3 compos e d hommes Satisfaits 7 10 soit 70 Insatisfait 3 10 soit 30 13 0 7 0 3 0 3 0 7 0 42 Pour la population 4 compos e de femmes Satisfaits 4 10 soit 40 Insatisfaits 6 10 soit 60 14 0 4 0 6 0 6 0 4 0 48 On remarque que l impuret a diminu dans chacune des sous populations par rapport au n ud initial De plus l impuret suit la propri t expos e pr c demment est v rifi e 20 11 gt 10 13 10 14 9 9 gt 4 8 4 2 9 9 gt 9 Ainsi l impuret globale de la population de d part a diminu lors de la s paration La baisse d impuret est donc de AI 99 9 0 9 Le principe de la m thode CART consiste trouver la variable et le regroupement en 2 cat gories de modalit s qui donne la s paration qui diminue le plus l impuret globale donc qui rend la baisse d impuret maximale On s pare ainsi successivement les populations On obtient ainsi un arbre que l on peut ainsi tudier de la m me fa on que CHAID dans lequel chaque n ud tend devenir homog ne par rappor
60. variables des deux groupes sont qualitatives il est tout indiqu de calculer le tableau croisant toutes les variables du groupe 1 avec toutes celles du groupe 2 On proc de alors l Analyse des Correspondances Simples de ce tableau Ce dernier est en effet une juxtaposition de tableaux de contingence ordinaires ventilant la m me population Lorsque les variables des deux groupes sont quantitatives on cherchera visualiser rapidement les liaisons in aires entre variables des deux groupes l aide de la r gression PLS Cette m thode permet de visualiser les liaisons lin aires entre 2 tableaux de variables quantitatives X et Y d crivant es m mes observations La r gression PLS cherche trouver dans X les grands axes qui expliquent le mieux Y Prenons l exemple des r sultats des deux tours d un scrutin dans l ensemble des r gions d un pays Au premier tour l lecteur avait J choix possibles Au second tout il ne reste que K choix On cherche expliquer les r sultats du second tour l aide de ceux du premier tour c est dire capter l essentiel du m canisme de report des votes De mani re g n rale on cherche expliquer puis ventuellement pr dire globalement les variables du groupe Y groupe expliquer l aide de celles du groupe X groupe explicatif Le probl me qu on se pose trouver les facteurs combinaisons lin aires des X d une part et ceux des Y d autre part tels que e les facteurs
61. ve synth se des donn es et des options s lectionn es pour le rapport gt Statistiques descriptives affiche la table des statistiques descriptives pour chacune des variables s lectionn es StatBox Repr sentations graphiques nglet Graf S 1 Nuages de points Es Donn es Sorties Grap igues Mise enfome V Graphes XY Option XY Option_QQ Option_pp SHag7 e En Cu gt Graphes X Y affiche la collection de nuages bivari s obtenus en croisant deux deux toutes les variables quantitatives s lectionn es gt Option _XY Option _QQ Option_pp choisissez entre l affichage de la collection de nuages bivari s y compris ceux croisant chaque variable avec elle m me et l affichage de la collection de nuages bivari s et des Q Q plots ou des p p plots pour toutes les variables Ces graphiques ne peuvent pas tre affich s s il y a plus de 30 000 points R f rences Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 28 30 39 60 151 152 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris p 115 121 GRAPHIQUE AVEC LIBELL S Utilisez ce module pour repr senter simultan ment 2 variables quantitatives sous la forme d un nuage de points bivari et une variable qualitative ou de g
62. 0 ANALYSE DES CORRESPONDANCES MULTIPLES ACM Utilisez l analyse des correspondances multiples afin d tudier des donn es sous la forme d un tableau d observations d crits par plusieurs variables qualitatives Cette m thode est particuli rement adapt e l analyse d enqu tes pour lesquelles les lignes du tableau sont en g n ral des individus il peut en exister plusieurs milliers et les colonnes sont des modalit s de variables qualitatives le plus souvent des modalit s de r ponse des questions Description L analyse des correspondances multiples ACM est une extension de l analyse factorielle des correspondances AFC appliqu e non plus un tableau de contingence mais un tableau disjonctif complet Cette m thode peut tre vue galement comme l quivalent de l analyse en composantes principales ACP pour des variables qualitatives StatBox Analyse n variables Mise en uvre Onglet Do E Analyse des Correspondances Multiples Cm Es Donn es Variables et observations suppl mentaires Options Sorties Mise en fome Variable s disponible s Variables qualitatives actives Nn Tv3 N Poids TV4 TV9 TV7 N Age Tve Nsp Ajouter Tsee Lea Tv5 TV6 i Libell des observations N z F Poids lh N Poids m amp 4 aa amp Came CT gt Variables qualitatives actives saisissez les variables des donn es correspondant u
63. 0 418 0 002 datsun 43980 000 44872 423 892 423 0 019 StatBox Analyse n variables taunus 35010 000 36343 489 1333 489 0 007 rancho 39450 000 35638 065 3811 935 0 070 mazda 27900 000 32233 420 4333 420 0 139 opel 32700 000 37103 495 4403 495 0 106 lada 22100 000 30389 814 8289 814 0 533 R GRESSION LOGISTIQUE Description Dans la r gression logistique la variable expliquer prend les valeurs 0 ou 1 absence ou pr sence vrai ou faux etc Comme pour la r gression multiple les variables explicatives sont num riques La m thode de calcul bas e sur les moindres carr s n est plus utilisable La r gression logistique utilise la m thode du maximum de vraisemblance pour estimer les coefficients de r gression Mise en uvre S Tour de taile N Pouls gt Variable qualitative expliquer s l ectionnez la variable quali gt Variables quantitatives explicatives s lectionnez les variables quantitatives explicatives 1 R gression logistique te Es f Sorties Mise en fome Variable s disponible s Variable qualitative expliquer Ne e S Succ N Tractions Fr Era Variables quanttives explicaives N Poids e ative expliquer gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Mod le de r gression logistique affiche la table des coefficients asso
64. 2 Exemple ici le taux d apprentissage est trop grand pour que le r seau converge Valeur du taux 0 9 et nombre d it rations 1000 Globalement la courbe baisse mais on observe de nombreuses oscillations Dans ce cas il faut baisser le taux d apprentissage le diviser au moins par 2 voire plus Courbe d apprentissage Erreur moyenne 04 0 25 o2 REEFEEEEEEEEEEEEE l rations Exemple Dans ce dernier exemple le taux d apprentissage est trop petit pour atteindre la solution optimale Valeur du taux 0 01 et nombre d it rations 1000 On voit qu la derni re it ration dans notre cas la milli me la courbe continue baisser si on prolonge lesit rations au del de mille Il faut soit augmenter le nombre d it rations soit plus probablement augmenter le taux d apprentissage Lorsque la courbe d apprentissage commence se stabiliser horizontalement le mod le risque d apprendre les sp cificit s du jeu de donn es et peut perdre sa capacit g n raliser ou en d autres termes interpoler II faudrait arr ter l apprentissage au moment o la courbe devient horizontale En effet si on prend un nouveau jeu de donn es et qu on applique les poids obtenus sur l chantillon test chaque it ration on remarque que l erreur sur l chantillon test va d abord baisser puis de nouveau augmenter Dans le graphique suivant ce ph nom ne s observe partir de la centi me it ration On devrai
65. 5 et inf rieure 0 10 le d coupage montre une tendance La part de hasard est ici trop importante pour en tirer des conclusions franches Pour effectuer une segmentation il est conseill de disposer d un nombre suffisant d observations Certains auteurs sugg rent une taille de plus de 500 personnes Il faut enfin souligner que la taille des segments obtenus n est exploitable que si on obtient au moins 20 30 observations au niveau des feuilles de l arbre La taille de l chantillon ou du tableau de donn es a une certaine importance Sur un petit tableau de moins de 500 observations on peut moins facilement estimer la stabilit des r sultats de la segmentation L lagage par validation crois e apporte une solution ce probl me On effectue sur plusieurs sous chantillons la segmentation et on compare les r sultats S ils sont presque quivalents on pourra dire que la segmentation est stable S ils sont tr s diff rents il faudra tre prudent quant aux conclusions de l tude C est pour cette raison qu il est pr f rable de disposer d une population suffisante D un point de vue technique on peut dire que la segmentation n est pas vraiment une m thode multivari e dans la mesure o elle ne prend pas en compte l ensemble des variables en m me temps Les traitements ne se font que sur 2 variables la fois contrairement aux r gressions ou aux analyses discriminantes qui prennent en compte l ensemble des variables e
66. 9 278 Johnson R A amp D W Wichern 1992 Applied multivariate statistical analysis Prentice Hall Englewood Cliffs pp 246 284 Lebart L A Morineau amp M Piron 1997 Statistique exploratoire multidimensionnelle 2 me dition Dunod Paris pp 251 277 Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 403 428 Sharma S 1996 Applied multivariate techniques John Wiley amp Sons New York pp 287 316 Tomassone R M Danzart J J Daudin amp J P Masson 1988 Discrimination et classement Masson Paris Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 348 352 358 367 R GRESSION MULTIPLE Le programme de r gression multiple permet d expliquer la variation d une variable en fonction de plusieurs autres Les variables expliquer et les variables explicatives doivent tre de nature num rique Il est d autre part envisageable d utiliser la transformation binaire disjonctive pour coder une question nominale en plusieurs variables pseudo num riques Une seconde contrainte r side dans l ind pendance des variables explicatives Souvent elles sont corr l es entre elles Si c est le cas on effectue d abord une ACP et on s lectionne les questions qui sont les plus typiques des diff rents axes factoriels Si les axes factoriels ont une signification claire on peut les utiliser directement en tan
67. 95 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 440 442 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 242 243 StatBox Tests non param triques LES ESSAIS EN AGRICULTURE INTRODUCTION Sous le terme Analyse de Variance le programme fournit notamment un test de l interaction traitements blocs test de Tukey pour v rifier la validit du mod le retenu pour certains dispositifs exp rimentaux seulement un histogramme des r sidus pour v rifier leur Normalit les carts types des r sidus intra traitements et intra blocs pour v rifier que dans tous les traitements et tous les blocs les r sidus ont m me dispersion une cartographie des r sidus sur le plan r el de l essai pour v rifier l ind pendance des erreurs le tableau proprement dit d analyse de variance qui permet de conserver ou de rejeter l hypoth se d homog n it de l ensemble des moyennes la puissance de l essai utile pour en appr cier les chances de r ussite des tests de comparaisons multiples de moyennes Ce programme permet de r aliser l analyse de variance de tous les plans d exp rience orthogonaux et quilibr s comprenant de 1 4 facteurs tudi s ou contr l s selon des mod les crois s Ces plans sont 1 facteur tudi 2 facteurs tudi s 3 facteurs
68. Box Tests non param triques Mise en uvre gt Par chantillon Regroup es si les chantil N Oranges N Tomatoes Par chantillon Regroup es Descripteur d chantillon amp H G s amp Canmuer_ OK lons figurent dans des colonnes diff rentes la plage des donn es correspond un tableau avec les observations en lignes et les chantillons en colonnes Les valeurs manquantes ne sont pas autoris es Si les colonne de valeurs l appartenance aux chantillons gt indiquant l chantillon d appartenance de chaque val Donn es analyser s lectionnez la les variable s ne sont pas autoris es gt Remarque dans le cas de l option Par chantillon la tail donn es sont regroup es la plage correspond une tant indiqu e par un descripteur d chantillon Descripteur d chantillon dans le cas des donn es regroup es s lectionnez la variable qualitative leur Les valeurs manquantes ne sont pas autoris es correspondant aux donn es Les valeurs manquantes le des colonnes peut tre diff rente 1 Comparaison de k chantillons ind pendants L Donn es Options Sorties Mise en fome G n ral Seuil alpha gt Seuil alpha entrez la valeur du risque de premi re esp ce pour le test de Kruskall Wallis 1 Comparaison de k chantillons ind pendants ms Donn es Mise e
69. CHANTILLONS Utilisez ce module de tests param triques lorsque vous tes en pr sence de 2 chantillons pour d terminer si les chantillons proviennent de populations e qui ont m me variance test F de Fisher e dont les esp rances moyennes th oriques diff rent d une quantit D donn e test t de Student test z Remarque les chantillons peuvent tre ind pendants pour tous les tests et ventuellement appari s dans le cas des tests portant sur les moyennes En revanche le test F de Fisher requiert des chantillons ind pendants Le F de Fisher est le rapport des estimations des variances des populations 1 et 2 StatBox divise toujours la plus grande variance o par la plus petite o2 La valeur de la statistique est test e par rapport la loi de Fisher de degr s de libert s rmax 1 et Amin 1 avec max la taille de l chantillon ayant la plus grande variance et rimin la taille de l chantillon ayant la plus petite variance Le test effectu est unilat ral droite les hypoth ses nulle Ho et alternative H tant les suivantes Ho Ohar Olin 1 Hi Oax On gt 1 LL Les chantillons 1 et 2 sont pr lev s respectivement dans deux populations d esp rances y1 et u2 Le test bilat ral correspond au test de la diff rence entre pm et D et les hypoth ses nulle Ho et alternative H sont les suivantes Ho 41 p2 D H 4h p2 D Dans le cas unilat ral il faut distinguer le t
70. EARCE attribue cette phrase Guy FAWKES lorsqu il tenta de faire sauter le Parlement Anglais LE DISPOSITIF Vous devez conna tre quel dispositif vous allez mettre en place avant de lancer la cr ation du dispositif Cliquez sur le menu Nouveau une boite de dialogue apparait vous permettant de s lectionner le type de dispositif et le nombre de facteurs correspondant au dispositif souhait Ce programme permet de g n rer ou de saisir tous les plans d exp rience orthogonaux et quilibr s comprenant de 1 4 facteurs tudi s ou contr l s selon des mod les crois s Une fois le type de dispositif s lectionn validez en cliquant sur OK ou double cliquez sur celui ci Un nouveau classeur est cr contenant une seule feuille nomm e Dispositif destin e recueillir toutes les informations relatives l essai et aux facteurs tudi s ou contr l s Certaines zones de saisies sont facultatives ce sont le titre de l essai le protocole l ann e le num ro d essai le code essai D autres sont indispensables au bon fonctionnement du classeur Ce sont selon le types de dispositif e Le nombre de r p titions blocs compris entre 2 et 300 e Le nombre de sous blocs uniquement en alpha plan e La taille des sous blocs uniquement en alpha plan StatBox Les essais en agriculture Et pour tous les classeurs e Le nom de chacun des facteurs tudi s e Pour chacun des facteurs le nombre de niveaux
71. Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 345 388 Legendre L amp P Legendre 1984 Ecologie num rique Tome 2 La structure des donn es cologiques Masson Paris pp 5 50 Roux M 1985 Algorithmes de classification Masson Paris pp 126 134 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 724 743 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 157 158 NUAGES DE PONTS Consultez le paragraphe Nuages de points de la section Repr sentations graphiques GRAPHIQUES AVEC LIBELL S Consultez le paragraphe Graphique avec libell s de la section Repr sentations graphiques StatBox Analyse deux variables ANALYSE N VARIABLES ANALYSE EN COMPOSANTES PRINCIPALES ACP Utilisez l analyse en composantes principales pour r sumer la structure de donn es d crites par plusieurs variables quantitatives tout en obtenant des facteurs non corr l s entre eux Ces facteurs peuvent tre utilis s comme de nouvelles variables permettant e d viter la multicolin arit en r gression multiple ou en analyse factorielle discriminante e d effectuer une classification automatique en ne tenant compte que de l information essentie
72. Les valeurs manquantes dans les poids sont cumul es avec les valeurs manquantes dans les donn es StatBox propose de supprimer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne des poids cf l option Estimation des donn es manquantes calcul e sans tenir compte des ventuels poids nuls 7 Analyse en Composantes Principales ACP Donn es Variables et Observations suppl mentaires Options Sorties Mise en fome Variables suppl mentaires disponibles Variables quantitatives suppl mentaires Spp a a T Quai Sri Variable qualitative suppl mentaire Taai z Individu suppl mentaire partir de la ligne gt Variable s quantitative s suppl mentaire s dans le cas d un tableau observations variables saisissez les variables suppl mentaires ou passives Les variables passives ne participent pas aux calculs mais sont positionn es sur les plans factoriels avec les variables actives Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne de la variable cf l option Estimation des donn es manquantes gt Variable qualitative suppl mentaire dans le cas d un tableau observations variables saisissez la variable qualitative suppl mentaire Les m modalit s de cette variable d finissent m grou
73. M Donn es Sorties Mise en fome F Ajouter les nouvelles donn es T R sum Y Table de recodage F Nouvelle s colonne s Ajouter les nouvelles donn es ajoute les colonnes de codes la base d origine R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Table de recodage affiche la table de correspondance entre les textes d origine et les codes produits Une table de correspondance est dit e pour chacune des variables recod es gt Nouvelle s colonne s affiche la table des codes pour chacune des variables s lectionn es vy TRANSFORMATION Utilisez ce module pour transformer une variable quantitative continue au moyen d une fonction analytique Description Les transformations disponibles sont StatBox Codage centrer r duire les donn es sont standardis es et ramen es une variable de moyenne 0 et d cart type 1 centrer chacune des valeurs est gale sa valeur dont est soustrait la moyenne de la variable r duire chacune des valeurs est divis e par l cart type de la variable entre 0 et 1 les valeurs sont transpos es entre 0 et 1 entre 0 et 100 les valeurs sont transpos es entre 0 et 100 log x logarithmique base 10 afin de rendre la variance ind pendante de la moyenne en cas de proportionnalit entre la variance et la moyenne de la variable initiale pour les dis
74. M D Abrera 1975 Nonparametrics Statistical methods based on ranks Holden Day San Francisco pp 5 31 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 139 140 146 Siegel S 1956 Nonparametric statistics for the behavioral sciences McGraw Hill Kogakusha Tokyo Japan pp 116 136 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 427 439 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 216 220 COMPARAISON DE 2 CHANTILLONS APPARI S Utilisez ce module de tests non param triques lorsque vous tes en pr sence de 2 chantillons appari s afin de d terminer si les chantillons proviennent de la m me population ou de 2 populations diff rentes StatBox propose deux tests e le test de Wilcoxon sign e letest du signe Remarques l utilisation de ces tests constitue une alternative non param trique au test t de Student pour donn es appari es Les chantillons tant appari s ils doivent n cessairement comporter le m me nombre d observations L objectif du test de Wilcoxon sign est de d terminer si les chantillons proviennent d une m me population ou de deux populations diff rentes StatBox peut r aliser un test bilat ral ou unilat ral Soient deux populations A et B dont sont pr lev s les chantillons
75. a couche cach e contient un nombre plus restreint de neurones par rapport aux neurones d entr e Une r gle informelle consiste estimer le nombre de neurones dans la couche cach e gale la racine carr e du nombre de neurones en entr e StatBox Analyse n variables Le nombre de neurones dans la couche de sortie d pend de la m thode d analyse envisag e 1 neurone pour la r gression le nombre de groupes pour l analyse discriminante et le nombre de donn es en entr e pour l analyse en composantes neuronales Pour la classification on a seulement 2 couches gt Une couche d entr e contenant autant de neurones que de variables en entr e gt Une couche de sortie contenant une matrice de neurones repr senter un groupe Cette matrice dans StatBox est pour groupes 49 groupes potentiels Couche Couche de d entr e sortie ge supervis Les poids m mo sent lejeu de donn e Les r seaux r tropropagation sont ceux qui ont suscit le plus grand StatBox dans le mod le de r gression en analyse discriminante et en ai Au d but des calculs les poids des neurones sont d finis al atoiremen vers la couche cach e puis vers la sortie Les couches sont li es entre Chaque neurone dans cette matrice peut la plus petite de 2x2 jusqu 7x7 soit de 4 S Le mod le d apprentissage supervis la r tropropagation backpropagation nombre d applications lls sont utilis s dans nalyse en co
76. a s lection contient les noms de variable ou bien s il s agit d une ligne contenant des donn es Modifier la base d origine cochez cette option pour que les m thodes de codage proposent par d faut d ajouter les nouvelles colonnes produites la base d origine StatBox Introduction Onglet Rapports Options S G n ral Rappors Graphiques Agricuture Mise en forme El ments par d faut Formet GssseurExcd F R sum Disposition Feuile T Menu de navigation Premi re cellule 852 Tableaux Pr cision Cu Vert clair m Nombre de d cimales 5 E Format Gassique 5 Nombre de d cimales 2 2 Z Masquer le quadrillage l affichage 5 amp Annder C o _ gt Format s lectionnez le format de fichier par d faut des nouveaux rapports gt Disposition s lectionnez la disposition par d faut des nouveaux rapports gt Premi re cellule s lectionnez la plage d origine par d faut des rapports gt Couleur s lectionnez la couleur d affichage des tableaux de r sultats gt Format s lectionnez le format d affichage des tableaux de r sultats gt Masquer le quadrillage l affichage masque la grille Excel sur les feuilles de rapports gt R sum cochez cette option pour qu un bref compte rendu sur les variables et les param tres utilis s dans les rapports soit dit par d faut gt Menu de navigation cochez cette options pour qu un menu de n
77. ables aient des contributions lev es pour un m me facteur En outre chaque variable doit avoir une contribution non nulle pour un autre facteur et des contributions pratiquement nulles pour tous les facteurs restants Cet objectif est atteint en maximisant la variance des contributions parmi les facteurs sous la contrainte que la variance de chaque variable soit inchang e Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 87 96 Sharma S 1996 Applied multivariate techniques John Wiley amp Sons New York pp 137 141 P VALUE Dans StatBox chaque test statistique est accompagn d une p value La p value est d finie comme la probabilit calcul e sous l hypoth se nulle d obtenir une valeur de la statistique aussi extr me que celle observ e pour les donn es dans une direction particuli re Cette d finition implique qu une p value est utile dans un test unilat ral parce que la direction utilis e pour la calculer correspond l hypoth se alternative du test Par exemple dans un test t de Student unilat ral droite la p value correspond l aire contenue sous la loi de Student droite de fos tandis que dans le test unilat ral gauche la p value correspond l aire contenue sous la loi de Student gauche de tots Intuitivement la p value peut tre vue comme la force de l vidence contre l hypoth se nulle En effet plus la p value
78. ale permet d tablir un lien entre une variable num rique et plusieurs autres variables num riques ou non Elle est comparable la r gression lin aire multiple On utilise l algorithme de r tropropagation StatBox Analyse n variables avec un r seau 3 couches La premi re couche contient un n ombre de neurones gal au nombre de variables en entr e La couche cach e contient un nombre plus petits de neurones Et enfin la couche de sortie ne contient qu un seul neurone Touche Touche Touche de d entr e cach e sortie valide le mod le sur un chantillon test Et enfin on estime observations L int r t de la r gression neuronale r side dans son algorithme courbe dans le cas d une seule variable explicative En cons qui y ax b Pour estimer y en fonction d un nouveau jeu de donn es il suffi d apprentissage Le nombre de neurones cach s ne doit pas tre trop important nombre de neurones cach s mais la g n ralisation sur de Dans un premier temps le mod le est obtenu sur un chantillon d apprentissage Dans un deuxi me temps on la valeur de la variable tudi e pour de nouvelles non lin aire La droite de r gression est en fait une ence le mod le ne fournit pas une formule du type de lui appliquer les poids obtenus pendant la phase En effet l ajustement sera meilleur avec un grand nouvelles donn es se fera difficilement Le taux d apprentissage est de 0 2 p
79. alyse Factorielle des Correspondances AFC Description Mise en uvre Exemple R f rences Analyse des Correspondances Multiples ACM Description Mise en uvre Exemple R f rences Analyse Factorielle Discriminante AFD Description 86 Mise en uvre 86 R f rences R gression multiple Description Mise en uvre Exemple R gression logistique Description Mise en uvre Exemple R gression PLS Description StatBox Sommaire Mise en uvre Exemple R gression neuronale Les r seaux de neurones Les principes de base La phase d apprentissage et la phase de test La r gression neuronale Mise en uvre Exemple Multidimensional Scaling MDS Description Mise en uvre R f rences Classification par partitionnement k means Description Mise en uvre R f rences Classification Ascendante Hi rarchique CAH Description Mise en uvre Exemple R f rences Arbres de Segmentation La m thode CHAID La m thode CART Mise en uvre Exemple R f rences Anova Mod le lin aire g n ral Description Mise en uvre Exemple 129 129 129 Tests param triques iss sissesesersesererssesses Comparaison des param tres de 2 chantillons Description du test F de Fisher Description du test t de Student pour chantillons ind
80. analyse de variance 2 facteurs contr l s ANOVA 2 Les termes traitement et bloc doivent tre pris dans un sens tr s g n ral En effet il peut s agir par exemple e de k traitements m dicaux les blocs tant des sujets volontaires e des appr ciations sensorielles mises par un panel de consommateurs au sujet de k produits imentaires les blocs tant les consommateurs et les traitements tant les produits alimentaires une cotation d abondance d esp ces biologiques dans k zones g ographiques diff rentes les locs tant les esp ces et les traitements tant les zones g ographiques et les conditions cologiques qui y r gnent d Ooo we eo Les chantillons T ant appari s ils doivent n cessairement comporter le m me nombre de blocs L objectif du test de Friedman est de d terminer si tous les traitements donnent le m me r sultat ou si au moins un de traitements diff re des autres Les hypoth ses nulle Ho et alternative H1 du test sont donc les suivantes Ho les k chantillons ont t pr lev s dans une m me population H au moins un des chantillons provient d une population diff rente des autres Ce test a t d velopp en consid rant que e les blocs sont randomis s e les chantillons sont appari s e les donn es sont au moins des donn es ordinales StatBox Tests non param triques Mise en uvre Onglet Donn es E compari
81. anisme gt Contraindre la codification des noms des nouveaux fichiers activer la codification des fichiers notamment en s lectionnant le nom de l organisme Le code de votre coop rative se g n re automatiquement L ensemble des options sera retenu pour toutes les utilisations de StatBox Vegetal 2 CREATION D UN CLASSEUR Ouvrez Microsoft Excel le menu StatBox Vegetal s affiche automatiquement dans la barre de menu Lancez Vegetal en cliquant sur le menu StatBox Vegetal puis Nouveau npage Formules o CE StatBox Vegetal A A Options 43 Aide Naviguer Outils A propos de Vous avez le choix entre 6 mod les de classeurs Semences phytosanitaire Grandes Cultures phytosanitaire Vigne phytosanitaire Arboriculture phytosanitaire Vigne phytosanitaire Cultures L gumi res et Fertilisation Chacun des classeurs a t adapt aux diff rents types de cultures et aux diff rentes th matiques veillez donc bien choisir le bon classeur StatBox Prise en main de StatBox Vegetal Essai simple Essai en regroupement Mod le Feuille Production v g tale Essai semences jE a e a Grandes D raea eaa KE a ne ere L Essai phytosanitaire Vigne L Essai fertiisation Al l Culture Th me Ann e 10 Code Protocole Coop rative v Num rod essai 1 G n rer le code Adresse _ D DATA Vision3 2010 Parcourir 7 Activer l arborescence automatiq
82. anquantes StatBox propose tout d abord d ignorer les lignes concern es En cas de refus StatBox propose alors d utiliser toute l information disponible en ignorant simplement les valeurs manquantes pairwise deletion sinon la bo te de dialogue est ferm e et le traitement est abandonn gt Libell s des lignes s lectionnez la variable contenant les identifiants des observations Options CHERS o one es Donn es Options Sorties Mise enfome G n ral Indices Seuil alpha 5 Simiarit Donn es en entr e Dissimilarit Quantitatives Indice de similarit calculer D Binaires Cor lstion de Pearson x Tous type Croiser E D tection de donn es similaires les colonnes Valeur seuil 4 5 les lignes guada eg Annuler ox _ StatBox Analyse deux variables gt Seuil alpha entrez la valeur du risque de premi re esp ce pour le test de sph ricit de Bartlett gt Quantitatives Binaires Tous types choisissez le type de donn es en entr e Le choix du type de donn es permet StatBox d effectuer des contr les de validit des donn es et d viter des erreurs m thodologiques en ce qui concerne le choix d un indice de similarit dissimilarit Dans le cas des variables quantitatives seuls les indices d inis sp cifiquement pour ces types de donn es sont propos s Dans le cas de donn es de tous types donn es quantitatives et ou donn es
83. ao Pour activer votre version du logiciel v Cochez l option J ai un num ro de s rie et validez en cliquant sur Suivant v Entrez votre num ro de s rie sous la forme 99999 99999 XXXXX XXXXX dans la zone de saisie Un message vert doit apparaitre vous signifiant que le code est valide Validez en cliquant sur Suivant amp Proc dure d activation de Statbox EQ c gt Cat assistant va vous aider activer Stetboxt Ssisiasez voire num ro de s rio Le num ro de s rie est de le forme 93959 99399000 30000 5008 01000 188 aad Ve d Cliquez sur Suivant pour valider DU Su v Activez la version du logiciel Pour cela vous disposez de plusieurs modes d activation e connexion au server Web d activation pour cela vous devez disposer d une connexion active Internet e paremail StatBox Introduction Sur l cran principal d activation s lectionnez l option J ai un num ro de s rie et je veux activer StatBox puis cliquez sur Continuer Suivant sur Office 2010 Avec Office 2003 2007 Avec Office FF ete Sato x _ Bienvenue StatBox i je o l ai un num ro de s rie et voudrais activer StatBox Je voudrais tester statBox I v a encore 15 Jours pour tester produit i o Je voudrais tester StatBox Il ne reste plus que 15 jour s pour tester o Sur Office 2010 s lect
84. ar d faut 20 de l erreur est r percut pour la correction des poids La courbe d apprentissage repr sente horizontalement les it ra Au d but l erreur est lev e Elle doit rapidement baisser ions successives et verticalement l erreur moyenne Si on observe que la courbe d apprentissage ne baisse pas et ne se stabilise pas horizontalement il faut probablement r duire ce taux Divisez le par deux et relancez le mod le Il est parfois n cessaire de le r duire encore tant que le mod le continue osciller Si le taux d apprentissage est trop petit et que le nombre d it rations n est pas tr s lev il est probable que le mod le ne va pas a le taux d apprentissage et ventuellement le nombre d it rations StatBox Analyse n variables eindre la solution optimale Augmentez dans ce cas Mise en uvre nn es Sas LR O E Donn es Options Sorties Variable s disponible s Variable quantitative expliquer N Individu e NY Ajouter Variables quantitatives explicatives NxT INxX2 sx La sx Ajouter 15x56 Libell des observations gt Variable quantitative expliquer s lectionnez la variable expliquer Y gt Variables quantitatives explicatives s lectionnez les variables explicatives X gt Libell des observations s lectionnez la variable identifiant les observations t Options R gression neuronale Donn es Gions
85. ariable qualitative expliquer Ajouter S Group e Variables quantitatives explicatives Nx1 NX2 FA i Libell des observations gt Variable qualitative expliquer saisissez la variable qualitative d crivant les groupes des observations Pas de donn e manquante dans la variable groupe Lorsqu il y a des valeurs manquantes StatBox propose tout d abord d ignorer les lignes concern es En cas de refus StatBox propose alors d estimer les valeurs manquantes par le mode de la variable cf l option Estimation des donn es manquantes sinon le traitement est abandonn gt Variables quantitatives explicatives saisissez les variables quantitatives qui doivent expliquer l appartenance aux groupes Les valeurs manquantes sont cumul es avec les ventuelles valeurs manquantes de la variable expliquer StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes de chaque variable par la moyenne cf l option Estimation des donn es manquantes Libell s des observations saisissez la variable de libell s qui correspondent aux lignes du tableau de donn es v StatBox Analyse n variables gt Poids saisissez la variable des poids des observations Les valeurs manquantes dans les poids sont cumul es avec les valeurs manquantes dans les donn es actives StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes par la moy
86. asses Nombre maximal de classes entrez le nombre de classes d amplitude constante de l histogramme Dans le cas de l utilisation de bornes discr tes StatBox regroupe les bornes au mieux en fonction du nombre maximal de classes 1 Ajustement une loi de probabilit Es Donn es Options Soties Mise enfome F R sum V Param tres F Test de Kolmogorov Smirnov Z Test de conformit du khi R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Param tres affiche les valeurs des param tres de position moyenne de dispersion variance et de forme asym trie et aplatissement estim es partir des donn es et les valeurs th oriques calcul es pour la loi de probabilit ajust e Test de Kolmogorov Smirnov effectue le test d galit des distributions cumul es empirique et th orique Test de conformit du khi effectue le test d galit des histogrammes des effectifs observ s et th oriques gt gt R f rences Abramowitz M amp I A Stegun 1972 Handbook of mathematical functions Dover Publications New York pp 927 964 A vazian S I Enukov amp L Mechalkine 1986 El ments de mod lisation et traitement primaire des donn es Mir Moscou pp 126 183 StatBox Analyse sur une variable Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gemblo
87. ation de StatBox sont issus d ouvrages cit s en r f rences ce qui permet de e comparer les r sultats obtenus avec StatBox et les r sultats figurant dans les ouvrages cit s e b n ficier des interpr tations d velopp es dans le texte des ouvrages cit s Toutefois il est possible de constater de l g res diff rences entre les r sultats produits par StatBox et ceux fournis dans les ouvrages dont sont issues les donn es Ces carts proviennent e du faible nombre de d cimales des valeurs figurant dans les tableaux de donn es alors que les calculs ont t effectu s avec des valeurs comportant davantage de d cimales e des param tres d arr t des it rations diff rents dans le cas des m thodes it ratives e des choix diff rents dans l impl mentation des algorithmes Ces carts ne sont g n ralement pas suffisants pour modifier profond ment les interpr tations des analyses effectu es ORGANISATION DES MENUS Selon l dition que vous installez 1 ou 2 menu ruban s ajouteront la barre de menu Excel 1 menu commun pour les statistiques standards et 1 menu distinct pour l dition Agri StatBox Introduction L organisation des menus a t repens e dans cette version pour un acc s plus intuitif aux diff rentes fonctions du logiciel L apparence des menus est diff rente selon la version d Excel que vous utilisez la version pour Office 2007 et 2010 de StatBox int gre notamment la nouvelle interface
88. atives ea z taile poue N Pods Libell s des observations NNo S 4 4 rs amp _ Annuler _ OK gt Variable s Y expliquer s lectionnez les variables quantitatives d pendantes expliquer gt Variables X explicatives s lectionnez les variables quantitatives explicatives gt Libell s des observations s lectionnez la variable contenant les libell s des observations StatBox Analyse n variables I r gression PLS es Donn es Options Sorties Mise en fome G n ral Nombre de composantes 2 2 gt Nombre de composantes entrez le nombre maximal de composantes prendre en compte dans le mod le S R gression PLS Es Donn es Options Sorties Mise enfome V R sum 7 Composantes PA Coefficients sur les X 7 Coefficients sur les Y Variance expliqu e sur les X Variance expliqu e sur les Y F R gression sur les variables d origine E R gression sur les variables centr es r duites F1 Graphique 7 Estimation des Y SHQAG 7e Cannuer_ ok gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Composantes affiche la table des composantes du mod le Coefficients sur les X affiche les coefficients des variables X sur les composantes du mod le Coefficients sur les Y affiche les coefficients des variables Y sur les composantes du mod le Variance expliqu
89. avigation rapide soit ajout au d but des rapports pour acc der plus facilement aux diff rentes sections gt Nombre de d cimales entrez le nombre de d cimales par d faut pour les r sultats num riques gt Nombre de d cimales entrez le nombre de d cimales par d faut pour les r sultats en pourcentage Onglets Graphiques Options Es G n ral Rapports Graphiques Agicuture Afficher les graphiques s parement E Afficher les feuilles servant l laboration des graphiques Emplacement Ajust Couleur de fond BE Valeurs propres a Taille ACP cercle des corr lations ACP observations Di 1 4 a Ha Giplot Hauteur 1 So m acm AFD cercle des corr lations Valider AFD observations gt Afficher les graphiques s par ment cochez cette option pour que les graphiques soient dispos s syst matiquement sur une nouvelle feuille StatBox Introduction Yv vyv Onglet Agriculture Afficher les feuilles servant l laboration des graphiques cochez cette option pour que les feuilles contenant les donn es sources des graphiques soient rendues visibles Emplacement s lectionnez le mode de positionnement des graphiques Couleur de fond s lectionnez la couleur du corps des graphiques Largeur Hauteur entrez pour le graphique s lectionn dans la liste de gauche les dimensions d affichage du graphique Pour que les nouv
90. bin Utilisez ce module pour ajuster une loi de probabilit vos donn es quantitatives continues ou discr tes et v rifier la qualit de l ajustement effectu L ajustement d une loi de probabilit une distribution de valeurs correspond la recherche du meilleur mod le param trique parmi ceux propos s par StatBox L ajustement consiste donc choisir une loi de probabilit et les valeurs des param tres de cette loi de sorte que l cart entre les valeurs des donn es et les valeurs du mod le soit le plus faible possible StatBox Analyse sur une variable Plusieurs lois de probabilit sont disponibles uniforme gaussienne lognormale de Student de Fisher du khi B ta exponentielle de Poisson binomiale binomiale n gative StatBox offre la possibilit de saisir directement les valeurs des param tres de la loi de probabilit choisie ou de les estimer automatiquement Afin de juger la qualit de l ajustement StatBox affiche les valeurs de l esp rance de la variance des coefficients d asym trie et d aplatissement estim es d apr s les donn es et les valeurs calcul es pour la loi de probabilit s lectionn e compte tenu de ses param tres saisis ou estim s Un accord entre les deux jeux de valeurs constitue un premier l ment d appr ciation de l accord entre la distribution des valeurs et le mod le ajust Deux tests non param triques sont galement propos s par StatBox e le test de Kolmo
91. ble d observations 1 5 par exemple Ces divisions ne sont pas tr s int ressantes Pour viter de d velopper de telle branche vous pouvez d finir un seuil en dessous duquel la s paration ne se fait plus gt Affecter un seuil sur l effectif sur la probabilit lorsque la probabilit associ e une s paration d un n ud est sup rieure 0 05 on peut consid rer que le hasard peut avoir jou un r le dans les r sultats II faut dans ce cas tre prudent dans l interpr tation de cette branche Pour simplifier l arbre StatBox ne divise plus le n ud si cette probabilit d passe un seuil La valeur du seuil d pend de l option choisie s il s agit de l effectif tapez un seuil de 20 ou 30 par exemple s il s agit d une probabilit tapez un seuil de 0 05 par exemple Dans le cas de l algorithme de CART au lieu d tre une probabilit c est le niveau d impuret qui est pris en compte gt Seuil d arr t des calculs cette option ne peut tre activ e que si le seuil correspond une fr quence Si cette option n est pas coch e au lieu d arr ter le d veloppement de l arbre StatBox va choisir la prochaine variable dans la liste d croissante des variables en fonction de leur Khi ou de l indice d impuret gt Utiliser les donn es manquantes cochez cette option pour inclure les non r ponses ou les donn es manquantes dans l analyse Une donn e manquante correspond une cellule vide dans la feuille des do
92. bution plus plate que la loi normale distribution platicurtique tandis qu une valeur positive correspond une distribution plus pointue que la loi normale distribution eptocurtique Asym trie Pearson coefficient caract risant le degr d asym trie d une distribution par rapport sa moyenne Pour une distribution gaussienne loi normale l asym trie vaut 0 Une valeur n gative correspond la pr sence d une queue de distribution vers la gauche tandis qu une valeur positive correspond une queue de distribution vers la droite Aplatissement coefficient d aplatissement tel qu il est calcul par Excel Asym trie coefficient d asym trie tel qu il est calcul par Excel StatBox Repr sentations graphiques CV cart type moyenne coefficient de variation mesurant la dispersion relative obtenue en divisant l cart type par la moyenne Ce coefficient permet de comparer la dispersion de variables dont les unit s sont diff rentes ou qui ont des moyennes tr s diff rentes Variance d chantillon variance des donn es dans le cas de donn es non pond r es le d nominateur est n effectif de l chantillon Variance estim e estimation de la variance d une population dont les donn es constituent un chantillon estimateur sans biais dans le cas de donn es non pond r es le d nominateur est n 1 avec n l effectif de l chantillon Ecart type d chantillon racine carr e de la variance d
93. cative s qualitative s s lectionnez dans la les variable s explicative s qualitative s ou nominale s V rifiez que le nombre de modalit s de vos variables explicatives ne soit pas trop nombreux Utilisez dans ce cas le module de regroupement des modalit s Variable s explicative s quantitative s Vous s lectionnez dans cette liste les variables explicatives quantitatives Toutes ces variables sont transform es en classes Poids cochez cette option pour pond rer vos observations puis s lectionnez la variable contenant les poids Onglet Options F1 Segmentation Donn es Options Sorties Graphiques Mise enfome G n ral Nombre de niveaux 4 Affecter un seuil Seuil d arr t des calculs Sur l effectif Algorithme utiliser Sur la probabilit CHAID Valeur du seuil 15 CERT Autres PA Utiliser les donn es manquantes R utiliser les variables 2 atBox Analyse n variables gt Nombre de Niveaux Le nombre de niveaux est fix par d faut 4 Plus vous avez une taille importante d observations et plus vous pouvez augmenter le nombre de niveaux de votre arbre Une fois l arbre construit vous pouvez le modifier en utilisant les options suivantes D velopper un niveau Imposer une variable Supprimer une s paration gt Affecter un seuil sur effectif dans certains cas vous pouvez obtenir des feuilles avec un nombre tr s fai
94. ci s chaque variable explicative ainsi que les erreurs associ es StatBox Analyse n variables Voici un exemple de tableau de r sultats sur un jeux de donn es issus de l ouvrage de David W Homer et Stanley Lemeshow Applied Logistic Regression John Wiley amp Sons page 30 R gression logistique Coef Std Error Wald test Pvalue Constante 1 295 1 071 1 209 0 228 age 0 024 0 034 0 706 0 481 Iwt 0 014 0 007 2 178 0 031 race1 1 004 0 498 2 016 0 045 race2 0 433 0 362 1 196 0 233 ftv 0 049 0 167 0 295 0 768 Log Likelihood 111 286 G 12 099 Pvalue 0 0335 Nombre d it rations 6 Nombre d observations 189 On trouve les coefficients de r gression l cart type le test de Wald pour valuer la significativit des variables dans le mod le et la probabilit associ e R GRESSION PLS ll est fr quent d avoir explorer rapidement les rapports existant entre deux groupes de variables d crivant les m mes unit s statistiques On peut imaginer par exemple un ensemble d observations d crites d un c t par un certain nombre de caract ristiques socio conomiques et de l autre par leur emploi du temps dur e d volue diff rentes activit s ou un ensemble de produits alimentaires de m me type d crit d une part l aide de leur composition chimique et d autre part l aide de notes d cern es par une quipe de go teurs relativement plusieurs composantes du go t Lorsque les
95. cimal sup rieure 1E 9 v e diff rente de 0 et trop grande si la valeur est Degr s Radians s lectionnez Degr s si l argument de sin x ou le r sultat de arcsin x sont exprim s en degr s et s lectionnez Radians si l argument de sin x ou le r sultat de arcsin x sont exprim s en radians StatBox Codage E Transformation me Es Donn es Options Sorties Mise en fome FT Ajouter les nouvelles donn es Nom de la nouvelle colonne 7 R sum T Valeurs transform es N gt Ajouter les nouvelles donn es ajoute la colonne des donn es transform es la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Valeurs transform es affiche la table des valeurs transform es rences Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 361 375 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 409 422 CALCUL MATRICIEL Ce module permet d effectuer les op rations de base sur des matrices scription Voici les fonctions disponibles e Addition de 2 matrices X n p Z n
96. comparer les disparit s et les distances aux dissimilarit s gt Meilleure estimation affiche un bilan des diff rentes r p titions et la meilleur estimation retenue Borg I amp P Groenen 1997 Modern multidimensional Scaling Theory and applications Springer Verlag New York Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 107 156 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 568 605 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 172 173 CLASSIFICATION PAR PARTITIONNEMENT K MEANS Utilisez la m thode des K means ou m thode des centres mobiles pour partitionner des observations en classes homog nes sur la base de leur description par un ensemble de variables quantitatives Remarque dans le cas de variables qualitatives il est n cessaire d effectuer au pr alable une analyse des correspondances multiples ACM et de consid rer les coordonn es des observations sur les axes factoriels obtenus comme de nouvelles variables L algorithme des nu es dynamiques analogue l algorithme des k means consiste am liorer de fa on it rative une partition initiale en minimisant l inertie intra classe A chaque it ration l algorithme calcule les barycentres des classes de la pa
97. comportant des valeurs a et b Notons d la m diane des diff rences do a b a pour tous les couples de donn es appari es Le test bilat ral correspond au test de la diff rence entre A et B et les hypoth ses nulle Ho et alternative H1 sont les suivantes StatBox Tests non param triques H d 0 H d 0 Dans le cas unilat ral il faut distinguer le test unilat ral gauche ou inf rieur et le test unilat ral droite ou sup rieur Dans le test unilat ral gauche l hypoth se alternative indique que la population A admet en g n ral des valeurs inf rieures celles de la population B Ho d lt 0 H d gt 0 Dans le test unilat ral droite l hypoth se alternative indique que la population A admet en g n ral des valeurs sup rieures celles de la population B H d20 Hi d lt 0 Ce test a t d velopp en consid rant que e la distribution des db a est sym trique e les db a sont ind pendants e les db se mesurent en valeurs r elles L objectif du test du signe est de d terminer si les chantillons proviennent d une m me population ou de deux populations diff rentes StatBox peut r aliser un test bilat ral ou unilat ral Soient deux populations A et B dont sont pr lev s les chantillons comportant des valeurs a et b Le test du signe consid re le nombre de diff rences b a de signe positif Le test bilat ral correspond au test de la diff rence entre A et B et les hypoth ses nul
98. cteurs tudi s contr l s ou des niveaux d interactions gt Test de TUKEY v rifie si l interaction traitement bloc est significative Cette option n est active que si votre dispositif comporte des blocs gt Table d analyse de la variance affiche la table de d composition de la variance pour les facteurs tudi s contr l s et les interactions gt Indicateurs affiche une table d indicateurs sur la variable analyser moyenne cart type r siduel et coefficient de variation gt Tableaux des moyennes affiche les tables de moyennes pour chacun des facteurs tudi s contr l s et les niveaux d interactions Graphiques des moyennes affiche des histogrammes des moyennes pour chacun des facteurs tudi s contr l s et les niveaux d interactions diter la puissance permet d tudier les risques de 1 esp ce ainsi que les risques B de 2 me esp ce Vous pouvez saisir jusqu 5 carts tester en ainsi que 5 risques tester en Les valeurs doivent tre comprises entre 0 1 et 99 Test de Dunnet effectue un test de comparaison de moyennes avec pr sence de t moins Test de Scheffe effectue un test de Newman Keuls pour les traitements sup rieur aux t moins Test de Newman keuls constitue des groupes homog nes de traitements par comparaison de moyennes Test de Bonferroni effectue des comparaisons de moyennes 2 2 diter des contrastes effectue des comparaisons particuli res entre les
99. cueil Un message apparait alors vous signifiant le nombre de jour restant de la p riode d valuation Au terme de cette p riode d valuation l utilisation du logiciel sera bloqu e dans l attente d activation L affichage des graphiques sous Excel ne s effectue pas correctement lorsque Excel ne peut pas imprimer ce qui est le cas notamment si e aucun pilote d imprimante n est install e l imprimante s lectionn e n est pas connect e ou fonctionne mal Essayez d imprimer depuis Excel afin d obtenir un diagnostic plus pr cis nstallez un pilote d imprimante sur votre machine en cliquant sur l ic ne Poste de travail o en allant dans Param tres Imprimantes Deux param tres r gionaux sont essentiels pour StatBox le s parateur d cimal et le s parateur de iste Pour acc der ces param tres allez dans D marrer Param tres Panneau de configuration Param tres r gionaux Nombre Vous pouvez en outre modifier le s parateur d cimal directement sous Excel allez dans Outils Options International Gestion des nombres d cochez l option Utilisez les param tres syst me et modifiez le contenu du champ S parateur de d cimale StatBox fonctionne correctement avec n importe quel s parateur d cimal d un caract re y compris orsque celui ci est modifi au cours d une session de travail Certains jeux de donn es propos s dans le fichier data xls situ dans le r pertoire du dossier d install
100. d un rapport cliquez sur Annuler PERFORMANCES Les calculs sont g n ralement assez rapides sauf dans le cas des modules faisant appel des m thodes it ratives d optimisation ex le Multidimensional Scaling ou la programmation dynamique algorithme de Fisher o les temps de calcul peuvent tre lev s selon le param trage utilis et ou la aille des jeux de donn es Dans le cas des m thodes it ratives pour vous familiariser avec les temps de r ponse de ces m thodes sur votre ordinateur vous pouvez r gler les param tres contr lant le nombre de r p titions le nombre d it rations maximal et le seuil de convergence avec des valeurs modestes puis augmenter progressivement le nombre de r p titions le nombre d it rations maximal et diminuer le seuil de convergence jusqu ce que le temps de calcul vous semble trop lev L affichage des tableaux de r sultats dans une feuille Excel est assez lent Aussi lorsque vous traitez de grands jeux de donn es prenez garde aux options qui vous sont propos es dans les bo tes de dialogue au sujet de l affichage de certains r sultats par exemple e la matrice de corr lation dans l analyse en composantes principales ACP e les matrices d inertie dans l analyse factorielle discriminante AFD e la matrice de proximit dans la classification ascendante hi rarchique CAH L affichage des graphiques est encore plus lent que l affichage des tableaux de r sultat
101. de 0 ni trop proche de 1 la loi binomiale peut tre approxim e par une loi normale d esp rance Np et de variance Np 1 p La proportion n N suit approximativement une loi normale de moyenne p et de variance tatBox r alise un test z adapt au cas de deux proportions en utilisant l approximation de la loi binomiale par la loi normale ral correspond au test de la diff rence entre p p2 et D et les hypoth ses nulle Ho et alternative H1 vantes Ho p po D H P pe 4 D s unilat ral il faut distinguer le test unilat ral gauche ou inf rieur et le test unilat ral droite ou Dans le test unilat ral gauche les hypoth ses sont les suivantes Ho p pe D H p pa lt D unilat ral droite les hypoth ses sont les suivantes Ho p p2 D H P p2 gt D Ce test a l d velopp en consid rant que e les observations sont mutuellement ind pendantes e la probabilit p de poss der la propri t consid r e est la m me pour toutes les observations e les effectifs sont assez grands et p n est ni trop proche de 0 ni trop proche de 1 E Comparaison de 2 proportions M Es Donn es Options Sorties Mise en fome Effectif 1 12 Effectif 2 17 Effectif total Element tester Proportions Effectifs 1 350 Effectif total 2 124 gt Proportions Effectifs choisissez la nature des donn es soit des proportions
102. de 1Q1 e la moustache sup rieure du box plot s tend de Q3 jusqu la valeur la plus proche de la borne sup rieure de 1Q3 en restant l int rieur de 1Q3 e les valeurs en de de la moustache inf rieure et au del de la moustache sup rieure sont repr sent es individuellement par des cercles Ces cercles sont pleins lorsque les valeurs sont au del de 3 fois l cart interquartile Q3 Q1 et vides s ils sont situ s l int rieure de cet intervalle e les valeurs minimale et maximale sont indiqu es sur le box plot Un stem and leaf plot ou diagramme tige et feuille est une repr sentation semi graphique qui donne des indications sur la distribution de fr quence d un ensemble de donn es en utilisant les valeurs elles m mes La partie stem ou tige correspond aux intervalles de classes de valeurs et la partie leaf ou feuille correspond au nombre de donn es dans la classe repr sent par les diff rentes valeurs Pour construire un diagramme tige et feuille il faut couper chaque valeur en une partie principale stem et une partie secondaire leaf cette coupure ne s effectuant pas n cessairement au niveau de la d cimale Les tiges sont affich es les unes en dessous des autres par ordre croissant et les feuilles sont affich es horizontalement droite des tiges galement par ordre croissant StatBox d termine automatiquement l unit qui lui semble la plu appropri e pour couper les valeurs e
103. de d composition de la variance expliqu e par les variables s lectionn es gt Estimation des Y affiche pour chaque observation l estimation de Y la valeur Y l erreur et la distance de Cook Lorsque cette distance est sup rieure 1 il est probable que le point influence trop les param tres de la r gression Pour v rifier que l erreur est bien une variable al atoire distribu e normalement vous pouvez effectuer un histogramme ou dans le module Ajustement une loi de probabilit comparer la distribution une loi normale gt Meilleur sous ensemble de variables explicatives L option meilleur sous ensemble best subset permet de trouver le meilleur mod le comportant le moins de variables explicatives Par exemple avec au d part 5 variables explicatives le logiciel value toutes les combinaisons de 4 variables parmi 5 de 3 variables parmi 5 etc L exemple suivant est tir de l ouvrage de G Saporta Probabilit s Analyse des donn es et statistique Edition Technip 1990 page 394 Meilleur sous ensemble de variables explicatives CYL PUIS LON LAR POIDS VITESSE R2 ajust 1 variable X 0 615 2 variables X X 0 645 3 variables X X X 0 634 4 variables X X X X 0 610 5 variables X X X X X 0 587 6 variables X X X X X X 0 550 StatBox vous pr sente les diff rentes solutions possibles associ es un R2 ajust Il s agit alors de trouver un compromis entre la simplicit du mod le c est
104. de la construction du tableau de contingence En cas de refus le traitement est abandonn gt Poids s lectionnez la variable des poids des observations Lorsqu il y a des valeurs manquantes dans les poids StatBox propose d ignorer les observations concern es En cas de refus le traitement est abandonn v v Onglet Options T EN ym mm Donn es p ons Sores Mise enfome G n ral Sevil alpha 4 5 Classes dintervalles D Ne pas accepter les donn es manquantes Supprimer les donn es manquantes gt Seuil alpha entrez la valeur du risque de premi re esp ce des tests ao atBox Analyse deux variables gt Ne pas accepter les donn es manquantes Supprimer les donn es manquantes choisissez si les donn es manquantes doivent tre supprim es ou si la m thode doit tre arr t e dans le cas de pr sence de donn es manquantes E Tableaux crois s Donn es Options Sorties Mise en fome Y pour le rapport vy Table des combinaisons affiche tableau contient la m me inform WA R sum E Graphiques Table des combinaisons Tableaux de contingence Test du Khi 7 Effectifs observ s IP Test d ind pendance du khi E lignes E Effectifs th oriques colonnes E Contributions au khi V total E khi par case R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectio
105. de variance est une m thode statistique qui permet de tester l hypoth se d homog n it d un ensemble de k moyennes Pour tester cette hypoth se le choix d un mod le est n cessaire Par exemple lorsque vous comparez des traitements selon un dispositif en blocs le mod le que vous retenez peut tre sans le savoir est le suivant rendement esp r effet moyen du a effet du bloc auquel appartient d une parcelle champ d essai parcelle cette parcelle de l essai Yij u ai fj Ensuite r aliser l analyse de variance c est tester si les effets des traitements sont identiques ou non En termes statistiques c est rechercher si l effet traitements est significatif ou non bien s r avec un certain risque d erreur Dans le cas o l effet traitements est globalement significatif vous voulez videmment conna tre les traitements qui ont des effets diff rents Il faudra alors poursuivre l analyse en choisissant le test de comparaison de moyenne adapt l objectif de votre essai StatBox Les essais en agriculture Dans le cas o l effet traitements n est pas significatif un calcul de puissance vous sera utile pour savoir si votre essai avait toutes les chances ou non de mettre en vidence les diff rences entre traitements que vous jugiez int ressantes d celer Maintenant il ne faut pas oublier que vous avez choisi un mod le a priori il est honn te de v rifier son bien fond Que peut on
106. des X r sument le mieux possible les X propri t des axes factoriels e les facteurs des Y r sument le mieux possible les Y propri t des axes factoriels StatBox Analyse n variables ceux des On voudrait repr senter ensuite les variables et on utilisera seulement les facteurs explicatifs i e ceux des X pour la repr sentation des variables L explic variables par des facteurs en termes g om tri espace de ces facteurs De plus puisqu il s agit d r gression des Y sur les r gression des Y en fonction des X Comme en ACP on peut j La projection des observai d crit par le groupe Y et u sont proches l une de l au par le plan contrario observation qui va contre exemple d un d partement Y a priori non expliquer et ventuel acteurs des X part uger de la corr lation d re dans un plan cette une observation dont la liaison g n rale en ions est double i e chaque observation est projet e deux sur l axe une fois en ne fois en tant que d crit par le groupe X Si les deux projections d une m me observation les facteurs des X soient les meilleures variables explicatives possibles de ceux des Y sous les contraintes pr c dentes En particulier les facteurs des X seront deux deux d corr l s a lors que acteurs ation de e sous les observations sur les paires d axes correspondant ces iques c est justement la projection de ces variables sur ions de i
107. e E Redressement O Es Donn es Poids Options Sorties Mise enfome Nombre de d cimales 3 7 Extrapolation Effectif obtenir 1500 gt Nombre de d cimales entrez le nombre de d cimales de la colonne de poids diter gt Extrapolation cochez cette option pour que les poids dit s v rifient les crit res demand s pour une population de taille pr cise Entrez alors la taille de la population cible O Redressement E M Poids _ Options Sortes Mise en fome F Ajouter les nouvelles donn es Nom de la nouvelle colonne Vi R sum FA Valeurs de redressement gt Ajouter les nouvelles donn es ajoute la colonne des poids la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Valeurs de redressement affiche la table des poids correspondant au redressement demand Remarques e Si StatBox fait de nombreuses it rations et qu il ne trouve pas de solution car l cart est trop grand le redressement n est pas effectu e Le nombre de modalit s de vos variables ne doit pas tre trop grand Faites au pr alable un regroupement de modalit s e N utilisez pas 2 crit res parfaitement d pendants Par exemple les d partem
108. e des Analyses D D Be Analyssde Rapport fxe variance personnalis pesonnal Outils Fi D P D k Amuler oK 6 Feuilles de notations Lors de la cr ation de toute feuille de notation un message apparait pour vous demander si vous souhaitez garder ou changer l ordre de saisie des parcelles Voulez conserver l ordre de saisie actuel CO Ce Ce Si vous souhaitez en changer r pondez non une autre boite de dialogue va alors s ouvrir avec les choix possible vous de cocher l ordre qui vous convient StatBox Prise en main de StatBox Vegetal Ordre croissant des modalit s A partir du coin en haut gauche Ordre d croissant des modalit s A partir du coin en haut droite Aller Retour Horizontal D A partir du coin en bas gauche Aller Retour Vertical A partir du coin en bas droite Aller Aller Horizontal Aller Aller Vertical Personnalis Sur les feuilles de notations pour cr er le tableau de variables le tableau de saisie et lancer les analyses statistiques vous devez passer par le menu StatBox Vegetal Statsoe Vegetal Options 3 Aide nauguer Apropar de T changer ie type aes variantes Ajouter un individu Atfedter les valeurs par d faut R aliser les calculs de synth se Ajouter une valeur d efficacit Ajouter une valeur suppl mentaire Adualiser le tableau de synt
109. e Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Descripteur d chantillon affiche la table des valeurs bool ennes indiquant l appartenance de chacune des observations l chantillon demand gt Base chantillonn e g n re une nouvelle feuille Excel correspondant la base d origine o seul figurent les observations retenues pour l chantillon CHANTILLONNAGE PAR QUOTAS L chantillonnage par quotas consiste introduire une contrainte en plus par rapport l chantillonnage al atoire Il faut respecter une structure particuli re sur 1 2 ou 3 variables Si on d sire avoir un chantillon comportant 50 d hommes et 50 de femmes l extraction devra respecter cette structure StatBox va cr er une variable comportant les codes 0 et 1 le code 1 tant celui correspondant l chantillon al atoire et le code 0 pour l chantillon compl mentaire L chantillon compl mentaire est utile pour les phases d apprentissage et de test de la mod lisation StatBox Codage Mise en uvre Onglet Donn es E Echantilonnage par quotas SE Es Donn es Options Sorties Mise en fome Effectif obtenir 100 Libell s des observations Na m S lection effectuer s
110. e carr e choisissez la nature des donn es en entr e selon qu il s agit d untableau avec les observations en ligne et les variables en colonnes ou d une matrice de corr lation Variables quantitatives actives saisissez les variables des donn es correspondant un tableau rectangulaire observations variables ou une matrice de corr lation Dans le cas d un tableau lorsqu il y a des valeurs manquantes StatBox propose tout d abord d ignorer les lignes concern es En cas de refus Yv StatBox Analyse n variables StatBox propose alors d estimer les valeurs manquantes de chaque variable par la moyenne cf l option Estimation des donn es manquantes sinon StatBox indique qu il est possible d utiliser toute l information disponible pairwise deletion gr ce au module Matrice de similarit dissimilarit puis la bo te de dialogue est ferm e et le traitement est abandonn Dans le cas d une matrice de corr lation les valeurs manquantes ne sont pas autoris es Cependant la matrice tant sym trique il suffit que les donn es de la s lection permettent de reconstituer correctement la totalit de la matrice gt Libell s des observations dans le cas d un tableau observations variables saisissez la plage de la colonne de libell s qui correspondent aux lignes du tableau de donn es gt Poids dans le cas d un tableau observations variables saisissez la plage de la colonne des poids des observations
111. e correspondant une variable qualitative indiquant l chantillon d appartenance de chaque valeur Les valeurs manquantes ne sont pas autoris es gt Ind pendants Appari s choisissez la nature de la relation entre les deux chantillons Les chantillons appari s peuvent correspondre par exemple deux traitements portant sur un m me ensemble de sujets exp rimentaux v vy vy StatBox Tests param triques ptions IS Comparaison de 2 moyenne ME Es Donn es Options Sorties Mise en fome G n ral Sevil alpha 5 Orientation des tests Biat ral z es Autres Z Hypoth se d galit des variances th oriques SHRG7 Se Cannuler _ ok gt Seuil alpha entrez la valeur du risque de premi re esp ce des tests gt Orientation du test choisissez le type de test r aliser bilat ral unilat ral gauche ou unilat ral droite gt Hypoth se d galit des variances th oriques cochez cette case pour faire l hypoth se que les variances th oriques sont gales IS Comparaison de 2 moyenne ME Es Donn es Options Sorties Mise en fome Pi R sum F Effectifs et param tres W Test F de Fisher 7 Test t de Student gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Effectifs et param tres gt Test F de Fisher effectue un te
112. e de la variance en t 1 sommes des carr s des carts si on a t traitements ind pendantes et chacune avec 1 degr de libert On obtient alors t 1 contrastes Tout contraste est une combinaison lin aire des moyennes compar es Le programme va donc vous demander pour chacun d eux d affecter un coefficient aux diff rentes moyennes en respectant les r gles suivantes e pour un contraste donn la somme des coefficients doit tre nulle e deux contrastes seront ind pendants si la somme des doubles produits des coefficients est nulle Exemple Soient trois moyennes si A est une r f rence B et C deux nouveaux traitements on peut se poser par exemple les questions suivantes gt Est ce que les nouveaux traitements sont meilleurs que la r f rence gt Les 2 nouveaux traitements sont ils diff rents La traduction de ces questions en contrastes donne ABC On a bien gt re question 2 1 1 2 1 1 gt 2e question 0 1 1 0 1 1 0 Les 2 questions sont ind pendantes car 2 0 171 1 1 0 Ces 2 contrastes ne sont pas les seuls possibles avec 3 moyennes 0 Si la d finition des traitements change les questions ne sont plus les m mes et les contrastes doivent tre modifi s GOUET J P 1974 LES COMPARAISONS DE MOYENNES ET DE VARIANCES Application l agronomie PUBLICATION LT C F StatBox Annexes
113. e enfome Mod le su Arr t des it rations Nombre maximum dit rations 50 R p titions 10 Pr cision 0 001 sauaga e Camer ox gt Mod le choisissez le mod le utiliser comme fonction de repr sentation des dissimilarit s gt Nombre maximal d it rations entrez le nombre maximal d it rations autoris pour la minimisation du stress M me si la convergence du stress n est pas encore atteinte l optimisation it rative sera arr t e au del du nombre maximal d it rations sp cifi Valeur par d faut 50 R p titions dans le cas d une configuration de d part al atoire saisissez le nombre de r p titions de l algorithme Plusieurs r p titions permettent d obtenir plusieurs configurations finales et de retenir la meilleure d entre elles Valeur par d faut 10 gt Pr cision entrez le seuil de convergence entre deux valeurs successives du stress La convergence est atteinte lorsque l cart absolu entre deux valeurs successives est inf rieur ou gal au seuil sp cifi Valeur par d faut 0 001 v StatBox Analyse n variables 1 Multi Dimensional Scaling MDS Donn es Options Sorties Mise en fome 7 R sum 7 Graphique 7 Meilleure estimation gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Graphique affiche un diagramme de Shepard Ce graphique permet de
114. e la proc dure General Linear Model de SAS Exemple feuille anoval Analyse de variance 2 facteurs effectifs quilibr s avec interaction dans Primer of Applied regression amp analysis of variance S A Glantz B K Slinker page 328 ddl S C E CM F Proba F1 j 2838 811 2838 811 22 640 0 000 F2 1782 045 1782 045 14 212 0 001 SF1 SF2 1 108 045 108 045 0 862 0 361 Var r siduelle 28 3510 908 125 390 Total 31 8239 809 Exemple feuille anova4 Analyse de variance 2 facteurs observations manquantes et appari es avec interaction dans Primer of Applied regression amp analysis of variance S A Glantz B K Slinker page 488 La colonne Sub subjects devient un facteur ddl S C E CM Proba SUB 7 6 917 0 988 12 776 0 000 GUM 1 0 947 0 947 12 238 0 004 TIME 2 13 458 6 729 87 001 0 000 S SUB T GUM 7 0 116 0 017 0 213 0 975 S SUB T TIME 14 1 997 0 143 1 845 0 147 T GUM TTIME 2 2 402 1 201 15 528 0 000 Var r siduelle 12 0 928 0 077 Total 45 29 199 Exemple feuille anova6 Analyse de variance 1 facteurs avec la covariable Apolipoprotein dans Primer of Applied regression amp analysis of variance S A Glantz B K Slinker page 488 ddl S C E CM F Proba pregnancy 1 2695 235 2695 235 22 514 0 000 Apolipoprotein 1 1084 535 1084 535 9 059 0 008 Var r siduelle 17 2035 114 119 713 Total 19 7356 610 StatBox Analyse n variables TESTS PARAM TRIQUES COMPARAISON DES PARAM TRES DE 2
115. e les diff rents l ments ditables par la m thode en cours e Les Graphiques cet onglet facultatif pr sente les options d affichage et de mise en forme des graphiques pour les m thodes concern es e La Mise en forme cet onglet pr sent dans toutes les m thodes affiche les options de mise en forme du rapport Il peut galement tre le point d acc s aux options g n rales d dition des rapports dans StatBox L apparence des boites de dialogue de rapport est modifi e par le choix de l un ou l autre des modes de s lection des donn es Lorsque vous s lectionnez l option manuelle une option Noms de la variable sur la premi re ligne sur l onglet Donn es vous permet de d terminer si votre s lection de donn es contient les libell s des variables en premi re ligne ou bien si la premi re ligne doit tre consid r e comme une ligne de donn es Dans la zone situ e en bas droite des boites de dialogue de rapport sont propos es 6 fonctionnalit s essentielles d taill es ici dans l ordre d affichage l cran suaar e eA Charger un param trage cette fonction permet de charger automatiquement dans la boite de dialogue un param trage sauvegard pr c demment Cela est particuli rement utile dans le cas on l on cherche reproduire sp cifiquement un param trage pour plusieurs analyses sans avoir tout reparam trer manuellement Le fichier contenant le param trage est au forma
116. e variance 27 11 2008 11 52 54 Analyse de variance 27 11 2008 11 46 35 Analyse de variance 27 11 2008 10 23 09 Analyse de variance 27 11 2008 10 22 29 Analyse de variance 27 11 2008 10 21 49 Analyse de variance 27 11 2008 10 21 25 z re Cine C Supprimer supprime le rapport s lectionn Supprimer tout supprime tous les rapports en m moire S lectionnez dans la liste des rapports en m moire le rapport reprendre puis validez en cliquant sur OK La boite de dialogue correspondant au rapport apparait alors Le rapport en cours est alors ind pendant de la feuille de donn es en cours dans Excel ce sont les donn es charg es pr c demment qui seront utilis s m me si le classeur source n est plus ouvert Classeur de synth se Afin de faciliter la constitution de rapports de synth se un outil classeur de synth se vous est propos Plus rapide que la s lection 1 1 des feuilles dans Excel il permet de s lectionner parmi outes les feuilles de tous les classeurs ouverts dans Excel celles que vous souhaitez ins rer dans le classeur de synth se Cliquez sur Classeur de synth se la boite de dialogue suivant apparait F7 Nouveau classeur Es Feuilles ajouter au nouveau classeur Feui25 Feul19 Feui7 E El Feui9 Feui10 F Feui13 Feuil14 E Feui17 Feus Et E Enregistrer le nouveau classeur sous Feuille
117. ectionn es plusieurs fois ont alors un code chantillon correspondant au nombre de fois o elles ont t tir es e syst matique avec d part al atoire les observations sont s lectionn es de mani re cons cutive partir d une ligne d termin au hasard e syst matique centr les observations sont s lectionn es de mani re cons cutive partir du centre de la base e des premi res valeurs les observations sont s lectionn es de mani re cons cutive partir du d but de la base e des derni res valeurs les observations sont s lectionn es de mani re cons cutive partir de la fin de la base StatBox Codage e al atoire stratifi un l ment par strate la base est d coup e en diff rente strates d effectifs sensiblement gaux une observation est alors s lectionn e pour chacune des strates gt Libell s des observations s lectionnez la variable contenant les libell s des observations si vous souhaitez cr er un tableau d chantillonnage avec des libell s Par d faut le libell d une observation est son num ro de ligne dans le tableau Echantilonnage simpe D Es Donn es Sorties Mise enfome F Ajouter les nouvelles donn es Nom de la nouvelle colonne 7 R sum T Descripteur d chantillon E Base chantllonn e i HAS 7 S amp Cannuter _ ok gt Ajouter les nouvelles donn es ajoute la colonne d chantillonnage la base d origin
118. ectionnez la variable contenant les libell s des observations si vous souhaitez cr er un tableau disjonctif avec des libell s particuliers Par d faut le libell d une observation est son num ro de ligne dans le tableau v glet Sorties 1 Codage disjonctif Es Sie Mise entame F Ajouter les nouvelles donn es F R sum Z Nouvelle s colonne s gt Ajouter les nouvelles donn es ajoute les colonnes disjonctives la base d origine gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Nouvelle s colonne s affiche la table des donn es disjonctives R f re Diday E J Lemaire J Pouget amp F Testu 1982 El ments d analyse de donn es Dunod Paris pp 42 44 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris p 112 StatBox Codage CODAGE D UNE VARIABLE NUM RIQUE EN RANGS Utilisez ce module pour coder en rangs un tableau avec les observations en lignes et les variables en colonnes Description Pour chaque variable une observation se voit attribuer le rang de sa valeur par rapport l ordre croissant de l ensemble des valeurs Le rang des observations ex quo est calcul comme la moyenne de leurs rangs initiaux ou bien comme le rang de leur valeur commune Remarque le premier mode de traitement des observations ex
119. elles dimensions soit m moris es vous devez valider les nouvelles dimensions en cliquant sur Valider ition Agri uniquement Options G n ral Rapports Graphiques Agncuiure G n ral FA Utiliser le nom de la variable tudi e pour les nouveaux onglets de rapport Cartographies des r sidus Plans Esgticement E Toujours g n rer un plan de controle S isme E Toujours g n rer un plan cod Sur une page ind pendante Saisie Syie FI Appliquer un style aux feuilles de saisie Couleurs Textures gt Onglet Utiliser le nom de la variable tudi e pour les nouveaux onglets de rapport cochez cette option pour que le nom des nouveaux onglets de rapport d analyse de variance reprenne par d faut le nom des variables tudi es Si cette option n est pas coch e un nom incr mentiel est utilis Int gr au rapport Sur une page ind pendante s lectionnez l emplacement par d faut des cartographies des r sidus Si vous s lectionnez l option page ind pendante une nouvelle feuille sera cr e en plus du rapport ou sera plac la cartographique des r sidus Couleurs Textures s lectionnez le mode d affichage des cartographies des r sidus Si vous s lectionnez l option couleur un gradient de couleur bleu sera utilis pour identifier les classes des r sidus pour l option texture c est un gradient de texture d Excel qui sera utilis
120. els sont les groupes risque Quels sont les variables es attributs qui donnent le plus d informations sur ces groupes risque Est ce en priorit le salaire la profession l ge qui identifiera le mieux nos groupes Le logiciel va valuer successivement toutes les variables que vous avez s lectionn es Si par exemple la premi re variable dans la liste est la cat gorie socioprofessionnelle qui comporte les modalit s agriculteurs artisans commer ants cadres employ s ouvriers le programme va chercher le groupement des professions en deux cat gories les plus diff rentes possibles L indice mesurant cette diff rence est le Khi deux Le premier tableau sur lequel l indice sera calcul est Artisans commer ants cadres employ s Agriculteurs ouvriers Risqu oui Risqu non Puis le tableau suivant Agriculteurs artisans A A cadres employ s ouvriers commer ants Risqu oui Risqu non Puis le tableau suivant Agriculteurs artisans employ s ouvriers StatBox Analyse n variables commer ants cadres Risqu oui Risqu non Toutes les combinaisons de modalit s des professions sont calcul es Le programme retiendra la combinaison qui donne l indice le plus lev A l issu de ces calculs la premi re cat gorie de Profession sera associ e la modalit Risqu oui et la seconde cat gor
121. enne des poids cf l option Estimation des donn es manquantes calcul e sans tenir compte des ventuels poids nuls StatBox Analyse n variables 7 Analyse Factorielle Discriminante AD I Es Dorn es Options Sorties Mise en forme G n ral Seuil alpha 5 7 Contr ler l ind pendance lin aire V Egalit des matrices de covariance intra groupe Validation crois e Descripteur d chantillon pour la validation crois e Observations suppl mentaires A partir de la ligne Donn es manquantes Estimation des valeurs manquantes par la moyenne de la variable amp H amp 7 amp Lannuter _ ox 7 gt Seuil alpha entrez la valeur du risque de premi re esp ce des tests gt Contr ler l ind pendance lin aire cochez cette case afin que StatBox contr le l ind pendance lin aire entre les variables jusqu 50 variables Lorsque le contr le est d sactiv et ou lorsque le nombre de variables explicatives d passe 50 le probl me de la multicolin arit est d tect lors des calculs de l AFD eux m mes L analyse est alors interrompue le message d erreur affich ne sp cifie pas l origine de l chec de l AFD mais signale que les calculs ne peuvent pas tre effectu s avec les donn es s lectionn es gt Egalit des matrices de covariance intra groupe cochez cette case si vous faites l hypoth se que les matrices de covariance pour les diff rent
122. ents regroup s de 2 mani res diff rentes Les crit res de redressement doivent en revanche tre corr l s avec le ph nom ne tudi e Vous pouvez v rifier le r sultat du redressement en effectuant un tri plat sur les variables ayant servi au redressement et en s lectionnant la colonne g n r e comme variable de poids StatBox Codage CR ATION D UNE DISTRIBUTION Utilisez ce module pour g n rer des donn es al atoires partir d une distribution th orique Vous devez choisir la loi de probabilit et fixer ses param tres Vous pouvez galement diter des donn es v rifiant l appartenance une distribution empirique Description Plusieurs lois de probabilit sont disponibles e uniforme e gaussienne standard e gaussienne e __ lognormale e de Student e deFisher e dukh e B ta e exponentielle e de Poisson e binomiale e binomiale n gative Mise en uvre Doni 0 67 Cr ation d une distribution s Es Donn es Sorties Mise en fome Taille de l chantillon 105 Distribution th orique Loi de probabilit loomas Param tres sigma Variance de In CRI u Esp rance de In 01 D Distribution empirique Donn e source gt Taille de l chantillon entrez le nombre de valeurs g n rer gt Distribution th orique Distribution empirique cochez si les donn es g n rer doivent v rifier l appartenance une d
123. es Z Ajuster le zoom Ajuster le zoom ajuste le zoom de la feuille Excel afin de rendre visible la totalit du plan Plan Options Options Sorties F Plan de controle Plan BPE gt Plan de contr le g n re en parall le un plan colorant chaque modalit diff remment pour tudier rapidement leur r partition gt Plan BPE g n re un plan identifiant chaque parcelle par un code Ligne col l appartenance tel ou tel niveau de modalit tudi e Les alpha plans sont utilis s lorsque le nombre de modalit s ou de nivaux du facteur est une certaine homog n it l int rieur du bloc onne qui ne traduira pas rop important pour assurer Les alpha plans sont constitu s de sous blocs ne comportant qu un sous ensemble des niveaux du facteur Ces sous blocs de petite taille permettent de mieux contr ler l homog n it l int rieur des blocs Il n est pas possible des g n rer des alpha plans pour toutes les taille de dispositif Ainsi i est impossible de g n rer un alpha plan pour moins de 10 niveaux D autre combinaisons Nombre de niveaux Nombre de r p titions seront galement impossible g n rer dans ce cas un message vous alertera au lancement de 2 informations suppl mentaires sont indispensables la g n ration d un alpha plan la g n ration la taille des sous blocs et le nombre de sous blocs Ces informations doivent tre renseign es sur la feuille de di
124. es Bo tes horizontales choisissez l orientation des box plots et des scattergrams Afficher la moyenne affiche la moyenne sur les box plots et les scattergrams Cette option n est pas disponible lorsque l option Standardisation est coch e Afficher le Min et le Max affiche la valeur minimum et la valeur maximum sur les box plots Cette option n est pas disponible lorsque l option Standardisation est coch e Standardisation supprime l effet des diff rences d ordre de grandeur entre les variables lors de la production des box plots et des scattergrams en divisant les valeurs de chaque variable par l cart type correspondant Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 28 30 39 60 151 152 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris p 115 121 FRTDORANIES Utilisez ce module pour afficher l histogramme des fr quences approximant la fonction de densit de probabilit d une variable quantitative et la distribution des fr quences cumul es approximant sa fonction de r partition StatBox Repr sentations graphiques Le module permet galement de produire des histogrammes en utilisant diff rentes m thodes et de modifier les bornes manuellement Mise en uvre Onglet Donn es Histogrammes a
125. es donn es Ecart type estim racine carr e de l estimation de la variance de la population d origine des donn es Ecart absolu moyen mesure de dispersion indiquant la moyenne des valeurs absolues des carts de chaque valeur par rapport la moyenne Ecart type de la moyenne racine carr e du rapport de la variance estim e par le nombre de valeurs utilis es dans les calculs Cette estimation de la variance de la moyenne n est valide que si les donn es constituent un chantillon pr lev au hasard et sans remise au sein d une population infinie chantillon al atoire simple d une population infinie Graphiques produits graphiques bo te moustaches ou box plots nuages de points univari s ou scattergrams diagrammes tige et feuille ou stem and leaf plots Pour une aide l interpr tation de ces graphiques consultez l annexe Graphiques de l analyse exploratoire N Tomatoes F1 Statistiques descriptives Box plots scattergram Donn es Sorties Graphiques Mise en fome Variable s disponible s Variable s quantitatives N Poids N Burger N Bread N Mik N Oranges gt Variable s quantitative s s lectionnez les variables d crire Lorsqu il y a des valeurs manquantes dans une colonne StatBox propose de les ignorer En cas de refus le traitement est abandonn gt Poids cochez cette case si vous d sirez pond rer les donn es puis s lectionne
126. es sont cumul es avec les valeurs donn es actives StatBox propose de les ignorer lors de la construction du tableau de de refus StatBox propose alors d estimer les valeurs manquantes par le mode de la le traitement est abandonn Pour un tableau de contingence lances AFC Es Donn es Variables el observations suppl mentaires E Analyse Factorielle des Correspond Il Options Sorties Mise enfome Variable s disponible s Varisble s en ligne Variable s en colonne Nombre de lignes suppl mentaires 2 Nombre de colonnes suppl mentaires gt Nombre de lignes suppl mentaires dans le cas d un tableau de contingence entrez le nombre de lignes cons cutives la fin du tableau correspondant aux lignes suppl mentaires lignes passives gt Nombre de colonnes suppl mentaires dans le cas d un tableau de contingence entrez le nombre de colonnes cons cutives la droite du tableau correspondant aux colonnes suppl mentaires colonnes passives 1 Analyse Factorielle des Correspondances AFC Le hf Es Donn es Variables et observations suppl mentaires p ons Sorties Mise enfome G n ral Nombre de facteurs EE Donn es manquantes 7 Estimation des valeurs manquantes par le mode gt Nombre de facteurs entrez le nombre de facteurs maximal consid rer Tous calculs faits StatBox peut ventuellement afficher moins de facteurs que
127. est unilat ral gauche ou inf rieur et le test unilat ral droite ou sup rieur Dans le test unilat ral gauche les hypoth ses sont les suivantes Ho Hi p2 D H 4h pa lt D Dans le test unilat ral droite les hypoth ses sont les suivantes Ho 44 p2 D H 4h p2 gt D Ce test a t d velopp en consid rant que e les deux chantillons sont des chantillons al atoires tir s de leurs populations respectives distribu es selon des lois normales de m me variance e en plus de l ind pendance au sein de chaque chantillon il y a ind pendance mutuelle entre les deux chantillons e les donn es sont quantitatives Remarque le test suppose en principe l galit des variances th oriques des deux populations Toutefois StatBox permet d effectuer ce test m me si l galit des variances n est pas satisfaite en utilisant une combinaison lin aire de valeurs critiques de t StatBox Tests param triques Notons l esp rance des diff rences di xi2 Xin avec xi2 la me valeur pour l chantillon 2 et x la me valeur pour l chantillon 1 Le test bilat ral correspond au test de la diff rence entre et D et les hypoth ses nulle Ho et alternative H1 sont les suivantes Ho D H 0 D Ce test a t d velopp en consid rant que e les deux chantillons sont des chantillons al atoires tir s de leurs populations respectives e les deux chantillons s
128. eur de calcul d tecte que la quantit d information n est pas suffisante pour effectuer les calculs Remarques e 0 n est jamais consid r comme la valeur codant une valeur manquante dans les donn es Dans ce cas faites une recherche remplacer et substituez le O par un vide e un poids manquant est assimil par d faut un poids nul Les variables cod es sont des variables nominales ou ordinales repr sent es par des codes 1 2 3 A chaque modalit 1 2 3 correspond un libell ainsi le sexe de la personne est cod 1 pour homme et 2 pour femme Dans la feuille Excel on trouve le code 1 ou 2 Bien que compos e de chiffres cette variable n est pas num rique Le libell des variables peut comporter jusqu trois zones 1 Intitul ou nom de la variable Ex Q1 Q2 CA1990 situ dans la premi re ligne de la feuille Excel Pour toutes les variables num riques textes ou cod es il est n cessaire d avoir un nom StatBox Introduction 2 Pour ces diff rentes variables il est possible d ajouter en plus un libell long Ex e Chiffre d affaires de l ann e 1990 e Quels produits achetez vous r guli rement e ge de la personne 3 Pour les variables cod es il est utile d avoir le libell des diff rentes modalit s de r ponse EX e 1 pour Homme e 2 pour Femme Ou e 1 pour Tr s satisfait e 2 pour Plut t satisfait e 3 pour Plut t pas
129. ez les r p titions blocs essais supprimer Nouveau classeur cochez cette option pour que le dispositif issu de la r duction de niveau soit affich dans un nouveau classeur Si cette option est d coch e la r duction de niveau s effectuera sur le classeur en cours et des donn es seront donc d finitivement perdues VV Y StatBox Les essais en agriculture Validez en cliquant sur OK Remarque cette fonction n est pas disponible pour les carr s latins Vous pouvez cr er un nouveau dispositif partir d un dispositif existant Cela est utile par exemple dans le cas ou vous souhaitez reconduire un m me essai sur plusieurs lieux diff rents vous n avez ainsi pas ressaisir la totalit de l information concernant les facteurs Cliquez sur Dupliquer le dispositif Dans le cas o le plan du classeur d origine a d j t g n r il vous est demand si vous souhaitez conserver le plan existant ou si vous souhaitez g n rer un nouveau plan Dans ce deuxi me cas la boite de dialogue de g n ration de plan s affiche LE PLAN Une fois toutes les informations indispensables au dispositif renseign es vous devez d terminer la r partition des raitements tudi s sur le terrain d exp rimentation Pour cela lancez la g n ration du plan d exp rience en cliquant sur G n rer Une boite de dialogue apparait vous proposant de nombreuses options de g n ration 6 Pian __ Es Options
130. facteurs Donn es pour les regroupements dite une table de synth se des r sultats de l essai Ces r sultats permettent la constitution des essais en regroupement v Y VYVVYYNYY Si le dispositif le permet au lancement de l analyse le message suivant appara t L analyse se fait sur toutes les modalit s et sur toutes les r p titions Le logiciel vous propose d effectuer l analyse sur un nombre r duit de niveaux ou de R p titions Blocs Essais Cela est utile dans le cas ou vous avez de nombreuses donn es manquantes ou lorsque vous d cidez de supprimer les r sidus suspects de l analyse Pour supprimer un niveau cliquez sur Non la boite de dialogue de suppression de niveau appara t alors S lectionnez les niveaux supprimer de l analyse et validez Dans ce cas la suppression de niveau est toujours temporaire et n affecte jamais les donn es initiales du classeur Si vous avez choisi d diter un test de Dunnet le programme vous demande de param trer le nombre total de t moin et de d terminer les niveaux concern s Si vous choisissez d diter des contrastes la boite n 1 suivante apparait StatBox Les essais en agriculture LE S as 1 FACTEUR 1 F1 2 FACTEUR 2 F2 3 FACTEUR 3 F3 3 INTER F1 2 F1 F2 D 5 INTER F13 F1 F3 6 INTER F23 F2 F3 Terminer S lectionnez le facteur ou le niveau d interaction pour lequel vous souhaitez diter un contraste et val
131. fier ais ment la normalit de leur distribution et de d tecter d ventuelles valeurs suspectes De fa on pouvoir rep rer facilement les observations parcelles animaux correspondant aux r sidus chaque parcelle est identifi e sur l histogramme par son num ro Dans l exemple suivant la parcelle 104 ligne 1 colonne 4 un r sidu anormalement lev 8 305 7 201 6 107 307 5 106 203 4 304 308 3 2 1 204 202 103 302 101 207 104 ffectifs 6 8 0 1 Bornes 4 6 0 44 0 72 1 87 0 44 0 72 1 87 3 03 D TECTION DES VALEURS ANORMALES M THODE DE GRUBBS La comparaison d une valeur apparemment anormale l ensemble des autres observations est identique la comparaison d un chantillon ne comportant qu une observation la valeur anormale avec la moyenne d un chantillon form des n 1 autres observations Mais cette m thode est tr s longue pour explorer toute une s rie de donn es il faut faire n comparaisons GRUBBS a propos de calculer une seule fois la moyenne X et l cart type estim S de l chantillon de l ensemble des n observations puis de d terminer pour chaque donn e un T observ tel que xi x S On consid re alors qu une observation est anormale lorsque Tobs gt Tg La valeur de Tg peut tre lue dans des tables donn es par GRUBBS ou encore calcul e partir des distributions du t de Student ou de la loi Normale r duite pour un ris
132. gorov Smirnov testant l galit entre la distribution cumul e et la fonction de r partition de la loi de probabilit ajust e e le test du khi de conformit entre l histogramme des valeurs observ es et l histogramme des valeurs th oriques Le test du khi n cessite de d finir l histogramme e en sp cifiant le nombre de classes d amplitude constante e en important les bornes des classes e en utilisant des bornes discr tes dans le cas d une loi discr te loi de Poisson binomiale et binomiale n gative ll arrive parfois que le test du khi conclue un mauvais ajustement uniquement du fait d une classe dont la contribution la valeur du khi est tr s lev e Ceci peut tre caus par le d coupage en classes de l histogramme un autre d coupage pouvant changer la conclusion du test Afin d appr cier l impact de la plus forte contribution au khi dans la conclusion du test StatBox effectue galement le test du khi sans tenir compte de la plus forte contribution 11 Ajustement une loi de probabilit Es Donn es Options Sorties Mise en fome Donn es Nae x Loi de probabilit untone Param tres de la loi Estimer Saisir S HAS SG annuler ox 7 gt Donn es s lectionnez la variable correspondant la colonne des valeurs contr ler Les valeurs manquantes ne sont pas autoris es gt Loide probabilit choisissez la loi de probabilit ajuster parmi celles de
133. h se Pour les calcul au feuilles de notation 2 et 3 vous avez la possibilit en plus de la fr quence IOA et de l intensit d avoir le omatique de l efficacit il vous suffit apr s avoir fait le tableau de synth se de retourner dans le menu StatBox Vegetal et de cliquer sur Ajouter une valeur d efficacit et d entrer le num ro de la parcelle t moin le calcul apparait au bout du tableau de saisie ne pas oublier d Actualiser le tableau de synth se pour que ce calcul apparaisse StatBox Prise en main de StatBox Vegetal StatBox Vegetal ij F Options Aide imien A propos de Cr er le tableau de modalit s Outi Changer le type des variables Ajouter un individu After les valeurs par d faut R aliser les calculs de synth se Ajouter une valeur suppl mentaire EF Actualiser letableau de synth se Pieds Pieds Pieds Piece Piece ficce Piese Pieas Picas Pias Peas Peas Pieds Pis Pieds Pieds Pieds Pieds 31 verse 000 ir il Pien lt Pon de controe ertse Plen de soie Astuce de saisie dans les tableaux de notation gt S lectionnez la zone de saisie puis o appuyez sur Entr e pour aller de gauche droite o appuyez sur tabulation touche pour aller de bas en haut 6 ANALYSE STATISTIQUE Lorsque vous choisissez les variables analyser dans la boite de dialogue l onglet Opti
134. hael J A Berry Gordon Linoff InterEditions Masson Paris 1997 Data Mining with neural networks Solving Business Problems Application development to decision support Joseph P Bigus McGraw Hill 1996 Data Mining Pieter Adriaans Dolf Zantinge Addison Wesley 1996 StatBox Analyse n variables Discovering Data Mining from concept to implementation Cabena Hadjinian Stadler Verhees Zanasi Prentice Hall PTR 1998 Analyse discriminante sur variables qualitatives Gilles Celeux Jean Pierre Nakache Polytechnica Paris 1994 ANOVA MOD LE LIN AIRE G N RAL La variable analyser est continue et la ou les variables explicatives sont nominales Il possible d ajouter des variables explicatives continues les co variables Ce module de StatBox permet de traiter un grand nombre de plans d exp riences e de f nfacteurs e les diff rentes interactions d ordre 2 et 3 e mesures r p t es e les plans d s quilibr s comportant un nombre diff rents d observations par cellule S Analyse de variance 5 Es Donn es Options Sorties Mise en fome Variables disponibles Variable tudi e Ajouter N Agress1 Laa Facteur s S drinking1 Sa S perso S dinking1 Ajouter une interaction Co variable s Nsub1 Spersot SHAGr r e Annuler _ x Variable tudi e s lectionnez la variable tudier Facteur s s lectionnez la les variable s qualitatives correspondant au
135. hier importer puis validez pour lancer l importation Les libell s longs et les modalit s de r ponse sont alors ins r s automatiquement dans les zones commentaires LES BOITES DE DIALOGUE DE RAPPORT Les boites de dialogues de rapport pr sentent un mode de fonctionnement et plusieurs fonctions communes Les param tres des rapports sont regroup s en 6 th mes plac s dans des onglets sp cifiques par exemple la boite de segmentation propose l ensemble des onglets disponibles StatBox Introduction 1 Segmentation Es Donn es Options Sotes Grephiques Mise enfome 7 Noms de variable sur la premi re ligne Variable qualitative expliquer Variables qualitatives explicatives Variables quantitatives explicatives e Les Donn es cet onglet pr sent dans toutes les m thodes regroupe les zones de s lection de donn es de base pour la m thode en cours e Les Variables et observations suppl mentaires cet onglet facultatif pr sente pour les m thodes o cela est n cessaire les zones de s lection de variable s ou d observations passives Cet onglet se retrouve uniquement dans les m thodes d analyses factorielles e Les Options cet onglet pr sent dans presque toutes les m thodes propose les options statistiques ou de calculs pour la m thode en cours e Les Sorties cet onglet pr sent dans toutes les m thodes pr sent
136. iable cf l option Estimation des cul partir de la totalit de l information disponible c est dire en tenant ppl mentaires 1 Analyse des Correspondances Multiples AcM W Es Donn es Variables et observations suppl mentaires Options Sorties Mise en fome FE Nombre de facteurs 4 L Donn es manquantes Estimation des valeurs manquantes par le mode de la variable gt Nombre de facteurs entrez le nombre de facteurs maximal consid rer Tous calculs faits StatBox peut ventuellement afficher moins de facteurs que le nombre de facteurs demand gt Estimation des donn es manquantes par le mode de la variable cochez cette option pour que les donn es manquantes soient estim es automatiquement par le mode des variables concern es ns es 51 Analyse des Correspondances Multiples ACM Variables et observations suppl mentaires Options Sorties Mise en fome 7 R sum 7 Libell s longs Tableau de contigence de Burt F Valeurs propres 7 Coordonn es des modalit s F Contribution des modalit s T Cos des modalit s V Valeurs tests des modalit s R sultats pour les observations SHAG F7 S amp gt pour le rapport vyv Valeurs propres affiche les R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es Libell s longs utilise les libell
137. iables quantitatives cochez cette option pour obtenir des r sultats sur les variables quantitatives moyenne amplitude cart type yv y StatBox Codage CODAGE EN CLASSES Utilisez ce module pour transformer variable ordinale cription Ce module tr s complet autorise discr tisation sont propos s e amplitude constan une variable quantitative en classes de valeurs c est dire en une outes les d finitions de classes possibles Plusieurs modes de fe d coupage pas constant entre les valeurs minimale et maximale de la colonne de valeurs s lectionn e e classes optimales calcul de classes optimales vis vis de la minimisation de l inertie intra classe les classes sont donc les plus compactes possible L algorithme d Anderberg algori thme d am lioration it rative d une solution initiale est utilis e poids gaux effectifs gaux dans le cas de donn es non pond r es ou poids constant lorsque les donn es sont pond r es e en modifiant manuellement les bornes des classes gr ce au module d dition e importer les bornes En important les bornes des classes exemple pour les classes 18 moins de 25 25 moins de 35 la liste 18 25 35 45 55 99 E Codage en classes Donn es Classes Donn es Nage 7 Observations ro FA Poids NPoids S H 7 amp gt Donn es s lection
138. iate statistical analysis Prentice Hall Englewood Cliffs pp 584 602 Lebart L A Morineau amp M Piron 1997 Statistique expl pp 155 206 Roux M 1985 Algorithmes de classification Masson Paris oratoire multidimensionnelle 2e dition Dunod Paris Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 251 260 Tomassone R C Dervin amp J P Masson 1993 Biom Paris pp 166 174 Ward J H 1963 Hierarchical grouping to optimize an Association 58 238 244 StatBox Analyse n variables rie Mod lisation de ph nom nes biologiques Masson objective function Journal of the American Statistical ARBRES DE SEGMENTATION La segmentation au sens large consiste cr er des groupes d observations homog nes On peut tout simplement cr er des sous populations partir de quelques variables pour constituer ces groupes Ces requ tes ne font intervenir qu un nombre limit de variables les hommes de moins de 35 ans StatBox avec les arbres de segmentation permet de faire intervenir un ensemble complexe de variables I existe plusieurs m thodes pour cr er ces groupes Soit on cherche maximiser ou minimiser la valeur d une variable dans chacun de ces groupes soit on cherche obtenir des groupes homog nes sur un ensemble de variables Dans ce dernier cas on est dans le domaine de la classification La segmentation par arbre de d cisions fait pa
139. idez en cliquant OK La boite n 2 suivante apparait 7 Saisie des contrastes Il y a 16 moyennes Ily a 7 contrastes maximum Modait Coef a A1 Dorena o AVER550 o lir A1 Dorena o A2 ER600 2 AZAure a o A1ER550 o A2 Aurela a A2 ER600 o A3Baccara 3 F RSS r i T M Contr ler l ind pendance L_ Annuler OK Saisissez dans la colonne de droite les coefficients des contrastes pour chacune des moyennes D cochez au besoin l option de contr le de l ind pendance des contrastes Validez en cliquant sur OK Si cela est possible le programme vous demande si vous souhaitez diter un contraste suppl mentaire pour ce facteur interaction Si vous choisissez Oui la boite n 2 r apparait pour la saisie des coefficients du second contraste Si vous choisissez Non la boite n 1 r apparait pour la saisie de contraste sur un autre facteur interaction Lorsque tous les contrastes ont t saisis cochez Terminer sur la boite n 1 et validez Remarques e Lorsque le logiciel d tecte des r sidus suspects pour une variable il vous propose d arr ter l analyse pour cette variable e l est possible d analyser des plans d exp rience non g n r par StatBox Pour cela il suffit de remplir une feuille dispositif correspondant au type d essai d sir et de reconstituer une feuille de saisie ayant strictement la m me structure qu une feuille de saisie g
140. ie Risqu non Toutes les variables sont valu es les unes apr s les autres et pour chaque variable on dispose de l indice symbolisant l association entre le risque et les 2 cat gories obtenues Le programme retient la variable et la combinaison de modalit s ayant l indice le plus lev Agriculteurs artisans commer ants cadres Employ s ouvriers Ce r sultat correspond au premier n ud de l arbre Chacune des deux branches correspond une sous population distincte La m me proc dure est appliqu e ces deux sous ensembles Pour obtenir suffisamment d effectifs d une part et pour simplifier les analyses d autre part StatBox divise la population en deux chaque n ud La division en plus de 2 cat gories risque d une part d parpiller trop vite la population initiale et d autre part de rendre plus complexe l analyse de r sultats De plus le nombre de branches est li un seuil de probabilit que l on se fixe a priori En modifiant ce seuil les branches changent Il est donc difficile de conna tre la bonne valeur de ce seuil La division en deux branches a l avantage de la clart et a largement prouv son efficacit La probabilit associ e un n ud permet d identifier la significativit du d coupage en 2 sous populations On admet g n ralement que si cette probabilit est inf rieure 0 05 on peut consid rer que le d coupage est significatif Si cette probabilit est sup rieure 0 0
141. ie binaire produite par l algorithme de CAH Parmi les crit res existants StatBox en propose sept liens StatBox Analyse n variables simples complet moyen proportionnel flexible fort ainsi que le crit re de Ward fond sur l augmentation de l inertie Lien simple la dissimilarit entre A et B est la dissimilarit entre l objet de A et l objet de B les plus ressemblants L agr gation par le lien simple a tendance contracter l espace des donn es et craser les niveaux des paliers du dendrogramme Comme la dissimilarit entre deux l ments de A et de B suffit relier A et B ce crit re peut conduire relier des classes tr s allong es effet de cha nage Lien complet la dissimilarit entre A et B est la plus grande dissimilarit entre un objet de A et un objet de B L agr gation par le lien complet a tendance dilater l espace des donn es et produit des classes compactes Lien moyen la dissimilarit entre A et B est la moyenne des dissimilarit s entre les objets de A et es objets de B L agr gation selon le lien moyen constitue un bon compromis entre les deux extr mes pr c dents et respecte assez bien les propri t s de l espace des donn es Lien proportionnel la dissimilarit moyenne entre les objets de A et de B est calcul e comme une somme de dissimilarit s pond r e de telle sorte qu un poids gal soit attribu aux deux groupes Comme le lien moyen ce crit re respecte asse
142. ielle de Poisson Lambda valeur moyenne sup rieure 0 pour d finir la loi de Poisson Binomiale n nombre d essais d finissant la loi binomiale p probabilit de succ s d finissant la loi binomiale Remarque la loi de Bernoulli est un cas particulier de la loi binomiale pour p 0 5 binomiale n gative k nombre de succ s d finissant la loi binomiale n gative p probabilit de succ s d finissant la loi binomiale n gative Pour une distribution empirique gt Donn es sources s lectionnez la variable d crivant la distribution v rifier gt Poids cochez cette option pour pond rer vos observations et s lectionnez une variable contenant des poids StatBox Codage 7 Cr ation d une distribution 0 Es Donn es Sorties Mise en fome 7 Ajouter les nouvelles donn es Nom de la nouvelle colonne 7 R sum F Valeurs gt Ajouter les nouvelles donn es ajoute la colonne des nouvelles donn es la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Valeurs affiche la table des donn es g n r es Abramowitz M amp I A Stegun 1972 Handbook of mathematical functions Dover Publications New York pp 927 964 Aivazian S I Enukov a
143. ification ascendante hi rarchique CAH consiste agr ger progressivement les observations selon leur ressemblance mesur e l aide d un indice de similarit ou de dissimilarit L algorithme commence par rassembler les couples d observations les plus ressemblants puis agr ger progressivement les autres observations ou groupes d observations en fonction de leur ressemblance jusqu ce que la totalit des observations ne forme plus qu un seul groupe La CAH produit un arbre binaire de classification dendrogramme dont la racine correspond la classe regroupant l ensemble des observations Ce dendrogramme repr sente une hi rarchie de partitions une partition tant obtenue par troncature du dendrogramme un certain niveau de ressemblance La partition comporte alors d autant moins de classes que la troncature s effectue en haut du dendrogramme c est dire vers la racine A a limite une troncature effectu e en dessous du premier n ud de l arbre conduit ce que chaque classe ne contienne qu une observation cette partition est l assise du dendrogramme et une troncature effectu e au del du niveau de la racine du dendrogramme conduit une seule classe contenant tous les observations I existe de nombreuses mesures de ressemblances similarit s ou dissimilarit s et plusieurs m thodes pour recalculer la ressemblance lorsque l algorithme forme des groupes crit res d agr gations StatBox propose des indices et des cri
144. ionnez le mode d activation souhait ATTENTION il est recommand d activer le logiciel en ligne une demande d activation par mail impose un d lai de quelques jours LP Rotation du Sete Activation en ligne ren ire den or O Activation e mail Entrez votre num ro de s rie sous la forme XXXXX XXXXX XXXXX XXXXX XXXXX XXXXX dans la zone pr vu cette effet ATTENTION Sur Office 2003 et 2007 c est le code d activation que vous devez entrer cet endroit pas le num ro de s rie Entrez un nom de soci t et un Email valide Validez en cliquant sur Continuer Suivant sur Office 2010 Le logiciel tente alors de se connecter au serveur d activation en vous demandant l autorisation de se connecter puis vous informe du succ s ou non de l op ration en fournissant au besoin un message explicatif Avec Office 2003 2007 Avec Office 2010 PR B Led Entez le num ro de s rie Entrez le code d activation r Entrez votre nom soci t Bitez votre aduse email Entrez nom sod t r Entrez votre adresse e mail m r A Re m StatBox Introduction Pour tout probl me relatif l activation du logiciel n h sitez pas contacter notre service assistance Si vous souhaitez utiliser le logiciel en mode valuation vous disposez d une p riode de 15 jours en s lectionnant l option Je veux valuer le logiciel de l cran d ac
145. ions sont ensuite regroup es selon le type de feuilles auxquelles elles s appliquent On retrouve ainsi 4 sous menus principaux e Dispositif e Plan e Saisie e Regroupements Les analyses sont toujours accessibles partir d un menu sp cifique pour un acc s rapide Des sous menus suppl mentaires permettent l acc s aux Options et fonctions de support du logiciel StatBox Introduction Avec Office Avec Office 2007 2010 ai nes a an azs epost EE w cii Soie T route faute ds sace T ornements Bainne Lane B her be derbtiants gere afachar cibl e Divers gt annee Peace GESTION DES DONN ES Avant de choisir dans le menu de StatBox une analyse statistique assurez vous que vous tes positionn sur la feuille contenant les donn es analyser StatBox propose deux modes de s lection des donn es la s lection automatique le logiciel d termine automatiquement les variables disponibles et leur type et la s lection manuelle l utilisateur s lectionne la souris les plages contenant les donn es En s lection automatique plusieurs r gles doivent tre v rifi es e la feuille Excel doit comporter uniquement vos donn es sous la forme d un tableau rectangulaire Rien d autre ne doit se trouver dans la feuille N ajoutez pas en bas du tableau par exemple des calculs compl mentaires ou des commentaires StatBox consid rera ces informa
146. ions variables saisissez les variables qualitatives dont les modalit s constitueront les colonnes du tableau de contingence Lorsqu il y a des valeurs manquantes StatBox propose de les ignorer lors de la construction du tableau de contingence En cas de refus StatBox propose alors d estimer les valeurs manquantes par le mode de la variable cf l option Estimation des donn es manquantes sinon la bo te de dialogue est ferm e et le traitement est abandonn gt Poids dans le cas d un tableau observations variables saisissez la variable poids des observations Lorsqu il y a des valeurs manquantes dans les poids StatBox propose de supprimer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne des poids cf l option Estimation des donn es manquantes calcul e sans tenir compte des ventuels poids nuls Pour un tableau de contingence StatBox Analyse n variables Donn es Variables et observations suppl mentaires Variable s disponible s Libell s des lignes FA Donn es en entr e Tableau observationsivariables Tableau de contingence amp 4 amp 7 g gt Donn es saisissez les variables colonnes du tableau Les valeur gt Libell s des lignes s lectionnez la variable contenant les libe facultatif Pour un tableau Observations variables Analyse Factorielle des Correspondances AFC
147. iques aux utilisateurs situ es dans le dossier Mes documents StatBox Users StatBox Introduction CODAGE CONTR LE DE LA QUALIT DES DONN ES Utilisez ce module pour obtenir rapidement un ensemble d indicateurs sur le type des donn es disponibles le nombre de manquants la dispersion Mise en uvre 7 Contr le de la qualit des donn es Mi 7 Sorties Sorties Variable s disponible s Variable s contr ler SHAaG7 se amie 7 gt Variable s contr ler s lectionnez l ensemble des variables contr ler en les pla ant dans la liste de droite Vous pouvez s lectionner automatiquement toutes les variables disponibles en cliquant sur S lectionner tout Onglet Sorties 6 Contr le de la qualit des donn es Es Donn es Sor PI R sum sois F R sultats g n raux F R sultats sur les variables qualitatives VI R sultats sur les variables quantitatives gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport R sultats g n raux cochez cette option pour obtenir des r sultats g n raux sur toutes les variables nombre de manquants types R sultats sur les variables qualitatives cochez cette option pour obtenir des r sultats sur les variables qualitatives premi re et derni re modalit s gt R sultats sur les var
148. isponibles soit par s lection manuelle l utilisateur s lectionne les plages de donn es analyser par s lection la souris L ergonomie des menus et des bo tes de dialogues a t enti rement revue pour tre plus facile utiliser StatBox s int gre d sormais totalement dans Excel sous la forme d un menu ou ruban Excel 2007 ou plus qui s ajoute la suite des menus d Excel StatBox pilote enti rement Excel comme application h te Cette nouvelle architecture rend StatBox plus stable et plus rapide Le syst me de protection a t profond ment modifi de sorte qu il n est plus n cessaire d utiliser une cl de protection physique Voici quelques unes des nouvelles fonctions disponibles e calcul vectoriel e choix de l orientation des tests pour la plupart des tests statistiques En agriculture e duplication de dispositif e outils de contr le de la qualit de plan e r sultats suppl mentaires en analyse de variance contr le de la proportionnalit des r sidus r sidus par r p tition graphique des moyennes e possibilit d analyser plusieurs variables simultan ment en alpha plan Enfin de nombreuses options ont t ajout es pour la personnalisation du logiciel CONFIGURATION MINIMALE REQUISE v Microsoft Windows XP ou sup rieur v Microsoft Excel 2003 SP3 Excel 2007 ou Excel 2010 de pr f rence avec les services pack install s v Un pilote d imprimante install Un certain nombre
149. iste vraiment Si la puissance est lev e par exemple 80 Vous n avez pas vu de diff rences entre les traitements mais s il en existe une vous aviez les moyens de la voir gt Il y a donc de grandes chances que la diff rence r elle entre vos traitements soit inf rieure d LE TEST DE NEWMAN KEULS Ce test de comparaison de moyennes permet de constituer des groupes homog nes de traitements ceux appartenant un m me groupe sont consid r s comme non diff rents au risque de 1 esp ce choisi La constitution des groupes homog nes se fait partir des plus petites amplitudes significatives p p a s Lorsque l amplitude observ e entre les moyennes extr mes d un groupe de k moyennes est inf rieure la p p a s pour k moyennes on d clarera que ces k moyennes constituent un groupe homog ne Vous pouvez utiliser ce test si tous vos traitements jouent le m me r le il n y a ni t moin ni traitement de r f rence comme c est souvent le cas dans la comparaison de vari t s de c r ales par exemple LE TEST T DE BONFERRONI Aussi appel test du t corrig le test de Bonferroni permet de r aliser toutes les comparaisons 2 2 de moyennes c est dire t t 1 2 comparaisons avec t traitements en respectant globalement le risque de 1 re esp ce choisi Cela signifie que chacune des comparaisons est effectu e au risque sn GG 1 2 Comme le test de Newman Keuls vous pouvez l utiliser si tous
150. istribution th orique ou issue de donn es que vous fournissez StatBox Codage Pour une distribution th orique Loi de probabilit s lectionnez une loi de distribution et modifiez au besoin les param tres par d faut uniforme a nombre d finissant la borne inf rieure de l intervalle de la loi uniforme b nombre d finissant la borne sup rieure de l intervalle de la loi uniforme gaussienne standard ou loi normale centr e et r duite loi de Gauss de moyenne nulle et de variance unit gaussienne ou loi normale y valeur de l esp rance sigma valeur de la variance log normale le logarithme de la variable distribu e selon une loi lognormale suit la loi normale de param tres u et sigma y valeur de l esp rance de la loi normale selon laquelle est distribu In x sigma valeur de la variance de la loi normale selon laquelle est distribu In x de Student ddl nombre de degr s de libert de la loi de Student de Fisher ddl 1 nombre de degr s de libert du num rateur du F de Fisher ddl 2 nombre de degr s de libert du d nominateur du F de Fisher du khi ddl nombre de degr s de libert de la loi du khi B ta a nombre correspondant au premier param tre de forme de la loi B ta a2 nombre correspondant au deuxi me param tre de forme de la loi B ta exponentielle Lambda inverse du temps d attente moyen entre deux v nements d un ph nom ne al atoire pour la loi exponent
151. it vous constatez toujours des carts entre les traitements Alors quelle est votre conclusion Pouvez vous admettre que ces carts sont A dus aux al as de l exp rience Vos traitements sont alors identiques B r els Vos traitements sont alors diff rents L analyse de variance le test F entre traitements vous donne la probabilit d apparition de tels carts La comparaison de cette probabilit un seuil fix l avance va vous permettre de choisir entre A et B Ce seuil est le risque de premi re esp ce gt C est le risque de d cider que des traitements effectivement identiques sont diff rents Le choix de son niveau d pend tout simplement du co t d une mauvaise d cision Probabilit du Test F inf rieur alpha sup rieure alpha le test est non significatif le test est significatif il faut alors regarder la puissance il faut alors utiliser un test de si elle est lev e la diff rence entre traitements comparaisons multiples de moyennes est tr s probablement petite sinon on ne peut conclure Vous avez r alis un dispositif en blocs l analyse de variance de celui ci suppose entre autre que les diff rents effets traitements et blocs sont additifs Une interaction traitements blocs signifie que les carts entre les traitements ne sont pas les m mes dans les diff rents blocs TUKEY a mis au point une m thode qui prend un degr de libert
152. it res tels que e l horizon court moyen ou long terme e la finesse macro conomique ou micro conomique e l approche reposant sur le jugement humain ou sur la formalisation Et aussi e la quantit d informations disponibles e la pr cision souhait e pour la pr vision e la part d al as dans le ph nom ne pr voir Prenons deux exemples Un chef de produit vous dit que les ventes de son produit seront la hausse l ann e prochaine Il peut faire cette pr vision parce qu il a vu les ventes augmenter durant les deux derni res ann es et pense que quelles que soient les raisons qui les faisaient cro tre dans le pass celles ci continueront agir dans le futur Un autre chef de produit peut penser que les ventes augmenteront l ann e prochaine parce qu ell avec un ensemble de variables conomiques travers des relations complexes Par exemple imagine que les ventes sont li es d une certaine fa on au march l effort publicitaire et au qu partir d hypoth ses tr s probables concernant l volution future de ces variables il es comme vraisemblable une hausse al Dans les deux cas la pr vision est bas e sur l intuition bien que les modalit s de raisonnemen deux cas cit s plus haut Mais dans chacun de ces raisonnements il y a un certain raisonnement logique implicite Aucune quation n a t crite N anmoins le chef de produit a tabli une sorte de mod le imp S il a tabli
153. lan actuel de l essai et proposant dans la partie basse un plan vierge Pour cr er le plan personnalis d placer les parcelles du plan situ en haut vers le plan situ en dessous en faisant soit un Couper Coller soit en faisant glisser les parcelles vers le plan vide du dessous e Couper Coller Ctrl x de la ou les parcelle s au point d origine puis Ctrl v la destination e Glisser S lectionnez la ou les parcelles placez le pointeur sur le bord de la cellule de sorte obtenir une croix noire et d placez la s lection l emplacement souhait en continuant d appuyer sur le bouton de la souris Une fois que le nouveau plan est satisfaisant cliquez sur Actualiser sous Personnaliser le plan afin que la feuille de plan reprenne le plan personnalis Il vous est alors propos d effectuer un contr le de qualit du nouveau plan et la feuille de plan personnalis est d truite Remarques e Ne faites pas de copier coller e Ne superposez pas les parcelles e To e est possible de lancer cette proc dure autant de fois que n cessaire es les parcelles du plan d origine doivent tre plac es sur le nouveau plan I est possible de faire varier l ordre des parcelles sur la feuille de saisie afin de refl ter l ordre r el de saisie lors des notations sur le terrain Pour cela utilisez un plan de saisie qui attribue sur le plan r el de l essai un num ro d ordre chaque parcelle correspondant
154. lasse tant t une autre selon la StatBox Analyse n variables partition initiale utilis e Ces observations se trouvent g n ralement dans des r gions interm diaires situ es entre les formes fortes Pour identifier les formes fortes StatBox consid re au maximum les 10 meilleures partitions diff rentes obtenues lors des ex cutions r p t es de l algorithme Remarque l utilisation de l inertie intra classe comme crit re minimiser conduit la formation de classes compactes Par exemple dans un espace deux dimensions l algorithme des nu es dynamiques tend proposer des classes les plus circulaires possible De ce fait n utilisez pas cette m thode si vous savez a priori que la forme des classes naturelles sous jacentes vos donn es n est pas compacte mais plut t allong e par exemple le crit re optimis tant alors inadapt Mise en uvre Bases 1 s Donn es Options Sorties Mise en fome Variable s disponible s Variables quantitatives Houter IN Oranges e N Tomatoes SUF G gt Donn es s lectionnez les variables correspondant un tableau rectangulaire observations variables Lorsqu il y a des valeurs manquantes StatBox propose tout d abord d ignorer les lignes concern es En cas de refus StatBox propose alors d estimer les valeurs manquantes de chaque variable par la moyenne cf l option Estimation des donn es manquantes
155. le Ho et alternative H1 sont les suivantes Ho P a lt b P a gt b H P a lt b P a gt b Dans le cas unilat ral il faut distinguer le test unilat ral gauche ou inf rieur et le test unilat ral droite ou sup rieur Dans le test unilat ral gauche l hypoth se alternative indique que la population A admet en g n ral des valeurs inf rieures celles de la population B Ho P a lt b lt P a gt b Hi P a lt b gt P a gt b Dans le test unilat ral droite l hypoth se alternative indique que la population A admet en g n ral des valeurs sup rieures celles de la population B Ho P a lt b 2 P a gt b H P a lt b lt P a gt b Ce test a t d velopp en consid rant que e les couples de donn es appari es sont ind pendants e les donn es sont au moins des donn es ordinales Remarque pour calculer la p value associ e au nombre de diff rences positives StatBox utilise la loi binomiale dans tous les cas et pas l approximation de la loi binomiale par la loi normale StatBox Tests non param triques Mise en uvre Onglet Don 1 Comparaison de 2 chantillons appari s Es Donn es Options Sorties Mise en fome Echantillon 1 Echantillon 2 R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Echantillon 1 s
156. le libell de la nouvelle modalit CODAGE DISJONCTIF OUI NON Utilisez ce module pour coder un tableau avec les observations en lignes et des variables qualitatives en colonnes sous la forme d un tableau binaire 0 1 en utilisant le codage disjonctif complet Le codage disjonctif consiste affecter la valeur 1 pour la modalit d une variable qualitative pour l observation consid r e et 0 toutes les autres modalit s de la variable L application de ce codage un ensemble de variables qualitatives consiste r p ter cette proc dure pour chaque variable Le tableau obtenu contient donc autant de colonnes qu il y a de modalit s au total pour l ensemble des variables qualitatives et autant de 1 pour une observation qu il y a de variables StatBox Codage Mise en u nglet Donn 1 Codage disjonctif a pan Es Donn es Sorties Mise enfome Variable s disponible s Variable s coder Nn Tv5 N Poids TV6 TV3 TV9 Tv4 Iv RE TE sa T Sexe N Age Nsp Libell s des observations Nat X SHQAG 7 e Annuler OK gt Variable s coder s lectionnez la les variables coder en la les pla ant dans la liste de droite En cas de valeur manquante dans une case jj c est dire pour l observation en ligne i et la variable qualitative en colonne j toutes les modalit s de la variable j sont mises 0 pour l observation i Libell s des observations s l
157. le pourcentage de variance correspondant chaque axe Les observations suppl mentaires sont forc ment repr sent es StatBox Annexes ROTATION DES FACTEURS Il existe deux types de techniques de rotation des facteurs visant simplifier l analyse la rotation orthogonale et la rotation oblique Au contraire d une rotation oblique une rotation orthogonale pr serve l orientation originelle entre les facteurs de sorte qu ils sont toujours orthogonaux non corr l s apr s rotation StatBox propose les deux techniques de rotation orthogonale les plus commun ment utilis es les rotations varimax et quartimax Utilisez la rotation varimax pour simplifier l interpr tation des facteurs en minimisant le nombre de variables qui ont des contributions lev es sur chaque facteur L objectif de la rotation orthogonale varimax est d identifier une structure factorielle telle que pour chaque facteur quelques variables aient des contributions lev es les autres ayant des contributions tr s faibles Cet objectif est atteint en maximisant pour un facteur donn la variance des carr s des contributions parmi les variables sous la contrainte que la variance de chaque variable soit conserv e Utilisez la rotation quartimax pour simplifier l analyse des variables en minimisant le nombre de facteurs n cessaires pour expliquer chaque variable L objectif de la rotation quartimax est d identifier une structure factorielle telle que les vari
158. les donn es ajoute les colonnes de rangs la base d origine a gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Nouvelle s colonne s affiche la table des rangs pour chacune des variables s lectionn es CODAGE D UNE VARIABLE TEXTE EN CODES Utilisez ce module pour coder des variables textes en tableau de codes correspondant l ordre alphab tique des textes Description Pour chaque variable une observation se voit attribu le rang de la cha ne de caract res StatBox Codage ise en uvre Donn es 11 Codage de textes en codes Es Donn es Sorties Mise enfome Variable s disponible s Variable s coder Fu TV5 o Tv4 TV6 SZA TV9 ve T Sexe Ajouter EE Libell s des observations ii Na eA I54aS7 Caer C gt Variable s coder s lectionnez la les variable s coder en la les pla ant dans la liste de droite le tableau comporte des observations en lignes etles variables qualitatives en colonnes Les valeurs manquantes sont autoris es et occupent le rang 0 gt Libell s des observations s lectionnez la variable contenant les libell s des observations si vous souhaitez cr er un tableau de codes avec des libell s particuliers Par d faut le libell d une observation est son num ro de ligne dans le tableau Onglet Sorties 7 Codage de textes en codes
159. lle c est dire en ne conservant que les premiers facteurs L analyse en composantes principales ACP consiste exprimer un ensemble de variables en un ensemble de combinaisons lin aires de facteurs non corr l s entre eux ces facteurs rendant compte d une fraction de plus en plus faible de la variabilit des donn es Cette m thode permet de repr senter les donn es originelles observations et variables dans un espace de dimension inf rieure l espace originel tout en limitant au maximum la perte d information La repr sentation des donn es dans des espaces de faible dimension ici 2 dimensions en facilite consid rablement l analyse L ACP diff re de l analyse factorielle en ce qu elle conduit un ensemble de facteurs non corr l s entre eux ce qui correspond au cas particulier des communalit s toutes gales 1 variances sp cifiques nulles Remarque ce module accepte jusqu 250 variables Donn es Variables et Observations suppl mentaires Options Sorties Mise en fome Variable s disponible s Variables quantitatives actives Tia N Poids Sri Spp T Quai ee Ce S Analyse en Composantes Principales ACP Es Libell des observations Format des donn es en entr es I t Observationsivariables Fi Poids Matrice carr corr lation N Poids nl SHAG rS amp annuler 7 OK gt Observations ariables Matric
160. me syst matiquement le taux d erreur r el Il est pr f rable d utiliser la validation crois e afin d estimer le taux d erreur par le taux de resubstitution calcul sur l chantillon test en prenant par exemple 75 des observations pour l apprentissage et les 25 qui restent pour l estimation du taux d erreur gt A partir de la ligne saisissez la ligne partir de laquelle les observations suppl mentaires ou passives commencent Les observations passives ne participent pas aux calculs mais sont positionn s sur les plans factoriels avec les observations actives et leur appartenance aux groupes est pr dite par le mod le Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne de la variable cf l option Estimation des donn es manquantes calcul e gr ce la totalit de l information disponible c est dire en tenant compte des observations suppl mentaires StatBox Analyse n variables 67 Analyse Factorielle Discriminante AFD Donn es Options Sores Mise en fome 7 R sum Y Fonctions de classements 7 Description des groupes WA Valeurs propres A Matrice d inertie inter groupe BA Vecteurs propres 7 Matrices d inertie intra groupes T Test de Bartlett V Inertie intra groupe commune F Score des variables V Matrice d inertie totale F Sc
161. ment aberrant Dans ce cas supprimez compl tement les donn es nulles afin que le logiciel les d tecte comme manquantes Plusieurs solutions peuvent alors tre envisag es e Si une ou deux valeurs sont manquantes et condition qu elles n appartiennent ni un m me bloc ni un m me traitement le programme pourra les estimer par la m thode de Yates Celle ci consiste tout simplement boucher le trou avec une valeur telle que son r sidu soit nul dans le mod le additif correspondant au plan de l essai Mais attention Cette m thode peut conduire un malentendu car une fois le trou bouch tout semble se passer comme s il n tait rien arriv Cette impression est tristement fausse II y a toujours perte d information pour estimer les param tres et calculer les tests on perd autant de degr s de libert la variance r siduelle qu il y a de donn es estim es e Si plus de deux valeurs sont manquantes ou si deux ou plusieurs donn es manquent dans un m me bloc ou un m me traitement on pourra supprimer le ou les bloc s ou traitement s de l analyse Attention Ce s bloc s ou traitement s sera aussi limin pour toutes les autres variables analys es dans l essai sauf si on r alise l analyse variable par variable e Si la variable enregistr e est pleine de trous ne vaut il pas mieux la supprimer de l analyse Les maladies d sesp r es demandent des rem des d sesp r s S C P
162. mp L Mechalkine 1986 El ments de mod lisation et traitement primaire des donn es Mir Moscou pp 126 183 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 19 68 Ripley B D 1983 Computer generation of random variables a tutorial International Statistical Review 51 301 319 Ripley B D 1987 Stochastic simulation John Wiley amp Sons New York Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 30 56 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 62 65 StatBox Codage REPR SENTATIONS GRAPHIQUES STATISTIQUES DESCRIPTIVES Utilisez ce module pour calculer un ensemble de statistiques descriptives pour une ou plusieurs variables quantitatives et produire des repr sentations graphiques ou semi graphiques utilis es en analyse exploratoire des donn es Liste des statistiques calcul es dans le cas des donn es quantitatives les descripteurs qui tiennent compte des poids ventuels sont figur s en gras Nombre de valeurs utilis es nombre de valeurs effectivement utilis es dans les calculs c est dire les valeurs non manquantes et de poids diff rent de 0 Nombre de valeurs ignor es nombre de valeurs ignor es lors des calculs c est dire les valeurs manquantes ou de poids nul Nombre de val min nombre de valeurs gales la valeur minimale
163. mportant Pour vous cette derni re variable peut tre plus facile utiliser d un point de vue op rationnel Dans ce cas s lectionnez la ce n est peut tre pas la meilleure s paration mais la plus adapt e vos possibilit s d action Afficher les observations Cette option permet de lister tous les observations appartenant un ou plusieurs n uds ou feuilles Elle est utile pour effectuer des croisements entre variables pour mieux analyser cette ou ces sous populations Actualiser le tableau de synth se Cette option permet de mettre jour le tableau de synth se apr s une modification de l arbre Vue imprimable Cette fonction permet l affichage de l arbre dans la fen tre de Pr visualisation d Excel et ventuellement de proc der l impression Remarques e Une fois les n uds affich s vous pouvez les d placer mais vous ne pouvez pas les renommer StatBox Analyse n variables e Chaque n ud est affect une des modalit s de la variable expliquer On peut suivre dans le graphique cette affectation gr ce la couleur du n ud e Si l arbre est tr s grand utilisez le zoom d Excel pour afficher l ensemble du graphique Vous pouvez dans ce cas cliquer sur un n ud et nouveau changer le zoom pour voir en d tail cette partie de l arbre Exemple Effectif CSP Chi _ R f rences Data Mining techniques appliqu es au marketing la vente et aux services clients Mic
164. mposantes neuronales Les informations en entr e sont propag es elles par des poids Toutes les donn es sont pr sent es successivement en entr e la somme pond r e est effectu e et modifi e gr ce la fonction logistique d activation Les r sultats obtenus au niveau de la couche cach e sont ensuite propag s vers la couche de sortie Couche Touche Touche de d entr e cach e sortie w si Le mod le r tropropagation va valuer l erreur c est dire l cart entre les r sultats obtenus et ceux que l on devrait obtenir Il faut donc chaque jeu d entr e un jeu de donn es obtenir Cette diff rence est r tropropag e StatBox Analyse n variables vers la couche cach e puis vers la couche d entr e et les poids sont modifi s l g rement dans le sens de la r ponse que l on doit obtenir Cette modification est effectu e la fin d une it ration A chaque it ration toutes les donn es sont pr sent es et l erreur est calcul e Comme la modification des poids va vers la r duction de l erreur la courbe d apprentissage doit baisser r guli rement jusqu se stabiliser horizontalement alors la solution optimale est obtenue Le taux d apprentissage est la part de l erreur qui est affect e la modification des poids Wt Wt 1 taux d apprentissage x erreur momentum Wt 1 Wt 2 Wt poids l it ration t Wt 1 poids l it ration t 1 Wt 2 poids
165. n fome A R sum F Test de Kruskall Wwallis pour le rapport ao atBox Tests non param triques gt Test de Kruskall Wallis effectue un test de Kruskall gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es Wallis Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 390 392 Lehmann E L amp H J M D Abrera 1975 Nonparametrics Statistical methods based on ranks Holden Day San Francisco pp 204 210 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 181 182 Siegel S 1956 Nonparametric statistics for the behavioral sciences McGraw Hill Kogakusha Tokyo Japan pp 184 194 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 423 427 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 240 241 COMPARAISON DE K CHANTILLONS APPARI S TEST DE FRIEDMAN Utilisez ce test non param trique lorsque vous tes en pr sence de k chantillons appari s correspondant k traitements portant sur les m mes blocs afin de mettre en vidence une diff rence entre les traitements Remarque l utilisation du test de Friedman constitue une alternative non param trique l utilisation de l
166. n tableau observations variables Lorsqu il y a des valeurs manquantes StatBox propose tout d abord de les ignorer En cas de refus StatBox propose alors d estimer les valeurs manquantes de chaque variable par le mode cf l option Estimation des donn es manquantes sinon la bo te de dialogue est ferm e et le traitement est abandonn gt Libell s des observations s lectionnez la variable contenant les libell s qui correspondent aux lignes du tableau de donn es Poids cochez cette option pour pond rer vos observations et s lectionnez la colonne des poids des observations Les poids nuls ne sont pas autoris s Lorsqu il y a des valeurs manquantes dans les poids StatBox propose de les estimer par la moyenne des poids cf l option Estimation des donn es manquantes calcul e sans tenir compte des ventuels poids nuls Sinon le traitement est abandonn car des poids manquants sont quivalents des poids nuls lesquels sont interdits Yy les et ob Analyse des Correspondances Multiples Ac W E E E Donn es Variables et observations suppl mentaires Options Sorties Mise enfome Variables supp disponibles Variables qualitatives supp TV3 Ajouter Ca Variables quantitatives supp N Age Toter N9 CE Observations supp partir de la ligne tions suppl me S HA AG 7 gt Variable s qualitative s suppl mentaires saisissez la le
167. n tige et feuille mais vous pouvez modifier l unit par d faut Pour plus d clart StatBox affiche avant chaque diagramme l unit utilis e en donnant la signification d une tige et feuil l mentaire 1 1 Dow Le Q Q plot ou normal probability plot ou graphique quantile quantile et le p p plot ou probability probability plot permettent d appr cier visuellement si les donn es sont susceptibles de suivre une loi normale en comparant la distribution de fr quence cumul e des donn es la fonction de r partition de la loi normale de m mes moyenne et variance Le Q Q plot effectue cette comparaison du point de vue des valeurs tandis que le p p plot se place du point de vue des probabilit s Dans les deux cas lorsque les points s organisent selon la premi re bissectrice du graphique cela indique que la loi normale est compatible avec les donn es Dans un p p plot l axe des abscisses correspond aux fr quences relatives des valeurs et les ordonn es correspondent aux probabilit s qu auraient les valeurs si elles taient distribu es selon une loi normale de m mes moyenne et variance que les donn es Ainsi chaque abscisse du p p plot correspond l ordonn e de chaque valeur sur la distribution de fr quence cumul e des donn es et l ordonn e correspondante dans le p p plot est l ordonn e de la fonction de r partition de la loi normale de m mes moyenne et variance que les donn es pour la valeur consid r e Da
168. nAG 7e annuler C o ao atBox Codage gt Variable recoder s lectionnez une variable qualitative recoder gt Libell s des observations s lectionnez la variable contenant les libell s des observations si vous souhaitez cr er un tableau de codes avec des libell s particuliers Par d faut le libell d une observation est son num ro de ligne dans le tableau Igli M 1 Regroupement de modalit s me y Es Donn es Modait s Sorties Mssenfome Ancienne gt nouvelle modalit Liste des nouvelles modalit s Tor Code et ou libell de la nouvelle modalit Nouvelle modal Regrouper R tablir gt Code et ou libell de la nouvelle modalit pour effectuer un recodage s lectionnez dans la liste de droite les modalit s regrouper Dans la zone de saisie entrez le label affecter l ensemble des modalit s s lectionn es dans la liste de droite Cliquez sur le bouton Regrouper pour rendre le codage effectif Les listes de gauche et de droite sont mises jour et vous pouvez proc der de nouveaux codages gt R tablir vous pouvez revenir en arri re sur les codages effectu s Pour cela s lectionnez dans la liste de droite la modalit r tablir puis cliquez sur R tablir un message d avertissement vous demande alors de valider l annulation puis les listes de gauche et de droite sont mises jour Le nombre d tapes de codage et
169. nce Si vous avez une valeur manquante faites une analyse sur le sous ensemble des donn es ant rieur cette valeur pour en faire l estimation Cela suppose qu elle ne se situe pas au tout d but de la s rie Dans ce cas faites une moyenne des 2 valeurs adjacentes Onglet Demoa D S Donn es Options Sorties Mise enfome G n ral Longueur du cycle saisonnier 12 Nombre de p riodes de pr vision 12 Mod le Mod le additif Mod le Multiplicatif Estimer les coefficients Alpha Beta Gamma amp H amp s amp Cannae gt Longueur du cycle saisonnier saisissez le nombre de p riode d un cycle par exemple 12 si vous avez des donn es mensuelles gt Nombre de p riode de pr vision indiquez le nombre de p riode que vous d sirer estimer StatBox Analyse sur une variable gt Mod le additif Mod le multiplicatif s lectionnez le type de mod le que l algorithme de Winters Holt vous souhaitez utiliser pour gt Estimer les coefficients cochez cette option si vous souhaitez que le logiciel estime lui m me les param tres de l algorithme de Winters Holt Si vous souhaitez entrer des valeur particuli res d cochez cette option et entrez une valeur pour chaque param tre S Pr vision court terme Es Donn es Options Satis lise en fome V R sum T Tableau de pr vision FF Graphique W Table des
170. nd de l volution sa ligne directrice e les saisonnalit s des variations que l on retrouve intervalle de temps constant e les al as des variations non expliqu es par les deux premi res composantes La m thode consiste d terminer la tendance de l volution qui en est la partie la plus stable puis mod liser et prolonger celle ci et enfin transformer cette pr vision de tendance en une pr vision en valeur brute c est dire en r injectant en particulier les variations saisonni res Partant de la chronique brute on filtre pour commencer les variations les plus instables les al as Le moyen utilis est le lissage exponentiel Dans un second temps il s agit de d saisonnaliser le r sultat du filtrage pr c dent Le traitement appliqu est celui d une moyenne mobile qui pond r e de longueur gale la p riode du ph nom ne La chronique obtenue sera la tendance constat e Celle ci va tre mod lis e pour permettre son extrapolation Si les m thodes traditionnelles de r gression peuvent tre utilis e pour ajuster droites paraboles exponentielles La d marche retenue ici essaie de pallier aux inconv nients de la r gression savoir choix de la taille de l historique sur lequel l ajustement se fera Les tendances constat es aujourd hui sont rarement homog nes sur de longues p riodes Le principe utilis est celui des polyn mes orthogonaux toute fonction tre approxim e par une
171. ner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Nouvelles valeurs affiche la table des donn es calcul es Yv CHANTILLONNAGE AL ATOIRE chantillonnage al atoire consiste extraire un sous ensemble d observations du tableau initial par un tirage au hasard StatBox va cr er une variable comportant les codes 0 et 1 le code 1 tant celui correspondant l chantillon al atoire et le code 0 pour l chantillon compl mentaire L chantillon compl mentaire est utile pour les phases d apprentissage et de test de la mod lisation E Echantillonnage simple J Es Donn es Sorties Mise enfome Effectif obtenir 100 M thode d chanillon ge _ A aone sans remise O gt Libell s des observators fine SHAG Se annuler oK gt Effectif obtenir saisissez l effectif que vous souhaitez obtenir dans le nouvel chantillon gt M thode d chantillonnage s lectionnez un mode d chantillonnage parmi ceux propos s e al atoire sans remise les observations sont s lectionn es au hasard et ne peuvent pas tre s lectionn es plus d une fois e al atoire avec remise les observations sont s lectionn es au hasard et peuvent tre s lectionn es plus d une fois Les observations s l
172. nez la variable coder souhaitez cr er un tableau ci le libell d une observation e v gt Observations s lectionnez la variable contenant les libell s des observations si vous od avec des libell s particuliers pour les observations Par d faut st son num ro de ligne dans le tableau Poids cochez cette case si vous d sirez pond rer les donn es puis s lectionnez la variable de pond ration Les valeurs manquantes dans les poids sont cumul es avec les valeurs manquantes dans les donn es StatBox Codage E Codige en casses Donn es Ciasses Sorties G n ral Classes 5 E M thode Bornes Amplitude constante inf rieure 40 Classes optimales Sup rieure 61 Poids gaux SR Importer les bornes J E Er amp 4 4 7 amp Camer 7 Cox gt Classes entrez le nombre d intervalles calculer gt Amplitude constante Classes optimales Poids gaux Importer les bornes choisissez le type de calcul des intervalles gt Pour effectuer le calcul des classes cliquez sur Calculer les classes La liste des bornes des classes calcul es s affiche alors dans la zone centrale Vous avez la possibilit de personnaliser la liste des bornes propos e Pour cela s lectionnez la classe personnaliser dans la liste centrale entrez les nouvelles bornes pour cette classe dans les zones Inf rieure et Sup rieure puis cliquez sur Valide
173. nn es Graphiques affiche un histogramme de fr quence des croisements de modalit s un tableau des combinaisons de modalit s en lignes et en colonnes Ce ation que le tableau de contingence et le tableau des pourcentages par rapport l effectif total mais cette information est pr sent e sous une forme diff rente Effectifs observ s affiche le tab que l effectif total lignes affiche le tableau des v VVYVY Test d ind pendance du khi leau de contingence auquel ont t ajout es les sommes marginales ainsi pourcentages calcul s par rapport aux sommes des lignes colonnes affiche le tableau des pourcentages calcul s par rapport aux sommes des colonnes total affiche le tableau des pourcentages calcul s par rapport l effectif total estez l ind pendance entre les lignes et les colonnes du tableau de contingence l aide d un test du khi gt Effectifs th oriques affiche le tableau des effectifs th oriques calcul s sous l hypoth se d ind pendance des lignes et des colonnes du tab gt Contributions au khi affiche le leau de contingence tableau des contributions l mentaires de chaque case du tableau de contingence la valeur du khi ca gt Kh par case affiche un tableau l effectif th orique et d autre part cul e pour l ensemble du tableau de contingence montrant d une part si l effectif observ est sup rieur inf rieur ou gal le r sulta
174. nn es La donn e manquante est ajout e la liste des modalit s possibles Dans les graphiques elle est repr sent e par lt gt gt R utiliser les variables Permet d utiliser la m me variable dans diff rents niveaux de l arbre Par d faut lorsqu une variable est utilis e dans un n ud elle ne peut pas tre nouveau utilis e Si vous avez d fini par exemple 4 niveaux et que vous cliquez dans l arbre sur le n ud racine puis sur D velopper d un niveau vous obtenez le m me r sultat que si vous aviez d fini 5 niveaux Segmentation Es eg _ A gja al Donn es Options Sorbes Graphiques Mise en forme T R sum F7 Affichage Khi2 gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Affichage Khi cochez cette option pour que le Khi ainsi que la probabilit associ e apparaissent dans l arbre avec l algorithme CHAID avec CART c est l indice de baisse de l impuret StatBox Analyse n variables Segmentation Es eg n it m Donn es Options Sorties Graphiques Mise en fome Orientation Horizontal Vertical FA Coloration gt Horizontal Vertical Cette option permet de changer la pr sentation de l arbre Soit le n ud racine se trouve gauche du graphique avec l option Horizontal soit ce n ud se trouve en haut du graphique avec l
175. nn es R vision chage CCC StatBox vegetal Nouveau Rechercher ANOVA Outils A propos de Onglet vegetal Q iquez sur l onglet Vegetal les options apparaissent Rapports Graphiques Pi Afficher les listes d roulantes F Classement automatique des feuilles El Afficher les sauts de page Z Colorer les groupes de feuilles Identifiants Rapport fixe de synth se Sur les feuilles de notation Identifiants de modait t Testde comparaison Newman Keuls Sur les feuilles de plan Idertfiants de modalit s Sur les plans BPE Identifiants de localisation Chemin d acc s Donn es DADATAWision3 2010 C Program Files 86 Common Fies Statbox 7 1 RefB Vous avez le choix entre autre de param trer avant utilisation gt Les param trages de lecture partie G n ral gt Le chemin de sauvegarde si vous d sirez utiliser un autre emplacement pour l enregistrement des essais dans la partie Chemins d acc s cliquez sur le bouton Parcourir de la ligne Donn es et enregistrer votre nouveau chemin d acc s StatBox Prise en main de StatBox Vegetal Onglet Codification G n ral Rappots Graphiques Agicuture Veg Contraindre la codification des noms des nouveaux fichiers Activer l arborescence automatique des fichiers Ann e Court ex 06 Code organisme 5 Code Protocole g Identifiant 3 Nom de l organisme Code org
176. ns ayant une valeur nulle pour la variable tudi e doivent tre ignor es S Analyse de variance tm es plions Sottes V R sum Comparaisons multiples 7 D composition de la variance 7 Comparaison par paires I Indicateurs PA Tableaux de moyennes T Coefficients de r gressions SUHAG Se Cime C o gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport D composition de la variance affiche la table de d composition de la variance pour les facteurs tudi s et les niveaux d interactions Indicateurs affiche des indicateurs de base sur la variable tudi e moyenne cart type de variation Tableaux de moyennes affiche les tables de moyennes pour les facteurs tudi s et les interactions Coefficients de r gressions affiche les tables des coefficients de r gression pour les co variables Comparaisons multiples effectue des comparaisons multiples de moyennes v YVVYVYY StatBox Analyse n variables gt Comparaison par paires effectue des comparaisons par paires S lectionnez alors le facteur ou l interaction pour lequel les moyennes doivent tre compar es Le classeur Data xls contient des donn es qui ont t propos es par S A Glantz B K Slinker dans leur ouvrage Primer of Applied regression amp analysis of variance Ces exemples y ont t trait s l aide d
177. ns un Q Q plot l axe des abscisses correspond aux valeurs observ es et les ordonn es correspondent aux valeurs de la loi normale de m mes moyenne et variance que les donn es calcul es pour les fr quences relatives des valeurs observ es StatBox Annexes Ainsi chaque abscisse du Q Q plot correspond l abscisse de chaque valeur sur la distribution de fr quence cumul e des donn es et l ordonn e correspondante dans le Q Q plot est l abscisse de la fonction de r partition de la loi normale de m mes moyenne et variance que les donn es pour la probabilit consid r e Jobson J D 1991 Applied multivariate data analysis Volume l regression and experimental design Springer Verlag New York pp 35 36 45 46 62 65 Johnson R A amp D W Wichern 1992 Applied multivariate statistical analysis Prentice Hall Englewood Cliffs pp 154 158 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 28 30 116 123 151 152 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 119 121 SIMILARIT S DISSIMILARIT S ll existe de nombreuses mesures de ressemblance similarit s ou dissimilarit s StatBox propose des indices s lectionn s en fonction de leurs propri t s math matiques et de leur int r t pratique ou p dagogique e Corr lation de Pearson co
178. nt de v rifier les pr requis de taille relative chacune des op rations ces pr requis sont indiqu s c t de chacune des op rations Onglet Sorties 67 Calcul matriciel Sorties F R sum E Donn es calcul es J Mise enfome gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Donn es calcul es affiche la table des donn es calcul es StatBox Codage CALCUL VECTORIEL Ce module permet d effectuer les op rations de base sur des vecteurs Description Voici les fonctions disponibles e Addition e Multiplication e Soustraction e Division Mise en uvre Onglet Donn es N calcui vectoriel p Donn es Sorties Mise en fome Variables disponibles A 105 Nn Ajouter N Age N Poids e ENT MP o Nsp ll l l Addition A B Soustraction A B gt Multiplication A B Division A B TEET a S lectionnez l op ration effectuer S lectionnez les variables utiliser pour le calcul en les faisant passer dans les listes de droite Onglet Sorties CEE 1 Nom de la nouvelle colonne 7 R sum F Nouvelles valeurs ao atBox Codage gt Ajouter les nouvelles donn es ajoute la colonne des valeurs calcul es la base d origine Vous pouvez don
179. okal amp Michener Rogers amp Tanimoto et Sokal amp Sneath 1 donnent la m me cons quence dans une classification ascendante hi rarchique on obtient des dendrogrammes qui ont la m me topologie Phi de Pearson ad bc V a b c d a c b d R sultat dans l intervalle 1 1 Cet indice soustrait le produit des diff rences terme bc au produit des concordances terme ad Le Phi de Pearson est reli au khi par la relation x2 n avec n l effectif total Pour obtenir une dissimilarit StatBox effectue la transformation vers l intervalle 0 1 gt 1 2 StatBox Annexes e Indice de Ochiai a I a b a c o a est divis par la moyenne g om trique des nombres de 1 pour i et j R sultat dans l intervalle 0 1 e Indice de Kulczinski a 1 a b 1 a c 2 o a est divis par la moyenne harmonique des nombres de 1 pour i et j R sultat dans l intervalle 0 1 Remarque les indices de Ochiai et de Kulczinski sont des variantes de l indice de Dice faisant intervenir respectivement la moyenne g om trique et la moyenne harmonique au lieu de la moyenne arithm tique On peut donc s attendre ce que les valeurs de ces indices soient voisines s cartant les unes des autres lorsque a b et a c sont tr s diff rents Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 88 90 395 398 Dillon W R amp
180. olonnes selon l option choisie pr c demment au laquelle les donn es sont consid r es comme StatBox Analyse deux variables strictement sup rieure la valeur seuil ou ce 7 Test de correlation dite es Donn es Options Sores Mise enfome A R sum 7 Test de Bartlett 7 Table des indices calcul s gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Test de Bartlett lorsque la corr lation de Pearson est utilis e similarit pour donn es quantitatives effectue le test de sph ricit de Bartlett testant l existence d une structure de corr lation significative au sein de la matrice de corr lation au seuil de signification sp cifi par Seuil alpha gt Table des indices calcul s affiche la table des indices de similarit dissimilarit calcul s gt Liste des donn es similaires affiche un tableau regroupant les couples de donn es lignes ou colonnes d tect es comme tant similaires Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 157 167 Gower J C amp P Legendre 1986 Metric and Euclidean properties of dissimilarity coefficients Journal of Classification 3 5 48 Jambu M 1978 Classification automatique pour l analyse des donn es 1 m thodes et algorithmes Dunod Paris pp 484 518
181. olygone de fr quence 7 Classes sur l histogramme 7 Classes sur la distribution cumul e Intervalles m E SHAG7 Se Amer ok Graphiques cochez cette option pour afficher les graphiques Histogramme cochez cette option pour construire l histogramme des fr quences par classe Distribution cumul e cochez cette option pour construire la distribution cumul e Classes sur l histogramme cochez cette option si vous d sirez un histogramme avec des barres verticales mat rialisant les bornes des intervalles Classes sur l histogramme cochez cette option si vous d sirez une distribution cumul e avec des barres verticales mat rialisant les bornes des intervalles Intervalles entrez le nombre d intervalles d amplitude constante pour la construction de l histogramme Histogramme Polygone de fr quence choisissez le mode de repr sentation graphique Le trac d crit les intervalles lorsque Histogramme est s lectionn et joint les centres des intervalles lorsque Polygone de fr quence est s lectionn YVYYY yv vyv Frontier S 1981 M thode statistique Masson Paris pp 42 59 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 19 32 NUAGES DE POINTS Utilisez ce module pour calculer un ensemble de statistiques descriptives pour une ou plusieurs variables quantitative
182. om ne al atoire pour la loi exponentielle de Poisson Lambda valeur moyenne sup rieure 0 pour d finir la loi de Poisson Binomiale n nombre d essais d finissant la loi binomiale p probabilit de succ s d finissant la loi binomiale la loi de Bernoulli est un cas particulier de la loi binomiale pour p 0 5 binomiale n gative K nombre de succ s d finissant la loi binomiale n gative p probabilit de succ s d finissant la loi binomiale n gative gt M thode it rative dans le cas de la loi binomiale si vous choisissez d estimer automatiquement les param tres cochez cette case pour effectuer une estimation par une m thode it rative maximum de vraisemblance Lorsque cette case n est pas coch e StatBox demande si vous d sirez sp cifier la valeur de n nombre d essais si cette valeur est connue vous obtiendrez alors une meilleure estimation de p probabilit de succ s StatBox Analyse sur une variable 1 Ajustement une loi de probabilit Es s Options Sorties Mise enfome G n ral Seuil alpha 4 5 Classes dintervalles Intervalles constants Automatique Nombre de classes 2 SUHQAGa7 amp Amer OK gt Seuil alpha entrez la valeur du risque de premi re esp ce des tests gt intervalles constants Automatique s lectionnez le mode de d coupage des donn es en classe pour le test des effectifs gt Nombre de cl
183. omatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Descripteur d chantillon affiche la table des valeurs bool ennes indiquant l appartenance de chacune des observations l chantillon demand gt Base chantillonn e g n re une nouvelle feuille Excel correspondant la base d origine o seul figurent les observations retenues pour l chantillon Remarque il est possible que l effectif obtenu soit inf rieur celui demand Cela veut dire qu il n y avait pas suffisamment d enregistrements r pondant aux crit res demand s REDRESSEMENT Lorsque la structure d un chantillon ne correspond pas la structure de la population m re un redressement consiste attribuer chaque observation un poids destin contrebalancer l effet de la sur repr sentation ou de la sous repr sentation de certains groupes dans l chantillon Supposons qu un chantillon d enqu te comporte trop d inactifs Dans le fichier redress on attribuera aux actifs un poids sup rieur 1 et aux inactifs un poids inf rieur 1 StatBox permet d effectuer un redressement d chantillon sur 1 2 3 4 5 ou 6 crit res Redresser sur un nombre de crit res plus important risquerait de provoquer des distorsions plut t qu un redressement dans la mesure o certaines cases seraient gales 0 comme par exemple tre retrait et
184. ome V Dendrogramme g n ral 7 Dendrogramme des classes Vertical D Horizontal Titre du graphique gt Dendrogramme g n ral affiche le diagramme des niveaux permettant d observer l impact des regroupements successifs Dendrogramme des classes affiche le dendrogramme de d coupage des classes Vertical Horizontal choisissez Vertical pour que la racine du dendrogramme figure en haut du graphique ou bien Horizontal pour que la racine du dendrogramme figure droite du graphique gt Titre du graphique entrez un titre sp cifique pour le graphique facultatif vy Exemple Feuille CAH du classeur Data xls Jobson 1992 table 10 11 p 536 StatBox Analyse n variables Benz cri J P 1984 L analyse des donn es 1 La taxinomi Diday E J Lemaire J Pouget amp F Testu 1982 El ments d analyse de donn es Dunod Paris pp 46 116 Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 157 186 Jambu M 1978 Classification automatique pour l analyse des donn es 1 m thodes et algorithmes Dunod Paris Jobson J D 1992 Applied multivariate data analysis Vol Verlag New York pp 483 568 ie Quatri me dition Dunod Paris ume Il categorical and multivariate methods Springer Johnson R A amp D W Wichern 1992 Applied multivar
185. onn es regroup es s lectionnez la variable correspondant aux valeurs des deux chantillons Les valeurs manquantes ne sont pas autoris es Descripteur d chantillon dans le cas des donn es regroup es s lectionnez la variable correspondant une variable qualitative indiquant l chantillon d appartenance de chaque valeur Les valeurs manquantes ne sont pas autoris es Remarque dans le cas de l option Par chantillon la taille des colonnes peut tre diff rente F1 Comparaison de 2 chantillons ind pendants Es Donn es Mise en fome G n ral Seuil alpha 2 5 Orientation des tests Biat ral z ses SHQAG7Se gt gt Seuil alpha entrez la valeur du risque de premi re esp ce du test Orientation du test choisissez le type de test r aliser bilat ral unilat ral gauche ou unilat ral droite StatBox Tests non param triques 1 Comparaison de 2 chantillons ind pendants Es Donn es Options Sores Mise en fome 7 R sum F Test de Kolmogorov Smirnov T Test de Mann Whitney gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Test de Kolmogorov Smirnov gt Test de Mann Withney Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 381 385 Lehmann E L amp H J
186. onomique peut n cessiter Pr sentation d un classeur l ouverture un nouveau classeur se compose de 5 feuilles ou onglets Site exp rimental Modalit s Plan Rapport fixe et Expertise Ne pas s parer ou supprimer ces feuilles 1 Feuille site exp rimental Cette feuille vous permet de remplir toutes les caract ristiques de votre essai en dehors des modalit s test es et du plan Attention la partie sup rieure de la feuille ne sera plus r p t e dans chacun des onglets StatBox Prise en main de StatBox Vegetal Important le type de dispositif vous permet de choisir si votre dispositif est un dispositif en Blocs Randomisation Carr Latin ou Alpha plan Ce choix est d terminant pour la cr ation de votre plan Vous ne devez jamais le modifier apr s avoir cr le Plan 2 Feuille modalit s Saisissez le nombre de modalit s le nombre de passages ou dates de traitement Cliquez sur le menu StatBox Vegetal Modalit s Cr er le tableau de modalit s StatBox Vegetal DA gt omon sace A naviguer a 2 Apropos de FL pour obtenir de l aide Dans le tableau de saisie gt Chaque modalit peut tre saisie sur 4 lignes soit un m lange de 4 produits maximum gt Pour chaque produit vous pouvez saisir la dose gt Pour chaque dose vous pouvez saisir l unit Attention ne
187. onomiques de Gembloux Gembloux pp 90 96 Fleiss J L 1981 Statistical methods for rates and proportions John Wiley amp Sons New York Frontier S 1981 M thode statistique Masson Paris pp 128 134 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 133 134 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman pp 686 687 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris p 70 StatBox Tests param triques TESTS NON PARAM TRIQUES COMPARAISON DE 2 CHANTILLONS IND PENDANTS Utilisez ce module de tests non param triques lorsque vous tes en pr sence de 2 chantillons ind pendants afin de d terminer si les chantillons proviennent de la m me population ou de 2 populations diff rentes StatBox propose deux tests e le test de Kolmogorov Smirnov e le test de Mann Whitney Remarque l utilisation du test de Mann Whitney constitue une alternative non param trique au test t de Student quivalent l analyse de variance 1 facteur dans le cas de deux chantillons Comme pour le test de Student les chantillons peuvent tre de tailles diff rentes L objectif du test de Kolmogorov Smirnov est de d terminer si les fonctions de r partition des populations l origine des chantillons sont diff rentes StatBox r alise un tes
188. ons de lement de pr dire on cherche aussi obtenir des qua ir desquelles on peut retrouver ventuellement des quai le deux variables selon l angle que font leurs vecteurs ant que observation concourt aux liaisons entre les deux groupes d pist es es deux projections sont loign es voire tr s oppos es est une re les 2 ensemble de variables Dans le cas des votes il s agit par dont le report des votes s est effectuer diff remment Chacun des facteurs de X r sument les disparit s des observations du point de vue des X ils sont par ailleurs ind pendants Ils captent une part de la variance totale du groupe X Ces parts s additionnent On peut donc juger du nombre de facteurs conserver Puisqu il s agit d expliquer et ventuellement de pr dire le groupe Y on obtient aussi les quations de r gression des Y sur les facteurs des X La r gression PLS permet de s affranchir des limites de la r gression multiple les variables explicatives du groupe X peuvent tre tr s corr l es entre elles le nombre d observations peut tre inf rieur au nombre de variables explicatives la r gression PLS permet d isoler le bruit dans le mod le elle accepte plusieurs variables Y expliquer S R gression PLS gt Es Donn es Options Sorties Mise enfome z Variables disponibles Variable s Y expliquer ucc Taie N Bessons Variables X explic
189. ons des colonnes affiche les contributions des points colonnes Cos des colonnes affiche les cosinus carr s des colonnes dans le plan factoriel Coordonn es des lignes affiche les coordonn es principales des points ligne dans le plan factoriel Contributions des lignes affiche les contributions des points lignes Cos des lignes affiche les cosinus carr s des lignes dans le plan factoriel vyv Y VYVYNYVYY Au lancement de la proc dure s lectionnez les options d affichage des mappings pour plus d information consultez l annexe Boite d affichage des graphiques et validez mple Tableau de contingence de la feuille AFC du classeur Data xls Jobson 1992 table 9 39 p 434 StatBox Analyse n variables Na R f rences Escofier B amp J Pages 1990 Analyses factorielles simples et multiples Objectifs m thodes et interpr tation Dunod Paris pp 25 45 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and multivariate methods Springer Verlag New York pp 433 462 Lebart L A Morineau amp M Piron 1997 Statistique exploratoire multidimensionnelle 2 re dition Dunod Paris pp 67 107 Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 199 216 pp 199 216 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 143 15
190. ons vous permet de choisir le test de Bonferroni ainsi que de choisir l ordre de classement des classes statistiques croissant ou descendant Le test employ est sp cifi sur le rapport Par d faut les analyses sont faites avec le test de Newman amp Keuls et les classes sont dans l ordre croissant Dor navant les rapports Statbox histogrammes des r sidus cartographie sont enregistr s par d faut dans le classeur il est toutefois possible de supprimer ces feuilles de fa on all ger les classeurs StatBox Prise en main de StatBox Vegetal Seuil apr 2 Puissance IZ Ecars tester 2 PI Risques tester 2 Donn es manques Estimation de Yates Edition des variables 7 RECHERCHER UN ESSAI Cette fonction vous permet de rechercher un essai diff rents filtres mais aussi de voir l tat d avancement d un essai sans avoir ouvrir celui ci Rechercher dans D DATA Visiond 2010 Inclure les sous dossiers Fichiers ADARTERRIS 1K010 001 ds JOCAPSE B5B M2xism 1OCAVIT 2V002 00 1 ads AUCAVAC BTOOT D1 Nouveau ais 10CAVAC8T001 D1 sds 10COREA FC BLEAU OD ds AOCOREA FC BLEAV D01 ds TUDUONCOHP_ 024S ADDHONCOINS DIAN Ms 1 s 1 TONVNTESTS O1 as 8 AUTRES FEUILLES D autres feuilles sont votre disposition Fiche de d claration Plan d acc s Fiche de visite Fiche de suivie Expertise Ensilage Vendange Rapport personnalis vierge
191. ont appari s e la diff rence est distribu e selon une loi normale ce qui constitue une condition moins restrictive que la normalit des deux populations d origine e les donn es sont quantitatives 1 Comparaison de 2 moyennes Es Donn es Options Sorties Mise en fome Echantillon 1 N Burger x Echantillon 2 CC a Types d chantillons Types d entr e ind pendants par chantillon appari s regroup SHAG e Camus ok gt Par chantillon Regroup es si les chantillons figurent dans des colonnes diff rentes s lectionnez les chantillons 1 et 2 la taille des colonnes pouvant tre diff rente Si les donn es sont regroup es la variable des donn es correspond une colonne de valeurs l appartenance aux chantillons tant indiqu e par un descripteur d chantillon Pour des donn es par chantillon Echantillon 1 s lectionnez la variable correspondant au premier chantillon Les valeurs manquantes ne sont pas autoris es Echantillon 2 s lectionnez la variable correspondant au deuxi me chantillon Les valeurs manquantes ne sont pas autoris es Pour des donn es regroup es Donn es dans le cas des donn es regroup es s lectionnez la variable correspondant aux valeurs des deux chantillons Les valeurs manquantes ne sont pas autoris es gt Descripteur d chantillon dans le cas des donn es regroup es s lectionnez la variabl
192. option Vertical Coloration cochez cette option pour associer chacune des modalit s des variables explicatives une couleur pour faciliter la lecture de l arbre Une fois la proc dure termin e une boite de dialogue appara t proposant plusieurs fonctions afin d optimiser la structure ou l affichage de l arbre Ce sont E Modification de l arbre C Supprimer la s paration Imposer une variable Afficher les observations C Actualiser le tableau de synth se Vue imprimable v v Supprimer la s paration Cette option sert enlever une branche de votre arbre Si une branche ne vous para t pas pertinente vous pouvez l enlever pour n imprimer que la partie int ressante de l arbre S lectionnez pr alablement le n ud supprimer Ajouter un niveau cette option sert ajouter une branche dans l arbre afin de d velopper l arbre selon une nouvelle variable Imposer une variable Cette option est tr s utile pour d velopper l arbre en fonction de vos pr f rences Supposons qu au niveau d un n ud le logiciel a trouv que la variable A est la plus pertinente pour s parer la population du n ud En utilisant sur ce n ud l option imposer une variable StatBox affiche la liste de toutes les variables possibles en ordre d croissant de pertinence Si A obtient un Khi deux de 12 et que la variable D arrive en second avec un Khi deux de 10 5 on peut dire que cette seconde variable joue galement un r le i
193. ore des observations 7 Distances de Mahalanobis F Approximation du khi F7 Approximation du F de Fisher F Test de Kullback W Test du Lambda de Wilks SHAG7Se Camer C ox gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Description des groupes affiche des statistiques de base sur les groupes tudi s fr quence moyenne et cart type Matrice d inertie inter groupe affiche la matrice d inertie inter groupe Matrice d inertie intra groupe affiche les matrices d inertie intra groupe inertie intra groupe commune affiche la matrice d inertie intr groupe commune Matrices d inertie totale affiche la matrice d inertie totale Distance de Mahalanobis affiche la table des distances de Mahalanobis qui permet de mesurer la distance entre les classes en tenant compte de la structure de covariance Approximation du Khi effectue une approximation du Khi Approximation du F de Fisher effectue une approximation du F de Fisher Test de Kullback affiche un test de Kullback ce test permet de tester l hypoth se d galit des matrices de covariance intra classe gt Test du Lambda de Wilks affiche un test du Lambda de Wilks qui permet de tester l hypoth se d galit des vecteurs moyens des diff rentes classes gt Fonctions de classements affecte chaque observation la classe pour laquelle la fonction de classement est la
194. orr lation de Pearson en une dissimilarit varian dans l intervalle 0 1 soit r gt 1 r 2 Dissimilarit de Spearman transformation de la corr lation de Spearman en une dissimilarit variant dans l intervalle 0 1 soit rS gt 1 rS 2 Dissimilarit de Kendall transformation de la corr lation de Spearman en une dissimilarit varian dans l intervalle 0 1 soit 7 gt 1 7 2 0 communs i et j Les indices pour donn es binaires sont d finis partir de a b et c ei ventuellement de d Notez que les donn es a b c et d sont simplement les effectifs du tableau de contingence 2 x 2 suivant ilj 1 0 1 a b a b 0 d c d a c b d n a b c d Les indices sont pr sent s sous la forme de similarit s S mais peuvent s exprimer tr s facilement sous la forme de dissimilarit s D en calculant D 1 S lorsque S varie dans l intervalle 0 1 et en calculant D 1 S 2 lorsque S varie dans l intervalle 1 1 Remarque les m mes relations on obtient des dendrogrammes qui ont la m me structure ou topologie Remarque les ordonnance En ndice de Jaccard a a b c R sultat dans l intervalle 0 1 Donne un poids gal aux diff rents termes et ne prend pas en consid ration les doubles 0 terme d ndice de Dice 2a 2a b c o a est divis par la moyenne arithm tique des nombres de 1 pour i et j R sultat dans l intervalle 0 1 Cons
195. os des parcelles comportent 3 chiffres le premier correspond au bloc les 2 suivants la modalit Exemple 308 gt modalit 08 du bloc 3 StatBox Prise en main de StatBox Vegetal 4 Feuille Rapport Fixe La feuille du rapport fixe est la feuille du classeur dans laquelle vous devez ajouter au fur mesure toutes les analyses statistiques que vous jugez d int r t En plus de ces r sultats le rapport fixe reprend les principales caract ristiques de l essai si vous les avez renseign s dans les diff rents onglets Les rapports perso sont des rapports qui peuvent tre transitoires et effac s si vous le souhaitez 5 Feuille Expertise La feuille Expertise va vous permettre d associer des commentaires l essai mis en place la fois sur gt la qualit du dispositif de l application de l observation de l analyse statistique gt le contexte g n ral gt le niveau d int r t de l essai Remplir la feuille expertise est essentiel tant au niveau de l appr ciation de l essai que de la tra abilit Les autres feuilles mise en place notations etc sont accessibles via le menu StatBox Vegetal Nouveau Essai smple Essai en regroupement Mise en place Suivi E D P P P P chede Plandacc s Fchedeviste Fchedesuve Epense d claration Notation D D D P D P D D Notation Notsion2 Notaton3 Notation Rendement Rendement Endege Vendeng
196. osantes neuronales les neurones de la couche cach e jouent un r le de compression des donn es ou de r duction du bruit Si on d finit un trop grand nombre de neurones dans la couche cach e en r gression ou en analyse discriminante le mod le risque d apprendre par c ur les donn es pr sent es en entr e et ne saura pas g n raliser sur un jeu de donn es inconnu Une r gle approximative consiste prendre la racine carr e du nombre de neurones en entr e Mais il faut galement prendre en compte la mani re dont les donn es ont t cod es au d part I est possible a priori de soumettre un r seau de neurones des donn es nominales ou quantitatives L exp rience montre qu une variable nominale transform e en plusieurs variables Oui Non ou en d autres termes en variables binaires disjonctives donne de meilleurs r sultats Il est dans ce cas conseill de transformer les variables num riques en classes Les variables num riques en entr e qui ont une distribution tr s grande sup rieure plus ou moins 3 cart types par rapport la moyenne donnent de moins bons r sultats Dans ce cas StatBox borne les donn es plus ou moins 3 cart types en entr e pendant la phase d apprentissage D autre part pour viter l effet des unit s de mesure StatBox r duit l amplitude des donn es l intervalle 0 et 1 L amplitude initiale est ensuite reconstitu e pour les donn es en sortie La r gression neuron
197. oyenne affiche la moyenne sur les box plots et les scattergrams Cette option n est pas disponible lorsque l option Standardisation est coch e gt Afficher le Min et le Max affiche la valeur minimum et la valeur maximum sur les box plots Cette option n est pas disponible lorsque l option Standardisation est coch e gt Standardisation cochez cette case afin de supprimer l effet des diff rences d ordre de grandeur entre les variables lors de la production des box plots et des scattergrams en divisant les valeurs de chaque variable par l cart type correspondant MATRICE DE SIMILARIT DISSIMILARIT CORR LATIONS Utilisez ce module pour calculer une matrice de similarit ou de dissimilarit pour un tableau rectangulaire en croisant les lignes ou les colonnes et tester l hypoth se d absence de structure de corr lation dans le cas d une matrice de corr lation param trique corr lation de Pearson gr ce au test de sph ricit de Bartlett Mise en uvre Onglet Donn es 1 Test de correlation EE Es Donn es Options Sorties Mise en fome Variable s disponible s Variable s analyser N Poids N Mik N Oranges N Tomatoes N Bread N Burger Libell s des lignes T iden x amp 4 amp amp Arner ox Ajouter e gt Variables analyser s lectionnez les variables dont la corr lation est tester Lorsqu il y a des valeurs m
198. par rubans de cette version d Office Dans cette version l incorporation d ic nes sur les menus et le positionnement en premier niveau des fonctions les plus importantes du logiciel facilitent galement l utilisation Les fonctions sont d sormais regroup es en 7 grands th mes repr sentant le type de rapport qu il est possible de produire On retrouve ainsi e les codages e les repr sentations graphiques e les analyses univari es e les analyses bivari es e les analyses multivari es e les tests param triques e les tests non param triques Des sous menus suppl mentaires permettent l acc s aux Outils Options et fonctions de support du logiciel Remarque certains rapports sont accessibles plusieurs endroits des menus car ils s appliquent diff rents th me Par exemple le type de rapport Statistiques descriptives se retrouve la fois dans le menu Repr sentations graphiques et dans le menu Analyses univari es Avec Office 2003 Avec Office 2007 2010 Faire 2 ant satocaor aii io gi zo segs Fnenmne gonna D saretua deecrpiwes bor pois cata TE opeens rogannes ag Andes tnardee Au desants na rh ave s Tests parar ungues L organisation du menu de l dition Agri a galement t enti rement revue La cr ation de tous les nouveaux types de plans est d sormais accessible partir du menu Nouveau Les fonct
199. par la moyenne de la variable Yv v Yv Nombre de facteurs entrez le nombre de facteurs maximal consid rer Tous calculs faits StatBox peut ventuellement afficher moins de facteurs que le nombre de facteurs demand Type d ACP dans le cas d un tableau observations variables si vous souhaitez effectuer une ACP norm e choisissez le type de corr lation param trique Pearson ou non param trique Spearman Kendall ou choisissez Covariance n pour effectuer une ACP non norm e Rotation des axes choisissez ventuellement le type de rotation des axes Varimax ou Quartimax Pour plus d information consultez l annexe consacr e aux rotations des axes Estimation des donn es manquantes par la moyenne de la variable cochez cette option pour que les donn es manquantes soient automatiquement estim es par la moyenne des variables concern es E m E Analyse en Composantes Principales ACP Donn es Variables et Observations suppl mentaires Options I R sum PI Test de spherificit PI Statistiques descriptives T Matrice des corr lations F Valeurs propres Z Vecteurs propres PI Coordonn es des variables F Cos des variables Z Contribution des variables E R sultats pour les observations SHAG S amp Annuler x gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es v vy vY po
200. param tres Winters Holt gt R sum cochez cette option pour obtenir une br ve synth se des donn es el pour le rapport des options s lectionn es gt Tableau de pr vision affiche un tableau de synth se les donn es observ es Valeurs brutes la tendance li e ses donn es brutes Tendance constat e les pr visions partir de la fin de la s rie Les pr visions incluent galement les cinq derni res p riodes connues La comparaison entre les 5 valeurs estim es nous donnent un pourcentage d erreurs Le tableau pr s colonne la tendance pr vue gt Graphique affiche une courbe de tendance associ e la pr vision gt Table des param tres de Winters Holt affiche la table de synth se des param t de Winters Holt dans le cas o vous avez laiss le logiciel estimer ces param tre Bakhvalov N 1976 M thodes num riques par Analyse Alg bre quations diff rentiel Bass J 1964 Cours de math matiques Tomes 1 et 2 Ed Masson Paris L on Louis 1983 TRAITEMENT D ALGORITHMES PAR ORDINATEUR Tome 2 Sup rieures de Techniques avanc es Cepadues Ed Toulouse Encyclopaedia Universalis 1997 Dictionnaire des math matiques Alg bre Anal Michel Paris AJUSTEMENT D UNE LOI DE PROBABILIT les 5 donn es observ es et ente galement en derni re res utilis s pour l algorithme S les Ed Mir Moscou ENSTA Ecole Nationale yse G om trie Ed Al
201. pas oublier de saisir les dates de passage et stade de la culture informations indispensables pour la bonne compr hension d un essai Afin de normaliser la saisie et minimiser les erreurs un assistant Saisie des modalit s vous est propos d s la cr ation du tableau de saisie gt la fl che double vous permet de passer d une modalit l autre gt la fl che simple vous permet de passer d une ligne l autre gt Le bouton Valider vous permet d ins rer la saisie dans la feuille StatBox Prise en main de StatBox Vegetal Assistant saisie des modalit s K 4 b gt i Passage 1 Modalit 1 Produit 1 Produit ECIN Dose Unit Fermer Valider Une fois votre saisie termin e l aide de l assistant cliquer sur fermer Une fen tre vous demandera si vous voulez actualiser le tableau de synth se R pondre oui Important une fois la saisie termin e actualisez le tableau de synth se Si vous n avez pas utilis l assistant de saisie n oubliez pas d actualiser le tableau de synth se en cliquant sur le menu StatBox Vegetal Modalit s Outils Actualisez le tableau de synth se Sous les num ros de modalit vous avez la possibilit de Nommer les modalit s Sachez dans ce cas que c est le nom qui figurera sur le plan et non pas le d tail des produits par contre les 2 apparaitrons sur le rapport Nombre de modalt s Nombre de passages Daie de
202. pes d observations chaque groupe tant repr sent sur les plans factoriels par son barycentre Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives En cas de donn es manquantes StatBox propose de supprimer les lignes correspondantes ou d estimer les valeurs manquantes par le mode de la variable cf l option Estimation des donn es manquantes gt Individu suppl mentaire partir de la ligne dans le cas d un tableau observations variables saisissez la ligne partir de laquelle d bute la zone des observations suppl mentaires ou passives Les observations passives ne participent pas aux calculs mais sont positionn s sur les plans factoriels avec les observations actives Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives StatBox propose d ignorer les lignes correspondantes ou d estimer les valeurs manquantes par la moyenne de la variable cf l option Estimation des donn es manquantes calcul e gr ce la totalit de l information disponible c est dire en tenant compte des observations suppl mentaires StatBox Analyse n variables 7 Analyse en Composantes Principales ACP Donn es Variables et Observations suppl mentaires Options Sorties Mise en fome G n ral Nombre de facteurs J Trace ew o Rotation des axes Sens z Donn es manquantes F Estimation des valeurs manquantes
203. que de premi re esp ce de Tobs Q 2n C est cette m thode qui est programm e pour d tecter les r sidus suspects dans le module analyse de variance StatBox Annexes PUISSANCE Le risque de 1 esp ce est le risque de d cider que des traitements effectivement identiques sont diff rents On peut aussi d cider que des traitements effectivement diff rents sont identiques C est le risque R de 2 me esp ce Mais votre probl me est souvent de montrer que des traitements r ellement diff rents sont bien diff rents Il vous faut alors appr cier la puissance de votre essai c est dire la probabilit que vous avez de mettre en vidence une diff rence donn e d entre des traitements C est donc la capacit de votre essai vous faire voir quelque chose Cette puissance d pend e du risque de 1 re esp ce e de la variabilit des r sultats de l cart type r siduel e de la diff rence d entre les traitements diff rence int ressante techniquement ou conomiquement mettre en vidence e du nombre de r p titions de blocs ou d essais Son calcul permet d aller plus loin dans l interpr tation des r sultats dans le cas o l effet traitement est non significatif Si la puissance est faible par exemple 20 Vous n avez pas vu de diff rences entre les traitements mais vous ne vous en tiez pas donn les moyens Vous n avez qu une chance sur 5 de voir une diff rence si elle ex
204. quo d crit est le seul qui soit valide pour effectuer des tests statistiques par exemple tester la corr lation entre deux variables Mise en uvre B Codage en rangs s A Donn es Options Sorties Mise en fome Variable s disponible s Variable s coder Nn N Age N Poids Nsp Libell s des observations No m amp A amp G 7 amp Annuler _ OK gt Variable s coder s lectionnez la ou les variables en la les pla ant dans la liste de droite le tableau comporte les observations en lignes et les variables quantitatives en colonnes Les valeurs manquantes sont autoris es et occupent le rang 0 Libell s des observations s lectionnez la variable contenant les libell s des observations si vous souhaitez cr er un tableau de rangs avec des libell s particuliers Par d faut le libell d une observation est son num ro de ligne dans le tableau Yv Codage en rengs NI lt x Denn es Options V Rang moyen pour les ex aequo Soties Mise en fome gt Rangs moyens pour les ex quo calcule un rang moyen pour les valeurs identiques afin de pouvoir utiliser les rangs pour effectuer des tests statistiques StatBox Codage Onglet Sc Codage en angs EN y Donn es Options Soes Mise en fome 7 Ajouter les nouvelles donn es T R sum 7 Nouvelle s colonne s gt Ajouter les nouvel
205. r Les autres bornes sont alors recalcul es si n cessaire Vous pouvez galement supprimer une classe particuli re en la s lectionnant dans la liste centrale et en cliquant sur Supprimer ou supprimer toutes les classes en cliquant sur Effacer La suppression d un intervalle est en fait une suppression de la borne sup rieure sauf dans le cas du dernier intervalle o il s agit de la borne inf rieure E Cod ge en dass s Donn es Classes Soies Mise enfome F Ajouter les nouvelles donn es Nom de la nouvelle colonne F Partition V Graphique F Valeurs discr tis es F Classes explicites Suaa Camer C ok gt Ajouter les nouvelles donn es ajoute la colonne des identifiants de classe la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom automatiquement gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport StatBox Codage gt Partition affiche la table de r partition des observations dans les diff rentes classes gt Graphique affiche un histogramme de fr quence des classes gt Valeurs discr tis es affiche la table d appartenance des observations aux diff rentes classes gt Classes explicites affiche la table d appartenance des observations les modalit s de la variable ordinale produite cor
206. r le de la qualit d un plan Es Options Sorties Mise en fome 7 Concomitances intra traitements F Concomitances inter traitements Concomitances intra sous blocs Afficher les tables de d nombrement 7 Plan de controle annuler SHAG7 e Concomitances intra traitements affiche les r sultats concernant les concomitances intra traitement Concomitances inter traitements affiche les r sultats concernant les concomitances inter traitements Concomitances intra sous blocs affiche les r sultats concernant les concomitances intra sous blocs Afficher les table de d nombrement affiche des tables pour chaque type de concomitance permettant de d terminer les traitements ou croisement de traitements qui ont le nombre de concomitances les plus lev s Si vous souhaitez par la suite effectuer une personnalisation manuelle du plan il sera ainsi pr f rable de modifier en priorit la localisation de ces traitements gt gt gt a StatBox Les essais en agriculture gt Plan de contr le g n re en parall le un plan colorant chaque modalit diff remment pour tudier rapidement leur r partition Dans le cas o le plan g n r ne correspondrait pas votre plan r el pr sence d un arbre zones inutilisables vous pouvez le modifier Cliquez sur Personnaliser le plan une nouvelle feuille nomm e PlanPS s ajoute au classeur reprenant dans la partie sup rieure le p
207. ractions 0 028 Flexions 0 03 Sauts Poids Tour de taille Pouls Const 205 448 40 273 52 581 Tractions 1 334 0 237 0 167 Flexions 0 145 0 032 0 028 Sauts 0 098 0 029 0 030 Vous trouverez galement le mapping des variables et des observations les composantes et les estimations R GRESSION NEURONALE Les r seaux de neurones permettent d effectuer des analyses multivari es et de compl ter un certain nombre de m thodes statistiques classiques comme e l Analyse en Composantes Principales e la R gression Multiple e l Analyse Factorielle Discriminante e la Classification Les r seaux de neurones de StatBox ont t adapt s pour tre utilis s de la m me mani re que les m thodes statistiques classiques Avec les r seaux de neurones l ajustement tant non lin aire la pr diction sera souvent meilleure que les techniques classiques La r gression neuronale va vous permettre de pr dire la valeur d une variable num rique en fonction de plusieurs autres Avec StatBox vous pouvez utiliser les m thodes neuronales et comparer les r sultats obtenus avec les m thodes statistiques d analyse des donn es L int r t des r seaux de neurones est d aller plus loin que les m thodes classiques En particulier gr ce leur algorithme de traitement non lin aire En revanche les r seaux de neurones ne fournissent pas les r sultats habituels coefficients de r gression test de significativit etc
208. repr sentation doit correspondre celle des dissimilarit s correspondantes En cas de dissimilarit s de m me rang aucune restriction n est impos e sur les distances correspondantes gt ordinal 2 mod le identique au pr c dent mais en cas de dissimilarit s de m me rang les distances correspondantes doivent tre gales StatBox Analyse n variables en uvre S Multi Dimensional Scaling MDS Donn es Options Sonies Mise en fome Variable s disponible s Variable s analyser N 434nm a N 445nm F N 465nm N 472nm s N 490nm 4 N 504nm N 537nm N 555nm N 584nm N 600nm io Matrice source Similarit Dissimilarit amp H 4 amp Amer J ok 7 5 g gt Similarit Dissimilarit choisissez la nature des donn es soit une matrice de similarit soit une matrice de dissimilarit StatBox travaille exclusivement avec des dissimilarit s de sorte qu une matrice de similarit doit n cessairement tre transform e en matrice de dissimilarit Variable s analyser saisissez les variables correspondant une matrice de proximit similarit ou dissimilarit Les donn es manquantes sont autoris es jusqu ce que la quantit d information disponible soit insuffisante Les donn es manquantes sont quivalentes de donn es dont le poids est nul gt 51 Multi Dimensional Scaling MDS Es Donn es Options Sorties Mis
209. respondent aux bornes des classes et non pas l identifiant de la classe Remarques e Lorsqu il y a des valeurs manquantes StatBox propose d ignorer les lignes concern es En cas de refus le traitement est abandonn e Si vous ne cliquez pas sur Calculer les classes l affichage du rapport est impossible e Vous pouvez obtenir un aper u de la qualit de la discr tisation en cliquant sur Aper u et ainsi afficher l histogramme r sultant du d coupage en classes Anderberg M R 1973 Cluster analysis for applications Academic Press New York Diday E J Lemaire J Pouget amp F Testu 1982 El ments d analyse de donn es Dunod Paris pp 32 40 45 46 Fisher W D 1958 On grouping for maximum homogeneity Journal of the American Statistical Association 53 789 798 Frontier S 1981 M thode statistique Masson Paris pp 42 59 REGROUPEMENT DE MODALIT S Utilisez ce module pour coder ou recoder les modalit s d une variable qualitative Le regroupement de modalit s est une forme de codage particuli re dans laquelle un m me code est affect plusieurs modalit s La proc dure de codage produit la variable recod e ainsi que le tableau de correspondance entre les anciens codes et les nouveaux F7 Regroupement de modalit s as Es Donn es Modait s Sorties Mise en fome Variable recoder TV3 7 Libell s des observations Nn x SHR
210. riables actives les variables quantitatives suppl mentaires ne constituent pas des axes d origine pour le positionnement des observations leur repr sentation sur le graphique observations variables est donc laiss e l initiative de l utilisateur Au lancement de la proc dure s lectionnez les options d affichage des mappings pour plus d information consultez l annexe Boite d affichage des graphiques et validez Exemple Exemple tir de l ouvrage de G Saporta Probabilit Analyse des donn es et statistique Editions Technip page 182 pao paa vio via pot lec rai plp pao 1 0 0 774 0 926 0 906 0 656 0 889 0 833 0 856 paa 0 774 1 0 0 604 0 904 0 333 0 673 0 959 0 771 vio 0 926 0 604 1 0 0 750 0 517 0 792 0 669 0 828 via 0 906 0 904 0 750 1 0 0 419 0 839 0 924 0 720 pot 0 656 0 333 0 517 0 419 1 0 0 603 0 410 0 554 lec 0 889 0 673 0 792 0 839 0 603 1 0 0 824 0 751 rai 0 833 0 959 0 669 0 924 0 410 0 824 1 0 0 834 plp 0 856 0 771 0 828 0 720 0 554 0 751 0 834 1 0 En gras valeurs significatives au seuil alpha 0 05 test bilat ral StatBox Analyse n variables R f rences Dillon W R amp M Goldstein 1984 Multivariate analysis Methods and applications John Wiley amp Sons New York pp 23 52 Escofier B amp J Pages 1990 Analyses factorielles simples et multiples Objectifs m thodes et interpr tation
211. roupe permettant de colorer chacune des observations selon leur appartenance tel ou tel groupe Les observations sont identifi es sur le graphique par leur libell Mise en uvre E Graphiques avec libell s lt a Es Donn es Sorties Graphiques Mise en fome Valeur horizontale N Bread mn Valeur verticale Naer E Libell des points Ten ooo gt Groupes de couleurs TV4 FA AFE C C Si atBox Repr sentations graphiques Valeur horizontale s lectionnez la variable num rique repr senter en abscisse Valeur vertical s lectionnez la variable num rique repr senter en ordonn e Libell des points s lectionnez la variable contenant les libell s des observations Groupes de couleurs s lectionnez la variable qualitative contenant le descripteur de groupe Les observations sont color es en fonction de leur appartenance telle ou telle modalit de cette variable VYYY T Graphiques avec libell s Donn es Sorties Graphiques Mise en fome 7 R sum gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport F7 Graphiques avec libell s Es Donn es Sorties Graphiques Mise en fome Titre L gende horizontale Bread L gende verticale Burger gt Titre entrez un titre pour le graphique facultatif gt L gende horizontale entrez
212. rtie du premier cas On cherche par exemple identifier le sous groupe d observations en termes d ges de cat gories sociales etc dans lequel se trouve le plus d acheteurs Ici la segmentation se fait en fonction d une variable expliquer le taux d achat Le taux de r ponse un mailing est g n ralement tr s faible Il serait utile d identifier les variables explicatives les plus importantes les plus pertinentes Parmi les variables dont on dispose est ce l ge la cat gorie sociale le type d habitat etc qui est le plus li corr l avec le taux de r ponse La segmentation par arbre de d cisions va nous permettre d identifier les diff rentes variables explicatives du taux de r ponse On pourra isoler le ou les segments dont le taux de r ponse est le plus lev On pourra galement d couvrir les segments dont le taux est le plus faible L identification de ces segments va nous permettre de r duire consid rablement les co ts de nos mailings Avec la segmentation il faut donc distinguer deux types de variables la variable que l on essaie d expliquer et les variables explicatives Une base de donn es par exemple sur des pr ts contient des informations comme l ge le salaire le type de ogement la profession le nombre d enfant etc On dispose galement d un champ indiquant si le remboursement du cr dit a t effectu avec succ s ou non En fonction des informations disponibles il s agit de savoir qu
213. rtition courante puis affecte chaque observation au barycentre le plus proche afin de former une nouvelle partition dont l inertie intra classe est plus faible que la pr c dente La variante utilis e par StatBox garantit qu aucune classe ne peut se vider compl tement de ses observations Cette m thode ne garantit pas que la solution obtenue la convergence soit la solution optimale c est dire la meilleure solution parmi toutes les solutions possibles En ce sens cet algorithme doit tre vu comme une heuristique permettant seulement d obtenir une bonne solution la r solution exacte du probl me d optimisation combinatoire sous jacent n tant g n ralement pas envisageable sauf pour de tr s petits jeux de donn es La meilleure strat gie pour obtenir une tr s bonne solution en un temps de calcul raisonnable consiste ex cuter l algorithme des nu es dynamiques partir de plusieurs partitions initiales diff rentes puis de conserver la meilleure partition finale parmi toutes celles obtenues Lorsque plusieurs r p titions de la m thode sont effectu es partir de partitions initiales diff rentes StatBox identifie les formes fortes c est dire les groupes d observations qui ont toujours t class s ensemble Les formes fortes repr sentent des groupes stables qui correspondent l intersection de toutes les partitions consid r es Les observations qui n appartiennent aucune forme forte sont affect s tant t une c
214. s ajouter au nouveau classeur s lectionnez parmi les feuilles disponibles les feuilles qui constitueront la synth se StatBox Introduction Enregistrer le nouveau classeur sous cochez cette option pour que le classeur g n r soit enregistr automatiquement l emplacement et avec le nom que sp cifierez Validez en cliquant sur OK OPTIONS Pour acc der aux options du logiciel cliquez sur Options la boite suivante apparait Onglet G n ral Options ES G n ral Rapports Graphiques Agricuture Profils Profil actuel Defaut x G rerles profils Langue Tests Donn es Seuil alpha 2 5 S lection automatique Orientation des tests Bia rl 7 S lection manuelle Rapports Nom de variables sur la premi re ligne Rapports m moriser 20 E Z Modifier la base d origine 5 amp Annuler VYVVYNYY v Profil actuel s lectionnez le nomdu profil charger par d faut Langue s lectionnez la langue du profil en cours Seuil alpha entrez la valeur du risque de premi re esp ce utiliser par d faut pour les tests Orientation des tests s lectionnez l orientation par d faut des tests S lection automatique S lection manuelle s lectionnez le mode de s lection des donn es Nom de variable sur la premi re ligne cochez cette option en s lection manuelle afin d indiquer si par d faut la premi re ligne de l
215. s En particulier l affichage des dendrogrammes produits par la CAH peut s av rer assez long lorsque le nombre d observations est lev De m me que pour les tableaux prenez garde aux options qui vous sont propos es lors de l affichage En dehors des probl mes de lisibilit des graphiques vitez par exemple de repr senter 500 observations dans une ACP car le temps d affichage sera excessivement long OUTILS Plusieurs outils sont propos s afin de faciliter les aspects reporting du logiciel StatBox Introduction Reprendre un ancien rapport StatBox garde en m moire les derniers rapports donn es et param trage valides qui ont t dit s Vous pouvez relancer un de ces rapports pour v rifier modifier par exemple un param tre statistique ou d impression Cliquez sur Reprendre un ancien rapport la boite de dialogue suivante apparait 17 Chargement d un ancien rapport Es lys 7 11 2008 14 42 02 f Segmentation 27 11 2008 14 39 58 Analyse de variance 27 11 2008 14 29 17 Analyse de variance 27 11 2008 14 28 24 Analyse de variance 27 11 2008 14 27 33 Analyse de variance 27 11 2008 14 26 11 R gression neuronale 27 11 2008 14 22 07 R gression PLS 27 11 2008 14 17 07 El R gression PLS 27 11 2008 14 15 57 R gression logistique 27 11 2008 14 11 40 R gression multiple 27 11 2008 14 00 55 Analyse de variance 27 11 2008 12 05 13 Analyse d
216. s lectionn es pour le rapport gt Statistiques descriptives affiche les tables de d nombrement et de fr quence des diff rentes modalit s de chaque variable gt Diagramme en b tons affiche un histogramme de r partition des diff rentes modalit s de chaque variable gt Secteurs affiche un diagramme en secteurs de r partition des diff rentes modalit s de chaque variable gt Graphiques sur une feuille s par e affiche tous les graphiques sur une feuille ind pendante Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 28 30 39 60 151 152 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris p 115 121 ST ATISTIQUES DESCRIPTIVES Consultez le paragraphe Statistiques descriptives de la section Repr sentations graphiques HISTOGRAMMES Consultez le paragraphe Histogrammes de la section Repr sentations graphiques PR VISION COURT TERME La premi re tape consiste isoler des chiffres bruts la composante de tendance de la mani re la plus pure possible Pour cela un premier filtrage par lissage exponentiel permet de diminuer la composante al atoire il est suivi d un deuxi me filtrage par moyenne mobile qui limine les variations saisonni res La deuxi me tape est celle de la mod lisation de la tendance et
217. s rie de polyn mes mais cette d composition peut se faire en particulier sur une base int ressante des polyn mes qui sont dit orthogonaux Cette technique issue de l analyse num rique appliqu e notre probl me va assurer un ajustement permanent de a fonction mod lisant la tendance plus de type de fonction choisir plus d historique s lectionner Chaque valeur de tendance mod lis e est une combinaison lin aire des trois valeurs de tendance constat es pr c dentes les coefficients de la fonction lin aire int grant eux l ensemble de l historique StatBox Analyse sur une variable Pour re saisonnaliser la recherche de coefficients saisonniers est abandonn e En effet elle n cessite des historiques longs plusieurs p riodes dans le cas des chroniques d entreprise cela signifie plusieurs ann es car leur p riodicit est souvent annuelle Le retour aux donn es brutes s effectuera en inversant les processus de moyenne mobile et de lissage On parlera ainsi de m thode par quivalence car tout au long de l historique pass et pr vu les trois niveaux brut lissage moyenne mobile sont quivalents on passe de l un l autre dans les deux sens Le double avantage est de ne pas avoir choisir de mod le pour les coefficients saisonniers additifs multiplicatifs mixtes et de pouvoir pr voir partir d historiques courts Une optimisation du coefficient de lissage est faite cette
218. s et produire des repr sentations graphiques en analyse exploratoire des donn es FT D ptior La liste des statistiques calcul es est identiques celle produit dans le cas de la m thode Statistiques descriptives Graphiques produits e collection de nuages de points bivari s XY e graphiques Quantile Quantile ou Q Q plots e graphiques probabilit probabilit ou p p plots StatBox Repr sentations graphiques Mise en uvre Onglet Donn es F7 Nuages de points v e Es Donn es Sorties Graphiques Mise enfome Variable s disponible s Variable quantitative 4 max N Poids N Bread N Burger N Mik N Oranges Ajouter N Tomatoes Laa SHAG 7 e gt Donn es s lectionnez les variables d crire 2 minimum 4 maximum Lorsqu il y a des valeurs manquantes dans une colonne StatBox propose de les ignorer En cas de refus la bo te de dialogue est ferm e et le traitement est abandonn Poids cochez cette case si vous d sirez pond rer les donn es puis s lectionnez la variable de poids Les valeurs manquantes dans les poids sont mises z ro et conduisent par cons quent l inactivation de la ligne correspondante Yy Onglet Sorties 1 Nuages de points Es Donn es SEE Graphiques Mee enfome W R sum F Statistiques descriptives gt R sum cochez cette option pour obtenir une br
219. s groupes ne sont pas significativement diff rentes Un test est r alis par StatBox afin de vous permettre de v rifier que votre hypoth se est raisonnable Lorsque cette option est d coch e le tableau des carr s des distances de Mahalanobis entre groupe est diff rent les F de Fisher associ s et les p values ne sont pas disponibles les fonctions de classement sont diff rentes Les autres calculs sont n anmoins effectu s avec la matrice de covariance intra groupe commune gt Validation crois e cochez cette case pour calculer le taux d erreur de classement sur un chantillon test l AFD tant effectu e sur un chantillon d apprentissage et saisissez la plage de la variable binaire indicatrice 1 0 d signant les observations de l chantillon d apprentissage valeur 1 et les observations de l chantillon test valeur 0 Les valeurs manquantes ne sont pas autoris es pour la variable indicatrice Remarque le taux d erreur de classement calcul uniquement sur l chantillon d apprentissage c est dire sans validation crois e augmente automatiquement avec le nombre de variables explicatives et peut s av rer excellent si le nombre de variables est lev sans pour autant assurer que le mod le permette de pr dire correctement les groupes des observations suppl mentaires Le taux de resubstitution calcul sur les donn es d apprentissage ou taux d erreur apparent s av re donc plut t optimiste puisqu il sous esti
220. s longs des variables lorsque ceux ci sont disponibles Tableau de contingence de Burt affiche la table de contingence de Burt valeurs propres le de variance expliqu e et le graphique correspondant Le nombre de valeurs propres est gal au nombre de valeurs propres non nulles StatBox Analyse n variables gt Coordonn es des variables affiche la table des coordonn es des variables dans le nouvel espace de configuration gt Cos des variables affiche la table des cosinus carr s des variables L analyse des cosinus carr s permet d viter des erreurs d interpr tation dues des effets de projection gt Valeurs tests des modalit s affiche les valeurs test pour les variables gt R sultats pour les observations dans le cas d un tableau observations variables affiche les r sultats concernant les observations coordonn es cosinus carr s contributions Au lancement de la proc dure s lectionnez les options d affichage des mappings pour plus d information consultez l annexe Boite d affichage des graphiques et validez Exemple ACM sur le tableau de la feuille ACM du classeur Data xls Lebart et al 1997 tableau 1 4 2 p 136 L R f rences Escofier B amp J Pages 1990 Analyses factorielles simples et multiples Objectifs m thodes et interpr tation Dunod Paris pp 47 66 Jobson J D 1992 Applied multivariate data analysis Volume Il categorical and m
221. s r sultats bruts de la r gression multiple Ce sont ces valeurs qu il faut prendre en compte si vous voulez estimer la valeur Y d une nouvelle observation Std Coef Cette colonne vous donne les r sultats sur des variables centr es et r duites de votre r gression multiple dans ce cas il n y a pas de constante t ratio et P Pour chacune des variables explicatives la valeur du t de Student permet de savoir si elles participent d une mani re significative l explication du mod le Pour des effectifs sup rieurs 60 un t de Student sup rieur 1 96 est significatif P 0 05 La colonne P donne la probabilit correspondant la valeur de t Tableau d analyse de variance permet de savoir si globalement le mod le est statistiquement significatif Si vous avez coch dans la fen tre de param trage estimation de Y vous obtiendrez les r sultats suivants Estimation PRIX PRIX estim R sidu Cook Dist Alphasud 30570 000 29616 109 953 891 0 009 audi 39990 000 36259 655 3730 345 0 573 simca 29600 000 31411 149 1811 149 0 017 citroen 28250 000 26445 751 1804 249 0 012 fiat 34900 000 37042 997 2142 997 0 014 lancia 35480 000 34972 834 507 166 0 002 peugeot 32300 000 33749 145 1449 145 0 005 renault16 32000 000 26579 957 5420 043 0 230 renault30 47700 000 44445 577 3254 423 0 600 toyota 26540 000 24650 241 1889 759 0 046 alfetta 42395 000 38270 462 4124 538 0 204 princess 33990 000 34830 418 84
222. s variable s suppl mentaire s ou passive s Les variables passives ne participent pas aux calculs mais sont positionn es sur les plans factoriels avec les variables actives Les valeurs manquantes sont cumul es avec les valeurs manquantes dans les donn es actives StatBox propose de les ignorer et dans le cas d un tableau observations variables de les estimer par le mode de la variable cf l option Estimation des donn es manquantes StatBox Analyse n variables gt Variables quantitatives suppl mentaires saisissez la les variable s Lorsqu il y a des valeurs manquantes pour une variable StatBox propose de les estimer par la moyenne de la variable cf l option Estimation des donn es manquantes sin variables quantitatives suppl on le traitement est abandonn parce que les valeurs manquantes pour les mentaires sont interdites gt Observations supp partir de la ligne saisissez la ligne partir de laquelle d butent les observations suppl mentaires ou passives Les observations passives ne participent pas aux calculs mais sont positionn s sur les plans fa avec les valeurs manquante tableau observations variab donn es manquantes cal compte des observations sul nglet Optior ctoriels avec les observations actives Les valeurs manquantes sont cumul es s dans les donn es actives StatBox propose de les ignorer et dans le cas d un les de les estimer par le mode de la var
223. satisfait e 4 pour Pas du tout satisfait Les libell s longs et les libell s des modalit s de r ponses sont plac s dans la zone commentaire de la cellule comportant le nom de la variable dans la feuille Excel La zone commentaire est accessible partir du menu Insertion d Excel en s lectionnant Commentaire Remarque Pour les variables num riques il n y a pas de libell de r ponse les valeurs saisies correspondent aux r ponses Directement dans la zone Commentaire d une feuille de donn es Placez vous sur la premi re ligne de votre feuille de calcul sur le nom de la variable S lectionnez dans le menu principal d Excel Insertion puis Commentaire Tapez d abord le libell long de la variable Validez ensuite par la touche Entr e Sur la 2 me ligne tapez 1 suivi d un point puis le libell de la premi re modalit et validez Renouvelez l op ration en incr mentant le num ro de modalit jusqu ce que vous ayez saisi tous les libell s Exemple 1 1 2 1 Ins rez obligatoirement le num ro de la modalit puis un point devant le libell Si vous avez un grand nombre de libell s ou que vous utilisez les m mes libell s pour plusieurs fichiers de donn es nous vous recommandons de les saisir dans un fichier texte L objectif est de r cup rer des libell s du fichier texte et de les placer automatiquement dans la zone commentaire de la feuille de donn es StatBox Introduction
224. ser le tirage Ordre des blocs Dehatenbas 7 V raions 5 E Fandomisaton Tame Texte Honzortai E Forme personnalis e Annuler x a a Une fois le plan g n r une feuille appel plan de contr le va se g n rer cette feuille vous permet de visualiser via des codes couleurs la bonne organisation du plan O INVEST OC Mo Insertion Mise en page Formules Do R visi Attichag StatBox Vegetal DRS Er ee pema Een cher cm Pan anava us mer HELL12 x x 1A142325 2 OPUS 0 6 x reUa MPUTPACK 06 x 214325 2 BELL 0 51 x MPUTPACK 057 x PUS 061 x xix BELL x BAS SFA 1x Ste experimenta K Modaltes lt Pian Plan de controle lt Boertie Sa e Z Pan de sise ZR ort fixe 7 Notation 2 1 Notation 1 1 NEN nn I Si le tirage al atoire ne vous convient pas vous avez toujours la possibilit soit gt de g n rer une nouvelle fois le plan en reproduisant la proc dure pr alablement d crite De cr er un plan personnalis cliquez sur le menu StatBox Vegetal Plan Personnaliser le plan Une feuille PlanPS va tre cr Vous pouvez cr er vous m me votre plan en effectuant un copier glisser en vous positionnant sur la modalit que vous voulez positionner Pour que ce plan soit bien pris en compte vous devez imp rativement actualiser le plan partir du Menu StatBox Vegetal Plan Actualiser Les num r
225. son de chanilens oppose Ps Otons Sties Mes onfome Variable s disponible s Variable s analyser oanare Can C gt Variable s analyser s lectionnez les variables correspondant un tableau avec les blocs en lignes et les traitements en colonnes Les valeurs manquantes ne sont pas autoris es Onglet Options 67 Comparaison de k chantillons appari s Es Donn es Options Sorties Mise enfome G n ral Seuil alpha 2 5 gt Seuil alpha entrez la valeur du risque de premi re esp ce du test StatBox Tests non param triques 7 Comparaison de k chantillons appari s Es Donn es Options Sores Mise en fome T R sum W Test de Friedman gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Test de Friedman effectue un test de Friedman Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 393 394 Lehmann E L amp H J M D Abrera 1975 Nonparametrics Statistical methods based on ranks Holden Day San Francisco pp 262 270 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 183 184 Siegel S 1956 Nonparametric statistics for the behavioral sciences McGraw Hill Kogakusha Tokyo Japan pp 166 173 Sokal R R amp F J Rohlf 19
226. spositif Au cours du tirage si cela est possible ces param tres seront optimis s afin de tirer le plan le plus parfai possible et la feuille de dispositif sera alors mise jour dans le cas contraire ce sont les param tres saisis par l utilisateur qui seront pris en compte StatBox Les essais en agriculture le de La qualit d un plan est notamment li e la qualit de la r partition des diff rents niveaux tudi s l int rieur de celui ci Ainsi si toutes les r p titions d un m me niveau se retrouvent c te c te on parle de concomitance il est sans doute pr f rable de r g n rer le plan StatBox propose d tablir rapidement les table de d nombrement des concomitance intra traitement r p titions d un m me niveau c te c te des concomitances inter traitements 2 niveaux sont plusieurs fois c te c te ou intra sous blocs 2 niveaux sont plusieurs fois c te c te dans les diff rents sous blocs Pour effectuer un contr le de qualit cliquez sur Contr le de qualit la boite de dialogue suivante apparait 161 Contr le de la qualit d un plan Options Sorties Mise en fome G n ral Seuils d affichage Intra 1 Inter 2 Sous bloc gt Seuils d affichage S lectionnez pour chacun des types de concomitance le seuil partir duquel les concomitances doivent tre signal es dans les r sultats 7 Cont
227. ssissssisoaisessssisonsisoa vassssisvasissadsarss asozs noni ssssoavvsissn assssiss v se Introduction Pourquoi des regroupements Mise en uvre R f rences ANNEXES rsririrrssisesnnnnssnstettesann tirnnnt nstane sean sas ste tft ennt n s npentenere sante aee ati nens tie sianen as Le risque de la premi re esp ce Graphiques de l analyse exploratoire Box plot Stem and leaf plot Q Q plot et p p plot R f rences StatBox Sommaire Similarit s dissimilarit s Donn es quantitatives Donn es binaires R f rences Bo te d affichage des graphiques Rotation des facteurs Rotation varimax Rotation quartimax R f rences P value R f rences Identification des observations pour l histogramme des r sidus agriculture D tection des valeurs anormales m thode de Grubbs Puissance Le test t de Bonferroni Le test de Dunnett La m thode des contrastes R f rences StatBox Sommaire INTRODUCTION La version 7 davantage qu une nouvelle version La version 7 de StatBox pr sente de nombreux changements par rapport la version pr c dente L utilisation de StatBox a t simplifi e et de nouvelles fonctions importantes ont t introduites La s lection des donn es est plus souple elle peut se faire la fois de mani re automatique le logiciel d termine sur la feuille active les variables d
228. st d galit des variances des populations utilisant la distribution de Fisher Cette case est automatiquement d coch e dans le cas des chantillons appari s gt Testt de Student effectue un test sur les moyennes des populations utilisant la distribution du t de Student Une seconde bo te de dialogue sp cifique permet de choisir l hypoth se test e Dagnelie P 1986 Th orie et m thodes statistiques Vol 2 Les Presses Agronomiques de Gembloux Gembloux pp 16 17 21 29 35 39 50 53 Frontier S 1981 M thode statistique Masson Paris pp 119 127 189 190 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 125 132 135 136 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 184 190 223 227 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 70 72 StatBox Tests param triques COMPARAISON DE DEUX PROPORTIONS Utilisez ce module pour comparer deux proportions oi binomial p t pJiN S Le test bilai sont les sui Dans le ca sup rieur Dans le tes L effectif n des observations qui v rifient une certaine propri t parmi un total de N observations examin s suit une le de param tres N nombre d essais et p probabilit de succ s Lorsque N est assez grand et que p n est ni trop proche
229. t une modalit de la variable expliquer La diff rence essentielle entre les deux m thodes r side dans l indice utilis khi deux d une part et impuret d autre part Les r sultats quant eux sont peu pr s semblables A noter que CART par rapport CHAID vite les s parations qui cr eraient deux populations d effectifs compl tement in gaux Par exemple 1 observation d un cot et 500 de l autre StatBox Analyse n variables 67 Segmentation ba Es Donn es Options Sortes Graphiques Mise enfome Variables disponibles Variable qualitative expliquer SPoDS Ajouter S0103 N QUESTIONNAIRE KE Sal Variables qualitatives explicatives Sas Sat S102 Sa pa SQ104 508 Sa105 508 50108 S0107 Variables quantitatives explicatives Sais aa Tan Ta pu FF E Poids SHAG7 Se Annuler x gt Variable qualitative expliquer S lectionnez la variable qualitative expliquer Si vous d sirez expliquer une variable quantitative transformez la en classes Pour cette variable expliquer le nombre de modalit s doit tre le plus petit possible L id al est 2 modalit s Si vous en avez davantage l interpr tation des n uds est plus difficile Si vous cliquez sur Utiliser les manquants la modalit vide ou espace est ajout e aux autres Cette option est int ressante lorsque les non r ponses ont une signification dans votre tude Variable s expli
230. t xml et doit tre issu d une sauvegarde effectu sur la m me m thode Sauvegarder le param trage cette fonction permet de sauvegarder le param trage en cours dans la boite de dialogue dans un fichier xml StatBox Introduction Aper u avant impression cette fonction permet de lancer l dition du rapport et de demander au logiciel d ins rer automatiquement des sauts de page la fin des sections lorsque la taille d une page d impression a t d pass e Le programme lance ensuite l aper u d Excel afin de vous permettre de juger de la qualit des sauts de page Imprimer le rapport cette fonction est presque identique la pr c dente au lieu de l aper u avant impression c est l impression elle m me qui est lanc e directement Ce choix est risqu dans le cas de tableaux de grande taille car les sauts de page risquent d tre tr s espac s Cette fonction est donc plus adapt e des rapports de taille limit e tri plat statistiques descriptives R initialiser la boite de dialogue cette fonction permet de r initialiser l ensemble du param trage en cours dans la boite de dialogue Les s lections de donn es sont ainsi vid es et les options statistiques ou de sorties reprennent leurs valeurs par d faut Aide cliquez sur ce bouton pour afficher le fichier d aide principal de l application Pour lancer la g n ration d un rapport validez en cliquant sur OK Pour annuler la g n ration
231. t res s lectionn s en fonction de leurs propri t s math matiques et de leur int r t pratique ou p dagogique Liste des similarit s dissimilarit s StatBox propose plusieurs similarit s dissimilarit s qui sont adapt es un type de donn es particulier Pour les donn es quantitatives Similarit Dissimilarit Corr lation de Pearson Distance euclidienne Corr lation de Spearman Distance du khi Corr lation de Kendall Distance de Manhattan Dissimilarit de Pearson Dissimilarit de Spearman Dissimilarit de Kendall Remarque afin de traiter diff rents types de variables quantitatives et qualitatives il est possible d utiliser une similarit dissimilarit g n rale qui traite toutes les variables au niveau alg brique le plus faible c est dire celui des variables nominales Ceci s accompagne n cessairement d une perte d information Il peut s av rer plus int ressant de discr tiser les variables quantitatives l aide du module codage en classes puis de les analyser conjointement aux variables qualitatives l aide d une analyse des correspondances multiples ACM afin d utiliser les coordonn es factorielles des observations comme nouvelles variables Liste des crit res d agr gation disponibles e La dissimilarit entre deux groupes d objets A et B peut tre calcul e selon diff rentes m thodes nomm es crit res d agr gation chaque crit re conditionnant la structure de la hi rarch
232. t bilat ral Soient F x et G x les fonctions de r partition des deux populations d o sont tir s les deux chantillons Le test bilat ral correspond au test de la diff rence entre les deux populations et les hypoth ses nulle Ho et alternative H1 sont les suivantes Ho F x G x pour tout x H F x G x pour au moins une valeur de x L objectif du test de Mann Whitney est de d terminer si les chantillons proviennent d une m me population ou de deux populations diff rentes StatBox peut r aliser un test bilat ral ou unilat ral Soient deux populations A et B dont sont pr lev s les chantillons comportant des valeurs a et b Le test bilat ral correspond au test de la diff renceentre A et B et les hypoth ses nulle Ho et alternative H1 sont les suivantes Ho P a lt b 1 2 H P a lt b 1 2 Dans le cas unilat ral il faut distinguer le test unilat ral gauche ou inf rieur et le test unilat ral droite ou sup rieur Dans le test unilat ral gauche l hypoth se alternative indique que la population A admet en g n ral des valeurs inf rieures celles de la population B Ho P a lt b lt 1 2 H P a lt b gt 1 2 Dans le test unilat ral droite l hypoth se alternative indique que la population A admet en g n ral des valeurs sup rieures celles de la population B Ho P a lt b gt 1 2 H P a lt b lt 1 2 Ce test a t d velopp en consid rant q
233. t d un test de khi partiel dit khi par case Le khi par case est un test du khi calcul sur un tableau quatre cases une case correspondant une case i j du tableau de contingence originel les autres cases correspondants aux effectifs pour la ligne moins la case i j pour la colonne j moins la case ij et pour le reste du tableau Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 724 743 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 92 95 TABLEAUX DE MOYENNES Utilisez ce module pour calculer des statistiques descriptives sur un ensemble de variables quantitatives en les croisant avec les modalit s d une variable StatBox Analyse deux variables qualitative Mise en uvre Onglet Donn es Tableau de moyennes D Es Donn es Sorties Graphiques Mise enfome Variable s disponible s Variable qualitative T iden g TV4 N Poids N Oranges Variable s quantitative s N Tomatoes i TW N Bread N Burger Ajouter N Mk e gt Variable qualitative s lectionnez la variable dont les modalit s permettront de distinguer les sous groupes des variables quantitatives gt Variable s quantitative s s lectionnez les variables quantitatives t
234. t donc arr ter l apprentissage ce moment l StatBox Analyse n variables Courbe d apprentissage Erreur moyenne 03 0 25 02 Erreur sur l chantillon test 0 15 wi Erreur sur l chantillon d apprentissage 0 05 o 4 6 8 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 It rations Contrairement la r gression multiple il n est pas possible de faire un test de significativit du mod le Une solution consiste diviser al atoirement l chantillon initial en deux sous chantillons On estime le mod le sur l un des sous chantillons c est la phase d apprentissage L erreur moyenne doit tre la plus petite possible La deuxi me phase consiste tester le mod le sur l autre sous chantillon Sur cet chantillon on conna t la valeur de la variable tudi e Si la valeur estim e n est pas trop diff rente de la valeur observ e le mod le est probablement op rationnel On pourra ensuite pr senter au mod le des observations ou individus dont on ne conna t pas la valeur de la variable tudi e Il est int ressant de faire d abord une analyse statistique classique et ensuite une analyse neuronale Cette premi re analyse donne un point de comparaison int ressant Le nombre de neurones de la couche cach e correspond approximativement au nombre de facteurs en analyse factorielle On introduit dans la couche cach e un nombre inf rieur de neurones En analyse en comp
235. t que variables explicatives ou en tant que variables expliquer Le mod le est le suivant e y aixi a2x2 anxn C e O y est la variable expliquer e O x1 x2 x3 xn sont les variables explicatives e O a1 a2 a3 an sont les coefficients de r gression e O Cestune constante R gression multiple Donn es Sorties Mise enfome Variable s disponible s Variable quantitative expliquer 5 N PRIX Ajouter Variables quantitatives exolicatives NCYL N PUIS Les NLON Ajouter N LAR l Nos N VITESSE Libell des observations T Obs P puua ga7F eg Amer OK ao atBox Analyse n variables gt Variable quantitative expliquer s lectionnez la variable quantitative expliquer gt Variable s quantitative s explicative s s lectionnez dans la liste celles que vous d sirez int grer dans le mod le Elles doivent tre toutes de nature num rique gt Libell des observations s lectionnez la variable contenant le libell des observations E R gression multiple ne Es Donn es Sorties Mise en fome W R sum 7 Analyse de variance F Estimation des Y T Meilleur sous ensemble de variables explicatives Amer ok gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Analyse de variance affiche la table
236. thme Plusieurs r p titions permettent d obtenir plusieurs partitions finales et de retenir la meilleure d entre elles Valeur par d faut 10 gt Estimation des valeurs manquantes par la moyenne de la variable estime automatiquement les donn es manquantes par la moyenne de la variable consid r e Si cette option n est pas coch e le logiciel vous demandera si vous d sirez effectuer cette estimation 7 Classification Kmeans Es Donn es Options Ses Mise enfome 7 R sum E Tableau de linertie T Meilleure partition VW Composition des classes Barycentres Observations centrales SHQAgr r e Aner OK gt gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Variances affiche l volution de la variance en fonction du nombre de classes Tableau de l inertie affiche la table de d composition de la variance intra classe inter class et totale Meilleure partition affiche l appartenance des diff rentes observations aux diff rentes classes sur la meilleure partition obtenue Composition des classes affiche les compositions des diff rentes classes Barycentres affiche dans un tableau les coordonn es des barycentres des classes pour les diff rentes variables Observations centrales affiche pour chaque classe les coordonn es de l objet le plus proche du barycentre de la classe Diday E 1971
237. tion Ascendante Hi rarchique CAH Donn es ptions Sorties Graphiques Mise en fome 7 Supprimer les valeurs manquantes Autres Type de proximit W Troncatures Similarit Dissimilarit Automatique amea LU Nombre de cases Crit re d agr gation Niveau Auomertaton de nete wa Donn es manquantes Standardiser H 4 amp amier ok 77 gt Similarit Dissimilarit choisissez si les valeurs calcul es partir du tableau observations variables ou les valeurs contenues dans la matrice sont des similarit s ou bien des dissimilarit s Le choix du type de mesure conditionne la liste des crit res d agr gation qui sont propos s ainsi que le traitement des donn es Standardiser dans le cas d un tableau observations variables contenant des donn es quantitatives cochez Yv VV cette case pour standardiser les variables c est dire diviser les valeurs par l cart type de la variable correspondant afin de supprimer l effet des diff rences d unit s Troncature cochez cette case pour effectuer une troncature du dendrogramme et obtenir une partition Automatique le niveau de troncature du dendrogramme et par cons quent le nombre de classes de la partition est d termin automatiquement par StatBox en fonction de la structure de l histogramme des niveaux des paliers Nombre de classes entrez le nombre de classes de la partition obtenir
238. tions comme appartenant au tableau de donn es e StatBox lit les premi res lignes pour identifier la nature des donn es texte ou num rique Si vous m langez le type de donn es StatBox ne pourra fonctionner correctement Selon les m thodes tous les types de variables ne seront pas disponibles En s lection manuelle il appartiendra l utilisateur de contr ler que la s lection de donn es contient le type de donn es attendu pour la m thode en cours Chaque variable sera identifi e dans les boites de dialogue par son nom pr c d d un code indiquant son type e T pour les variables comportant du texte e N pour les variables num riques e S pour les variables cod es Remarques e viter sur la ligne des libell s que deux variables aient le m me nom Seule la premi re sera prise en compte e Pour faire une s lection multiple appuyez sur la touche Ctrl ou la touche Majuscule Shift e Si vous d sirez changer de jeu de donn es vous pouvez changer de feuille ou effectuer des modifications sur la feuille en cours et recharger les donn es en cliquant sur R initialiser la boite de dialogue Vous perdrez cependant tout le param trage effectu StatBox Introduction StatBox contr le la nature des valeurs des donn es en fonction de la structure alg brique de la variable attendue e quantitative num rique continue e qualitative Les variables quantitatives ne peuvent pas comporter de
239. tre c t de la pente et aura du mal atteindre le fond de la vall e Graphe Graphe La pente pr sente des bosses qui peuvent bloquer la balle et l emp cher de descendre C est le cas si le taux d apprentissage est trop petit Graphe StatBox Analyse n variables Graphe Les petits bonds conduiront la balle au fond mais s ils sont trop petits et qu une bosse se pr sente la balle risque d tre bloqu e il s agit en d autres termes d un optima local Un taux d apprentissage ad quat nous permet d atteindre le fond de la vall e Graphe Graphe Le taux d apprentissage permet chaque it ration de r duire l erreur La courbe d apprentissage pr sente l erreur en fonction du nombre d it rations Nous verrons maintenant 3 courbes d apprentissage correspondant trois taux diff rents Courbe d apprentissage Erreur moyenne o a SESRRSESESSSERRESSE h rations Exemple StatBox Analyse n variables Dans ce premier exemple le taux d apprentissage est ajust correctement la valeur du taux d apprentissage est de 0 1 et le nombre maximum d it rations est de 1000 On remarque que le r seau apprend vite l erreur moyenne baisse rapidement Au dessus de 100 it rations l erreur se stabilise autour de 0 05 On a atteint la solution optimale Courbe d apprentissage Erreur moyenne 018 o16 014 042 o1 z Vu Wu 0 0
240. tributions semblables la distribution lognormale log x 1 analogue la pr c dente mais d finie pour les donn es comportant des valeurs nulles In x analogue log x mais utilisant le logarithme n p rien In x 1 analogue log x 1 mais utilisant le logarithme n p rien sqrt x racine carr e afin de rendre la variance ind pendante de la moyenne en cas de proportionnalit entre la variance et la moyenne de la variable initiale pour les distributions semblables la distribution de Poisson sqrt x 0 5 analogue la pr c dente mais pr f rer dans le cas o les valeurs sont dans l ensemble relativement faibles arcsin sqrt x angulaire ou arc sinus concernant les distributions binomiales et utilis e pour les proportions valeurs entre 0 et 1 la variable transform e tant alors asymptotiquement normale arcsin sqrt x a analogue la pr c dente mais pouvant s appliquer des pourcentages si a 100 ou directement des effectifs si a est gal l effectif total arcsinh x arc sinus hyperbolique concernant les distributions binomiales n gatives x a exponentiation la puissance a a bx transformation lin aire Tr gt 180 transformation de radians en degr s et les fonctions r ciproques respectivement 10 10 x 1 exp x exp x 1 xX 0 5 sino a sin x sinh x x 1 a x a b 180 gt TT StatBox Codage Mise en u
241. truit selon le mod le de l indice de Jaccard cet indice donne un poids deux fois plus lev aux doubles 1 terme a ndice de Sokal amp Sneath 2 a a 2b 2c R sultat dans l intervalle 0 1 Construit selon le mod le de l indice de Jaccard cet indice donne un poids deux fois plus lev aux diff rences igurant au d nominateur termes b et c indices de Jaccard Dice et Sokal amp Sneath 2 donnent la m me ordonnance c est dire les d ordre entre les observations En cons quence dans une classification ascendante hi rarchique ndice de Sokal amp Michener a d a b c d R sultat dans l intervalle 0 1 En employant cet indice on part du principe que les doubles 1 terme a et les doubles 0 terme d jouent un r le sym trique ce qui implique que les deux modalit s de la variable peuvent tre indiff remment cod es 1 ou 0 ndice de Rogers amp Tanimoto a d a 2b 2c d R sultat dans l intervalle 0 1 Construit selon le mod le de l indice de Sokal amp Michener cet indice donne aux diff rences termes b et c un poids deux fois plus important qu aux concordances termes a et d ndice de Sokal amp Sneath 1 2a 2d 2a b c 2d R sultat dans l intervalle 0 1 Construit selon le mod le de l indice de Sokal amp Michener cet indice donne aux concordances termes a et d un poids deux fois plus important qu aux diff rences termes b et c indices de S
242. tudi s compris entre 2 et 300 e Pour chacun des facteurs le libell de chaque niveau plusieurs niveaux peuvent porter le m me nom vitez de donner un num ro comme nom de niveau Afin de faciliter la saisie des libell s des niveaux de facteurs vous pouvez g n rer automatiquement des listes de niveaux avec des noms par d faut Pour cela une fois que le nombre de niveaux tudi s par facteur est renseign cliquez sur G n rer les modalit s Personnalisez ensuite les noms des niveaux La saisie des libell s de niveau doit se faire de la mani re suivante exemple 1 facteur en alpha plan Facteur 1 Vari t Niveaux 10 F1X1 __ DIAMANTA F1X2 _ ALABAMA F1X3 __TOUNDRA F1X4 AGILE F1X5 ZANZIBAR F1X6 PYTHON F1X7 SPORTA F1X8 CANYON F1X9 __GWENOLA F1X10 __CARISSIMA Vous pouvez tout moment liminer un niveau une r p tition ou un bloc pour obtenir un classeur contenant une euille de saisie r duite ce qui vous permet de r aliser des analyses sur une partie des donn es Pour cela cliquez sur Supprimer niveau bloc La boite de dialogue suivante s affiche E Suppression d un niveau r p tition Es Niveaux Plan efi Z Blocs EN Fini Boc 1 2 Fin2 Bloc 2 13 Fin3 TBioc 3 E4 Fin4 15 Fin5 E6 Fin 7 Fin7 E8 Fing Z Nouveau classeur Niveaux s lectionnez les niveaux supprimer pour chaque facteur Plan s lectionn
243. tudi s de 1 3 facteurs dans le menu Nouveau et validez Dans le nouveau classeur renseignez les informations indispensables au dispositif e Nombre de lieux d exp rimentation e Libell des facteurs et nombre de niveaux tudi s par facteur e Noms des diff rents niveaux Dans le menu regroupement cliquez sur g n rer les feuilles de saisie 2 feuilles sont alors cr es une feuille R siduelle servant l introduction des variances r siduelles des nombre de degr de libert et nombre de blocs pour chaque essai et une feuille Saisie servant l introduction des moyennes Renseignez correctement ces 2 feuilles Le fonctionnement du classeur est ensuite identique celui des autres classeurs Le d roulement des analyses est notamment semblable Si vous d sirez faire des transformations utilisez dans le menu Codage l option Transformation PHILIPPEAU G 1983 Une exploitation des principaux param tres statistiques labor s lors de l analyse des essais de vari t s de c r ales l ITCF en 1980 1981 et 1982 PUBLICATION ITCF GOUET J P PHILIPPEAU G 1986 Comment interpr ter les r sultats d une analyse de variance PUBLICATION ITCF StatBox Les essais en agriculture PRISE EN MAIN DE STATBOX VEGETAL 1 PREMIERS PARAMETRAGES Avant la premi re utilisation vous devez param trer le logiciel selon vos pr f rences Cliquez sur le menu StatBox Vegetal et sur Options Do
244. uantitatives s lectionnez les variables correspondant un observations variables ou une matrice de similarit dissimilarit gt Tableau Matrice choisissez la nature des donn es tableau observations variables ou matrice de similarit dissimilarit Dans le cas d un tableau lorsqu il y a des valeurs manquantes StatBox propose d ignorer les lignes concern es sinon StatBox indique qu il est possible d utiliser toute l information StatBox Analyse n variables tableau rectangulaire disponible pairwise deletion gr ce au Matrice de similarit dissimilarit puis la bo te de dialogue est ferm e et le traitement est abandonn Dans le cas d une matrice de similarit dissimilarit les valeurs manquantes ne sont pas autoris es Classification des lignes des colonnes dans le cas d un tableau observations variables choisissez si la matrice de similarit dissimilarit doit croiser les lignes du tableau de donn es ou bien les colonnes Libell s des observations dans le cas d un tableau observations variables saisissez la plage de la colonne de libell s qui correspondent aux lignes du tableau de donn es gt Poids dans le cas d un tableau observations variables s lectionnez la variable poids des colonnes du tableau lorsque ce sont les lignes qui sont analys es ou des lignes du tableau lorsque ce sont les colonnes qui sont analys es v v 1 Classifica
245. udier gt Poids saisissez la variable des poids des observations Lorsqu il y a des valeurs manquantes dans les poids StatBox propose d ignorer les observations concern es En cas de refus le traitement est abandonn Onglet es Tableau de moyennes M nr k r EL es T R sum 7 Statistiques descriptives gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport gt Statistiques descriptives cochez cette option pour afficher la table des statistiques descriptives pour chaque croisement entre les variables quantitatives s lectionn es et les modalit s de la variable qualitative Ongle ues Sense T S NES Donn es Sories Graphiques Mise en tome 1 Box Plots Z Afficher la moyenne Scattergrams IF Afficher le Min et le Max Bo tes Verticales E Standardisation D Boites Horizontales gt Box plots cochez cette case pour obtenir les graphiques bo te moustaches Ces graphiques ne peuvent pas tre affich s s il y a plus de 16 variables ou plus de 30 000 points gt Scattergrams affiche les nuages de points univari s Ces graphiques ne peuvent pas tre affich s s il y a plus de 24 variables ou plus de 30 000 points gt Bo tes verticales Bo tes horizontales choisissez l orientation des box plots et des scattergrams StatBox Analyse deux variables gt Afficher la m
246. ue e les deux chantillons sont des chantillons al atoires tir s de leurs populations respectives e en plus de l ind pendance au sein de chaque chantillon il y a ind pendance mutuelle entre les deux chantillons e les donn es sont au moins des donn es ordinales Remarque la statistique de Mann Whitney est reli e la statistique de Wilcoxon de sorte que le test de Wilcoxon non sign est quivalent au test de Mann Whitney StatBox Tests non param triques F1 Comparaison de 2 chantillons ind pendants Es Donn es Options Sories se enfome Echantillon 1 Nw ooo Echantillon 2 N Oranges Type d entr e par chantillon regroup es SHAG7 amp gt Par chantillon Regroup es si les chantillons figurent dans des colonnes diff rentes v vy VY v s lectionnez l option Par chantillon Si les donn es sont Regroup es la variable des donn es correspond une colonne de valeurs l appartenance aux chantillons tant indiqu e par un descripteur d chantillon Pour des donn es par chantillons Echantillon 1 s lectionnez la variable correspondant au premier chantillon Les valeurs manquantes ne sont pas autoris es Echantillon 2 s lectionnez la variable correspondant au deuxi me chantillon Les valeurs manquantes ne sont pas autoris es Pour des donn es regroup es Donn es dans le cas des d
247. ue Annuler OK Les classeurs que vous saisissez sont enregistr s par d faut sous le r pertoire s lectionn au pr alable dans Options cf PREMIERS PARAMETRAGES dans le r pertoire correspondant la culture choisie L option activer l arborescence automatique propose un classement par Ann e Classeur Culture Th me II sera ensuite plus ais de retrouver les fichiers saisis Si vous ne d sirez pas l arborescence automatique d cochez l option Important chaque dossier est constitu d un fichier Excel suffixe xls ou xism et d un fichier texte suffixe txt Veillez les conserver ensemble Important comme tout fichier Excel si vous sortez d un classeur sans l enregistrer vous perdez le fruit de votre travail De m me faites attention ne pas craser un classeur par un autre du m me nom Par la suite nous prendrons l exemple d un essai Fongicide sur bl tendre d hiver Essai phytosanitaire sur Grandes Cultures 14 Lancez un nouvel Essai depuis Excel StatBox Vegetal Nouveau 2 Choisissez le type d essai Les menus d roulants vous permettent de s lectionner rapidement la culture et le th me 3 Une fois le code protocole et le num ro d essai saisis cliquez sur G n rer le code Le code va se g n rer automatiquement Ce code devient le nom de votre fichier il vous permettra de retrouver un essai par le seul nom du classeur 4 Cliquez sur
248. ultivariate methods Springer Verlag New York pp 462 465 Lebart L A Morineau amp M Piron 1997 Statistique exploratoire multidimensionnelle 2 dition Dunod Paris pp 108 142 Saporta G 1990 Probabilit s analyse des donn es et statistique Technip Paris pp 217 239 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 150 155 ANALYSE FACTORIELLE DISCRIMINANTE AFD Utilisez l analyse factorielle discriminante pour classer de nouvelles observations d crites par plusieurs variables quantitatives connaissant un chantillon d observations d crits par les m mes variables dont les groupes sont connus et pour analyser la fa on dont les variables descriptives contribuent la constitution des diff rents groupes Remarque l analyse factorielle discriminante est troitement li e l analyse de variance multivari e MANOVA StatBox Analyse n variables L analyse factorielle discriminante AFD est une m thode permettant de mod liser l appartenance un groupe d observations en fonction des valeurs prises par plusieurs variables puis de d terminer le groupe le plus probable pour une observation connaissant uniquement les valeurs des variables qui le caract risent Dans StatBox les variables qui d crivent les observations sont forc ment des variables quantitatives les groupes tant sp cifi s par une variable qualitative
249. ur D 1 variable TV4 2variables T7 X gt Effectif obtenir saisissez l effectif que vous souhaitez obtenir dans le nouvel chantillon et qui respectera les quotas gt Libell s des observations s lectionnez la variable contenant le libell des observations si vous souhaitez cr er un tableau d chantillonnage avec des libell s particuliers Par d faut le libell d une observation est son num ro de ligne dans le tableau S lectionnez le nombre de variables servant l chantillonnage et s lectionnez le nom de chaque variable Onglet Options E Echantilonnage par quotas SE Es va Quotes 1 4 cs DLo2 25 Du03 3 DL 3 Saisissez pour chacune des variables servant l chantilonnage les structures atteindre pour chacune des modalit s en veillant ce que la somme des quotas pour une variable atteigne 100 Par exemple 50 d hommes et 50 de femmes StatBox Codage E Echantillonnage par quotas Es Donn es Options Sorties Mise en fome 7 Ajouter les nouvelles donn es Nom de la nouvelle colonne T R sum 7 Descripteur d chantllon E Base chantillonn e gt Ajouter les nouvelles donn es ajoute la colonne d chantillonnage la base d origine Vous pouvez donner un nom particulier la nouvelle colonne ou laisser le logiciel d terminer le nouveau nom aut
250. ur le rapport Test de sph cificit affiche un test de Bartlett Ce test permet de v rifier l hypoth se selon laquelle les variables ne sont pas corr l es Statistiques descriptives affiche pour chaque variable s lectionn e active ou passive des statistiques descriptives simples moyenne et cart type Matrice des corr lations affiche la matrice de corr lation ou de covariance Valeurs propres affiche les valeurs propres le de variance expliqu e et le graphique correspondant Le nombre de valeurs propres est gal au nombre de valeurs propres non nulles Vecteurs propres affiche la table des vecteurs propres Coordonn es des variables affiche la table des coordonn es des variables dans le nouvel espace de configuration StatBox Analyse n variables gt Cos des variables affiche la table des cosinus carr s des variables L analyse des cosinus carr s permet d viter des erreurs d interpr tation dues des effets de projection gt Contribution des variables affiche la table des contributions des variables Les contributions sont une aide l interpr tation les variables ayant le plus influenc la construction des axes sont celles dont les contributions sont les plus lev es gt R sultats pour les observations dans le cas d un tableau observations variables affiche les r sultats concernant les observations coordonn es cosinus carr s contributions Remarques contrairement aux va
251. ux Gembloux pp 61 72 Manoukian E B 1986 Guide de statistique appliqu e Hermann Paris pp 19 68 Sokal R R amp F J Rohlf 1995 Biometry The principles and practice of statistics in biological research Third edition Freeman New York pp 686 724 Tomassone R C Dervin amp J P Masson 1993 Biom trie Mod lisation de ph nom nes biologiques Masson Paris pp 90 97 StatBox Analyse sur une variable ANALYSE DEUX VARIABLES DEUX VARIABLES QUALITATIVES TRIS CROIS S Utilisez ce module pour calculer le tableau de contingence ou tableau crois pour deux ensembles de variables qualitatives ainsi que des tableaux d riv s et tester l association entre les lignes et les colonnes Mise en uvre Onglet Donn es S Tableaux crois s pa peg T a Es Donn es Options Sorties Mise enfome Variable s disponible s Variable s en ligne Nn TV N Poids TV4 Tve Ajouter TV T Sexe l Lad N Age Nsp Variable s en colonne TV Tve Ajouter Ta L e 7 Poids N Poids lt SHAG7 Se DE gt Variable s en lignes s lectionnez les variables qualitatives dont les modalit s vont constituer les lignes du tableau de contingence Variable s en colonnes s lectionnez les variables qualitatives dont les modalit s vont constituer les colonnes du tableau de contingence Lorsqu il y a des valeurs manquantes StatBox propose de les ignorer lors
252. variance des deux lignes ou des deux colonnes compar es standardis es par les variances ou ce qui revient au m me covariance calcul e sur les donn es centr es r duites R sultat dans l intervalle 1 1 e Corr lation de Spearman coefficient de corr lation non param trique strictement quivalent au coefficient de corr lation de Pearson calcul sur les rangs des valeurs R sultat dans l intervalle 1 41 e Corr lation de Kendall coefficient de corr lation non param trique c est dire calcul sur les rangs des valeurs R sultat dans l intervalle 1 1 Remarque Les coefficients de corr lation ont t cr s avec l intention de mesurer la ressemblance entre variables Pour valuer la ressemblance entre observations ils devraient tre employ s avec circonspection e Distance euclidienne m trique de l espace euclidien espace de la g om trie classique La distance euclidienne vaut 0 pour deux lignes ou deux colonnes identiques mais elle ne poss de pas de borne sup rieure La distance euclidienne augmente mesure que s accro t le nombre de variables et sa valeur d pend galement de l chelle de chacune des variables de sorte qu en changeant simplement leur chelle on peut obtenir des r sultats tr s diff rents Ce probl me peut tre vit en standardisant les variables e Distance du khi Pour pallier les inconv nients li s l utilisation de la distance euclidienne il est
253. vision Les conditions de mise en uvre de ces m thodes sont e le court terme jusqu un an maximum e une quantit d informations disponibles d au moins une p riode et demi deux p riodes e La pr cision souhait e pour la pr vision ne devant pas tre inf rieure 1 ou 2 une part d al as dans le ph nom ne non pr dominante StatBox Analyse sur une variable Ces m thodes par extrapolation consistent d gager dans la s rie elle m me un certain nombre de composantes que l on peut prolonger dans le futur en faisant l hypoth se que leur comportement pass se poursuivra jusqu un certain horizon Logique de l approche Avantages Inconv nients M thodes par Bas e sur l analyse des Longueur de l historique d compostion comporti RATE Stabilit des lois d volution Holt Winters et Holt sur plusieurs p riodes M thode de Box et Bas e sur l analyse des Complexe mettre en Jenkins al as et leur auto oeuvre corr lation N cessite plus de 50 observations La m thode par Bas e sur l analyse de la Pas de choix de La qualit de la pr vision quivalence tendance tendance repose sur la seule qualit 5 de la d termination de la Pas de choix des tendance coefficients saisonniers Historiques courts S adapte aux ruptures de tendance Un mod le efficace consiste poser qu une volution est le fruit de trois composantes d importance tr s variable selon les cas e la tendance l axe profo
254. vos traitements jouent le m me r le StatBox Annexes LE TEST DE DUNNETT Dans ce test de comparaison de moyennes tout traitement dont l cart au x t moin s est sup rieur au plus petit cart significatif p p e s est d clar sup rieur inf rieur au x t moin s L utilisation de ce test suppose donc la pr sence de t moin s Un t moin peut tre par exemple e une parcelle non trait e dans un essai de produits phytosanitaires e un traitement de r f rence produit de r f rence dans un essai de produits phytosanitaires une vari t de r f rence dans un essai vari t s La r f rence est un traitement bien connu parmi les plus utilis s en pratique LA M THODE DES CONTRASTES Cette m thode de comparaison de moyennes a pour but de vous permettre de r pondre pr cis ment aux diverses questions pos es que vous avez formul es au d part d un essai dans le protocole exp rimental Vos questions peuvent tre du genre e en moyenne les nouveaux traitements sont ils meilleurs que le t moin le traitement de r f rence e parmi les nouveaux traitements vaut il mieux appliquer une dose simple ou une dose double e lorsque l on utilise une dose double y a t il une interaction avec l esp ce L utilisation de ce test suppose donc que vous ayez des questions pr cises et qu elles soient formalis es Cette m thode permet de d composer une somme des carr s des carts factorielle du tableau d analys
255. vre Ongle 1 Transformation a Z Donn es Options Sorties Mise enfome Variable transformer Nage 7 Centrer r duire loglx pi gt 180 Centrer D logfx 1 D 10 R duire sarti 10x 1 Entre Oet 1 sarx 0 5 Entre 0 et 100 no 2 05 D Ine exp Param tres arcsin sqrtx expt 20 arcsin sart xa sinto b TA arcsinh x alsin xa sinh x a bx D x a sin x Gea b arcsinx 180 gt pi SHASG7 amp gt Variable transformer s lectionnez la variable quantitative contenant les donn es source transformer Les valeurs manquantes dans la colonne des donn es restent manquantes dans la colonne des r sultats Des valeurs manquantes sont galement produites lorsque la transformation est impossible par exemple le logarithme de valeurs n gatives S lectionnez la fonction utiliser pour transformer vo s donn es Lorsque la fonction s lectionn e n cessite un param tre un champ de saisie devient visible afin de pouvoir entrer la valeur de ce param tre Ferre CR Donn es Options Sorties Mise en fome Unit angulaire Degr s Radians Divers T Notation scientifique gt Notation scientifique cochez cette option si vous d sirez que les valeurs trop petites et trop grandes soient affich es en notation scientifique Une valeur est consid r e comme trop petite si la valeur affich e ne comporte aucune d
256. x facteurs tudi s Les facteurs peuvent comporter soit des codes 1 pour le premier niveau 2 pour le second etc ou des noms de niveaux en clairs Dans le cas de code ne commencez pas par 0 votre num rotation Ainsi si vous avez 2 niveaux ne les identifiez pas par 0 et 1 mais par 1 et 2 gt Pour ajouter une interaction il suffit de s lectionner dans la liste des facteurs s lectionn s 2 facteurs et de cliquer sur le bouton Ajouter une interaction Pour ajouter une interaction d ordre 3 il suffit de s lectionner une interaction d ordre 2 et un facteur gt Co variable s s lectionnez la les variable s num rique s explicative s vyv StatBox Analyse n variables Dptions Analyse de variance M wwe tin D Donn es Options Sorties Mise enfome G n ral Seuil alpha 5 La valeur 0 est une non r ponse Pour la variable tudi e Pour les facteurs E Pour la les co variables S HAG 7 mule _ OK gt Seuil alpha entrez la valeur du risque de premi re esp ce pour les tests de comparaison de moyenne Pour la variable tudi e cochez cette option si les observations ayant une valeur nulle pour la variable tudi e doivent tre ignor es gt Pour les facteurs cochez cette option si les observations ayant une valeur nulle pour la les facteur s doivent tre ignor es gt Pour la les co variables cochez cette option si les observatio
257. xplicatives dans leurs calculs Sur des jeux de donn es qui comportent un certain flou on peut se trouver dans cette situation d instabilit Nous avons vu que le programme calcule des tableaux de contingences ou en d autres termes des tris crois s et qu il essaie successivement de cr er un tableau plus petit ne comportant que 2 colonnes Les variables explicatives ont des modalit s disjointes On dit qu elles sont nominales ou non num riques Lorsqu on est en pr sence de variables num riques le programme va constituer automatiquement des classes effectifs gaux Le nombre de classes est d termin par l utilisateur Plus le nombre de classes est grand et plus on a de chance que le d coupage soit pertinent Mais le nombre de classes est limit par la taille du tableau analyser Les classes obtenues sont ordonn es StatBox donne la possibilit de garder cet ordre dans les regroupements de ces classes Par exemple les classes d ges extr mes jeunes et vieux ne peuvent pas tre regroup es ensemble Cette conservation de l ordre est g n ralement utile pour les classes des variables num riques Dans certains cas il est int ressant de pouvoir consid rer les classes d ge par exemple comme non ordonn es Dans le domaine des loisirs on remarque StatBox Analyse n variables que les classes extr mes les plus jeunes et les plus de 55 ans ont un comportement similaire parce qu ils disposent de plus de temps
258. z bien les propri t s de l espace des donn es Lien fort ce crit re fait intervenir la fois la moyenne des distances l int rieur de chaque groupe et la moyenne des distances entre les groupes Son utilisation conduit la formation de classes tr s compactes Augmentation de l inertie Ward on agr ge deux groupes de sorte que l augmentation de l inertie intraclasse soit la plus petite possible afin que les classes restent homog nes Ce crit re propos notamment par Ward 1963 ne peut s utiliser que dans le cas des distances quadratiques c est dire ici dans le cas de la distance euclidienne et de la distance du khi2 Remarque par d faut StatBox propose d utiliser le crit re d agr gation de l augmentation d inertie pour les distances quadratiques distances euclidienne et du Kh et le crit re du lien moyen dans tous les autres cas Le choix d un autre crit re doit s effectuer en connaissance de cause F Classification Ascendante Hi rarchique CAH Donn es Options Sorties Graphiques Mise en fome N Abuquerque N Atlanta N Columbus N Los Angeles N Minneapolis N Montgomery N Sat Lake N Scranton N Washington N Wichta Variables disponibles Variables quantitatives CL Donn es en entr e Classification des lignes des colonne Matrice carr corr lation HAS 7 S amp Libell s des observations Came 2x 7 gt Variables q
259. z la variable des poids Les valeurs manquantes dans les poids sont mises z ro et conduisent par cons quent l inactivation de la ligne correspondante StatBox Repr sentations graphiques E Statistiques descriptives Box plots scattergram Es Donn es Sorties Graphiques Mise en fome PA R sum I Statistiques descriptives gt R sum cochez cette option pour obtenir une br ve synth se des donn es et des options s lectionn es pour le rapport Statistiques descriptives cochez cette option pour afficher la table des statistiques descriptives pour chacune des variables s lectionn es F7 Statistiques descriptives Box plots scattergram Es PO LEE er 7 Box Plots I Afficher la moyenne E Scattergrams Z Afficher le Min et le Max Stem and leaf plots E Standardisation Bo tes Horizontales v Boites Verticales Box plots cochez cette case pour obtenir les graphiques bo te moustaches Ces graphiques ne peuvent pas tre affich s s il y a plus de 16 variables ou plus de 30 000 points Scattergrams cochez cette case pour obtenir les nuages de points univari s Ces graphiques ne peuvent pas tre affich s s il y a plus de 24 variables ou plus de 30 000 points Stem and leaf plots cochez cette case pour obtenir les diagrammes tige et feuille Ce graphique ne peut pas tre produit lorsqu une variable poids est s lectionn Bo tes vertical
Download Pdf Manuals
Related Search
Related Contents
Targus USB 3.0 SuperSpeed Sharp NV4 User's Manual Instructor Users – PlacementPro User`s Manual Pressurized Solar Water Heater Copyright © All rights reserved.
Failed to retrieve file