Home
INFORMATIQUE ET RECHERCHE HISTORIQUE
Contents
1.
2. 11 6 2014 41416 2 9 2074 A0054 3 15 315 42129 41 31 297 A2217 5 33 479 A2329 6 36 901 42374 7 43 028 A0634 8 56 079 A0129 9 64 326 A4877 101 220 22 A0708 Il 11 4 CLASSE 3 8 EFFECTIF 650 IRG DISTANCE IDENT RG DISTANCE IDENT RG DISTANCE IDENT 1 0 88008E 01 A2730 21 0 88008 01 41289 31 0 88008 01 40929 410 88008 01 5585 5 0 88008 01 41355 610 12138 41617 7 0 12138 44133 810 12138 44127 910 12138 A3227 10 0 12138 44175 p p ad 4 4 CLASSE 4 8 41 IRG DISTANCE IDENT RG DISTANCE IDENT RG DISTANCE IDENT 4 110 64074 A2781 2 1 2471 A0293 3 1 2471 A2011 4 1 4434 A3760 5 1 9289 A1884 6 1 9289 A2009 7 2 1083 A5509 8 2 2739 A4020 9 2 2955 A2131 10 2 6075 A5525 I T 4 CLASSE 5 8 EFFECTIF 46 IRG DISTANCE IDENT RG DISTANCE IDENT RG DISTANCE IDENT
3. 4 4 11 5 2738 A2889 2 5 3869 44068 3 5 9417 A4902 41 5 9417 A4445 5 5 9518 A4247 6 6 3887 A2056 7 6 6113 44918 8 7 2601 40795 9 8 1135 44928 101 8 5917 40423 bud I CLASSE 6 8 15 EFFECTIF IRG DISTANCE IDENT RG DISTANCE RE 110 23487 44280 2 2 8125 44638 41 5 8395 44190 5 5 9400 44688 7 8 3454 41715 8 10 687 42746 101 12 053 69 1 I 4 CLASSE 7 8 EFFECTIF 23 IRG DISTANCE IDENT RG DISTANCE 4 1 3 3118 40831 2 3 3118 45391 41 3 8540 41492 5 4 2561 40995 7 6 5479 A2199 8 9 8780 824 101 14 420 1202 KE CLASSE 8 8 EFFECTIF 2 IRG DISTANCE IDENT RG DISTANCE 4 1 126 86 40921 2 126 86 41048 48 IDENT RG DISTANCE IDENT 4 31 5 2321 A3353 6 7 6560 4294 9 11 852 A2379 4 IDENT RG DISTANCE IDENT 31 3 8540 2292 6 5 1790 A3152 9 12 222 A5456 IDENT RG DISTANCE IDENT
4. ES 057 040 299 080 159 0887 I ESQ 116 007 009 014 028 345 014 149 429 074 149 956 595 156 164 520 004 266 014 062 128 012 009 447 094 845 411 324 028 158 110 017 164 103 ETE 301 001 020 002 004 045 002 004 065 014 062 128 012 28 R sultat tri du calcul limit 87 d information du tableau il s agit d un cas r el mais assez caricatural FILLES ET LEUR MERE ETAPE OBJET Ng VAR Ng SIGNE cumul 1 EEN 3 42 61 N 4 42 61 2 EHE 4 HE 5 24 01 66 62 3 8 3 6 78 73 40 4 5 SE 11 1 83 75 23 5 ECO 2 RE 10 1 79 77 02 6 EMA 7 TE 13 1 40 78 42 7 EHF 5 SQ 12 1 00 79 43 8 EEN 3 RE 10 0 99 80 42 9 9 00 9 0 96 81 37 10 EIT 6 OU 9 0 94 82 31 11 1 SE 11 0 94 83 25 x 12 ESE 11 SE 11 0 84 84 10 13 FHF 5 IT 7 0 84 84 94 11 0 74 4 85 68 14 7 S 15 4 OU 9 0 69 86 37 10 0 59 86 96 16 EOU 9 R 29 ETAPES DE LA CARTOGRAPHIE Exemple de la cartographie des effectifs pr sents aux adresses ant rieures du moment post rieures pour le groupe IX des 3502 personnes dit des familles tranquilles 1 Etapel
5. M O GA O N Oo h h 3 3 1 2 1 2 1 1 1 5 2 1 0 3 1 0 4 2 1 2 21 A partir du champ NUM unique de l enfant dont la m re est servante on pointe sur la liste de filiation pour obtenir tous les NUM de parents diff rents HM ENFANT Total de NUM PARENT HM ENFANT HIM PARENT AI EXP SERV MERES LISTE PRTS EFTS V Regroupement 4 M HM Recherche des variantes professionnelles des m res servantes au moins une fois jointure entre la liste de filiation et deux copies de la base principale si A1 EXPLOITATION Requ te S lection PROFESSION NUM ENFANT NUM PARENT 5 PS LISTE PRTS EFTS V LISTE PRTS EFTS V LISTE PRTS EFTS V PS Regroupement Regroupement Regroupement Croissant Regroupement Regroupement 22 3 Liste des professions des enfants et des parents NUM_ENFANT NUM_PARENT P5 PATRONYME P5 PROFESSION NUM P5_1 PATRONYME SEXE P5_1 PROFESSION 101 5899 BEYERLE SERVANTE 5899 BEYERLE F SERVANTE 101 5899 BEYERLE SERVANTE 5899 BEYERLE F SERVANTE 146 2852 BARTHELEMY 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY COUTURIERE 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY COUTURIERE 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY COUTU
6. 5 P5 PROFESSION d SERVANTE 5899 F SERVANTE 1 01 SERVANTE 5899 F SERVANTE 1 46 F COUTURIERE 2852 F 1 46 COUTURIERE 2852 F FILLE PUBLIQUE d 46 F COUTURIERE 2852 F OUVRIERE 1 46 F COUTURIERE 2852 F SERVANTE 1 146 F 2852 F d 46F FM 2852F FILLE PUBLIQUE 1 46 2852 F OUVRIERE d 46 F 2852 F SERVANTE 1 46 F FM COUTURIERE 2852 F 1 46 F COUTURIERE 2852 F FILLE PUBLIQUE 1 46 F COUTURIERE 2852 F OUVRIERE 1 46 F FM COUTURIERE 2852 F SERVANTE 1 46 JOURNALI RE 2852 F 1 46 F FM JOURNALIERE 2852 F FILLE PUBLIQUE 1 46 F FM JOURNALIERE 2852F OUVRIERE 1 46 JOURNALIERE 2852F SERVANTE 46 OUVRIERE AUX TABACS 2852 F 1 46 F OUVRIERE AUX TABACS 2852 F FILLE PUBLIQUE 1 46 F OUVRIERE AUX TABACS 2852F OUVRIERE d 46F FM OUVRIERE AUX TABACS 2852F SERVANTE 1 596 F SERVANTE 561F SERVANTE 1 650 F 632 F 1 650 F 632 COUTURIERE 20 Exploitation de cette sous base limination des doublons des enfants par tri crois des champs NUM enfant x SEXE NUM_ENFANT Total de NUM F M 4625 2387 3030 4302 4570 6135 5538 6057 6104 2 596 1089 1117 1 1778 5899 5564 1 5566 4787 5565 101 4738 5413 650 5721 5226 3546 146 D oS gt CO N N sN M me op ration pour avoir la liste des NUM des parents croisement du NUM et du code professionnel NUM_PARENT Total de NUM
7. C est ce tableau final qui est trait voir en page 4 ci dessous Le tableau des donn es est trait par analyse en composantes principales norm e et classification hi rarchique Les r sultats de l analyse factorielle P Ludovic Lebart Alain Morineau Marie Piron Statistique exploratoire multidimensionnelle Dunod 1995 37 norm e sont tout comparables ceux d une analyse correspondances La classification hi rarchique utilise la caract risation des d individus caract ris s par leurs premi res coordonn es factorielles Etude des groupes complets moyennes et cart types pour chaque variable Etude et analyse graphique comparative des parangons 16 Dans l analyse norm e chaque colonne du tableau x est trait e de la fa on suivante on commence par calculer la moyenne xb et l cart type sigma de chaque colonne variable j et pour chaque xi on calcule ensuite xj xij xbj cart type 38 z P5_Analyse crois e Requ te Analyse crois e LETTRE EEE PIE ee TEE EES NE N VOL Total de VOL ps 85 O En t te de ligne En t te de colonne En t te de ligne 2 La requ te de tri crois d Access personnes x code professionnels 632 32 3 7 1 5 16 518 30 1 16 3 10 167 28 10 4 6 A A 2425 28 8 2 18 554 26 3 18 1 3 1 640 26 1 7 2 16 708 23 3 4 10 6 2048 2
8. une quipe de recherche tenant des s minaires r guliers une association nationale ou internationale le soutien de techniciens voire d ing nieurs informatiques sont n cessaires Il est indispensable qu il y ait des lieux o les questions techniques puissent tre pos es et ne pas faire croire que le chercheur est m me de r soudre toutes ces questions Malheureusement l volution r cente vers la micro informatique a laiss dans de nombreux cas le chercheur seul face son ordinateur individuel alors m me que progr s mat riels et logiciels aidant les exigences de production sont de plus en plus lev es Il faut tre conscient que cette situation est difficile assumer 16 II Proc dures statistiques et cartographiques A EXPLOITATION DE LA BASE DE DONNEES DES DECLARATIONS EXEMPLE DE PROCEDURE COMPLEXE ETUDE DES RELATIONS PARENTS ENFANTS 1 La source des donn es Deux bases de donn es sont utilis es dans cet exemple de traitement la base source des 13844 d clarations et une base annexe la base des filiations liste des associations parents enfants 5 base de donn es source des 13844 d clarations Liste parents enfants sous base des filiations 5 Structure de la base de donn es source Le champ NUM d signe l identificateur unique de l individu tudi Le lien de parent de ce dernier LIEN PAR le caract rise et NUM PAR pointe vers le parent identifi Tous les champs ne sont pas r
9. IT MAMEMI OU PE PJ RE SE SQ SV z A0640 26 1 7 2 16 4 A0708 23 3 4 10 6 4 A3740 21 5 4 5 7 A4609 17 4 3 8 2 A1317 16 3 1 9 3 A2181 15 6 1 5 3 4 Tableau du nombre de changements de codes professionnels 953 personnes x 32 code prof avec donn es manquantes 41 Variations professionnelles plan des facteurs 1612 6 et 5 7 de la variance Facteur 2 0 0015 F B 1 TM ET PJ A MI AT H DI _ CP A q 54 EE al EM 0 0015 F i 1 IT AUTRES 0 0030 Le H 4 OU i 0 0045 F i 1 N_CHGTS 1 0 0 002 0 004 0 006 Facteur 1 La variance prise en compte par ce premier plan est faible moins de 12 On remarque n anmoins l opposition forte entre les pr caires SE SQ SE OU et les autres AC SV tant orthogonaux aux premi res variables 42 Variations professionnelles plan des facteurs 2 et 3 6 et 4 4 de la variance Facteur 3 0 030 i 4 _ 4 16 i i 0 015 1 N_CHGTS TR i DI d V TE ERE HF c A 4 RE e HE gt 8 EG ME EM i PJ OU i SE 0 015 AUTRES 4 ET I EN 0 030 i 1 0 030 0 015 0 0 015 Facteur 2 Dans le deux
10. dans la phase plus r cente pour les conversions de format de fichiers et pour mettre en uvre la m thode des carts l ind pendance de Michel Volle Nous avons d autre part utilis le langage quatri me g n ration gt de Dbase ainsi que Turbo Pascal dans ses versions 4 7 et Maple V 4 pour publier la m thode Volle 3 Logiciels d analyse des donn es Dans la phase la plus ancienne de la recherche il existait tr s peu de logiciel de ce type ou des produits tr s lourds disponibles uniquement sur gros syst mes SAS SPCS nous avions donc t amen s r diger TURBO SESAM sous Pascal Ce logiciel a encore servi pour la phase la plus r cente de l tude du corpus puis nous l avons progressivement remplac par des produits sous Windows Stat Lab de Michel Jambu versions 2 et 2 1a ce produit semble ne plus exister et http www maplesoft com s agit des m thodes d analyse multidimensionnelles connues sous le nom d analyse factorielle et d analyse hi rarchique trouvera des l ments essentiels sur ce type de d marche dans l ouvrage d un maitre frangais J P Benz cri L analyse des donn es gt t I lt la taxinomie gt t IL lt l analyse des correspondances gt Dunod Paris 615 et 619 p 1978 Thierry Hatt lt SESAM syst me d tude spatiales et d analyses multidimensionnelles manuel d utilisation gt INRDP SIE 69 p 1977 lt Sesam manuel d u
11. i 1 nli j l 14 Thierry Hatt Sesam Syst me d Etudes Spatiales et d Analyse Multidimensionnelle CNDP 1982 23 On calcule le total g n ral du tableau ncol nli tg 2 L 13 J 1 i 1 On calcule ensuite les fr quences marginales et les fr quences du tableau en divisant tous les l ments par le total g n ral Z f i 1 nli Per ie 7 1 ncol i gt Ai j a 1 Les marges du tableau fc et fl apportent elles seules une certaine information sur la population tudi e Il est vident que le tableau complet en apporte davantage Connaissant les marges du tableau on peut construire un tableau fictif produit des marges prod o lignes et colonnes sont proportionnelles entre elles caract res ind pendants prod 3 ect Reeg m thode propose de comparer le tableau r el des fr quences avec le tableau fictif produit des marges Le gain d information que l on fait en passant du tableau fictif au tableau r el est calcul ainsi lf nli ni i j 2 Z C A P 1 2 1 1 0 connaissant uniquement les marges poss de une certaine information sur le tableau en utilisant le tableau entier on gagne une quantit suppl mentaire gale Info Si alors on n a rien gagn par contre plus les fij sont diff rents des plus Info est grand L t
12. n ficie pas d un laboratoire bien quip en personnel technique et disposant des m mes logiciels se retrouve seul devant son informatique Cette difficult est aggrav e par les lacunes et d fauts des produits 3 Lacunes et d fauts des logiciels Nous ne donnerons que quelques exemples L incapacit d Excel de reconna tre les dates ant rieures 1900 Cette lacune du logiciel nous a oblig des manipulations compliqu es pour le passage d Access Excel et pour le calcul des dates Elles ont t converties en caract res non sans peine la fonction de conversion n est renseign e correctement nulle part donc fallu t tonner Les calculs sur les 12 dates devaient tous tre faits sous Access pour tre ensuite export s vers Excel pour la r alisation d histogramme ou d autres traitements Ces constants changements de type des variables de l tude ont t une source constante de probl mes d autant plus que les messages d erreur associ s sont souvent peu explicites Nous avons n anmoins pr f r cette solution au d calage de deux si cles Plus compliqu e certes elle permet d assurer des calculs plus pr cis La complexit de mise en uvre de certaines op rations Quelques exemples le calcul d histogramme avec Excel sous Word la gestion du document mattre le r f rencement des notes de bas de page ou le positionnement correct du num ro de page sous Access l ajout de lignes une ba
13. A partir du logiciel Spad d analyse des donn es recueil des identificateurs des membres du groupe IX YI7kip04 Ist l x APPARTENANCE DE CHAQUE INDIVIDU COUPURE c DE L ARBRE EN 9 CLASSES 518 1 632 2 2425 1 640 2 167 1 496 1 1317 2 554 2 2846 2 4609 2 2048 2 1226 2 1054 2 921 5 3740 2 4562 2 2458 6 1226 1 708 6 553 2 2214 2 555 2 1038 6 1 1273 6 22 5 31 2 316 2 1189 2 879 2 2334 1 4146 6 2381 2 1267 2 2181 5 4976 2 740 5 1297 6 635 5 93 1 5 1298 2 1288 1 5410 2 1274 5 164 2 2946 2 356 5 2338 5 728 5 1084 2 2374 5 2581 2 1235 5 116 5 2160 5 2370 1 532 5 1048 5 5109 5 744 5 165 6 606 5 2851 2 Identificateur et 3434 1 2847 2 2848 2 704 2 3807 590 5 146 5 4163 5 416 2 507 3 1092 5 759 5 1947 6 607 6 3510 5 classe 357 5 36 5 47 2 1096 2 2588 5 5107 1 120 2 3554 5 1780 2 617 5 3878 5 1613 6 514 2 2319 5 634 5 4592 6 1479 6 584 5 3933 5 119 5 appartenance 2240 2 1561 5 1390 5 2347 5 4139 2 5 4150 5 2996 6 2997 6 1442 2 1250 6 2008 5 1925 5 1342 5 1578 5 3891 2 6 2959 5 777 6 166 5 3184 1 808 2 2 3473 6 676 9 299 5 300 5 556 2 4100 6 521 5 266 4 8 166 6 1292 5 1596 5 4244 5 569 5 5 2373 5 1661 6 848 6 762 5 4116 6 526 5 3406 5 3405 6 338 2 2771 5 3004 6 3005 6 745 5 703 2 3591 9 4766 A 7 2 1 1461 1291 5 2 Etape 2 Nettoyag
14. JULIE F BLOCH JULIE F F BLOCH JULIE Deuxi me base de donn es structure de la sous base de filiation Ces informations ont t saisies s par ment A chaque NUM d enfant est associ un NUM de parent un ge calcul et la profession de la DI Microsoft Access LISTE PRTS EFTS V4 Table 1 Eichier Edition Affichage Insertion Outils Fen tre 2 x m s ES Num roAuto Num rique Num rique Texte Texte 18 2 La reconstitution des familles Cr ation partir de la liste de filiation et par jointure avec la base compl te d une sous base des enfants et de leurs parents le champ NUM enfant ne peut pas tre clef primaire sinon on n aurait pas tous les parents L op ration utilis e est une jointure externe gauche suivie d un regroupement pour avoir toutes les situations diff rentes et seulement celles ci Pour am liorer la pr sentation des donn es tri sur le NUM enfant 1 A1 EXPLOITATION Requ te S lection n x LISTE PRTS EFTS V4 Champ NUM ENFANT NUM PARENT AGEC PATRONYME PRENOMS SEXE LIEN PAR PROFESSION Table LISTE PRTS EFTS V LISTE PRTS EFTS V LISTE PRTS EFTS V PS PS P5 PS PS Op ration Regroupement Regroupement Regroupement Regroupement Regroupement Regroupement Regroupement Regroupement Tri Croissant Croissant Affic
15. 0047 A2338 1 A0728 1 A4146 5 A1084 A2588 1 A4116 4 A3116 1 1672 A3679 1 A0146 1 A1288 1 A1452 A0636 1 A0073 5 A2129 2 A5506 A3512 1 A3391 1 A0122 1 A3922 A1933 1 A2627 1 A2582 1 A0210 A1845 1 A2220 3 A1215 1 A2178 A3403 1 A5419 1 A4151 1 A4970 A5158 1 A5823 1 A4928 5 2425 A2458 1 A2846 1 A1947 1 1048 A1226 1 A1038 1 A2946 1 A3434 A3807 1 A1116 1 A2155 1 1297 0521 5 A4976 1 A1189 1 2221 A0507 1 A1267 3 A4877 2 A2008 A3753 1 A3327 5 A3759 4 2847 A0606 5 0675 3 A0634 2 2525 A2570 1 A3118 4 A4185 1 3574 A2809 1 A1976 1 A0558 1 A4799 A4626 1 A4139 1 A2045 1 A2041 459 0 e Uu H bech Lm 1649 A0570 A0808 A2398 A4508 4233 1416 2852 1550 1192 A3639 4314 081 1 A1859 1 0847 3 0753 4 4699 1 2298 1 0663 1 A5509 45 5 A2979 1 A1941 1 2176 3 5109 1 5230 1 4403 2 A2728 1 A0188 3 A2065 1 A2471 1 A1590 1 A4221 1 A4614 1 A4643 1 A0589 1 A0357 1 A2215 1 A0901 1 A1691 1 2140 5 A0556 3 A2277 1 A3514 1 5029 1 4019 1 2131 1 1370 3 2348 1 2379 1 4020 3 A0845 5 1158 1 1 1 1 1 1 4 S 1 6 4 1 1 6 Tableau g n ral des mo
16. 1 37 5 179 10 2027 50 20 1 4 2 3 1 31 10 0351 4 4 10 0045 marges fc j 480 1 23 2 4 50 2 4 73 16 70 144 14 883 1 0000 fr quences 0 5436 0 0011 0 0260 0 0023 0 0045 0 0566 0 0023 0 0045 0 0827 0 0181 0 0793 0 1631 0 0159 1 0000 R sultats Les marges calcul es avec le logiciel v rification avec Excel fl 378 5 8 7 72 17 7 4 167 4 179 31 4 fc 480 1 23 2 4 50 2 4 73 16 70 144 14 Le tableau des pourcentages de coni IN AL EN HE EIN 087 150 530 168 009 00 RE SE 27 tribution des cases SQ TE 002 168 009 428 285 939 018 033 ECO 006 001 026 002 004 357 002 004 081 1 794 078 160 016 EEN 005 002 041 42 605 007 089 004 007 130 991 041 256 025 EHE 007 0T16 369 032 EIT 107 004 087 008 EHE 033 002 036 003 24 013 078 003 2006 2686 025 109 224 02 2 064 178 844 015 189 00 2 8 74 036 073 1 831 1 003 224 015 941 061 062 107 053 EMA 033 002 036 003 EME 003 001 6 780 002 006 078 00 004 045 00 3 2 006 060 025 740 224 1 400 004 065 014 062 128 012 EOU 049 037 082 074 ERE 062 001 020 002 004 045 002
17. 2 1 6 4 3 8 3740 21 5 4 5 7 921 20 2 1 9 4 4 2458 18 4 3 11 1054 17 47 2846 175 8 4 4609 17 4 3 8 2 1317 16 3 1 9 3 1048 16 10 1 5 3 R sultat de la requ te de tri crois M A Berlichy num ro 632 a d clar 16 fois le code SE 7 HF 5 fois OU 1 fois MA 3 fois Autre 39 AU MOINS DEUX CHANGEMENTS TRI SUR LE NB DE CHGTS DECROISSANT PUIS TOTAL DECL DECROISSANT 2 PAGES EXEMPLE SUR 13 Lei on 2 lt Autres AL CO CP DI EG IT MA MEMI OU PE PJ RE SE SQ SV TB TETM TR Totaux 4767 1123 43 35 114 38 31 42 187 52 26 17 42 45 20 31 419 66 74 17 1941476 51 14 41 7791619 10 107172131 5112177 0632 32 3 7 1 5 16 5 woes a OT uds 0554 26 3 18 3 5 A2048 22 1 6 4 3 8 5 A0921 20 STE A8 4 4 5 0093 13 5 5 1 5 A2374 11 5 1 3 1 5 2581 10 7 2 241 2 aji s 4051831 16 j blu 40 B Ke 2 lt Autres AL ANJATIBA CO CP DI EG EM EN HF
18. CLASSIFICATION Nous avons utilis Spad version 4 pour r aliser les tudes statistiques multidimensionnelles du corpus Pourquoi ce logiciel Sa premi re qualit ce n est pas un produit anonyme il est la cr ation d Alain Jambu dont les travaux universitaires sont connus depuis longtemps ce qui est un gage de s curit et de qualit Il pr sente d autre part un certain nombre d avantages il est capable d importer directement des donn es depuis le tableur en mode ODBC Open Data Base Connectivity il permet de visualiser correctement les points doubles sur les graphiques factoriels il est capable de traiter les donn es manquantes il fournit la liste des individus les plus caract ristiques de chaque groupe les parangons enfin un des points les plus importants il permet de sauvegarder en fichier la liste des identificateurs des individus appartenant un groupe de classification ce qui tait fondamental pour notre recherche Statlab que nos utilisons auparavant et qui par ailleurs ne semble plus commercialis ne le permet pas 1 Proc dure d analyse du tableau Les 953 personnes sont d termin es par tri crois des individus x codes professionnels sous Access On proc de ensuite la d termination du nombre de changements professionnels pour chaque individu entre 1 et 5 changements ce calcul peut tre men sous Access ou bien sous Excel On limine ensuite les personnes n ayant qu un seul code professionnel
19. N T N T AOW u S a TAON 3 S i lt t uml uw p uw LC 254 lt t uv lt t E 1 TS 5 8 8 5 lt lt lt TS TS I lt lt lt apop E Jo 5 T lt 1 Ie z gt gt 8 lt 8 5 lt lt Z 47 7 Variations professionnelles les parangons Ce fichier est typiquement difficile exporter vers le grapheur ou Excel sans un gros travail de nettoyage Le plus simple est encore d crire un filtre de transformation programm PARANGONS CLASSE 1 8 EFFECTIF 166 IRG DISTANCE IDENT RG DISTANCE IDENT RG DISTANCE IDENT 110 62348 4970 210 63032 41941 310 65816 2852 4 0 70187 5506 510 71008 42277 610 76242 A2582 710 76242 41845 810 76806 A0308 910 79365 42728 1010 80041 44614 LH CLASSE 2 8 EFFECTIF 10 IRG DISTANCE IDENT RG DISTANCE IDENT RG DISTANCE IDENT 4
20. RIERE 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY JOURNALIERE 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY OUVRIERE AUX TABACS 2852 BARTHELEMY SERVANTE 146 2852 BARTHELEMY COUTURIERE 2852 BARTHELEMY F SERVANTE 146 2852 BARTHELEMY COUTURIERE 2852 BARTHELEMY F SERVANTE 596 561 BLESSIG SERVANTE 561 BLESSIG F SERVANTE 650 632 BERLICHY 632 BERLICHY F SERVANTE 650 632 BERLICHY 632 BERLICHY F SERVANTE 1089 1117 BALLADE SERVANTE 1117 BALLADE F SERVANTE 1117 1089 BALLADE SERVANTE 1089 BALLADE F SERVANTE 1778 1176 BADER 1176 BASTARD F SERVANTE B UNE METHODE POUR LIRE ET COMMENTER AUTOMATIQUEMENT DES GRANDS TABLEAUX STATISTIQUES Michel Volle a donn cette m thode d analyse dans Economie et Statistique Insee n 52 p 46 50 1974 Nous avons adapt et programm en L S E en Pascal puis en Maple la proc dure propos e par Michel Volle en 1974 et republi e en 1997 dans Analyse des donn es chez Economica Nous d crivons ici la m thode qui a t utilis e pour traiter les tableaux crois s de la th se 1 M thode et calculs On consid re un tableau t d effectifs donc de valeurs positives nli lignes et ncol colonnes On commence par calculer les marges en ligne fl somme de tous les l ments en colonne les marges en colonne fc somme de tous les l ments en ligne respectivement apr s initialisation z ro des tableaux fl et fc nli ncol 1 acol Jf 2 t
21. Thierry Contribution Hatt Diener Marie No l Strasbourg la crois e des chemins tude des mobilit s urbaines 1810 1840 2 tomes Universit de Tours 2000 502 et 528 p INFORMATIQUE ET RECHERCHE HISTORIQUE I Mat riels logiciels fichiers Ce travail tait impossible sans recourir l informatique Une base de donn es de 500 000 champs 14 000 enregistrements 6 400 personnes et 3 900 maisons ne peut tre trait e la main Le recours l informatique dans toutes ses composantes a donc t d embl e un choix strat gique essentiel de la recherche Le travail a t r alis sur une longue p riode de temps si l on consid re qu il a commenc avec la base de donn es de l enqu te de 1789 qui a t r alis e de 1988 1989 soit une dur e de plus dix ans Pour l volution du logiciel cela repr sente une dur e immense et des modifications importantes nous avons par exemple nous adapter trois changements majeurs de syst mes d exploitation disponibles sur les machines utilis es des compatibles IBM PC passage de DOS aux premi res versions de Windows puis Windows 95 Cela a aussi re pr sent le passage de l interface ardue du Dos la convivialit graphique de Windows Les progr s informatiques ont t consid rables pendant cette p riode L un des progr s d cisifs par exemple a t la facilit accrue des tris crois s dont nous avons fait abondamment usag
22. ape suivante consiste donc calculer la contribution co i j de chaque case du tableau 24 E E gt iz1 niij 1 necol i Z On calcule ensuite le total de l information apport e par les cases pour exprimer en valeurs relatives le poids de chaque case tri e dans l ordre d croissant nli total_info 1 1 Le signe de l cart est calcul par signe J j fife 2 Exemple num rique Exemple num rique tableau crois des codes professionnels des filles et de leur 1820 1840 25 CODE PROFESSIONNEL DES FILLES EN LIGNE CROISE AVEC LE CODE PRO DE LEUR MERE EN COLONNE zi SE Inc CO EN HF IT MA OU SE SQ TE nconnu 215 15 21 2 23 10 18 64 7 378 0 4281 3 5 0 0057 4 2 8 10 0091 3 2 7 0 0079 38 6 1 1 7 2 13 4 72 10 0815 IT 7 4 2 4 17 0 0193 MA 3 1 2 1 7 10 0079 ME 2 2 4 0 0045 OU 86 3 14 22 10 32 167 0 1891 3 4 0 0045 26 CODE PROFESSIONNEL DES FILLES LIGNE CROISE AVEC LE CODE PRO DE LEUR COLONNE A a Inc AL EN HE IT OU RE SE SQ TE SE 92 2 8 1 9 2 22
23. e Dans la phase la plus ancienne du travail si le chercheur ne pouvait avoir recours aux logiciels poids lourds des centres de calcul SAS SPCSS il devait lui m me crire les logiciels de tri 23 crois ce n est plus le cas aujourd hui On trouvera une bonne introduction dans J L Pinol A Zysberg M tier d historien avec l ordinateur Nathan Paris 239 p 1995 Cet ouvrage s arr te en de de l analyse des donn es 2 Rappelons propos du tri crois qu il est tr s peu pratiqu avant l re informatique tant donn e sa grande lourdeur de mise en uvre 3 On trouvait ce type de programmes l mentaires de d pouillement d enqu tes dans F Pottier Initiation l informatique dans les sciences de l homme Classiques Hachette Paris 153 p 1973 ou bien dans L Lebart J P F nelon Statistique et informatiques appliqu es Dunod Paris 457 p 1973 C tait souvent en Fortran il fallait donc convertir dans le langage disponible L 5 E puis Pascal dans notre cas pour la version Turbo Sesam On en trouvait encore dit s 1985 sous forme de programmes Basic M Roux Algorithmes de classification Masson Paris 152 p 1985 L apport des Anglo Saxons a t 2 Un autre progr s majeur est l am lioration de la qualit de publication particulier qui concerne les sorties graphiques gr ce aux imprimantes laser et jet d encre couleur bon march Ce
24. e doivent tre g r avec soin Plusieurs m thodes ont t choisies la tenue d un journal de bord des fichiers a vite trouv ses limites devant l explosion du nombre une autre m thode a consist dater syst matiquement les requ tes dans le fichier lui m me une autre enfin stocker les donn es de mani re structur e une autre faire figurer sur les imprim s syst matiquement le nom du fichier d origine une derni re utiliser Altavista Discovery La datation est le moyen de m moriser les t ches effectu es qui a le mieux r ussi il tait assez ais de se rappeler quels traitements avaient t faits telle ou telle poque Cette datation doit videmment tre attach e au fichier la date de derni re utilisation du syst me d exploitation ne peut suffire puisque le simple fait d ouvrir ce fichier modifie la date Le deuxi me moyen d j d crit a consist sauvegarder les donn es par th me Cette m thode a eu ses limites pour plusieurs raisons la n cessit des changes d un logiciel l autre a oblig stocker certaines donn es Excel dans la zone base de donn es ou dans la zone grapheur au lieu de l espace tableur et a donc oblig rechercher en plusieurs endroits au lieu d un seul d autre part certaines requ tes pouvaient avoir t trait es sous Excel ou bien sous Access encore fallait il s en souvenir La derni re m thode d indexation par le contenu sous Altavista Disc
25. e et mise au format du texte de mani re ce qu il puisse tre relu par Excel en importation Edition Affichage Insertion Format Gm Donn es 0831987 remos A1 NUM id 0 Identificateur 31 9 0 4 9 ra 9 et classe 6 9 30 3 Etape 3 Int gration de ces donn es dans Access par import du fichier Excel Microsoft Access Feuill Req 2713 900 961 900 4937 900 5593 900 2570 91 029 2574 91 019 2990 9 1 049 2717 9 1 043 2577 9 1 021 3044 9 1 046 2990 9 1 033 2706 9 1 047 510 9 1 042 2582 9 1 029 2710 91 038 4 Etape 4 Enrichissement par jointure du fichier des identificateurs avec la base des donn es source P5 de mani re disposer des noms de rue des adresses ant rieures du moment et post rieures dans la m me requ te On a maintenant des d clarations La requ te Access Adresses successives 31 r sultat de la requ te CLASS ADR_A_R N_RUE 913 9 139 9 81 9 82 9 102 9 188 9 188 9 188 9 188 9 188 9 9 208 103 102 10 9 81 188 208 10 9 102 188 188 10 9 188 82 10 9 188 83 101 Adresses successives WO Qo O O O O O O 5 Exportation et adaptation de ce tableau sous Excel C est n cessaire car Access ne peut pas de mani re simple transformer une colonne li
26. epr sent s ici EZ Microsoft Access P5 Table IE Eichier Edition Affichage Insertion Outils Fen tre JE Ed amp 5 amp Bs m EZ m N CANT Texte RUE Texte MAISON Texte FIX PREC Texte PROP LOC Texte NUM Num rique NOM Texte PATRONYME Texte PRENOMS Texte SEXE Texte DATE_NSCE Date Heure AGE Texte LIEU NSCE Texte CODE P Texte PAYS Texte PROFESSION Texte ETAT CIVIL Texte Texte NUM PAR Num rique NBR_ENF Texte DATE_EN Date Heure COMMUNE A Texte PAYS Texte ADR_A_C Texte ADR_A_R Texte ADR_A_M Texte DATE LG Date Heure DATE SO LG Date Heure ADR P C Texte ADR PR Texte ADR Texte DEST AUTRE Texte 17 P5 d but de la liste des donn es chaque personne est enregistr e autant de fois qu elle a fait une d claration de d m nagement avec toutes les informations disponibles au moment de cet acte Ici les neuf d clarations de la personne portant c est un hasard le NUM 9 MELUN F 3 j EPPSTEIN 67 C 4 BOUILLARO HYACINTHE 01 01 1797 21 BAR LE DUC X 5 BILGER ELISABETH F STRASBOURG 5 BILGER 6 BOUDET C 7 BERNHARD J 5 7 BERNHARD JACQUES 8 BELLET LEMENCE F BELLET CLEMENCE F BLOCH JULIE F x 9 BLOCH JULIE F F 9 BLOCH JULIE F 8 G 9 BLOCH JULIE F 01 01 1798 SBOURG 9 BLOCH JULIE F 0 1798 URG 9 BLOCH JULIE F 798 G 9 BLOCH
27. gne Or pour avoir toutes les adresses il faut qu chaque identificateur de personne soit associ ses trois adresses dans la ville en ligne et non pas en colonne 32 6 R alisation du nouveau tableau par copier coller AL B c Fichier NUM CLASSE R chiers 1 NUM BE HE 9 135 EN concat n s EN o EN o EN o 9 9 9 M E 1 9 188 BS o 9 188 o 9 102 EX o 9 188 EN 9 208 24 9 9 103 25 NUM CLASSE ADR P R ES 1 9 188 EN c 9 135 28 9 9 208 Les en t tes interm diaires ont t laiss s pour la compr hension de la proc dure et sont enlev s avant traitement 7 Importation du fichier complet des adresses dans Access pour les tris crois s Fichier enrichi par jointure avec le champ sexe Le dernier champ change de nom puisqu il d signe les trois adresses chronologiquement distinctes MAISONS RUES GROUPE 8 Table 1 1 9F 188 1 188 1 HIE 188 1 9F 135 9 81 9 82 9 102 9 188 9 188 9 9F 188 9 HIE 188 9 188 9 208 9 188 9 9F 83 33 8 R sultat du tri crois Codes des rues X sexe ei MAISONS RUES GROUPE 9_Analyse crois d AA AM Total lt gt F M 1902 12 917 973 7 3 5 5 23 Toutes rues Effectif 7 5 1 6 3 6 6 3 4 0 5 6 3 2 3 2 4 3 34 22 12 4 3 2 1 5 4 3 1 55 33 h h 10 Exportation du fichier Access vers un format relu par le logiciel de cartog
28. her Crit res 4 La jointure est l op ration qui consiste lier plusieurs bases en utilisant une lt clef gt commune La jointure est dite lt externe gauche i e tous les enregistrements du c t gauche sont ajout s aux r sultats de la requ te m me si le champ joint de la table situ e droite ne contient pas de valeurs correspondantes par contre les enregistrements de la table de droite ne sont combin s ceux de la table de gauche que si les champs joints comportent des valeurs correspondantes Ceci permet d obtenir les parents et leurs enfants 19 partir de r sultats cr ation de la sous base des m res dont la profession est servante le sexe du parent est f minin et la profession servante LISTE PRTS EFTS V4 Num ro NUM_ENFANT NUM_PARENT PROF_PARENTELE lamp 5 MOMENT NUM PATRONYME PRENOMS SEXE PROFESSION able ps 5_1 5 1 5_1 5_1 5_1 I ation Regroupement Regroupement Regroupement Regroupement Regroupement Regroupement Tri icher v M M M t res F SERVANTE Ou Exemple de r sultat professions des enfants de m res qui ont d clar tre servante au moins une fois P5_1 SEXE ETAT_CIVIL P5_1 PROFESSION NUM PARENT
29. i me plan factoriel la variable NB_CHGTS tire vers elle toutes les cat gories pr caires 43 Variations professionnelles classification huit groupes Zoom sur le groupe central plan des facteurs 1 et 2 6 et 5 7 de la variance Facteur 1 D X S9 8 EE 1 pe mcd COUPURE b DE L ARBRE EN 8 CLASSES Seu ane 1 CLASSE 1 8 166 2 2 CLASSE 2 8 10 3 CLASSE 3 8 650 a 4 CLASSE 4 8 41 CLASSE 2 8 5 CLASSE 5 8 46 A 5 6 CLASSE 6 8 15 amp 7 7 CLASSE 7 8 23 5 8 CLASSE 8 8 2 j 5 5 30 2 2 2 7 5 5 1 5 2 4 1 1 15 Les groupes sont indiqu s en couleur par les chiffres du num ro de groupe de 1 8 on remarque la tr s l Ouest du graphique du groupe 6 l Est SE Un rr m sss sb CLASSE 7 8 5 4 74 4 ed Mises REPE EET 6 6 68 eg 6 amp A CLASSE 6 8 1 3 0 Facteur 2 bonne discrimination du groupe I 44 5 Appartenance de chaque individu aux groupes Listage de sortie des groupes par Spad A chaque personne caract ris e par son num ro est associ le num ro de groupe suffit de relire ce fichier sous Excel et de le trier pour constituer les groupes Une seule page titre d exemple APPARTENANCE DE CHAQUE INDIVIDU A COUPURE DE L ARBRE EN 8 CLASSES A0632 1 A0167 1 A0554 1 A2048 0921 8 A0093 5 A2374 2 A2581 A0518 1 A0640 1 A0708 2 A3740 A4609 1 A1317 1 A2181 1 A
30. ions successives de travaux aux tapes t t 1 t 2 tant disponibles tout moment D s que les travaux le n cessitaient un CD ROM tait grav stock de temps en temps dans un lieu physiquement diff rent de la salle informatique pour viter une perte ou une destruction simultan e des originaux et des copies Une trentaine de Cd ROM ont t grav s soit 13 Go de donn es donn es dans lesquelles il fallait l occasion chercher des tats anciens mais n cessaires 3 Quelques m thodes de gestion des donn es Ce nombre et ce volume de fichiers ne peuvent plus tre g r s la main L une des principales difficult s tant de retrouver les informations et les bons fichiers Nous avons donc utilis Altavista Discovery pour indexer cette masse d information par le contenu et retrouver les fichiers dans les cas les plus difficiles Tr s efficace cette indexation ne prenait en compte que les donn es en ligne pas les donn es sur CD ROM Il fallait donc retrouver ces derniers lt la main gt Le principe de classement retenu sur le disque dur est le suivant les donn es sont stock es sur une unit physique diff rente du syst me d exploitation sur cette unit chaque logiciel sp cialis base de donn es traitement de texte grapheur poss de son propre r pertoire l int rieur de ce r pertoire les sous dossiers sont r partis par th me de la recherche historique les migrants l analyse de l cha
31. logiciels repr sente plusieurs milliers de francs M me si la d pense est ici tal e sur plusieurs ann es cela reste fort important d autant plus que les mises jour oblig es sont tr s souvent factur es au prix fort C UNE GRANDE VARIETE NECESSAIRE LES FORMATS DE FICHIERS L un des principaux probl mes est la n cessit de faire passer les donn es et les r sultats de chaque logiciel vers les autres La situation n est pas aussi facile que la norme Windows g n ralis e pourrait le laisser penser Dans de nombreux cas le seul format possible d change est le format ASCII associ un traitement Ce traitement peut tre simple nettoyage avec un traitement de texte de caract res emp chant la relecture mais il peut aussi tre complexe et n cessiter une programmation sp cifique Ces programmes ont t crits en Dbase ou Turbo Pascal Ces programmes sp cifiques appel s filtres programm s sur le graphique du cheminement de 6 l information ont t en particulier n cessaires pour la transmission des fonds de carte vectoriels d un logiciel l autre 1 Pr s d une vingtaine de formats de fichiers diff rents ont t utilis s Bases de donn es Formats DBF pour Foxbase et pour Access format Ascii texte ou xls pour les changes de donn es entre les logiciels de bases de donn es et d analyse de donn es entre Access et Excel Logiciels d analyse des donn es TURBO SESAM fo
32. ls import s des chelles erron es ou impossibles modifier fichiers Excel bien relus mais impossible visualiser l cran cause d un format de cellule mal relu impossibilit du copier coller alors que les deux logiciels sont tous deux pour Windows myst rieuses erreurs de relecture des donn es Excel par Access erreurs 13 soigneusement collect es dans une base Access mais pas plus compr hensibles pour autant l incapacit d un certain logiciel de relire les lettres oe li es la mode Windows et emp chant cause de ce simple caract re la lecture compl te d un tableau de donn es Des formats d image vectoriels bien export s par un logiciel et mal import par un autre l encore la liste est longue La vari t des probl mes li s aux changements de format est infinie et pourtant c est le seul moyen d changer des donn es d un logiciel l autre Toutes ces difficult s obligent des man uvres complexes de contournement qui font perdre norm ment de temps Probl mes li s au vaste volume des donn es et la vari t des questions traiter Une n cessaire gestion rigoureuse des fichiers Ce travail a dur plusieurs ann es Les outils les donn es les d marches les m thodes d approche ont donc volu avec le temps fallait p riodiquement revenir sur des travaux faits plusieurs mois auparavant sur des donn es incompl tes ou bien comprises autrement Ces retours en arri r
33. ment proc der mais ne comprenant pas forc ment toutes les subtilit s du corpus il peut se lancer dans des traitements dont les r sultats sont erron s Une fois que la proc dure informatique de traitement a t mise au point ce qui peut tre long l ex cution est faite en quelques secondes mais le r sultat n est pas garanti car l erreur de param trage est la r gle pas l exception Il est donc absolument imp ratif que le chercheur sp cialiste de son dossier passe les r sultats au crible pour les rejeter ventuellement et revoir les proc dures L industrialisation de la production Chaque question pos e aux donn es par le chercheur tant sp cifique il est difficile d industrialiser la production C est videmment ennuyeux car l informatique donne sa pleine puissance dans ce cas L int r t de l informatique est chercher ailleurs dans la souplesse infinie des traitements possibles dans le volume norme des donn es manipulables Il est pourtant possible de temps en temps d optimiser la d marche de production lorsqu une collection de documents de m me type est demand e tableaux cartes histogrammes 15 F NECESSITE IMPERIEUSE D APPARTENANCE A UNE EQUIPE OU A UN RESEAU Comme on peut le voir dans ce panorama rapide les probl mes r soudre sont nombreux parfois tr s techniques Ces questions ne peuvent que difficilement tre r solues par une personne seule L appartenance un laboratoire
34. n cessaire de recourir des produits sp cialis s Les graphiques disponibles sous Excel 4 0 ne r pondent pas suffisamment aux crit res de la s miologie graphique Nous avons utilis Graphwin et Grapher V 2 version Dos et Windows de Golden Software 6 Logiciel d imagerie Nous avons eu recours ces logiciels pour certains fonds de carte complexes pour la num risation des registres et la pr sentations des cartes anciennes de Strasbourg ainsi que pour les captures d cran de Spad l exportation de fichiers images ne fonctionnant pas correctement Paint Shop Pro versions 4 et 5 sous Windows Foto Look pour la num risations des images et un num riseur de table Agfa 7 Logiciel tableur Le tableur s est r v l fondamental en particulier comme interface d import export de donn es entre les diff rents logiciels Nous avons utilis Excel 3 puis 4 enfin 2000 Un grave inconv nient de ce produit est son incapacit reconnaitre les dates ant rieures 1900 ce qui nous a oblig faire des acrobaties en particulier des conversions fr quentes de type caract re date pour passer d Access Excel http www cisia com Thierry Hatt modules cartographiques de Turbo Sesam 10 pttp www goldensoftware com Voir le sch ma de circulation de l information Le cheminement de l information dans le traitement la base de donn es 5 8 Logiciels de publication et de traitement de texte La saisie de
35. ntillon des 3502 personnes l tude de la rue des Veaux les mobilit s professionnelles Une centaine de r pertoires diff rents ont t cr s au fur et mesure des besoins 10 5 2 TRAVAIL 1 ANALYSE DONNEES BASES ACCESS E ANALYSE 3503 D BASES SOURCES CARTO PROF E ITINERAIRES PROF PARENTS ENFANTS RUE VEAUX E UNE DEUX ADRESSES 88 5 a CARTOGRAPHIE CARTO PAR RUES CH CARTO PROF E FONDS DE CARTE CH ITINERAIRES PARTICULIERS 1 LIEUX Ha EXCEL APPELATIONS PROFESSIONNELLES 5 20 CARACT ITINERAIRES CLASSEMENT ADRESSES C3 CLASSIF 3000 v2 82 ETUDE CA CE 20 FREQUENCES RUES 3503 E ITINERAIRES DH RUE VEAUX SOURCES DATA 88 UNE OU DEUX ADR MAISONS PARENTS ENFANTS Eg VEUVES FEMMES MARIEES oC FICHIERS GRAPHEUR D CARACTERESHTINERAIRES DOCUMENTS DEFINITIFS CH DUREE SEJOUR ETUDE PROFESSIONS 1 GENERALITES l PYRAMIDES 5 20 MES DOCUMENTS E 3 ANNEXES MONTAGES 3 ANNEXES V1 ANNEXES V2 GD THESE DOC 80 SECOURS Organisation des dossiers et sous dossiers tat en juillet 2000 11 E QUELQUES DIFFICULTES A SURMONTER 1 La faible qualit des publications informatiques sur le march rend parfois difficile certains apprentissages A notre grande surprise nous tant port s acqu reurs d ouvrages permettant d aller plus loin avec Access ou Word nous avons eu le d sagr ment de constater que tr s souvent malgr leur
36. overy s est r v l tr s efficace elle a permis de retrouver tr s rapidement un fichier par son contenu encore fallait il se rappeler des mots clefs pr sents dans le dit fichier 14 Toutes ces m thodes de m morisation nous ont pas emp ch parfois d tre oblig s de reconstruire compl tement une proc dure faute de retrouver les donn es source associ es Vari t des demandes exploratoires satisfaire La recherche sur un sujet qui n a pas t explor exige la construction cousue main de proc dures et de d marches propres qui peuvent difficilement tre r cup r es ailleurs ou tre industrialis es C est une difficult mais aussi un des int r ts d un tel travail Certaines approches techniques sont bien connues tri crois jointure limination des doublons cartographie en cercles proportionnels requ tes logiques mais leur adaptation aux donn es est n cessaire une bonne connaissance du logiciel doit s accompagner d une tr s bonne connaissance des donn es Dans le cas contraire selon la formule des Anglo Saxons garbage in garbage out si vous rentrez des donn es fantaisistes dans le logiciel il vous renverra des r sultats juste dignes d tre mis la poubelles Cette collaboration troite entre le sp cialiste du corpus et l informaticien est indispensable Elle est difficile car l historien sait bien ce qu il veut mais ne sait pas comment l obtenir l informaticien sait com
37. prix lev ces livres ne sont que des r pliques de l aide en ligne ou des collections de recettes tr s difficilement transposables ils ne permettent donc pas de compl ter l aide du logiciel tr s souvent insuffisante Nous n avons par exemple pas trouv de descriptif complet jour des fonctions disponibles dans Access ce qui a rendu l usage du logiciel p nible pour le calcul des dur es les conversions de date en cha ne l extraction de sous cha ne dans les champs de la base Ces difficult s sont aggrav es par une tr s grande difficult trouver de l aide du c t des utilisateurs exp riment s 2 Difficult pour trouver de l aide aupr s d autres utilisateurs La plupart des logiciels utilis s dans ce travail sont complexes et param trables l infini Spad 4 0 par exemple n cessite pour une analyse factorielle en composantes principales suivie d une classification hi rarchique la fixation de 60 param tres certains sont d finis par d faut mais tous doivent tre pass s en revue et v rifi s La plupart des gens n utilisent qu une toute petite partie des possibilit s de ce type de logiciel Il est alors tr s rare de trouver une personne qui ayant rencontr le m me probl me que vous est m me de vous aider Soit le probl me n est pas trait de la m me fa on soit la version du logiciel n est pas la m me soit le probl me n a pas t rencontr sous cette forme Autrement dit le chercheur qui ne b
38. r partis de la fa on suivante sans compter les fichiers de la base de donn es de recherche contextuelle 0 9 Go LES DONNEES TYPE D APPLICATION NOMBRE DE VOLUME DES FICHIERS DONNEES Analyse des donn es 300 90 Mo Bases de donn es 40 130 Mo Cartographie 540 260 Mo Tableur 300 90 Mo Grapheur 130 10 Mo Traitement de texte 70 40 Mo Ensemble des fichiers de Soit 1000 fichiers 600 Mo donn es du travail Altavista Discovery 300 872 Mo En tout Soit 1300 fichiers Soit 1 4 Go de donn es LES LOGICIELS D APPLICATION Ensemble des logiciels Plusieurs milliers de 1 2 list s base de donn es fichiers tableau grapheur etc Le volume total de fichiers manipul s pendant la dur e compl te de l tude a t en r alit plus important certaines donn es plus rarement utilis es par exemple les images des fonds de carte pour l Europe ou bien les num risations des registres n tant pas gard es en ligne mais sur CD ROM 2 Une politique de sauvegarde rigoureuse facilit e par les supports disponibles La sauvegarde t assur e sur CD ROM leur prix en ao t 2000 baiss jusqu 6 francs ce qui permis de multiplier les s curit s Une politique tr s rigoureuse de sauvegarde a t mise en place 9 Les donn es ont t syst matiquement sauvegard es sur trois ordinateurs diff rents r seau mode incr mental Les vers
39. raphie Excel C est presque fini mais le logiciel de cartographie ne sait pas relire le format Access donc il faut exporter le tri crois vers Excel 11 La cartographie rassemble trois l ments Un fond de carte une localisation en x y des l ments cartographier ici les rues associ un code de rep rage le tableau des donn es les identificateurs des rues sont associ s aux donn es repr senter 34 fond les coordonn es les donn es STRASBOURG LE FOND DE CARTE M N HATT 1999 SOURCE ARCHIVES MUNICIPALES FOND DE 1789 Nord M N HATT 1999 SOURCE ARCHIVES MUNICIPALES FOND DE 1789 AA AM AP Situations lt gt M 1902 12 917 973 1 7 3 4 3 5 5 5 44 23 21 6 67 46 21 7 9 72 10 6 5 1 11 9 6 3 12 12 6 6 13 7 3 4 14 15 10 5 17 9 6 3 20 5 2 3 22 6 2 4 23 34 22 12 24 3 2 1 25 4 3 1 pec carte page suivante 35 Le r sultat cartographie en cercles proportionnels des effectifs aux adresses ant rieures da moment et post rieures pour le groupe des familles tranquilles pr s de 3000 personnes ETUDE DE 3502 PERSONNES ADRESSES DU GROUPE IX 2149 PERSONNES FAMILLES TRANQUILLES LOI RACINE 1 ADR 575 ADR 1148 ADR Nord Um D Tune T Ty M N HATT 1999 SOURCE ARCHIVES MUNICIPALES FOND DE 1789 1 km 36 D EXEMPLE D UNE ANALYSE FACTORIELLE SUIVIE D UNE
40. rmat Ascii Spad Statlab import de fichiers textes ou xls Logiciels grapheurs Graphwin Grapher formats Ascii ou Excel et Wmf Logiciels de cartographie TURBO CARTO MaplInfo SIG Mapviewer format DXF ou Wmf Ascii ou formats propri taires GSB GSM et BNA pour les outils Mapviewer export en WMF vectoriel pour l int gration au traitement de texte Word 2000 Logiciels d imagerie Paint Shop Pro format jpg pour l Internet gif pour le traitement de texte tif pour la num risation Logiciels tableurs format ASCII et XLS Logiciel de d veloppement de site Internet formats html ASCII doc ou Logiciel de traitement de texte format doc de Word les changes des logiciels de traitement vers le traitement de texte ont t faits en mode jpg gif pour les images pixels et wmf pour les images vectorielles 12 Voir en page 7 Tableur 7 Base de donn es S Saisie Filtre programm Analyse des donn es Filtre programm Fond de carte et coordonn es Filtre programm Filtre programm Traitement de texte publication finale 2 Le cheminement de l information dans le traitement de la base de donn es jusqu la publication finale 8 D LES FICHIERS DE L ETUDE UN GRAND NOMBRE NECESSAIRE 1 Vari t et volume des donn es Dans une situation typique en fin de travail le volume de fichiers disponibles en ligne a atteint plus de 600 Mo plus de 1000 fichiers
41. s progr s n ont pas r solu tous les probl mes loin de l on verra quelques unes des difficult s pos es par l informatique individuelle dans une telle recherche Un tel travail n cessite de recourir une panoplie tendue de logiciels dont la ma trise est loin d tre ais e et prend du temps La cha ne de production compl te qui des donn es la publication est compos e de logiciels autonomes les changes entre eux sont parfois malais s para t difficile que l historien domine la fois sa discipline et les outils techniques n cessaires Des soutiens techniques sont tr s utiles Nous pr senterons d abord l environnement mat riel et logiciel dans lequel nous avons travaill Sans chercher dissimuler les probl me rencontr s nous donnerons ensuite des exemples complets de d marches techniques une proc dure de requ te de base de donn es pour obtenir une reconstitution de famille quelques indications pr cises propos de la m thode de calcul des carts l ind pendance de Michel Volle dont nous avons assur la programmation les tapes de construction d une carte g ographique combinaison de l usage de la base de donn es du tableur et de cartographeur les tapes compl tes de r alisation d un analyse des donn es A LES MATERIELS AISANCE DES STOCKAGES VITESSE DES TRAITEMENTS Les ordinateurs utilis s la fin de la p riode de travail comme les logiciels ils ont chang plusieurs fois sont
42. s textes a t faite avec deux versions de Word sous Windows la derni re tant Word 2000 sans probl me particulier de compatibilit n est pas certain que soit le meilleur choix pour un travail de plus neuf cent pages abondamment fourni en annexes graphiques Le montage final s est en particulier r v l laborieusement lent et parfois p nible Il a fallu par exemple r duire fortement la r solution des images pour cause de d bordement m moire la machine support du traitement de texte Word disposait pourtant de 128 Mo de RAM Le traitement des fichiers ASCII avec Ultra EDIT 32 6 20b a t n cessaire en particulier pour pr parer les fichiers issus de l analyse des donn es 9 Logiciels d indexation documentaire de gestion des fichiers et de gravure de CD ROM Nous avons eu recours ce produit gratuit disponible sur l Internet pour indexer l ensemble des documents par le contenu Altavista Discovery V1 1 Logiciel FileSync 2 14 a t utilis pour les sauvegardes incr mentales des fichiers d un ordinateur du r seau l autre en tenant compte des dates de derni re mise jour Nous avons utilis CRWin 3 6A de Golden Hawk et CD Creator 3 5 d Adaptec pour graver les CD ROM les d chets ont t rares li s plut t Windows profondeur des arborescences trop grande On peut remarquer le poids de l investissement pour un chercheur solitaire qui ne serait pas soutenu par une institution L ensemble de ces
43. se de donn es la cr ation d une nouvelle table partir de donn es parses sont complexes et difficiles reproduire sans un grand entra nement Les plantages Ils peuvent occasionner des pertes de donn es m me si une sauvegarde p riodique est pr vue cet gard Word s est r v l particuli rement fragile et a parsem le disque de fichiers temporaires non effac s par suite de sorties pr matur es et catastrophiques du logiciel Aucun logiciel n est pargn et Spad par exemple a pos de gros probl mes l importation des donn es texte et ODBC Le manque de clart ou l absence de messages d erreur est un d faut de la plupart des logiciels C est un facteur de ralentissement du travail Il est tr s difficile de corriger une erreur dont la localisation n est pas du tout pr cis e alors que la requ te fautive compte plusieurs dizaines d instructions La liste des erreurs graves est longue les num ros de page qui n apparaissent plus les cartes en couleur qui sont imprim es en une seule couleur le plan qui n apparait plus apr s un changement apparemment minime nous aurions pu composer un b tisier complet sauf quand l erreur entra ne un plantage et une perte du syst me Les erreurs de relecture des fichiers d un logiciel l autre Versions de format non reconnus images import es non orthonorm es ou totalement d grad es par rapport l original trop grandes ou trop petites fichiers vectorie
44. tilisation II les programmes d analyse factorielle des correspondances et de cartographie automatique gt INRP 1979 Sesam V II logiciel LSE disquettes et mode d emploi de 50 p CNDP 5 1983 Sesam V II Syst me d tudes spatiales et d analyse multidimensionnelle manuel IREM ULP Strasbourg 158 p 6 1983 La version en Turbo Pascal de SESAM date de 1986 1987 7 On se reportera aux travaux de M Jambu Classification automatique pour l analyse des donn es Dunod Paris tome I et II 310 et 399 p 1978 L Lebart A Morineau J P F nelon Traitement des donn es statistiques m thodes et programmes Dunod Paris 512 p 1979 Eux aussi proposaient de nombreux programmes en Fortran 4 Spad de Alain Morineau versions 3 et 4 de la CISIA Ce dernier produit est disponible aussi bien sur PC que sur Apple il est de grande qualit 4 Logiciels de cartographie Le travail portant sur 1789 avait t enti rement cartographi sous produit que nous avions r dig sp cialement une poque o ce type de logiciel tait soit financi rement inabordable soit m me inexistant Nous avons remplac ce produit par des logiciels sous Windows Didger de Golden Software pour la num risation des fonds de carte pour le syst me d information g ographique multi couches d abord Maplnfo version DOS puis Mapviewer version 3 de Golden Software 2 5 Logiciels grapheurs Il nous semble
45. trois Pentium II ou III en r seau local une machine serveur sous NT les autres postes sous Windows 95 et Windows 98 50 Go sur neuf disques en ligne sur le r seau accessibles pour tous les utilisateurs un graveur de CD ROM On est bien loin des disquettes 5 pouces 1 4 de 360 Ko de capacit des ann es 1989 B LES LOGICIELS BELLE DISPONIBILITE RICHESSE DES FONCTIONS Une belle gamme de logiciels puissants sont maintenant disponibles Reste au chercheur les prendre en main aussi essentiel on citera par exemple M R Anderberg Cluster analysis for applications Academic Press New York 359 p 1973 ou bien R S Baxter Computer and statistical techniques for planners Methuen London 336 p 1976 1 Bases donn es Notre choix initial s est port sur Foxbase clone de Dbase sous DOS logiciel t conserv pour effectuer la saisie sous Windows son fonctionnement a t tr s correct Les traitements proprement dits listes tris simples tris crois s jointures on t r alis s avec deux versions successives d Access pour Windows la derni re tant Access 2000 2 Langages de programmation Ils taient obligatoires en 1988 89 pour effectuer des tris crois s indisponibles en standard sous Dbase ou Foxbase Mais Access r alise les tris crois s avec une simplicit merveilleuse et cette tape de programmation est donc d pass e quand m me fallu programmer des filtres
46. yennes des groupes Les z ros ont t enlev s pour faciliter la lecture 3 2 5 s M M sa si gt S gt S 16 116 11 5 AUTRES trs 26 1031 1710241 03 02 039 SE 082 2 19 0 63 0 02 0 04 OU 0 5 1 77 0 6 0 27 0 02 0 04 SQ 0 65 1 19 0 2 0 49 1 61 0 63 0 13 0 04 HF 044 1 28 04 0 31 0 02 HE 003 0 02 0 04 AA 10 05 0 03 0 02 1 67 BA 004 0 01 2 27 ME 002 0 02 0 07 0 04 TE 008 0 01 0 07 1 53 46 8 lt nm E lt st L AON v 90 o ole Je oue 9 N lt lt _ a a vo e a T Ta a S 5 5 18 5 lt lt S lt I lt lt S lt o a yon Z S lt Ix 2 lx c o Ta lt I Ta AOW gt TS IS TO 2 lt o lt lt lt lt lt lt lt lt SS
Download Pdf Manuals
Related Search
Related Contents
CS-GSM Transceiver Kits - Bad Request User Manual Vista VBC-800NI30-WC User's Manual Targus A7™ Notebook Slipcase BellO.com Instruction Manual for DOHC 4-VALVE HEAD PISTON / CYLINDER DST220 DST221 Overview M-Series: Fast Silicon Photomultiplier Sensors Gembird MP3A-UC-CAR1 mobile device charger Copyright © All rights reserved.
Failed to retrieve file