Analyse Bivariee

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 18

ANALYSE BIVARIE DE VARIABLES QUALITATIVES

LE TEST DU Chi2

Dominique LAFFLY

Matre de Confrences, Universit de Pau


Laboratoire Socit Environnement Territoire
UMR 5603 du CNRS et Universit de Pau
Domaine Universitaire, IRSAM, 64000 PAU
Tl : 05 59 92 31 23 Fax : 05 59 80 83 39
Mail : [email protected]

Le test du Chi2 consiste mesurer lcart entre une situation observe et une situation
thorique et den dduire lexistence et lintensit dune liaison mathmatique. Par exemple,
en thorie il y a autant de chance dobtenir pile que face au lancer dune pice de
monnaie, en pratique il nen est rien. Le Chi2 mesure alors lcart entre la distribution
thorique (une chance sur 2) est celle observe la suite des lancements successifs.

En sciences sociales notamment en gographie on utilise le test du Chi2 dans la mme


logique que celle applique au calcul du coefficient de corrlation linaire pour des variables
quantitatives : existe-t-il une liaison entre deux variables, si oui quelle est son intensit ?

Avec des donnes qualitatives (tranche dge, mode de dplacement, CSP) il est ncessaire
de reformuler les hypothses initiales. Dun point de vue mathmatique, il existe une situation
thorique dindpendance de deux variables qualitatives (notons ds prsent quici on
dmontrera lindpendance pour dmontrer a contrario la dpendance ventuelle). On
confronte une situation observe et une situation thorique dindpendance mathmatique. La
premire reprsente les effectifs observs lorsque lon croise les diffrentes modalits des
deux variables initiales, la seconde les effectifs thoriques. Les tests qui suivront seront
fonds sur les carts distances entre ces deux cas.

1
Dun point de vue mathmatique on dit que la variable X
est indpendante de la variable Y si la proportion des
units qui sont dans Xi et Yj parmi toutes celles qui sont
dans Yj est la mme que la proportion de celles qui sont
dans Xi, dans la population totale, ceci tant vrai pour
toutes valeurs de i et j, ce qui scrit :

ni , j ni
= pour i = 1, 2, , h et j = 1, 2, , k
nj n

Ou encore

ni , j =
(n * n )
i j

En pratique, afin de tenir compte des fluctuations


dchantillonnage, on calcule des effectifs thoriques nij
en tenant compte des distributions conditionnelles notes
ni. pour somme des lignes, n.j pour la somme des colonnes
et n.. pour la somme de toutes les cellules. Soit :

n'i , j =
(n
i * n j )
n

2
HOM FEM <25ans 25-35a 35-45a 45-55a 55-65a >65ans SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai
HOM 69 19 10 8 17 5 10 7 5 5 11 4 7 6 15 9
FEM 68 20 9 10 17 5 7 13 3 5 4 4 10 1 18 10
<25ans 39 4 1 3 1 30
25-35a 19 5 2 1 2 4 3 2
35-45a 18 4 1 4 3 1 4 1
45-55a 34 4 6 3 10 4 5 1 1
55-65a 10 2 1 1 1 1 4
>65ans 17 1 1 1 14
SA 20
Agri 8
Artisa 10
CadSup 15
ProfInt 8
Empl 17
Ouv 7
Etud 33
Retrai 19

Le tableau ci-dessus prsente un extrait dune matrice de Burt de contingences multiples


issue dune enqute auprs dune population de 137 individus. Pour raliser lanalyse bivarie
on slectionne dans cette matrice les cellules correspondant aux modalits des deux variables
retenues. Par exemple, les CSP (SA, Agri, CadSup, PorfInt, Empl, Ouv, Etud et Retrai) et les
classes dge (moins de 25 ans, de 25 35, de 35 45, de 45 55, de 55 65 et plus de
65 ans). Soit la matrice observe suivante :

Tableau observ
SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai ni.
<25ans 1 3 1 30 39
25-35a 5 2 1 2 4 3 2 19
35-45a 4 1 4 3 1 4 1 18
45-55a 4 6 3 10 4 5 1 1 34
55-65a 2 1 1 1 1 4 10
>65ans 1 1 1 14 17
n.j 20 8 10 15 8 17 7 33 19 137

3
On calcule alors la matrice thorique. Par exemple, effectif thorique pour la modalit <25ans
et celle SA :

n'1,1 =
(n1 * n1 )
n

n'1,1 =
(39 * 20) = 5.69
137

Tableau thorique
SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai ni.
<25ans 5.69 2.28 2.85 4.27 2.28 4.84 1.99 9.39 5.41 39
25-35a 2.77 1.11 1.39 2.08 1.11 2.36 0.97 4.58 2.64 19
35-45a 2.63 1.05 1.31 1.97 1.05 2.23 0.92 4.34 2.50 18
45-55a 4.96 1.99 2.48 3.72 1.99 4.22 1.74 8.19 4.72 34
55-65a 1.46 0.58 0.73 1.09 0.58 1.24 0.51 2.41 1.39 10
>65ans 2.48 0.99 1.24 1.86 0.99 2.11 0.87 4.09 2.36 17
n.j 20 8 10 15 8 17 7 33 19 137

Rq. Les distributions conditionnelles des deux matrices sont identiques, ce qui permet de
raliser un rapide test pendant les calculs avec un tableur.

Il est possible de raliser des cartogrammes pour visualiser les diffrences deffectif. Comme
pour une carte, les surfaces des cercles sont proportionnelles au valeurs. Afin de rendre
comparables les graphes il faut retenir la valeur maximale de rfrence au sein des deux
matrices (ce type de graphique est facilement ralisable avec un tableur).

4
Agri CadSup Empl Etud Agri CadSup Empl Etud
SA Arti ProfInt Ouv Retrai SA Arti ProfInt Ouv Retrai

< 25 < 25

25 - 35 25 - 35

35 - 45 35 - 45

45 - 55 45 - 55

55 - 65 55 - 65

> 65 > 65

Cartogramme des effectifs observs Cartogramme des effectifs thoriques

Ltape suivante consiste dresser une matrice des diffrences entre situation observe et
situation thorique. Une forte diffrence positive reprsente une survaluation de la ralit par
rapport au cas thorique et vice versa.

Tableau des diffrences


SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai
<25ans -5.69 -2.28 -2.85 -3.27 -2.28 -1.84 -0.99 20.61 -5.41
25-35a 2.23 -1.11 0.61 -1.08 0.89 1.64 2.03 -2.58 -2.64
35-45a 1.37 -0.05 2.69 1.03 -0.05 1.77 0.08 -4.34 -2.50
45-55a -0.96 4.01 0.52 6.28 2.01 0.78 -0.74 -8.19 -3.72
55-65a 0.54 0.42 0.27 -1.09 -0.58 -0.24 0.49 -2.41 2.61
>65ans -1.48 -0.99 -1.24 -1.86 0.01 -2.11 -0.87 -3.09 11.64

Un cartogramme peur facilement tre ralis nouveau, on joue sur la teinte pour distinguer
les diffrences positives et ngatives.

5
Agri CadSup Empl Etud
SA Arti ProfInt Ouv Retrai

< 25

25 - 35

35 - 45

45 - 55

55 - 65

> 65

Cartogramme des diffrences (bleu, ngatives)

Les rsultats sont manipuler avec prcaution, il sagit de dnombrements et les chiffres
peuvent induire en erreur. Par exemple, une diffrence de 10 individus ne reprsente pas la
mme signification pour une population initiale de 100 individus ou de 10 000 individus.

On prfre alors une autre estimation des carts fonds sur une pondration des masses, il
( ni , j n ' i , j ) 2
sagit de la mtrique du Chi2 : Chi2 =
n' i , j

Tableau du Chi2
SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai ni.
<25ans 5.69 2.28 2.85 2.50 2.28 0.70 0.49 45.20 5.41 67.40
25-35a 1.79 1.11 0.27 0.56 0.71 1.14 4.24 1.45 2.64 13.91
35-45a 0.72 0.00 5.49 0.54 0.00 1.40 0.01 4.34 2.50 14.99
45-55a 0.19 8.12 0.11 10.59 2.04 0.14 0.31 8.19 2.93 32.62
55-65a 0.20 0.30 0.10 1.09 0.58 0.05 0.47 2.41 4.92 10.12
>65ans 0.88 0.99 1.24 1.86 0.00 2.11 0.87 2.34 57.49 67.79
n.j 9.47 12.80 10.06 17.14 5.62 5.54 6.39 63.92 75.88 206.83

6
o n = 206.33 est le Chi2 total (somme des cellules)
ni est le Chi2 de chaque ligne de la matrice
nj est le Chi2 de chaque colonne de la matrice
i2, j est le 2 de chaque cellule

Si lhypothse dindpendance mathmatique est vrifie, les valeurs du Chi2 total sont
distribues selon une loi de Pearson dont la table qui suit donne les valeurs pour un risque
derreur choisi (colonnes, en pourcentage) et un nombre v de degr de libert (en lignes,
v = (h-1)*(k-1) avec h et k le nombre de modalits des variables 1 et 2).

1% 2.50% 5% 10% 1% 2.50% 5% 10%


1 6.63 5.02 3.84 2.71 16 32 28.84 26.3 23.54
2 9.21 7.38 5.99 4.61 17 33.41 30.19 27.59 24.77
3 11.34 9.35 7.81 6.25 18 34.8 31.53 28.87 25.99
4 13.28 11.14 9.49 7.78 19 36.19 32.85 30.14 27.2
5 15.09 12.83 11.07 9.24 20 37.57 34.17 31.41 28.41
6 16.81 14.45 12.59 10.64 21 38.93 35.48 32.67 29.61
7 18.47 16.01 14.07 12.02 22 40.29 36.78 33.92 30.81
8 20.09 17.53 15.51 13.36 23 41.64 38.08 35.17 32.01
9 21.67 19.02 16.92 14.68 24 42.98 39.37 36.41 33.2
10 23.21 20.48 18.31 15.99 25 44.31 40.65 37.65 34.38
11 24.72 21.92 19.67 17.27 26 45.64 41.92 38.88 35.56
12 26.22 23.34 21.03 18.55 27 46.96 43.19 40.11 36.74
13 27.69 24.74 22.36 19.81 28 48.28 44.46 41.34 37.92
14 29.14 26.12 23.68 21.06 29 49.59 45.72 42.56 39.09
15 30.58 27.49 25 22.31 30 50.89 46.98 43.77 40.26
Table des valeurs du Chi2

Lorsque v est suprieur 30, la valeur du Chi2 sobtient par la formule suivante :

= (u + )
2
( 2v 1)
2

o u = 1.2816 pour = 10 % ;
u = 1.6449 pour = 5 % ;
u = 1.96 pour = 2.5 % ;
u = 2.3263 pour = 1 %.

7
Avec notre exemple, v = (6-1)*(9-1) = 40.
La valeur du Chi2 thorique calcule avec la formule prcdente est gal 55.47 pour un
risque derreur = 5 %.

Lorsque la valeur du Chi2 issue du tableau des observations est infrieure celle issue de la
table thorique, le test dindpendance mathmatique est vrifie, il ny a alors pas de lien
entre les deux variables. Inversement, lorsque le Chi2 observ est suprieur au Chi2
thorique , le test dindpendance mathmatique nest pas vrifi, les variables sont donc
dpendantes (corrles dirait-on avec des variables quantitatives).

Dans notre exemple, Chi2observ = 206.83 suprieur Chi2thorique = 55.47, donc la variable
tranche dge est celle catgorie socioprofessionnelle sont lies dans la population
enqute.

ce niveau, la liaison entre les variables tant dmontres, il est possible de la quantifier par
un coefficient variant de 0 1. Nous retenons celui de Tschuprow qui mesure, la racine
carre prs, le rapport entre le Chi2thorique et la Chi2maximum si les variables taient
indpendantes. On peut traduire ce coefficient comme un pourcentage dinformation
explique par la liaison (quivalent au coefficient de dtermination avec des variables
quantitatives). Il sobtient par la formule :

observ
2
T =
(N . v )

Dans notre exemple, T = 0.41 soit 41 % dinformation explique.

Une dernire tape consiste dterminer la contribution de chaque cas au Chi2. La


contribution dune cellule correspond sa part relative dans la valeur du Chi2. Do la
matrice suivante :

8
Table des contributions au CHI2
SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai ni.
<25ans 2.75 1.10 1.38 1.21 1.10 0.34 0.24 21.85 2.62 32.59
25-35a 0.87 0.54 0.13 0.27 0.34 0.55 2.05 0.70 1.28 6.73
35-45a 0.35 0.00 2.65 0.26 0.00 0.68 0.00 2.10 1.21 7.25
45-55a 0.09 3.93 0.05 5.12 0.99 0.07 0.15 3.96 1.42 15.77
55-65a 0.10 0.15 0.05 0.53 0.28 0.02 0.23 1.17 2.38 4.89
>65ans 0.43 0.48 0.60 0.90 0.00 1.02 0.42 1.13 27.80 32.77
n.j 4.58 6.19 4.86 8.29 2.71 2.68 3.09 30.91 36.69 100.00

La contribution est une variable quantitative, en y appliquant les rgles de cartographie


statistique on obtient un cartogramme synthtique. Notons que si les individus de la matrice
initiale reprsentaient des entits gographiques, on pourrait dresser une carte des valeurs de
contribution.

SA Agri Artisa CadSup ProfInt Empl Ouv Etud Retrai


<25ans
25-35a
35-45a
45-55a
55-65a
>65ans

Le test du Chi2 est souvent utilis pour lanalyse des rsultats dune enqute, le but recherch
tant didentifier des ensembles de variables dpendantes ou indpendantes de manire
progresser dans la comprhension de lanalyse globale. En aucun cas on ne doit rduire
lanalyse des donnes celle du Chi2, il faut poursuivre au contraire vers la voie de lanalyse
multivarie exploratoire seule capable de dgager de vritables structures dans lorganisation
des donnes.

9
Test du Chi2 et cartographie

TZAU
NIVEQUIP 1 2 3 4 5 6 7 Total
0 6 3 23 1 1 27 61
1 2 6 3 29 2 6 28 76
2 4 13 2 21 2 19 61
3 9 1 12 1 1 33 57
4 1 9 3 12 1 15 41
5 3 8 4 5 2 16 38
6 2 7 12 2 11 34
7 4 5 6 2 6 23
8 3 6 9
9 6 5 2 2 6 21
10 1 1 1 3 6
11 1 1 2 4
12 1 1 4 4 10
13 4 1 1 1 7
14 1 1 2 1 5
15 2 2 3 2 1 10
16 1 1 1 1 4
17 1 2 1 2 3 9
18 1 2 1 4
19 1 1 1 1 4
20 1 1 1 1 4
21 1 1 2
22 1 1 2
23 1 2 1 1 5
24 1 1 2
26 1 1 1 3
27 4 1 5
28 1 1 1 3
29 1 1 1 3
30 1 1 1 3
31 1 2 3
32 1 1 1 2 5
33 3 1 4
34 1 1 2 4
35 1 1 3 5
36 6 6
Total 50 93 19 158 14 23 186 543
1 :ple urbain, unit urbaine qui offre au moins 5 000 emplois sur son territoire ; 2 :
commune pri-urbaine, au moins 40% des habitants actifs travaillent dans un mme
ple urbain ; 3 :commune multipolarise, commune envoyant au moins 40% de ces
actifs vers plusieurs ples urbains ; 4 : commune sous faible influence urbaine ; 5 :
ple rural ; 6 : commune sous influence du ple rural ; 7 : rural isol.

10
Dans un dernier exemple nous prsentons une analyse bivarie de deux variables qualitatives
le zonage INSEE des communes (7 modalits) et leur niveau dquipement (37 modalits)
pouvant se traduire par une reprsentation cartographique. Notons que le niveau dquipement
peut tre envisage soit sous langle dune variable qualitative soit quantitative discrte en
tant que dnombrement dquipements prsents sur la commune. Le tableau initial prsent
plus haut donne voir comment se ventilent les modalits des deux variables les unes par
rapport aux autres.

NB TZAU TZAU
NIVEQUIP 1 2 3 4 5 6 7 Total
0 1.449426688 0.488559993 0.090575073 0.400778049 0.053821937 0.250516102 0.460278512 3.193956355
1 0.921154556 0.976000016 0.011263482 0.553269418 0.000216172 0.619881793 0.038345321 3.12013076
2 0.120111781 0.160920025 0.002185037 0.153602722 0.405839473 0.03403747 0.044349056 0.921045563
3 1.354382315 0.015365238 0.127954474 0.327162235 0.038723436 0.213804166 2.399798207 4.477190071
4 0.526464459 0.143760036 0.440754554 0.000105931 0.272777351 0.080631494 0.016785502 1.481279326
5 0.018368826 0.088226674 1.383869766 0.856216273 0.252818032 0.024437496 0.176453348 2.800390415
6 0.105386319 0.061367194 0.306993325 0.115774379 0.226205608 0.056161258 0.009258034 0.881146117
7 0.431618813 0.07371071 0.207671955 0.018487883 0.153021441 0.27870909 0.115572891 1.278792782
8 0.213849839 0.356140464 0.081262939 1.12652847 0.059877955 0.098370926 0.795521402 2.731551995
9 0.498982958 0.414395656 0.189613524 0.052078043 1.013910095 0.357753514 0.051087445 2.577821236
10 0.14256656 0.000191622 0.054175293 0.08222391 1.191907354 0.065580617 0.112064214 1.648709569
11 0.279546886 0.037354738 0.036116862 0.300340219 0.026612424 0.043720412 0.074709476 0.798401017
12 0.00175737 0.076530649 0.090292154 0.105410225 0.066531061 0.109301029 0.024870966 0.474693455
13 4.507389777 0.008514574 0.063204508 0.525595383 0.960263366 0.430722208 0.618738868 7.114428683
14 0.163189288 0.006217742 0.045146077 0.052705113 0.033265531 0.054650514 0.076530649 0.431704913
15 0.326378575 0.012435483 0.090292154 0.000722157 3.037740361 0.109301029 0.443154353 4.020024113
16 0.279546886 0.037354738 0.036116862 0.005956064 2.012640973 0.043720412 0.353565068 2.768901002
17 0.009133764 0.035202187 0.384579547 0.037729007 0.059877955 0.098370926 0.000574865 0.625468252
18 0.279546886 0.651253242 0.036116862 0.005956064 0.026612424 0.043720412 0.353565068 1.396770957
19 0.279546886 0.037354738 0.036116862 0.005956064 0.026612424 0.043720412 0.025805697 0.455113083
20 0.279546886 0.037354738 1.363692912 0.005956064 0.026612424 0.043720412 0.353565068 2.110448504
21 0.932618158 0.088391267 0.018058431 0.077492745 0.013306212 0.021860206 0.176782534 1.328509553
22 0.932618158 0.088391267 3.189301477 0.150170109 0.013306212 0.021860206 0.176782534 4.572429963
23 0.163189288 0.394118355 0.045146077 0.03669976 0.033265531 0.054650514 0.076530649 0.803600175
24 0.932618158 0.088391267 0.018058431 0.077492745 0.013306212 0.021860206 0.176782534 1.328509553
26 0.07128328 0.118713488 0.027087646 0.004773273 0.019959318 0.032790309 0.000191622 0.274798935
27 7.022037952 0.006217742 0.045146077 0.375425273 0.033265531 0.054650514 0.441956334 7.978699424
28 0.489316946 0.118713488 0.027087646 0.004773273 0.019959318 0.032790309 0.265173801 0.95781478
29 0.489316946 0.118713488 0.027087646 0.225255164 0.019959318 0.032790309 0.000191622 0.913314492
30 0.07128328 0.1325869 0.027087646 0.004773273 0.019959318 1.54740504 0.000191622 1.803287079
31 0.489316946 0.1325869 0.027087646 0.225255164 0.019959318 0.032790309 0.237426976 1.164423259
32 0.163189288 0.006217742 0.045146077 0.03669976 0.033265531 3.896162247 0.441956334 4.622636979
33 0.095044373 0.176782534 0.036116862 0.747428498 0.026612424 0.043720412 0.025805697 1.1515108
34 0.279546886 0.176782534 0.036116862 0.005956064 9.002908511 0.043720412 0.353565068 9.898596336
35 0.163189288 0.220978167 0.045146077 0.375425273 1.518870181 0.054650514 0.249670837 2.627930338
36 13.86026389 0.265173801 0.054175293 0.450510328 0.039918637 0.065580617 0.530347601 15.26597017
Total 38.34272915 5.850969396 8.745844118 7.530684375 20.77370937 9.058113813 9.697949776 100

Le Chi2 calcule (387.52) est largement suprieur celui donn par la loi de probabilit
(260.93), lhypothse dindpendance statistique est donc rejete. Le coefficient de

11
Tschuprow est de 0.22, il exprime une relation de lordre de 22% entre les modalits des deux
variables, cest peu mais lanalyse de la contribution au Chi2 permet dobserver comment se
ventilent de manire diffrentielle les liens entre les modalits.

La figure sui suit prsente la forme de la distribution des contributions au Chi2 et une
synthse statistique. La forte asymtrie est nette, seules quelques rares cas contribuent
efficacement au Chi2 (les cellules en rouge dans le tableau de contribution).

0.9

0.8
min 0.000105931
0.7
d1 0.012522556
0.6 q1 0.033265531
med 0.085225292
0.5 q3 0.302003495
d9 0.790712112
0.4 max 13.86026389
moy 0.396825397
0.3 ect 1.228807259
asym 7.606994426
0.2

0.1

0
0 2 4 6 8 10 12 14

Nous utilisons les paramtres statistiques prsents dans la figure afin de raliser une
discrtisation de la variable contribution au Chi2, soit en tout 6 classes. On obtient alors un
cartogramme (cf. plus bas).

12
Cartogramme des contributions au Chi2

NIVEQUIP 1 2 3 4 5 6 7
0 6 5 4 5 3 4 5
1 6 6 1 5 1 5 3
2 4 4 1 4 5 3 3
3 6 2 4 5 3 4 6
4 5 4 5 1 4 3 2
5 2 4 6 6 4 2 4
6 4 3 5 4 4 3 1
7 5 3 4 2 4 4 4
8 4 5 3 6 3 4 6
9 5 5 4 3 6 5 3
10 4 1 3 3 6 3 4
11 4 3 3 4 2 3 3
12 1 3 4 4 3 4 2
13 6 1 3 5 6 5 5
14 4 1 3 3 3 3 3
15 5 1 4 1 6 4 5
16 4 3 3 1 6 3 5
17 1 3 5 3 3 4 1
18 4 5 3 1 2 3 5
19 4 3 3 1 2 3 2
20 4 3 6 1 2 3 5
21 6 4 2 3 2 2 4
22 6 4 6 4 2 2 4
23 4 5 3 3 3 3 3
24 6 4 2 3 2 2 4
26 3 4 2 1 2 2 1
27 6 1 3 5 3 3 5
28 5 4 2 1 2 2 4
29 5 4 2 4 2 2 1
30 3 4 2 1 2 6 1
31 5 4 2 4 2 2 4
32 4 1 3 3 3 6 5
33 4 4 3 5 2 3 2
34 4 4 3 1 6 3 5
35 4 4 3 5 6 3 4
36 6 4 3 5 3 3 5

Il est ensuite possible de raliser une carte statistique, chaque individu ici des communes
est identifi par une modalit de niveau dquipement et une modalit du zonage INSEE, soit
en tout : 37 * 7 = 259 possibilits. On constate sur la matrice de contingence initiale que 115
cas thoriques ne sont pas observs et que dautres ne sont que trs peu prsentes.

La figure qui suit prsente le rsultat cartographique. La classe du dernier dcile stend de
0.79 14 % de contribution au Chi2. Cette forte htrognit rend difficile linterprtation,
on observe cependant une forte diffrenciation spatiale qui fait ressortir sans doute des
particularits locales telles quune commune surquipe en rural isole ou alors sous
quipe en ple urbain.

13
On peut lgitimement se poser la question de la lgitimit dune telle analyse qui relve plus
de lexception. Nous proposons donc de regrouper les niveaux dquipements en classe
dabondance dquipement selon le mme principe que celui appliqu une discrtisation
dune variable continue (4 modalits rparties de 0 8, de 9 16, de 17 24 et plus de 24
quipements). La nouvelle distribution des contributions au Chi2 reste fortement asymtrique
droite, le coefficient de Tschuprow garde les mmes proprtions : T = 0.24 soit 24%
dinformation explique.

14
1
0.9
0.8 min 0.000144676
d1 0.116812005
0.7
q1 0.207894334
0.6 M 0.886762941
0.5 q3 2.465620832
0.4 d9 7.245786989
max 47.30541005
0.3
moy 3.571428571
0.2 asym 4.575545577
0.1
0
0 5 10 15 20 25 30 35 40 45

La carte obtenue est en revanche trs diffrente. Elle est proche de celle de la rpartition des
zones INSEE. En regroupant les modalits de niveau dquipement on fait ressortir le fait que
ceux-ci se rpartissent prfrentiellement selon linfluence dominante dans la commune, do
la similitude avec la carte du zonage INSEE.

Ctr. au KHI2
min

dcile 1
quartile 1
mdiane
quartile 3
dcile 9
max

En jaune, les ples urbains


p le u r b a in
c o m m u n e p r i- u r b a i n e
c o m m u n e m u lt ip o la r is e
c o m m u n e s o u s f a ib l e in f lu e n c e u r b a in e
p le r u r a l
c o m m u n e s o u s in f lu e n c e d u n p le r u r a l
r u r a l is o l

15
Cependant, on constate que le rural isol apporte une contribution plus significative que
celle des communes mulitpolarises , ce qui se comprend aisment puisquon peut
supposer que lon trouvera proportionnellement plus dquipement dans le rural isol il y en
a peu mais il en faut un minimum que dans les secteurs multipolariss o lessentiel des
services est concentr sur les ples les plus proches. Lanalyse de la couronne de
lagglomration paloise est riche de renseignements en ce sens.

TZAU
1 2 3 4 5 6 7
08
9 16
17 24
plus de 24

Ces deux exemples illustrent les prcautions prendre au cours de lanalyse des donnes. Il
est fondamental de rester trs critique quant la mthode et aux donnes elles-mmes. On a
pu le constater, un codage modifie considrablement les rsultats. Prudence donc

16
Dune variable quantitative une variable qualitative

On est souvent emmen coder une variable quantitative en une variable qualitative pour
permettre lanalyse globale de la matrice. La figure qui suit prsente les artfacts de cette
transformation.

17
On retient deux variables quantitatives trs fortement corrles titre dexemple : volution
de la population des communes des Pyrnes-Atlantiques de 1975 1982 et de 1982 1990.
On applique tout dabord chacune de ces deux variables une mthode de discrtisation
couramment utilise (cf. cours La cartographie statistique) : standardisation ; progression
arithmtique ; quantile dordre k. Les limites des cases des cartogrammes correspondent aux
bornes des classes, les cercles proportionnels sont relatifs leffectif des classes.

Pour chaque cas, un tableau de contingence est dress pour raliser un test du Chi2 et calculer
une matrice de contributions. Cette matrice subit une discrtisation selon des quantiles dordre
k et une progression arithmtique (la mthode est indique entre parenthses dans la figure).
Les deux colonnes de la figure distinguent les deux cas, les cellules des diffrents
cartogrammes sont associes une teinte relative leur valeur de contribution.

La lecture rapide des diffrents cas souligne de forts carts directement induits par les
mthodes de discrtisation utilises pour coder les variables quantitatives initiales. On
constate de plus que les valeurs de contribution varient galement de manire significative
selon des diffrents scnarios. Lexemple le plus pertinent, cest--dire celui qui respecte les
formes de distribution naturelle des diffrentes variables, est celui en bas gauche de la
figure. Les deux variables initiales tant trs fortement corrles, on retrouve logiquement les
plus fortes valeurs de contribution au Chi2 dans la diagonale du cartogramme. Celles-ci
dcroissent au fur et mesure que lon sen loigne, quelques cellules soulignent des carts
marqus par rapport la tendance globale.

Cet exemple renforce linvitation la prudence voque plus haut. Nanmoins, une
discrtisation fonde sur le respect de la forme des distributions donnent des rsultats fiables.
Il faut savoir perdre sur les dtails pour gagner sur la global comme nous le verrons avec
lanalyse exploratoire des donnes et lexemple des Analyses Factorielles des
Correspondances.

18

Vous aimerez peut-être aussi