Modelisation Stat-Bivarie
Modelisation Stat-Bivarie
Modelisation Stat-Bivarie
Couple de variables
Marie-Luce Taupin
[email protected]
2015-2016
> head(Donnees)
AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
1 58 F NE C 13.25 non 5 43 2 0 11
2 40 M W M 12.50 non 7 38 2 0 7
3 29 M S C 14.00 non 5 42 2 0 15
4 59 M NE D 10.60 oui 3 39 4 1 7
5 51 M W M 13.00 non 3 35 8 1 15
6 19 M NW C 7.00 non 3 39 6 0 16
> tail(Donnees)
AGE SEXE REGION STAT_MARI SAL_HOR SYNDICAT CATEGORIE NIV_ETUDES NB_PERS NB_ENF REV_FOYER
594 63 M NE M 10.5 non 4 40 2 0 13
595 51 F S M 29.8 non 2 42 2 0 14
596 29 F NE C 27.0 oui 1 43 2 0 15
597 57 F NW D 21.0 non 4 40 1 0 14
598 29 F W M 13.0 oui 5 39 6 4 11
599 47 M S C 14.5 non 4 39 1 0 12
> dim(Donnees)
[1] 599 11
> attach(Donnees)
> names(Donnees)
> str(Donnees)
Donnees$CATEGORIE=as.factor(Donnees$CATEGORIE)
Donnees$NIV_ETUDES=as.factor(Donnees$NIV_ETUDES)
Donnees$REV_FOYER=as.factor(Donnees$REV_FOYER)
> str(Donnees)
> summary(Donnees)
de centres x1 , · · · , xi , · · · , xp
Valeurs de Y en q classes
de centres y1 , . . . , yj . . . , yq
X , e X [ et son centre x
Confusion parfois entre la classe [ei−1 i i
nij = #{k = 1, . . . , n xk = xi et yk = yj }
X , e X [ de centre x
Si X est continue, xk = xi signifie xk ∈ [ei−1 i i
{(xi , yj , nij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
Pour i = 1, . . . , p et j = 1, . . . , q
I nij : nombre d’individus possédant la modalité xi de X et la modalité
yj de Y .
Xq
I ni• = nij : nombre d’individus possédant la modalité xi (∈ classe de
j=1
centre xi ) de X
Xp
I n•j = nij : nombre d’individus possédant la modalité yj de Y
i=1
X q
p X p
X q
X
I n= nij = ni• = n•j ; nombre total d’individus de la
i=1 j=1 i=1 j=1
population.
REGION
SEXE NE NW S W
F 61 62 97 77
M 68 60 103 71
> addmargins(TabContEf)
REGION
SEXE NE NW S W Sum
F 61 62 97 77 297
M 68 60 103 71 302
Sum 129 122 200 148 599
nij
I fij = : proportion d’individus possédant la modalité xi de la variable
n
X et la modalité yj de la variable Y .
X q
I fi• = fij : fréquence de la modalité xi de X
j=1
p
X
I f•j = fij : fréquence de la modalité yj de Y
i=1
p X
X q p
X q
X
I 1= fij = fi• = f•j
i=1 j=1 i=1 j=1
{(xi , yj , fij ) ; 1 ≤ i ≤ p, 1 ≤ j ≤ q}
> print(TabContFr)
REGION
SEXE NE NW S W
F 0.1018364 0.1035058 0.1619366 0.1285476
M 0.1135225 0.1001669 0.1719533 0.1185309
> print(round(TabContFr,2))
REGION
SEXE NE NW S W
F 0.10 0.10 0.16 0.13
M 0.11 0.10 0.17 0.12
> addmargins(round(TabContFr,2))
REGION
SEXE NE NW S W Sum
F 0.10 0.10 0.16 0.13 0.49
M 0.11 0.10 0.17 0.12 0.50
Sum 0.21 0.20 0.33 0.25 0.99
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 19 / 68
Tableau de contingence en % : SEXE x REGION
> TabContPr<-100*prop.table(TabContEf)
> print(TabContPr)
REGION
SEXE NE NW S W
F 10.18364 10.35058 16.19366 12.85476
M 11.35225 10.01669 17.19533 11.85309
> print(round(TabContPr,2))
REGION
SEXE NE NW S W
F 10.18 10.35 16.19 12.85
M 11.35 10.02 17.20 11.85
> addmargins(round(TabContPr,2))
REGION
SEXE NE NW S W Sum
F 10.18 10.35 16.19 12.85 49.57
M 11.35 10.02 17.20 11.85 50.42
Sum 21.53 20.37 33.39 24.70 99.99
REGION NE NW S W
SEXE
F 61 62 97 77 297
M 68 60 103 71 302
femme
homme
1.0
0.8
fréquences
0.6
0.4
0.2
0.0
NE NW S W
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive
Region bivariée 2015-2016 22 / 68
Représentations graphiques
> barplot(TabContFr,beside=TRUE, col=couleurs, 2)
> legend("topleft", legend=c("F", "H"), col=couleurs,pch=15)
0.5
femme
homme
0.4
0.3
fréquences
0.2
0.1
0.0
NE NW S W
F M
NE
NW
REGION
S
W
SEXE
> print(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 262 31 3 1
M 244 49 7 2
> addmargins(TabContEf)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 262 31 3 1 297
M 244 49 7 2 302
Sum 506 80 10 3 599
> print(TabContFr)
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.437395659 0.051752922 0.005008347 0.001669449
M 0.407345576 0.081803005 0.011686144 0.003338898
> print(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
F 0.44 0.05 0.01 0.00
M 0.41 0.08 0.01 0.00
> addmargins(round(TabContFr,2))
SALAIRE
SEXE (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
F 0.44 0.05 0.01 0.00 0.50
M 0.41 0.08 0.01 0.00 0.50
Sum 0.85 0.13 0.02 0.00 1.00
SEXE
F 262 31 3 1 297
M 244 49 7 2 302
506 80 10 3 599
F M
(1.9,26.2]
SALAIRE
(26.2,50.5]
(50.5,74.8]
(74.8,99.1]
SEXE
100
80
60
SALAIRE
40
20
0
F M
Sexe
ége (ans) [16 ;32[ [32 ;48[ [48 ;64[ [64 ;80] Total
Salaire horaire
[2 ;26[ 180 156 144 26 506
[26 ;50[ 11 28 40 1 80
[50 ;76[ 0 5 4 1 10
[76 ;100] 1 0 1 1 3
Total 192 189 189 29 599
4 ...................................
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 30 / 68
Tableau de contingence : AGE x SALAIRE
> NclasseS=4 # Nombre de classes : Salaire
> SALAIRE<-cut(SAL_HOR,breaks=NclasseS)
> NclasseA=4 # Nombre de classes : Age
> Age<-cut(AGE,breaks=NclasseA)
> TabContEf<-table(Age,SALAIRE) # Tableau de contingence : Effectif
> print(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 180 11 0 1
(32,48] 156 28 5 0
(48,64] 144 40 4 1
(64,80.1] 26 1 1 1
> addmargins(TabContEf)
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 180 11 0 1 192
(32,48] 156 28 5 0 189
(48,64] 144 40 4 1 189
(64,80.1] 26 1 1 1 29
Sum 506 80 10 3 599
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 31 / 68
Tableau de contingence : AGE x SALAIRE
> print(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1]
(15.9,32] 0.30 0.02 0.00 0.00
(32,48] 0.26 0.05 0.01 0.00
(48,64] 0.24 0.07 0.01 0.00
(64,80.1] 0.04 0.00 0.00 0.00
> addmargins(round(TabContFr,2))
SALAIRE
Age (1.9,26.2] (26.2,50.5] (50.5,74.8] (74.8,99.1] Sum
(15.9,32] 0.30 0.02 0.00 0.00 0.32
(32,48] 0.26 0.05 0.01 0.00 0.32
(48,64] 0.24 0.07 0.01 0.00 0.32
(64,80.1] 0.04 0.00 0.00 0.00 0.04
Sum 0.84 0.14 0.02 0.00 1.00
100
80
60
Salaire horaire
40
20
0
20 30 40 50 60 70 80
Age
20 30 40 50 60 70 80
Age
20 30 40 50 60 70 80
Age
> margin.table(TabContEf,1)
SEXE
F M
297 302
> margin.table(TabContEf,2)
REGION
NE NW S W
129 122 200 148
> margin.table(TabContFr,1)
SEXE
F M
0.4958264 0.5041736
> margin.table(TabContFr,2)
REGION
NE NW S W
0.215 0.203 0.333 0.247
Y y1 y2 ... yj ... yq
X
x1 f1/1 f1/2 ... f1/j ... f1/q
x2 f2/1 f2/2 ... f2/j ... f2/q
.. .. .. .. ..
. . . . .
xi fi/1 fi/2 ... fi/j ... fi/q
.. .. .. .. ..
. . . . .
xp fp/1 fp/2 ... fp/j . . . fp/q
Total 1 1 ... 1 ... 1
Sur les .... personnes observées, ... sont des hommes et gagnent entre
2 et 26 dollars.
Sur les ... personnes observés, ... sont des hommes et gagnent entre 2
et 26 dollars.
Sur les .... personnes observées, ....% sont des hommes et gagnent
entre 2 et 26 dollars
Parmi les ... hommes, il y a ...% des personnes qui gagnent entre 2 et
26 dollars.
Sur les ... personnes observés, ...% sont des hommes et gagnent entre
2 et 26 dollars
Moyennes marginales x et y
p p
1X X
x = ni• xi = fi• xi
n
i=1 i=1
q q
1 X X
y = n•j yj = f•j yj
n
j=1 j=1
## A comparer avec :
> mean(AGE)
[1] 41.84975
> mean(SAL_HOR)
[1] 17.89835
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 55 / 68
Variances marginales σx2 et σy2
p p
1X X
V (x) = σx2 = ni• (xi − x)2 = fi• (xi − x)2
n
i=1 i=1
q q
1 X X
V (y ) = σy2 = n•j (yj − y)2 = f•j (yj − y)2
n
j=1 j=1
Soit aussi
p p
1X X
σx2 = ni• xi2 − (x)2 = fi• xi2 − (x)2
n
i=1 i=1
q q
1 X X
σy2 = n•j yj2 − (y )2 = f•j yj2 − (y )2
n
j=1 j=1
## A comparer avec :
> var(AGE)
[1] 199.275
> var(SAL_HOR)
[1] 127.2247
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 57 / 68
Moyennes et variances conditionnelles
Pour j = 1, . . . , q
Dist. cond. de X en effectifs/fréquences sachant que Y = yj
{(xi , ni/j ) ; 1 ≤ i ≤ p} {(xi , fi/j ) ; 1 ≤ i ≤ p}
avec
nij
ni/j = nij et fi/j =
n•j
2
Variance conditionnelle de X sachant que Y = yj : σx/j
p p
2 1 X 2 X 2
σx/j = V(x/Y=yj ) = ni/j xi − x/j = fi/j xi − x/j .
n•j
i=1 i=1
avec
nij
nj/i = nij et fj/i =
ni•
2
Variance conditionnelle de Y sachant que X = xi : σy/i
q q
2 1 X 2 X 2
σy/i = V(y/X=xi ) = nj/i yj − y/i = fj/i yj − y/i .
ni•
j=1 j=1
p
2 1 X 2
σx/j = ni/j xi − x /j
n•j
i=1
p p
1 X 2 X 2
= nij xi2 − x /j = fi/j xi2 − x /j
n•j
i=1 i=1
q
1 X 2
σy2/i = nj/i yj − y /i
ni•
j=1
q q
1 X 2 X 2
= nij yj2 − y /i = fj/i yj2 − y /i
ni•
j=1 j=1
> tapply(SAL_HOR,Age,summary)
$‘(15.9,32]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 9.00 12.00 14.14 16.34 90.00
$‘(32,48]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 10.75 15.00 18.62 22.11 74.00
$‘(48,64]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.00 13.00 19.00 20.83 25.72 99.00
$‘(64,80.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
7.65 12.00 16.00 18.97 18.00 75.00
$‘(26.2,50.5]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
25.00 38.75 49.00 47.06 56.25 70.00
$‘(50.5,74.8]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
37.00 40.25 48.50 50.30 58.75 70.00
$‘(74.8,99.1]‘
Min. 1st Qu. Median Mean 3rd Qu. Max.
28.0 44.5 61.0 52.0 64.0 67.0
Couple de variables (Marie-Luce Taupin [email protected])
Statistique descriptive bivariée 2015-2016 62 / 68
Lien entre moyennes marginales et conditionnelles
q q
1X X
x = n•j x/j = f•j x/j
n
j=1 j=1
p p
1 X X
y = ni• y/i = fi• y/i
n
i=1 i=1
q q
1X 2 1 X
σ2x = n•j x/j − x + 2
n•j σx/j
n n
j=1 j=1
p p
1X 2 1 X
σy2 = ni• y/i − y + 2
ni• σy/i
n n
i=1 i=1
> tapply(SAL_HOR,SEXE,summary)
$F
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.25 10.00 14.00 16.60 20.00 90.00
$M
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.00 11.00 15.70 19.17 23.04 99.00