4 Chapitre III Statistique Descriptive Bivariée
4 Chapitre III Statistique Descriptive Bivariée
4 Chapitre III Statistique Descriptive Bivariée
85
Poids
75
65
55
150 155 160 165 170 175 180 185 190 195
Taille
1
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.1.3. Covariance
La covariance est définie comme
1
𝑆𝑥,𝑦 = 𝑛 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) Lorsqu’il s’agit d’une covariance d’une population
1
Et 𝑆𝑥,𝑦 = 𝑛−1 ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅) Lorsqu’il s’agit d’une covariance d’un échantillon
La covariance peut prendre des valeurs positives, négatives ou nulles
Quand 𝑥𝑖 = 𝑦𝑖 , pour tout i=1, …, n, la covariance est égale à la variance
La covariance peut également s’écrire :
1
𝑆𝑥,𝑦 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ Lorsqu’il s’agit d’une covariance d’une population
𝑛
1
𝑆𝑥,𝑦 = ∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑥̅ 𝑦̅ Lorsqu’il s’agit d’une covariance d’un échantillon
𝑛
2
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
Le résidu 𝑒𝑖 est l’erreur que l’on commet en utilisant la droite de régression pour prédire 𝑦𝑖 à
partir de 𝑥𝑖 (c’est la partie inexpliquée des 𝑦𝑖 par la droite de régression. Les résidus peuvent être
positifs ou négatifs.
La moyenne des résidus est nulle
1 𝑛 1
∑ 𝑒 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ ) = 𝑦̅ − 𝑦̅ = 0
𝑛 𝑖=1 𝑖 𝑛
4
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
𝑛
𝑆𝐶𝑅 1
𝑆𝑒2 = = ∑ 𝑒𝑖2 = 𝑆𝑦2 (1 − 𝑟 2 )
𝑛 𝑛
𝑖=1
Il n’est pas nécessaire de centrer les résidus sur leurs moyennes pour calculer la variance, car la
moyenne des résidus est nulle.
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅
SCT indique la variabilité totale de Y, c’est-à-dire l’information disponible dans les données
SCE indique la variabilité expliquée par le modèle, c’est-à-dire la variation de Y expliquée par X
SCR indique la variabilité non-expliquée par le modèle, c’est-à-dire entre les valeurs observées et
prédites
Mesure de la qualité d’ajustement
𝑆𝐶𝐸 ∑𝑛𝑖=1(𝑦𝑖∗ − 𝑦̅)2 𝑆𝐶𝑅 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦𝑖∗ )2
𝑟2 = = 𝑛 = 1 − = 1 −
𝑆𝐶𝑇 ∑𝑖=1(𝑦𝑖 − 𝑦̅)2 𝑆𝐶𝑇 ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2
𝒚𝟏 𝒚𝒌 𝒚𝑲 𝑛𝑗.
𝒙𝟏 𝒏𝟏𝟏 𝒏𝟏𝒌 𝒏𝟏𝑲 𝒏𝟏. Effectifs marginaux de x
. . . .
. . . .
. . . .
𝒙𝒋 𝒏𝒋𝟏 𝒏𝒋𝒌 𝒏𝒋𝑲 𝒏𝒋.
. . . .
. . . .
. . . .
𝒙𝑱 𝒏𝑱𝟏 𝒏𝑱𝒌 𝒏𝑱𝑲 𝒏𝑱.
𝑛.𝑘 𝒏.𝟏 𝒏.𝒌 𝒏.𝑲 𝑛.. = 𝑛
Effectifs marginaux de y
Les 𝒏𝒋. et les 𝒏.𝒌 sont appelés les effectifs marginaux. Dans ce tableau,
𝒏𝒋. représente le nombre de fois que la modalité 𝒙𝒋 apparaît, le (.) signifie que l’on ne tient pas
compte de Y (Y n’est pas fixé, elle change) (ex 𝒏𝟏. Désigne tout l’effectif des individus qui ont la
modalité/ valeur 1 de X).
𝒏.𝒌 représente le nombre de fois que la modalité 𝒚𝒌 apparaît, le (.) signifie que l’on ne tient pas
compte de X (ex 𝒏.𝟏 Désigne tout l’effectif des individus qui ont la modalité/ valeur 1 de Y).
𝒏𝒋𝒌 représente le nombre de fois que les modalités 𝒙𝒋 et 𝒚𝒌 apparaissent ensemble.
𝒏.. effectif total
5
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
On a les relations
∑𝐽𝑗=1 𝑛𝑗𝑘 = 𝑛1𝑘 + 𝑛2𝑘 + ⋯ + 𝑛𝐽𝑘 = 𝑛.𝑘 , pour tout k=1, …, K
∑𝐾𝑘=1 𝑛𝑗𝑘 = 𝑛𝑗1 + 𝑛𝑗2 + ⋯ + 𝑛𝑗𝐾 = 𝑛𝑗. , pour tout j=1, …, J
𝐽 𝐾 𝐽 𝐾
Ex. Soit le tableau de contingence suivant d’un groupe de 50 personnes réparties par groupe d’âge
(x) et par sexe (y)
H F 𝑛𝑗. 𝑓𝑗.
[0-18[ 10 20 30 30/50=0.6
[18-45[ 5 15 20 20/50=0.4
𝑛.𝑘 15 35 50
𝑓.𝑘 15/50=0.3 35/50
𝑛11 =10, 𝑛12 =20, 𝑛21 =5, 𝑛22 =15
𝑛1. = 𝑛11 +𝑛12 =10+20=30
𝑛2. = 𝑛21 +𝑛22 =5+15=20
𝑛.1 = 𝑛11 +𝑛21 =10+5=15
𝑛.2 = 𝑛12 +𝑛22 =20+15=35
𝑛.. = 𝑛11 + 𝑛12 + 𝑛21 + 𝑛22 = 10 + 20 + 5 + 15 = 50
𝑛.. = 𝑛1. + 𝑛2. = 30 + 20 = 50
𝑛.. = 𝑛.1 + 𝑛.2 = 15 + 35 = 50
6
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.3. Les fréquences partielles sur effectif total
Les fréquences partielles sur effectif total s’obtiennent en divisant chaque 𝑛𝑗𝑘 par l’effectif total.
𝑛𝑗𝑘
𝑓𝑗𝑘 =
𝑛..
La somme des effectifs partiels sur effectif total est égale à 1.
3.2.2.4. Profils lignes et profils colonnes
Un tableau de contingence s’interprète toujours en comparant des fréquences en lignes ou des
fréquences en colonnes (appelés aussi profils lignes et profils colonnes)
Les profils lignes sont définis par
(𝑗) 𝑛𝑗𝑘 𝑓𝑗𝑘
𝑓𝑘 = = , k=1, …, K, j=1,…,J
𝑛𝑗. 𝑓𝑗.
Et les profils colonnes par
(𝑘) 𝑛𝑗𝑘 𝑓𝑗𝑘
𝑓𝑗 = = , j=1, …, J, k=1,…,K
𝑛.𝑘 𝑓.𝑘
H F 𝑛𝑗.
[0-18[ 10 20 30
[18-45[ 5 15 20
𝑛.𝑘 15 35 50
Profil ligne
H F 𝑛𝑗. Total
[0-18[ =10/30=0.33 =20/30=0.66 30 1
[18-45[ =5/20=0.25 =15/20=0.75 20 1
𝑛.𝑘 15 3 50
Total =15/50=0.5 =3/50=0.06 1
Profil colonne
H F 𝑛𝑗. Total
[0-18[ =10/15=0.67 =20/35=0.57 30 =30/50=0.6
[18-45[ =5/15=0.33 =15/35=0.43 20 =20/50=0.4
𝑛.𝑘 15 3 50
Total 1 1 1
7
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.6. Variances marginales
Les variances marginales de x et de y se calculent à partir des distributions marginales suivant les
formules suivantes
𝐽
1
σ2𝑥 = ∑ 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )²
𝑛..
𝑗=1
𝐾
1
σ2𝑦 = ∑ 𝑛.𝑘 (𝑦𝑘 − 𝑦̅ )²
𝑛..
𝑘=1
Ex.
1 4 𝑛𝑗.
2 3 5 8
8 4 12 16
𝑛.𝑘 7 17 24
La moyenne marginale de x
1 1
𝑥̅̅ = 𝑛 ∑𝐽𝑗=1 𝑛𝑗. 𝑥𝑗 = 24 [(8𝑋2) + (16𝑋8)] = 6
..
La moyenne marginale de y
1 1
𝑦̅ = 𝑛 ∑𝐾
𝑘=1 𝑛.𝑘 𝑥𝑘 = 24 [(7𝑋1) + (17𝑋4)] = 3.125
..
La variance marginale de x
1 128+64
σ2𝑥 = 𝑛 ∑𝐽𝑗=1 𝑛𝑗. (𝑥𝑖 − 𝑥̅̅ )² = 24 = 8
..
La variance marginale de y
1 31.61+13.02
σ2𝑦 = 𝑛 ∑𝐾 ̅
𝑘=1 𝑛.𝑘 (𝑦𝑘 − 𝑦)²= = 1.86
.. 24
3.2.2.7. La covariance
La covariance dans le cas des données groupées est définie comme
𝐽 𝐾
1
𝑆𝑥,𝑦 = ∑ ∑ 𝑛𝑗𝑘 𝑥𝑗 𝑦𝑘 − 𝑥̅̅ 𝑦̅)
𝑛..
𝑗=1 𝑘=1
8
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.2.8. Le coefficient de corrélation
La formule du coefficient de corrélation devient
1 𝐽
∑ ∑𝐾 ̅
𝑛.. 𝑗=1 𝑘=1 𝑛𝑗𝑘 𝑥𝑗 𝑦𝑘 − 𝑥̅ 𝑦̅)
𝑟=
1 1
√ ∑𝐽𝑗=1 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )² √ ∑𝐾
𝑛.. 𝑛.. 𝑘=1 𝑛.𝑘 (𝑦𝑘 − 𝑦̅)²
Ex.
y [0-3[ [3-9[ 𝑛𝑗. 𝑛𝑗. 𝑥𝑗 𝑛𝑗. (𝑥𝑗 − 𝑥̅̅ )²
x cc 1,5 6
[0-4[ 2 2 4 6 12 90,44
[4-12[ 8 8 3 11 88 49,33
𝑛.𝑘 10 7 17 100 139,76
𝑛.𝑘 𝑦𝑘 15 42 57
𝑛.𝑘 (𝑦𝑘 − 𝑦̅)² 34,33 49,05 83,38
̅
𝒚 3,35 ̅
𝒙 5,88 𝑺𝒙,𝒚 -2,43
𝛔𝟐𝒚 4,90 𝛔𝟐𝒙 8,22 r -0,38
𝛔𝒚 2,21 𝛔𝒙 2,87 r² 0,15
9
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.2.3. Le test de Student de l’indépendance
Le principe est de formuler 2 hypothèses : H0 et son alternative H1
H0 : absence de différence ou d’effet (la variable x et y ne sont pas liées ainsi, il n’existe pas de
corrélation linéaire)
H1 : attente d’une différence ou d’un effet quelconque (+ ou -) (il existe un lien de corrélation entre
la variable x et y)
Pour utiliser ce test, il est obligatoire que x et y suivent des distributions normal (suivent la loi
normal)
𝑛−2
𝑡 = 𝑟√
1 − 𝑟²
On compare ensuite le tcalculé à une valeur de tcritique lue dans une table de Student, en fonction du
nombre de degrés de liberté et la probabilité d’erreur qu’on accepte en rejetant H0
Ddl=N-2
Si |tcalculé| > tcritique = H0 rejetée et il existe un lien de corrélation linéaire
Si |tcalculé| < tcritique = H0 est accepté et il n’existe pas de lien de corrélation linéaire
Ex.
X : ancienneté dans une entreprise
Y : salaire
N=32
r=0,4
r²=0,16
tcalculé = 2.390 > tcritique =2.042 pour 5% d’erreur accepté
H0 est rejeté, H1 est accepté, ainsi, il existe un lien entre l’ancienneté dans une entreprise et le
salaire, ici c’est plutôt l’ancienneté qui influence le salaire. Le salaire est expliqué par l’ancienneté.
Dans ce cas le r²=0.16, ce qui veut dire que 16% du salaire est expliqué par l’ancienneté et cela est
statistiquement significative.
10
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
3.3. Deux variables qualitatives
Ex.
Le tableau ci-dessous donne la répartition de 200 naissances en fonction de la parité de la maman
et le poids du nouveau-né
Primipares Multipares
Poids inférieur à 3 kg 26 20
Entre 3 et 4 kg 61 63
Supérieur à 4 kg 8 22
Est-ce qu’il existe une corrélation entre les deux caractères, la parité de la mère et le poids du
nouveau-né, sont-ils statistiquement reliés ?
Primipares Multipares 𝑛𝑗.
Poids inférieur à 3 kg 26 20 46
Entre 3 et 4 kg 61 63 124
Supérieur à 4 kg 8 22 30
𝑛.𝑘 95 105 200
H0 la parité de la mère et le poids des nouveau-nés sont indépendants
H1 la parité de la mère et le poids des nouveau-nés sont dépendants
11
Cours de Statistique et analyse des données L3 écologie et environnement
Dr Khodja I. Chapitre I1I : Statistique descriptive bivariée
Calcul de l’effectif théorique n*
Primipares Multipares
Poids inférieur à 3 kg 21.85 24.15
Entre 3 et 4 kg 58.9 65.1
Supérieur à 4 kg 14.25 15.75
Colonne 1 Colonne 2
∗ 95 𝑋 46 ∗ 105 𝑋 46
𝑛11 = 200 = 21.85 𝑛12 = 200 = 24.15
∗ 95 𝑋 124 ∗ 105 𝑋 124
𝑛21 = = 58.9 𝑛22 = = 65.1
200 200
∗ 95 𝑋 30 ∗ 105 𝑋 30
𝑛31 = = 14.25 𝑛23 = = 15.75
200 200
ꭓ2𝑜𝑏𝑠 =
∗ 2
𝐽 (𝑛𝑗𝑘 −𝑛𝑗𝑘 ) (21.85−26)² (58.9−61)² (14.25−8)² (24.15−20)² (65.1−63)² (15.75−22)²
∑𝐾
𝑘=1 ∑𝑗=1 ∗ = + + + + + =6.88
𝑛𝑗𝑘 21.85 58.9 14.25 24.15 65.1 15.75
Ddl=(2-1)(3-1)=2
En considérant le seuil de significativité de 5%, le ꭓ20.05 =5.99
Ainsi, ꭓ2𝑜𝑏𝑠 > ꭓ20.05, l’hypothèse H0 rejetée et H1 acceptée, il existe une corrélation entre les deux
variables étudiées.
12