E.P.A.C.S-TS2-Stat.à Deux Var.

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 6

E.P.A.C.S.

Le 18/06/2013
T S2

SERIES STATISTIQUES A DEUX


VARIABLES

I. Introduction et vocabulaire élémentaire


La statistique est la science qui consiste à réunir des données chiffrées (concernant des états
ou des sociétés humaines), à les analyser, à les commenter et à les critiquer. Depuis
l’Antiquité jusqu’au Moyen-âge, la statistique était essentiellement descriptive. Un exemple
nous est donné par l’Egypte ancienne où le Pharaon exigeait de ses sujets la déclaration de
leurs biens, noms, professions et moyens de subsistance afin de mieux les contrôler. Ce n’est
qu’à partir du XVIe siècle qu’elle a évolué vers l’analyse des données, essentiellement grâce à
l’astronomie : la position d’un objet céleste à partir d’une série d’observations.
Les statistiques désignent un ensemble de méthodes scientifiques visant à organiser et à
analyser des données numériques afin de pouvoir tirer des conclusions valables et à prendre
des décisions raisonnables sur la base de cette analyse. Par exemple les médias parlent de
statistiques relatives aux accidents de la route, aux réussites au baccalauréat, etc.
1) Population : Une étude statistique s’effectue sur un même ensemble appelé population.
Une population peut
être constituée de personnes, d’animaux, d’objets, de pays, etc.…
2) Individu : Tout élément d’une population.
3) Echantillon : Toute partie non vide de la population.
Exemple : Dans les démocraties mures, à la veille d’élections, les statisticiens font des
sondages portant sur un échantillon de la population électorale pour déterminer les
tendances car ne pouvant pas considérer toute la population ; ce qui aurait exigé
énormément de moyens.
4) Caractère : C’est toute propriété étudiée sur la population ou sur l’échantillon.
Il existe deux types de caractères :
 Les caractères quantitatifs (qui s’expriment par un nombre réel). Exemples : le poids,
la taille, l’âge, le
salaire mensuel, etc.…
 Les caractères qualitatifs (qui ne peuvent pas s’exprimer par un nombre réel).
Exemples : le sexe, le groupe sanguin, la race, la nationalité, etc.…

II. Série statistique à une variable :


1) Définition :
Soit E une population d’effectif total N. On s’intéresse sur E, au caractère x qui prend les
valeurs (ou modalités) x₁, x₂, …, xp ; p ∊ ℕ. n₁, n₂, …, np sont les effectifs associés
respectivement aux valeurs x₁, x₂, …, xp du caractère x. L’ensemble des couples (x₁, n₁), (x₂,
n₂), …, (xp, np) est appelé série statistique à une variable ou série statistique simple.

L’effectif total N est déterminé par : .


Exemple : On donne les notes obtenues par des élèves de terminale à la dernière composition
de mathématiques.
Le caractère étudié est la note. C’est un caractère quantitatif qui prend quatre valeurs : x1 =
8,5 ; x2 = 9 ; x3 = 11,5 et x4 = 13. Les effectifs associés sont : n1 = 2 ; n2 = 3 ; n3 = 2 et n4 = 1.

L’effectif total N = n1 + n2 + n3 + n4 = 8.

Notes xi 8,5 9 11,5 13


Effectifs ni 2 3 2 1

2) Moyenne arithmétique ; variance ; écart-type

Soit une série statistique simple.


 La moyenne de cette série est le réel noté défini par :

 La variance de cette série est le réel positif noté défini par :

 L’écart-type, noté est la racine carrée de la variance : .


Remarque : La variance est aussi notée .

Dans l’exemple précédent, on a : ;

et .

III. Séries statistiques à deux variables (ou séries statistiques doubles)


1) Définition ; étude d’un exemple

Une enquête faite sur 100 familles portant sur le nombre d’enfants par famille et le

nombre de pièce d’habitation par famille a donné les résultats suivants, consignés dans
un tableau à double entrée :
(a)

1 2 3 4 Totaux
y
0 8 3 1 0
1 2 11 3 1
2 1 10 16 3
3 0 5 13 5
4 0 1 4 8
5 0 0 1 4
Totau
N=100
x

Ce tableau est appelé tableau de contingence ou de distribution ou de corrélation.


A l’intersection de la ième ligne de la jème colonne on met l’effectif du couple , c’est-à-
dire le nombre d’individus qui présentent la valeur du caractère et la valeur du
caractère y(avec 1 ≤ i ≤ p et 1 ≤ j ≤ q).
Exemple : Il y a 16 familles de 2 enfants qui ont 3 pièces d’habitation.
 L’ensemble des triplets est appelé série statistique double.
 est la somme des effectifs de la ligne i ou encore le nombre d’individus qui ont la

valeur du caractère : .
 est la somme des effectifs de la colonne j ou encore le nombre d’individus qui ont la

valeur du caractère : .
Exemple : = nombres de familles de trois enfants.
= nombres de familles de deux pièces.
2) Séries marginales, effectifs marginaux, fréquence marginales
sont les effectifs marginaux associés respectivement aux valeurs du
caractère .

sont les effectifs marginaux associés respectivement aux valeurs


du caractère

En additionnant en ligne ou en colonne les effectifs marginaux on retrouve l’effectif total N

de la population : .

L’ensemble des couples , 1 ≤ i ≤ p, est appelé première série statistique

marginale ; sa moyenne est noté , sa variance , et son écart-type : ;

.
Dans l’exemple, vérifier que et .

L’ensemble des couples , 1 ≤ j ≤ q, est appelé deuxième série statistique

marginale, sa moyenne est , sa variance , et son écart-type : ;

Dans l’exemple, vérifier que et .


Fréquences marginales :

 La fréquence partielle du couple est . Par exemple

 La fréquence marginale de la modalité du caractère est . On a:

. .

 La fréquence marginale de la modalité du caractère y est : .

.
Exercice : Déterminer le tableau de distribution des fréquences.

3) Covariance de x et y
La covariance de la série statistique double est le réel noté ou défini
par :

.
Dans l’exemple, vérifier que = 6,85 −5,9987 = 0,8513
4) Nuage de point – point moyen

 Dans un repère orthonormé, l’ensemble des points de coordonnées dont

l’effectif n’est pas nul est le nuage de points associé à la série double ,1
≤ i ≤ p, 1 ≤ j ≤ q ; chacun de ces points est représenté par un disque de rayon

proportionnel à l’effectif (si =0, le couple n’est pas représenté).


 Le point moyen du nuage de points associés à la série statistique double est le

point G de coordonnées . Dans l’exemple on a G(2,23 ; 2,69)

Exercice : Construire le nuage de points de l’exemple précédent.

5) Série (ou distribution) conditionnelle

 L’effectif conditionnel de la modalité sachant est . C’est le nombre


d’individus ayant la
valeur du caractère sachant qu’ils ont la valeur du caractère y. ,

 La fréquence conditionnelle de sachant est . C’est la fréquence de la


modalité de
sachant que la valeur de y.

On définit de même .

Exemple : ; . ;
.
La colonne j du tableau de contingence définit la série (ou distribution) conditionnelle
de liée par la valeur de y. Les caractéristiques de la série conditionnelle
ont :

a) Pour la moyenne :

b) Pour la variance : .

Exemple :

La ligne i du tableau de contingence définit la série (ou distribution) conditionnelle de y


liée par la valeur de . Les caractéristiques de la série conditionnelle ont :

a) Pour la moyenne : .

b) Pour la variance : .
Remarques : On a :

 et .
.
La covariance peut-être un réel négatif.

6) Cas particulier : série statistique injective

Une série double est injective si et seulement si les caractères et

prennent le même nombre de valeurs n (p = q = n) et .


………
.. Ce tableau de contingence se présente plus
simplement sous la forme suivante :
………
1 0 0
..
………
0 1 0 ………
..
Le nuage de
………
points est
……… l’ensemble des n points
0 0 1
...
.

La moyenne de est : .

La variance de est : .

La moyenne de y est :

La variance de y est :

La covariance de x et de y est : .

On a aussi : .
IV. Ajustement linéaire par la méthode des moindres carrés
1) Principe :
L’ajustement linéaire par la méthode des moindres carrés du nuage des points ,

(où , ,

dans le cas d’une série double injective) consiste à déterminer une droite qui passe le plus
proche possible de
l’ensemble des points . Il existe deux droites d’ajustement appelées droites de régression :

a) La droite de régression de y en x notée passe par le point moyen . Elle a


pour équation

y=a + b avec et ou encore .

Dans l’exemple (a), déterminons l’équation de :


On a : ; d’où :
Application : Estimer le nombre de pièces d’habitation par famille correspondant à 6
enfants. ( = 6)

Réponse : Dans l’équation de , on remplace par 6 pour trouver :


soit pièces d’habitation.

b) La droite de régression de x en y noté passe par le point moyen . Elle a

pour équation avec et ou encore

Dans l’exemple (a), déterminons l’équation de :

; d’où :
Application : Estimer le nombre d’enfants par famille correspondant à 5 pièces d’habitation (
= 5)
Réponse : soit enfants.

Remarque : Les droites de régression et se coupent en .


2) Coefficient de corrélation linéaire
a) Définition :
Le coefficient de corrélation linéaire (c.c.l) entre les caractères et est le réel r
défini par :

.
b) Propriétés :

 Soient :y=a + b et : ; alors


r, a, a’ et sont de même signe.
Le coefficient de corrélation linéaire est toujours compris entre -1 est 1, c'est-à-dire

.
c) Interprétation du coefficient de corrélation linéaire :
Le (c.c.l) nous renseigne sur l’existence ou non d’une dépendance (ou corrélation) entre
les caractères étudiés et :
 Si r est proche de 1 ou de -1, on dit qu’il y’a une forte corrélation entre et

c'est-à-dire lorsque .
Si r =1 ou 1=-1, on dit qu’il y’a une corrélation parfaite entre et ; les points du
nuage sont alignés.

Si r est voisin de 0, on dit qu’il y’a une faible corrélation entre et .


Si r =0, alors il n’y a pas de corrélation entre et .

Dans l’exemple (a) on a : et = 0,69 < 0,86 ; d’où r n’est


pas proche de 1 ; donc il y a une faible dépendance entre le nombre d’enfants par famille
et le nombre de pièces d’habitation par famille.

Vous aimerez peut-être aussi