Polycop PST1
Polycop PST1
Polycop PST1
Probabilités et statistique
La statistique est une discipline qui a pour objet l’analyse de données ainsi que la prévision. De-
puis les travaux de Bayes au XV III e siècle son développement s’appuie sur la théorie des probabilités.
Celle-ci est la branche des mathématiques qui essaie d’expliquer le hasard. L’un des fondateur de cette
théorie est Blaise Pascal, savant et philosophe du XV II e siècle.
0 Programme
Contenu
Probabilités et Statistiques
Objectifs
Maîtriser les bases des probabilités et des statistiques
Compétences visées
Étudier une variable aléatoire suivant une loi normale
Estimer une moyenne, une variance, une fréquence
Tester l’égalité de moyennes, de fréquences
1
1.1 Données quantitatives
Définition 1.1 Soit x = (x1 , ..., xn ) une suite de données quantitatives. L’étendue est la différence
des valeurs extrêmes. Pour x ∈ R l’effectif cumulé de x est le cardinal k(x) = Card({i, xi ≤ x}) et la
fréquence cumulée F(x) est F(x) = k(x) n . La médiane xmed divise les données en deux parties égales,
celles qui lui sont plus petites et celles qui lui sont plus grandes. On a F(xmed ) = 1/2. On définit aussi
les trois quartiles q1 , q2 = xmed et q3 par F(qi ) = 4i . La moyenne x de x est
1 n 1
x= ∑ xi = (x1 + ... + xn ).
n i=1 n
1 n
On appelle variance empirique le nombre positif v = ∑ (xi − x)2 qui est égal à x2 − x2 où x2
n i=1
1 n 1
désigne la moyenne de la suite des carrés : x2 = (x12 , ..., xn2 ) et x2 = ∑ xi2 = (x12 + ... + xn2 ).
n i=1 n
√ σ
L’écart-type est σ = v. Le coefficient de variation est le rapport .
x
Remarque 1.1 Le médiane est bien moins sensible que la moyenne aux variations des valeurs ex-
trêmes.
Remarque 1.3 Si, au lieu de donner la valeur xi du caractère de chaque individu i on donne pour
chaque valeur c j prise par le caractère le nombre n j d’invidus alors on définit la fréquence du carac-
n
tère c j par f j = nj et la fréquence cumulée Fj du caractère c j comme la somme des fréquences des
caractères inférieurs ou égaux à c j . La moyenne x se calcule par la formule
d
1 1
x= ∑ n j c j = n (n1c1 + ... + nd cd ) = f1c1 + ... + fd cd
n j=1
où d est le nombre de valeurs différentes prises par le caractère. La variance empirique est donnée par
les formules
! !
1 d d
1 d d
v = ∑ n j (c j − x)2 = ∑ f j (c j − x)2 = ∑ n j c2j − x2 = ∑ f j c2j − x2.
n j=1 j=1 n j=1 j=1
Remarque 1.4 On divise souvent l’étendue en intervalles appelés classes. On peut s’intéresser à
l’effectif n j , à l’effectif cumulé N j , à la fréquence f j et à la fréquence cumulée Fj d’une classe
n
[a j , a j+1 [ (ou ]a j , a j+1 ].) L’effectif cumulé est égal à n1 + ... + n j . La fréquence f j est égale à nj , la
fréquence cumulée Fj est la somme f1 + ... + f j . On calcule la moyenne et la variance en utilisant les
a +a
formules précédentes avec pour n j l’effectif de la classe et c j = j 2 j+1 . Pour calculer avec précision
la médiane on repère d’abord la classe médiane. C’est la classe dont la fréquence cummulée F jmed est
la première à passer 21 . On calcule alors xmed par interpolation linéaire en posant
a jmed +1 − a jmed 1
xmed = a jmed + ( − F jmed −1 ).
F jmed − F jmed −1 2
1 1
On fait de même pour les quartiles en remplaçant 2 par 4 ou 43 .
2
Exemple 1.1 Considérons une population formée de vingt réservoirs d’essence numérotés de 1 à 20.
Le caractère étudié est le volume d’essence (au litre près) contenue dans chacun des réservoirs. La
série statistique est
Les différentes valeurs c j prises par le caractère volume d’essence contenue dans chaque réservoir
sont
c1 = 53 (n1 = 1), c2 = 56 (n2 = 6), c3 = 57 (n3 = 2), c4 = 58 (n4 = 2),
c5 = 59 (n5 = 4), c6 = 60 (n6 = 3), c7 = 61 (n7 = 1), c8 = 62 (n8 = 1).
L’effectif est
n = n1 + n2 + n3 + n4 + n5 + n6 + n7 + n8
c’est à dire
n = 20 = 1 + 6 + 2 + 2 + 4 + 3 + 1 + 1.
La moyenne du caractère peut être calculée en divisant la somme des xi par l’effectif n = 20. Ça donne
1
x = 20 (60 + 59 + 57 + 61 + 57 + 56 + 58 + 59 + 60 + 56+
56 + 59 + 60 + 56 + 56 + 59 + 56 + 58 + 53 + 62) = 57, 9.
1
x= (1 × 53 + 6 × 56 + 2 × 57 + 2 × 58 + 4 × 59 + 3 × 60 + 1 × 61 + 1 × 62) = 57, 9.
20
Le calcul de la variance se fait aussi de plusieurs façons. On a
1
v= 20 ((60 − 57, 9)2 + (59 − 57, 9)2 + (57 − 57, 9)2 + (61 − 57, 9)2 + (57 − 57, 9)2 +
(56 − 57, 9)2 + (58 − 57, 9)2 + (59 − 57, 9)2 + (60 − 57, 9)2 + (56 − 57, 9)2 +
(56 − 57, 9)2 + (59 − 57, 9)2 + (60 − 57, 9)2 + (56 − 57, 9)2 + (56 − 57, 9)2 +
(59 − 57, 9)2 + (56 − 57, 9)2 + (58 − 57, 9)2 + (53 − 57, 9)2 + (62 − 57, 9)2 ) = 4, 59.
Mais on a aussi
1
v= 20 (602 + 592 + 572 + 612 + 572 + 562 + 582 + 592 + 602 + 562 +
562 + 592 + 602 + 562 + 562 + 592 + 562 + 582 + 532 + 622 ) − 57, 92 = 4, 59.
f1 = 0, 05 , f2 = 0, 3 , f3 = 0, 1 , f4 = 0, 1 ,
f5 = 0, 2 , f6 = 0, 15 , f7 = 0, 05 , f8 = 0, 05.
3
La moyenne et la variance de la série statistique précédente se calculent en utilisant les formules qui
reposent sur les f j . On obtient
et
v= (0, 05 × (53 − 57, 9)2 + 0, 3 × (56 − 57, 9)2 + 0, 1 × (57 − 57, 9)2 + 0, 1 × (58 − 57, 9)2
0, 2 × (59 − 57, 9)2 + 0, 15 × (60 − 57, 9)2 + 0, 05 × (61 − 57, 9)2 + 0, 05 × (62 − 57, 9)2 = 4, 59
ou encore
v= 0, 05 × 532 + 0, 3 × 562 + 0, 1 × 572 + 0, 1 × 582 +
0, 2 × 592 + 0, 15 × 602 + 0, 05 × 612 + 0, 05 × 622 − 57, 92 = 4, 59.
F1 = 0, 05 , F2 = 0, 35 , F3 = 0, 45 , F4 = 0, 55 ,
F5 = 0, 75 , F6 = 0, 9 , F7 = 0, 95 , F8 = 1.
On en déduit que la classe du 1er quartile est la 2ème classe (celle de 56), la classe médiane est la
4ème classe (celle de 58) et la classe du 3ème quartile est la 5ème classe (celle de 59).
Définition 1.2 Soit (x, y) = ((x1 , y1 ), ..., (xn , yn )) une suite de données quantitatives couplées. La co-
variance est
1 n
cov(x, y) = ∑ (xi − x)(yi − y) = v(xy) − v(x)v(y).
n i=1
cov(x, y)
Le coefficient de corrélation est le rapport r = ∈ [−1, 1].
σ(x)σ(y)
Proposition 1.1 Parmi les droites affines Y = aX + b, celle qui minimise le nombre
n
∑ (yi − axi − b)2
i=1
est la droite appelée droite de régression linéaire. Elle passe par (x, y) et sa représentation paramé-
trique est
cov(x, y) cov(x, y)
X 7→ Y = [y − x] + X.
v(x) v(x)
Proposition 1.2 Le coefficient de corrélation est égal à 1 ou −1 si et seulement si les (xi , yi ) sont sur
la droite de régression linéaire. Les séries statistiques sont d’autant plus corrélées linéairement que
le coefficient de corrélation est proche de 1 ou −1.
Remarque 1.5 La méthode qui consiste à minimiser ∑ni=1 (yi − axi − b)2 s’appelle la méthode des
moindres carrés. Elle est due à Gauss et Legendre (XIX e siècle).
4
1.2 Données qualitatives
Les données qualitatives peuvent parfois s’ordonner (classement) mais elles ne s’additionnent
jamais. Elles nécessitent un traitement qui diffère de celui des données quantitatives.
Définition 1.3 Soit x = (x1 , ..., xn ) une suite de données qualitatives (la variable ou le caractère)
à valeurs dans un ensemble {c1 , ..., cd } dont les éléments sont appelés modalités Pour chaque j ∈
{1, ..., d} on appelle effectif de la modalité c j le nombre n j de i tel que xi = c j et on appelle fréquence
nj
de la modalité c j le rapport (positif) f j = . On a
n
n1 + ... + nd = n et f1 + ... + fd = 1.
Exemple 1.2 Considérons les couleurs de dix feutres numérotés d’une trousse d’écolier : x1 = noir,
x2 = jaune, x3 = rouge, x4 = bleu, x5 = vert, x6 = bleu, x7 = rouge, x8 = rouge, x9 = noir, et x10 =
rouge. Ordonnons les couleurs par effectifs croissants. On obtient c1 = jaune, n1 = 1, f1 = 0, 1,
c2 = vert, n2 = 1, f2 = 0, 1, c3 = bleu, n3 = 2, f3 = 0, 2, c4 = noir, n4 = 2, f4 = 0, 2 et c5 = rouge,
n5 = 4, f5 = 0, 4. Le mode est le rouge.
mois Janv. Fév. Mars Avril Mai Juin Juil. Août Sept. Oct. Nov. Déc.
temp. 5 6 8 10 13 16 19 18 16 13 8 6
pluies 61 52 49 45 58 46 43 47 57 64 68 69
5
covariance -22
coefficient de corrélation -0,53
pente de la droite de régression -0,97
ordonnée à l’origine de la droite de régression 66
6
chance sur dix de le sectionner après la graduation 90 cm, et qu’on a une chance sur dix de le sec-
tionner sur un portion noire. On le sectionne avant la graduation 30 cm ou après la graduation 90 cm
avec quatre chances sur dix. Ceci est bien égal à la chance de le sectionner avant la graduation 30 cm
additionnée de la chance de le sectionner après la graduation 90 cm. En revanche on le sectionne avant
la graduation 30 cm ou sur une portion noire avec trente sept chances sur cent. Ceci n’est pas égal à
la chance de le sectionner avant la graduation 30 cm additionnée de la chance de le sectionner sur une
portion noire car on peut sectionner ce mètre sur une portion noire qui se situe avant la graduation 30
cm.
Lancer la pièce, lancer le dé ou sectionner au hasard le mètre constituent des expériences aléa-
toires. Les ensemble {pile, face}, {1, 2, 3, 4, 5, 6} et [0 cm, 100 cm] sont les ensembles des issues,
épreuves ou événements élémentaires associés à ces expériences aléatoires. Pile tombe, 4 sort, on
sectionne à 17,3 cm sont des événements élémentaires alors que un nombre pair sort ou on sectionne
sur une portion noire sont appeles événements associés à ces expériences. À chaque événement on
a associé un nombre, sa chance d’arriver, qui est compris entre 0 et 1. Ce nombre s’appelle la pro-
babilité de l’événement. On a ainsi muni l’ensemble des issues d’une probabilité. On parle alors
d’espace probabilisé.
Certains événements sont disjoints (on dit incompatibles). C’est le cas d’événements élémentaires
associés à une même expérience aléatoire. C’est aussi le cas de sortir un numéro supérieur ou égal à
5 et sortir un numéro inférieur ou égal à 2 dans l’expérience du lancer d’un dé. C’est encore le cas de
sectionner le mètre avant la graduation 30 cm et de sectionner le mètre après la graduation 90 cm. On
a vu que lorsque les événements étaient disjoints leurs chances ou leurs probabilités s’additionnent.
Donnons maintenant une définition mathématique des objets associés à une expérience aléatoire.
Définition 2.1 On appelle espace probabilisé (Ω, F , p) la donnée d’un ensemble Ω, d’une famille F
de sous-ensembles de Ω et d’une application p de F dans [0, 1] qui vérifient les propriétes suivantes :
— Ω ∈ F et p(Ω) = 1
— Si A ∈ F alors Ω \ A ∈ F
— Si A1 , ...., An , ... ∈ F alors la réunion des Ai est dans F
— Si A1 , ...., An , ... ∈ F sont deux à deux disjoints alors
p(A1 ∪ ... ∪ An ∪ ...) = p(A1 ) + ... + p(An ) + ...
L’ensemble Ω est appelé univers et ses éléments issues, épreuves ou événements élémentaires. Les
éléments de F s’appellent les événements et l’application p est une probabilité. Deux événements A
et B sont dits indépendants si p(A ∩ B) = p(A)p(B), ils sont incompatibles s’ils sont d’intersection
vide (disjoints) et ils sont dits équiprobables si p(A) = p(B). Un événement de probabilité 1 est dit
certain. C’est le cas de Ω. Un événement de probabilité nulle est est dit impossible. C’est le cas
de l’événement vide 0. / Si Ω est fini ou dénombrable on parle de probabilité discrète et sinon de
probabilité continue.
Exemples 2.1 Dans l’expérience de lancer du dé, les événements un nombre pair sort et un nombre
impair sort ne sont pas indépendants. En effet la probabilité de chacun d’eux est 13 alors que la
probabilité de sortir un nombre qui est pair et impair à la fois est nulle. En revanche les événements
un nombre pair sort (de probabilité 12 ) et sortir un numéro supérieur ou égal à 5 (de probabilité 13 )
sont indépendants car la probabilité de sortir un numéro pair supérieur ou égal à 5 est 16 qui est égal à
11
2 3.
Dans l’expérience du mètre sectionné les événements sectionner le mètre avant la graduation 30
3 1
cm (de probabilité 10 ) et on sectionne sur une portion noire (de probabilité 10 ) sont indépendants
3 3 1
car la probabilité de sectionner sur une portion noire avant 30 cm est de 100 qui est égal à 10 10 . En
revanche les événements sectionner le mètre avant la graduation 17,3 cm (de probabilité 0, 173) et on
1
sectionne sur une portion noire (de probabilité 10 ) sont indépendants car la probabilité de sectionner
1 1
sur une portion noire avant 17,3 cm est de 100 qui n’est pas égal à 10 × 0, 173.
7
Exemple 2.2 Probabilité uniforme sur un ensemble fini Soit n un entier naturel non nul. On pose
Ω = {1, ..., n}, on note F la famille de tous les sous-ensembles de Ω et on considère la probabilité p
définie par p(k) = 1n pour tout k ∈ Ω. Cette probabilité est la probabilité uniforme sur Ω. Si A est
un sous-ensemble de Ω alors
Cardinal de A
p(A) = .
n
Cet exemple est la généralisation du jeu de pile ou face (n = 2) et du lancer d’un dé (n = 6). Cette
probabilité permet de modéliser le tirage d’une carte dans un jeu de 32 cartes et affirme qu’on a une
chance sur huit de tirer un as au hasard.
Exemple 2.3 Le lancer de deux pièces Modélisons l’expérience aléatoire qui consiste à lancer deux
pièces indiscernables et à regarder le tirage obtenu. Il y a trois issues possibles obtenir deux piles
(I pp ), obtenir deux faces (I f f ) et obtenir un pile et un face (I f p ). Il est faux de penser que les trois
événements sont équiprobables. En effet si maintenant on marque l’une des pièces on constate que
l’événement obtenir un pile et un face (I f p ) peut être décomposé en deux événements disjoints on
obtient pile avec la pièce marquée et face avec l’autre et on obtient face avec la pièce marquée et
pile avec l’autre. On conclut alors que p(I pp ) = p(I f f ) = 41 et p(I p f ) = 12 . Une expérience équivalente
au lancer de deux pièces dont l’une est marquée est de lancer deux fois la même pièce. Si on remplace
pile et face par garçon et fille on conclut qu’une fratrie de deux enfants possède une chance sur deux
d’être formée d’un garçon et d’une fille, une chance sur quatre de deux filles et une chance sur quatre
de deux garçons.
Exemple 2.4 Le joueur obstiné Un joueur décide de lancer une pièce de monnaie jusqu’au premier
pile. C’est une expérience aléatoire qui est modélisée par un espace probabilisé qui n’est plus fini
mais dénombrable. À tout entier naturel non nul n est associé l’événement élémentaire on fait n − 1
lancers qui donnent un face puis un lancer qui donne un pile ( An ). Puisque l’issue d’un lancer est
indépendant du passé on en déduit que la probabilité de cet événement est p(An ) = 21n .
Exemple 2.5 Probabilité uniforme sur un segment Ici Ω est un segment [a, b]. La probabilité
uniforme sur Ω est la probabilité qui à tout segment [α, β] inclus dans [a, b] associe p([α, β]) = β−α
b−a .
On admet l’existence de cette probabilité. La preuve rigoureuse est due à Borel et Lebesgue au début
du XX e siècle. Cette probabilité permet de modéliser l’expérience du mètre sectionné.
Exemple 2.6 Le lancer d’une fléchette On lance une fIéchette au hasard dans une cible de rayon 1.
Si [α, β] ⊂ [0, 1] la probabilité pour que la fléchette tombe à une distance comprise entre α et β est
proportionnelle à l’aire de cette zone et vaut β2 − α2 .
Exemple 2.7 Série statistique À une série statistique x = (x1 , ..., xn ) est toujours associé un espace
probabilisé. Si les données sont qualitatives on munit l’ensemble des modalités {c1 , ..., cd } de la
probabilité définie par p(c j ) = f j où f j désigne la fréquence de la modalité. Si les données sont
quantitatives on munit R de la probabilité définie par p(]x, y]) = F(y) − F(x) où F est la fréquence
cumulée.
Définition 2.2 Soit (Ω, F , p) un espace probabilisé et A ∈ F tel que p(A) > 0. La probabilité condi-
tionnelle sachant A est la probabilité définie par
p(A ∩ B)
p(B/A) = .
p(A)
Exemple 2.8 La probabilité de sectionner le mètre sur une portion noire (événement B) sachant qu’il
0,01
est coupé avant 17,3 cm (événement A) est p(B/A) = 0,173 ' 0, 0578.
Proposition 2.1 Si A1 , ..., An ∈ F alors
p(A1 ∩ ... ∩ An ) = p(A1 )p(A2 /A1 )...p(An /A1 ∩ ... ∩ An−1 ).
L’exemple du joueur obstiné pouvait être traité à l’aide de probabilités conditionnelles et de la formule
ci-dessus.
8
2.2 Variables aléatoires
On vient de voir des espaces probabilisés associés à des expériences aléatoires. Il existe aussi
parfois des nombres naturellement associés aux événements élémentaires provenant d’expériences
aléatoires. On peut penser par exemple à des gains associés à certains tirages dans une loterie, au
nombre de faces obtenues en lançant deux pièces, la mesure de l’endroit ou on sectionne le mètre, la
distance à laquelle la fléchette se trouve du centre. Ces nombres qui sont des fonctions d’événements
aléatoires s’appellent variables aléatoires.
Définition 2.3 Soit (Ω, F , p) un espace probabilisé. Une variable aléatoire discrète X associée à
cet espace probabilisé est une application de Ω dans R qui prend un nombre de valeurs fini ou dé-
nombrable.
Remarque 2.1 On peut faire la somme ou le produit de deux variables aléatoires dès qu’elles sont
définies sur le même espace probabilisé.
Considérons une variable aléatoire discrète X sur un espace probabilisé (Ω, F , p). Puisque l’ensemble
des valeurs de X est discret, ces éléments peuvent être numérotes x1 , ..., xi , ... (1 ≤ i ≤ n) ou i ∈ N
suivant que X prend un nombre fini ou dénombrable de valeurs. On définit sur l’ensemble des valeurs
une probabilité pX appelée loi de la variable aléatoire en posant pour chaque i, pX (xi ) = pi =
p(X −1 (xi )).
Définition 2.4 L’espérance de X est le nombre
E(X) = ∑ pi xi = X
i
Proposition 2.2
V (X) = E(X 2 ) − (E(X))2
Exemple 2.9 On associe au jeu de pile ou face la variable aléatoire X qui vaut 1 quand on tombe sur
pile et 0 quand on tombe sur face. On a p1 = p0 = 12 , E(X) = 12 et V (X) = 14 .
Définition 2.6 Soit (Ω, F , p) un espace probabilisé. Une variable aléatoire continue X associée à
cet espace probabilisé est une application de Ω dans R qui prend plus qu’un nombre dénombrable
de valeurs et qui est telle que si x ∈ R alors X −1 ((−∞, x]) est un événement. On appelle fonction de
répartition de la variable aléatoire X la fonction définie par F(x) = p(X −1 ((−∞, x])). On définit
sur R une probabilité appelée loi de la variable aléatoire en posant pX (]α, β]) = F(β) − F(α).
Considérons une variable aléatoire continue X sur un espace probabilisé (Ω, F , p).
Proposition 2.3 La fonction de répartition F associée à X est croissante, à valeurs dans [0, 1] et
vérifie
lim F(x) = 0, lim F(x) = 1.
x→−∞ x→+∞
9
On suppose dorénavant que la fonction de répartition F de la variable aléatoire X est dérivable (sauf
peut-être en un nombre fini de points) de dérivée f = F 0 .
Remarque 2.3 Comme dans le cas discret l’espérance est la version probabiliste de la moyenne ou
du barycentre.
Remarque 2.4 (définition et propriétés) Une variable aléatoire X suit la loi de Poisson P (λ) de
λk
paramètre λ > 0 si pour tout k ∈ N p(X = k) = pk = exp(−λ). Alors E(X) = V (X) = λ.
k
Proposition 2.4 (Inégalité de Bienaymé-Tchebychev (XIX e siècle)) Si X est une variable aléatoire
d’espérance de variance finies alors
V (X)
p(|X − E(X)| ≥ ε) ≤ pour tout ε > 0.
ε2
2.4 Indépendance
Soient X et Y deux variables aléatoires définies sur un espace probabilisé (Ω, F , p).
10
— pour tous les i, j les événements X −1 (xi ) et Y −1 (y j ) sont indépendants dans le cas discret,
— pour tous les x, y ∈ R les événements X −1 ((−∞, x]) et Y −1 ((−∞, y]) sont indépendants dans le
cas continu.
Remarque 2.5 (proposition) Si X1 et X2 indépendantes suivent des lois de Poisson P (λ1 ) et P (λ2 )
alors X = X1 + X2 suit la loi de Poisson de paramètre P (λ1 + λ2 ).
2.5 Exercice
Comme exercice on peut calculer les espérances et les variances des différentes lois associées aux
exemples.
3 La loi binomiale
Définition 3.1 On appelle épreuve de Bernoulli (XV III e ) de paramètre p ∈ [0, 1] une expérience
aléatoire qui a deux issues, l’une appelée succès de probabilité p et l’autre appelée échec de proba-
bilité 1 − p. On lui associe la variable aléatoire Y qui affecte la valeur 1 au succès et la valeur 0 à
l’échec. On dit que Y suit une loi de Bernoulli B (p) de paramètre p.
11
Exemples 3.1 Le jeu de pile ou face est une épreuve de Bernoulli de paramètre 12 , le lancer d’un dé
avec le 1 comme seule issue gagnante est une épreuve de Bernoulli de paramètre 16 et sectionner le
mètre avec comme seule issue gagnante le sectionner avant 17,3 cm est une épreuve de Bernoulli de
paramètre 0, 173.
Proposition 3.1 Si Y est une loi de Bernoulli de paramètre p alors E(Y ) = p et V (Y ) = p(1 − p).
Si on s’intéresse au nombre de succès après avoir répéter de façon indépendante une épreuve de
Bernoulli on considère la variable aléatoire X qui est égale à X = Y1 + ... + Yn où les Yi sont des
variables aléatoires indépendantes qui suivent une loi de Bernoulli de paramètre p. La loi X compte
le nombre de succès de n épreuves de Bernoulli indépendantes et de même paramètre p.
Définition 3.2 On appelle loi binomiale de paramètres (n, p) la loi B(n, p) suivie par la somme X
de n variables aléatoires indépendantes Y1 , ...,Yn qui suivent une loi de Bernoulli de paramètre p.
n n!
Proposition 3.2 Si 0 ≤ k ≤ n sont deux entiers on pose = . Alors
k k!(n − k)!
n
n k n−k
— (a + b)n = ∑ ab (Formule du binôme de Newton (XV II e siècle)
k=0 k n
— Le nombre de sous-ensembles à k éléments dans un ensemble à n éléments est .
k
Proposition 3.3 Si X suit une loi binomiale de paramètres (n, p) alors
n
−1
pk = p(X (k)) = pk (1 − p)n−k .
k
Exemple 3.2 Si on lance n fois une pièce de monaie, la variable aléatoire nombre de piles obtenus
suit une loi binomiale B(n, 21 ) :
n 1
pk = p(on obtient k piles en n lancers) = .
k 2n
Exemple 3.3 Dans une usine de voitures on fabrique 700 voitures par jour. La probabilité pour qu’une
voiture ait besoin d’une retouche de finition est de 0, 01 et ne dépend pas des autres voitures. Le
nombre de voitures produites par jour et ayant besoin d’une retouche de finition suit donc une loi
binomiale de paramètre (700, 0, 01). La probabilité pour que 10 voitures aient besoin d’une retouche
dans la journée est
−1 700
p10 = p(X (10)) = 0, 0110 0, 99690 ,
10
c’est à dire p10 = 0, 0710. Un calcul donne p4 = 0, 0909, p5 = 0, 1278, p6 = 0, 1495, p7 = 0, 1498,
p8 = 0, 1310 et p8 = 0, 1018. On en déduit que la probabilité pour que des retouches soient nécessaires
pour quatre à dix voitures est de p = p4 + p5 + p6 + p7 + p8 + p9 + p10 c’est à dire p = 0, 82. Il faut
prévoir l’effectif de l’atelier des retouches en conséquence.
Proposition 3.4 Si la variable aléatoire X suit une loi binomiale de paramètres (n, p) alors
p
E(X) = np, V (X) = np(1 − p) et σ(X) = np(1 − p).
Exemple 3.4 Dans l’usine considérée précédemment il y a en moyenne 7 voitures par jour qui ont
besoin d’une retouche (n = 700 et p = 0, 001) avec une variance de 6,93. Un calcul utilisant l’inégalité
de Bienaymé-Tchebychev assure que la probabilté que des retouches soient nécessaires pour au plus
15 voitures est d’au moins 0,91.
Remarque 3.1 Si n est grand et p petit, la loi de Poisson P (np) approxime B(n, p).
12
4 La loi normale
y
√1
σ 2π
x
m
Définition 4.1 La variable aléatoire X suit une loi normale N (m, σ2 ) (ou de Gauss et Laplace (XIX e
siècle)) de moyenne m et d’écart-type σ ≥ 0 si sa densité est la fonction
1 1 x−m 2
f (x) = √ e− 2 ( σ ) .
σ 2π
Si m = 0 la loi et dite centrée, si σ = 1 elle est dite réduite.
Proposition 4.2 Si la variable aléatoire X suit une loi normale N (m, σ2 ) alors la variable aléatoire
X −m
Y= suit la loi normale centrée réduite N (0, 1).
σ
Remarque 4.1 La loi normale est assez simple puisqu’elle est caractérisée totalement par deux para-
mètres, son espérance (sa moyenne) et sa variance (ou l’écart-type). Plus σ est petit plus la probabilité
se concentre vers la moyenne.
13
y
σ = 0, 66
σ=1
σ=2
x
m
Pour pouvoir faire du calcul de probabilités en relation avec la loi normale on utilise une table (papier,
électronique) qui donne avec une bonne précision la fonction de répartition
Z x
1 1 2
Π(x) = √ e− 2 t dt
2π −∞
de la loi normale centrée réduite et les propriétés de symétrie et d’homogénéité des lois normales.
y
√1
2π
t
0 x
R x − 1 t2
F IGURE 5 – L’aire hachurée est égale à Π(x) = √1 e 2 dt
2π −∞
Proposition 4.4 Si la variable aléatoire X suit une loi normale N (m, σ2 ) alors la variable aléatoire
X −m
Y= suit la loi normale centrée réduite N (0, 1). Ainsi si a < b on a
σ
a−m b−m a−m
p(X −1 ((−∞, a])) = Π( ) et p(X −1 ([a, b])) = Π( ) − Π( )
σ σ σ
et si α < β on a
p(X −1 ((−∞, m + ασ])) = Π(α) et p(X −1 ([m + ασ, m + βσ])) = Π(β) − Π(α).
14
y
√1
σ 2π
y
√1
2π
t t
m+ασ m m+βσ α 0 β
F IGURE 6 – Les aires hachurées sont égales et représentent la probabilité p(X −1 ([m + ασ, m + βσ])
(ici α < 0 < β))
Corollaire 4.1 Si la variable aléatoire X suit une loi normale N (m, σ2 ) et si 0 < a on a
a
p(X −1 ([m − a, m + a])) = 2Π( ) − 1.
σ
Exemple 4.1 Si une population se distribue selon une variable aléatoire qui suit une loi normale
N (m, σ2 ) alors on déduit de la lecture d’une table de la loi normale centrée réduite que
— 38% de la population est dans l’intervalle [m − 0, 5σ, m + 0, 5σ]
— 68% de la population est dans l’intervalle [m − σ, m + σ]
— 86% de la population est dans l’intervalle [m − 1, 5σ, m + 1, 5σ]
— 95% de la population est dans l’intervalle [m − 2σ, m + 2σ]
— 99% de la population est dans l’intervalle [m − 2, 5σ, m + 2, 5σ]
— 99,7% de la population est dans l’intervalle [m − 3σ, m + 3σ]
Signalons le bon comportement par addition des variables aléatoires qui suivent des lois normales.
Proposition 4.5 Si X1 et X2 sont des variables indépendantes qui suivent des lois normales N (m1 , σ21 )
et N (m2 , σ22 ) alors la somme X = X1 + X2 est une variable aléatoire qui suit la loi normale N (m1 +
m2 , σ21 + σ22 ).
Définition 4.2 Soient (Xi )i∈N une suite de variables aléatoires et X une variable aléatoire. On dit que
la suite (Xi )i∈N converge en loi vers la variable aléatoire X si pour tous les a < b on a
15
Ce théorème fondamental a une longue histoire qui commence avec De Moivre (XV III e siècle). Elle
se poursuit avec Gauss, Laplace (XIX e siècle), Lévy et Lindeberg (XX e siècle) et elle n’est pas encore
achevée
Remarque 4.2 Dans la pratique si les Xi sont des Bernoulli de paramètre p (c’est à dire X1 + ... +
Xn suit une binomiale de paramètres (n, p) alors on approxime cette dernière par la loi normale
N (np, np(1 − p)) dès que np et n(1 − p) dépassent 20. Dans le cas d’une variable continue on fait
l’approximation de Sn par la loi normale centrée réduite dès que n dépasse 30.
Exemple 4.2 Une personne qui remplit au hasard un questionnaire de cent questions est en train de
réaliser cent épreuves de Bernoulli indépendantes et de paramètre 21 . Le nombre de bonnes réponses
dans le questionnaire est une variable aléatoire X qui suit une loi binomiale B(100, 21 ) donc d’espé-
rance 50, de variance 25 et d’écart-type 5. La probabilité d’obtenir entre 45 et 55 bonnes réponses est
72%. Si on fait le calcul en approximant loi la binomiale B(100, 12 ) (qui est la loi de la somme de 100
variables aléatoires suivant une loi de Bernoulli de paramètre 21 donc de moyenne 12 et d’écart-type
1
2 ) par une loi normale comme dans le théorème limite central on considère alors la variable aléatoire
Y = X−505 qui est supposée suivre une loi voisine de la loi normale centrée réduite. On a donc
p(X −1 ([45, 55]) = p(Y −1 ([−1, 1]) ' Π(1) − Π(−1) = 68%.
L’expérience du questionnaire est équivalente à cent lancers d’une pièce. On a déjà vu qu’appliquer la
loi faible des grands nombres dans ce cadre ne permet pas de conclure (m = 12 , v = 14 , n = 100, ε = 20
1
).
5 Échantillonnage et estimation
5.1 Échantillonnage
On considère une population P de N individus. On s’intéresse à deux caractères des individus
de cette population, un caractère quantitatif continu et un caractère qualitatif bimodal (il prend deux
valeurs P et F). On va étudier ces caractères sur une sous-population appelée échantillon.
16
5.1.2 Le caractère qualitatif
On suppose que pour k individus de la population le caractère vaut P et donc pour N − k le
caractère vaut F. On pose p = Nk . Le caractère d’un individu pris au hasard vaut P avec la probabilité
p et F avec la probabilité 1 − p : il suit une loi de Bernoulli de paramètre p.
On prélève un échantillon de n individus au hasard. Si on suppose que la population est beaucoup
plus grande que l’échantillon on peut supposer que les caractères des individus de cet échantillon
sont indépendants et suivent la même loi de Bernoulli de paramètre p. Par conséquent le nombre
d’individus dans cet échantillon dont le caractère vaut P est une variable aléatoire X qui suit une loi
binomiale B(n, p).
La fréquence d’apparition du caractère P dans l’échantillon La fréquence des individus de l’échan-
tillon dont le caractère vaut P est la variable aléatoire F = Xn . L’espérance de F est E(F) = p et sa
variance est V (F) = p(1−p)
n . D’après le théorème limite central, si n est grand la loi de F est approxi-
mée par la loi normale N (p, p(1−p)
n ).
5.2 Estimation
L’objet de l’estimation est de déduire des propriétés d’un échantillon E les propritétés de la
population P dont il est issu. Les propriétés recherchées sont par exemple la moyenne µ d’un caractère
quantitatif, sa variance V ou la fréquence p d’apparition du caractère P dans la population totale.
Les données connues sont l’effectif n de l’échantillon, la moyenne m et la variance empirique v du
caractère quantitatif pour l’échantillon et la fréquence f à la quelle le caractère le caracère modal vaut
P dans l’échantillon.
La théorie de l’estimation a été introduite par Fisher au début du XX e siècle.
17
Le nombre λ solution du problème vérifie
r
n α
Π(λ ) = 1− .
V 2
Il est nécessaire de supposer que n est grand.
y
√ n1√
V 2π
t
x−λ x x+λ
p(F ∈ [p − λ, p + λ])
q
n−1
est égale à 2Π(λ f (1− f ) ) − 1. Or les événements F ∈ [p − λ, p + λ], p ∈ [F − λ, F + λ] et |p − F| ≤ λ
sont identiques. Par conséquent, puisque ql’échantillon dont on dispose est pris au hasard la probabilité
n−1
p(p ∈ [ f − λ, f + λ]) est égale à 2Π(λ f (1− f ) ) − 1. L’estimation de la fréquence p avec le risque α
revient à rechercher un intervalle I = [ f − λ, f + λ] dit intervalle de confiance tel que la probabilté
p(p ∈ I) = p(|p − f | ≤ λ) soit égal au seuil de confiance c = 1 − α :
p(p ∈ I) = p(|p − f | ≤ λ) = c = 1 − α.
5.3 Exemple
Un constructeur automobile généraliste souhaite déterminer le nombre parmi ses cinq millions de
clients de ceux qui lisent les publicités qu’il leur adresse personnellement. Il va utiliser un sondage
sur 200 clients. La première étape de ce sondage consiste à former un échantillon représentatif. C’est
l’échantillonnage. Choisissons comme caractère représentatif des clients le prix d’achat du dernier
véhicule acheté par le client. On suppose que ce prix d’achat suit une loi normale de moyenne 15000
18
euros et d’écart-type 5000 euros. On considérera l’échantillon pris au hasard comme acceptable si
la moyenne et l’écart-type du prix d’achat calculés sur l’échantillon sont proches de 15000 et 5000. Il
s’avère que 20% des sondés disent lire les publicités du constructeur. Recherchons avec 5% de risque
un intervalle de confiance pour le taux de lecture de la publicité. On considère que la fréquence de
lecture F d’un échantillon au hasard est une variable aléatoire qui suit la loi normale N (p, 0,20·0,80
199 )
où p est la fréquence pour la population. On recherche donc λ tel que p(|p − 0, 20| ≤ λ) = 0, 95 c’est
à dire
λ
Π( q ) = 0, 975
0,20·0,80
199
λ
ou encore Π( 0,0284 ) = 0, 975. On trouve λ = 5, 5%. On peut donc estimer avec un risque de 5% que
le taux de lecture des publicités est compris entre 14,5% et 25,5%.
p(x ≥ µ − λ) = 1 − α = c.
y
√ n1√
V 2π
t
µ−λ µ
19
Ce test présente le paradoxe suivant. Plus le risque α est petit, plus λ est grand et plus on a de
chance d’accepter l’hypothèse à tord. En revanche on réduit le risque de rejeter l’hypothèse à tord
(risque de première espèce).
On peut bien sûr résoudre le même type de question avec un caractère qualitatif. On peut mesurer
le risque de supposer qu’un échantillon appartient à la population considérée ou au moins en est
"raisonnablement proche".
Exemple 6.1 Un sous-traitant d’un grand groupe industriel s’est engagé à fournir de façon bi-quoti-
dienne aux dix usines du groupe des vitrages dont au plus 1% présentent un défaut d’aspect (6000
livraisons par an). Une livraison ne respectant cette contrainte est dite défectueuse. Le contrat stipule
que si plus de 10% des livraisons sont défectueuses le contrat peut être rompu. Le contrôle-qualité
sonde en un an et sur l’ensemble du groupe 300 livraisons au hasard et 15% des livraisons testées
sont défectueuses. On veut savoir avec un risque de 5% si le fournisseur respecte ses engagements.
Si on fait confiance au fournisseur, on peut admettre que la la fréquence F de livraisons satisfaisantes
dans un échantillon au hasard de 300 livraisons suit la loi normale N (0, 9 , 0,15·0,85
299 ) (l’écart-type est
estimé à l’aide de l’échantillon). On recherche λ ∈ R tel que la probabilité p(F ≥ 0, 9 − λ) soit égale
au seuil de confiance c = 0, 95 :
p(F ≥ 0, 9 − λ) = 0, 95.
Le nombre λ solution du problème vérifie
λ
Π( q ) = 0, 95
0,15·0,85
299
c’est à dire λ = 3, 4%. Puisque 85%< 90%-3,4% on ne doit pas considérer que le fournisseur respecte
ses engagements.
Si |m1 − m2 | ≤ λ alors avec une probabilité de 1 − α les deux échantillons proviennent de la même
population. Sinon, on rejette l’hypothèse d’égalié des moyennes.
20
Ce test présente le paradoxe suivant. Plus le risque α est petit, plus λ est grand et plus on a de
chance d’accepter l’hypothèse à tord. En revanche on réduit le risque de rejeter l’hypothèse à tord
(risque de première espèce).
Exemple 6.2 Avant de décider de la commercialisation d’un carburant moins poluant un groupe pé-
trolier souhaite s’assurer qu’il ne réduit pas la puissance des moteurs. Son bureau d’étude mesure la
puissance d’un échantillon de mille voitures représentatives du parc automobile européen alimentées
avec ce nouveau carburant. Il fait le même test de puissance sur un second échantillon de 700 voi-
tures alimentées avec le carburant classique. Pour les deux échantillons, la répartition des puissances
suit une loi normale. La moyenne est 78 CV et l’écart-type 20 CV pour le premier échantillon alors
que pour le second la moyenne est de 79 CV et l’écart-type 21 CV. Sous l’hypothèse d’égalité des
moyennes (l’essence nouvelle n’affecte pas la puissance), on peut donc admettre que la moyenne des
puissances x1 d’un échantillon de voitures alimentées avec le nouveau carburant suit la loi normale
N (P, 400) et la moyenne des puissances x2 d’un échantillon de voitures alimentées avec le carbu-
rant classique suit la loi normale N (P, 441). De plus, la variable aléatoire x1 − x2 suit la loi normale
N (0, 400 441
999 + 699 ). On recherche λ ∈ R tel que la probabilité p(|x1 − x2 | ≤ λ) soit égale au seuil de
confiance c = 0, 95 :
p(|x1 − x2 | ≤ λ) = 0, 95.
Le nombre λ solution du problème vérifie
λ
Π( q ) = 0, 975.
400
999 + 441
699
21
1 y
f1 (1− f1 ) f2 (1− f2 ) √
r
n −1 + n −1
1 2
2π
t
−λ 0 λ
λ α
Π( q ) = 1− .
f1 (1− f1 ) f2 (1− f2 ) 2
n1 −1 + n2 −1
Exemple 6.3 Deux ateliers fabriquant les mêmes pièces utilisent des méthodes de fabrication diffé-
rentes, une classique et une autre, innovante et moins bruyante. On souhaite s’assurer que la nouvelle
méthode n’engendre pas une perte de qualité. On prélève deux échantillons dans chacun des ateliers.
L’échantillon classique est composé de 300 pièces dont 30 défectueuses (fréquence 0,10). L’échan-
tillon innovant est composé de 200 pièces dont 24 défectueuses (fréquence 0,12). On peut admettre
que la fréquence F1 de pièces défectueuses dans un échantillon prélevé au hasard dans l’atelier clas-
sique est une variable aléatoire qui suit la loi normale N (p1 , 0,1·0,9
299 ) et la fréquence F2 de pièces
défectueuses dans un échantillon prélevé au hasard dans l’atelier innovant est une variable aléatoire
qui suit la loi normale N (p2 , 0,12·0,88
199 ). Sous l’hypothèse d’égalité des fréquences (p1 = p2 ), la va-
riable aléatoire F1 − F2 suit la loi normale N (0, 0,1·0,9
299 +
0,12·0,88
199 ). On recherche λ ∈ R tel que la
probabilité p(|F1 − F2 | ≤ λ) soit égale au seuil de confiance c = 0, 95 :
p(|F1 − F2 | ≤ λ) = 0, 95.
λ
Π( q ) = 0, 975.
0,1·0,9 0,12·0,88
299 + 199
22