LM231 Beatriz Michail
LM231 Beatriz Michail
LM231 Beatriz Michail
2011-2012
2
Avant-Propos
Le présent cours est une introduction aux probabilités et aux statistiques suivant les grandes
lignes de l’unité d’enseignement LM231.
Il s’avancera de manière progressive, des notions les plus simples aux plus complexes et chaque
chapitre se terminera par une synthèse permettant d’avoir une vue plus globale sur les notions
acquises au cours de celui-ci.
Sa bonne suivie nécessitera cependant certaines notions de théories autres que celle des proba-
bilités, comme celle des ensembles, le dénombrement, le calcul intégral, . . . Nous avons pour
cela regroupé dans des annexes les connaissances nécessaires de ces théories. Il sera mentionné au
lecteur quand il devra s’y reporter.
Nous avons nous même suivi cette UE en 2011 alors que nous étions étudiants, l’année où Alexander
Bulinski l’enseigna en tant que professeur invité de la Moscow State University. Nous espérons que
vous serez épris par ce cours tout autant que nous l’avons été et vous souhaitons une bonne lecture.
Enfin, nous désirons exprimer notre gratitude à nos professeurs qui nous ont transmis la pas-
sion des probabilités ; Alexander Bulinski, Amaury Lambert, Benjamin Guedj, Irina Kourkova,
Michèle Thieullen, Sophie Laruelle et Sylvain Le Corff.
Ainsi qu’à nos professeurs non-probabilistes ; Jacques Féjoz, Jean-Marie Trépreau, Patrick Polo et
Sylvie Guerre-Delabrière et au directeur de notre licence Laurent Koelblen, qui nous a énormément
soutenus et encouragés.
3
4
Table des matières
Introduction 9
I Probabilités 11
5
3.6.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.7 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7.2 Fonction génératrice et indépendance . . . . . . . . . . . . . . . . . . . . . . 74
3.7.3 Caractérisation de loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.7.4 Calcul d’espérance et de variance . . . . . . . . . . . . . . . . . . . . . . . . 78
3.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6
5.2.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
II Statistiques 127
B Dénombrement 155
B.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
B.2 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
B.3 Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
B.4 Arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
B.5 Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
7
C.1.2 Cas d’une fonction de deux variables . . . . . . . . . . . . . . . . . . . . . . 167
C.2 Critères de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
C.3 Intégrales classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
8
Introduction
9
10
Première partie
Probabilités
11
Chapitre 1
1.1 L’Univers
Définition 1.1.1 (Expérience Aléatoire). On appelle expérience aléatoire une expérience renou-
velable et qui, renouvelée dans des conditions identiques, ne donne pas forcément le même résultat.
Définition 1.1.2 (Univers). L’ensemble des issues possibles d’une expérience aléatoire donnée se
nomme l’univers (ou ensembles des issues). On le note : Ω. Un élément de Ω est donc une issue,
et on la représente par ω.
Définition 1.2.1 (Événement aléatoire). Un événement aléatoire est une sous-expérience d’une
expérience aléatoire donnée. En théorie des ensembles un événement est un sous-ensemble de Ω.
Vocabulaire 1.2.1. La théorie des probabilités peut être vue comme une manipulation d’ensembles,
vu qu’un événement (ou même l’univers) n’est qu’un ensemble. La tableau ci-dessous donne les
équivalences entre le vocabulaire utilisé en théorie des probabilités et en théorie des ensembles. Soit
Ω un univers lié à une expérience aléatoire et soit A et B deux événements de Ω, on a :
13
Notation probabiliste Notation ensembliste
Résultat possible ω∈Ω
A est un événement A∈Ω
A⇒B A∈B
A et B A∩B
A ou B A∪B
A n’est pas réalisé Ac
A est un événement irréalisable A=∅
A est un événement certain A=Ω
A et B sont incompatibles A∩B =∅
Propriétés 1.3.1. Soit A une tribu d’un univers Ω. Les propriétés suivantes sont des conséquences
directes de la définition :
1. ∅ ∈ A.
+∞
T
2. Si (An )n∈N est une suite d’éléments de A alors An ∈ A.
n=1
N
S
3. Si (Ai )0≤i≤N est une suite finie de N éléments de A alors Ai ∈ A.
i=0
N
T
4. Si (Ai )0≤i≤N est une suite finie de N éléments de A alors Ai ∈ A.
i=0
Démonstrations 1.3.1.
14
+∞
S
passage à la réunion dénombrable, et on obtient : Bn ∈ A. En réutilisant la stabilité par
n=0
+∞
Bn )c ∈ A.
S
passage au complémentaire on obtient : (
n=0
+∞ +∞
Bnc =
T T
Autrement dit : An ∈ A.
n=0 n=0
3. Soit (Bn )n∈N une suite vérifiant : ∀n ∈ [0, N ]Bn = An et ∀n > N, Bn = ∅. Alors il est
S N
S
immédiat que Bn = An . Mais en notant que les Bn ∈ A, ∀n (∅ ∈ A car c’est une tribu),
n∈N n=0 S
on peut utiliser la stabilité par réunion dénombrable, ce qui nous donne que : Bn ∈ A.
n∈N
4. La démonstration étant la même que pour la réunion finie, nous laissons le soin au lecteur
de la rédiger.
Exemples 1.3.1.
• P(Ω) est une tribu de Ω, nommée tribu discrète de Ω. (C’est la plus grande tribu de Ω)
Définition 1.3.2 (Espace probabilisable). On appelle espace probabilisable, le couple (Ω, A), où
A est une tribu de Ω
P : A → [0; 1]
15
Axiome 1 : Pour tout évènement A de A , 0 ≤ P(A) ≤ 1
Axiome 2 : P(Ω) = 1
Axiome 3 : Soit (An )n∈N une suite d’événements de A deux à deux incompatibles. On a :
[ X
P( An ) = P(An )
n∈N n∈N
Définition 1.3.4 (Espace probabilisé). On appelle espace probabilisé, le triplé (Ω, A, P), où A
est une tribu de Ω et P une probabilité.
Démonstrations 1.3.2.
1. Comme A ∪ Ac = Ω on a :
P(∅) = P(Ωc )
= 1 − P((Ωc )c )
= 1 − P(Ω)
=1−1
=0
A ∪ B = (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ A) ∪ (B ∩ Ac )
= (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ Ac )
16
Par conséquent :
P(A ∪ B) = P( (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ Ac ) )
= P(A ∩ B) + P(A ∩ B c ) + P(B ∩ Ac )
= P(A ∩ B) + P(A ∩ B c ) + P(B ∩ Ac ) + P(B ∩ A) − P(B ∩ A)
= P( (A ∩ B) ∪ (A ∩ B c ) ) + P( (B ∩ Ac ) ∪ (B ∩ A) ) − P(B ∩ A)
= P(A) + P(B) − P(B ∩ A)
4. Si A ⊂ B alors on a B = A ∪ (B ∩ Ac ) et on a donc :
P(B) = P(A ∪ (B ∩ Ac ))
= P(A) + P(B ∩ Ac ) − P( A ∩ (B ∩ Ac ) )
= P(A) + P(B ∩ Ac ) − P(∅)
= P(A) + P(B ∩ Ac ) − 0
= P(A) + P(B ∩ Ac )
P(B) ≥ P(A)
Remarque 1.3.1. On a démontré que si A et B sont deux événements d’un univers Ω, alors on
a P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
On sait que si A et B sont disjoints alors on a P(A ∩ B) = P(∅) = 0.
C’est pourquoi si A et B sont disjoints on a : P(A ∪ B) = P(A) + P(B)
Remarque 1.3.2. La propriété P(A ∪ B) = P(A) + P(B) − P(A ∩ B) existe aussi pour plus de
deux éléments. Par exemple pour 3 éléments A, B et C on a :
17
Proposition 1.3.1 (Formule de Poincaré). Soit n ≥ 2 et soit (Ai )1≤i≤n une suite d’événements
de A. On a :
n
! n
[ X X X
P Ai = P(Ai )− P(Ai ∩Aj )+ P(Ai ∩Aj ∩Ak )−...+ (−1)n−1 P(A1 ∩A2 ∩...∩An )
i=1 i=1 1≤i<j≤n 1≤i<j<k≤n
n
! n
!
[ X X
P Ak = (−1)k+1 P(Ai1 ∩ ... ∩ Aik )
k=1 k=1 1≤i1 <...<ik ≤n
n
! n
[ X X X
“P Ai = P(Ai )− P(Ai ∩Aj )+ P(Ai ∩Aj ∩Ak )−...+ (−1)n−1 P(A1 ∩A2 ∩...∩An )00
i=1 i=1 1≤i<j≤n 1≤i<j<k≤n
−→ Initialisation :
−→ Hérédité :
On a :
18
P(A1 ∪ ... ∪ An ) = P( (A1 ∪ ... ∪ An−1 ) ∪ An )
= [ P(A1 ∪ ... ∪ An−1 ) ] + P(An ) − P( (A1 ∪ ... ∪ An−1 ) ∩ An )
= [ P(A1 ∪ ... ∪ An−1 ) ] + P(An ) − P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )
n−1
X X
=[ P(Ai ) − P(Ai ∩ Aj ) + ... + (−1)n−2 P(A1 ∩ A2 ∩ ... ∩ An−1 ) ]
i=1 1≤i<j≤n−1
−→ Conclusion :
Vocabulaire 1.4.1 (ensemble discret). Un ensemble est dit discret , s’il peut être mis en bijection
avec une sous-partie de N. Discret est synonyme de dénombrable.
Exemples 1.4.1.
• L’ensemble {1, 2, 3} est discret. En effet, {1, 2, 3} peut être mis en bijection avec la sous
partie de N, {1, 2, 3} ou {13, 17, 451}.
• L’ensemble N est discret. En effet, N peut être mis en bijection avec N qui est une sous partie
de lui même.
• L’ensemble R n’est pas discret car il ne peut pas être mis en bijection avec une sous partie
de N.
19
Définition 1.4.1 (Loi de probabilité uniforme discrète). Soit Ω un univers discret fini. La loi de
probabilité uniforme discrète, est une probabilité qui associe à chaque élément ω de l’univers Ω la
même valeur.
1 1 1
P(1) = P(2) = P(3) =
6 6 6
1 1 1
P(4) = P(5) = P(6) =
6 6 6
Exemple 1.4.2. Prenons l’exemple d’un jeu de pile ou face avec une pièce non pipée.
Notons 0, l’événement “obtenir un pile” et 1 l’événement “obtenir un face”.
L’univers, qui est l’ensemble des issues possibles de cette expérience est donc égal à Ω = {0, 1}.
Soit P la loi de probabilité discrète uniforme. On a donc :
1 1
P(0) = et P(1) =
2 2
Ceci signifie que la probabilité d’obtenir un pile ou d’obtenir un face en jetant cette pièce est la
même et vaut 12 .
Exemple 1.4.3 (Cas général). Soit Ω un univers discret fini d’une expérience.
Soit P la loi de probabilité uniforme discrète.
Si le cardinal de Ω, Card(Ω), (c’est à dire le nombre d’éléments de Ω) vaut n alors on a :
1 1
∀ ω ∈ Ω, P(ω) = =
Card(Ω) n
Proposition 1.4.1. Tout événement A étant une sous partie de l’univers Ω, on en déduit que si
P est la probabilité uniforme discrète on a :
Card(A) |A|
∀A ⊂ Ω, P(A) = =
Card(Ω) |Ω|
20
Démonstration 1.4.1. En utilisant le fait que tous les ω ∈ Ω sont incompatibles, on a :
!
[ X X
P(A) = P(A ∩ Ω) = P (A ∩ {ω}) = P(A ∩ {ω}) = P(ω)
ω∈Ω ω∈Ω ω∈A
P
Donc on a démontré que pour tout événement A on a : P(A) = P(ω)
ω∈A
Comme ici P est la probabilité uniforme discrète on a :
1
∀ω ∈ Ω, P(ω) =
Card(Ω)
Donc :
X Card(A)
P(A) = P(ω) = P(ω) + ... + P(ω) = Card(A) × P(ω) =
ω∈A
| {z } Card(Ω
Card(A) fois
Exemple 1.4.4 (lancé de deux dés). Prenons l’exemple d’un lancé de deux dés non pipés.
L’univers Ω, qui est l’ensemble des issues de cette expérience, est donc égal à :
Ω = {(1, 1); (1, 2); ...; (1, 6); (2, 1); ...; (2, 6); (3, 1); ......; (6, 6)}
= {1; 2; 3; 4; 5; 6} × {1; 2; 3; 4; 5; 6}
|A| 6 1
P(A) = = =
|Ω| 36 6
Exemple 1.4.5 (Tirage de deux boules dans une urne en contenant trois). Prenons l’exemple d’un
tirage successif et sans remise de deux boules dans une urne en contenant trois. Les trois boules
contenues dans l’urne sont de différentes couleurs, il y en a une bleue, une rouge et une verte.
21
L’ordre dans lequel les boules sont tirés est noté.
L’univers Ω qui est l’ensemble des issues de cette expérience, est donc égal à :
Ω = {(Bleue, Rouge); (Rouge, Bleue); (Bleue, V erte); (V erte, Bleue); (Rouge, V erte); (V erte, Rouge)}
En utilisant la probabilité uniforme discrète, calculons l’événement RV : “Obtenir une boule rouge
et une boule verte” :
Les deux issues de Ω vérifiant l’évènement RV sont (Rouge, V erte) et (V erte, Rouge).
Donc le cardinale de RV est égal à : |RV | = 2.
On en déduit que la probabilité d’obtenir une boule rouge et une boule verte est égale à :
|RV | 2 1
P(RV ) = = =
|Ω| 6 3
Dans certains cas, le nombre d’éléments d’un ensemble étant difficile à calculer il est nécessaire
de faire appel à la théorie du dénombrement pour calculer une probabilité.
L’annexe B contient un extrait de cette théorie.
22
1.5 Synthèse
Soit Ω un univers et A et B deux évènements. On a :
• P(Ω) = 1
• P(∅) = 0
• P(A) = 1 − P(Ac )
|A|
• Si P est la probabilité uniforme discrète on a : P(A) =
|Ω|
23
24
Chapitre 2
La notion d’indépendance est intuitive. Pour la visualiser prenons l’exemple le plus récurrent :
le lancé d’un dé. On lance deux dés et on nomme A : "Avoir un 6 avec le premier dé" et B : "Avoir
un 6 avec le deuxième dé". Alors il est évident que le résultat du deuxième dé est indépendant de
celui du premier. On dit alors que les deux évènements A et B sont indépendants.
Dans la même logique comment définir la probabilité conditionnelle ? C’est en réalité une notion
qui encore une fois nous vient naturellement lorsqu’on se pose par exemple la question : "Quelle
est la probabilité qu’il pleuve sachant qu’il y a des nuages". On peut alors analyser cette question
en détachant deux évènements. Le premier serait A : "Il pleut" et le deuxième B : "Il y a des
nuages", et on souhaiterait alors trouver la probabilité de A sachant B.
Nous allons formaliser dans ce chapitre ces idées en ne traitant que le cas des évènements
aléatoires. Nous traiterons plus tard le cas des variables aléatoires.
2.1 Indépendance
Définition 2.1.1 (Évènements indépendants). Soit (Ω, A, P) un espace probabilisé et soit A et
B deux évènements définis sur cet espace. On dit que A et B sont indépendants si et seulement si
P(A ∩ B) = P(A)P(B).
Exemple 2.1.1 (lancé de deux dés). Prenons l’exemple d’un lancé successif de deux dés non pipés.
Notons A l’évènement “obtenir un 5 avec le premier dé” et B l’évènement “obtenir un 3 avec le
deuxième dé”.
Montrons que les évènements A et B sont indépendants.
Ω = {1; 2; 3; 4; 5; 6} × {1; 2; 3; 4; 5; 6}
25
Donc le cardinal de Ω est égal à : |Ω| = 6 × 6 = 36.
L’évènement A est vérifié par les issues de Ω : (5, 1), (5, 2), (5, 3), (5, 4), (5, 4) et (5, 6).
Donc le cardinal de A vaut : |A| = 6
L’évènement B est vérifié par les issues de Ω : (1, 3), (2, 3), (3, 3), (4, 3), (5, 3) et (6, 3).
Donc le cardinal de A vaut : |B| = 6
Donc
|A| 6 1
P(A) = = =
|Ω| 36 6
et
|B| 6 1
P(B) = = =
|Ω| 36 6
Donc
|A ∩ B| 1
P(A ∩ B) = =
|Ω| 36
Or
1 1 1
P(A) × P(B) = × =
6 6 36
Donc comme P(A ∩ B) = P(A).P(B) les évènements A et B sont bien indépendants.
Définition 2.1.2 (Indépendance dans leur ensemble). Soit (Ω, A, P) un espace probabilisé et soit
(Ai )i∈I une suite d’évènements aléatoires définies sur cet espace. On dit que les Ai sont indépen-
dants dans leur ensemble si et seulement si pour tout J ⊂ I on a :
\ Y
P( Aj ) = P(Aj )
j∈J j∈J
Exemple 2.1.2 (Lancé de trois dés). On se propose de lancer trois dés et d’étudier l’indépendance
de trois évènements liés à cette expérience aléatoire. Notons :
26
Calculons tout d’abord les probabilités de chaque évènement pris séparément. On obtient di-
rectement :
1 5
P(A) = P(B) = 6
et P(C) = 36
(voir le chapitre 1 pour le détails de ce calcul).
1
Donc P(A)P(B)P(C) = 6
× 61 × 5
36
= 5
1296
Remarque 2.1.1. Attention la notion d’indépendance dans leur ensemble est très forte car elle
est définie pour tout sous ensemble J de I. Donc si on a indépendance dans leur ensemble d’un
certain nombres d’évènements, on a également l’indépendance deux à deux, l’indépendance trois à
trois etc...
Lorsqu’on dit indépendance deux à deux, cela signifie par exemple dans le cas de trois évène-
ments A, B et C que :
P(A ∩ B) = P(A)P(B)
et P(A ∩ C) = P(A)P(C)
et P(B ∩ C) = P(B)P(C)
Attention : La réciproque est fausse ! Si on a l’indépendance deux à deux cela n’implique par
l’indépendance dans leur ensemble.
27
P(A ∩ B c ) = P(A) − P(A)P(B)
= P(A)(1 − P(B))
= P(A)P(B c )
c
Donc par définition : A et B sont indépendants. (On démontre de la même manière la deuxième
assertion)
Démontrons la troisième assertion :
On a : P(Ac ∩ B c ) = P(Ω) − P(A ∪ B)
Comme A et B sont indépendants, on obtient :
P(A ∩ B)
P(A|B) =
P(B)
Remarque 2.2.1. Tout d’abord cette définition n’a un sens que si P(B) > 0. Si on a P(B) = 0
alors il est évident que : P(A|B) = P(A), mais nous reviendrons plus loin dessus.
28
Remarque 2.2.2 (Fondamentale). Il est très important de remarquer que d’écrire P(A|B) n’est
qu’une notation. La probabilité conditionnelle doit être vu comme une probabilité prenant en argu-
ment l’événement A. Ainsi l’argument ne dépend pas de B. En particulier on peut alors énoncé la
proposition suivante :
Proposition 2.2.2 (deuxième définition). Soit (Ω, A, P) un espace probabilisé et soit A et B deux
évènements appartenant à cet espace. Alors :
P(B|A)P(A)
P(A|B) =
P(B)
P(A|B) = P(A)
P(A ∩ B)
P(A|B) =
P(B)
P(A)P(B)
P(A|B) = = P(A)
P(B)
29
Théorème 2.2.1 (sur l’indépendance des évènements). Soit (Ω, A, P) un espace probabilisé et A
et B deux évènements définis sur cet espace. Alors A et B sont indépendants si et seulement si :
P(A|B) = P(A)
Remarque 2.2.4. Ce théorème est fondamental et bien plus intuitif que la première définition
de l’indépendance que nous avons vue. En effet si la probabilité de A sachant B est égale à la
probabilité de A cela signifie que le fait de conditionner par B n’a aucune incidence. Donc que A
et B sont bel et bien indépendants.
On a donc aussi pu prouver la remarque 2.2.1.
Exercice 2.2.1. Soit A et B deux évènements tels que : P(A) > 0 et P(B) > 0 et tels que A et B
soient incompatibles.
30
Démonstration 2.2.3. La démonstration se fait par récurrence.
T
Soit n ≥ 2 posons : P (i) : ”P( Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )...P(An |A1 ∩ ... ∩ An−1 )”
1≤i≤n
−→ Initialisation :
Pour i = 2, c’est la formule vu à la remarque 2.2.1. P(A ∩ B) = P(B|A)P(A).
Donc P (2) est vraie.
−→ Hérédité :
Supposons P (n − 1) vraie pour un certain n, montrons que P (n) est vraie.
On a :
\ \
P( Ai ) = P(( Ai ) ∩ An )
1≤i≤n 1≤i≤n−1
\ \
= P( Ai )P(An | Ai ) (en utilisant la formule pour n = 2)
1≤i≤n−1 1≤i≤n−1
\
P( Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )...P(An |A1 ∩ ... ∩ An−1 )
1≤i≤n
Théorème 2.2.3 (Formule des probabilités totales). Soit (Ai )1≤i≤n une famille d’évènements
dénombrable incompatibles deux à deux, telle que ∀i ∈ [1, n], P(Ai ) > 0 et :
G
P( Ai ) = 1
i∈I
X
P(A) = P(A|Ai )P(Ai )
i∈I
Démonstration 2.2.4. Tout d’abord comme les évènements Ai forment une partition de l’univers,
il est évident que :
A = (A ∩ A1 ) ∪ ... ∪ (A ∩ An )
31
Donc :
n
X
P(A) = P(A ∩ Ai ) car tous les évènements sont incompatibles par hypothèse
i=1
Xn
= P(A|Ai )P(Ai )
i=1
Remarque 2.2.5. Un cas très souvent utilisé est le cas n = 2. Si on prend un évènement B tel
que : B ∪ B c = Ω, on a bien entendu B ∩ B c = ∅ par définition du complémentaire. Donc pour
tout évènement A :
Enfin nous pouvons finir ce chapitre en combinant la formule des probabilités totales à la
définition d’une probabilité conditionnelle.
Théorème 2.2.4 (Théorème de Bayes). Soit (Ai )i∈I une famille d’évènements dénombrable in-
compatibles deux à deux, telle que ∀i ∈ I, P(Ai ) > 0 et :
G
P( Ai ) = 1
i∈I
P(A|Ai )P(Ai )
P(Ai |A) = P
P(A|Aj )P(Aj )
j∈I
P(Ai ∩ A)
P(Ai |A) =
P(A)
P(A|Ai )P(Ai )
=
P(A)
P(A|Ai )P(Ai )
= P (application de la formule des probabilités totales)
P(A|Aj)P(Aj)
j∈I
32
2.3 Synthèse
Soit Ω un univers et A et B deux évènements. On a :
P(A ∩ B) P(B|A)P(A)
• P(A|B) = =
P(B) P(B)
T
• Probabilité conditionnelle en cascade : Si P( Ai ) > 0 alors :
1≤i≤n−1
\
P( Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )...P(An |A1 ∩ ... ∩ An−1 )
1≤i≤n
P
• Formule des probabilités totales : P(A) = P(A|Ai )P(Ai )
i∈I
• Théorème de Bayes : Soit (Ai )i∈I un système complet d’évènements, tel que ∀i ∈ I, P(Ai ) > 0
et A un évènement tel que P(A) > 0. On a :
P(A|Ai )P(Ai )
P(Ai |A) = P
P(A|Aj )P(Aj )
j∈I
33
34
Chapitre 3
Définition 3.1.1 (variable aléatoire). Une variable aléatoire est une fonction X, allant d’un
univers Ω dans un ensemble E.
X : Ω −→ E
ω −→ y
Définition 3.1.2 (variable aléatoire réelle). Une variable aléatoire réelle est une fonction X, allant
d’un univers Ω dans un ensemble E ⊂ R
Définition 3.1.3 (variable aléatoire réelle discrète). Une variable aléatoire réelle discrète est une
fonction X, allant d’un univers Ω dans un ensemble discrèt E ⊂ R.
Par conséquent, on peut calculer P({ω | X(ω) ∈ A}) et P({ω | X(ω) = x}).
Afin d’alléger les écritures on notera : P(X ∈ A) à la place de P({ω | X(ω) ∈ A})
et P(X = x) à la place de P({ω | X(ω) = x}).
35
Exemple 3.1.1 (lancé d’un dé). Prenons comme exemple, une variable aléatoire X affichant le
résultat d’un lancé de dé.
L’univers Ω est égal ici à {1; 2; 3; 4; 5; 6} et son cardinal est égal à : |Ω| = 6.
1 1 1 1
P(X = 3) = P(X = 4) = P(X = 5) = et P(X = 6) =
6 6 6 6
Exemple 3.1.2 (somme de deux dés). Prenons comme exemple, une variable aléatoire Y affichant
la somme obtenue après un lancé de deux dés.
L’univers Ω est égal ici à {1; 2; 3; 4; 5; 6}×{1; 2; 3; 4; 5; 6} et son cardinal est égal à : |Ω| = 6×6 = 36.
Les valeurs que peut prendre la variable aléatoire Y sont 2,3,4,5,6,7,8,9,10,11 et 12.
Donc ∀ω ∈ Ω, X(ω) ∈ {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12}.
|{(1; 1)}| 1
P(X = 2) = =
|Ω| 36
36
..
.
|{(6; 6)}| 1
P(X = 12) = =
|Ω| 36
Vocabulaire 3.1.1. Soit (Ω; A; P) un espace probabilisé et X une variable aléatoire à valeurs dans
un ensemble E.
L’ensemble des P(X = x)x∈E s’appelle la loi de X.
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
La loi de la variable aléatoire Y de l’exemple 3.0.2 est plus longue à donner, car il n’y a pas de
formule générale qui s’en dégage. La loi de Y est donc :
1
P(Y = 2) = P(Y = 12) =
36
1
P(Y = 3) = P(Y = 11) =
18
1
P(Y = 4) = P(Y = 10) =
12
1
P(Y = 5) = P(Y = 9) =
9
5
P(Y = 6) = P(Y = 8) =
36
1
P(Y = 7) =
6
Proposition 3.1.1 (Fondamentale). Soit X une variabe aléatoire réelle discrète à valeur dans E.
Alors les éléments de l’ensemble {X = x}x∈E forment une partition de l’univers.
On obtient alors par σ-additivité :
X
P(X = x) = 1
x∈E
37
Démonstration 3.1.1. Montrons tout d’abord que les événements sont incompatibles. Soient i, j ∈
E tels que i 6= j, supposons par l’absurde qu’il existe ω ∈ {X = i} ∩ {X = j}. Alors par définition
(de cette notation), X(ω) = i et X(ω) = j, ce qui est absurde.
Montrons que la réunion des événements est égale à l’univers. On peut voir directement que :
déf
[
{X = x} = {X ∈ E} = Ω
x∈E
3.2 Propriétés
Notation 3.2.1. La probabilité que X vaille x et que Y vaille y peut se noter indifféremment :
P(X = x; Y = y) ou P(X = x ∩ Y = y)
Proposition 3.2.1 (Loi marginale). Soit X une variable aléatoire à valeurs dans un ensemble EX
et Y une variable aléatoire à valeurs dans un ensemble EY . On a pour tout k ∈ EX :
X
P(X = k) = P(X = k ; Y = i)
i∈EY
38
on a :
!!
[
P(X = k) = P {X = k} ∩ {Y = i}
i∈EY
!
[
= P {X = k ; {Y = i}}
i∈EY
!
[
= P {X = k ; {Y = i}}
i∈EY
X
= P(X = k ; Y = i) (par la proposition fondamentale et l’axiome 3 de Kolmogorov)
i∈EY
Exemple 3.2.1. Soit Y une variable aléatoire ne prenant que trois valeurs : 1, 2 et 3.
Soit X une autre variable aléatoire à valeurs dans N telle que :
On sait que Y a toutes ses valeurs dans {1; 2; 3}. En utilisant la loi marginale on a :
X
P(X = 17) = P(X = 17 ; Y = k)
k∈{1;2;3}
3
X
= P(X = 17 ; Y = k)
k=1
39
3.2.2 Loi conditionnelle
Définition 3.2.1 (Loi conditionnelle). Soient X et Y deux variables aléatoires définies sur un
même espace probabilisé.
La probabilité que X vaille x en sachant que Y vaut y est égale à :
P(X = x ∩ Y = y)
P(X = x|Y = y) =
P(Y = y)
Exemple 3.2.2 (Tirage successif). Prenons l’exemple d’un tirage successif de deux boules sans
remise dans une urne contenant une boule rouge, une boule verte et une boule bleue.
Soit X la variable aléatoire rendant le résultat du premier tirage.
Soit Y la variable aléatoire rendant le résultat du second tirage.
Calculons la probabilité d’obtenir la boule bleue au second tirage en sachant qu’on a tiré la rouge
au premier :
1
P(Y = bleue ∩ X = rouge) 6 1
P(Y = bleue|X = rouge) = = 1 =
P(X = rouge) 3
2
Donc nous avons une chance sur deux de tirer la boule bleue au second tirage en sachant qu’on a
tiré la rouge au premier.
FX (k) = P(X ≤ k)
Exemple 3.3.1. Soit X une variable aléatoire renvoyant la valeur d’un lancé de dé non pipé et
soit FX sa fonction de répartition. Voici quelques exemples de valeurs que peut prendre FX :
1
– FX (18) = P(X ≤ 18) = P(X = 6) + P(X = 5) + ... + P(X = 1) = 6 × =1
6
1
– FX (6) = P(X ≤ 6) = P(X = 6) + P(X = 5) + ... + P(X = 1) = 6 × =1
6
1 1
– FX (3) = P(X ≤ 3) = P(X = 3) + P(X = 2) + P(X = 1) = 3 × =
6 2
40
√ √ 1
– FX ( 2) = P(X ≤ 2) = P(X = 1) =
6
3. lim FX (k) = 0
k→−∞
4. lim FX (k) = 1
k→+∞
Démonstration 3.3.1.
2. Montrer que FX est continue à droite en tout point de R, revient à montrer que pour tout
a ∈ R,
1
lim F (x) = FX (a) ⇐⇒ lim FX (a + ) = FX (a)
x→a X
x>a
n→+∞ n
Or,
1 1
lim FX (a + ) = lim P(X ∈] − ∞; a + ])
n→+∞ n n→+∞ n
\ 1
= P(X ∈ ] − ∞; a + ]) (?)
n≥1
n
= P(X ∈] − ∞; a])
= FX (a)
41
3.
4.
Les trois passages de cette démonstration comportant ce signe (?) font référence à deux propriétés
sur les suites d’ensembles. La première propriété utilisée pour effectuer ces passages et que : Si
(An )n∈N est une suite décroissante au sens de l’inclusion, c’est à dire, que :
∀n ∈ N, An+1 ⊆ An , alors on a :
\
lim P(An ) = P( An )
n→+∞
n≥0
La seconde propriété est que : Si (An )n∈N est une suite croissante au sens de l’inclusion, c’est à
dire, que :
∀n ∈ N, An ⊆ An+1 , alors on a :
[
lim P(An ) = P( An )
n→+∞
n≥0
(
F (x) = 1 si x ≥ 3
Exemple 3.3.2. La fonction F définie telle que : ∀x ∈ R, est une fonction
F (x) = 0 si x < 3
de répartition d’une variable aléatoire réelle.
En effet, F vérifie les quatre propriétés d’une fonction de répartition :
1. F vaut 0 sur ] − ∞; 3[ et vaut 1 sur [3; +∞[. Donc F est croissante sur R.
42
2. F est continue en tant que fonction constante sur ] − ∞; 3[ et sur [3; +∞[. Donc F est en
particulier continue à droite sur ces deux intervalles. Vérifions qu’elle est continue à droite
au point 3 :
lim F (x) = 1 = F (3)
x→3
x>3
lim F (x) = 0
x→−∞
lim F (x) = 1
x→+∞
(
F (x) = 1 si x > 3
Exemple 3.3.3. Par contre, la fonction F définie telle que : ∀x ∈ R, n’est
F (x) = 0 si x ≤ 3
pas une fonction de répartition d’une variable aléatoire réelle.
En effet, F , ne vérifie pas la deuxième propriété d’une fonction de répartition :
Donc, F n’est pas continue à droite en tout point de R et n’est donc pas une fonction de répartition.
3.4.1 Espérance
L’espérance d’une variable aléatoire réelle est un réel approximant la valeur la plus probable
que cette variable aléatoire peut prendre.
C’est à dire une estimation du résultat moyen qu’on aura au cours d’une expérience aléatoire.
Définition 3.4.1 (Espérance). Soit X une variable aléatoire discrète à valeurs dans un ensemble
E.
X
Si la somme |k|. P(X = k) est finie alors, X admet une espérance.
k∈E
43
L’espérance est un nombre, se notant E(X) et égal à :
X
E(X) = k. P(X = k)
k∈E
Vocabulaire 3.4.1. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k. P(X = k) est finie alors on dit que X est intégrable.
k∈E
Exemple 3.4.1 (Espérance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.
Nous avons démontré précédemment que les valeurs que prend X appartiennent à {1; 2; 3; 4; 5; 6}
et que sa loi est :
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
P
L’ensemble {1; 2; 3; 4; 5; 6} ne comportant que 6 éléments finis, la somme |k|. P(X = k)
k∈{1;2;3;4;5;6}
est une somme de 6 éléments finis, donc elle est finie et donc X admet une espérance.
Calculons l’espérance de X :
X
E(X) = k. P(X = k)
k∈{1;2;3;4;5;6}
1 1 1 1 1 1
=1× +2× +3× +4× +5× +6×
6 6 6 6 6 6
1+2+3+4+5+6
=
6
21
=
6
7
=
2
44
7
Donc l’espérance de X est égale à E(X) =
2
Exemple 3.4.2 (Espérance d’une variable aléatoire Y renvoyant la somme d’un lancé de deux
dés). Prenons comme exemple, une variable aléatoire Y affichant la somme obtenue après un lancé
de deux dés.
Nous avons démontré précédemment que les valeurs que prend Y appartiennent à
{2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12} et que sa loi est :
1
P(Y = 2) = P(Y = 12) =
36
1
P(Y = 3) = P(Y = 11) =
18
1
P(Y = 4) = P(Y = 10) =
12
1
P(Y = 5) = P(Y = 9) =
9
5
P(Y = 6) = P(Y = 8) =
36
1
P(Y = 7) =
6
L’ensemble {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12} ne comportant que 11 éléments finis, la somme
X
|k|. P(Y = k)
k∈{2;3;4;5;6;7;8;9;10;11;12}
est une somme de 11 éléments finis, donc elle est finie et donc Y admet une espérance.
45
Calculons l’espérance de Y :
X
E(Y ) = k. P(Y = k)
k∈{2;3;4;5;6;7;8;9;10;11;12}
1 1 1 1 5 1 5 1 1 1
=2× +3× +4× +5× +6× +7× +8× + 9 × + 10 × + 11 ×
36 18 12 9 36 36 36 9 12 18
1
+ 12 ×
36
2 + 6 + 12 + 20 + 30 + 7 + 40 + 36 + 30 + 22 + 12 217
= =
36 36
217
Donc l’espérance de Y est égale à E(Y ) =
36
3. Positivité : Si X ≥ 0 alors :
(a) E(X) ≥ 0
(b) et si de plus E(X) = 0 alors P(X = 0) = 1 (c’est à dire X est une constante égale à 0).
Démonstration 3.4.1.
1. Calculer l’espérance d’un réel λ, consiste à calculer l’espérance d’une variable aléatoire con-
stante et égale à λ.
En prenant donc, une variable aléatoire X ne prenant qu’une unique valeur λ,
46
on a P(X = λ) = 1.
Par conséquent,
X
E(X) = k . P(X = k) = λ . P(X = λ) = λ . 1 = λ
k∈{λ}
2. Démontrons que E(X + Y ) = E(X) + E(Y ) en considérant que X a ses valeurs dans un
ensemble EX = {x1 , x2 , x3 , ...} et Y dans un ensemble EY = {y1 , y2 , y3 , ...}.
X
E(X + Y ) = (xi + yj ) . P(X = xi , Y = yj )
i,j
X X
= xi . P(X = xi , Y = yj ) + yj . P(X = xi , Y = yj )
i,j i,j
X X X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj )
i j j i
X X
= xi .P(X = xi ) + yj .P(Y = yj )
i j
= E(X) + E(Y )
Démontrons que E(λ.Y ) = λ.E(Y ) en considérant que Y a ses valeurs dans un ensemble
E = {e1 , e2 , e3 , ...}.
La variable aléatoire λ.Y a ses valeurs dans l’ensemble {λ.e1 , λ.e2 , ...}.
Par conséquent :
X
E(λ.Y ) = λ.k . P(λ.Y = λ.k)
k∈E
X
= λ.k . P(Y = k) (car λ.Y = λ.k ⇔ Y = k)
k∈E
X
= λ. k . P(Y = k)
k∈E
= λ.E(Y )
Nous venons de démontrer que E(X + Y ) = E(X) + E(Y ) et que E(λ.Y ) = λ.E(Y ).
47
Par conséquent : E(X + λ.Y ) = E(X) + λ.E(Y ).
3. (a) X ≥ 0 signifie que les valeurs que peut prendre X sont toutes positives.
Donc X a ses valeurs dans un ensemble E = {e1 , e2 , ...} tel que tout ei ≥ 0.
De plus, une probabilité étant toujours positive on a toujours P(X = ei ) ≥ 0.
On a donc :
X
E(X) = k . P(X = k)
k∈E
X
(b) Si de plus E(X) = 0 alors k . P(X = k) = 0.
k∈E
Si on ne prend que les valeurs de E qui sont strictement positives on a toujours :
X
k . P(X = k) = 0
{k∈E; k>0}
Or,
X
k . P(X = k) = 0
{k∈E; k>0}
48
Théorème 3.4.1. Soit X une variable aléatoire à valeurs dans un ensemble E et f : E → R une
fonction.
X
Si la somme |f (k)| . P(X = k) est finie alors :
k∈E
X
E (f (X)) = f (k) . P(X = k)
k∈E
Démonstration 3.4.2. La variable aléatoire X a ses valeurs dans un ensemble E, par conséquent
la variable aléatoire f (X) a ses valeurs dans l’ensemble f (E).
On en déduit le calcul suivant :
X
E(f (X)) = y . P(f (X) = y)
y∈f (E)
X X
= f (k) . P(X = k) (f −1 (y) est l’antécédent de y)
y∈f (E) k∈f −1 (y)
X
= f (k) . P(X = k)
k∈E
X
Donc E(f (X)) = f (k) . P(X = k).
k∈E
3.4.2 Variance
La variance d’une variable aléatoire réelle est un réel approximant la dispertion des valeurs que
cette variable aléatoire peut prendre autour de son espérance. La variance est donc proportionnelle
à la distance des valeurs que peut prendre une variable aléatoire que peut prendre par rapport à
sa valeur moyenne.
Définition 3.4.2 (Variance). Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k 2 . P(X = k) est finie alors, X admet une variance.
k∈E
49
La variance est un nombre, se notant V(X) et égal à :
V(X) = E (X − E(X))2
Vocabulaire 3.4.2. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k 2 . P(X = k) est finie alors on dit que X est de carré intégrable.
k∈E
Propriétés 3.4.2. Soit X une variable aléatoire admettant une variance et donc une espérance.
V(X) = E (X − E(X))2
= E X 2 − 2.X.E(X) + E(X)2
On sait, par positivité de l’espérance, que si une variable aléatoire Z est positive alors
E(Z) ≥ 0.
Or la variable aléatoire, (X − E(X))2 , étant un carré est positive.
Donc E (X − E(X))2 ≥ 0.
Donc V(X) ≥ 0
50
3. En utilisant la linéarité de l’espérance, on a :
= a2 .E(X 2 ) − a2 .E(X)2
= a2 . E(X 2 ) − E(X)2
= a2 .V(X)
V(X) = 0
⇐⇒ E (X − E(X))2 = 0
(X − E(X))2 est une variable aléatoire positive et nous venons de montrer que son espérance
est nulle.
Or nous avons démontrer dans les propriétés de l’espérance que si Z est une variable aléatoire
positive et que E(Z) = 0, alors Z est la fonction nulle.
Par conséquent :
(X − E(X))2 = 0
⇐⇒ X − E(X) = 0
⇐⇒ X = E(X)
Comme l’espérance E(X) est un réel, la variable aléatoire X est égale à un réel.
Donc si V(X) = 0 alors X est une constante.
Exemple 3.4.3 (Variance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.
51
Nous avons démontré précédemment que la loi de X est :
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
X 7
et que son espérance est égale à E(X) = k . P(X = k) =
2
k∈{1;2;3;4;5;6}
X
Comme la somme k 2 . P(X = k) est une somme de 6 éléments, elle finie et donc X
k∈{1;2;3;4;5;6}
possède une variance.
Calculons la variance de X.
On sait que V(X) = E(X 2 ) − E(X)2 . Donc pour déterminer la variance de X, il suffit de déter-
miner E(X 2 ) et E(X)2 .
2
7 7 49
On sait que E(X) = , donc E(X)2 = = .
2 2 4
Déterminons E(X 2 ).
P
On sait que si f est une fonction de {1; 2; 3; 4; 5; 6} dans R alors E(f (X)) = f (k) . P(X = k).
k∈E
En prenant la fonction :
f : {1; 2; 3; 4; 5; 6} −→ R
k −→ k 2
52
Donc :
X
= f (k) . P(X = k)
k∈{1;2;3;4;5;6}
X
= k 2 . P(X = k)
k∈{1;2;3;4;5;6}
1 1 1 1 1 1
= 1. + 22 . + 32 . + 42 . + 52 . + 62 .
6 6 6 6 6 6
1
= (1 + 4 + 9 + 16 + 25 + 36) ×
6
91
=
6
91
Donc E(X 2 ) = .
6
91 49 35
Donc la variance de X est égale à V(X) = E(X 2 ) − E(X)2 = − =
6 4 12
Définition 3.4.3 (Ecart type). Soit X une variable aléatoire possédant une variance.
L’écart type de la variable aléatoire X est un réel égal à :
p
σ(X) = V(X)
53
Exemple 3.4.4 (Écart type d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons l’exemple de la variable aléatoire X renvoyant le résultat d’un lancé de dé.
35
Nous avons montré, précédemment, que sa variance est égale à V(X) = .
12
r
p 35
Son écart type est donc égal à σ(X) = V(X) =
12
3.5 Indépendance
54
Par conséquent :
X
E(XY ) = x.y . P(X = x, Y = y)
(x,y)∈EX ×EY
X
= x.y . P(X = x) × P(Y = y) (par indépendance de X et Y )
(x,y)∈EX ×EY
X X
= x . P(X = x) × y . P(Y = y)
x∈EX y∈EY
= E(X) × E(Y )
et la linéarité de l’espérance, on a :
[ (X + Y ) − E(X + Y ) ]2
V(X + Y ) = E
[ (X + Y ) − E(X) − E(Y ) ]2
=E
[ (X − E(X)) + (Y − E(Y )) ]2
=E
(X − E(X))2 − 2.(X − E(X)).(Y − E(Y )) + (Y − E(Y ))2
=E
= E (X − E(X))2 − E [2.(X − E(X)).(Y − E(Y ))] + E (Y − E(Y ))2
55
3.6 Lois
3.6.1 Loi de Bernoulli
P(X = 1) = p et P(X = 0) = 1 − p
Exemple 3.6.1 (Jeu de Pile ou Face). Prenons comme exemple, un jeu de Pile ou Face.
Notons 0 l’évènement obtenir Pile et 1 l’évènement obtenir Face.
Si la pièce est équilibrée, X suit une loi de Bernoulli de paramètre 0, 5, c’est à dire :
P(X = 1) = 0, 5 et P(X = 0) = 1 − 0, 5 = 0, 5
Exemple 3.6.2 (Urne contenant deux types de boules). Prenons comme exemple, une variable
aléatoire X renvoyant la couleur d’une boule tirée dans une urne contenant 15 boules blanches et
20 boules noires.
Notons 0 l’évènement obtenir une boule blanche et 1 obtenir une boule noire.
20 20
La probabilité d’obtenir une boule blanche est de = .
20 + 15 35
20
Donc X suit la loi de Bernoulli de paramètre , c’est à dire :
35
20 20 15
P(X = 1) = et P(X = 0) = 1 − =
35 35 35
56
Exemple 3.6.3 (Cas général). Toute expérience n’ayant que deux issues possibles peut être décrite
par une variable aléatoire suivant la loi de Bernoulli en notant 1 le succès de l’expérience et 0
l’échec.
Démonstration 3.6.1.
X
E(X) = k . P(X = k)
k∈{0;1}
= 0 × P(X = 0) + 1 × P(X = 1)
= 0 × (1 − p) + 1 × p
=p
= 02 × P(X = 0) + 12 × P(X = 1)
= P(X = 1)
=p
Déterminons E(X)2 :
Nous savons que E(X) = p, donc E(X)2 = p2
57
3.6.2 Loi binomiale
10!
= . 0, 52 . (0, 5)8
2! × (10 − 2)!
10!
= . 0, 510
2! × (8)!
9 × 10
= . 0, 510
2!
≈ 0, 04
58
Donc la probabilité d’obtenir 2 piles au cours de ces 10 lancés est de 0, 04.
10!
= . 0, 54 . (0, 5)6
4! × (10 − 4)!
10!
= . 0, 510
4! × (6)!
7 × 8 × 9 × 10
= . 0, 510
4!
≈ 0, 2
−→ première manière.
On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente n
expérience de Bernoulli de paramètre p. Par conséquent :
X = X1 + X2 + ... + Xn
59
Donc en utilisant la linéarité de l’espérance et le fait que pour tout Xi , E(Xi ) = p on a :
Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :
n
n−1
X n
np(p + q) = . k . pk . q n−k
k=0
k
60
−→ première manière.
On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente n
expérience de Bernoulli de paramètre p, indépendantes entre elles. Par conséquent :
X = X1 + X2 + ... + Xn
−→ deuxième manière (calculatoire).
Par définition, V(X) = E(X 2 ) − E(X)2 .
Calculons E(X 2 ) :
X
E(X 2 ) = k 2 . P(X = k)
k∈{1,2,...,n}
Nous avons démontré lors de la démonstration précédente que pour tout réel x on a :
n
n−1
X n
np(px + q) = . k.xk−1 . pk . q n−k (avec q = 1 − p)
k=0
k
61
Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :
n
2 n−2
X n
n.(n − 1).p .(p + q) = . k.(k − 1).1k−2 . pk . q n−k
k=0
k
n
X n
= . k.(k − 1). pk . q n−k
k=0
k
n
X n 2 k n−k n k n−k
= . k .p .q − . k.p .q
k=0
k k
n n
X n 2 k n−k
X n
= . k .p .q − . k.pk .q n−k
k=0
k k=0
k
et en remplaçant q par (1 − p) on a :
n n
2
X n 2 k n−k
X n
n.(n − 1).p = . k .p .(1 − p) − . k.pk .(1 − p)n−k
k=0
k k=0
k
n
X n
X
= k 2 .P(X = k) − k.P(X = k)
k=0 k=0
= E(X 2 ) − E(X)
Par conséquent :
E(X 2 ) = n.(n − 1).p2 + E(X)
62
Donc :
Exemple 3.6.5 (lancé d’un dé). Prenons comme exemple, un jeu qui consiste à lancé un dé, et
où le succès est d’obtenir un 6 et l’échec d’obtenir n’importe quel autre nombre.
1
1 5
= ×
6 6
1 5
= ×
6 6
5
=
6
5
Donc la probabilité de gagner au deuxième lancé dé et de ≈ 0, 8.
6
2
1 5
= ×
6 6
1 25
= ×
6 36
25
=
216
25
Donc la probabilité de gagner au troisième lancé de dé et de ≈ 0, 1.
216
On remarque que la probabilité de gagner au deuxième lancé est plus faible que celle de gagner
au troisième, ceci est dû au fait qu’on ne calcule pas la probabilité d’avoir gagné au bout de 2 ou
de 3 lancés, mais bien de gagner exactement au deuxième ou au troisième lancé.
Propriété 3.6.5 (Espérance d’une variable suivant une loi géométrique). Si X est une variable
1
aléatoire suivant la loi géométrique de paramètre p alors son espérance est égale à : E(X) = .
p
64
Démonstration 3.6.5.
X
E(X) = k . P(X = k)
k∈N∗
+∞
X
= k . p.(1 − p)k−1
k=1
+∞
X
= p. k . (1 − p)k−1
k=1
+∞
1 X
∀x ∈ [0, 1], = xk
1 − x k=0
+∞
1 X
∀x ∈ [0, 1], 2 = k.xk−1
(1 − x) k=0
p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cette
égalité vraie :
+∞
1 X
2 = k.(1 − p)k−1
(1 − (1 − p)) k=0
+∞
1 X
⇐⇒ 2 = k.(1 − p)k−1 ( car le premier terme est nul )
p k=1
65
On peut maintenant calculer l’espérance de X :
+∞
X
E(X) = p × k . (1 − p)k−1
k=1
1
=p×
p2
p
=
p2
1
=
p
+∞
1 X
∀x ∈ [0, 1], = k.xk−1
(1 − x)2 k=0
66
En dérivant des deux côtés selon p on obtient :
+∞
2(1 − x) X
∀x ∈ [0, 1], 4 = k.(k − 1).xk−2
(1 − x) k=0
+∞
2 X
⇐⇒ = k.(k − 1).xk−2
(1 − x)3 k=0
+∞
2 X
⇐⇒ 3
= k.(k − 1).xk−2 (les deux premiers termes sont nuls)
(1 − x) k=2
+∞
2 X
⇐⇒ = (k + 1).k.xk−1
(1 − x)3 k=1
+∞ +∞
2 X
2 k−1
X
⇐⇒ 3
= k .x + k.xk−1
(1 − x) k=1 k=1
+∞ +∞
2 X
2 k−1
X
3
= k .x + k.xk−1
(1 − x) k=1 k=1
+∞
2 X 1
⇐⇒ = k 2 .xk−1 +
(1 − x) 3
k=1
(1 − x)2
+∞
X 2 1
⇐⇒ k 2 .xk−1 = −
k=1
(1 − x) 3
(1 − x)2
p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cette
67
égalité vraie :
+∞
X 2 1
k 2 .(1 − p)k−1 = −
k=1
(1 − (1 − p))3 (1 − (1 − p))2
+∞
X 2 1
⇐⇒ k 2 .(1 − p)k−1 = 3
− 2
k=1
p p
+∞
X 2p p
k 2 .p.(1 − p)k−1 = 3
− 2
k=1
p p
X 2 1
⇐⇒ k 2 . P(X = k) = 2
−
k∈N∗
p p
2 1
⇐⇒ E(X 2 ) = 2
−
p p
Et enfin :
2
2 1 1
= 2− −
p p p
2 p 1
= − −
p2 p2 p2
2−p−1
=
p2
1−p
=
p2
68
3.6.4 Loi de Poisson
Soit un évènement se produisant en moyenne λ fois pendant un laps de temps donné.
Une variable aléatoire X, suivant la loi de Poisson de paramètre λ, renverra le nombre de fois que
l’évènement se produit lors de ce laps de temps.
Ainsi P(X = k) renverra la probabilité que l’évènement se produise k fois lors de ce même laps de
temps.
λk
P(X = k) = × e−λ
k!
Exemple 3.6.6 (Saumons fuyant). Chaque année, un élevage, voit en moyenne 6 saumons s’en-
fuirent à cause de trous dans ses filets.
En considérant, que le nombre de saumons fuyant chaque année suit une loi de Poisson, quelle est
la probabilité de voir 10 saumons fuir en une année ?
Pour effectuer ce calcul, on va prendre une variable aléatoire X suivant la loi de Poisson de
paramètre λ = 6. Ainsi la probabilité de perdre 10 saumons est égale à :
610
P(X = 20) = × e−6 ≈ 0, 04
10!
60 1
P(X = 0) = × e−6 = × e−6 ≈ 0, 002
0! 1
Propriété 3.6.7 (Espérance d’une variable suivant une loi de Poisson). Si X est une variable
aléatoire suivant la loi de Poisson de paramètre λ alors son espérance est égale à : E(X) = λ.
69
Démonstration 3.6.7.
X
E(X) = k . P(X = k)
k∈N
+∞
X λk −λ
= k. .e
k=0
k!
+∞
−λ
X λk
=e . k.
k=0
k!
+∞
X λk
Comme le premier terme de la somme k. est nul on peut sommer à partir de k = 1 en
k=0
k!
gardant l’égalité vraie et on a donc :
+∞
X λk
E(X) = e−λ . k.
k=1
k!
+∞
−λ
X λk
=e .
k=1
(k − 1)!
+∞
−λ
X λk−1
=e . λ.
k=1
(k − 1)!
+∞
−λ
X λk−1
= λ.e .
k=1
(k − 1)!
+∞
−λ
X λk
= λ.e .
k=0
(k)!
70
Par conséquent :
+∞
X λk
E(X) = λ.e−λ .
k=0
(k)!
= λ.e−λ .eλ
= λ.e−λ+λ
= λ.e0
=λ
Propriété 3.6.8 (Variance d’une variable suivant une loi de Poisson). Si X est une variable aléa-
toire suivant la loi de Poisson de paramètre λ alors sa variance est égale à : V(X) = λ.
+∞
X λk
= k2 . × e−λ
k=0
k!
+∞
X λk
= 2
k . × e−λ (car le premier terme est nul)
k=1
k!
+∞
−λ
X λk−1
= λ.e . k.
k=1
(k − 1)!
λk−1 λk
On remarque que pour tout k ∈ N, k. est égal à la dérivée de : selon λ.
(k − 1)! (k − 1)!
λk−1 d λk
C’est à dire : k . = .
(k − 1)! dλ (k − 1)!
71
Par conséquent :
+∞
2 −λ
X d λk
E(X ) = λ.e .
k=1
dλ (k − 1)!
+∞
!
d X λk
E(X 2 ) = λ.e−λ .
dλ k=1
(k − 1)!
+∞
!
−λ d X λk−1
= λ.e . λ.
dλ k=1
(k − 1)!
+∞
!
d X λk
= λ.e−λ . λ.
dλ k=0
(k)!
Par conséquent :
+∞
!
d X λk
E(X 2 ) = λ.e−λ . λ.
dλ k=0
(k)!
d
= λ.e−λ . λ. eλ
dλ
72
La dérivée selon λ de λ. eλ est égale à : eλ + λeλ , donc :
= λ.e0 + λ2 .e0
= λ + λ2
Les fonctions génératrices, sont des outils permettant d’identifier facilement la loi d’une vari-
able aléatoire, ainsi que son espérance et sa variance.
3.7.1 Définition
Définition 3.7.1 (Fonction génératrice). Soit X une variable aléatoire à valeurs dans un ensemble
E.
On appelle fonction génératrice de X la fonction GX définie par :
GX : [−1; 1] −→ R
X
u −→ E(uX ) = uk . P(X = k)
k∈E
73
3.7.2 Fonction génératrice et indépendance
GX+Y = GX × GY
Proposition 3.7.1. Si deux variables aléatoires X et Y ont la même fonction génératrice, alors
X et Y suivent la même loi.
74
Remarque 3.7.1. Ainsi, lorsque la loi d’une variable aléatoire est compliquée à déterminer, on
peut calculer la fonction génératrice de cette variable et la comparer avec une fonction généra-
trice connue. Afin de pouvoir effectuer cette comparaison voici les fonctions génératrices des lois
usuelles :
Loi de Bernoulli Si X suit une loi de Bernoulli de paramètre p, alors sa fonction de répartition
est égale à :
GX (u) = (1 − p) + p.u
Démonstration :
1
X
GX (u) = uk . P(X = k)
k=0
= u0 .P(X = 0) + u1 .P(X = 1)
= (1 − p) + u.p
Loi binomiale Si X suit une loi binomiale de paramètres n et p, alors sa fonction de répartition
est égale à :
GX (u) = ((1 − p) + p.u)n
Démonstration :
n
X
k n k
GX (u) = u . .p .(1 − p)n−k
k=0
k
n
X n
= .(u.p)k .(1 − p)n−k (on reconnait la formule du binôme)
k=0
k
= ((1 − p) + p.u)n
Loi géométrique Si X suit une loi géométrique de paramètre p, alors sa fonction de répartition
est égale à :
p.u
GX (u) =
1 − (1 − p).u
75
Démonstration :
+∞
X
GX (u) = uk .p.(1 − p)k−1
k=1
+∞
X
= (u.p).uk−1 .(1 − p)k−1
k=1
+∞
X
= u.p. (u.(1 − p))k−1
k=1
+∞
X
= u.p. (u.(1 − p))k
k=0
+∞
1 X
= xk
1 − x k=0
Comme p est inclus dans [0; 1], (1 − p) est aussi inclus dans [0; 1]. De plus comme u est aussi
compris dans [0, 1], u.(1 − p) est compris dans [0; 1].
Par conséquent :
+∞
X 1
u.p. (u.(1 − p))k = u.p ×
k=0
1 − u.(1 − p)
Et donc :
p.u
GX (u) =
1 − (1 − p).u
Loi de Poisson Si X suit une loi de Poisson de paramètre λ, alors sa fonction de répartition est
égale à :
GX (u) = e−λ(1−u)
76
Démonstration :
+∞
X λk
GX (u) = uk . e−λ ×
k=0
k!
+∞
−λ
X (λ.u)k
=e ×
k=0
k!
= e−λ × eλ.u
= e−λ+λ.u
= e−λ(1−u)
Pour déterminer cette loi, nous allons déterminer la fonction génératrice de la variable X + Y
et la comparer aux fonctions génératrices des lois usuelles.
77
3.7.4 Calcul d’espérance et de variance
0
E(X) = GX (1)
0
X
GX (u) = k.uk−1 .P(X = k)
k∈E
Et en posant u = 1 on obtient :
0
X
GX (1) = k.1k−1 .P(X = k)
k∈E
X
= k.P(X = k)
k∈E
= E(X)
00 0
0 2
V(X) = GX (1) + GX (1) − GX (1)
0
X
GX (u) = k.uk−1 .P(X = k)
k∈E
78
Et en redérivant à nouveau on obtient :
00
X
GX (u) = k.(k − 1).uk−2 .P(X = k)
k∈E
Et en posant u = 1 on obtient :
00
X
GX (1) = k.(k − 1).1k−2 .P(X = k)
k∈E
X
k 2 .P(X = k) − k.P(X = k)
=
k∈E
X X
= k 2 .P(X = k) − k.P(X = k)
k∈E k∈E
= E(X 2 ) − E(X)
0
Or on sait que GX (1) = E(X) et que V(X) = E(X 2 ) − E(X)2 , on a donc :
00 0
0 2
GX (1) + GX (1) − GX (1) = E(X 2 ) − E(X) + E(X) − E(X)2
= E(X 2 ) − E(X)2
= V(X)
Exemple 3.7.2. Soit p ∈ [0, 1] et soit X une variable aléatoire dont la loi est :
79
La fonction génératrice de X est égale à :
GX (u) = E(uX )
X
= uk . P(X = k)
k∈N
+∞
X
= uk . p.(1 − p).(pk + (1 − p)k )
k=0
+∞
X
= p.(1 − p). uk . (pk + (1 − p)k )
k=0
+∞ h
X i
= p.(1 − p). (up)k + (u(1 − p))k
k=0
" +∞ +∞
#
X X k
= p.(1 − p). (up)k + (u(1 − p))
k=0 k=0
+∞
1 X
= xk
1 − x k=0
+∞
X 1
(u(1 − p))k =
k=0
1 − u.(1 − p)
Donc :
1 1
GX (u) = p.(1 − p). +
1 − u.p 1 − u.(1 − p)
−→ Détermination de l’espérance de X
80
0
On sait que E(X) = GX (1), par conséquent dérivons GX (u) :
0 p 1−p
GX (u) = p.(1 − p). +
(1 − u.p)2
(1 − u.(1 − p))2
Et donc :
0 p 1−p
GX (1) = p.(1 − p). +
(1 − 1.p) 2
(1 − 1.(1 − p))2
p 1−p
= p.(1 − p). +
(1 − p)2
(1 − (1 − p))2
p 1−p
= p.(1 − p). 2
+
(1 − p) (p)2
p2 (1 − p)2
= +
(1 − p) p
0 p2 (1 − p)2
E(X) = GX (1) = +
(1 − p) p
−→ Détermination de la variance de X
00 0
0 2
0
On sait que V(X) = GX (1) + GX (1) − GX (1) , par conséquent dérivons GX (u) une deuxième
fois :
0
00 p 1−p
GX (u) = p.(1 − p). +
(1 − u.p)2
(1 − u.(1 − p))2
81
Et donc :
Et on obtient finalement :
00 0
0 2
V(X) = GX (1) + GX (1) − GX (1)
2
2.p3 2.(1 − p)3 p2 (1 − p)2 p2 (1 − p)2
= + + + − +
(1 − p)2 p2 (1 − p) p (1 − p) p
2.p5 + 2.(1 − p)5 + (1 − p).p4 + (1 − p)4 .p − [p6 + 2.p3 .(1 − p)3 + (1 − p)6 ]
=
(1 − p)2 .p2
2
2.p5 + 2.(1 − p)5 + (1 − p).p4 + (1 − p)4 .p − [p3 + (1 − p)3 ]
=
(1 − p)2 .p2
82
Donc la variance de X est égale à :
2
2.(p5 + (1 − p)5 ) + (1 − p). (p4 + (1 − p)3 .p) − [p3 + (1 − p)3 ]
V(X) =
(1 − p)2 .p2
83
3.8 Synthèse
−→ Définition
• Une variable aléatoire réelle discrète est une fonction X, allant d’un univers Ω dans un
ensemble E discret.
X : Ω −→ E
ω −→ y
−→ Propriétés
X
• Loi marginale : P(X = k) = P(X = k ; Y = i)
i∈EY
P(X = x ∩ Y = y)
• Loi conditionnelle : P(X = x|Y = y) =
P(Y = y)
−→ Fonction de répartition
FX (k) = P(X ≤ k)
4. lim FX (k) = 1
k→+∞
X X
• Espérance : Si la somme |k|. P(X = k) est finie alors, E(X) = k. P(X = k)
k∈E k∈E
84
• Propriétés de l’espérance
X
E (f (X)) = f (k) . P(X = k)
k∈E
X
k 2 . P(X = k) est finie alors, V(X) = E (X − E(X))2 = E(X 2 ) − E(X)2
• Variance : Si
k∈E
• Propriétés de la variance
p
• Écart type : σ(X) = V(X)
−→ Indépendance
85
−→ Lois
λk
• Loi de Poisson Soit λ ∈ R+∗ . ∀k ∈ N : P(X = k) = × e−λ
k!
−→ Fonction génératrice
GX : [−1; 1] −→ R
X
u −→ E(uX ) = uk . P(X = k)
k∈E
0
• Si X est une variable aléatoire admettant une espérance alors E(X) = GX (1)
00 0
2 0
• Si X est une variable aléatoire admettant une variance alors V(X) = GX (1) + GX (1) − GX (1)
86
Chapitre 4
Nous allons voir à présent un autre type de variable aléatoire plus général que les variables aléa-
toires discrètes. En effet si l’espace d’arrivée n’est pas dénombrable on ne pourra pas utiliser une
somme. Ce chapitre présente une autre façon de représenter un loi de probabilité grâce aux inté-
grales. La structure de ce chapitre et ces énoncés seront analogues grâce aux propriétés communes
de l’intégrale et de la somme.
Ce chapitre nécessite certaines notions de calcul intégral. Ces notions sont présentent dans
l’annexe C.
On appelle tribu engendrée par une famille de partie C, l’intersection de toutes les tribus con-
tenant C.
On appelle tribu borélienne (ou tribu de Borel ) la tribu engendrée par les ouverts de Rn . On
la note B(Rn ) ou Bor(Rn ). Il est important de noter (par stabilité par passage au complémentaire
d’une tribu) qu’elle est aussi la tribu engendrée par les fermés de Rn . Ces éléments sont les borélien
87
Dans ce chapitre on se limitera à l’étude des variables aléatoires à valeurs dans R (sans le
préciser dans la suite). On se placera dans des espaces munis d’une tribu borélienne. Il existe une
généralisation, qu’on appelle vecteur aléatoire, que vous pourrez voir dans le chapitre 6.
et
Z Z +∞
1
p(x)dx = × e−|x|/2 dx
R 4 −∞
Z 0 Z +∞
1 x/2 −x/2
= × e dx + e dx
4 −∞ 0
1 x/2 0
−x/2 +∞
= × 2.e −∞
+ −2.e 0
4
1
= × (2 − 0 + 0 − (−2))
4
=1
88
Exemple 4.2.2. Prenons comme exemple une variable aléatoire X de densité p : x −→ 41 .e−|x|/2 .
Z 5
1 −|x|/2
= .e dx
−∞ 4
Z 0 Z 5
1 x/2 −x/2
= e dx + e dx
4 −∞ 0
1 x/2 0
−x/2 5
= × 2.e −∞
+ −2.e 0
4
1
× 2 − 0 + (−2.e−5/2 ) − (−2)
=
4
1
= 1 − .e−5/2
2
Z 4
1 −|x|/2
= .e dx
−2 4
Z 0 Z 4
1 x/2 −x/2
= e dx + e dx
4 −2 0
1 x/2 0
−x/2 4
= × 2.e −2
+ −2.e 0
4
1 1
× 2 − 2.e−1 + (−2.e−2 ) − (−2) = 1 − (e−1 + e−2 )
=
4 2
89
1
Donc la probabilité que X prenne une valeur comprise entre −2 et 4 est de 1 − (e−1 + e−2 ).
2
Z ∞
1
= e−x/2 dx
4 8
1 +∞
= × −2.e−x/2 8
4
1
= × (0 − (−2.e−4 ))
4
e−4
= .
2
1
Donc la probabilité que X prenne une valeur supérieure à 8 est de :
2.e4
Remarque 4.2.1.
A présent, nous prendrons toujours des variables aléatoires dans un espace probabilisé (Ω, A, P),
sans y refaire référence.
Proposition 4.2.1 (probabilité d’un singleton). Soit a ∈ R et soit X une variable aléatoire de
densité p. Alors :
90
Z a
déf
P(X = a) = P(a ≤ X ≤ a) = p(x)dx = 0
a
1
∀x ∈ R, p : x 7→ 1[a,b] (x)
b−a
Remarque 4.3.1. – Tout d’abord, par notation, si X suit la loi uniforme on note : X ∼ U[a,b]
– On peut remarquer que la densité d’une variable aléatoire suivant la loi uniforme ne dépend
que de l’intervalle donné. Ainsi si cette loi donne la même probabilité à deux sous intervalles
distincts de [a, b]
– Nous rappelons à toute fin utile (notamment pour la définition d’une probabilité) que :
Z Z b
1[a,b] (x)dx = 1dx = b − a
R a
91
4.3.2 Loi exponentielle
Soit λ ∈ R∗+ , la loi exponentielle de paramètre p, notée E(λ), et définie par la densité :
∀x ∈ R∗+ , p : x 7→ λ exp(−λx)
Remarque 4.3.2. On pourra rencontrer la définition équivalente de la densité d’une loi exponen-
tielle de paramètre λ :
∀x ∈ R, p : x 7→ λ exp(−λx)1R+ (x)
a
∀x ∈ R, p : x 7→
π(a2 + x2 )
Vocabulaire 4.3.2. Une variable aléatoire suivant la loi normale est dite variable gaussienne.
Définition 4.3.1 (Loi normale centrée réduite). La loi normale centrée réduite est une loi normale
de paramètre 0 et 1. On la note : N (0, 1) et sa densité est donc définie par :
−x2
1
∀x ∈ R, p : x 7→ √ exp
2π 2
92
4.3.5 Loi du khi-carré
Nous verrons les applications de cette loi dans la partie statistique.
Soit n ∈ N, la loi du khi-carré à n degrés de liberté, noté Xn2 , est définie par la densité :
1 n x
∀x ∈ R∗+ , p : x 7→ n x 2 exp(− )
2 Γ( n2 )
2 2
∀a ∈ R, FX (a) = P(X ≤ a)
Proposition 4.4.1. Soit X une variable aléatoire réelle, et soit FX sa fonction de répartition alors
a:
∀a, b ∈ R, a < b, FX (b) − FX (a) = P(a < X ≤ b)
Démonstration 4.4.1.
Par définition, FX (a) = P(X ≤ a) et FX (b) = P(X ≤ b), or a < b donc {X ≤ a} ⊆ {X ≤ b}.
Mais alors on peut utiliser le principe de la démonstration 4) de la proposition 1.3.2.
Finalement,
P(X ≤ a) − P(X ≤ b) = P({X ≤ b}\{X ≤ a}) = P({X > a} ∩ {X ≤ b}) = P(a < X ≤ b)
Remarque 4.4.1. Les propriétés, vues au chapitre 3, de la fonction de répartition sont conservées.
∀x ∈ R, P(X ≤ x) = P(Y ≤ x)
93
Démonstration 4.4.2. La démonstration est admise.
Proposition 4.4.3 (Lien entre densité et fonction de répartition). Soit X une variable aléatoire
de densité p, alors FX est continue et dérivable, de dérivée p.
Remarque 4.4.2. Cette proposition est utile vue sous un autre angle : si on connait la fonction
de répartition de X on peut trouver la densité de X !
Démonstration 4.4.3. Cela provient des propriétés habituelles de l’intégrale ainsi que de la déf-
inition de la fonction de répartition.
Nous admettons le résultat suivant, plus difficile à démontrer que dans le cas discret :
Théorème 4.5.1 (de transfert). Soit X une variable aléatoire de densité p et soit une application
f : R −→ R. Si x 7→| f (x) | p(x) est intégrable, alors f (X) possède une espérance définie par :
Z
E(f (X)) = f (x)p(x)dx
R
94
Proposition 4.5.1. Soit X et Y deux variables aléatoires admettant une espérance, et soit λ ∈ R,
alors :
– E(X + λY ) = E(X) + λE(Y )
– E(λ) = λ
– Si Y est intégrable et X dominée par Y, au sens où P(| X |≤ Y ) = 1, alors X est intégrable.
– Si P(X ≤ Y ) = 1, alors E(X) ≤ E(Y )
Remarque 4.5.1. On remarque que ces propriétés de l’espérance sont les mêmes que pour le cas
discret. Les démonstrations sont en effet analogues car les propriétés de l’intégrale (pour cette
démonstration) sont les mêmes que pour la somme (linéarité, croissance). Néanmoins le fait que
l’espérance ne dépend que de la densité induit une subtilité lors de la manipulation de combinaison
linéaire de variables aléatoires à densité. Cette subtilité étant levée par ce qu’on appelle le produit
de convolution, nous admettrons ce résultat.
Nous verrons néanmoins, plus tard ,qu’il existe un autre moyen (comme pour la fonction généra-
trice) de trouver la loi d’une combinaison linéaire de variables aléatoires à densité.
Remarque 4.5.2. Les calculs d’espérance font appel aux différentes méthodes du calcul intégral
(intégration par partie, changement de variable, critères de convergence, ...).
L’annexe C contient quelques uns de ses principes ainsi que quelques intégrales célèbres.
a+b
E(X) =
2
1
Démonstration 4.5.1. La densité de X est p : x −→ .1[a,b] (x)
b−a
On remarque que l’intégrale :
Z Z Z b
1 1
|x|.p(x)dx = |x|. .1[a,b] (x)|dx = . |x|dx
R R b−a b−a a
95
Donc X admet une espérance de valeur :
Z
E(X) = x.p(x) dx
R
Z b
1
= . x dx
b−a a
2 b
1 x
= .
b−a 2 a
b 2 − a2
1
= .
b−a 2
b+a
=
2
b+a
Donc l’espérance d’une variable X suivant la loi uniforme sur [a, b] est E(X) = .
2
Propriété 4.5.2 (Espérance de la loi exponentielle). Si X ∼ E(λ) alors :
1
E(X) =
λ
96
Z
1
Donc l’intégrale |x|.p(x)dx vaut et est donc finie.
R λ
Propriété 4.5.3 (Espérance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pas
d’espérance.
a 1
Démonstration 4.5.3. La densité de X est p : x −→
π a + x2
2
On a :
Z Z
a
|x|.p(x)dx = |x|. dx
R R π(a2 + x2 )
+∞
|x|
Z
a
= dx
π −∞ a2 + x2
Or au voisinage de −∞ et de +∞ on a :
|x| 1
∼
a2 +x 2 x
Donc : Z
|x|.p(x)dx = +∞
R
97
Propriété 4.5.4 (Espérance de la loi normale). Si X ∼ N (µ, σ 2 ) alors :
E(X) = µ
(x − m)2
1
Démonstration 4.5.4. La densité de X est p : x −→ √ . exp −
σ 2π 2σ 2
L’intégrale : Z
|x|.p(x)dx
R
est une intégrale finie, car c’est une intégrale de Riemann convergente.
Par conséquent X admet une espérance de valeur :
(x − µ)2
Z
1
E(X) = √ x. exp − dx
σ 2π R 2σ 2
u2
Z
1
= √ (u + µ). exp − 2 du (Par le changement de variable φ : x 7→ x + µ)
σ 2π R 2σ
2
u2
Z Z
1 u
= √ u exp − 2 du + µ exp − 2 du
σ 2π R 2σ 2σ
Z 2
R
1 u
= √ 0 + µ exp − 2 du
σ 2π R 2σ
1 √
= √ 0 + µ. 2πσ 2 (Car c’est l’intégrale de Gauss)
σ 2π
=µ
Donc l’espérance d’une variable X suivant la loi normale de paramètres µ et σ 2 est égale à µ.
Propriété 4.5.5 (Espérance de la loi normale centrée réduite). On déduit directement de la propo-
sition précédente que si X ∼ N (0, 1) alors E(X) = 0.
Loi Espérance
a+b
Loi uniforme U[a,b] 2
1
Loi exponentielle E(λ) λ
Loi de Cauchy C(a) Non définie
Loi normale N (µ, σ 2 ) µ
Loi centrée réduite N (0, 1) 0
98
4.5.2 Variance
Proposition 4.5.2. Soit X une variable aléatoire admettant une variance, alors pour tout a, b ∈
R:
V(aX + b) = a2 V(X)
(b − a)2
V(X) =
12
est l’intégale d’une fonction continue sur un segment donc elle est finie et par conséquent X est de
carré intégrable ce qui implique qu’elle admet une variance égale à :
2
2 2 2 b+a
V(X) = E(X ) − E (X) = E(X ) −
2
99
Calculons E(X 2 ) :
Z
2
E(X ) = x2 .p(x)dx
R
Z b
1
= x2 dx
b−a a
3 b
1 x
=
b−a 3 a
b 3 − a3
=
3(b − a)
On a donc :
2
b 3 − a3
b+a
= −
3(b − a) 2
(b − a)3
=
12(b − a)
(b − a)2
=
12
(b − a)2
Donc V(X) = .
12
1
V(X) =
λ2
100
Donc X est de carré intégrable et donc X admet une variance égale à :
1
V(X) = E(X 2 ) − E2 (X) = E(X 2 ) −
λ2
Déterminons E(X 2 ) :
Z
2
E(X ) = x2 .p(x)dx
RZ
=λ x2 .e−λ.x dx
R+
+∞ Z +∞ !
−λ.x
(−e ) 2
= λ x2 . + x.e−λ.x dx
λ 0 λ 0
Z +∞
=0+2 x.e−λ.x dx
0
2
= 2
λ
On a donc :
Propriété 4.5.8 (Variance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pas de
variance.
V(X) = σ 2
−(x − µ)2
Z Z
2 1 2
x .p(x)dx = √ x . exp dx
R σ 2π R 2σ 2
101
est finie d’après les critères de Riemann.
Donc X est de carré intégrable et donc X admet en revenant à la définition une variance égale à :
Or :
−(x − µ)2
Z
1
2 2
E((X − µ) ) = √ (x − µ) . exp dx
σ 2π R 2σ 2
En effectuant une intégration par partie on a :
+∞ +∞
−(x − µ)2
Z Z
−(x−µ)2 −(x−µ)2
2 2
(x − µ) . exp dx = −σ (x − µ).e 2σ 2 + σ 2 .e 2σ 2 dx
R 2σ 2 −∞ −∞
Z +∞ −(x−µ)2
2
=0+σ e 2σ 2 dx
−∞
√
= σ 3 2π
Donc
1 √
E((X − µ)2 ) = √ × σ 3 2π = sigma2
σ 2π
Donc V(X) = σ 2 .
4.6 Indépendance
On retrouve de manière analogue aux variables aléatoires discrètes les mêmes propriétés autour
de l’indépendance.
Définition 4.6.1 (Indépendance). Soit X et Y deux variables aléatoires à densité, on dit que X
et Y sont indépendantes si et seulement si pour tout A et B deux événements de A, on a :
102
Proposition 4.6.2. Soient X et Y deux variables aléatoires possédant une variance.
Si X et Y sont indépendantes alors :
4.7.1 Définition
Définition 4.7.1 (Fonction caractéristique). Soit X une variable aléatoire (non nécessairement à
densité), on appelle fonction caractéristique de X, l’application :
φX : R −→ C
: t 7→ E(exp(itX)) = E(cos(tX)) + iE(sin(tX))
Théorème 4.7.1. Soit X une variable aléatoire, alors la fonction caractéristique caractérise sa
loi. Autrement dit si Y est une autre variable aléatoire, alors X suit la loi de Y si et seulement si
X et Y ont la même fonction caractéristique.
Remarque 4.7.1. Comme pour la fonction génératrice, ce théorème permet de trouver la loi
d’une variable aléatoire en calculant sa fonction caractéristique et en la comparant à la fonction
caractéristique des lois usuelles.
Proposition 4.7.1 (Fonction caractéristique de la loi uniforme). Soit X une variable aléatoire
suivant la uniforme U(a, b). La fonction caractéristique de X est alors égale à :
eitb − eita
∀t ∈ R, φX (t) =
i(b − a)t
103
Démonstration 4.7.1. Soit X ∼ U(a, b). On a ∀t ∈ R :
φX (t) = E(eitX )
Z
1
= × eitx .1[a,b] dx
b−a R
Z b
1
= × eitx dx
b−a a
1
× eitb − eita
=
b−a
eitb − eita
On a donc bien : φX (t) = .
i(b − a)t
Proposition 4.7.2 (Fonction caractéristique de la loi exponentielle). Soit X une variable aléatoire
suivant la exponentielle E(λ). La fonction caractéristique de X est alors égale à :
1
∀t ∈ R, φX (t) = it
1− λ
1
On a donc bien : φX (t) = it .
1− λ
104
Proposition 4.7.3 (Fonction caractéristique de la loi normale centrée réduite). Soit X une vari-
able aléatoire suivant la loi normale centrée réduite N (0, 1). La fonction caractéristique de X est
alors égale à : 2
itX −t
∀t ∈ R, φX (t) = E(e ) = exp
2
φX (t) = E(eitX )
Z +∞
1 −x2
=√ e 2 × eitx dx
2π −∞
Z +∞ Z +∞
1 −x2 i −x2
=√ e 2 × cos(tx)dx + √ e 2 × sin(tx)dx
2π −∞ 2π −∞
La seconde intégrale est l’intégrale d’une fonction impaire sur l’intervalle symétrique ] − ∞, +∞[
elle est donc nulle.
Par conséquent : Z +∞
1 −x2
φX (t) = √ e 2 × cos(tx)dx
2π −∞
−x2 −x2
|e 2 × cos(tx)| ≤ e 2
−x2
et la fonction x → e 2 est intégrable sur ] − ∞, +∞[.
−x2 −x2
D’autre part, la fonction x → e 2 ×cos(tx) est dérivable sur R et sa dérivée vaut : −xe 2 ×sin(tx).
On remarque enfin que :
−x2 −x2
| − xe 2 × sin(tx)| ≤ |x|e 2
−x2
et que la fonction |x|e 2 est intégrable sur ] − ∞, +∞[.
105
Donc d’après le théorème de dérivation sous le signe intégral on a :
Z +∞
1 −x2
φ0X (t) = √ −xe 2 × sin(tx)dx
2π −∞
+∞
−1
Z
−x2
= √ xe 2 × sin(tx)dx
2π −∞
Z +∞
1 −x2
= √ 0−t cos(tx)e 2 dx
2π −∞
Z +∞
1 −x2
= t× √ cos(tx)e 2 dx
2π −∞
= t × φX (t)
2 /2
φX (t) = C.e−t
Or :
φX (0) = E(e0 ) = E(1) = 1
Donc :
2 /2
C.e−0 = 1 ⇐⇒ C.e0 = 1 ⇐⇒ C = 1
Proposition 4.7.4 (Fonction caractéristique de la loi normale). Soit X une variable aléatoire
106
suivant la loi normale N (µ, σ 2 ). La fonction caractéristique de X est alors égale à :
σ 2 t2
itX
∀t ∈ R, φX (t) = E(e ) = exp µit −
2
X −µ
∼ N (0, 1)
σ
−t2
φ X−µ (t) = exp
σ 2
X−µ
= E(eit σ )
= e−itµ/σ × E(eitX/σ )
t
= e−itµ/σ × φX ( )
σ
Par conséquent :
−t2
t
φX ( ) = exp × eitµ/σ
σ 2
−σ 2 t2
⇐⇒ φX (t) = exp × eitµ
2
σ 2 t2
⇐⇒ exp µit −
2
σ 2 t2
On a donc bien : φX (t) = E(eitX ) = exp µit − 2
.
107
4.7.3 Indépendance
108
4.8 Synthèse
−→ Densité de probabilité
Rb
Application p : [a, b] → R continue positive vérifiant : a
p(x)dx = 1.
−→ Variable aléatoire réelle de densité p
Rβ
X une variable aléatoire réelle vérifiant : ∀α, β ∈ R, P(α ≤ X ≤ β) = α
p(x)dx
−→ Espérance Z
x 7→ E(X) = xp(x)dx
R
−→ Fonction de répartition
x 7→ FX (x) = P(X ≤ x)
−→ Fonction caractéristique
t 7→ φX (t) = E(eitX )
R −→ R
a 1 x 1
C(a) x 7→ - x 7→ arctan + t 7→ exp(−a | t |)
π(a + x2 )
2 π a 2
R −→ R
−(x − µ)2
1
σ 2 t2
N (µ, σ 2 ) x 7→ √ exp µ cf Annexe t 7→ exp iµt − 2
σ 2π 2σ 2
R −→ R
2
1 −x 2
N (0, 1) x 7→ √ exp 0 cf Annexe t 7→ exp − t2
2π 2
109
110
Chapitre 5
Comme on a pu le voir au chapitre précédent les variables aléatoires peuvent être manipulées
comme des variables habituelles. Il est donc naturel de penser à la convergence d’une suite de
variable aléatoire. Posons d’abord cela :
Comme pour les suites numériques, il existe plusieurs types de convergence pour les suites de
variables aléatoires, tous reliés entre eux. Nous allons étudier cette notion dans ce chapitre.
5.1 Généralités
Commençons tout d’abord par énoncé les différents type de convergence.
111
• dans L2 si : Xn et X sont de carrés intégrables et : E((| Xn − X |)2 ) −→ 0
n→∞
L2
Et on note : Xn −→ X
n→∞
Remarque 5.1.1. – Il est évident qu’on peut remplacer la formule de convergence en proba-
bilité par :
∀ > 0, P(| Xn − X |< ) −→ 1
n→∞
– La définition de convergence dans Lp est immédiate, il faut que :
E | Xn |p < ∞, E | X |p < ∞ et : E((| Xn − X |)p ) −→ 0
n→∞
Lp
On la note : Xn −→ X
n→∞
– Il est évident que pour que ces définitions aient un sens, il faut que les variables aléatoires
Xn et X soient définies sur le même espace probabilisé.
Théorème 5.1.1 (Convergence dominée (hors programme)). Soit (Xn )n≥1 une suite de variable
aléatoire qui convergence presque sûrement vers X. Si la suite est dominée, c’est-à-dire il existe
une variable aléatoire Y telle que :
L1
∀n ≥ 1, P(|Xn | ≤ Y ) = 1, alors X est intégrable et Xn −→ X
n→∞
(Xn − X) ≤ |Xn − X|
et :
(X − Xn ) ≤ |Xn − X|
et
E(X) − E(Xn ) = E(X − Xn ) ≤ E(|Xn − X|)
112
On obtient donc :
|E(X) − E(Xn )| ≤ E(|Xn − X|).
Comme on a la convergence dans L1 , cela conclut la démonstration.
Théorème 5.1.2 (Convergence monotone (hors programme)). Soit (Xn )n≥1 une suite croissante
de variable aléatoires réelles positives telles que :
∀m ≥ n, Xm ≥ Xn alors :
Proposition 5.1.2 (Inégalité de Markov). Soit X une variable aléatoire réelle alors :
E(|X|)
∀a > 0, P(|X| ≥ a) ≤
a
Remarque 5.1.2. Il est évident que, comme pour toute majoration, cette inégalité n’a d’intérêt
que si E(|X|) est fini. Néanmoins, même dans le cas contraire, l’inégalité est vraie que E(|X|) ne
pose pas de problème de définition (car on somme ou on intègre une fonction positive).
Théorème 5.1.3 (Inégalité de Markov généralisée). Soit X une variable aléatoire réelle et p > 0 :
E(|X|p )
∀a > 0, P(|X| ≥ a) ≤
ap
Démonstration 5.1.3. On utilise la même démonstration que pour le cas simple de l’inégalité de
Markov.
V ar(X)
P(|X − E(X)| > a) ≤
a2
113
Démonstration 5.1.4. On utilise tout simplement l’inégalité de Markov d’ordre 2, car X − E(X)
est une variable aléatoire.
p
E(|X.Y |) ≤ E(X 2 )E(Y 2 )
Par croissance et positivité de l’espérance, on en déduit que ce polynôme possède soit une unique
racine soit aucune. Autrement dit sont déterminant est négatif ou nul. Ce qui revient à écrire que :
En passant à la racine des deux cotés (car l’espérance est positive) on conclut la démonstration.
Théorème 5.1.6 (Inégalité de Hölder). Soit X et Y deux variables aléatoires et soient p, q > 0
1 1
vérifiant + = 1, alors on a :
p q
1 1
E(|X.Y |) ≤ E(|X|p ) p .E(|Y |q ) q
Démonstration 5.1.6.
114
– Convergence dans L2 ⇒ Convergence dans L1
On sait qu’une variable de carré intégrable est également intégrable. Donc si Xn − X est
de carré intégrable, elle est intégrable. Il nous suffit alors d’utiliser l’inégalité de Cauchy
Schwarz, vue plus haut :
p
E(|Xn − X|) ≤ E(|Xn − X|2 )
Soit > 0, posons la variable aléatoire : Zn = 1|Xn −X|> . On a par hypothèse sur la conver-
gence presque sûre :
∀w ∈ Ω, ∃N0 , tel que ∀n ≥ N0 , |Xn (w) − X(w)| ≤ . On obtient donc que pour tout n ≥ N0 ,
Zn = 0. Comme on sait de plus (voir chapitre 4) que E(Zn ) = P(|Xn − X| > ), et que Zn
est dominé par 1 qui est une variable aléatoire constante, donc intégrable. On a alors par le
théorème de convergence dominé et par la Proposition 5.1.1 :
E(|Xn − X|)
P(|Xn − X| ≥ ) ≤
En appliquant la définition de la convergence dans L1 , on conclut la démonstration.
Remarque 5.1.4. De la même manière, on peut montrer que pour tout p ∈ N, la convergence
dans Lp implique la convergence dans Lp−1 .
On peut à présent remarquer que grâce à la relation que l’on a démontré entre la convergence L2
et L1 ainsi que la Proposition 5.1.1, on peut obtenir un résultat équivalent pour la convergence
dans L2 :
Proposition 5.1.3 (Convergence dans L2 et conséquence). Soit (Xn )n≤1 une suite de variable
L2
aléatoire et X une autre variable aléatoire tel que : Xn −→ X. Alors :
n→∞
115
– lim E(Xn ) = E(X)
n→∞
Démonstration 5.1.7.
– Evident, car la convergence dans L2 implique la convergence dans L1 . Il nous suffit d’appliquer
la Proposition 5.1.1.
– C’est la même démonstration que pour la Proposition 5.1.1, en partant du fait que :
(X − Xn )2 ≤ |Xn − X|2
et
(Xn − X)2 ≤ |Xn − X|2
Théorème 5.1.8. Soit (Xn )n≤1 une suite de variable aléatoire qui admet une espérance et une
variance. Si de plus on a :
lim E(Xn ) = l ∈ R
n→∞
et
lim V ar(Xn ) = 0
n→∞
Alors :
P
Xn −→ l
n→∞
116
E(|Xn − l|2 )
P(|Xn − l| > ) ≤
2
E(Xn − 2lXn + l2 )
2
≤
2
1
≤ 2 E(Xn2 ) − 2lE(Xn ) + l2
1
≤ 2 V ar(Xn ) + E(Xn )2 − 2lE(Xn ) + l2
1 2 2
1 2 2 2
V ar(X n ) + E(X n ) − 2lE(X n ) + l = 0 + l − 2l + l =0
2 2
P
Donc par le théorème des gendarmes, on a bien : Xn −→ l.
n→∞
Ce qui conclut la démonstration.
Remarque 5.1.5. Cette démonstration est à connaître et à savoir appliquer. En effet elle est
souvent réutiliser lorsqu’une convergence en probabilité doit être montrée. Bien entendu comme
l’inégalité de Bienaymé-Tchebychev n’est qu’une conséquence de l’inégalité de Markov, on applique
le plus souvent l’inégalité de Markov lors de la résolution d’exercice.
Définition 5.1.2 (Convergence en loi). Soit (Xn )n≤1 une suite de variable aléatoire, on dit que
Xn converge en loi vers la variable aléatoire X si pour tout x ∈ R, où FX est continue, on ait :
L
On la note : Xn −→ X
n→∞
117
Xn converge en loi vers la variable aléatoire X si pour tout x, y ∈ R, où FX est continue, on ait :
Définition 5.1.3. Xn converge en loi vers la variable aléatoire X si et seulement si pour toute
fonction f : R −→ R continue et bornée, on a :
Donnons à titre indicatif une caractérisation de la convergence en loi par la fonction carac-
téristique :
Théorème 5.1.9 (de Lévy). Xn converge en loi vers la variable aléatoire X si et seulement si :
Lemme 5.1.1. Soit (Xn )n≥1 une suite de variable aléatoire qui converge presque sûrement vers la
variable aléatoire X. Soit f : R −→ R une fonction continue, alors :
p.s
f (Xn ) −→ f (X)
n→∞
|f (Xn (w)) − f (X(w))| = |f (Xn (w)) − Xn (w) + Xn (w) − X(w) + X(w) − f (X(w))|
≤ |f (Xn (w)) − Xn (w)| + |Xn (w) − X(w)| + |X(w) − f (X(w))|
118
Soit > 0, par continuité de f , il existe des rangs N0 et N1 tels que pour tout n ≥ max(N0 , N1 ) =
N , on ait :
|f (Xn (w)) − Xn (w)| ≤
3
et
|X(w) − f (X(w))| ≤
3
De plus par convergence presque sûre de Xn vers X, il existe un rang N2 tel que pour tout
n ≥ max(N, N2 ), on ait :
|Xn (w) − X(w)| ≤
3
.
p.s
Donc |f (Xn (w)) − f (X(w))| ≤ . Donc on a bien : f (Xn ) −→ f (X), ce qui conclut la démon-
n→∞
stration.
Soit f une fonction continue et bornée (par un réel qu’on appellera M ). On a d’après le lemme
p.s p.s
si Xn −→ X alors f (Xn ) −→ f (X). Comme f est bornée par la constante M qui est intégrable,
n→∞ n→∞
on peut utiliser le théorème de convergence dominée. Ce qui conclut la démonstration.
119
Et de manière triviale :
On va à présent utiliser notre hypothèse, le fait que la fonction de répartition FX soit continue.
Et donc par hypothèse de convergence en probabilité, pour ces et η2 donnés, il existe un rang
N tel que pour tout n ≥ N , P(|Xn − X| ≥ η2 ) ≤ 2 . Ce qui nous permet d’obtenir grâce à (1) :
En combinant les deux résultats trouvés, on prouve bien la convergence en loi, ce qui conclut la
démonstration.
Remarque 5.1.7. La réciproque est bien entendue fausse, malgré cela nous verrons dans les ex-
ercices qu’il existe un cas ou on a équivalence.
120
5.2 Théorèmes limites
Vocabulaire 5.2.1. Soit (Xn )n≥1 une suite de variable aléatoire, on dit que les Xn sont i.i.d.
(independant and identically distributed), lorsque ces éléments sont tous indépendants entre eux et
suivent la même loi de probabilité.
n
1X
∀ > 0, P(| Xi − E(X)| ≥ ) −→ 0
n i=1 n→∞
n
V ( n1
P
n Xi − E(X))
1 X i=1
P(| Xi − E(X)| ≥ ) ≤
n i=1
n
V ( n1
P
Xi )
i=1
≤
n
P
V ( Xi )
i=1
≤
n2
n
P
V (Xi )
i=1
≤ (par indépendance)
n2
V (X)
≤ (car de même loi)
n
121
Comme V (X) est une constante, le terme de droite tend vers 0 en l’infini. Par le théorème des
gendarmes on conclut la démonstration.
Théorème 5.2.2 (Loi forte des grands nombres). Soit (Xn )n≥1 une suite de variable aléatoires
i.i.d., admettant une espérance et une variance. Soit X une autre variable aléatoire de même loi,
alors :
n
1X p.s
Xi −→ E(X)
n i=1 n→∞
Démonstration 5.2.2. La démonstration est hors programme car elle nécessite des résultats plus
avancés. Pour les étudiants curieux, la démonstration faite par Kolmogorov en 1929 est présente
sur le site Wikipédia.
Bien que vous n’aurez peut être pas l’occasion de le voir par vous même durant cette UE, nous
allons à présent énoncer ce qui est, peut être, le théorème le plus important de ce cours, et de
manière certaine un des théorèmes fondamental des probabilités et des statistiques.
Théorème 5.2.3 (de la limite centrale). Soit (Xn )n≥1 une suite de variable aléatoires i.i.d., notons
µ leur espérance, et σ 2 leur variance.
n
1
P
Xi − µ
√ n
i=1
Posons : X̃n = n
σ
Alors :
L
X̃n −→ X, avec X ∼ N (0, 1)
n→∞
Remarque 5.2.1. Le fait d’utiliser µ et σ signifie, bien entendu, que les Xn sont de carrés inté-
grables (et donc intégrables également).
Soit u ∈ R,
122
n
1
P
Xi − µ
√ n
i=1
φX̃n = E(exp(iu n )
σ
n
P
X − nµ
√ i=1 i
= E(exp(iu n
)
nσ
n
P
i=1(Xi − µ)
= E(exp(iu √ )
nσ
n
Y (Xi − µ)
= E(exp(iu √ ) (par indépendance)
i=1
nσ
n
(X1 − µ)
= E(exp(iu √ ) (car de même loi (identiquement distribuées))
nσ
n
u
= φX1 −µ ( √ )
nσ
Il nous suffit alors d’appliquer le développement limité de la fonction caractéristique (on peut
le faire car X1 est de carré intégrable, donc X1 − µ également). On obtient alors :
u2 1
φXn (u) = 1 − + o( )
2n n
u 2 2
Or, 1 − 2n + o( n1 ) −→ exp(− u2 ). On reconnaît la fonction caractéritique d’une loi normale
n→∞
centrée réduite. Ce qui conclut la démonstration.
123
5.3 Synthèse
−→ Convergences
p.s
• Xn −→ X ⇔ P(Xn −→ X) = P({ω ∈ Ω, Xn (ω) −→ X(ω)}) = 1
n→∞ n→∞ n→∞
P
• Xn −→ X ⇔ ∀ > 0, P(| Xn − X |≥ ) −→ 0
n→∞ n→∞
Lp
• Xn −→ X ⇔ E | Xn |p < ∞, E | X |p < ∞ et : E((| Xn − X |)p ) −→ 0
n→∞ n→∞
L
• Xn −→ X ⇔
n→∞
−→ Inégalités
X et Y de carré intégrable.
E(|Z|p )
• [Markov] ∀a > 0, ∀p > 0, P(|Z| ≥ a) ≤
ap
V ar(X)
• [Bienaymé-Tchebychev] ∀a > 0, P(|X − E(X)| ≥ a) ≤
a2
p
• [Cauchy Schwarz] E(|X.Y |) ≤ E(X 2 )E(Y 2 )
124
−→ Théorèmes limites
2
Xn esti.i.d, et admet une espérance µ et une variance σ . X suit la même loi que Xn .
n
1
P
Xi − µ
√ n
i=1
X̃n = n
σ
n
1X P
• [Loi faible des grands nombres] Xi −→ E(X)
n i=1 n→∞
n
1X p.s
• [Loi forte des grands nombres] Xi −→ E(X)
n i=1 n→∞
L
• [Central limite] X̃n −→ X, avec X ∼ N (0, 1)
n→∞
125
126
Deuxième partie
Statistiques
127
Chapitre 6
Définition 6.1.1 (Population statistique). On appelle population statistique l’ensemble sur lequel
l’étude est menée.
Définition 6.1.2 (Individu statistique). On appelle individu statistique tout élément de la popu-
lation statistique.
Exemples 6.1.1.
– On étudie le nombre d’arbres malades d’une forêt. La population statistique est alors la forêt
et chaque arbre est un individu statistique.
– On étudie le nombre de planètes possédant un anneau. La population statistique est alors
l’ensemble des planètes de l’univers et une planète est un individu statistique.
– On étudie les intentions de votes pour une éléction présidentielle. La population statistique
est alors l’ensemble des électeurs du pays et un électeur est un individu statistique.
Définition 6.2.1 (Echantillon). On appelle échantillon tout sous ensemble d’une population statis-
tique.
129
Exemple 6.2.1. L’ensemble des plaques d’immatriculation françaises commençant par "AA" est
un échantillon de la population statistique composé de l’ensemble des plaques d’immatriculation
françaises.
Définition 6.2.2 (Caractère). On appelle caractère, un trait présent chez tous les individus d’une
population.
Un trait est quantitatif s’il est mesurable, qualitatif s’il est repérable sans être mesurable.
Exemple 6.2.2. Sur une population de fleurs, la couleur est un caractère qualitatif et le nombre
de pétales un caractère quantitatif.
Définition 6.3.1 (Effectif d’une valeur d’un caractère). On appelle effectif d’une valeur d’un
caractère, le nombre de fois qu’apparaît cette valeur du caractère.
Définition 6.3.2 (Fréquence d’une valeur d’un caractère). On appelle fréquence d’une valeur d’un
caractère, le quotient de l’effectif de cette valeur par l’effectif total des valeurs de ce caractère. Elle
peut exprimée sous forme de pourcentage ou de fraction.
Exemple 6.3.1. On étudie le caractère qualitatif couleur d’une population constituée de 100 indi-
vidus fleurs. On obtient le tableau suivant :
15
= 15%
100
47
= 47%
100
130
Remarque 6.3.1. Une fois l’étude sur les effectifs de chaque caractère d’un échantillon réalisé,
on peut considérer que ces effectifs se rapprochent, pour chaque caractère, de la loi de distribution
d’une variable aléatoire que nous verrons au chapitre suivant.
131
132
Chapitre 7
Estimation ponctuelle
Remarque 7.0.2. Le paramètre θ peut-être multi-dimensionnel. En effet pour une loi normale,
le paramètre serait θ = (µ, σ2) tandis que pour une loi binomiale ou une loi de Poisson il serait :
θ = p ou θ = λ.
7.1 Généralités
Définition 7.1.1 (Estimateur). Soit (X1 , ..., Xn ) un échantillon de taille n, un estimateur de θ
est une variable aléatoire : Φn = φ(X1 , ..., Xn ), où
φ :Rn −→ R
(x1 , ..., xn ) 7→ θ̂n = φ(x1 , ..., xn )
Remarque 7.1.1. Il faut faire attention au fait qu’un estimateur est une fonction de X1 , ..., Xn
et non du paramètre θ !
133
Définition 7.1.2 (Lois de distribution). Soit (X1 , ..., Xn ) un échantillon de taille n de la variable
aléatoire X ∼ L(θ) et (x1 , ..., xn ) une réalisation. On appelle distribution de la loi L(θ) la valeur :
Pθ (X = x).
On définit alors la loi de distribution de l’échantillon :
– Si L(θ) est discrète par :
– Si L(θ) est continue de densité pθ par : L(x1 , ..., xn , θ) = pθ (x1 ). · · · .pθ (xn )
On nomme, dans les deux cas, L(x1 , ..., xn , θ) la fonction de vraisemblance du paramètre θ
Remarque 7.1.2. Il peut y avoir plusieurs estimateurs pour un même échantillon, citons à titre
d’exemple les plus utilisés :
n
– La moyenne empirique : Xn = n1
P
Xi
i=1
– La médiane (valeur tels qu’il y ait le même nombre d’éléments inférieur et supérieur à celle-
ci)
– Un des valeurs de l’échantillon (X5 par exemple)
La question qui se pose alors est : comment trouver l’estimateur le plus efficace ? Il suffit de les
comparer avec plusieurs méthodes dont nous verrons quelques-unes ci-dessous.
Définition 7.1.3 (Biais d’un estimateur). Soit Φn un estimateur d’un échantillon relatif au
paramètre θ, on appelle biais de cet estimateur :
B(Φn , θ) = E(Φn ) − θ
Définition 7.1.4 (Estimateur sans biais). On dit que Φn est un estimateur sans biais si :
∀θ, Eθ (Φn ) = θ
Définition 7.1.5 (Estimateur convergent). On dit que Φn est un estimateur convergent (en prob-
abilité) si :
P
Φn −→ θ
n→∞
134
Exemple 7.1.1. On considère issue une expérience dont l’issue est soit un succès soit un échec.
Prenons l’exemple d’un jeu de pile ou face.
Soit, donc, X1 , ..., Xn des variables aléatoires i.i.d, tel que Xi ∼ B(p). Nous rappelons (voir
chapitre 3), que P(Xi = 1) = p, de plus : Ep (Xi ) = p.
Nous allons montrer que la moyenne empirique est un estimateur sans biais convergent de p.
On définit la moyenne de n variable aléatoire par la variable aléatoire :
n
1X
Xn = Xi
n i=1
On voit clairement que c’est un estimateur, montrons qu’il est sans biais. Soit p :
n
1X
Ep (XN ) = Ep ( Xi )
n i=1
n
1X
= Ep (Xi )
n i=1
1
= n. Ep (X1 ) = p
n
Il est donc sans biais, montrons qu’il est consistant. Soit > 0 et soit p, on observe tout d’abord
que : P(| Xn − p |> ) = P(| Xn − Ep (Xn ) |> ).
Utilisons l’inégalité de Bienaymé-Tchébychev :
V arp (Xn )
P(| Xn − Ep (Xn ) |> ) ≤
2
n
1 X
≤ 2 2 V arp (Xi )
n i=1
1
≤ .nV arp (X1 )
n2 2
1
≤ 2
V arp (X1 )
|n {z }
−→ 0
n→∞
Remarque 7.1.3. N’oublions pas que le théorème 5.1.6 nous donne une condition suffisante pour
la convergence d’un estimateur.
135
7.2 Information de Fisher
Cette section va nous permettre de vérifier l’efficacité d’un estimateur.
Définition 7.2.1 (Quantité d’information d’un échantillon). Soit (X1 , ..., Xn ) un échantillon de
taille n relatif au paramètre θ on définit la quantité d’information de cette échantillon, également
appelée information de Fisher par :
" 2 #
∂ log Ln (x1 , ..., xn , θ)
In (θ) = E
∂θ
Nous allons indiquer dans la suite les principaux moyens de juger de l’efficacité d’un estimateur.
Proposition 7.2.1 (Comparaison d’estimateur). Soit Φn et Φfn deux estimateurs d’un même
échantillon. On dira que Φn est plus efficace que Φ
fn si :
Proposition 7.2.2 (Inégalité de Cramer-Rao). Soit Φn un estimateur sans biais d’un échantillon
relatif au paramètre θ. Alors on a l’inégalité suivante :
1
≤ V ar(Φn )
In (θ)
Définition 7.2.2. On dira qu’un estimateur sans biais est efficace si on a égalité dans la propo-
sition précédente. Autrement dit :
1
= V ar(Φn )
In (θ)
136
Théorème 7.3.1 (Condition suffisante). Si il existe un estimateur efficace sans biais, il est solution
de l’équation 6.1 dite du maximum de vraisemblance.
Remarque 7.3.1 (Fondamentale). On peut également remplacer dans les équations plus haut la
fonction de vraisemblance par la log-vraisemblance, qui est défini comme la composé du log et
de la fonction de vraisemblance. Le logarithme étant une fonction croissante, il est équivalent de
résoudre les équations pour la vraisemblance ou pour a log-vraisemblance.
Le passage au log est, comme toujours, très utile pour ses propriétés notamment la transforma-
tion du produit en somme.
Exemple 7.3.1. On souhaite trouver un estimateur d’une loi normale (N (µ, θ2 )). Soit donc un
échantillon (X1 , ..., Xn ) suivant cette loi et x1 , ..., xn des réalisations.
−→ Fixons tout d’abord θ et estimons µ.
n
Y
L(x1 , ..., xn , µ) = pµ,σ (xi )
i=1
n
−(xi − µ)2
Y 1
= √ exp
i=1
2πσ 2σ 2
D’où :
n
−(xi − µ)2
X 1
log L(x1 , ..., xn , µ) = log √ exp
i=1
2πσ 2σ 2
n n
−(xi − µ)2
X
X 1
= log √ +
i=1
2πσ i=1
2σ 2
n
∂ log L(x1 , ..., xn , µ) X xi − µ
=0⇔ =0
∂µ i=1
σ2
n
X
⇔ (xi − µ) = 0
i=1
n
1
P
Le seul zéro est donc en : µ = n
xi . Il nous faut donc vérifier que c’est bien un maximum.
i=1
Dérivons pour cela une deuxième fois :
137
n
∂ 2 log L(x1 , ..., xn , µ) X 1
= − 2 <0
∂µ2 i=1
σ
n n
(xi − µ)2
∂ log L(x1 , ..., xn , σ) X −1 X
=0⇔ + =0
∂σ i=1
σ i=1
σ3
n
X
(xi − µ)2 − σ 2 = 0
⇔
i=1
n
1
(xi − µ)2 , en vérifiant une nouvelle fois que c’est la
P
On obtient donc l’estimateur : σ
e = n
i=1
valeur maximale.
138
Chapitre 8
Test d’hypothèse
Si on lance un dé une centaine de fois en notant le nombre obtenu à chaque lancé, on peut
établir une hypothèse statistique du type : “ Le dé est équilibré ”, “ Le dé est déséquilibré ” ou plus
précisément “ Le dé est plus lourd du côté où se trouve le nombre 5 ”. Une fois cette hypothèse
émise, il est nécessaire de l’estimer en effectuant un test d’hypothèse, qui permettra d’estimer la
probabilité que cette hypothèse soit vraie ou fausse.
8.1 Généralités
Définition 8.1.1 (Test d’hypothèse). Un test d’hypothèse, est un procédé permettant d’évaluer
une hypothèse statistique en fonction d’un échantillon.
Exemple 8.1.1 (Une pièce est elle équilibrée ?). Supposons qu’on ait lancé une centaine de fois
une pièce afin de déterminer si elle est équilibrée et que nous ayons obtenu l’échantillon suivant :
Pile Face
47 53
On peut alors formulé l’hypothèse statistique : “ La pièce est équilibrée ”. Cependant, si on veut
pouvoir dire plus précisément : “Il y a 95% de chances que la pièce soit équilibrée” il faudra effectuer
un test d’hypothèse.
139
classe 1 classe 2 ... classe k toutes les classes
n1 éléments n2 éléments ... nk éléments n = n1 + ... + nk éléments
On émet alors une hypothèse statistique, qui n’est rien d’autre qu’une retraduction de :
"L’échantillon donné, correspond à la loi d’une variable aléatoire X prenant en argument k valeurs
x1 , ..., xk et telle que ∀i ∈ {1, ..., k}, P(X = xi ) = pi ."
k
X (ni − n × pi )2
S=
i=1
n × pi
On compare alors la valeur de S avec les valeurs du tableau de la loi du khi-deux à k − 1 degrés de
liberté, χ2k−1 , de la manière suivante :
Si on veut que la marge d’erreur de notre hypothèse soit de 5%, c’est à dire que notre hypothèse
soit sûre à 95% on regardera alors la valeur se trouvant à l’intersection de la ligne k − 1 et de la
colonne 0.05, de même si on veut que notre hypothèse soit sûre à 99% prêt alors on regardera la
valeur à l’intersection de la ligne k − 1 et de la colonne 0.01.
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
k−1 ... ... ... ... t ... ... ... ... ...
Supposons qu’on veut que la marge d’erreur de notre hypothèse soit de 30%, on regardera alors le
nombre t se trouvant à l’intersection de la ligne k − 1 et de la colonne 0.30. Alors, si S < t alors
on peut dire que l’hypothèse est vraie avec un risque de se tromper de 30%.
Si l’on souhaite avoir une autre marge d’erreur on procède de la même manière en lisant la colonne
correspondante.
140
Exemple 8.2.1 (Une pièce est elle bien équilibrée ?). On lance une pièce une cent fois et on obtient
cet échantillon :
Pile Face
47 53
Peut on émettre l’hypothèse statistique que la pièce est équilibrée avec une chance inférieure à 5%
de se tromper ?
On remarque qu’on dispose donc d’un échantillon de 100 éléments, divisé en deux classes nommés
"Pile" et "Face". L’hypothèse que la pièce soit équilibrée peut être retraduite de cette façon :
"Cet échantillon suit la répartition d’une variable aléatoire X suivant la loi de Bernoulli de
paramètre 0.5". En effet, si la pièce est équilibrée la probabilité d’obtenir Face est la même que
celle d’obtenir Pile, c’est dire de 0.5.
Par conséquent, on a :
k
X (ni − n × pi )2
S=
i=1
n × pi
2
X (ni − 100 × P(X = i))2
=
i=1
100 × P(X = i)
Notre échantillon étant divisé en deux classes, nous allons nous intéresser au khi-deux à 2−1 =
1 degrés de liberté.
141
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
On en déduit donc, qu’on peut bien affirmer que la pièce est équilibrée avec un risque inférieur
à 5% de se tromper.
Exemple 8.2.2 (Un dé est il équilibré ?). On lance un dé trois cents fois et on obtient cet échan-
tillon :
1 2 3 4 5 6
63 54 47 39 57 40
Peut on émettre l’hypothèse statistique que le dé est équilibré avec une chance inférieure à 10% de
se tromper ?
On remarque qu’on dispose donc d’un échantillon de 300 éléments, divisé en six classes. L’hy-
pothèse que le dé soit équilibré peut être retraduite de cette façon :
"Cet échantillon suit la répartition d’une variable aléatoire X suivant une loi de répartition uni-
forme". En effet, si le dé est équilibré on a :
1
P(X = 1) = ... = P(X = 6) =
6
142
Par conséquent, on a :
k
X (ni − n × pi )2
S=
i=1
n × pi
6
X (ni − 300 × P(X = i))2
=
i=1
300 × P(X = i)
(63 − 300 × P(X = 1))2 (54 − 100 × P(X = 2))2 (40 − 100 × P(X = 6))2
= + + ... +
300 × P(X = 1) 300 × P(X = 2) 300 × P(X = 6)
1 2 1 2 1 2
63 − 300 × 6
54 − 100 × 6
40 − 100 × 6
= + + ... +
300 × 16 300 × 61 300 × 61
(63 − 50)2 (54 − 50)2 (40 − 50)2
= + + ... +
50 50 50
132 + 42 + 32 + 112 + 72 + 102
=
50
464
= = 9.28
50
Notre échantillon étant divisé en six classes, nous allons nous intéresser au khi-deux à 6−1 = 5
degrés de libertés.
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
143
On en déduit donc, qu’on ne peut pas affirmer que le dé est équilibrée avec un risque inférieur
à 10% de se tromper.
144
Troisième partie
Annexes
145
Annexe A
Nous rappelons ici les notions de la théorie des ensembles indispensables à la compréhension
du cours.
Commençons tout d’abord par des définitions "intuitives" dues pour la plupart à Georg Cantor.
A.1 Généralités
Définition A.1.1 (Ensemble). On appelle ensemble une collection d’objet, nommé éléments.
Notation A.1.1. Soit E un ensemble, on note :
– x ∈ E si l’élément x appartient à E
– x∈
/ E si l’élément x n’appartient pas à E
– Si E est réduit à un seul élément (disons x), alors E se note {x}, dit "singleton x"
– Si E ne contient aucun élément, on dit qu’il est égale à l’ensemble vide, noté
Exemple A.1.1.
– E = {1, 2, 3} est un ensemble, et on peut voir que : 1 ∈ E mais 4 ∈
/E
– E = Q est un ensemble, contenant l’ensemble des nombres rationnels. On peut voir que
√
2∈
/E
Remarque A.1.1. Il faut faire attention à la notion d’ensemble vide. Un ensemble peut contenir
l’ensemble vide, sans l’être lui-même. On peut voir un exemple au chapitre 1 avec les tribus.
Rappelons également la définition suivante :
147
Définition A.1.2 (famille d’ensembles). On appelle famille d’ensemble, un ensemble ayant pour
élément des ensembles.
Exemple A.1.2.
– Une tribu est une famille d’ensemble
– E = {{1, 2}, {1, 3}} est une famille d’ensemble mais n’est pas une tribu
Définition A.1.3 (Inclusion). Soit A et B deux ensembles, on dit que A est inclus dans B, et on
note A ⊆ B, si tous les éléments de A sont dans B. Autrement dit :
A ⊆ B ⇔ ∀x ∈ A, x ∈ B
Remarque A.1.2. Voici une remarque très importante qui peut s’appliquer à plusieurs domaines
des mathématiques. Lorsque l’on veut montrer que deux ensembles A et B sont égaux, il suffit de
montrer que A ⊆ B et B ⊆ A.
A \ B = {x ∈ A, x ∈
/ B}
Ac = {x ∈ E, x ∈
/ A}
Remarque A.2.1. Il est important de voir que la notion de complémentaire dépend de l’ensemble
dans lequel on se place (ici E). Ainsi le complémentaire de N dans Q n’est pas le même que le
complémentaire de N dans R.
On peut également voir (et noter !), Ac = E \ A.
148
Définition A.2.3 (réunion d’ensemble). Soit A, B et E trois ensembles tels que A ⊆ E et B ⊆ E,
on note A ∪ B l’ensemble des éléments appartenant à A ou à B. Autrement dit :
A ∪ B = {x ∈ E, x ∈ A ou x ∈ B}
A ∩ B = {x ∈ E, x ∈ A et x ∈ B}
A \ B = A ∩ Bc
Démonstration A.2.1. A \ B = {x ∈ A, x ∈ / B} = {x ∈ A et x ∈ B c } =
/ B} = {x ∈ A et x ∈
A ∩ Bc
Définition A.2.5 (réunion et intersection quelques d’ensembles). Soit (Ai )i∈I une suite d’ensem-
ble indicée par un ensemble I quelconque. Alors on note et on définit :
[
Ai = {x ∈ E, ∃i0 ∈ I, x ∈ Ai0 }
i∈I
\
Ai = {x ∈ E, ∀i ∈ I, x ∈ Ai }
i∈I
–
\ 1
[1, 2 + ] = [1, 2]
n∈N
n
149
Définition A.2.6 (Union disjointe). Soit (Ai )i∈I une suite d’ensembles, on dit que leur réunion
est disjointe si et seulement si les ensembles sont disjoints deux à deux. Autrement dit :
∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅
.
U F
Dans ce cas on note la réunion : Ai ou Ai
i∈I i∈I
Définition A.2.7 (partition). Soit E un ensemble, et (Ai )i∈I une suite d’ensemble inclus dans E.
On dit que (Ai )i∈I est une partition de E si et seulement si :
[
Ai = E et ∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅
i∈I
Exemple A.2.3. – L’ensemble {0, 1, 2, 3} admet {0}, {1}, {2}, {3} ou bien {0, 2}, {1, 3} comme
partition. En revanche : {0, 1, 2}, {2, 3} n’est pas une partition. En effet {0, 1, 2} ∩ {2, 3} =
{2}.
– Un autre exemple qui parait plus trivial mais qui est assez utile. L’ensemble N admet la suite
Un = {n}, n ∈ N comme partition. De même la suite Vq = {q}, q ∈ Q est une partition de Q.
(l’écriture est en effet valide car l’ensemble des rationnels est dénombrable).
Vocabulaire A.2.1. Nous rappelons avant d’aborder la suite le lien entre les opérations sur les
ensembles et les opérations logiques.
– (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
– (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
150
Démonstration A.2.2. La démonstration se base sur le fait que le "ou" est distributif par rapport
à "et" (voir LM115 ou le remontrer avec une table de vérité).
– (A ∪ B)c = Ac ∩ B c
– (A ∩ B)c = Ac ∪ B c
Démonstration A.2.3. La démonstration suit la même logique que la proposition 7.2.2 en prenant
la proposition logique "non" pour le complémentaire.
A × B = {(x, y), x ∈ A et y ∈ F }
Exemple A.4.1. – L’exemple le plus "classique" du produit cartésien est R × R, aussi noté
R2 (on peut bien sur remplacer R par tous les ensembles connus).
151
– Un exemple plus concret : {1, 2, 3} × {4, 5} = {{1, 4}, {2, 4}, {3, 4}, {1, 5}, {2, 5}, {3, 5}}.
– Un autre : [0, 1]×[1, 2] est un carré de R2 de longueur de côté 1, et de sommets {0, 1}, {1, 1}, {0, 2}, {1, 2}.
Définition A.4.2 (Produit cartésien généralisé). On peut également, comme pour la réunion et
l’intersection d’ensembles, généraliser le produit cartésien.
Soit (Ai )0≤i≤N une suite d’ensemble, on a :
A.5 Applications
Nous rappelons simplement dans cette section les formules très utiles de Hausdorff.
Proposition A.5.1 (Formules de Hausdorff). Soit f : E −→ F une application et (Ai )i∈I une
suite d’ensembles de F et A ⊆ F , alors :
S S
– f( Ai ) = f (Ai )
i∈I i∈I
T T
– f( Ai ) ⊆ f (Ai ) (égalité si f injective)
i∈I i∈I
– f −1 ( f −1 (Ai )
S S
Ai ) =
i∈I i∈I
– f −1 ( f −1 (Ai )
T T
Ai ) =
i∈I i∈I
– f −1 (Ac ) = (f −1 (A))c
152
S S
– Soit y ∈ f ( Ai ), alors par définition de l’image, il existe x ∈ Ai tel que f (x) = y. De
i∈I i∈I
plus, par définition de la réunion, il existe i0 ∈ I, tel que x ∈ Ai0 . Autrement dit, y ∈ f (Ai0 ),
S
et de nouveau par définition de la réunion, y ∈ f (Ai ). Ce qui conclus pour la première
i∈I
inclusion.
S
Soit y ∈ f (Ai ), alors il existe f (Ai0 ), tel que y ∈ f (Ai0 ). Et donc il existe x ∈ Ai0 , tel
i∈I S
que : y = f (x). Mais x ∈ Ai0 d’ou x ∈ Ai . Finalement, comme on sait que si A ⊆ B,
i∈I
alors f (A) ⊆ f (B), on peut conclure.
– L’inclusion de gauche à droite se fait comme pour la réunion. Voyons l’inclusion réciproque.
T
Supposons f injective. Soit y ∈ f (Ai ), alors par définition de l’intersection, on a : ∀i ∈
i∈I
I, y ∈ f (Ai ). D’où : ∀i ∈ I, ∃xi ∈ Ai , y = f (xi ). Mais alors, par injectivité de f, si
T
y = f (xi ) = f (xj ), alors xi = xj . D’où il existe x, ∀i ∈ I, x ∈ et tel que , y = f (x).
i∈I
Ce qui permet de conclure.
– La démonstration est la même que pour l’image directe, on laisse le soin au lecteur de dé-
montrer les deux propriétés. Rappelons simplement :
f −1 (y) = {x ∈ E, y = f (x)}
1A : E −→ {0, 1}
(
1 Si x ∈ A
: x 7→
0 Sinon
153
Remarque A.6.1. Il est facile de voir que :
– 1∅ (x) = 0, ∀x ∈ E
– 1E (x) = 1, ∀x ∈ E
(
1 Si x ∈ Ac
1Ac (x) =
/ Ac
0 Si x ∈
(
1 Si x ∈
/A
=
0 Si x ∈ A
= 1 − 1A (x)
154
Annexe B
Dénombrement
Calculer le nombre d’éléments d’un ensemble fini peut se faire en comptant un à un les élé-
ments de cet ensemble. Cette méthode pouvant devenir très longue lorsqu’on étudie un ensemble
possédant un grand nombre d’éléments, on utilise des techniques combinatoires afin de faciliter et
d’accélérer le processus.
Ainsi, le dénombrement est la détermination du nombre d’éléments d’un ensemble fini, à l’aide de
techniques combinatoires.
B.1 Cardinal
Définition B.1.1 (Cardinal d’un ensemble fini). Le cardinal d’un ensemble E fini, noté Card(E)
ou |E|, désigne le nombre d’éléments de cet ensemble E.
Définition B.1.2 (Partition d’un ensemble). Une partition d’un ensemble E est un ensemble de
parties deux à deux disjointes de E dont la réunion est égale à E.
155
Théorème B.1.1 (Principe de la somme). Si les ensembles A1 , ..., An constituent une partition
de l’ensemble fini E, alors :
|E| = |A1 | + ... + |An |
−→ Initialisation :
f : N ∩ [1 ; a1 + a2 ] → ( E = A1 ∪ A2
f1 (n) si n ≤ n1
n 7→
f2 (n − n1 ) si n > n1
f est alors une bijection, et par conséquent E = A1 ∪ A2 possède le même nombre d’éléments
que N ∩ [1 ; a1 + a2 ], c’est à dire a1 + a2 éléments.
Donc |E| = a1 + a2 = |A1 | + |A2 |.
Donc P (2) est vraie.
−→ Hérédité :
Supposons que P (n) est vraie pour un certain n, montrons que P (n + 1) est vraie.
{A1 , ..., An } étant un ensemble d’ensembles disjoints deux à deux, il est une partition de
l’ensemble A1 ∪ ... ∪ An on a donc par hypothèse de récurrence :
|A1 ∪ ... ∪ An | = |A1 | + ... + |An |
156
De plus, si A1 , ..., An+1 est une partition de E, alors le couple : {A1 ∪ ... ∪ An ; An+1 } est aussi
une partition de E.
Démonstration B.1.2.
2. On remarque que A\B = A\(A ∩ B), donc dans l’ensemble A le complémentaire de A\B est
A ∩ B.Donc d’après la propriété 1. on a : |B\A| = |B| − |A ∩ B|.
3. D’après la propriété 2. on a :
De plus on remarque, que les ensembles B\A, A\B et A ∩ B sont disjoints deux à deux et
que leur union est égale à A ∪ B, donc ils forment une partition de A ∪ B.
Donc d’après le principe de la somme on a :
|A ∪ B| = |B\A| + |A\B| + |A ∩ B|
= |B| − |A ∩ B| + |A| − |A ∩ B| + |A ∩ B|
= |A| + |B| − |A ∩ B|
157
Théorème B.1.2 (Principe du produit). Si les ensembles A1 , ..., An sont des ensembles finis,
alors :
|A1 × ... × An | = |A1 | × ... × |An |
−→ Initialisation :
−→ Hérédité :
Supposons que P (n) est vraie pour un certain n, montrons que P (n + 1) est vraie.
Soient A1 , ..., An , An+1 des ensembles finis, on sait par hypothèse de récurrence que :
Comme A1 × ... × An est un ensemble fini de même que An+1 et que la propriété est vraie au rang
2, on a :
B.2 Combinaison
158
– {3} est une combinaison à 1 élément de E.
– {1; 2} et {1; 8} sont deux combinaisons à 2 éléments de E.
– {13; 5; 2} est une combinaison à 3 éléments de E.
– E est une combinaison à 6 éléments de E lui-même.
Remarque B.2.1. L’ordre dans lequel sont placés les éléments d’un ensemble ne compte pas, ainsi
les ensembles {a, b, c}, {b, a, c}, {c, a, b} et {c, b, a} sont un seul et même ensemble.
Les combinaisons étant des ensembles en tant que parties d’un ensemble, par conséquent, ne pren-
nent pas en compte l’ordre dans lequel sont placés les éléments.
Akn n!
Akn = Cnk × k! ⇐⇒ Cnk = =
k! k! (n − k)!
n!
Donc le nombre de combinaisons à k éléments de E est égal à : Cnk =
k! (n − k)!
Exemple B.2.2 (Tirage simultané dans une urne). Dans une urne se trouvent 7 boules numérotées.
On effectue un tirage simultané de 4 boules, combien de tirages possibles avons nous ?
Le fait que le tirage soit simultané implique qu’on considère les boules tirés sans notion d’ordre
(On ne considère que les numéros tirés et non l’ordre dans lequel ils sont tirés).
159
On cherche donc le nombre de combinaisons de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre de combinaisons :
7 7!
C74 = =
4 4! (7 − 4)!
(7 × 6 × 5 × 4) × (7 − 4)!
=
4! (7 − 4)!
7×6×5×4
=
4!
840
=
24
= 35
Exemple B.2.3 (Tournoi d’échecs). Un tournoi d’échecs est organisé entre six joueurs. Chaque
joueur doit jouer une fois contre tous les autres. Combien de parties d’échecs doit on organiser ?
La partie que joue le joueur A contre le joueur B et la même que la partie que joue le joueur
B contre le joueur A.
Par conséquent, pour chaque partie on ne s’attarde qu’aux joueurs la jouant et non à leur ordre.
On cherche donc le nombre de combinaisons de 2 joueurs de l’ensemble "les six joueurs".
6 6!
C62 = =
2 2! (6 − 2)!
6×5
=
2!
30
= = 15
2
160
B.3 Liste
nk
Soit (e1 , e2 , ..., ek ) une suite finie à k éléments, déterminons le nombre de valeurs possibles dif-
férentes que peut prendre cette liste tout en étant une liste de E à k éléments.
161
Exemple B.3.2 (Tirage successif avec remise dans une urne). Dans une urne se trouvent 7 boules
numérotées.
On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?
Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequel
elles sont tirés. C’est à dire que si on nomme A, B, C, D, E, F, G les sept boules de l’urne le tirage
(A, B, C, D) n’est pas le même que le tirage (B, C, D, A).
De plus, le tirage étant avec remise, on peut tirer plusieurs fois la même boule. On cherche donc
le nombre de listes de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre de listes :
74 = 2401
B.4 Arrangement
Définition B.4.1 (Arrangement). Soit E un ensemble à n éléments et k un entier naturel inférieur
ou égal à n.
On appelle arrangement de k éléments de E une liste de k éléments distincts deux à deux de E.
Remarque B.4.1. L’ordre dans lequel sont placés les éléments d’une liste est pris en compte,
ainsi (a, b, c), (b, a, c), (c, a, b) et (c, b, a) sont trois listes différentes.
Les arrangements étant notamment des listes prennent, par conséquent, en compte l’ordre dans
lequel sont placés leurs éléments.
n!
Akn =
(n − k)!
162
Démonstration B.4.1. Dénombrons tous les arrangements à k éléments de l’ensemble E :
Soit (e1 , e2 , ..., ek ) une liste à k éléments, déterminons le nombre de valeurs possibles différentes
que peut prendre cette liste tout en étant un arrangement de E à k éléments.
n × (n − 1) × ...(n − k + 1) × (n − k) × ... × 1 n!
n × (n − 1) × ... × (n − k + 1) = =
(n − k) × ... × 1 (n − k)!
n!
Donc, il existe arrangements à k éléments de E.
(n − k)!
Exemple B.4.2 (Tirage successif sans remise dans une urne). Dans une urne se trouvent 7 boules
numérotées.
On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?
Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequel
elles sont tirés. C’est à dire que si on nomme A, B, C, D, E, F, G les sept boules de l’urne le tirage
(A, B, C, D) n’est pas le même que le tirage (B, C, D, A).
De plus, le tirage étant sans remise, on ne peut pas tirer deux fois la même boule, par conséquent
on exclut les tirages du type : (E, D, G, E).
On cherche donc le nombre d’arrangements de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre d’arrangements :
163
7!
A47 =
(7 − 4)!
(7 × 6 × 5 × 4) × (7 − 4)!
=
(7 − 4)!
=7×6×5×4
= 840
B.5 Permutation
n!
164
Par conséquent le nombre de permutations de l’ensemble E est de :
n!
Ann =
(n − n)!
n!
=
0!
= n! ( par convention 0! = 1 )
Exemple B.5.2 (Rangement). De combien de manières différentes peut on ranger 6 livres dans
6 tiroirs ?
On cherche à placer dans tous les ordres possibles les 6 éléments "livres" dans l’ensemble de 6
éléments "tiroirs".
On cherche donc le nombre de permutations de l’ensemble “6 tiroirs“ :
6! = A66 = 6 × 5 × 4 × 3 × 2 × 1 = 720
165
166
Annexe C
Calcul intégral
Nous rappellerons ici les principales méthodes de calcul et les critères de convergence principaux
des intégrales de Riemann réelles à une et plusieurs variables. Enfin nous verrons quelques intégrales
célèbres et leur propriétés.
Nous renvoyons néanmoins pour plus de détails vers les cours de LM260 et LM216.
Définition C.1.2 (Changement de variable). Soit φ : [a, b] → R une application de classe C 1 sur
[a, b] et soit f : φ([a, b]) → R une application continue sur φ([a, b]), alors :
Z b Z φ(b)
0
(f ◦ φ)(t)φ (t)dt = f (t)dt
a φ(a)
167
On appelle jacobien de f aux points (a, b), noté J(a,b) (f ), le déterminant de la jacobienne de f
aux points (a, b).
Théorème C.1.1 (De Fubini). Soit f : [a, b] × [c, d] → R2 une fonction continue sur [a, b] × [c, d],
alors : Z b Z d
x 7→ f (x, y)dy et y 7→ f (x, y)dx sont continues et dans ce cas on a :
a c
Z Z b Z d Z d Z b
f (x, y)dxdy = f (x, y)dy dx = f (x, y)dx dy
[a,b]×[c,d] a c c a
Remarque C.1.1 (changement en coordonnées polaire). Un des changements les plus connus et
celui en coordonnées polaires. Explicitons-le ici,
Nous allons rappeler dans le tableau ci-dessous les critères les plus utilisés de convergence des
intégrales (cela sera utile notamment au chapitre 4).
168
R1 1
0 xa
dx CV SSI 0 < a < 1
R +∞ 1
Critère de Rienmann 1 xa
dx CV SSI a > 1
R1 1
R +∞ 1
0 x
dx et 1 x
dx ne convergent pas
R +∞ 1
2 ta logb (t)
dt CV SSI a > 1 ou (a = 1 et b > 1)
Critère de Bertrand
R1 1
2
0 ta |logb (t)|
dt CV SSI a < 1 ou (a = 1 et b > 1)
Rb Rb
Comparaison Si ∀x ∈]a, b[, 0 ≤ f (x) ≤ g(x), alors si a
g(x) CV alors a
f (x)dx CV
Si f =− o(g),
b
Rb Rb
Négligeabilité alors a
f (t)dt et a f (t)dt sont de mêmes natures
Si f ∼− g,
b
Rb Rb
Equivalent alors a
f (t)dt et a
f (t)dt sont de mêmes natures
Définition C.3.2 (Fonction Bêta). On note, B la fonction bêta de deux variables définies sur
R∗+ × R∗+ par :
Z 1
B : p, q 7→ tp−1 (1 − t)q−1 dt
0
169
Γ(p)Γ(q)
Elle vérifie de plus pour tout p, q ∈ R∗+ × R∗+ : B(p, q) = Γ(p+q)
Ainsi que : r
π
Wn ∼
+∞ 2n
Définition C.3.4 (Intégrale de Gauss). L’intégrale de Gauss est donnée par la formule :
Z +∞ √
2
e−x dx = π
−∞
2
La parité de x 7→ e−x donne directement :
Z +∞ Z 0 √
−x2 −x2 π
e dx = e dx =
0 −∞ 2
Définition C.3.5 (Intégrale de Gauss généralisée). Soit a ∈ R∗+ , on définit l’intégrale de Gauss
généralisée par : Z +∞ r
−x2 π
e a dx =
−∞ a
170
Annexe D
Tables statistiques
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086
6 2, 204 3, 070 3, 828 5, 348 7, 231 8, 558 10, 645 12, 592 15, 033 16, 812
7 2, 833 3, 822 4, 671 6, 346 8, 383 9, 803 12, 017 14, 067 16, 622 18, 475
8 3, 490 4, 594 5, 527 7, 344 9, 524 11, 030 13, 362 15, 507 18, 168 20, 090
9 4, 168 5, 380 6, 393 8, 343 10, 656 12, 242 14, 684 16, 919 19, 679 21, 666
10 4, 865 6, 179 7, 267 9, 342 11, 781 13, 442 15, 987 18, 307 21, 161 23, 209
11 5, 578 6, 989 8, 148 10, 341 12, 899 14, 631 17, 275 19, 675 22, 618 24, 725
12 6, 304 7, 807 9, 034 11, 340 14, 011 15, 812 18, 549 21, 026 24, 054 26, 217
13 7, 042 8, 634 9, 926 12, 340 15, 119 16, 985 19, 812 22, 362 25, 472 27, 688
14 7, 790 9, 467 10, 821 13, 339 16, 222 18, 151 21, 064 23, 685 26, 873 29, 141
15 8, 547 10, 307 11, 721 14, 339 17, 322 19, 311 22, 307 24, 996 28, 259 30, 578
16 9, 312 11, 152 12, 624 15, 338 18, 418 20, 465 23, 542 26, 296 29, 633 32, 000
17 10, 085 12, 002 13, 531 16, 338 19, 511 21, 615 24, 769 27, 587 30, 995 33, 409
18 10, 865 12, 857 14, 440 17, 338 20, 601 22, 760 25, 989 28, 869 32, 346 34, 805
19 11, 651 13, 716 15, 352 18, 338 21, 689 23, 900 27, 204 30, 144 33, 687 36, 191
20 12, 443 14, 578 16, 266 19, 337 22, 775 25, 038 28, 412 31, 410 35, 020 37, 566
171
21 13, 240 15, 445 17, 182 20, 337 23, 858 26, 171 29, 615 32, 671 36, 343 38, 932
22 14, 041 16, 314 18, 101 21, 337 24, 939 27, 301 30, 813 33, 924 37, 659 40, 289
23 14, 848 17, 187 19, 021 22, 337 26, 018 28, 429 32, 007 35, 172 38, 968 41, 638
24 15, 659 18, 062 19, 943 23, 337 27, 096 29, 553 33, 196 36, 415 40, 270 42, 980
25 16, 473 18, 940 20, 867 24, 337 28, 172 30, 675 34, 382 37, 652 41, 566 44, 314
26 17, 292 19, 820 21, 792 25, 336 29, 246 31, 795 35, 563 38, 885 42, 856 45, 642
27 18, 114 20, 703 22, 719 26, 336 30, 319 32, 912 36, 741 40, 113 44, 140 46, 963
28 18, 939 21, 588 23, 647 27, 336 31, 391 34, 027 37, 916 41, 337 45, 419 48, 278
29 19, 768 22, 475 24, 577 28, 336 32, 461 35, 139 39, 087 42, 557 46, 693 49, 588
30 20, 599 23, 364 25, 508 29, 336 33, 530 36, 250 40, 256 43, 773 47, 962 50, 892
172
D.2 Fonction de répartition de la loi normale centrée ré-
duite : N (0, 1)
173
174
Index
A convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 efficace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136
axiomes de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 15 sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 13
B
biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 F
borélien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 fonction
Bêta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
C
Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
caractère. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130
fonction caractéristique . . . . . . . . . . . . . . . . . . . . 103
cardinal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155
fonction de répartition . . . . . . . . . . . . . . . . . . . 40, 93
combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
fonction de vraisemblance . . . . . . . . . . . . . . . . . . 134
convergence
fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . 73
dans L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
fonction indicatrice (caractéristique) . . . . . . . 153
dans L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
formule
dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
de Morgan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 111
en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 des probabilités conditionnelles en cascade
30
D des probabilités totales . . . . . . . . . . . . . . . . . . 31
densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . 88 fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
E H
écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 hypothèse statistique. . . . . . . . . . . . . . . . . . . . . . .140
échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 I
ensemble inégalité
dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 de Bienaymé-Tchebychev . . . . . . . . . . . . . . . 113
discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . . . 114
espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43, 94 de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 136
espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . 15 de Markov généralisée . . . . . . . . . . . . . . . . . . 113
estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
175
indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25–33 Q
de variables aléatoires quantité d’information . . . . . . . . . . . . . . . . . . . . . 136
à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
S
discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
suite de variables aléatoires . . . . . . . . . . . . . . . . 111
individu statistique . . . . . . . . . . . . . . . . . . . . . . . . 129
information de Fisher . . . . . . . . . . . . . . . . . . . . . . 136 T
intégrale test
de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
de Wallis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .170 du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
issue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 théorème
de convergence monotone . . . . . . . . . . . . . . 113
L
de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
de convergence dominée . . . . . . . . . . . . . . . . 112
loi
de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
de la limite centrale . . . . . . . . . . . . . . . . . . . . 122
binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
de probabilité uniforme discrète . . . . . . . . . 20
engendrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 U
normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 univers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
centrée réduite (gaussienne) . . . . . . . . . . . 92
V
uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
loi de distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 134
à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
loi faible des grands nombres . . . . . . . . . . . . . . . 121
loi de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
loi forte des grands nombres . . . . . . . . . . . . . . . 122
réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
M réelle discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
matrice jacobienne . . . . . . . . . . . . . . . . . . . . . . . . . 167 variable statistique . . . . . . . . . . . . . . . . . . . . . . . . . 130
maximum de vraisemblance . . . . . . . . . . . . . . . . 136 variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49, 99
P
partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150, 155
de l’univers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
population statistique . . . . . . . . . . . . . . . . . . . . . . 129
probabilité conditionnelle . . . . . . . . . . . . . . . . 28–33
176
Bibliographie
177