LM231 Beatriz Michail

Probabilités et Statistiques Élémentaires
Mikael Beatriz - Alkéos Michaïl
2011-2012
2
Avant-Propos
Le présent cours est une introduction aux probabilités et aux statistiques suivant les grandes
lignes de l’unité d’enseignement LM231.
Il s’avancera de manière progressive, des notions les plus simples aux plus complexes et chaque
chapitre se terminera par une synthèse permettant d’avoir une vue plus globale sur les notions
acquises au cours de celui-ci.
Sa bonne suivie nécessitera cependant certaines notions de théories autres que celle des proba-
bilités, comme celle des ensembles, le dénombrement, le calcul intégral, . . . Nous avons pour
cela regroupé dans des annexes les connaissances nécessaires de ces théories. Il sera mentionné au
lecteur quand il devra s’y reporter.
Nous avons nous même suivi cette UE en 2011 alors que nous étions étudiants, l’année où Alexander
Bulinski l’enseigna en tant que professeur invité de la Moscow State University. Nous espérons que
vous serez épris par ce cours tout autant que nous l’avons été et vous souhaitons une bonne lecture.
Enfin, nous désirons exprimer notre gratitude à nos professeurs qui nous ont transmis la pas-
sion des probabilités ; Alexander Bulinski, Amaury Lambert, Benjamin Guedj, Irina Kourkova,
Michèle Thieullen, Sophie Laruelle et Sylvain Le Corff.
Ainsi qu’à nos professeurs non-probabilistes ; Jacques Féjoz, Jean-Marie Trépreau, Patrick Polo et
Sylvie Guerre-Delabrière et au directeur de notre licence Laurent Koelblen, qui nous a énormément
soutenus et encouragés.
Mikael BEATRIZ et Alkéos MICHAÏL
3
4
Table des matières
Introduction 9
I Probabilités 11
1 Introduction aux probabilités 13

1.1 L’Univers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 Algèbre des événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3 Axiomatique de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Loi de probabilité uniforme discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2 Indépendance et probabilité conditionnelle 25

2.1 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Généralisation aux familles d’évènements . . . . . . . . . . . . . . . . . . . . 30
2.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3 Variables aléatoires réelles discrètes 35

3.1 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Loi marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.2 Loi conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Espérance, variance et écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Ecart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.5 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6 Lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5
3.6.1 Loi de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.2 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.6.3 Loi géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.6.4 Loi de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.7 Fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.7.2 Fonction génératrice et indépendance . . . . . . . . . . . . . . . . . . . . . . 74
3.7.3 Caractérisation de loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.7.4 Calcul d’espérance et de variance . . . . . . . . . . . . . . . . . . . . . . . . 78
3.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4 Variables aléatoires réelles à densité 87

4.1 Tribu borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2 Généralités sur les densités de probabilités . . . . . . . . . . . . . . . . . . . . . . . 88
4.3 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.1 Loi uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.3 Loi de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.4 Loi normale (Laplace-Gauss) . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.3.5 Loi du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.5 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5.1 Espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.5.2 Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.6 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
4.7 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.7.2 Fonction caractéristique des lois usuelles . . . . . . . . . . . . . . . . . . . . 103
4.7.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.8 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5 Convergence de variables aléatoires 111

5.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.1 Types de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.1.2 Théorèmes fondamentaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.1.3 Relation entre les différentes convergences . . . . . . . . . . . . . . . . . . . 114
5.1.4 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
5.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
6
5.2.1 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.3 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
II Statistiques 127
6 Introduction aux statistiques 129

6.1 Population et individu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.2 Echantillon et caractère . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
6.3 Fréquence et Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
7 Estimation ponctuelle 133

7.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
7.3 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . 136
8 Test d’hypothèse 139

8.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8.2 Test du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
III Annexes 145
A Théorie des ensembles 147

A.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
A.2 Opérations sur les ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
A.3 Suite d’ensembles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
A.4 Produit cartésien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
A.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
A.6 Fonction indicatrice (ou caractéristique) . . . . . . . . . . . . . . . . . . . . . . . . 153
B Dénombrement 155
B.1 Cardinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
B.2 Combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
B.3 Liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
B.4 Arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
B.5 Permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
C Calcul intégral 167

C.1 Méthodes et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
C.1.1 Cas d’une fonction à une variable . . . . . . . . . . . . . . . . . . . . . . . . 167
7
C.1.2 Cas d’une fonction de deux variables . . . . . . . . . . . . . . . . . . . . . . 167
C.2 Critères de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
C.3 Intégrales classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
D Tables statistiques 171

2
D.1 Table du khi-carré (χ ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
D.2 Fonction de répartition de la loi normale centrée réduite : N (0, 1) . . . . . . . . . . 173
8
Introduction
« Le hasard, ce sont les lois que nous ne connaissons pas. »

Émile Borel
Les probabilités sont l’étude du hasard et de l’incertain. Elle

permettent de donner un cadre formel et rigoureux aux nombreux
phénomènes physique aléatoires. Les statistiques, quant à elles, con-
sistent au traitement et à l’interprétation de données.
Comme le dit Emile Borel, un des fondateurs de la théorie de

la mesure, le hasard est une science. Elle provient à l’origine de
Figure 1 – A. Kolmogorov
l’étude des jeux de hasard, notamment des jeux de dés. Bien que
plusieurs grands mathématiciens, dont Pascal et Laplace, ont tenté
de formaliser ces phénomènes, il faut attendre le XXème siècle pour que la théorie moderne des
probabilités, telle que nous la connaissons aujourd’hui, soit élaborée. C’est grâce aux travaux
sur la théorie de l’intégration de Borel et Lebesgue, plus générale que celle de Riemann, que les
prémisses de cette théorie furent posés. Par la suite ce sera grâce à Lévy, Kolmogorov, en passant
par Itô, qu’elle verra le jour. Les statistiques qui sont indissociables des probabilités sont nées
pour répondre à des problèmes d’ordre démographique, biologique (notamment en génétique) ou
financier. Des mathématiciens comme Ronald Fisher sont restés célèbre pour leur avoir donné leur
lettre de noblesse.
L’étude des probabilités et des statistiques a connu son es-

sor au XXème siècle lorsque leur application à d’autre domaines
des sciences ont été découvert : en physique (mécanique quan-
tique, physique statistique), en biologie (météorologie, génétique
des populations), en économie (théorie des jeux, mathématiques fi-
nancières, assurances), en sociologie (démographie, sondage)... Elle
constitue actuellement un champs d’étude très actif.
Figure 2 – R. Fisher
9
10
Première partie
Probabilités
11
Chapitre 1
Introduction aux probabilités
1.1 L’Univers
Définition 1.1.1 (Expérience Aléatoire). On appelle expérience aléatoire une expérience renou-
velable et qui, renouvelée dans des conditions identiques, ne donne pas forcément le même résultat.
Définition 1.1.2 (Univers). L’ensemble des issues possibles d’une expérience aléatoire donnée se
nomme l’univers (ou ensembles des issues). On le note : Ω. Un élément de Ω est donc une issue,
et on la représente par ω.
1.2 Algèbre des événements

La compréhension de cette partie nécessite des notions de la théorie des ensembles. Toutes ces
notions sont présentent dans l’annexe A.
Définition 1.2.1 (Événement aléatoire). Un événement aléatoire est une sous-expérience d’une
expérience aléatoire donnée. En théorie des ensembles un événement est un sous-ensemble de Ω.
Vocabulaire 1.2.1. La théorie des probabilités peut être vue comme une manipulation d’ensembles,
vu qu’un événement (ou même l’univers) n’est qu’un ensemble. La tableau ci-dessous donne les
équivalences entre le vocabulaire utilisé en théorie des probabilités et en théorie des ensembles. Soit
Ω un univers lié à une expérience aléatoire et soit A et B deux événements de Ω, on a :
13
Notation probabiliste Notation ensembliste
Résultat possible ω∈Ω
A est un événement A∈Ω
A⇒B A∈B
A et B A∩B
A ou B A∪B
A n’est pas réalisé Ac
A est un événement irréalisable A=∅
A est un événement certain A=Ω
A et B sont incompatibles A∩B =∅
1.3 Axiomatique de Kolmogorov

Définition 1.3.1 (Tribu ou σ-algèbre). Une famille A de parties de l’univers Ω est une tribu, si
elle satisfait les trois propriétés suivantes :
• Ω∈A
• Si A ∈ A alors Ac ∈ A
• Soit (A)i∈I , une famille dénombrable 1 d’éléments de A, alors
S
Ai ∈ A
i∈I
Propriétés 1.3.1. Soit A une tribu d’un univers Ω. Les propriétés suivantes sont des conséquences
directes de la définition :
1. ∅ ∈ A.
+∞
T
2. Si (An )n∈N est une suite d’éléments de A alors An ∈ A.
n=1
N
S
3. Si (Ai )0≤i≤N est une suite finie de N éléments de A alors Ai ∈ A.
i=0
N
T
4. Si (Ai )0≤i≤N est une suite finie de N éléments de A alors Ai ∈ A.
i=0
Démonstrations 1.3.1.
1. En effet, les deux premières propriétés de la définition impliquent que Ω ∈ A et que Ωc ∈ A,

or Ωc = ∅. Donc ∅ ∈ A.
2. Soit (Bn )n∈N une suite tels que : ∀n, Bn = Acn , alors par stabilité par passage au complé-
mentaire (Bn )n∈N est une suite d’éléments de A. Mais alors on peut utiliser la stabilité par
1. Rappel : un ensemble est dénombrable si on peut le mettre en bijection avec une sous-partie de N. Pour
simplifier, on travaillera à présent dans N sans perte de généralité
14
+∞
S
passage à la réunion dénombrable, et on obtient : Bn ∈ A. En réutilisant la stabilité par
n=0
+∞
Bn )c ∈ A.
S
passage au complémentaire on obtient : (
n=0
+∞ +∞
Bnc =
T T
Autrement dit : An ∈ A.
n=0 n=0
3. Soit (Bn )n∈N une suite vérifiant : ∀n ∈ [0, N ]Bn = An et ∀n > N, Bn = ∅. Alors il est
S N
S
immédiat que Bn = An . Mais en notant que les Bn ∈ A, ∀n (∅ ∈ A car c’est une tribu),
n∈N n=0 S
on peut utiliser la stabilité par réunion dénombrable, ce qui nous donne que : Bn ∈ A.
n∈N
4. La démonstration étant la même que pour la réunion finie, nous laissons le soin au lecteur
de la rédiger.

Notation 1.3.1. On note P(Ω), l’ensemble des sous-parties d’un univers Ω
Exemples 1.3.1.
• {Ω; ∅} est une tribu de Ω, nommée tribu triviale

En effet,
- Ω est bien inclus dans {Ω; ∅}.
- Ωc = ∅ ⊂ {Ω; ∅} et ∅c = Ω ⊂ {Ω; ∅}
- Ω ∪ ∅ = Ω ⊂ {Ω; ∅}
• Soit A ∈ A, alors {A, Ac , ∅, Ω} est une tribu de Ω, appelée tribu engendrée par A
• P(Ω) est une tribu de Ω, nommée tribu discrète de Ω. (C’est la plus grande tribu de Ω)
Définition 1.3.2 (Espace probabilisable). On appelle espace probabilisable, le couple (Ω, A), où
A est une tribu de Ω
Définition 1.3.3. (Probabilité)

Une probabilité (ou mesure de probabilité 2 ) sur (Ω; A), est une application :
P : A → [0; 1]
vérifiant les trois axiomes de Kolmogorov suivant :
2. En théorie de la mesure, une probabilité est une mesure de masse totale 1.
15
Axiome 1 : Pour tout évènement A de A , 0 ≤ P(A) ≤ 1
Axiome 2 : P(Ω) = 1
Axiome 3 : Soit (An )n∈N une suite d’événements de A deux à deux incompatibles. On a :
[ X
P( An ) = P(An )
n∈N n∈N
Définition 1.3.4 (Espace probabilisé). On appelle espace probabilisé, le triplé (Ω, A, P), où A
est une tribu de Ω et P une probabilité.
Propriétés 1.3.2. Soient A et B deux événements d’un univers Ω.

1. P(Ac ) = 1 − P(A)
2. P(∅) = 0
3. P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
4. A ⊂ B =⇒ P(A) ≤ P(B)
Démonstrations 1.3.2.
1. Comme A ∪ Ac = Ω on a :
P(A) + P(Ac ) = P(A ∪ Ac ) = P(Ω) = 1

⇒ P(A) + P(Ac ) = 1
⇒ P(Ac ) = 1 − P(A)
2. D’après le résultat précédent on a :
P(∅) = P(Ωc )
= 1 − P((Ωc )c )
= 1 − P(Ω)
=1−1
=0
3. En remarquant que A = (A ∩ B) ∪ (A ∩ B c ) et que B = (B ∩ A) ∪ (B ∩ Ac ) on en déduit que :
A ∪ B = (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ A) ∪ (B ∩ Ac )
= (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ Ac )
16
Par conséquent :
P(A ∪ B) = P( (A ∩ B) ∪ (A ∩ B c ) ∪ (B ∩ Ac ) )
= P(A ∩ B) + P(A ∩ B c ) + P(B ∩ Ac )
= P(A ∩ B) + P(A ∩ B c ) + P(B ∩ Ac ) + P(B ∩ A) − P(B ∩ A)
= P( (A ∩ B) ∪ (A ∩ B c ) ) + P( (B ∩ Ac ) ∪ (B ∩ A) ) − P(B ∩ A)
= P(A) + P(B) − P(B ∩ A)
4. Si A ⊂ B alors on a B = A ∪ (B ∩ Ac ) et on a donc :
P(B) = P(A ∪ (B ∩ Ac ))
= P(A) + P(B ∩ Ac ) − P( A ∩ (B ∩ Ac ) )
= P(A) + P(B ∩ Ac ) − P(∅)
= P(A) + P(B ∩ Ac ) − 0
= P(A) + P(B ∩ Ac )
Or comme d’après le premier axiome de Kolmogorov P(B ∩ Ac ) ≥ 0, on en déduit que :
P(B) ≥ P(A)
Remarque 1.3.1. On a démontré que si A et B sont deux événements d’un univers Ω, alors on
a P(A ∪ B) = P(A) + P(B) − P(A ∩ B).
On sait que si A et B sont disjoints alors on a P(A ∩ B) = P(∅) = 0.
C’est pourquoi si A et B sont disjoints on a : P(A ∪ B) = P(A) + P(B)
Remarque 1.3.2. La propriété P(A ∪ B) = P(A) + P(B) − P(A ∩ B) existe aussi pour plus de
deux éléments. Par exemple pour 3 éléments A, B et C on a :
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C)
La formule générale pour n éléments est donnée par la formule de Poincaré.
17
Proposition 1.3.1 (Formule de Poincaré). Soit n ≥ 2 et soit (Ai )1≤i≤n une suite d’événements
de A. On a :
n
! n
[ X X X
P Ai = P(Ai )− P(Ai ∩Aj )+ P(Ai ∩Aj ∩Ak )−...+ (−1)n−1 P(A1 ∩A2 ∩...∩An )
i=1 i=1 1≤i<j≤n 1≤i<j<k≤n
Cette formule peut aussi s’écrire :
n
! n
!
[ X X
P Ak = (−1)k+1 P(Ai1 ∩ ... ∩ Aik )
k=1 k=1 1≤i1 <...<ik ≤n
Démonstration 1.3.1. La démonstration de cette formule se fait par récurrence.

Soit n ≥ 2 posons P(n) :
n
! n
[ X X X
“P Ai = P(Ai )− P(Ai ∩Aj )+ P(Ai ∩Aj ∩Ak )−...+ (−1)n−1 P(A1 ∩A2 ∩...∩An )00
i=1 i=1 1≤i<j≤n 1≤i<j<k≤n
−→ Initialisation :
Pour n=2, on a : P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 )

On retrouve donc la propriété précédemment démontrée.
Donc P(2) est vrai.
−→ Hérédité :
Supposons P (n − 1) vraie pour un certain n, montrons que P (n) est vraie.
On a :
18
P(A1 ∪ ... ∪ An ) = P( (A1 ∪ ... ∪ An−1 ) ∪ An )
= [ P(A1 ∪ ... ∪ An−1 ) ] + P(An ) − P( (A1 ∪ ... ∪ An−1 ) ∩ An )
= [ P(A1 ∪ ... ∪ An−1 ) ] + P(An ) − P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )
n−1
X X
=[ P(Ai ) − P(Ai ∩ Aj ) + ... + (−1)n−2 P(A1 ∩ A2 ∩ ... ∩ An−1 ) ]
i=1 1≤i<j≤n−1
+ P(An ) − P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )

Xn X
= P(Ai ) − P(Ai ∩ Aj ) + ... + (−1)n−2 P(A1 ∩ A2 ∩ ... ∩ An−1 )
i=1 1≤i<j≤n−1
− P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )

Xn X
= P(Ai ) − P(Ai ∩ Aj ) + ... + (−1)n−1 P(A1 ∩ A2 ∩ ... ∩ An )
i=1 1≤i<j≤n
Donc P (n) est vraie.
−→ Conclusion :
Pour tout n ≥ 2, P (n) est vraie.
1.4 Loi de probabilité uniforme discrète

Afin de formaliser la notion de probabilité, cette sous-partie traite l’exemple de la probabilité
uniforme discrète.
Vocabulaire 1.4.1 (ensemble discret). Un ensemble est dit discret , s’il peut être mis en bijection
avec une sous-partie de N. Discret est synonyme de dénombrable.
Exemples 1.4.1.
• L’ensemble {1, 2, 3} est discret. En effet, {1, 2, 3} peut être mis en bijection avec la sous
partie de N, {1, 2, 3} ou {13, 17, 451}.
• L’ensemble N est discret. En effet, N peut être mis en bijection avec N qui est une sous partie
de lui même.
• L’ensemble R n’est pas discret car il ne peut pas être mis en bijection avec une sous partie
de N.
19
Définition 1.4.1 (Loi de probabilité uniforme discrète). Soit Ω un univers discret fini. La loi de
probabilité uniforme discrète, est une probabilité qui associe à chaque élément ω de l’univers Ω la
même valeur.
Exemple 1.4.1. Prenons l’exemple d’un lancé de dé équilibré.

L’univers, qui est l’ensemble des issues possibles de cette expérience est donc égal à Ω = {1, 2, 3, 4, 5, 6}.
Soit P la loi de probabilité uniforme discrète. On a :
1 1 1
P(1) = P(2) = P(3) =
6 6 6
1 1 1
P(4) = P(5) = P(6) =
6 6 6
Ceci signifie que la probabilité d’obtenir un 1, un 2, un 3, un 4, un 5 ou un 6 en jetant ce dé est

la même et vaut 61 .
Exemple 1.4.2. Prenons l’exemple d’un jeu de pile ou face avec une pièce non pipée.
Notons 0, l’événement “obtenir un pile” et 1 l’événement “obtenir un face”.
L’univers, qui est l’ensemble des issues possibles de cette expérience est donc égal à Ω = {0, 1}.
Soit P la loi de probabilité discrète uniforme. On a donc :
1 1
P(0) = et P(1) =
2 2
Ceci signifie que la probabilité d’obtenir un pile ou d’obtenir un face en jetant cette pièce est la
même et vaut 12 .
Exemple 1.4.3 (Cas général). Soit Ω un univers discret fini d’une expérience.
Soit P la loi de probabilité uniforme discrète.
Si le cardinal de Ω, Card(Ω), (c’est à dire le nombre d’éléments de Ω) vaut n alors on a :
1 1
∀ ω ∈ Ω, P(ω) = =
Card(Ω) n
Proposition 1.4.1. Tout événement A étant une sous partie de l’univers Ω, on en déduit que si
P est la probabilité uniforme discrète on a :
Card(A) |A|
∀A ⊂ Ω, P(A) = =
Card(Ω) |Ω|
20
Démonstration 1.4.1. En utilisant le fait que tous les ω ∈ Ω sont incompatibles, on a :
!
[ X X
P(A) = P(A ∩ Ω) = P (A ∩ {ω}) = P(A ∩ {ω}) = P(ω)
ω∈Ω ω∈Ω ω∈A
P
Donc on a démontré que pour tout événement A on a : P(A) = P(ω)
ω∈A
Comme ici P est la probabilité uniforme discrète on a :
1
∀ω ∈ Ω, P(ω) =
Card(Ω)
Donc :
X Card(A)
P(A) = P(ω) = P(ω) + ... + P(ω) = Card(A) × P(ω) =
ω∈A
| {z } Card(Ω
Card(A) fois

Exemple 1.4.4 (lancé de deux dés). Prenons l’exemple d’un lancé de deux dés non pipés.
L’univers Ω, qui est l’ensemble des issues de cette expérience, est donc égal à :
Ω = {(1, 1); (1, 2); ...; (1, 6); (2, 1); ...; (2, 6); (3, 1); ......; (6, 6)}
= {1; 2; 3; 4; 5; 6} × {1; 2; 3; 4; 5; 6}
On en déduit que cette expérience possède Card({1; 2; 3; 4; 5; 6}) × Card({1; 2; 3; 4; 5; 6}) = 6 × 6 =

36 issues.
Donc le cardinal de Ω est égal à : |Ω| = 36
En utilisant la probabilité uniforme discrète, calculons l’événement A : “Obtenir un 7” :
Pour obtenir un 7, il faut que la somme des deux dés soit égale à 7. Les issues de Ω vérifiant ceci
sont :
(1, 6), (2, 5), (3, 4), (4, 3), (5, 2) et (6, 1)
Il y a donc, 6 issues de Ω vérifiant l’événement A.

Donc le cardinal de A est égal à : |A| = 6
On en déduit que la probabilité d’obtenir un 7 en lançant deux dés est égale à :
|A| 6 1
P(A) = = =
|Ω| 36 6
Exemple 1.4.5 (Tirage de deux boules dans une urne en contenant trois). Prenons l’exemple d’un
tirage successif et sans remise de deux boules dans une urne en contenant trois. Les trois boules
contenues dans l’urne sont de différentes couleurs, il y en a une bleue, une rouge et une verte.
21
L’ordre dans lequel les boules sont tirés est noté.
L’univers Ω qui est l’ensemble des issues de cette expérience, est donc égal à :
Ω = {(Bleue, Rouge); (Rouge, Bleue); (Bleue, V erte); (V erte, Bleue); (Rouge, V erte); (V erte, Rouge)}
Cette expérience possède 6 issues, donc le cardinal de Ω est égal à : |Ω| = 6
En utilisant la probabilité uniforme discrète, calculons l’événement RV : “Obtenir une boule rouge
et une boule verte” :
Les deux issues de Ω vérifiant l’évènement RV sont (Rouge, V erte) et (V erte, Rouge).
Donc le cardinale de RV est égal à : |RV | = 2.
On en déduit que la probabilité d’obtenir une boule rouge et une boule verte est égale à :
|RV | 2 1
P(RV ) = = =
|Ω| 6 3
Dans certains cas, le nombre d’éléments d’un ensemble étant difficile à calculer il est nécessaire
de faire appel à la théorie du dénombrement pour calculer une probabilité.
L’annexe B contient un extrait de cette théorie.
22
1.5 Synthèse
Soit Ω un univers et A et B deux évènements. On a :
• P(Ω) = 1
• P(∅) = 0
• P(A) = 1 − P(Ac )
• P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
|A|
• Si P est la probabilité uniforme discrète on a : P(A) =
|Ω|
23
24
Chapitre 2
Indépendance et probabilité conditionnelle
La notion d’indépendance est intuitive. Pour la visualiser prenons l’exemple le plus récurrent :
le lancé d’un dé. On lance deux dés et on nomme A : "Avoir un 6 avec le premier dé" et B : "Avoir
un 6 avec le deuxième dé". Alors il est évident que le résultat du deuxième dé est indépendant de
celui du premier. On dit alors que les deux évènements A et B sont indépendants.
Dans la même logique comment définir la probabilité conditionnelle ? C’est en réalité une notion
qui encore une fois nous vient naturellement lorsqu’on se pose par exemple la question : "Quelle
est la probabilité qu’il pleuve sachant qu’il y a des nuages". On peut alors analyser cette question
en détachant deux évènements. Le premier serait A : "Il pleut" et le deuxième B : "Il y a des
nuages", et on souhaiterait alors trouver la probabilité de A sachant B.
Nous allons formaliser dans ce chapitre ces idées en ne traitant que le cas des évènements
aléatoires. Nous traiterons plus tard le cas des variables aléatoires.
2.1 Indépendance
Définition 2.1.1 (Évènements indépendants). Soit (Ω, A, P) un espace probabilisé et soit A et
B deux évènements définis sur cet espace. On dit que A et B sont indépendants si et seulement si
P(A ∩ B) = P(A)P(B).
Exemple 2.1.1 (lancé de deux dés). Prenons l’exemple d’un lancé successif de deux dés non pipés.
Notons A l’évènement “obtenir un 5 avec le premier dé” et B l’évènement “obtenir un 3 avec le
deuxième dé”.
Montrons que les évènements A et B sont indépendants.
L’univers Ω qui est l’ensemble des issues de cette expérience vaut :
Ω = {1; 2; 3; 4; 5; 6} × {1; 2; 3; 4; 5; 6}
25
Donc le cardinal de Ω est égal à : |Ω| = 6 × 6 = 36.
L’évènement A est vérifié par les issues de Ω : (5, 1), (5, 2), (5, 3), (5, 4), (5, 4) et (5, 6).
Donc le cardinal de A vaut : |A| = 6
L’évènement B est vérifié par les issues de Ω : (1, 3), (2, 3), (3, 3), (4, 3), (5, 3) et (6, 3).
Donc le cardinal de A vaut : |B| = 6
Donc
|A| 6 1
P(A) = = =
|Ω| 36 6
et
|B| 6 1
P(B) = = =
|Ω| 36 6
L’évènement A ∩ B : “Obtenir un 5 avec le premier dé et un 3 avec le deuxième dé est vérifié

uniquement par l’issue (5, 3).
Donc le cardinal de A ∩ B vaut : |A ∩ B| = 1.
Donc
|A ∩ B| 1
P(A ∩ B) = =
|Ω| 36
Or
1 1 1
P(A) × P(B) = × =
6 6 36
Donc comme P(A ∩ B) = P(A).P(B) les évènements A et B sont bien indépendants.
Définition 2.1.2 (Indépendance dans leur ensemble). Soit (Ω, A, P) un espace probabilisé et soit
(Ai )i∈I une suite d’évènements aléatoires définies sur cet espace. On dit que les Ai sont indépen-
dants dans leur ensemble si et seulement si pour tout J ⊂ I on a :
\ Y
P( Aj ) = P(Aj )
j∈J j∈J
Exemple 2.1.2 (Lancé de trois dés). On se propose de lancer trois dés et d’étudier l’indépendance
de trois évènements liés à cette expérience aléatoire. Notons :
A : "Avoir un 2 au premier lancé"

B : "Avoir un 5 au deuxième lancé"
C : "La somme des deux lancés vaut 6"
26
Calculons tout d’abord les probabilités de chaque évènement pris séparément. On obtient di-
rectement :
1 5
P(A) = P(B) = 6
et P(C) = 36
(voir le chapitre 1 pour le détails de ce calcul).
1
Donc P(A)P(B)P(C) = 6
× 61 × 5
36
= 5
1296
En revanche comme, A ∩ B ∩ C = ∅, on a : P(A ∩ B ∩ C) = 0.
Comme P(A)P(B)P(C) 6= P(A ∩ B ∩ C) les évènements A, B et C ne sont pas indépendants

dans leur ensemble.
Remarque 2.1.1. Attention la notion d’indépendance dans leur ensemble est très forte car elle
est définie pour tout sous ensemble J de I. Donc si on a indépendance dans leur ensemble d’un
certain nombres d’évènements, on a également l’indépendance deux à deux, l’indépendance trois à
trois etc...
Lorsqu’on dit indépendance deux à deux, cela signifie par exemple dans le cas de trois évène-
ments A, B et C que :
P(A ∩ B) = P(A)P(B)
et P(A ∩ C) = P(A)P(C)
et P(B ∩ C) = P(B)P(C)
On définie de la même manière l’indépendance trois à trois etc...
Attention : La réciproque est fausse ! Si on a l’indépendance deux à deux cela n’implique par
l’indépendance dans leur ensemble.
Proposition 2.1.1 (Indépendance et complémentaire). Soit (Ω, A, P) un espace probabilisé et

soit A et B deux évènements indépendants.
Alors :
– A et B c sont indépendants
– Ac et B sont indépendants
– Ac et B c sont indépendants
Démonstration 2.1.1. Démontrons la première assertion :

On a : P(A ∩ B c ) = P(A) − P(A ∩ B) (voir les rappels de théories des ensembles).
Comme A et B sont indépendants on a donc :
27
P(A ∩ B c ) = P(A) − P(A)P(B)
= P(A)(1 − P(B))
= P(A)P(B c )

c
Donc par définition : A et B sont indépendants. (On démontre de la même manière la deuxième
assertion)
Démontrons la troisième assertion :
On a : P(Ac ∩ B c ) = P(Ω) − P(A ∪ B)
Comme A et B sont indépendants, on obtient :
P(Ac ∩ B c ) = 1 − P(A) − P(B) + P(A ∩ B)

= P(Ac ) − P(B) + P(A)P(B)
= P(Ac ) − P(B) + (1 − P(Ac ))P(B)
= P(Ac ) − P(Ac )P(B)
= P(Ac )(1 − P(B))
= P(Ac )P(B c )
Donc Ac et B c sont indépendants.
2.2 Probabilité conditionnelle

2.2.1 Généralités
Définition 2.2.1 (Probabilité conditionnelle). Soit (Ω, A, P) un espace probabilisé et soit A et B
deux évènements appartenant à cet espace. L’évènement A sachant B, noté A|B, et sa probabilité
est définie par :
P(A ∩ B)
P(A|B) =
P(B)
Remarque 2.2.1. Tout d’abord cette définition n’a un sens que si P(B) > 0. Si on a P(B) = 0
alors il est évident que : P(A|B) = P(A), mais nous reviendrons plus loin dessus.
28
Remarque 2.2.2 (Fondamentale). Il est très important de remarquer que d’écrire P(A|B) n’est
qu’une notation. La probabilité conditionnelle doit être vu comme une probabilité prenant en argu-
ment l’événement A. Ainsi l’argument ne dépend pas de B. En particulier on peut alors énoncé la
proposition suivante :
Proposition 2.2.1. Soit A et B deux événéments.
P(Ac |B) = 1 − P(A|B)
Remarque 2.2.3. On peut remarquer qu’on a également : P(B|A) = P(A∩B)

P(A)
, à condition toujours
d’avoir P(A) > 0. Ce qui nous amène a écrire : P(A ∩ B) = P(B|A)P(A).
On obtient alors une nouvelle définition d’une probabilité conditionnelle :
Proposition 2.2.2 (deuxième définition). Soit (Ω, A, P) un espace probabilisé et soit A et B deux
évènements appartenant à cet espace. Alors :
P(B|A)P(A)
P(A|B) =
P(B)
On peut directement voir un cas particulier important si A et B sont indépendants. Cela va

nous permettre de donner une nouvelle définition de l’indépendance d’évènement.
Proposition 2.2.3 (Indépendance et probabilité conditionnelle). Soit (Ω, A, P) un espace prob-

abilisé et A et B deux évènements indépendants appartenant à cet espace, alors :
P(A|B) = P(A)
Démonstration 2.2.1. Celle ci est évidente et découle directement de la définition. En effet :
P(A ∩ B)
P(A|B) =
P(B)
Or par indépendance de A et B on a : P(A ∩ B) = P(A)P(B).

Donc on a :
P(A)P(B)
P(A|B) = = P(A)
P(B)

29
Théorème 2.2.1 (sur l’indépendance des évènements). Soit (Ω, A, P) un espace probabilisé et A
et B deux évènements définis sur cet espace. Alors A et B sont indépendants si et seulement si :
P(A|B) = P(A)
Démonstration 2.2.2. La première implication a été démontré à la proposition précédente. Dé-

montrons la réciproque qui est immédiate.
P(A∩B)
Supposons : P(A|B) = P(A). Or par définition on a : P(A|B) = P(B)
.
P(A∩B)
Donc on a : P(B)
= P(A)
Et donc : P(A ∩ B) = P(A)P(B)
Donc A et B sont indépendants.
Remarque 2.2.4. Ce théorème est fondamental et bien plus intuitif que la première définition
de l’indépendance que nous avons vue. En effet si la probabilité de A sachant B est égale à la
probabilité de A cela signifie que le fait de conditionner par B n’a aucune incidence. Donc que A
et B sont bel et bien indépendants.
On a donc aussi pu prouver la remarque 2.2.1.
Exercice 2.2.1. Soit A et B deux évènements tels que : P(A) > 0 et P(B) > 0 et tels que A et B
soient incompatibles.
Montrer que ces deux évènements ne sont pas indépendants.
2.2.2 Généralisation aux familles d’évènements

Dans notre première partie, sur les probabilités conditionnelles, nous n’avons traité que le cas
où nous n’avions que deux évènements. Or très souvent il nous sera demandé d’étudier plus de
deux évènements. Nous allons donc essayer de généraliser les définitions à des suites d’évènements.
Dans toute cette partie on considèrera (Ω, A, P) un espace probabilisé et (Ai )1≤i≤n une famille
d’évènements appartenant à cet espace.
\
Théorème 2.2.2 (Probabilité conditionnelle en cascade). Si P( Ai ) > 0 alors :
1≤i≤n−1
\
P( Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )...P(An |A1 ∩ ... ∩ An−1 )
1≤i≤n
30
Démonstration 2.2.3. La démonstration se fait par récurrence.
T
Soit n ≥ 2 posons : P (i) : ”P( Ai ) = P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )...P(An |A1 ∩ ... ∩ An−1 )”
1≤i≤n
Pour i = 2, c’est la formule vu à la remarque 2.2.1. P(A ∩ B) = P(B|A)P(A).
Donc P (2) est vraie.
Supposons P (n − 1) vraie pour un certain n, montrons que P (n) est vraie.
On a :
\ \
P( Ai ) = P(( Ai ) ∩ An )
1≤i≤n 1≤i≤n−1
\ \
= P( Ai )P(An | Ai ) (en utilisant la formule pour n = 2)
1≤i≤n−1 1≤i≤n−1
Donc par hypothèse de récurrence :
\
1≤i≤n
−→ Conclusion : Pour tout n ≥ 2, P (n) est vraie.
Théorème 2.2.3 (Formule des probabilités totales). Soit (Ai )1≤i≤n une famille d’évènements
dénombrable incompatibles deux à deux, telle que ∀i ∈ [1, n], P(Ai ) > 0 et :
G
P( Ai ) = 1
i∈I
Alors pour tout évènement A ∈ A on a :
X
P(A) = P(A|Ai )P(Ai )
i∈I
Démonstration 2.2.4. Tout d’abord comme les évènements Ai forment une partition de l’univers,
il est évident que :
A = (A ∩ A1 ) ∪ ... ∪ (A ∩ An )
31
Donc :
n
X
P(A) = P(A ∩ Ai ) car tous les évènements sont incompatibles par hypothèse
i=1
Xn
= P(A|Ai )P(Ai )
i=1
Remarque 2.2.5. Un cas très souvent utilisé est le cas n = 2. Si on prend un évènement B tel
que : B ∪ B c = Ω, on a bien entendu B ∩ B c = ∅ par définition du complémentaire. Donc pour
tout évènement A :
P(A) = P(A|B)P(B) + P(A|B c )P(B)
Enfin nous pouvons finir ce chapitre en combinant la formule des probabilités totales à la
définition d’une probabilité conditionnelle.
Théorème 2.2.4 (Théorème de Bayes). Soit (Ai )i∈I une famille d’évènements dénombrable in-
compatibles deux à deux, telle que ∀i ∈ I, P(Ai ) > 0 et :
G
P( Ai ) = 1
i∈I
On a : ∀A ∈ A tel que P(A) > 0, alors ∀i ∈ I :
P(A|Ai )P(Ai )
P(Ai |A) = P
P(A|Aj )P(Aj )
j∈I
Démonstration 2.2.5. En utilisant la définition de la probabilité conditionnelle on a :
P(Ai ∩ A)
P(Ai |A) =
P(A)
P(A|Ai )P(Ai )
=
P(A)
P(A|Ai )P(Ai )
= P (application de la formule des probabilités totales)
P(A|Aj)P(Aj)
j∈I
32
2.3 Synthèse
Soit Ω un univers et A et B deux évènements. On a :
P(A ∩ B) P(B|A)P(A)
• P(A|B) = =
P(B) P(B)
• A et B sont indépendants si et seulement si : P(A ∩ B) = P(A).P(B)
• Si A et B sont indépendants alors : P(A|B) = P(A) et P(B|A) = P(B)
T
• Probabilité conditionnelle en cascade : Si P( Ai ) > 0 alors :
1≤i≤n−1
\
1≤i≤n
P
• Formule des probabilités totales : P(A) = P(A|Ai )P(Ai )
i∈I
• Théorème de Bayes : Soit (Ai )i∈I un système complet d’évènements, tel que ∀i ∈ I, P(Ai ) > 0
et A un évènement tel que P(A) > 0. On a :
P(A|Ai )P(Ai )
P(Ai |A) = P
P(A|Aj )P(Aj )
j∈I
33
34
Chapitre 3
Variables aléatoires réelles discrètes
3.1 Variables aléatoires
Définition 3.1.1 (variable aléatoire). Une variable aléatoire est une fonction X, allant d’un
univers Ω dans un ensemble E.
X : Ω −→ E
ω −→ y
Définition 3.1.2 (variable aléatoire réelle). Une variable aléatoire réelle est une fonction X, allant
d’un univers Ω dans un ensemble E ⊂ R
Définition 3.1.3 (variable aléatoire réelle discrète). Une variable aléatoire réelle discrète est une
fonction X, allant d’un univers Ω dans un ensemble discrèt E ⊂ R.
Dans ce chapitre on ne prendra que des variables aléatoires discrètes.
Notation 3.1.1. Soient A une sous partie de Ω et x un réel.

L’ensemble {ω | X(ω) ∈ A} est un évènement. De même, {ω | X(ω) = x} est un évènement.
Par conséquent, on peut calculer P({ω | X(ω) ∈ A}) et P({ω | X(ω) = x}).
Afin d’alléger les écritures on notera : P(X ∈ A) à la place de P({ω | X(ω) ∈ A})
et P(X = x) à la place de P({ω | X(ω) = x}).
35
Exemple 3.1.1 (lancé d’un dé). Prenons comme exemple, une variable aléatoire X affichant le
résultat d’un lancé de dé.
L’univers Ω est égal ici à {1; 2; 3; 4; 5; 6} et son cardinal est égal à : |Ω| = 6.
Les valeurs que peut prendre la variable aléatoire X sont 1,2,3,4,5 et 6.

Donc ∀ω ∈ Ω, X(ω) ∈ {1; 2; 3; 4; 5; 6}.
La probabilité d’obtenir un 1, vaut

1
P(X = 1) =
6
1
P(X = 2) =
6
et ainsi de suite :
1 1 1 1
P(X = 3) = P(X = 4) = P(X = 5) = et P(X = 6) =
6 6 6 6
Exemple 3.1.2 (somme de deux dés). Prenons comme exemple, une variable aléatoire Y affichant
la somme obtenue après un lancé de deux dés.
L’univers Ω est égal ici à {1; 2; 3; 4; 5; 6}×{1; 2; 3; 4; 5; 6} et son cardinal est égal à : |Ω| = 6×6 = 36.
Les valeurs que peut prendre la variable aléatoire Y sont 2,3,4,5,6,7,8,9,10,11 et 12.
Donc ∀ω ∈ Ω, X(ω) ∈ {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12}.
|{(1; 1)}| 1
P(X = 2) = =
|Ω| 36
|{(1; 2); (2; 1)}| 2 1

P(X = 3) = = =
|Ω| 36 18
|{(1; 3); (2; 2); (3; 1)}| 3 1

P(X = 4) = = =
|Ω| 36 12
36
..
.
|{(6; 6)}| 1
P(X = 12) = =
|Ω| 36
Vocabulaire 3.1.1. Soit (Ω; A; P) un espace probabilisé et X une variable aléatoire à valeurs dans
un ensemble E.
L’ensemble des P(X = x)x∈E s’appelle la loi de X.
Exemple 3.1.3. La loi de la variable aléatoire X de l’exemple 3.0.1 est :
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
La loi de la variable aléatoire Y de l’exemple 3.0.2 est plus longue à donner, car il n’y a pas de
formule générale qui s’en dégage. La loi de Y est donc :
1
P(Y = 2) = P(Y = 12) =
36
1
P(Y = 3) = P(Y = 11) =
18
1
P(Y = 4) = P(Y = 10) =
12
1
P(Y = 5) = P(Y = 9) =
9
5
P(Y = 6) = P(Y = 8) =
36
1
P(Y = 7) =
6
Proposition 3.1.1 (Fondamentale). Soit X une variabe aléatoire réelle discrète à valeur dans E.
Alors les éléments de l’ensemble {X = x}x∈E forment une partition de l’univers.
On obtient alors par σ-additivité :
X
P(X = x) = 1
x∈E
37
Démonstration 3.1.1. Montrons tout d’abord que les événements sont incompatibles. Soient i, j ∈
E tels que i 6= j, supposons par l’absurde qu’il existe ω ∈ {X = i} ∩ {X = j}. Alors par définition
(de cette notation), X(ω) = i et X(ω) = j, ce qui est absurde.
Montrons que la réunion des événements est égale à l’univers. On peut voir directement que :
déf
[
{X = x} = {X ∈ E} = Ω
x∈E
La dénombrabilité de l’espace discret E nous permet alors d’utiliser la σ-additivité.
3.2 Propriétés
3.2.1 Loi marginale
Notation 3.2.1. La probabilité que X vaille x et que Y vaille y peut se noter indifféremment :
P(X = x; Y = y) ou P(X = x ∩ Y = y)
Proposition 3.2.1 (Loi marginale). Soit X une variable aléatoire à valeurs dans un ensemble EX
et Y une variable aléatoire à valeurs dans un ensemble EY . On a pour tout k ∈ EX :
X
P(X = k) = P(X = k ; Y = i)
i∈EY
Démonstration 3.2.1. En remarquant que l’évènement {X = k} est égal à l’évènement

!
[
{X = k} ∩ {Y = i}
i∈EY
38
on a :
!!
[
P(X = k) = P {X = k} ∩ {Y = i}
i∈EY
!
[
= P {X = k ; {Y = i}}
i∈EY
!
[
= P {X = k ; {Y = i}}
i∈EY
X
= P(X = k ; Y = i) (par la proposition fondamentale et l’axiome 3 de Kolmogorov)
i∈EY
Exemple 3.2.1. Soit Y une variable aléatoire ne prenant que trois valeurs : 1, 2 et 3.
Soit X une autre variable aléatoire à valeurs dans N telle que :
P(X = 17; Y = 1) = 0.1 P(X = 17; Y = 2) = 0.5 P(X = 17; Y = 3) = 0.2
−→ Quelle est la probabilité que X vaille 17 ?
On sait que Y a toutes ses valeurs dans {1; 2; 3}. En utilisant la loi marginale on a :
X
P(X = 17) = P(X = 17 ; Y = k)
k∈{1;2;3}
3
X
= P(X = 17 ; Y = k)
k=1
= P(X = 17; Y = 1) + P(X = 17; Y = 2) + P(X = 17; Y = 3)

= 0.1 + 0.5 + 0.2
= 0.8
Donc la probabilité que X vaille 17 est de 0.8.
39
3.2.2 Loi conditionnelle
Définition 3.2.1 (Loi conditionnelle). Soient X et Y deux variables aléatoires définies sur un
même espace probabilisé.
La probabilité que X vaille x en sachant que Y vaut y est égale à :
P(X = x ∩ Y = y)
P(X = x|Y = y) =
P(Y = y)
Exemple 3.2.2 (Tirage successif). Prenons l’exemple d’un tirage successif de deux boules sans
remise dans une urne contenant une boule rouge, une boule verte et une boule bleue.
Soit X la variable aléatoire rendant le résultat du premier tirage.
Soit Y la variable aléatoire rendant le résultat du second tirage.
Calculons la probabilité d’obtenir la boule bleue au second tirage en sachant qu’on a tiré la rouge
au premier :
1
P(Y = bleue ∩ X = rouge) 6 1
P(Y = bleue|X = rouge) = = 1 =
P(X = rouge) 3
2
Donc nous avons une chance sur deux de tirer la boule bleue au second tirage en sachant qu’on a
tiré la rouge au premier.
3.3 Fonction de répartition
Définition 3.3.1 (Fonction de répartition). Soit X une variable aléatoire réelle.

On appelle fonction de répartition de X la fonction, FX , qui à tout réel k associe :
FX (k) = P(X ≤ k)
Exemple 3.3.1. Soit X une variable aléatoire renvoyant la valeur d’un lancé de dé non pipé et
soit FX sa fonction de répartition. Voici quelques exemples de valeurs que peut prendre FX :
1
– FX (18) = P(X ≤ 18) = P(X = 6) + P(X = 5) + ... + P(X = 1) = 6 × =1
6
1
– FX (6) = P(X ≤ 6) = P(X = 6) + P(X = 5) + ... + P(X = 1) = 6 × =1
6
1 1
– FX (3) = P(X ≤ 3) = P(X = 3) + P(X = 2) + P(X = 1) = 3 × =
6 2
40
√ √ 1
– FX ( 2) = P(X ≤ 2) = P(X = 1) =
6
– FX (−5) = P(X ≤ −5) = 0
Propriétés 3.3.1. Soit X, une variable aléatoire réelle.

FX est une fonction de répartition de X si et seulement si :
1. FX est croissante sur R
2. FX est continue à droite en tout point de R
3. lim FX (k) = 0
k→−∞
4. lim FX (k) = 1
k→+∞
Démonstration 3.3.1.
1. Soient x et y deux réels tels que x < y. On a donc : ] − ∞; x] ⊂] − ∞; y] et par conséquent :
P(X ∈] − ∞; x]) ≤ P(X ∈] − ∞; y]) ⇐⇒ P(X ≤ x) ≤ P(X ≤ y) ⇐⇒ FX (x) ≤ FX (y)
Donc FX est croissante sur R.
2. Montrer que FX est continue à droite en tout point de R, revient à montrer que pour tout
a ∈ R,
1
lim F (x) = FX (a) ⇐⇒ lim FX (a + ) = FX (a)
x→a X
x>a
n→+∞ n
Or,
1 1
lim FX (a + ) = lim P(X ∈] − ∞; a + ])
n→+∞ n n→+∞ n
\ 1
= P(X ∈ ] − ∞; a + ]) (?)
n≥1
n
= P(X ∈] − ∞; a])
= FX (a)
41
3.
lim FX (k) = lim P(X ∈] − ∞; k])

k→−∞ k→−∞
= P(X ∈] − ∞; −∞]) (?)

= P(X ∈ ∅)
= P(∅)
=0
4.
lim FX (k) = lim P(X ∈] − ∞; k])

k→+∞ k→+∞
= P(X ∈] − ∞; +∞[) (?)

= P(X ∈ R)
=1
Les trois passages de cette démonstration comportant ce signe (?) font référence à deux propriétés
sur les suites d’ensembles. La première propriété utilisée pour effectuer ces passages et que : Si
(An )n∈N est une suite décroissante au sens de l’inclusion, c’est à dire, que :
∀n ∈ N, An+1 ⊆ An , alors on a :
\
lim P(An ) = P( An )
n→+∞
n≥0
La seconde propriété est que : Si (An )n∈N est une suite croissante au sens de l’inclusion, c’est à
dire, que :
∀n ∈ N, An ⊆ An+1 , alors on a :
[
lim P(An ) = P( An )
n→+∞
n≥0
(
F (x) = 1 si x ≥ 3
Exemple 3.3.2. La fonction F définie telle que : ∀x ∈ R, est une fonction
F (x) = 0 si x < 3
de répartition d’une variable aléatoire réelle.
En effet, F vérifie les quatre propriétés d’une fonction de répartition :
1. F vaut 0 sur ] − ∞; 3[ et vaut 1 sur [3; +∞[. Donc F est croissante sur R.
42
2. F est continue en tant que fonction constante sur ] − ∞; 3[ et sur [3; +∞[. Donc F est en
particulier continue à droite sur ces deux intervalles. Vérifions qu’elle est continue à droite
au point 3 :
lim F (x) = 1 = F (3)
x→3
x>3
Donc F est continue à droite sur ] − ∞; 3[∪{3} ∪ [3; +∞[= R.

Donc F est continue à droite en tout point de R.
3. Comme pour tout x < 3, F (x) = 0 on a :
lim F (x) = 0
x→−∞
4. Comme pour tout x ≥ 3, F (x) = 1 on a :
lim F (x) = 1
x→+∞
(
F (x) = 1 si x > 3
Exemple 3.3.3. Par contre, la fonction F définie telle que : ∀x ∈ R, n’est
F (x) = 0 si x ≤ 3
pas une fonction de répartition d’une variable aléatoire réelle.
En effet, F , ne vérifie pas la deuxième propriété d’une fonction de répartition :
lim F (x) = 1 6= F (3) = 0

x→3
x>3
Donc, F n’est pas continue à droite en tout point de R et n’est donc pas une fonction de répartition.
3.4 Espérance, variance et écart type
3.4.1 Espérance
L’espérance d’une variable aléatoire réelle est un réel approximant la valeur la plus probable
que cette variable aléatoire peut prendre.
C’est à dire une estimation du résultat moyen qu’on aura au cours d’une expérience aléatoire.
Définition 3.4.1 (Espérance). Soit X une variable aléatoire discrète à valeurs dans un ensemble
E.
X
Si la somme |k|. P(X = k) est finie alors, X admet une espérance.
k∈E
43
L’espérance est un nombre, se notant E(X) et égal à :
X
E(X) = k. P(X = k)
k∈E
Vocabulaire 3.4.1. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k. P(X = k) est finie alors on dit que X est intégrable.
k∈E
Exemple 3.4.1 (Espérance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.
Nous avons démontré précédemment que les valeurs que prend X appartiennent à {1; 2; 3; 4; 5; 6}
et que sa loi est :
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
P
L’ensemble {1; 2; 3; 4; 5; 6} ne comportant que 6 éléments finis, la somme |k|. P(X = k)
k∈{1;2;3;4;5;6}
est une somme de 6 éléments finis, donc elle est finie et donc X admet une espérance.
Calculons l’espérance de X :
X
E(X) = k. P(X = k)
k∈{1;2;3;4;5;6}
= 1 × P(X = 1) + 2 × P(X = 2) + 3 × P(X = 3) + 4 × P(X = 4) + 5 × P(X = 5) + 6 × P(X = 6)
1 1 1 1 1 1
=1× +2× +3× +4× +5× +6×
6 6 6 6 6 6
1+2+3+4+5+6
=
6
21
=
6
7
=
2
44
7
Donc l’espérance de X est égale à E(X) =
2
Exemple 3.4.2 (Espérance d’une variable aléatoire Y renvoyant la somme d’un lancé de deux
dés). Prenons comme exemple, une variable aléatoire Y affichant la somme obtenue après un lancé
de deux dés.
Nous avons démontré précédemment que les valeurs que prend Y appartiennent à
{2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12} et que sa loi est :
1
P(Y = 2) = P(Y = 12) =
36
1
P(Y = 3) = P(Y = 11) =
18
1
P(Y = 4) = P(Y = 10) =
12
1
P(Y = 5) = P(Y = 9) =
9
5
P(Y = 6) = P(Y = 8) =
36
1
P(Y = 7) =
6
L’ensemble {2; 3; 4; 5; 6; 7; 8; 9; 10; 11; 12} ne comportant que 11 éléments finis, la somme
X
|k|. P(Y = k)
k∈{2;3;4;5;6;7;8;9;10;11;12}
est une somme de 11 éléments finis, donc elle est finie et donc Y admet une espérance.
45
Calculons l’espérance de Y :
X
E(Y ) = k. P(Y = k)
k∈{2;3;4;5;6;7;8;9;10;11;12}
= 2 × P(Y = 2) + 3 × P(Y = 3) + 4 × P(Y = 4) + 5 × P(Y = 5) + 6 × P(Y = 6) + 7 × P(Y = 7)

+ 8 × P(Y = 8) + 9 × P(Y = 9) + 10 × P(Y = 10) + 11 × P(Y = 11) + 12 × P(Y = 12)
1 1 1 1 5 1 5 1 1 1
=2× +3× +4× +5× +6× +7× +8× + 9 × + 10 × + 11 ×
36 18 12 9 36 36 36 9 12 18
1
+ 12 ×
36
2 + 6 + 12 + 20 + 30 + 7 + 40 + 36 + 30 + 22 + 12 217
= =
36 36
217
Donc l’espérance de Y est égale à E(Y ) =
36
Propriétés 3.4.1. Soient X et Y deux variables aléatoires admettant une espérance.
1. Pour tout réel λ : E(λ) = λ

2. Linéarité : La variable aléatoire X + λ.Y admet aussi une espérance qui est égale à :
E(X + λ.Y ) = E(X) + E(λ.Y ) = E(X) + λ.E(Y )
3. Positivité : Si X ≥ 0 alors :
(a) E(X) ≥ 0
(b) et si de plus E(X) = 0 alors P(X = 0) = 1 (c’est à dire X est une constante égale à 0).
4. Croissance : Si X ≥ Y , c’est à dire si pour toute valeur de X toute valeur de Y est

inférieur, alors :
E(X) ≥ E(Y )
1. Calculer l’espérance d’un réel λ, consiste à calculer l’espérance d’une variable aléatoire con-
stante et égale à λ.
En prenant donc, une variable aléatoire X ne prenant qu’une unique valeur λ,
46
on a P(X = λ) = 1.
Par conséquent,
X
E(X) = k . P(X = k) = λ . P(X = λ) = λ . 1 = λ
k∈{λ}
2. Démontrons que E(X + Y ) = E(X) + E(Y ) en considérant que X a ses valeurs dans un
ensemble EX = {x1 , x2 , x3 , ...} et Y dans un ensemble EY = {y1 , y2 , y3 , ...}.
X
E(X + Y ) = (xi + yj ) . P(X = xi , Y = yj )
i,j
X X
= xi . P(X = xi , Y = yj ) + yj . P(X = xi , Y = yj )
i,j i,j
X X X X
= xi P(X = xi , Y = yj ) + yj P(X = xi , Y = yj )
i j j i
X X
= xi .P(X = xi ) + yj .P(Y = yj )
i j
= E(X) + E(Y )
Démontrons que E(λ.Y ) = λ.E(Y ) en considérant que Y a ses valeurs dans un ensemble
E = {e1 , e2 , e3 , ...}.
La variable aléatoire λ.Y a ses valeurs dans l’ensemble {λ.e1 , λ.e2 , ...}.
Par conséquent :
X
E(λ.Y ) = λ.k . P(λ.Y = λ.k)
k∈E
X
= λ.k . P(Y = k) (car λ.Y = λ.k ⇔ Y = k)
k∈E
X
= λ. k . P(Y = k)
k∈E
= λ.E(Y )
Nous venons de démontrer que E(X + Y ) = E(X) + E(Y ) et que E(λ.Y ) = λ.E(Y ).
47
Par conséquent : E(X + λ.Y ) = E(X) + λ.E(Y ).
3. (a) X ≥ 0 signifie que les valeurs que peut prendre X sont toutes positives.
Donc X a ses valeurs dans un ensemble E = {e1 , e2 , ...} tel que tout ei ≥ 0.
De plus, une probabilité étant toujours positive on a toujours P(X = ei ) ≥ 0.
On a donc :
X
E(X) = k . P(X = k)
k∈E
= e1 . P(X = e1 ) + e2 . P(X = e2 ) + e3 . P(X = e3 ) +...

|{z} | {z } |{z} | {z } |{z} | {z }
≥0 ≥0 ≥0 ≥0 ≥0 ≥0
Comme E(X) est une somme d’éléments positifs, on a E(X) ≥ 0.
X
(b) Si de plus E(X) = 0 alors k . P(X = k) = 0.
k∈E
Si on ne prend que les valeurs de E qui sont strictement positives on a toujours :
X
k . P(X = k) = 0
{k∈E; k>0}
Or,
X
k . P(X = k) = 0
{k∈E; k>0}
⇐⇒ k1 . P(X = k1 ) + k2 . P(X = k2 ) + k3 . P(X = k3 ) +... = 0

|{z} | {z } |{z} | {z } |{z} | {z }
k1 >0 ≥0 k2 >0 ≥0 k3 >0 ≥0
⇐⇒ P(X = k1 ) = P(X = k2 ) = P(X = k3 ) = ... = 0
Donc ∀k ∈ E, k > 0, P(X = k) = 0.

Donc P(X = 0) = 1. Donc X est une constante égale à zéro.
4. X ≥ Y ⇐⇒ X − Y ≥ 0
Or, par positivité de l’espérance, X − Y ≥ 0 =⇒ E(X − Y ) ≥ 0.
De plus, par linéarité de l’espérance, on a :
E(X − Y ) ≥ 0 ⇐⇒ E(X) − E(Y ) ≥ 0

⇐⇒ E(X) ≥ E(Y )
48
Théorème 3.4.1. Soit X une variable aléatoire à valeurs dans un ensemble E et f : E → R une
fonction.
X
Si la somme |f (k)| . P(X = k) est finie alors :
k∈E
X
E (f (X)) = f (k) . P(X = k)
k∈E
Démonstration 3.4.2. La variable aléatoire X a ses valeurs dans un ensemble E, par conséquent
la variable aléatoire f (X) a ses valeurs dans l’ensemble f (E).
On en déduit le calcul suivant :
X
E(f (X)) = y . P(f (X) = y)
y∈f (E)
 
X X
=  f (k) . P(X = k) (f −1 (y) est l’antécédent de y)
y∈f (E) k∈f −1 (y)
X
= f (k) . P(X = k)
k∈E
X
Donc E(f (X)) = f (k) . P(X = k).
k∈E
3.4.2 Variance
La variance d’une variable aléatoire réelle est un réel approximant la dispertion des valeurs que
cette variable aléatoire peut prendre autour de son espérance. La variance est donc proportionnelle
à la distance des valeurs que peut prendre une variable aléatoire que peut prendre par rapport à
sa valeur moyenne.
Définition 3.4.2 (Variance). Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k 2 . P(X = k) est finie alors, X admet une variance.
k∈E
49
La variance est un nombre, se notant V(X) et égal à :
V(X) = E (X − E(X))2

Vocabulaire 3.4.2. Soit X une variable aléatoire discrète à valeurs dans un ensemble E.
X
Si la somme k 2 . P(X = k) est finie alors on dit que X est de carré intégrable.
k∈E
Propriétés 3.4.2. Soit X une variable aléatoire admettant une variance et donc une espérance.
1. V(X) = E(X 2 ) − E(X)2

2. La variance est toujours positive.
3. Soient a et b deux réels, V(aX + b) = a2 .V(X)
4. Si V(X) = 0 alors X est égale à une constante.
Démonstration 3.4.3. Avant de commencer cette démonstration il est important de remarquer

que : E(E(X)) = E(X). En effet, E(X) est un réel, or on a démontré que pour tout réel λ, E(λ) = λ.
1. Par linéarité de l’espérance on a :
V(X) = E (X − E(X))2

= E X 2 − 2.X.E(X) + E(X)2

= E(X 2 ) − E(2.X.E(X)) + E(E(X)2 )

= E(X 2 ) − E(2).E(X).E(E(X)) + E(X)2
= E(X 2 ) − 2.E(X).E(X) + E(X)2
= E(X 2 ) − 2.E(X)2 + E(X)2
= E(X 2 ) − E(X)2
2. Par définition, V(X) = E (X − E(X))2 .

On sait, par positivité de l’espérance, que si une variable aléatoire Z est positive alors
E(Z) ≥ 0.
Or la variable aléatoire, (X − E(X))2 , étant un carré est positive.
Donc E (X − E(X))2 ≥ 0.

Donc V(X) ≥ 0
50
3. En utilisant la linéarité de l’espérance, on a :
V(aX + b) = E (aX + b)2 − E(aX + b)2

= E a2 .X 2 + 2.aX.b + b2 − (a.E(X) + E(b))2

= a2 .E(X 2 ) + E(2.aX.b) + E(b2 ) − (a.E(X) + b)2

= a2 .E(X 2 ) + 2.a.b.E(X) + b2 − (a.E(X) + b)2
= a2 .E(X 2 ) + 2.a.b.E(X) + b2 − a2 .E(X)2 + 2.a.b.E(X) + b2

= a2 .E(X 2 ) − a2 .E(X)2
= a2 . E(X 2 ) − E(X)2

= a2 .V(X)
4. Comme V(X) = E (X − E(X))2 , on a :

V(X) = 0
⇐⇒ E (X − E(X))2 = 0

(X − E(X))2 est une variable aléatoire positive et nous venons de montrer que son espérance
est nulle.
Or nous avons démontrer dans les propriétés de l’espérance que si Z est une variable aléatoire
positive et que E(Z) = 0, alors Z est la fonction nulle.
Par conséquent :
(X − E(X))2 = 0
⇐⇒ X − E(X) = 0
⇐⇒ X = E(X)
Comme l’espérance E(X) est un réel, la variable aléatoire X est égale à un réel.
Donc si V(X) = 0 alors X est une constante.
Exemple 3.4.3 (Variance d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons comme exemple, une variable aléatoire X affichant le résultat d’un lancé de dé.
51
Nous avons démontré précédemment que la loi de X est :
1
∀k ∈ {1; 2; 3; 4; 5; 6}, P(X = k) =
6
X 7
et que son espérance est égale à E(X) = k . P(X = k) =
2
k∈{1;2;3;4;5;6}
X
Comme la somme k 2 . P(X = k) est une somme de 6 éléments, elle finie et donc X
k∈{1;2;3;4;5;6}
possède une variance.
Calculons la variance de X.
On sait que V(X) = E(X 2 ) − E(X)2 . Donc pour déterminer la variance de X, il suffit de déter-
miner E(X 2 ) et E(X)2 .
2
7 7 49
On sait que E(X) = , donc E(X)2 = = .
2 2 4
Déterminons E(X 2 ).
P
On sait que si f est une fonction de {1; 2; 3; 4; 5; 6} dans R alors E(f (X)) = f (k) . P(X = k).
k∈E
En prenant la fonction :
f : {1; 2; 3; 4; 5; 6} −→ R
k −→ k 2
on a E(f (X)) = E(X 2 ).
52
Donc :
E(X 2 ) = E(f (X))
X
= f (k) . P(X = k)
k∈{1;2;3;4;5;6}
X
= k 2 . P(X = k)
k∈{1;2;3;4;5;6}
= 12 .P(X = 1) + 22 .P(X = 2) + 32 .P(X = 3) + 42 .P(X = 4)

+ 52 .P(X = 5) + 62 .P(X = 6)
1 1 1 1 1 1
= 1. + 22 . + 32 . + 42 . + 52 . + 62 .
6 6 6 6 6 6
1
= (1 + 4 + 9 + 16 + 25 + 36) ×
6
91
=
6
91
Donc E(X 2 ) = .
6
91 49 35
Donc la variance de X est égale à V(X) = E(X 2 ) − E(X)2 = − =
6 4 12
3.4.3 Ecart type

L’ecart type d’une variable aléatoire réelle est un réel approximant la dispertion moyenne des
valeurs que cette variable aléatoire peut prendre autour de son espérance. L’écart type est donc
l’écart moyen à la valeur moyenne que peut prendre une variable aléatoire.
Définition 3.4.3 (Ecart type). Soit X une variable aléatoire possédant une variance.
L’écart type de la variable aléatoire X est un réel égal à :
p
σ(X) = V(X)
53
Exemple 3.4.4 (Écart type d’une variable aléatoire X renvoyant le résultat d’un lancé de dé).
Prenons l’exemple de la variable aléatoire X renvoyant le résultat d’un lancé de dé.
35
Nous avons montré, précédemment, que sa variance est égale à V(X) = .
12
r
p 35
Son écart type est donc égal à σ(X) = V(X) =
12
3.5 Indépendance
Définition 3.5.1 (Indépendance de deux variables aléatoires).

Soit X une variable aléatoire à valeurs dans EX et soit Y une variable aléatoire à valeurs
dans EY .
Les variables aléatoires X et Y sont dites indépendantes si et seulement si :
∀x ∈ EX , ∀y ∈ EY , P(X = x, Y = y) = P(X = x) × P(Y = y)
La notion d’indépendance peut se généraliser à une famille quelconque de variables aléatoires.
Définition 3.5.2 (Indépendance de n variables aléatoires).

Soient X1 , X2 , ..., Xn une famille de variables aléatoires à valeurs dans E1 , E2 , ..., En .
Les variables aléatoires X1 , X2 , ..., Xn sont dites indépendantes si et seulement si :
∀x1 ∈ E1 , ..., ∀xn ∈ En , P(X1 = x1 , X2 = x2 , ..., Xn = xn ) = P(X1 = x1 )×P(X2 = x2 )×...×P(Xn = xn )
Proposition 3.5.1. Soient X et Y deux variables aléatoires possédant une espérance.

Si X et Y sont indépendantes alors :
E(XY ) = E(X) × E(Y )
Démonstration 3.5.1. En considérant que la variable aléatoire X à ses valeurs dans EX =

{x1 , x2 , ...} et que Y a ses valeurs dans EY = {y1 , y2 , ...}, la variable aléatoire XY à ses valeurs
dans {x1 .y1 ; x2 .y2 ; ...}.
54
Par conséquent :
X
E(XY ) = x.y . P(X = x, Y = y)
(x,y)∈EX ×EY
X
= x.y . P(X = x) × P(Y = y) (par indépendance de X et Y )
(x,y)∈EX ×EY
X X
= x . P(X = x) × y . P(Y = y)
x∈EX y∈EY
= E(X) × E(Y )
Proposition 3.5.2. Soient X et Y deux variables aléatoires possédant une variance.

V(X + Y ) = V(X) + V(Y )
Démonstration 3.5.2. En utilisant la formule de la définition de la variance, V(X) = E (X − E(X))2 ,

et la linéarité de l’espérance, on a :
[ (X + Y ) − E(X + Y ) ]2

V(X + Y ) = E
[ (X + Y ) − E(X) − E(Y ) ]2

=E
[ (X − E(X)) + (Y − E(Y )) ]2

=E
(X − E(X))2 − 2.(X − E(X)).(Y − E(Y )) + (Y − E(Y ))2

=E
= E (X − E(X))2 − E [2.(X − E(X)).(Y − E(Y ))] + E (Y − E(Y ))2

= V(X) − E [2.(X − E(X)).(Y − E(Y ))] + V(Y )

= V(X) + V(Y ) − E [2.(X − E(X)).(Y − E(Y ))]
= V(X) + V(Y ) − 2.E [(X − E(X)).(Y − E(Y ))]
= V(X) + V(Y ) − 2.E [(X − E(X))] .E [(Y − E(Y ))] (Par indépendance de X et Y )
= V(X) + V(Y ) − 2. (E(X) − E(E(X))) . (E(Y ) − E(E(Y )))
= V(X) + V(Y ) − 2. (E(X) − E(X)) . (E(Y ) − E(Y ))
= V(X) + V(Y ) − 2 × 0 × 0
= V(X) + V(Y )
55

3.6 Lois
3.6.1 Loi de Bernoulli
Définition 3.6.1 (Loi de Bernoulli). Soit p ∈ [0; 1].

Une variable aléatoire X suit la loi de Bernoulli de paramètre p si :
X ne prend que les deux valeurs 0 et 1, et
P(X = 1) = p et P(X = 0) = 1 − p
Vocabulaire 3.6.1. L’événement associé à 1 est nommé succès de l’expérience et l’événement

associé à 0 échec de l’expérience.
Notation 3.6.1. X suit la loi de Bernoulli de paramètre p se note : B(p).
Exemple 3.6.1 (Jeu de Pile ou Face). Prenons comme exemple, un jeu de Pile ou Face.
Notons 0 l’évènement obtenir Pile et 1 l’évènement obtenir Face.
Si la pièce est équilibrée, X suit une loi de Bernoulli de paramètre 0, 5, c’est à dire :
P(X = 1) = 0, 5 et P(X = 0) = 1 − 0, 5 = 0, 5
Exemple 3.6.2 (Urne contenant deux types de boules). Prenons comme exemple, une variable
aléatoire X renvoyant la couleur d’une boule tirée dans une urne contenant 15 boules blanches et
20 boules noires.
Notons 0 l’évènement obtenir une boule blanche et 1 obtenir une boule noire.
20 20
La probabilité d’obtenir une boule blanche est de = .
20 + 15 35
20
Donc X suit la loi de Bernoulli de paramètre , c’est à dire :
35
20 20 15
P(X = 1) = et P(X = 0) = 1 − =
35 35 35
56
Exemple 3.6.3 (Cas général). Toute expérience n’ayant que deux issues possibles peut être décrite
par une variable aléatoire suivant la loi de Bernoulli en notant 1 le succès de l’expérience et 0
l’échec.
Propriété 3.6.1 (Espérance d’une variable suivant une loi de Bernoulli).

Si X est une variable aléatoire suivant une loi de Bernoulli de paramètre p alors son espérance est
égale à : E(X) = p
X
E(X) = k . P(X = k)
k∈{0;1}
= 0 × P(X = 0) + 1 × P(X = 1)
= 0 × (1 − p) + 1 × p
=p
Propriété 3.6.2 (Variance d’une variable suivant une loi de Bernoulli).

Si X est une variable aléatoire suivant une loi de Bernoulli de paramètre p alors sa variance est
égale à : V(X) = p.(1 − p).
Démonstration 3.6.2. On sait que V(X) = E(X 2 ) − E(X)2 .

Déterminons E(X 2 ) :
X
En prenant la fonction f : k −→ k 2 , on a, par théorème, E(f (X)) = f (k) . P(X = k).
k∈{0;1}
Donc :
X
E(X 2 ) = k 2 . P(X = k)
k∈{0;1}
= 02 × P(X = 0) + 12 × P(X = 1)
= P(X = 1)
=p
Déterminons E(X)2 :
Nous savons que E(X) = p, donc E(X)2 = p2
Donc V(X) = E(X 2 ) − E(X)2 = p − p2 = p.(1 − p)
57
3.6.2 Loi binomiale
Supposons qu’on renouvelle, indépendamment, n fois, une épreuve de Bernoulli de paramètre p.

Une variable aléatoire X, suivant la loi binomiale, renverra le nombre de succès de cette expérience.
Ainsi P(X = k) renverra la probabilité qu’on ait k succès au cours des n itérations.
Définition 3.6.2 (Loi binomiale). Soient p ∈ [0; 1] et n ∈ N.

Une variable aléatoire X suit la loi binomiale de paramètres n et p si pour tout k ∈ {0, 1, ..., n} :

n
P(X = k) = . pk . (1 − p)n−k
k
Notation 3.6.2. X suit la loi binomiale de paramètres n et p se note : B(n, p).
Exemple 3.6.4 (10 lancés d’une pièce équilibrée).

Prenons comme exemple, un jeu de Pile ou Face, réitéré 10 fois, en considérant qu’obtenir un Pile
est le succès de cette expérience.
La probabilité d’obtenir Pile est de 0, 5 et la probabilité d’obtenir Face de 0, 5, à chaque lancé.
Donc X suit une loi binomiale de paramètres 0, 5 et 10. Ainsi pour tout k compris entre 0 et 10,
on a :
10
P(X = k) = . 0, 5k . (1 − 0, 5)10−k
k
Calculons la probabilité d’obtenir exactement 2 piles au cours de ces 10 lancés :
La variable aléatoire X renvoyant le nombre de succès obtenus au cours de ces 10 lancés, on calcule
la probabilité que X soit égal à 2 :

10
P(X = 2) = . 0, 52 . (1 − 0, 5)10−2
2
10!
= . 0, 52 . (0, 5)8
2! × (10 − 2)!
10!
= . 0, 510
2! × (8)!
9 × 10
= . 0, 510
2!
≈ 0, 04
58
Donc la probabilité d’obtenir 2 piles au cours de ces 10 lancés est de 0, 04.
Calculons la probabilité d’obtenir exactement 6 faces au cours de ces 10 lancés.

Ici, l’échec de cette expérience est d’obtenir face, or la variable X ne renvoi que la probabilité du
nombre de succès. Donc en remarquant que la probabilité d’obtenir 6 faces au cours de ces 10 lancés
revient à calculer la probabilité d’obtenir 4 piles, on peut calculer cette première probabilité :

10
P(X = 4) = . 0, 54 . (1 − 0, 5)10−4
4
10!
= . 0, 54 . (0, 5)6
4! × (10 − 4)!
10!
= . 0, 510
4! × (6)!
7 × 8 × 9 × 10
= . 0, 510
4!
≈ 0, 2
Donc la probabilité d’obtenir 6 faces au cours de ces 10 lancés est de 0, 2.
Propriété 3.6.3 (Espérance d’une variable suivant une loi binomiale).

Si X est une variable aléatoire suivant une loi binomiale de paramètres n et p alors son espérance
est égale à : E(X) = np
Démonstration 3.6.3. On peut démontrer cette propriété de deux manières différentes.
−→ première manière.
On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente n
expérience de Bernoulli de paramètre p. Par conséquent :
X = X1 + X2 + ... + Xn
où chaque Xi est une variable suivant la loi de Bernoulli de paramètre p.
59
Donc en utilisant la linéarité de l’espérance et le fait que pour tout Xi , E(Xi ) = p on a :
E(X) = E(X1 + X2 + ... + Xn )

= E(X1 ) + E(X2 ) + ... + E(Xn )
= p + p + ... + p
| {z }
n fois
= np
−→ deuxième manière (calculatoire).

X
E(X) = k . P(X = k)
k∈{0,1,...,n}

X n
= k. . pk . (1 − p)n−k
k
k∈{0,1,...,n}

X n
= k. . pk . q n−k ( avec q = (1 − p) )
k
k∈{0,1,...,n}
Or d’après la formule du binôme de Newton on a pour tout réel x :

n n
n
X n k n−k
X n
(px + q) = . (px) . q = . xk . pk . q n−k
k=0
k k=0
k
En dérivant selon x des deux côtés on a :

n
n−1
X n
np(px + q) = . k.xk−1 . pk . q n−k
k=0
k
Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :
n
n−1
X n
np(p + q) = . k . pk . q n−k
k=0
k
On a donc retrouvé la formule de E(X), par conséquent :
E(X) = np(p + q)n−1
En reécrivant (1 − p) à la place de q on a finalement :
E(X) = np(p + q)n−1 = np(p + 1 − p)n−1 = np(1)n−1 = np
60

Propriété 3.6.4 (Variance d’une variable suivant une loi binomiale).

Si X est une variable aléatoire suivant une loi binomiale de paramètres n et p alors sa variance
est égale à : V(X) = n.p.(1 − p).
Démonstration 3.6.4. On peut démontrer cette propriété de deux manières différentes.
−→ première manière.
On sait qu’une variable aléatoire X suivant la loi binomiale de paramètres n et p représente n
expérience de Bernoulli de paramètre p, indépendantes entre elles. Par conséquent :
X = X1 + X2 + ... + Xn
où chaque Xi est une variable suivant la loi de Bernoulli de paramètre p.

En utilisant le fait que tous les Xi sont indépendants et le fait que pour tout Xi , V(Xi ) = p.(1 − p)
on a :
V(X) = V(X1 + X2 + ... + Xn )

= V(X1 ) + V(X2 ) + ... + V(Xn ) (par indépendance des Xi )
= p.(1 − p) + p.(1 − p) + ... + p.(1 − p)
| {z }
n fois
= n.p.(1 − p)

−→ deuxième manière (calculatoire).
Par définition, V(X) = E(X 2 ) − E(X)2 .
Calculons E(X 2 ) :
X
E(X 2 ) = k 2 . P(X = k)
k∈{1,2,...,n}
Nous avons démontré lors de la démonstration précédente que pour tout réel x on a :
n
n−1
X n
np(px + q) = . k.xk−1 . pk . q n−k (avec q = 1 − p)
k=0
k
En dérivant selon x des deux côtés on obtient :

n
n−2
X n
n.p.(n − 1).p.(px + q) = . k.(k − 1).xk−2 . pk . q n−k
k=0
k
61
Comme cette égalité est vraie pour tout x ∈ R, en posant x = 1, elle reste toujours vraie :
n
2 n−2
X n
n.(n − 1).p .(p + q) = . k.(k − 1).1k−2 . pk . q n−k
k=0
k
n
X n
= . k.(k − 1). pk . q n−k
k=0
k
n
X n 2 k n−k n k n−k
= . k .p .q − . k.p .q
k=0
k k
n n
X n 2 k n−k
X n
= . k .p .q − . k.pk .q n−k
k=0
k k=0
k
et en remplaçant q par (1 − p) on a :
n n
2
X n 2 k n−k
X n
n.(n − 1).p = . k .p .(1 − p) − . k.pk .(1 − p)n−k
k=0
k k=0
k
n
X n
X
= k 2 .P(X = k) − k.P(X = k)
k=0 k=0
= E(X 2 ) − E(X)
Par conséquent :
E(X 2 ) = n.(n − 1).p2 + E(X)
Comme on a démontré précedemment que E(X) = np, on a :
E(X 2 ) = n.(n − 1).p2 + np
62
Donc :
V(X) = E(X 2 ) − E(X)2

= n.(n − 1).p2 + np − (np)2
= n2 .p2 − np2 + n.p − (np)2
= n.p.(np − p + 1 − np)
= n.p.(1 − p)
3.6.3 Loi géométrique
Supposons qu’on renouvelle, indépendamment, une épreuve de Bernoulli de paramètre p, jusqu’au

premier succès. Une variable aléatoire, X, suivant la loi géométrique, renverra le rang du premier
succès. Ainsi P(X = k) renverra la probabilité que le premier succès apparaissent à la k-ème
itération de l’expérience.
Définition 3.6.3 (Loi géométrique). Soit p ∈]0; 1].

Une variable aléatoire X suit la loi géométrique de paramètre p si pour tout k ∈ N∗ :
P(X = k) = p.(1 − p)k−1
Notation 3.6.3. X suit la loi géométrique de paramètre p se note : G(p).
Exemple 3.6.5 (lancé d’un dé). Prenons comme exemple, un jeu qui consiste à lancé un dé, et
où le succès est d’obtenir un 6 et l’échec d’obtenir n’importe quel autre nombre.
−→Calculons la probabilité de gagner au deuxième lancé de dé.

1
En lançant un dé la probabilité d’obtenir un 6 est de , donc on va utiliser une variable aléatoire
6
1
X suivant la loi géométrique de paramètre .
6
63
2−1
1 1
P(X = 2) = × 1 −
6 6
1
1 5
= ×
6 6
1 5
= ×
6 6
5
=
6
5
Donc la probabilité de gagner au deuxième lancé dé et de ≈ 0, 8.
6
−→Calculons la probabilité de gagner au troisième lancé de dé.

Cette probabilité est égale à : P(X = 3).
On a donc :
3−1
1 1
P(X = 3) = × 1 −
6 6
2
1 5
= ×
6 6
1 25
= ×
6 36
25
=
216
25
Donc la probabilité de gagner au troisième lancé de dé et de ≈ 0, 1.
216
On remarque que la probabilité de gagner au deuxième lancé est plus faible que celle de gagner
au troisième, ceci est dû au fait qu’on ne calcule pas la probabilité d’avoir gagné au bout de 2 ou
de 3 lancés, mais bien de gagner exactement au deuxième ou au troisième lancé.
Propriété 3.6.5 (Espérance d’une variable suivant une loi géométrique). Si X est une variable
1
aléatoire suivant la loi géométrique de paramètre p alors son espérance est égale à : E(X) = .
p
64
X
E(X) = k . P(X = k)
k∈N∗
+∞
X
= k . p.(1 − p)k−1
k=1
+∞
X
= p. k . (1 − p)k−1
k=1
On va utiliser le développement en série entière suivant :
+∞
1 X
∀x ∈ [0, 1], = xk
1 − x k=0
En dérivant selon x des deux cotés de l’égalité on obtient :
+∞
1 X
∀x ∈ [0, 1], 2 = k.xk−1
(1 − x) k=0
p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cette
égalité vraie :
+∞
1 X
2 = k.(1 − p)k−1
(1 − (1 − p)) k=0
+∞
1 X
⇐⇒ 2 = k.(1 − p)k−1 ( car le premier terme est nul )
p k=1
65
On peut maintenant calculer l’espérance de X :
+∞
X
E(X) = p × k . (1 − p)k−1
k=1
1
=p×
p2
p
=
p2
1
=
p
Propriété 3.6.6 (Variance d’une variable suivant une loi géométrique).

Si X est une variable aléatoire suivant la loi géométrique de paramètre p alors sa variance est égale
à:
1−p
V(X) =
p2
.
Démonstration 3.6.6. On sait que V(X) = E(X 2 ) − E(X)2

Calculons E(X 2 ) :
Lors de la démonstration, précédente on a montré que :
+∞
1 X
∀x ∈ [0, 1], = k.xk−1
(1 − x)2 k=0
66
En dérivant des deux côtés selon p on obtient :
+∞
2(1 − x) X
∀x ∈ [0, 1], 4 = k.(k − 1).xk−2
(1 − x) k=0
+∞
2 X
⇐⇒ = k.(k − 1).xk−2
(1 − x)3 k=0
+∞
2 X
⇐⇒ 3
= k.(k − 1).xk−2 (les deux premiers termes sont nuls)
(1 − x) k=2
+∞
2 X
⇐⇒ = (k + 1).k.xk−1
(1 − x)3 k=1
+∞ +∞
2 X
2 k−1
X
⇐⇒ 3
= k .x + k.xk−1
(1 − x) k=1 k=1
Et en utilisant l’égalité de la démonstration précédente on a :
+∞ +∞
2 X
2 k−1
X
3
= k .x + k.xk−1
(1 − x) k=1 k=1
+∞
2 X 1
⇐⇒ = k 2 .xk−1 +
(1 − x) 3
k=1
(1 − x)2
+∞
X 2 1
⇐⇒ k 2 .xk−1 = −
k=1
(1 − x) 3
(1 − x)2
p ∈ [0, 1] donc 1 − p ∈ [0, 1] et par conséquent on peut remplacer x par 1 − p en conservant cette
67
égalité vraie :
+∞
X 2 1
k 2 .(1 − p)k−1 = −
k=1
(1 − (1 − p))3 (1 − (1 − p))2
+∞
X 2 1
⇐⇒ k 2 .(1 − p)k−1 = 3
− 2
k=1
p p
Et en multipliant par p des deux côtés on obtient :
+∞
X 2p p
k 2 .p.(1 − p)k−1 = 3
− 2
k=1
p p
X 2 1
⇐⇒ k 2 . P(X = k) = 2
−
k∈N∗
p p
2 1
⇐⇒ E(X 2 ) = 2
−
p p
Et enfin :
V(X) = E(X 2 ) − E(X)2
2
2 1 1
= 2− −
p p p
2 p 1
= − −
p2 p2 p2
2−p−1
=
p2
1−p
=
p2
68
3.6.4 Loi de Poisson
Soit un évènement se produisant en moyenne λ fois pendant un laps de temps donné.
Une variable aléatoire X, suivant la loi de Poisson de paramètre λ, renverra le nombre de fois que
l’évènement se produit lors de ce laps de temps.
Ainsi P(X = k) renverra la probabilité que l’évènement se produise k fois lors de ce même laps de
temps.
Définition 3.6.4 (Loi de Poisson). Soit λ ∈ R+∗ .

Une variable aléatoire X suit la loi de Poisson de paramètre λ si pour tout k ∈ N :
λk
P(X = k) = × e−λ
k!
Notation 3.6.4. X suit la loi de Poisson de paramètre λ se note : P(λ).
Exemple 3.6.6 (Saumons fuyant). Chaque année, un élevage, voit en moyenne 6 saumons s’en-
fuirent à cause de trous dans ses filets.
En considérant, que le nombre de saumons fuyant chaque année suit une loi de Poisson, quelle est
la probabilité de voir 10 saumons fuir en une année ?
Pour effectuer ce calcul, on va prendre une variable aléatoire X suivant la loi de Poisson de
paramètre λ = 6. Ainsi la probabilité de perdre 10 saumons est égale à :
610
P(X = 20) = × e−6 ≈ 0, 04
10!
Donc la probabilité que 10 saumons s’enfuient en une année est de 0, 04.
Quelle est la probabilité, qu’aucun saumon ne s’enfuit ?

En procédant de la même manière :
60 1
P(X = 0) = × e−6 = × e−6 ≈ 0, 002
0! 1
Donc la probabilité qu’aucun saumon ne s’enfuit en une année est de 0, 002.
Propriété 3.6.7 (Espérance d’une variable suivant une loi de Poisson). Si X est une variable
aléatoire suivant la loi de Poisson de paramètre λ alors son espérance est égale à : E(X) = λ.
69
X
E(X) = k . P(X = k)
k∈N
+∞
X λk −λ
= k. .e
k=0
k!
+∞
−λ
X λk
=e . k.
k=0
k!
+∞
X λk
Comme le premier terme de la somme k. est nul on peut sommer à partir de k = 1 en
k=0
k!
gardant l’égalité vraie et on a donc :
+∞
X λk
E(X) = e−λ . k.
k=1
k!
+∞
−λ
X λk
=e .
k=1
(k − 1)!
+∞
−λ
X λk−1
=e . λ.
k=1
(k − 1)!
+∞
−λ
X λk−1
= λ.e .
k=1
(k − 1)!
+∞
−λ
X λk
= λ.e .
k=0
(k)!
Or pour tout réel x, on a :

+∞
X
x xk
e =
k=0
k!
70
Par conséquent :
+∞
X λk
E(X) = λ.e−λ .
k=0
(k)!
= λ.e−λ .eλ
= λ.e−λ+λ
= λ.e0
=λ
Propriété 3.6.8 (Variance d’une variable suivant une loi de Poisson). Si X est une variable aléa-
toire suivant la loi de Poisson de paramètre λ alors sa variance est égale à : V(X) = λ.
Démonstration 3.6.8. On sait que V(X) = E(X 2 ) − E(X)2 .

Calculons E(X 2 ) :
X
E(X 2 ) = k 2 . P(X = k)
k∈N
+∞
X λk
= k2 . × e−λ
k=0
k!
+∞
X λk
= 2
k . × e−λ (car le premier terme est nul)
k=1
k!
+∞
−λ
X λk−1
= λ.e . k.
k=1
(k − 1)!
λk−1 λk
On remarque que pour tout k ∈ N, k. est égal à la dérivée de : selon λ.
(k − 1)! (k − 1)!
λk−1 d λk
C’est à dire : k . = .
(k − 1)! dλ (k − 1)!
71
Par conséquent :
+∞
2 −λ
X d λk
E(X ) = λ.e .
k=1
dλ (k − 1)!
Or comme la somme des dérivées est égale à la dérivée de la somme on a :
+∞
!
d X λk
E(X 2 ) = λ.e−λ .
dλ k=1
(k − 1)!
+∞
!
−λ d X λk−1
= λ.e . λ.
dλ k=1
(k − 1)!
+∞
!
d X λk
= λ.e−λ . λ.
dλ k=0
(k)!
Or pour tout réel x, on a :

+∞
x
X xk
e =
k=0
k!
Par conséquent :
+∞
!
d X λk
E(X 2 ) = λ.e−λ . λ.
dλ k=0
(k)!
d
= λ.e−λ . λ. eλ

dλ
72
La dérivée selon λ de λ. eλ est égale à : eλ + λeλ , donc :
E(X 2 ) = λ.e−λ . eλ + λeλ

= λ.e0 + λ2 .e0
= λ + λ2
En utilisant maintenant la formule de la variance on a :
V(X) = E(X 2 ) − E(X)2

= λ + λ2 − λ2
=λ
3.7 Fonction génératrice
Les fonctions génératrices, sont des outils permettant d’identifier facilement la loi d’une vari-
able aléatoire, ainsi que son espérance et sa variance.
3.7.1 Définition
Définition 3.7.1 (Fonction génératrice). Soit X une variable aléatoire à valeurs dans un ensemble
E.
On appelle fonction génératrice de X la fonction GX définie par :
GX : [−1; 1] −→ R
X
u −→ E(uX ) = uk . P(X = k)
k∈E
73
3.7.2 Fonction génératrice et indépendance
Propriété 3.7.1. Si X et Y sont deux variables aléatoires indépendantes alors :
GX+Y = GX × GY
Démonstration 3.7.1. On a pour tout u ∈ R :
GX+Y (u) = E(uX+Y )

= E(uX × uY )
= E(uX ) × E(uY ) (par indépendance de X et Y )
= GX (u) × GY (u)
3.7.3 Caractérisation de loi
Proposition 3.7.1. Si deux variables aléatoires X et Y ont la même fonction génératrice, alors
X et Y suivent la même loi.
Démonstration 3.7.2. Prenons deux variables X et Y à valeurs dans un ensemble E et ayant la

même fonction génératrice, c’est à dire :
∀u ∈ [0; 1], GX (u) = GY (u)
En développant cette égalité on obtient pour tout u :

X X
uk . P(X = k) = uk . P(Y = k)
k∈E k∈E
⇐⇒∀k ∈ E, P(X = k) = P(Y = k)
Donc X et Y ont la même loi.
74
Remarque 3.7.1. Ainsi, lorsque la loi d’une variable aléatoire est compliquée à déterminer, on
peut calculer la fonction génératrice de cette variable et la comparer avec une fonction généra-
trice connue. Afin de pouvoir effectuer cette comparaison voici les fonctions génératrices des lois
usuelles :
Loi de Bernoulli Si X suit une loi de Bernoulli de paramètre p, alors sa fonction de répartition
est égale à :
GX (u) = (1 − p) + p.u
Démonstration :
1
X
GX (u) = uk . P(X = k)
k=0
= u0 .P(X = 0) + u1 .P(X = 1)
= (1 − p) + u.p
Loi binomiale Si X suit une loi binomiale de paramètres n et p, alors sa fonction de répartition
est égale à :
GX (u) = ((1 − p) + p.u)n
Démonstration :
n
X
k n k
GX (u) = u . .p .(1 − p)n−k
k=0
k
n
X n
= .(u.p)k .(1 − p)n−k (on reconnait la formule du binôme)
k=0
k
= ((1 − p) + p.u)n
Loi géométrique Si X suit une loi géométrique de paramètre p, alors sa fonction de répartition
est égale à :
p.u
GX (u) =
1 − (1 − p).u
75
Démonstration :
+∞
X
GX (u) = uk .p.(1 − p)k−1
k=1
+∞
X
= (u.p).uk−1 .(1 − p)k−1
k=1
+∞
X
= u.p. (u.(1 − p))k−1
k=1
+∞
X
= u.p. (u.(1 − p))k
k=0
Or on sait que pour tout x ∈ [0; 1] on a :
+∞
1 X
= xk
1 − x k=0
Comme p est inclus dans [0; 1], (1 − p) est aussi inclus dans [0; 1]. De plus comme u est aussi
compris dans [0, 1], u.(1 − p) est compris dans [0; 1].
Par conséquent :
+∞
X 1
u.p. (u.(1 − p))k = u.p ×
k=0
1 − u.(1 − p)
Et donc :
p.u
GX (u) =
1 − (1 − p).u
Loi de Poisson Si X suit une loi de Poisson de paramètre λ, alors sa fonction de répartition est
égale à :
GX (u) = e−λ(1−u)
76
Démonstration :
+∞
X λk
GX (u) = uk . e−λ ×
k=0
k!
+∞
−λ
X (λ.u)k
=e ×
k=0
k!
= e−λ × eλ.u
= e−λ+λ.u
= e−λ(1−u)
Exemple 3.7.1 (Caractérisation de loi). Soient X et Y deux variables aléatoires indépendantes

suivant respectivement la loi de Poisson de paramètre λ et la loi de Poisson de paramètre µ.
−→ Quelle est la loi de la variable X + Y ?
Pour déterminer cette loi, nous allons déterminer la fonction génératrice de la variable X + Y
et la comparer aux fonctions génératrices des lois usuelles.
GX+Y (u) = GX (u) × GY (u) (par indépendance de X et Y )

= e−λ(1−u) × e−µ(1−u)
= e−λ(1−u)−µ(1−u)
= e−(λ+µ).(1−u)
On reconnait en e−(λ+µ).(1−u) la fonction génératrice d’une loi de Poisson de paramètre λ + µ.

Par conséquent la loi de la variable X + Y est la loi de Poisson de paramètre λ + µ.
77
3.7.4 Calcul d’espérance et de variance
Propriété 3.7.2. Soit X une variable aléatoire admettant une espérance.
0
E(X) = GX (1)
Démonstration 3.7.3. Supposons que X a ses valeurs dans un ensemble E.

On sait que :
X
GX (u) = uk .P(X = k)
k∈E
En dérivant selon u des deux côtés on obtient :
0
X
GX (u) = k.uk−1 .P(X = k)
k∈E
Et en posant u = 1 on obtient :
0
X
GX (1) = k.1k−1 .P(X = k)
k∈E
X
= k.P(X = k)
k∈E
= E(X)
Propriété 3.7.3. Soit X une variable aléatoire admettant une variance.
00 0
0 2
V(X) = GX (1) + GX (1) − GX (1)
Démonstration 3.7.4. Supposons que X a ses valeurs dans un ensemble E.

On sait que :
X
GX (u) = uk .P(X = k)
k∈E
En dérivant selon u des deux côtés on obtient :
0
X
GX (u) = k.uk−1 .P(X = k)
k∈E
78
Et en redérivant à nouveau on obtient :
00
X
GX (u) = k.(k − 1).uk−2 .P(X = k)
k∈E
Et en posant u = 1 on obtient :
00
X
GX (1) = k.(k − 1).1k−2 .P(X = k)
k∈E
X
k 2 .P(X = k) − k.P(X = k)

=
k∈E
X X
= k 2 .P(X = k) − k.P(X = k)
k∈E k∈E
= E(X 2 ) − E(X)
0
Or on sait que GX (1) = E(X) et que V(X) = E(X 2 ) − E(X)2 , on a donc :
00 0
0 2
GX (1) + GX (1) − GX (1) = E(X 2 ) − E(X) + E(X) − E(X)2
= E(X 2 ) − E(X)2
= V(X)
Exemple 3.7.2. Soit p ∈ [0, 1] et soit X une variable aléatoire dont la loi est :
∀k ∈ N, P(X = k) = p.(1 − p).(pk + (1 − p)k )
Le calcul de l’espérance et de la variance de X est particulièrement difficile si on l’effectue en

suivant la méthode classique, par conséquent on va procéder en utilisant la fonction génératrice :
−→ Détermination de la fonction génératrice de X
79
La fonction génératrice de X est égale à :
GX (u) = E(uX )
X
= uk . P(X = k)
k∈N
+∞
X
= uk . p.(1 − p).(pk + (1 − p)k )
k=0
+∞
X
= p.(1 − p). uk . (pk + (1 − p)k )
k=0
+∞ h
X i
= p.(1 − p). (up)k + (u(1 − p))k
k=0
" +∞ +∞
#
X X k
= p.(1 − p). (up)k + (u(1 − p))
k=0 k=0
Or on sait que pour tout x ∈ [0; 1] on a :
+∞
1 X
= xk
1 − x k=0
Comme p et u sont inclus dans [0; 1], p.u l’ est aussi.

Par conséquent :
+∞
X 1
(up)k =
k=0
1 − u.p
De même comme u.(1 − p) est inclus dans [0; 1] on a :
+∞
X 1
(u(1 − p))k =
k=0
1 − u.(1 − p)
Donc :
1 1
GX (u) = p.(1 − p). +
1 − u.p 1 − u.(1 − p)
−→ Détermination de l’espérance de X
80
0
On sait que E(X) = GX (1), par conséquent dérivons GX (u) :

0 p 1−p
GX (u) = p.(1 − p). +
(1 − u.p)2
(1 − u.(1 − p))2
Et donc :

0 p 1−p
GX (1) = p.(1 − p). +
(1 − 1.p) 2
(1 − 1.(1 − p))2

p 1−p
= p.(1 − p). +
(1 − p)2
(1 − (1 − p))2

p 1−p
= p.(1 − p). 2
+
(1 − p) (p)2
p2 (1 − p)2
= +
(1 − p) p
Donc l’espérance de X est égale à :
0 p2 (1 − p)2
E(X) = GX (1) = +
(1 − p) p
−→ Détermination de la variance de X
00 0
0 2
0
On sait que V(X) = GX (1) + GX (1) − GX (1) , par conséquent dérivons GX (u) une deuxième
fois :
0
00 p 1−p
GX (u) = p.(1 − p). +
(1 − u.p)2
(1 − u.(1 − p))2
2.p2 .(1 − p) 2.(1 − p)2 .(1 − u.(1 − p))

= p.(1 − p). +
(1 − u.p)4 (1 − u.(1 − p))4
81
Et donc :
2.p2 .(1 − p) 2.(1 − p)2 .(1 − 1.(1 − p))

00
GX (1) = p.(1 − p). +
(1 − 1.p)4 (1 − 1.(1 − p))4
2.p2 .(1 − p) 2.(1 − p)2 .(1 − (1 − p))

= p.(1 − p). +
(1 − p)4 (1 − (1 − p))4
2.p2 2.(1 − p)2 .p

= p.(1 − p). +
(1 − p)3 p4
2.p3 2.(1 − p)3

= +
(1 − p)2 p2
Et on obtient finalement :
00 0
0 2
V(X) = GX (1) + GX (1) − GX (1)
2
2.p3 2.(1 − p)3 p2 (1 − p)2 p2 (1 − p)2

= + + + − +
(1 − p)2 p2 (1 − p) p (1 − p) p
2.p3 2.(1 − p)3 p2 (1 − p)2 p4 (1 − p)4

= + + + − + 2.p.(1 − p) +
(1 − p)2 p2 (1 − p) p (1 − p)2 p2
2.p3 − p4 2.(1 − p)3 − (1 − p)4 p2 (1 − p)2

= + + + − 2.p.(1 − p)
(1 − p)2 p2 (1 − p) p
2.p5 − p6 + 2.(1 − p)5 − (1 − p)6 + (1 − p).p4 + (1 − p)4 .p − 2.p3 .(1 − p)3

=
(1 − p)2 .p2
2.p5 + 2.(1 − p)5 + (1 − p).p4 + (1 − p)4 .p − [p6 + 2.p3 .(1 − p)3 + (1 − p)6 ]
=
(1 − p)2 .p2
2
2.p5 + 2.(1 − p)5 + (1 − p).p4 + (1 − p)4 .p − [p3 + (1 − p)3 ]
=
(1 − p)2 .p2
82
Donc la variance de X est égale à :
2
2.(p5 + (1 − p)5 ) + (1 − p). (p4 + (1 − p)3 .p) − [p3 + (1 − p)3 ]
V(X) =
(1 − p)2 .p2
83
3.8 Synthèse
−→ Définition
• Une variable aléatoire réelle discrète est une fonction X, allant d’un univers Ω dans un
ensemble E discret.
X : Ω −→ E
ω −→ y
• L’ensemble des P(X = x)x∈E s’appelle la loi de X.
−→ Propriétés
X
• Loi marginale : P(X = k) = P(X = k ; Y = i)
i∈EY
P(X = x ∩ Y = y)
• Loi conditionnelle : P(X = x|Y = y) =
P(Y = y)
−→ Fonction de répartition
• Fonction de répartition : Soit X une variable aléatoire réelle.

On appelle fonction de répartition de X la fonction, FX , qui à tout réel k associe :
FX (k) = P(X ≤ k)
• Propriétés de la fonction de répartition : FX est une fonction de répartition d’une

variable aléatoire X si et seulement si :
1. FX est croissante sur R
2. FX est continue à droite en tout point de R
3. lim FX (k) = 0
k→−∞
4. lim FX (k) = 1
k→+∞
−→ Espérance, variance et écart type
X X
• Espérance : Si la somme |k|. P(X = k) est finie alors, E(X) = k. P(X = k)
k∈E k∈E
84
• Propriétés de l’espérance
1. Pour tout réel λ : E(λ) = λ

2. Linéarité : E(X + λ.Y ) = E(X) + λ.E(Y )
3. Positivité : Si X ≥ 0 alors :
(a) E(X) ≥ 0
(b) et si de plus E(X) = 0 alors P(X = 0) = 1 (c’est à dire X est la fonction nulle).
4. Croissance : Si X ≥ Y , alors : E(X) ≥ E(Y )
• Soit X une variable aléatoire à valeurs dans un ensemble E et f : E → R une fonction.

X
Si la somme |f (k)| . P(X = k) est finie alors :
k∈E
X
E (f (X)) = f (k) . P(X = k)
k∈E
X
k 2 . P(X = k) est finie alors, V(X) = E (X − E(X))2 = E(X 2 ) − E(X)2

• Variance : Si
k∈E
• Propriétés de la variance
1. V(X) = E(X 2 ) − E(X)2

2. La variance est toujours positive.
3. Soient a et b deux réels, V(aX + b) = a2 .V(X)
4. Si V(X) = 0 alors X est égale à une constante.
p
• Écart type : σ(X) = V(X)
−→ Indépendance
• Indépendance de n variables aléatoires Les variables aléatoires X1 , X2 , ..., Xn sont dites

indépendantes si et seulement si ∀x1 ∈ E1 , ..., ∀xn ∈ En
P(X1 = x1 , X2 = x2 , ..., Xn = xn ) = P(X1 = x1 ) × P(X2 = x2 ) × ... × P(Xn = xn )
• Si X et Y sont indépendantes alors : E(XY ) = E(X) × E(Y ) et V(X + Y ) = V(X) + V(Y )
85
−→ Lois
• Loi de Bernoulli Soit p ∈ [0; 1]. P(X = 1) = p et P(X = 0) = 1 − p

n
• Loi binomiale Soient p ∈ [0; 1] et n ∈ N. ∀k ∈ {0, ..., n} : P(X = k) = . pk . (1 − p)n−k
k
• Loi géométrique Soit p ∈ [0; 1]. ∀k ∈ N∗ : P(X = k) = p.(1 − p)k−1
λk
• Loi de Poisson Soit λ ∈ R+∗ . ∀k ∈ N : P(X = k) = × e−λ
k!
Loi Notation Espérance : E(X) Variance : V(X) Fonction génératrice : GX (u)

de Bernoulli X ∼ B(p) p p.(1-p) 1 − p + p.u
binomiale X ∼ B(n, p) n.p n.p.(1 − p) (1 − p + p.u)n
1 1−p p.u
géométrique X ∼ G(p)
p p2 1 − (1 − p).u
de Poisson X ∼ P(λ) λ λ e−λ.(1−u)
−→ Fonction génératrice
• Fonction génératrice : On appelle fonction génératrice de X la fonction GX définie par :
GX : [−1; 1] −→ R
X
u −→ E(uX ) = uk . P(X = k)
k∈E
• Si X et Y sont deux variables aléatoires indépendantes alors : GX+Y = GX × GY
• Si deux variables aléatoires X et Y ont la même fonction génératrice, alors X et Y suivent

la même loi.
0
• Si X est une variable aléatoire admettant une espérance alors E(X) = GX (1)
00 0
2 0
• Si X est une variable aléatoire admettant une variance alors V(X) = GX (1) + GX (1) − GX (1)
86
Chapitre 4
Variables aléatoires réelles à densité
Nous allons voir à présent un autre type de variable aléatoire plus général que les variables aléa-
toires discrètes. En effet si l’espace d’arrivée n’est pas dénombrable on ne pourra pas utiliser une
somme. Ce chapitre présente une autre façon de représenter un loi de probabilité grâce aux inté-
grales. La structure de ce chapitre et ces énoncés seront analogues grâce aux propriétés communes
de l’intégrale et de la somme.
Ce chapitre nécessite certaines notions de calcul intégral. Ces notions sont présentent dans
l’annexe C.
4.1 Tribu borélienne

En toute rigueur pour aborder ce chapitre il faudrait introduire plusieurs notions de théorie de
la mesure, introduisons simplement les tribus boréliennes.
On appelle tribu engendrée par une famille de partie C, l’intersection de toutes les tribus con-
tenant C.
On appelle tribu borélienne (ou tribu de Borel ) la tribu engendrée par les ouverts de Rn . On
la note B(Rn ) ou Bor(Rn ). Il est important de noter (par stabilité par passage au complémentaire
d’une tribu) qu’elle est aussi la tribu engendrée par les fermés de Rn . Ces éléments sont les borélien
Une tribu borélienne est engendré par un des types suivants :

– Boules (quelconques)
– [a1 , b1 ] × ... × [an , bn ]
– ]a1 , b1 [×...×]an , bn [
– [a1 , b1 [×... × [an , bn [
– [a1 , +∞[×... × [an , +∞[
– ]a1 , +∞[×...×]an , +∞[
87
Dans ce chapitre on se limitera à l’étude des variables aléatoires à valeurs dans R (sans le
préciser dans la suite). On se placera dans des espaces munis d’une tribu borélienne. Il existe une
généralisation, qu’on appelle vecteur aléatoire, que vous pourrez voir dans le chapitre 6.
4.2 Généralités sur les densités de probabilités
Définition 4.2.1 (densité de probabilité). On appelle densité de probabilité une application

positive et intégrable p : R −→ R+ , vérifiant :
Z
p(x)dx = 1
R
Exemple 4.2.1. La fonction p : x −→ 14 .e−|x|/2 est une densité de probabilité.

En effet :
∀x ∈ R, p(x) ≥ 0
et
Z Z +∞
1
p(x)dx = × e−|x|/2 dx
R 4 −∞
Z 0 Z +∞
1 x/2 −x/2
= × e dx + e dx
4 −∞ 0
1 x/2 0
−x/2 +∞
= × 2.e −∞
+ −2.e 0
4
1
= × (2 − 0 + 0 − (−2))
4
=1
Donc p vérifie bien les deux critères d’une densité.
Définition 4.2.2 (Variable aléatoire à densité). Soit (Ω, A, P) un espace probabilisé.

X : Ω −→ R est une variable aléatoire de densité p si pour tout α, β ∈ R on a :
Z β
P(α ≤ X ≤ β) = p(x)dx
α
88
Exemple 4.2.2. Prenons comme exemple une variable aléatoire X de densité p : x −→ 41 .e−|x|/2 .
−→ Quelle est la probabilité que X soit inférieur à 5 ?

Z 5
P(X ≤ 5) = p(x)dx
−∞
Z 5
1 −|x|/2
= .e dx
−∞ 4
Z 0 Z 5
1 x/2 −x/2
= e dx + e dx
4 −∞ 0
1 x/2 0
−x/2 5
= × 2.e −∞
+ −2.e 0
4
1
× 2 − 0 + (−2.e−5/2 ) − (−2)

=
4
1
= 1 − .e−5/2
2
Donc la probabilité que X prenne une valeur inférieure à 5 est de 1 − 12 .e−5/2 .
−→ Quelle est la probabilité que X soit entre −2 et 4 ?

Z 4
P(−2 ≤ X ≤ 4) = p(x)dx
−2
Z 4
1 −|x|/2
= .e dx
−2 4
Z 0 Z 4
1 x/2 −x/2
= e dx + e dx
4 −2 0
1 x/2 0
−x/2 4
= × 2.e −2
+ −2.e 0
4
1 1
× 2 − 2.e−1 + (−2.e−2 ) − (−2) = 1 − (e−1 + e−2 )

=
4 2
89
1
Donc la probabilité que X prenne une valeur comprise entre −2 et 4 est de 1 − (e−1 + e−2 ).
2
−→ Quelle est la probabilité que X soit supérieur à 8 ?

Z +∞
P(8 ≤ X) = p(x)dx
8
Z ∞
1
= e−x/2 dx
4 8
1 +∞
= × −2.e−x/2 8
4
1
= × (0 − (−2.e−4 ))
4
e−4
= .
2
1
Donc la probabilité que X prenne une valeur supérieure à 8 est de :
2.e4
Remarque 4.2.1.
– On note R = R ∪ {−∞, +∞}

– Cette définition n’a de sens que si {a ≤ X ≤ B} est un élément de la tribu A de l’espace
probabilisé. Ce sera toujours le cas car nous utiliserons la tribu de borel B(R).
– La positivité d’une probabilité et le fait que P(X ∈ R) = P(−∞ < X < +∞) = 1 justifie la
définition de la densité.
– Si a = −∞ on obtient la fonction de répartition. Nous y reviendrons plus loin.
A présent, nous prendrons toujours des variables aléatoires dans un espace probabilisé (Ω, A, P),
sans y refaire référence.
Proposition 4.2.1 (probabilité d’un singleton). Soit a ∈ R et soit X une variable aléatoire de
densité p. Alors :
P(X = a) = P(X ∈ {a}) = 0
Démonstration 4.2.1. Il suffit de remarquer que :
90
Z a
déf
P(X = a) = P(a ≤ X ≤ a) = p(x)dx = 0
a
On en déduit le résultat suivant :
Corollaire 4.2.1. Soit X une variable aléatoire de densité p, pour tout a, b ∈ R, on a :
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b)
Démonstration 4.2.2. Il suffit de remarquer que {a ≤ X ≤ b} = {a ≤ X < b} ∪ {X = b}.

Le membre de droite étant une réunion disjointe on obtient alors le résultat par σ-additivité. Les
autres égalités du corollaire se déduisent de la même façon.
4.3 Lois usuelles

Voici les lois les plus souvent rencontrées. Nous rajouterons au fur et à mesure de l’avancement
du chapitre leur espérance, fonction caractéristique, etc...
On rappelle qu’on se place dans un espace probabilisé muni de la tribu borélienne de R.
Notation 4.3.1. Une variable aléatoire X suivant une loi S se note X ∼ S
4.3.1 Loi uniforme

Soit [a, b] ∈ R, la loi uniforme sur [a, b], notée U([a, b]), et définie par la densité :
1
∀x ∈ R, p : x 7→ 1[a,b] (x)
b−a
On note X ∼ U[a,b] si X suit cette loi.
Remarque 4.3.1. – Tout d’abord, par notation, si X suit la loi uniforme on note : X ∼ U[a,b]
– On peut remarquer que la densité d’une variable aléatoire suivant la loi uniforme ne dépend
que de l’intervalle donné. Ainsi si cette loi donne la même probabilité à deux sous intervalles
distincts de [a, b]
– Nous rappelons à toute fin utile (notamment pour la définition d’une probabilité) que :
Z Z b
1[a,b] (x)dx = 1dx = b − a
R a
91
4.3.2 Loi exponentielle
Soit λ ∈ R∗+ , la loi exponentielle de paramètre p, notée E(λ), et définie par la densité :
∀x ∈ R∗+ , p : x 7→ λ exp(−λx)
On note X ∼ E(λ) si X suit cette loi.
Remarque 4.3.2. On pourra rencontrer la définition équivalente de la densité d’une loi exponen-
tielle de paramètre λ :
∀x ∈ R, p : x 7→ λ exp(−λx)1R+ (x)
La probabilité sur un intervalle de R− est donc nulle.
4.3.3 Loi de Cauchy

Soit a ∈ R, la loi de Cauchy de paramètre a, notée C(a), et définie par la densité :
a
∀x ∈ R, p : x 7→
π(a2 + x2 )
On note X ∼ C(a) si X suit cette loi.
4.3.4 Loi normale (Laplace-Gauss)

Soit µ ∈ R, σ 2 > 0, la loi normale de paramètre µ et σ 2 , notée N (µ, σ 2 ), et définie par la
densité :
−(x − µ)2

1
∀x ∈ R, p : x 7→ √ exp
σ 2π 2σ 2
On note X ∼ N (µ, σ 2 ) si X suit cette loi.
Vocabulaire 4.3.1. On appelle aussi la loi normale : loi de Laplace-Gauss.
Vocabulaire 4.3.2. Une variable aléatoire suivant la loi normale est dite variable gaussienne.
Voici le cas particulier le plus utilisé de la loi normale :
Définition 4.3.1 (Loi normale centrée réduite). La loi normale centrée réduite est une loi normale
de paramètre 0 et 1. On la note : N (0, 1) et sa densité est donc définie par :
−x2

1
∀x ∈ R, p : x 7→ √ exp
2π 2
On l’appelle également loi gaussienne.
92
4.3.5 Loi du khi-carré
Nous verrons les applications de cette loi dans la partie statistique.
Soit n ∈ N, la loi du khi-carré à n degrés de liberté, noté Xn2 , est définie par la densité :
1 n x
∀x ∈ R∗+ , p : x 7→ n x 2 exp(− )
2 Γ( n2 )
2 2
On note X ∼ Xn2 si X suit cette loi.
4.4 Fonction de répartition

Définition 4.4.1 (Fonction de répartition). Soit X une variable aléatoire à densité, alors on
définit sa fonction de répartition par :
∀a ∈ R, FX (a) = P(X ≤ a)
Proposition 4.4.1. Soit X une variable aléatoire réelle, et soit FX sa fonction de répartition alors
a:
∀a, b ∈ R, a < b, FX (b) − FX (a) = P(a < X ≤ b)
Par définition, FX (a) = P(X ≤ a) et FX (b) = P(X ≤ b), or a < b donc {X ≤ a} ⊆ {X ≤ b}.
Mais alors on peut utiliser le principe de la démonstration 4) de la proposition 1.3.2.
Finalement,
P(X ≤ a) − P(X ≤ b) = P({X ≤ b}\{X ≤ a}) = P({X > a} ∩ {X ≤ b}) = P(a < X ≤ b)
Remarque 4.4.1. Les propriétés, vues au chapitre 3, de la fonction de répartition sont conservées.
Proposition 4.4.2 (Caractérisation de la loi). La fonction de répartition d’une variable aléatoire

à densité détermine sa loi. Autrement dit :
Si X et Y sont deux variables aléatoires à densité, alors X et Y suivent la même loi si elles
ont la même fonction de répartition. C’est à dire si :
∀x ∈ R, P(X ≤ x) = P(Y ≤ x)
93
Démonstration 4.4.2. La démonstration est admise.
Proposition 4.4.3 (Lien entre densité et fonction de répartition). Soit X une variable aléatoire
de densité p, alors FX est continue et dérivable, de dérivée p.
Remarque 4.4.2. Cette proposition est utile vue sous un autre angle : si on connait la fonction
de répartition de X on peut trouver la densité de X !
Démonstration 4.4.3. Cela provient des propriétés habituelles de l’intégrale ainsi que de la déf-
inition de la fonction de répartition.
Résumons ici les fonctions de répartitions usuelles utiles pour la caractérisation :
Loi Fonction de répartition

→ 0 si x < a
Loi uniforme U[a,b] → x−a
b−a
si a ≤ x ≤ b
→ 1 si x > b
Loi exponentielle E(λ) 1 − e−λx
1
Loi de Cauchy C(a) π
arctan( xa ) + 1
2
Loi normale N (µ, σ 2 ) Voir tableau en annexe
Loi centrée réduite N (0, 1) Voir tableau en annexe
4.5 Espérance et variance

4.5.1 Espérance
Définition 4.5.1 (Espérance). Soit X une variable aléatoire de densité p. Si la fonction

x 7→ |x|.p(x) est intégrable alors X admet une espérance, notée E(X) et définie par :
Z
E(X) = xp(x)dx
R
Nous admettons le résultat suivant, plus difficile à démontrer que dans le cas discret :
Théorème 4.5.1 (de transfert). Soit X une variable aléatoire de densité p et soit une application
f : R −→ R. Si x 7→| f (x) | p(x) est intégrable, alors f (X) possède une espérance définie par :
Z
E(f (X)) = f (x)p(x)dx
R
94
Proposition 4.5.1. Soit X et Y deux variables aléatoires admettant une espérance, et soit λ ∈ R,
alors :
– E(X + λY ) = E(X) + λE(Y )
– E(λ) = λ
– Si Y est intégrable et X dominée par Y, au sens où P(| X |≤ Y ) = 1, alors X est intégrable.
– Si P(X ≤ Y ) = 1, alors E(X) ≤ E(Y )
Remarque 4.5.1. On remarque que ces propriétés de l’espérance sont les mêmes que pour le cas
discret. Les démonstrations sont en effet analogues car les propriétés de l’intégrale (pour cette
démonstration) sont les mêmes que pour la somme (linéarité, croissance). Néanmoins le fait que
l’espérance ne dépend que de la densité induit une subtilité lors de la manipulation de combinaison
linéaire de variables aléatoires à densité. Cette subtilité étant levée par ce qu’on appelle le produit
de convolution, nous admettrons ce résultat.
Nous verrons néanmoins, plus tard ,qu’il existe un autre moyen (comme pour la fonction généra-
trice) de trouver la loi d’une combinaison linéaire de variables aléatoires à densité.
Remarque 4.5.2. Les calculs d’espérance font appel aux différentes méthodes du calcul intégral
(intégration par partie, changement de variable, critères de convergence, ...).
L’annexe C contient quelques uns de ses principes ainsi que quelques intégrales célèbres.
Espérance des lois usuelles
Propriété 4.5.1 (Espérance de la loi uniforme). Si X ∼ U(a, b) avec a < b alors :
a+b
E(X) =
2
1
Démonstration 4.5.1. La densité de X est p : x −→ .1[a,b] (x)
b−a
On remarque que l’intégrale :
Z Z Z b
1 1
|x|.p(x)dx = |x|. .1[a,b] (x)|dx = . |x|dx
R R b−a b−a a
est finie en tant que fonction continue intégrée sur un segment.
95
Donc X admet une espérance de valeur :
Z
E(X) = x.p(x) dx
R
Z b
1
= . x dx
b−a a
2 b
1 x
= .
b−a 2 a
b 2 − a2

1
= .
b−a 2
b+a
=
2
b+a
Donc l’espérance d’une variable X suivant la loi uniforme sur [a, b] est E(X) = .
2
Propriété 4.5.2 (Espérance de la loi exponentielle). Si X ∼ E(λ) alors :
1
E(X) =
λ
Démonstration 4.5.2. La densité de X est p : x −→ λ.e−λ.x

Vérifions que X est intégrable :
Z Z
|x|.p(x)dx = |x|.λ exp(−λx)1R+ dx
R R
Z
=λ |x|. exp(−λx)dx
R+
Z
=λ x. exp(−λx)dx ( car |x| = x sur R+ )
R+
+∞ Z !
exp(−λx) 1
=λ − x + exp(−λx)dx (Par intégration par parties)
λ 0 λ R+
Z
= exp(−λx)dx
R+
Z
= exp(−λx)dx
R+
1
=
λ
96
Z
1
Donc l’intégrale |x|.p(x)dx vaut et est donc finie.
R λ
Par conséquent X admet une espérance de valeur :

Z
E(X) = x.p(x)dx
ZR
= x.λ exp(−λx)1R+ dx
RZ
=λ x. exp(−λx)dx (On reconnait l’intégrale calculée précedemment)

R+
1
=
λ
1
Donc l’espérance d’une variable X suivant la loi exponentielle de paramètre λ est E(X) = .
λ
Propriété 4.5.3 (Espérance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pas
d’espérance.
a 1
Démonstration 4.5.3. La densité de X est p : x −→
π a + x2
2
On a :
Z Z
a
|x|.p(x)dx = |x|. dx
R R π(a2 + x2 )
+∞
|x|
Z
a
= dx
π −∞ a2 + x2
Or au voisinage de −∞ et de +∞ on a :
|x| 1
∼
a2 +x 2 x
et d’après les critères de Riemann on a :

Z +∞
1
dx = +∞
−∞ x
Donc : Z
|x|.p(x)dx = +∞
R
Donc X n’est pas intégrable et n’admet pas d’espérance.
97
Propriété 4.5.4 (Espérance de la loi normale). Si X ∼ N (µ, σ 2 ) alors :
E(X) = µ
(x − m)2

1
Démonstration 4.5.4. La densité de X est p : x −→ √ . exp −
σ 2π 2σ 2
L’intégrale : Z
|x|.p(x)dx
R
est une intégrale finie, car c’est une intégrale de Riemann convergente.
Par conséquent X admet une espérance de valeur :
(x − µ)2
Z
1
E(X) = √ x. exp − dx
σ 2π R 2σ 2
u2
Z
1
= √ (u + µ). exp − 2 du (Par le changement de variable φ : x 7→ x + µ)
σ 2π R 2σ
2
u2
Z Z
1 u
= √ u exp − 2 du + µ exp − 2 du
σ 2π R 2σ 2σ
Z 2
R
1 u
= √ 0 + µ exp − 2 du
σ 2π R 2σ
1 √
= √ 0 + µ. 2πσ 2 (Car c’est l’intégrale de Gauss)
σ 2π
=µ
Donc l’espérance d’une variable X suivant la loi normale de paramètres µ et σ 2 est égale à µ.
Propriété 4.5.5 (Espérance de la loi normale centrée réduite). On déduit directement de la propo-
sition précédente que si X ∼ N (0, 1) alors E(X) = 0.
Résumons ici les espérances des lois usuelles :
Loi Espérance
a+b
Loi uniforme U[a,b] 2
1
Loi exponentielle E(λ) λ
Loi de Cauchy C(a) Non définie
Loi normale N (µ, σ 2 ) µ
Loi centrée réduite N (0, 1) 0
98
4.5.2 Variance
Définition 4.5.2 (Variance). Soit X une variable aléatoire de densité p.

Si l’application x 7→ x2 .p(x) est intégrable, alors X admet une variance, notée, V(X) et définie
par :
V(X) = E((X − E(X))2 )
Remarque 4.5.3. En développant on obtient : V(X) = E(X 2 ) − E(X)2
On démontre de la même manière que dans le cas discret la proposition suivante :
Proposition 4.5.2. Soit X une variable aléatoire admettant une variance, alors pour tout a, b ∈
R:
V(aX + b) = a2 V(X)
Variance des lois usuelles
Propriété 4.5.6 (Variance de la loi uniforme). Si X ∼ U(a, b) avec a < b alors :
(b − a)2
V(X) =
12
Démonstration 4.5.5. L’intégrale :

Z Z b
2 1
x .p(x)dx = x2 dx
R b−a a
est l’intégale d’une fonction continue sur un segment donc elle est finie et par conséquent X est de
carré intégrable ce qui implique qu’elle admet une variance égale à :
2
2 2 2 b+a
V(X) = E(X ) − E (X) = E(X ) −
2
99
Calculons E(X 2 ) :
Z
2
E(X ) = x2 .p(x)dx
R
Z b
1
= x2 dx
b−a a
3 b
1 x
=
b−a 3 a
b 3 − a3
=
3(b − a)
On a donc :
V(X) = E(X 2 ) − E2 (X)
2
b 3 − a3

b+a
= −
3(b − a) 2
(b − a)3
=
12(b − a)
(b − a)2
=
12
(b − a)2
Donc V(X) = .
12
Propriété 4.5.7 (Variance de la loi exponentielle). Si X ∼ E(λ) alors :
1
V(X) =
λ2

Z Z Z
−λ.x
2
x .p(x)dx = 2
x .λe .1R+ (x)dx = λ x2 .e−λ.x dx
R R R+
est finie d’après les critères de Riemann.
100
Donc X est de carré intégrable et donc X admet une variance égale à :
1
V(X) = E(X 2 ) − E2 (X) = E(X 2 ) −
λ2
Déterminons E(X 2 ) :
Z
2
E(X ) = x2 .p(x)dx
RZ
=λ x2 .e−λ.x dx
R+
+∞ Z +∞ !
−λ.x

(−e ) 2
= λ x2 . + x.e−λ.x dx
λ 0 λ 0
Z +∞
=0+2 x.e−λ.x dx
0
2
= 2
λ
On a donc :
V(X) = E(X 2 ) − E2 (X)

2 1
= 2− 2
λ λ
1
= 2
λ
1
Donc V(X) = .
λ2
Propriété 4.5.8 (Variance de la loi de Cauchy). Si X ∼ C(a) alors la variable X n’admet pas de
variance.
Démonstration 4.5.7. X n’admettant pas d’espérance ne peut pas admettre de variance.
Propriété 4.5.9 (Variance de la loi normale). Si X ∼ N (µ, σ 2 ) alors :
V(X) = σ 2
−(x − µ)2
Z Z
2 1 2
x .p(x)dx = √ x . exp dx
R σ 2π R 2σ 2
101
est finie d’après les critères de Riemann.
Donc X est de carré intégrable et donc X admet en revenant à la définition une variance égale à :
V(X) = E((X − E(X))2 ) = E((X − µ)2 )
Or :
−(x − µ)2
Z
1
2 2
E((X − µ) ) = √ (x − µ) . exp dx
σ 2π R 2σ 2
En effectuant une intégration par partie on a :
+∞ +∞
−(x − µ)2
Z Z
−(x−µ)2 −(x−µ)2
2 2
(x − µ) . exp dx = −σ (x − µ).e 2σ 2 + σ 2 .e 2σ 2 dx
R 2σ 2 −∞ −∞
Z +∞ −(x−µ)2
2
=0+σ e 2σ 2 dx
−∞
√
= σ 3 2π
Donc
1 √
E((X − µ)2 ) = √ × σ 3 2π = sigma2
σ 2π
Donc V(X) = σ 2 .
4.6 Indépendance
On retrouve de manière analogue aux variables aléatoires discrètes les mêmes propriétés autour
de l’indépendance.
Définition 4.6.1 (Indépendance). Soit X et Y deux variables aléatoires à densité, on dit que X
et Y sont indépendantes si et seulement si pour tout A et B deux événements de A, on a :
P({X ∈ A} ∩ {Y ∈ B}) = P({X ∈ A}).P({Y ∈ B})
Proposition 4.6.1. Soient X et Y deux variables aléatoires possédant une espérance.

E(XY ) = E(X) × E(Y )
102
Proposition 4.6.2. Soient X et Y deux variables aléatoires possédant une variance.
V(XY ) = V(X) + V(Y )
4.7 Fonction caractéristique
4.7.1 Définition
Définition 4.7.1 (Fonction caractéristique). Soit X une variable aléatoire (non nécessairement à
densité), on appelle fonction caractéristique de X, l’application :
φX : R −→ C
: t 7→ E(exp(itX)) = E(cos(tX)) + iE(sin(tX))
Cette application est dite caractéristique pour la raison suivante :
Théorème 4.7.1. Soit X une variable aléatoire, alors la fonction caractéristique caractérise sa
loi. Autrement dit si Y est une autre variable aléatoire, alors X suit la loi de Y si et seulement si
X et Y ont la même fonction caractéristique.
Remarque 4.7.1. Comme pour la fonction génératrice, ce théorème permet de trouver la loi
d’une variable aléatoire en calculant sa fonction caractéristique et en la comparant à la fonction
caractéristique des lois usuelles.
4.7.2 Fonction caractéristique des lois usuelles
Proposition 4.7.1 (Fonction caractéristique de la loi uniforme). Soit X une variable aléatoire
suivant la uniforme U(a, b). La fonction caractéristique de X est alors égale à :
eitb − eita
∀t ∈ R, φX (t) =
i(b − a)t
103
Démonstration 4.7.1. Soit X ∼ U(a, b). On a ∀t ∈ R :
φX (t) = E(eitX )
Z
1
= × eitx .1[a,b] dx
b−a R
Z b
1
= × eitx dx
b−a a
1
× eitb − eita

=
b−a
eitb − eita
On a donc bien : φX (t) = .
i(b − a)t
Proposition 4.7.2 (Fonction caractéristique de la loi exponentielle). Soit X une variable aléatoire
suivant la exponentielle E(λ). La fonction caractéristique de X est alors égale à :
1
∀t ∈ R, φX (t) = it
1− λ
Démonstration 4.7.2. Soit X ∼ E(λ). On a ∀t ∈ R :

Z
E(exp(itX)) = λ exp(itx) exp(−λx)dx
R∗+
Z
=λ exp(x(it − λ))dx
R∗+
+∞
1
=λ exp(x(it − λ))
it − λ 0
1
=λ
it − λ
1
= − it
λ
−1
1
=
1 − itλ
1
On a donc bien : φX (t) = it .
1− λ
104
Proposition 4.7.3 (Fonction caractéristique de la loi normale centrée réduite). Soit X une vari-
able aléatoire suivant la loi normale centrée réduite N (0, 1). La fonction caractéristique de X est
alors égale à : 2
itX −t
∀t ∈ R, φX (t) = E(e ) = exp
2
Démonstration 4.7.3. Soit X ∼ N (0, 1). On a ∀t ∈ R :
φX (t) = E(eitX )
Z +∞
1 −x2
=√ e 2 × eitx dx
2π −∞
Z +∞ Z +∞
1 −x2 i −x2
=√ e 2 × cos(tx)dx + √ e 2 × sin(tx)dx
2π −∞ 2π −∞
La seconde intégrale est l’intégrale d’une fonction impaire sur l’intervalle symétrique ] − ∞, +∞[
elle est donc nulle.
Par conséquent : Z +∞
1 −x2
φX (t) = √ e 2 × cos(tx)dx
2π −∞
De plus on remarque que ∀x ∈ R on a :
−x2 −x2
|e 2 × cos(tx)| ≤ e 2
−x2
et la fonction x → e 2 est intégrable sur ] − ∞, +∞[.
−x2 −x2
D’autre part, la fonction x → e 2 ×cos(tx) est dérivable sur R et sa dérivée vaut : −xe 2 ×sin(tx).
On remarque enfin que :
−x2 −x2
| − xe 2 × sin(tx)| ≤ |x|e 2
−x2
et que la fonction |x|e 2 est intégrable sur ] − ∞, +∞[.
105
Donc d’après le théorème de dérivation sous le signe intégral on a :
Z +∞
1 −x2
φ0X (t) = √ −xe 2 × sin(tx)dx
2π −∞
+∞
−1
Z
−x2
= √ xe 2 × sin(tx)dx
2π −∞
En effectuant une intégration par partie on obtient alors :

h i+∞ Z +∞
1 −x2 −x2
φ0X (t) = √ sin(tx)e 2 −t cos(tx)e 2 dx
2π −∞ −∞
Z +∞
1 −x2
= √ 0−t cos(tx)e 2 dx
2π −∞
Z +∞
1 −x2
= t× √ cos(tx)e 2 dx
2π −∞
= t × φX (t)
Donc il existe une constante C telle que :
2 /2
φX (t) = C.e−t
Or :
φX (0) = E(e0 ) = E(1) = 1
Donc :
2 /2
C.e−0 = 1 ⇐⇒ C.e0 = 1 ⇐⇒ C = 1
On obtient finalement que :

−t2

φX (t) = exp
2

Proposition 4.7.4 (Fonction caractéristique de la loi normale). Soit X une variable aléatoire
106
suivant la loi normale N (µ, σ 2 ). La fonction caractéristique de X est alors égale à :
σ 2 t2

itX
∀t ∈ R, φX (t) = E(e ) = exp µit −
2
Démonstration 4.7.4. Soit X ∼ N (µ, σ 2 ) avec σ > 0. On a :
X −µ
∼ N (0, 1)
σ
Donc d’après la proposition précédente on a ∀t ∈ R :
−t2

φ X−µ (t) = exp
σ 2
X−µ
= E(eit σ )
= e−itµ/σ × E(eitX/σ )
t
= e−itµ/σ × φX ( )
σ
Par conséquent :
−t2

t
φX ( ) = exp × eitµ/σ
σ 2
−σ 2 t2

⇐⇒ φX (t) = exp × eitµ
2
σ 2 t2

⇐⇒ exp µit −
2

σ 2 t2
On a donc bien : φX (t) = E(eitX ) = exp µit − 2
.
107
4.7.3 Indépendance
Propriété 4.7.1. Soient X1 , ..., Xn des variables aléatoires réelles.

Si les variables aléatoires X1 , ..., Xn sont indépendantes alors :
∀t ∈ R, φX1 +...+Xn (t) = φX1 (t) × ... × φXn (t)
Démonstration 4.7.5. Supposons que X1 , ..., Xn sont indépendantes. On a alors :
φX1 +...+Xn (t) = E(eit(X1 +...+Xn ) )

= E(eit(X1 ) × ... × eit(Xn ) )
= E(eit(X1 ) ) × ... × E(eit(Xn ) ) (Par indépendance)
= φX1 (t) × ... × φXn (t)
108
4.8 Synthèse
−→ Densité de probabilité
Rb
Application p : [a, b] → R continue positive vérifiant : a
p(x)dx = 1.
−→ Variable aléatoire réelle de densité p
Rβ
X une variable aléatoire réelle vérifiant : ∀α, β ∈ R, P(α ≤ X ≤ β) = α
p(x)dx
−→ Espérance Z
x 7→ E(X) = xp(x)dx
R
−→ Fonction de répartition
x 7→ FX (x) = P(X ≤ x)
−→ Fonction caractéristique
t 7→ φX (t) = E(eitX )
−→ Propriétés des lois usuelles
Loi Densité Espérance Fonction Fonction

de répartition caractéristique
R −→ R 0 si x < a
1 a+b x−a eitb − eita
U([a, b]) x 7→ 1 (x)
b−a [a,b]
x 7→ b−a
si a ≤ x ≤ b t 7→
2 it(b − a)
1 si x > b
R∗+ −→ R
1 1
E(p) x 7→ p exp(−px) x 7→ 1 − exp(−px) t 7→ it
p 1− p
R −→ R
a 1 x 1
C(a) x 7→ - x 7→ arctan + t 7→ exp(−a | t |)
π(a + x2 )
2 π a 2
R −→ R
−(x − µ)2

1
σ 2 t2

N (µ, σ 2 ) x 7→ √ exp µ cf Annexe t 7→ exp iµt − 2
σ 2π 2σ 2
R −→ R
2
1 −x 2

N (0, 1) x 7→ √ exp 0 cf Annexe t 7→ exp − t2
2π 2
109
110
Chapitre 5
Convergence de variables aléatoires
Comme on a pu le voir au chapitre précédent les variables aléatoires peuvent être manipulées
comme des variables habituelles. Il est donc naturel de penser à la convergence d’une suite de
variable aléatoire. Posons d’abord cela :
Définition 5.0.1 (suite de variables aléatoires). L’application Xn : Ω −→ R est une suite de

variables aléatoires. Les Xi étant des variables aléatoires définis sur un même espace probabilisable
(Ω, A).
Comme pour les suites numériques, il existe plusieurs types de convergence pour les suites de
variables aléatoires, tous reliés entre eux. Nous allons étudier cette notion dans ce chapitre.
5.1 Généralités
Commençons tout d’abord par énoncé les différents type de convergence.
5.1.1 Types de convergence

Définition 5.1.1 (types de convergence). On dit qu’une suite (Xn )n>0 de variables aléatoires
converge vers la variable aléatoire X :
• Presque Sûrement si : P(Xn −→ X) = P({ω ∈ Ω, Xn (ω) −→ X(ω)}) = 1
n→∞ n→∞
p.s
Et on note : Xn −→ X
n→∞
• en Probabilité si : ∀ > 0, P(| Xn − X |≥ ) −→ 0

n→∞
P
n→∞
1
• dans L si : Xn et X sont intégrables et : E(| Xn − X |) −→ 0
n→∞
L1
n→∞
111
• dans L2 si : Xn et X sont de carrés intégrables et : E((| Xn − X |)2 ) −→ 0
n→∞
L2
n→∞
Remarque 5.1.1. – Il est évident qu’on peut remplacer la formule de convergence en proba-
bilité par :
∀ > 0, P(| Xn − X |< ) −→ 1
n→∞
– La définition de convergence dans Lp est immédiate, il faut que :
E | Xn |p < ∞, E | X |p < ∞ et : E((| Xn − X |)p ) −→ 0
n→∞
Lp
On la note : Xn −→ X
n→∞
– Il est évident que pour que ces définitions aient un sens, il faut que les variables aléatoires
Xn et X soient définies sur le même espace probabilisé.
5.1.2 Théorèmes fondamentaux

Comme lors de l’étude des suites numériques, nous pouvons obtenir les théorèmes qui nous
permettront de démontrer la plupart des propositions à venir.
Théorème 5.1.1 (Convergence dominée (hors programme)). Soit (Xn )n≥1 une suite de variable
aléatoire qui convergence presque sûrement vers X. Si la suite est dominée, c’est-à-dire il existe
une variable aléatoire Y telle que :
L1
∀n ≥ 1, P(|Xn | ≤ Y ) = 1, alors X est intégrable et Xn −→ X
n→∞
Proposition 5.1.1. Si Xn converge vers X dans L1 , alors :
lim E(Xn ) = E(X)

n→∞
Démonstration 5.1.1. Soit n ∈ N on a tout d’abord :
(Xn − X) ≤ |Xn − X|
et :
(X − Xn ) ≤ |Xn − X|
D’où par linéarité et croissance de l’espérance, on obtient :
E(Xn ) − E(X) = E(Xn − X) ≤ E(|Xn − X|)
et
E(X) − E(Xn ) = E(X − Xn ) ≤ E(|Xn − X|)
112
On obtient donc :
|E(X) − E(Xn )| ≤ E(|Xn − X|).
Comme on a la convergence dans L1 , cela conclut la démonstration.
Théorème 5.1.2 (Convergence monotone (hors programme)). Soit (Xn )n≥1 une suite croissante
de variable aléatoires réelles positives telles que :
∀m ≥ n, Xm ≥ Xn alors :
lim E(Xn ) = E(X)

n→∞
Proposition 5.1.2 (Inégalité de Markov). Soit X une variable aléatoire réelle alors :
E(|X|)
∀a > 0, P(|X| ≥ a) ≤
a
Remarque 5.1.2. Il est évident que, comme pour toute majoration, cette inégalité n’a d’intérêt
que si E(|X|) est fini. Néanmoins, même dans le cas contraire, l’inégalité est vraie que E(|X|) ne
pose pas de problème de définition (car on somme ou on intègre une fonction positive).
Démonstration 5.1.2. Nous allons utiliser le résultat trivial suivant :

Soit a > 0, ∀ω ∈ Ω, |X(w)| ≥ a1|X(w)|≥a . On obtient ainsi par croissance de l’espérance :
E(X(w)) ≥ E(a1|X(w|)≥a ) = aP(|X(w)| ≥ a)
Ce qui conclut la démonstration.
Théorème 5.1.3 (Inégalité de Markov généralisée). Soit X une variable aléatoire réelle et p > 0 :
E(|X|p )
∀a > 0, P(|X| ≥ a) ≤
ap
Démonstration 5.1.3. On utilise la même démonstration que pour le cas simple de l’inégalité de
Markov.
Théorème 5.1.4 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de carré

intégrable, et soit a > 0, on a :
V ar(X)
P(|X − E(X)| > a) ≤
a2
113
Démonstration 5.1.4. On utilise tout simplement l’inégalité de Markov d’ordre 2, car X − E(X)
est une variable aléatoire.
Théorème 5.1.5 (Inégalité de Cauchy-Schwarz). Soit X et Y deux variables aléatoires réelles, si

X et Y sont de carré intégrables alors :
p
E(|X.Y |) ≤ E(X 2 )E(Y 2 )
Démonstration 5.1.5. On va se rapporter à un polynôme du second degré (en λ) et utilisé les

propriétés du discriminant. Soit λ ∈ R une variable, alors par linéarité et positivité de l’espérance :
E((X + λY )2 ) = E(X 2 ) + 2λE(XY ) + λ2 E(Y 2 ) ≥ 0
Par croissance et positivité de l’espérance, on en déduit que ce polynôme possède soit une unique
racine soit aucune. Autrement dit sont déterminant est négatif ou nul. Ce qui revient à écrire que :
4.E(XY )2 − 16.E(X 2 )E(Y 2 ) ≤ 0
En passant à la racine des deux cotés (car l’espérance est positive) on conclut la démonstration.
L’inégalité suivante généralise celle de Cauchy-Schwarz.
Théorème 5.1.6 (Inégalité de Hölder). Soit X et Y deux variables aléatoires et soient p, q > 0
1 1
vérifiant + = 1, alors on a :
p q
1 1
E(|X.Y |) ≤ E(|X|p ) p .E(|Y |q ) q
Remarque 5.1.3. Prendre p = q = 2 revient à utiliser l’inégalité de Cauchy-Schwarz !
5.1.3 Relation entre les différentes convergences

Théorème 5.1.7 (Propriétés fondamentales).
– Convergence dans L2 ⇒ Convergence dans L1
– Convergence presque sûre ⇒ Convergence en probabilité
– Convergence dans L1 ⇒ Convergence en probabilité
114
– Convergence dans L2 ⇒ Convergence dans L1
On sait qu’une variable de carré intégrable est également intégrable. Donc si Xn − X est
de carré intégrable, elle est intégrable. Il nous suffit alors d’utiliser l’inégalité de Cauchy
Schwarz, vue plus haut :
p
E(|Xn − X|) ≤ E(|Xn − X|2 )
Par le théorème des gendarmes, on conclut la démonstration.

– Convergence presque sûre ⇒ Convergence en probabilité
Supposons que Xn converge presque sûrement vers X. Il nous faut montrer, d’après la Re-
marque 5.1.1, que :
∀ > 0, P(| Xn − X |< ) −→ 1
n→∞
Soit > 0, posons la variable aléatoire : Zn = 1|Xn −X|> . On a par hypothèse sur la conver-
gence presque sûre :
∀w ∈ Ω, ∃N0 , tel que ∀n ≥ N0 , |Xn (w) − X(w)| ≤ . On obtient donc que pour tout n ≥ N0 ,
Zn = 0. Comme on sait de plus (voir chapitre 4) que E(Zn ) = P(|Xn − X| > ), et que Zn
est dominé par 1 qui est une variable aléatoire constante, donc intégrable. On a alors par le
théorème de convergence dominé et par la Proposition 5.1.1 :
lim P(|Xn − X| > ) = E( lim Zn ) = E(0) = 0

n→∞ n→∞

– Convergence dans L1 ⇒ Convergence en probabilité
On utilise l’inégalité de Markov. Soit > 0, on a :
E(|Xn − X|)
P(|Xn − X| ≥ ) ≤

En appliquant la définition de la convergence dans L1 , on conclut la démonstration.
Remarque 5.1.4. De la même manière, on peut montrer que pour tout p ∈ N, la convergence
dans Lp implique la convergence dans Lp−1 .
On peut à présent remarquer que grâce à la relation que l’on a démontré entre la convergence L2
et L1 ainsi que la Proposition 5.1.1, on peut obtenir un résultat équivalent pour la convergence
dans L2 :
Proposition 5.1.3 (Convergence dans L2 et conséquence). Soit (Xn )n≤1 une suite de variable
L2
aléatoire et X une autre variable aléatoire tel que : Xn −→ X. Alors :
n→∞
115
– lim E(Xn ) = E(X)
n→∞
– lim E(Xn2 ) = E(X 2 )

n→∞
– lim V ar(Xn ) = V ar(X)

n→∞
– Evident, car la convergence dans L2 implique la convergence dans L1 . Il nous suffit d’appliquer
la Proposition 5.1.1.
– C’est la même démonstration que pour la Proposition 5.1.1, en partant du fait que :
(X − Xn )2 ≤ |Xn − X|2
et
(Xn − X)2 ≤ |Xn − X|2
– Il suffit d’utiliser les deux premières assertions, en utilisant le résultat suivant :
V ar(Xn ) = E(Xn2 ) − E(Xn )2
Théorème 5.1.8. Soit (Xn )n≤1 une suite de variable aléatoire qui admet une espérance et une
variance. Si de plus on a :
lim E(Xn ) = l ∈ R
n→∞
et
lim V ar(Xn ) = 0
n→∞
Alors :
P
Xn −→ l
n→∞
Démonstration 5.1.8. Nous allons utiliser l’inégalité de Bienaymé-Tchebychev. Soit > 0, on

a:
116
E(|Xn − l|2 )
P(|Xn − l| > ) ≤
2
E(Xn − 2lXn + l2 )
2
≤
2
1
≤ 2 E(Xn2 ) − 2lE(Xn ) + l2

1
≤ 2 V ar(Xn ) + E(Xn )2 − 2lE(Xn ) + l2

Or par hypothèse, pour un certain rang N0 , on a pour tout n ≥ N0 :
1 2 2
1 2 2 2

V ar(X n ) + E(X n ) − 2lE(X n ) + l = 0 + l − 2l + l =0
2 2
P
Donc par le théorème des gendarmes, on a bien : Xn −→ l.
n→∞
Remarque 5.1.5. Cette démonstration est à connaître et à savoir appliquer. En effet elle est
souvent réutiliser lorsqu’une convergence en probabilité doit être montrée. Bien entendu comme
l’inégalité de Bienaymé-Tchebychev n’est qu’une conséquence de l’inégalité de Markov, on applique
le plus souvent l’inégalité de Markov lors de la résolution d’exercice.
5.1.4 Convergence en loi

Dans cette partie nous allons étudier la convergence en loi. Elle a pour particularité d’être
une des convergences les plus faibles, au sens où toutes les autres convergences l’impliquent. Elle
est néanmoins fondamentale car elle permet de définir le théorème de la limite centrale que nous
verront dans la partie suivante mais surtout nous verrons qu’elle caractérise les lois grâce à son
lien avec la fonction caractéristique.
Définition 5.1.2 (Convergence en loi). Soit (Xn )n≤1 une suite de variable aléatoire, on dit que
Xn converge en loi vers la variable aléatoire X si pour tout x ∈ R, où FX est continue, on ait :
lim P(Xn ≥ x) = P(X ≥ x)

n→∞
L
On la note : Xn −→ X
n→∞
Remarque 5.1.6. Bien entendu la définition suivante est également valable :
117
Xn converge en loi vers la variable aléatoire X si pour tout x, y ∈ R, où FX est continue, on ait :
lim P(Xn ≥ x) = P(X ≥ x)

n→∞
Définition 5.1.3. Xn converge en loi vers la variable aléatoire X si et seulement si pour toute
fonction f : R −→ R continue et bornée, on a :
E(f (Xn ) −→ E(f (X))

n→∞
Donnons à titre indicatif une caractérisation de la convergence en loi par la fonction carac-
téristique :
Théorème 5.1.9 (de Lévy). Xn converge en loi vers la variable aléatoire X si et seulement si :
∀u ∈ Rn , θXn (u) −→ θX (u)

n→∞
Démonstration 5.1.9. La démonstration est hors programme.
Proposition 5.1.4. Convergence en presque sûre ⇒ Convergence en loi.

On va utiliser le lemme suivant :
Lemme 5.1.1. Soit (Xn )n≥1 une suite de variable aléatoire qui converge presque sûrement vers la
variable aléatoire X. Soit f : R −→ R une fonction continue, alors :
p.s
f (Xn ) −→ f (X)
n→∞
Démonstration 5.1.10 (du lemme). Soit ω ∈ Ω, on a :
|f (Xn (w)) − f (X(w))| = |f (Xn (w)) − Xn (w) + Xn (w) − X(w) + X(w) − f (X(w))|
≤ |f (Xn (w)) − Xn (w)| + |Xn (w) − X(w)| + |X(w) − f (X(w))|
118
Soit > 0, par continuité de f , il existe des rangs N0 et N1 tels que pour tout n ≥ max(N0 , N1 ) =
N , on ait :

|f (Xn (w)) − Xn (w)| ≤
3
et

|X(w) − f (X(w))| ≤
3
De plus par convergence presque sûre de Xn vers X, il existe un rang N2 tel que pour tout
n ≥ max(N, N2 ), on ait :

|Xn (w) − X(w)| ≤
3
.
p.s
Donc |f (Xn (w)) − f (X(w))| ≤ . Donc on a bien : f (Xn ) −→ f (X), ce qui conclut la démon-
n→∞
stration.
Démonstration 5.1.11 (de la proposition). On va utiliser la deuxième définition de la conver-

gence en loi. Supposons qu’une suite de variable aléatoire Xn converge presque sûrement vers la
variable aléatoire X.
Soit f une fonction continue et bornée (par un réel qu’on appellera M ). On a d’après le lemme
p.s p.s
si Xn −→ X alors f (Xn ) −→ f (X). Comme f est bornée par la constante M qui est intégrable,
n→∞ n→∞
on peut utiliser le théorème de convergence dominée. Ce qui conclut la démonstration.
Proposition 5.1.5 (Convergence en probabilité et loi).

Convergence en probabilité ⇒ Convergence en loi.
Démonstration 5.1.12. On va utiliser la fonction de répartition. Supposons que Xn converge en

probabilité vers X. Soit x un point ou FXn est continue et soit η > 0, on a :
{Xn ≤ x} ⊂ {X ≤ x + η} ∪ {Xn − X ≤ −η}
. En effet comme Xn = Xn − X + X, si Xn ≤ x alors soit X ≤ x + η, soit Xn − X ≤ −η. On com-

pense par la probabilité et on obtient (car les deux évènements sont bien entendu incompatibles) :
P({Xn ≤ x}) ≤ P({X ≤ x + η}) + P({Xn − X ≤ −η})
119
Et de manière triviale :
P({Xn ≤ x}) ≤ P({X ≤ x + η}) + P({|Xn − X| ≥ η}) (1)
On va à présent utiliser notre hypothèse, le fait que la fonction de répartition FX soit continue.
Soit > 0, il existe η2 > 0 tel que : FX (x) ≤ FX (x + η2 ) ≤ FX (x) + 2 .
Et donc par hypothèse de convergence en probabilité, pour ces et η2 donnés, il existe un rang
N tel que pour tout n ≥ N , P(|Xn − X| ≥ η2 ) ≤ 2 . Ce qui nous permet d’obtenir grâce à (1) :
P(Xn ≤ x) ≤ P(X ≤ x + η2 ) + P(|Xn − X| ≥ η2 )

≤ FX (x + η2 ) + P(|Xn − X| ≥ η2 )

≤ FX (x) + +
2 2
≤ FX (x) +
Comme P(Xn ≤ x) = FXn (x), on a : FXn (x) ≤ FX (x) +
On obtient de la même manière :
P(Xn ≤ x) ≥ P(X ≤ x − η) − P(X − Xn ≤ −η)
Et donc : FXn (x) ≥ FX (x − η) − P(|Xn − X| ≥ η)
En combinant les deux résultats trouvés, on prouve bien la convergence en loi, ce qui conclut la
démonstration.
Remarque 5.1.7. La réciproque est bien entendue fausse, malgré cela nous verrons dans les ex-
ercices qu’il existe un cas ou on a équivalence.
120
5.2 Théorèmes limites
Vocabulaire 5.2.1. Soit (Xn )n≥1 une suite de variable aléatoire, on dit que les Xn sont i.i.d.
(independant and identically distributed), lorsque ces éléments sont tous indépendants entre eux et
suivent la même loi de probabilité.
5.2.1 Loi des grands nombres

Théorème 5.2.1 (Loi faible des grands nombres). Soit (Xn )n≥1 une suite de variable aléatoires
i.i.d., admettant une espérance et une variance. Soit X une autre variable aléatoire de même loi,
alors :
n
1X P
Xi −→ E(X)
n i=1 n→∞
Démonstration 5.2.1. Par définition, on doit donc montrer que :
n
1X
∀ > 0, P(| Xi − E(X)| ≥ ) −→ 0
n i=1 n→∞
Il serait judicieux d’utiliser l’inégalité de Bienaymé Tchebychev pour supprimer directement

E(X). L’hypothèse de l’énoncé qui dit que la suite admet une variance nous permet de l’utiliser.
Soit > 0, on a donc :
n
V ( n1
P
n Xi − E(X))
1 X i=1
P(| Xi − E(X)| ≥ ) ≤
n i=1

n
V ( n1
P
Xi )
i=1
≤

n
P
V ( Xi )
i=1
≤
n2
n
P
V (Xi )
i=1
≤ (par indépendance)
n2
V (X)
≤ (car de même loi)
n
121
Comme V (X) est une constante, le terme de droite tend vers 0 en l’infini. Par le théorème des
gendarmes on conclut la démonstration.
Théorème 5.2.2 (Loi forte des grands nombres). Soit (Xn )n≥1 une suite de variable aléatoires
i.i.d., admettant une espérance et une variance. Soit X une autre variable aléatoire de même loi,
alors :
n
1X p.s
Xi −→ E(X)
n i=1 n→∞
Démonstration 5.2.2. La démonstration est hors programme car elle nécessite des résultats plus
avancés. Pour les étudiants curieux, la démonstration faite par Kolmogorov en 1929 est présente
sur le site Wikipédia.
Bien que vous n’aurez peut être pas l’occasion de le voir par vous même durant cette UE, nous
allons à présent énoncer ce qui est, peut être, le théorème le plus important de ce cours, et de
manière certaine un des théorèmes fondamental des probabilités et des statistiques.
Théorème 5.2.3 (de la limite centrale). Soit (Xn )n≥1 une suite de variable aléatoires i.i.d., notons
µ leur espérance, et σ 2 leur variance.
 n 
1
P
Xi − µ 
√  n
i=1
Posons : X̃n = n  
 σ 
Alors :
L
X̃n −→ X, avec X ∼ N (0, 1)
n→∞
Remarque 5.2.1. Le fait d’utiliser µ et σ signifie, bien entendu, que les Xn sont de carrés inté-
grables (et donc intégrables également).
Démonstration 5.2.3. On va utiliser la caractérisation de la convergence en loi, c’est-à-dire en

utilisant la fonction caractéristique.
Soit u ∈ R,
122
 n 
1
P
Xi − µ 
√  n
i=1
φX̃n = E(exp(iu n  )
 σ 
 n
P

X − nµ 
√  i=1 i
= E(exp(iu n 
 )
nσ 
 n
P

 i=1(Xi − µ) 
= E(exp(iu  √ )
 nσ 
n
Y (Xi − µ)
= E(exp(iu √ ) (par indépendance)
i=1
nσ
n
(X1 − µ)
= E(exp(iu √ ) (car de même loi (identiquement distribuées))
nσ
n
u
= φX1 −µ ( √ )
nσ
Il nous suffit alors d’appliquer le développement limité de la fonction caractéristique (on peut
le faire car X1 est de carré intégrable, donc X1 − µ également). On obtient alors :
u2 1
φXn (u) = 1 − + o( )
2n n
u 2 2
Or, 1 − 2n + o( n1 ) −→ exp(− u2 ). On reconnaît la fonction caractéritique d’une loi normale
n→∞
centrée réduite. Ce qui conclut la démonstration.
123
5.3 Synthèse
−→ Convergences
p.s
• Xn −→ X ⇔ P(Xn −→ X) = P({ω ∈ Ω, Xn (ω) −→ X(ω)}) = 1
n→∞ n→∞ n→∞
P
• Xn −→ X ⇔ ∀ > 0, P(| Xn − X |≥ ) −→ 0
n→∞ n→∞
Lp
• Xn −→ X ⇔ E | Xn |p < ∞, E | X |p < ∞ et : E((| Xn − X |)p ) −→ 0
n→∞ n→∞
L
• Xn −→ X ⇔
n→∞
– ∀x ∈ R, où FX est continue lim P(Xn ≥ x) = P(X ≥ x)

n→∞
– si pour toute fonction f : R −→ R continue et bornée, E(f (Xn ) −→ E(f (X))

n→∞
– ∀u ∈ Rn , θXn (u) −→ θX (u)

n→∞
−→ Relations entre convergences

(
L2 ⇒ L1
⇒ probabilité ⇒ en loi
p.s
−→ Inégalités
X et Y de carré intégrable.
E(|Z|p )
• [Markov] ∀a > 0, ∀p > 0, P(|Z| ≥ a) ≤
ap
V ar(X)
• [Bienaymé-Tchebychev] ∀a > 0, P(|X − E(X)| ≥ a) ≤
a2
p
• [Cauchy Schwarz] E(|X.Y |) ≤ E(X 2 )E(Y 2 )
124
−→ Théorèmes limites
2
Xn esti.i.d, et admet une espérance µ et une variance σ . X suit la même loi que Xn .
n
1
P
Xi − µ 
√  n
i=1
X̃n = n  
 σ 
n
1X P
• [Loi faible des grands nombres] Xi −→ E(X)
n i=1 n→∞
n
1X p.s
• [Loi forte des grands nombres] Xi −→ E(X)
n i=1 n→∞
L
• [Central limite] X̃n −→ X, avec X ∼ N (0, 1)
n→∞
125
126
Deuxième partie
Statistiques
127
Chapitre 6
Introduction aux statistiques
6.1 Population et individu
Définition 6.1.1 (Population statistique). On appelle population statistique l’ensemble sur lequel
l’étude est menée.
Définition 6.1.2 (Individu statistique). On appelle individu statistique tout élément de la popu-
lation statistique.
Exemples 6.1.1.
– On étudie le nombre d’arbres malades d’une forêt. La population statistique est alors la forêt
et chaque arbre est un individu statistique.
– On étudie le nombre de planètes possédant un anneau. La population statistique est alors
l’ensemble des planètes de l’univers et une planète est un individu statistique.
– On étudie les intentions de votes pour une éléction présidentielle. La population statistique
est alors l’ensemble des électeurs du pays et un électeur est un individu statistique.
6.2 Echantillon et caractère

Lorsqu’une population est trop grande, la collecte de données sur l’ensemble des individus peut
être très longue. Afin, de contourner cette difficulté, on ne collecte ces données que sur un sous
ensemble de la population, nommé échantillon, et on on estime alors les données que doit posséder
la population à un pourcentage de sûreté près.
Définition 6.2.1 (Echantillon). On appelle échantillon tout sous ensemble d’une population statis-
tique.
129
Exemple 6.2.1. L’ensemble des plaques d’immatriculation françaises commençant par "AA" est
un échantillon de la population statistique composé de l’ensemble des plaques d’immatriculation
françaises.
Définition 6.2.2 (Caractère). On appelle caractère, un trait présent chez tous les individus d’une
population.
Un trait est quantitatif s’il est mesurable, qualitatif s’il est repérable sans être mesurable.
Vocabulaire 6.2.1. Le caractère est aussi appelé variable statistique.
Exemple 6.2.2. Sur une population de fleurs, la couleur est un caractère qualitatif et le nombre
de pétales un caractère quantitatif.
6.3 Fréquence et Distribution
Définition 6.3.1 (Effectif d’une valeur d’un caractère). On appelle effectif d’une valeur d’un
caractère, le nombre de fois qu’apparaît cette valeur du caractère.
Définition 6.3.2 (Fréquence d’une valeur d’un caractère). On appelle fréquence d’une valeur d’un
caractère, le quotient de l’effectif de cette valeur par l’effectif total des valeurs de ce caractère. Elle
peut exprimée sous forme de pourcentage ou de fraction.
Exemple 6.3.1. On étudie le caractère qualitatif couleur d’une population constituée de 100 indi-
vidus fleurs. On obtient le tableau suivant :
couleur fleurs rouges fleurs vertes fleurs jaunes fleurs noires

nombre 15 27 43 15
L’effectif de la valeur rouge du caractère couleur est 15.

L’effectif de la valeur verte du caractère couleur est 27.
La fréquence de la valeur rouge du caractère couleur est
15
= 15%
100
La fréquence de la valeur verte du caractère couleur est
47
= 47%
100
130
Remarque 6.3.1. Une fois l’étude sur les effectifs de chaque caractère d’un échantillon réalisé,
on peut considérer que ces effectifs se rapprochent, pour chaque caractère, de la loi de distribution
d’une variable aléatoire que nous verrons au chapitre suivant.
131
132
Chapitre 7
Estimation ponctuelle
Le but de ce chapitre d’introduction aux statistiques sera de résoudre le problème suivant :

" Soit X une variable aléatoire suivant une loi L(θ) dépendant d’un paramètre réel inconnu θ,
peut-on identifier ou approcher la valeur de θ ?"
Être capable de donner la valeur de θ est ce qu’on appelle l’estimation ponctuelle, l’approcher
(c’est-à-dire donner un intervalle dans lequel se situe ce paramètre) se nomme estimation par
intervalles. Pour cela on prend un échantillon de n variables aléatoires X1 , ..., Xn i.i.d suivant la
même loi que X, ainsi qu’un ensemble de réalisation de ces variables aléatoires x1 , ..., xn .
Remarque 7.0.2. Le paramètre θ peut-être multi-dimensionnel. En effet pour une loi normale,
le paramètre serait θ = (µ, σ2) tandis que pour une loi binomiale ou une loi de Poisson il serait :
θ = p ou θ = λ.
7.1 Généralités
Définition 7.1.1 (Estimateur). Soit (X1 , ..., Xn ) un échantillon de taille n, un estimateur de θ
est une variable aléatoire : Φn = φ(X1 , ..., Xn ), où
φ :Rn −→ R
(x1 , ..., xn ) 7→ θ̂n = φ(x1 , ..., xn )
On appelle θ̂n estimation de θ
Remarque 7.1.1. Il faut faire attention au fait qu’un estimateur est une fonction de X1 , ..., Xn
et non du paramètre θ !
133
Définition 7.1.2 (Lois de distribution). Soit (X1 , ..., Xn ) un échantillon de taille n de la variable
aléatoire X ∼ L(θ) et (x1 , ..., xn ) une réalisation. On appelle distribution de la loi L(θ) la valeur :
Pθ (X = x).
On définit alors la loi de distribution de l’échantillon :
– Si L(θ) est discrète par :
L(x1 , ..., xn , θ) = P(X1 = x1 , ..., Xn = xn , θ)

= Pθ (X1 = x1 ). · · · .Pθ (Xn = xn )
– Si L(θ) est continue de densité pθ par : L(x1 , ..., xn , θ) = pθ (x1 ). · · · .pθ (xn )
On nomme, dans les deux cas, L(x1 , ..., xn , θ) la fonction de vraisemblance du paramètre θ
Remarque 7.1.2. Il peut y avoir plusieurs estimateurs pour un même échantillon, citons à titre
d’exemple les plus utilisés :
n
– La moyenne empirique : Xn = n1
P
Xi
i=1
– La médiane (valeur tels qu’il y ait le même nombre d’éléments inférieur et supérieur à celle-
ci)
– Un des valeurs de l’échantillon (X5 par exemple)
La question qui se pose alors est : comment trouver l’estimateur le plus efficace ? Il suffit de les
comparer avec plusieurs méthodes dont nous verrons quelques-unes ci-dessous.
Définition 7.1.3 (Biais d’un estimateur). Soit Φn un estimateur d’un échantillon relatif au
paramètre θ, on appelle biais de cet estimateur :
B(Φn , θ) = E(Φn ) − θ
Définition 7.1.4 (Estimateur sans biais). On dit que Φn est un estimateur sans biais si :
∀θ, Eθ (Φn ) = θ
Autrement dit : B(Φn , θ) = 0
Définition 7.1.5 (Estimateur convergent). On dit que Φn est un estimateur convergent (en prob-
abilité) si :
P
Φn −→ θ
n→∞
134
Exemple 7.1.1. On considère issue une expérience dont l’issue est soit un succès soit un échec.
Prenons l’exemple d’un jeu de pile ou face.
Soit, donc, X1 , ..., Xn des variables aléatoires i.i.d, tel que Xi ∼ B(p). Nous rappelons (voir
chapitre 3), que P(Xi = 1) = p, de plus : Ep (Xi ) = p.
Nous allons montrer que la moyenne empirique est un estimateur sans biais convergent de p.
On définit la moyenne de n variable aléatoire par la variable aléatoire :
n
1X
Xn = Xi
n i=1
On voit clairement que c’est un estimateur, montrons qu’il est sans biais. Soit p :
n
1X
Ep (XN ) = Ep ( Xi )
n i=1
n
1X
= Ep (Xi )
n i=1
1
= n. Ep (X1 ) = p
n
Il est donc sans biais, montrons qu’il est consistant. Soit > 0 et soit p, on observe tout d’abord
que : P(| Xn − p |> ) = P(| Xn − Ep (Xn ) |> ).
Utilisons l’inégalité de Bienaymé-Tchébychev :
V arp (Xn )
P(| Xn − Ep (Xn ) |> ) ≤
2
n
1 X
≤ 2 2 V arp (Xi )
n i=1
1
≤ .nV arp (X1 )
n2 2
1
≤ 2
V arp (X1 )
|n {z }
−→ 0
n→∞
C’est donc bien un estimateur convergent sans biais.
Remarque 7.1.3. N’oublions pas que le théorème 5.1.6 nous donne une condition suffisante pour
la convergence d’un estimateur.
135
7.2 Information de Fisher
Cette section va nous permettre de vérifier l’efficacité d’un estimateur.
Définition 7.2.1 (Quantité d’information d’un échantillon). Soit (X1 , ..., Xn ) un échantillon de
taille n relatif au paramètre θ on définit la quantité d’information de cette échantillon, également
appelée information de Fisher par :
" 2 #
∂ log Ln (x1 , ..., xn , θ)
In (θ) = E
∂θ
Nous allons indiquer dans la suite les principaux moyens de juger de l’efficacité d’un estimateur.
Proposition 7.2.1 (Comparaison d’estimateur). Soit Φn et Φfn deux estimateurs d’un même
échantillon. On dira que Φn est plus efficace que Φ
fn si :
V ar(Φn ) < V ar(Φ

fn )
Proposition 7.2.2 (Inégalité de Cramer-Rao). Soit Φn un estimateur sans biais d’un échantillon
relatif au paramètre θ. Alors on a l’inégalité suivante :
1
≤ V ar(Φn )
In (θ)
Cette inégalité à de l’importance pour la raison suivante :
Définition 7.2.2. On dira qu’un estimateur sans biais est efficace si on a égalité dans la propo-
sition précédente. Autrement dit :
1
= V ar(Φn )
In (θ)
7.3 Méthode du maximum de vraisemblance

Nous énoncerons ici, une méthode, encore due à Ronald Fisher, qui permet dans certains cas
de donner un estimateur efficace à partir de la fonction de vraisemblance.
La méthode du maximum de vraisemblance repose sur la rechercher de la valeur de θ pour
laquelle L(x1 , ..., xn , θ) soit maximale. Autrement dit il nous faut résoudre les équations :
∂Ln (x1 , ..., xn , θ) ∂ 2 Ln (x1 , ..., xn , θ)

= 0 et ≤0 (7.1)
∂θ ∂θ2
136
Théorème 7.3.1 (Condition suffisante). Si il existe un estimateur efficace sans biais, il est solution
de l’équation 6.1 dite du maximum de vraisemblance.
Remarque 7.3.1 (Fondamentale). On peut également remplacer dans les équations plus haut la
fonction de vraisemblance par la log-vraisemblance, qui est défini comme la composé du log et
de la fonction de vraisemblance. Le logarithme étant une fonction croissante, il est équivalent de
résoudre les équations pour la vraisemblance ou pour a log-vraisemblance.
Le passage au log est, comme toujours, très utile pour ses propriétés notamment la transforma-
tion du produit en somme.
Exemple 7.3.1. On souhaite trouver un estimateur d’une loi normale (N (µ, θ2 )). Soit donc un
échantillon (X1 , ..., Xn ) suivant cette loi et x1 , ..., xn des réalisations.
−→ Fixons tout d’abord θ et estimons µ.
n
Y
L(x1 , ..., xn , µ) = pµ,σ (xi )
i=1
n
−(xi − µ)2

Y 1
= √ exp
i=1
2πσ 2σ 2
D’où :
n
−(xi − µ)2

X 1
log L(x1 , ..., xn , µ) = log √ exp
i=1
2πσ 2σ 2
n n
−(xi − µ)2
X
X 1
= log √ +
i=1
2πσ i=1
2σ 2
En dérivant partiellement par rapport µ et en trouvant les zéros on obtient :
n
∂ log L(x1 , ..., xn , µ) X xi − µ
=0⇔ =0
∂µ i=1
σ2
n
X
⇔ (xi − µ) = 0
i=1
n
1
P
Le seul zéro est donc en : µ = n
xi . Il nous faut donc vérifier que c’est bien un maximum.
i=1
Dérivons pour cela une deuxième fois :
137
n
∂ 2 log L(x1 , ..., xn , µ) X 1
= − 2 <0
∂µ2 i=1
σ
Ce qui nous prouve que c’est le maximum.

n
fn = n1
P
On note donc µ xi l’estimateur le plus efficace de l’espérance µ de la loi normale. Ce
i=1
n’est autre que la moyenne empirique.
Nous laissons au lecteur le soin de vérifier, par simple calcul, que cet estimateur est sans biais.
−→ A l’inverse, fixons µ et estimons σ.

On obtient de la même manière :
n n
(xi − µ)2

∂ log L(x1 , ..., xn , σ) X −1 X
=0⇔ + =0
∂σ i=1
σ i=1
σ3
n
X
(xi − µ)2 − σ 2 = 0

⇔
i=1
n
1
(xi − µ)2 , en vérifiant une nouvelle fois que c’est la
P
On obtient donc l’estimateur : σ
e = n
i=1
valeur maximale.
138
Chapitre 8
Test d’hypothèse
Si on lance un dé une centaine de fois en notant le nombre obtenu à chaque lancé, on peut
établir une hypothèse statistique du type : “ Le dé est équilibré ”, “ Le dé est déséquilibré ” ou plus
précisément “ Le dé est plus lourd du côté où se trouve le nombre 5 ”. Une fois cette hypothèse
émise, il est nécessaire de l’estimer en effectuant un test d’hypothèse, qui permettra d’estimer la
probabilité que cette hypothèse soit vraie ou fausse.
8.1 Généralités
Définition 8.1.1 (Test d’hypothèse). Un test d’hypothèse, est un procédé permettant d’évaluer
une hypothèse statistique en fonction d’un échantillon.
Exemple 8.1.1 (Une pièce est elle équilibrée ?). Supposons qu’on ait lancé une centaine de fois
une pièce afin de déterminer si elle est équilibrée et que nous ayons obtenu l’échantillon suivant :
Pile Face
47 53
On peut alors formulé l’hypothèse statistique : “ La pièce est équilibrée ”. Cependant, si on veut
pouvoir dire plus précisément : “Il y a 95% de chances que la pièce soit équilibrée” il faudra effectuer
un test d’hypothèse.
8.2 Test du khi-carré

Il existe plusieurs tests d’hypothèses statistiques convenant à des échantillons différents et des
situations différentes. Cette partie, va traité d’un test particulier : le test du χ2 (khi-carré).
Définition 8.2.1 (Test du χ2 ). Soit un échantillon de n éléments, qu’on répartit en k classes.

Chacun des n éléments de l’échantillon appartient donc à l’une des k classes.
139
classe 1 classe 2 ... classe k toutes les classes
n1 éléments n2 éléments ... nk éléments n = n1 + ... + nk éléments
On émet alors une hypothèse statistique, qui n’est rien d’autre qu’une retraduction de :
"L’échantillon donné, correspond à la loi d’une variable aléatoire X prenant en argument k valeurs
x1 , ..., xk et telle que ∀i ∈ {1, ..., k}, P(X = xi ) = pi ."
On pose alors la statistique S définie par :
k
X (ni − n × pi )2
S=
i=1
n × pi
On compare alors la valeur de S avec les valeurs du tableau de la loi du khi-deux à k − 1 degrés de
liberté, χ2k−1 , de la manière suivante :
Si on veut que la marge d’erreur de notre hypothèse soit de 5%, c’est à dire que notre hypothèse
soit sûre à 95% on regardera alors la valeur se trouvant à l’intersection de la ligne k − 1 et de la
colonne 0.05, de même si on veut que notre hypothèse soit sûre à 99% prêt alors on regardera la
valeur à l’intersection de la ligne k − 1 et de la colonne 0.01.
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
k−1 ... ... ... ... t ... ... ... ... ...
Supposons qu’on veut que la marge d’erreur de notre hypothèse soit de 30%, on regardera alors le
nombre t se trouvant à l’intersection de la ligne k − 1 et de la colonne 0.30. Alors, si S < t alors
on peut dire que l’hypothèse est vraie avec un risque de se tromper de 30%.
Si l’on souhaite avoir une autre marge d’erreur on procède de la même manière en lisant la colonne
correspondante.
140
Exemple 8.2.1 (Une pièce est elle bien équilibrée ?). On lance une pièce une cent fois et on obtient
cet échantillon :
Pile Face
47 53
Peut on émettre l’hypothèse statistique que la pièce est équilibrée avec une chance inférieure à 5%
de se tromper ?
On remarque qu’on dispose donc d’un échantillon de 100 éléments, divisé en deux classes nommés
"Pile" et "Face". L’hypothèse que la pièce soit équilibrée peut être retraduite de cette façon :
"Cet échantillon suit la répartition d’une variable aléatoire X suivant la loi de Bernoulli de
paramètre 0.5". En effet, si la pièce est équilibrée la probabilité d’obtenir Face est la même que
celle d’obtenir Pile, c’est dire de 0.5.
Par conséquent, on a :
k
X (ni − n × pi )2
S=
i=1
n × pi
2
X (ni − 100 × P(X = i))2
=
i=1
100 × P(X = i)
(47 − 100 × P(X = 1))2 (53 − 100 × P(X = 1))2

= +
100 × P(X = 1) 100 × P(X = 1)
(47 − 100 × 0.5)2 (53 − 100 × 0.5)2

= +
100 × 0.5 100 × 0.5
2 2
(47 − 50) (53 − 50)
= +
50 50
9 9
= +
50 50
18
= = 0.36
50
Notre échantillon étant divisé en deux classes, nous allons nous intéresser au khi-deux à 2−1 =
1 degrés de liberté.
141
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
En lisant donc ce tableau à la ligne 1 et à la colonne 0.05 on trouve la valeur 3.841
On remarque que : S = 0.36 < 3.841.
On en déduit donc, qu’on peut bien affirmer que la pièce est équilibrée avec un risque inférieur
à 5% de se tromper.
Exemple 8.2.2 (Un dé est il équilibré ?). On lance un dé trois cents fois et on obtient cet échan-
tillon :
1 2 3 4 5 6
63 54 47 39 57 40
Peut on émettre l’hypothèse statistique que le dé est équilibré avec une chance inférieure à 10% de
se tromper ?
On remarque qu’on dispose donc d’un échantillon de 300 éléments, divisé en six classes. L’hy-
pothèse que le dé soit équilibré peut être retraduite de cette façon :
"Cet échantillon suit la répartition d’une variable aléatoire X suivant une loi de répartition uni-
forme". En effet, si le dé est équilibré on a :
1
P(X = 1) = ... = P(X = 6) =
6
142
Par conséquent, on a :
k
X (ni − n × pi )2
S=
i=1
n × pi
6
X (ni − 300 × P(X = i))2
=
i=1
300 × P(X = i)
(63 − 300 × P(X = 1))2 (54 − 100 × P(X = 2))2 (40 − 100 × P(X = 6))2
= + + ... +
300 × P(X = 1) 300 × P(X = 2) 300 × P(X = 6)
1 2 1 2 1 2

63 − 300 × 6
54 − 100 × 6
40 − 100 × 6
= + + ... +
300 × 16 300 × 61 300 × 61
(63 − 50)2 (54 − 50)2 (40 − 50)2
= + + ... +
50 50 50
132 + 42 + 32 + 112 + 72 + 102
=
50
464
= = 9.28
50
Notre échantillon étant divisé en six classes, nous allons nous intéresser au khi-deux à 6−1 = 5
degrés de libertés.
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086
.. .. .. .. .. .. .. .. .. .. ..
. . . . . . . . . . .
En lisant donc ce tableau à la ligne 5 et à la colonne 0.10 on trouve la valeur 9.236
On remarque que : S = 9.28 > 9.236
143
On en déduit donc, qu’on ne peut pas affirmer que le dé est équilibrée avec un risque inférieur
à 10% de se tromper.
144
Troisième partie
Annexes
145
Annexe A
Théorie des ensembles
Nous rappelons ici les notions de la théorie des ensembles indispensables à la compréhension
du cours.
Commençons tout d’abord par des définitions "intuitives" dues pour la plupart à Georg Cantor.
A.1 Généralités
Définition A.1.1 (Ensemble). On appelle ensemble une collection d’objet, nommé éléments.
Notation A.1.1. Soit E un ensemble, on note :
– x ∈ E si l’élément x appartient à E
– x∈
/ E si l’élément x n’appartient pas à E
– Si E est réduit à un seul élément (disons x), alors E se note {x}, dit "singleton x"
– Si E ne contient aucun élément, on dit qu’il est égale à l’ensemble vide, noté
Exemple A.1.1.
– E = {1, 2, 3} est un ensemble, et on peut voir que : 1 ∈ E mais 4 ∈
/E
– E = Q est un ensemble, contenant l’ensemble des nombres rationnels. On peut voir que
√
2∈
/E
Remarque A.1.1. Il faut faire attention à la notion d’ensemble vide. Un ensemble peut contenir
l’ensemble vide, sans l’être lui-même. On peut voir un exemple au chapitre 1 avec les tribus.
Rappelons également la définition suivante :
147
Définition A.1.2 (famille d’ensembles). On appelle famille d’ensemble, un ensemble ayant pour
élément des ensembles.
Exemple A.1.2.
– Une tribu est une famille d’ensemble
– E = {{1, 2}, {1, 3}} est une famille d’ensemble mais n’est pas une tribu
Définition A.1.3 (Inclusion). Soit A et B deux ensembles, on dit que A est inclus dans B, et on
note A ⊆ B, si tous les éléments de A sont dans B. Autrement dit :
A ⊆ B ⇔ ∀x ∈ A, x ∈ B
Remarque A.1.2. Voici une remarque très importante qui peut s’appliquer à plusieurs domaines
des mathématiques. Lorsque l’on veut montrer que deux ensembles A et B sont égaux, il suffit de
montrer que A ⊆ B et B ⊆ A.
A.2 Opérations sur les ensembles

Définition A.2.1 (Ensemble privé d’un autre ensemble). Soit A et B des ensembles, on note
A \ B, l’ensemble A privé de B. Autrement dit :
A \ B = {x ∈ A, x ∈
/ B}
Voyons un des cas particulier de cette définition :
Définition A.2.2 (Complémentaire d’un ensemble). Soit E un ensemble, et A ⊆ E. On appelle

complémentaire de A dans E, l’ensemble noté :
Ac = {x ∈ E, x ∈
/ A}
Remarque A.2.1. Il est important de voir que la notion de complémentaire dépend de l’ensemble
dans lequel on se place (ici E). Ainsi le complémentaire de N dans Q n’est pas le même que le
complémentaire de N dans R.
On peut également voir (et noter !), Ac = E \ A.
Exemple A.2.1. – Soit A = {n ∈ N, n pair} ⊆ N, alors Ac = N \ A = {n ∈ N, n impair}
– Soit E un ensemble alors ∅c = E
148
Définition A.2.3 (réunion d’ensemble). Soit A, B et E trois ensembles tels que A ⊆ E et B ⊆ E,
on note A ∪ B l’ensemble des éléments appartenant à A ou à B. Autrement dit :
A ∪ B = {x ∈ E, x ∈ A ou x ∈ B}
Définition A.2.4 (intersection d’ensemble). Soit A, B et E trois ensembles tels que A ⊆ E et

B ⊆ E, on note A ∩ B l’ensemble des éléments appartenant à A et à B. Autrement dit :
A ∩ B = {x ∈ E, x ∈ A et x ∈ B}
Proposition A.2.1. Soit A et B deux ensembles. Alors :
A \ B = A ∩ Bc
Démonstration A.2.1. A \ B = {x ∈ A, x ∈ / B} = {x ∈ A et x ∈ B c } =
/ B} = {x ∈ A et x ∈
A ∩ Bc
Remarque A.2.2. On peut voir que : A ∪ Ac = E et A ∩ Ac = ∅.

Exercice : Démontrez le en utilisant la Remarque 7.1.2.
Nous pouvons généraliser la notion de réunion et d’intersection :
Définition A.2.5 (réunion et intersection quelques d’ensembles). Soit (Ai )i∈I une suite d’ensem-
ble indicée par un ensemble I quelconque. Alors on note et on définit :
[
Ai = {x ∈ E, ∃i0 ∈ I, x ∈ Ai0 }
i∈I
\
Ai = {x ∈ E, ∀i ∈ I, x ∈ Ai }
i∈I
Exemple A.2.2. Voici deux exemples qu’il faut savoir (re)démontrer :

–
[ 1
[1, 2 + ] = [1, 2[
n∈N
n
–
\ 1
[1, 2 + ] = [1, 2]
n∈N
n
149
Définition A.2.6 (Union disjointe). Soit (Ai )i∈I une suite d’ensembles, on dit que leur réunion
est disjointe si et seulement si les ensembles sont disjoints deux à deux. Autrement dit :
∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅
.
U F
Dans ce cas on note la réunion : Ai ou Ai
i∈I i∈I
Voici le cas particulier le plus utilisé d’une réunion disjointe :
Définition A.2.7 (partition). Soit E un ensemble, et (Ai )i∈I une suite d’ensemble inclus dans E.
On dit que (Ai )i∈I est une partition de E si et seulement si :
[
Ai = E et ∀i, j ∈ I, i 6= j, Ai ∩ Aj = ∅
i∈I
Exemple A.2.3. – L’ensemble {0, 1, 2, 3} admet {0}, {1}, {2}, {3} ou bien {0, 2}, {1, 3} comme
partition. En revanche : {0, 1, 2}, {2, 3} n’est pas une partition. En effet {0, 1, 2} ∩ {2, 3} =
{2}.
– Un autre exemple qui parait plus trivial mais qui est assez utile. L’ensemble N admet la suite
Un = {n}, n ∈ N comme partition. De même la suite Vq = {q}, q ∈ Q est une partition de Q.
(l’écriture est en effet valide car l’ensemble des rationnels est dénombrable).
Vocabulaire A.2.1. Nous rappelons avant d’aborder la suite le lien entre les opérations sur les
ensembles et les opérations logiques.
Notation logique Notation ensembliste

A ou B A∪B
A et B A∩B
non(A) Ac
A⇒B A⊆B
A⇔B A=B
Proposition A.2.2 (quelques propositions). Soit A, B et C des ensembles. Alors :
– (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)
– (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)
150
Démonstration A.2.2. La démonstration se base sur le fait que le "ou" est distributif par rapport
à "et" (voir LM115 ou le remontrer avec une table de vérité).
– (A ∪ B) ∩ C = {x, (x ∈ A ∪ B) et (x ∈ C)} = {x, x ∈ A ou x ∈ B, et x ∈ C} = {x, x ∈

A et x ∈ C, ou x ∈ B et x ∈ C} = {x, x ∈ (A ∩ C) ou x ∈ (B ∩ C)} = (A ∩ C) ∪ (B ∩ C)
– C’est la même démonstration en remplaçant le "et" par le "ou".
Proposition A.2.3 (Formules de Morgan). Soit A, B et C trois ensembles, alors :
– (A ∪ B)c = Ac ∩ B c
– (A ∩ B)c = Ac ∪ B c
Démonstration A.2.3. La démonstration suit la même logique que la proposition 7.2.2 en prenant
la proposition logique "non" pour le complémentaire.
A.3 Suite d’ensembles

Définition A.3.1 (Monotonie d’une suite d’ensemble). Soit (An )n∈N une suite d’ensemble d’un
ensemble E. Alors on dit que cette suite est croissante au sens de l’inclusion (resp. décroissante au
sens de l’inclusion) si et seulement si :
∀n ∈ N, An ⊆ An+1 (resp.An ⊇ An+1 )
A.4 Produit cartésien

Définition A.4.1. Soit A et B deux ensembles, on définit le produit de A par B, noté A × B,
l’ensemble :
A × B = {(x, y), x ∈ A et y ∈ F }
Exemple A.4.1. – L’exemple le plus "classique" du produit cartésien est R × R, aussi noté
R2 (on peut bien sur remplacer R par tous les ensembles connus).
151
– Un exemple plus concret : {1, 2, 3} × {4, 5} = {{1, 4}, {2, 4}, {3, 4}, {1, 5}, {2, 5}, {3, 5}}.
– Un autre : [0, 1]×[1, 2] est un carré de R2 de longueur de côté 1, et de sommets {0, 1}, {1, 1}, {0, 2}, {1, 2}.
Définition A.4.2 (Produit cartésien généralisé). On peut également, comme pour la réunion et
l’intersection d’ensembles, généraliser le produit cartésien.
Soit (Ai )0≤i≤N une suite d’ensemble, on a :
A0 × ... × AN = {(x0 , ..., xN ), x0 ∈ A0 et ... et xN ∈ AN }
Remarque A.4.1. Si on a le produit cartésien de N ensemble A, alors on note : A × ... × A = AN .
On laisse en exercice le soin de démontrer (par double inclusion) : (A × B) ∩ (A × B) =

(A ∩ B) × (A ∩ B), ainsi que : (A × B) ∪ (A × B) = (A ∪ B) × (A ∪ B)
A.5 Applications
Nous rappelons simplement dans cette section les formules très utiles de Hausdorff.
Proposition A.5.1 (Formules de Hausdorff). Soit f : E −→ F une application et (Ai )i∈I une
suite d’ensembles de F et A ⊆ F , alors :
S S
– f( Ai ) = f (Ai )
i∈I i∈I
T T
– f( Ai ) ⊆ f (Ai ) (égalité si f injective)
i∈I i∈I
– f −1 ( f −1 (Ai )
S S
Ai ) =
i∈I i∈I
– f −1 ( f −1 (Ai )
T T
Ai ) =
i∈I i∈I
– f −1 (Ac ) = (f −1 (A))c
Démonstration A.5.1. Nous allons les démontrer en utilisant la Remarque 7.1.2
152
S S
– Soit y ∈ f ( Ai ), alors par définition de l’image, il existe x ∈ Ai tel que f (x) = y. De
i∈I i∈I
plus, par définition de la réunion, il existe i0 ∈ I, tel que x ∈ Ai0 . Autrement dit, y ∈ f (Ai0 ),
S
et de nouveau par définition de la réunion, y ∈ f (Ai ). Ce qui conclus pour la première
i∈I
inclusion.
S
Soit y ∈ f (Ai ), alors il existe f (Ai0 ), tel que y ∈ f (Ai0 ). Et donc il existe x ∈ Ai0 , tel
i∈I S
que : y = f (x). Mais x ∈ Ai0 d’ou x ∈ Ai . Finalement, comme on sait que si A ⊆ B,
i∈I
alors f (A) ⊆ f (B), on peut conclure.
– L’inclusion de gauche à droite se fait comme pour la réunion. Voyons l’inclusion réciproque.
T
Supposons f injective. Soit y ∈ f (Ai ), alors par définition de l’intersection, on a : ∀i ∈
i∈I
I, y ∈ f (Ai ). D’où : ∀i ∈ I, ∃xi ∈ Ai , y = f (xi ). Mais alors, par injectivité de f, si
T
y = f (xi ) = f (xj ), alors xi = xj . D’où il existe x, ∀i ∈ I, x ∈ et tel que , y = f (x).
i∈I
Ce qui permet de conclure.
– La démonstration est la même que pour l’image directe, on laisse le soin au lecteur de dé-
montrer les deux propriétés. Rappelons simplement :
f −1 (y) = {x ∈ E, y = f (x)}
– La dernière proposition peut se montrer directement :
f −1 (Ac ) = {x ∈ E, f (x) ∈ Ac } = {x ∈ E, f (x) ∈

/ A} = ({x ∈ E, f (x) ∈ A})c = (f −1 (A))c
A.6 Fonction indicatrice (ou caractéristique)

Nous allons voir ici une notion utile lorsque l’on manipule des ensembles.
Définition A.6.1 (Fonction indicatrice (ou caractéristique)). Soit E un ensemble et A ⊆ E, on

définie la fonction indicatrice ou fonction caractéristique de A, noté 1A , par :
1A : E −→ {0, 1}
(
1 Si x ∈ A
: x 7→
0 Sinon
153
Remarque A.6.1. Il est facile de voir que :
– 1∅ (x) = 0, ∀x ∈ E
– 1E (x) = 1, ∀x ∈ E
Proposition A.6.1. Soit A et B deux sous ensembles d’un ensemble E, alors on a :

– 1A c = 1 − 1A
– 1A∩B = 1A .1B
– 1A∪B = 1A + 1B si A et B sont disjoints
Démonstration A.6.1. – Par définition :
(
1 Si x ∈ Ac
1Ac (x) =
/ Ac
0 Si x ∈
(
1 Si x ∈
/A
=
0 Si x ∈ A
= 1 − 1A (x)
– Soit x ∈ E, alors si 1A∩B (x) = 1, alors x ∈ A ∩ B, et donc 1A (x).1B (x) = 1

Sinon 1A∩B (x) = 0 et alors x ∈ / A ∩ B, donc 1A (x) = 0 et 1B (x) = 0. D’où l’égalité voulue
– Même raisonnement en remarquant que si A e B sont disjoints, alors A ∩ B = ∅, on peut
alors utiliser la remarque précédente et la propriété démontrée ci-dessus.
154
Annexe B
Dénombrement
Calculer le nombre d’éléments d’un ensemble fini peut se faire en comptant un à un les élé-
ments de cet ensemble. Cette méthode pouvant devenir très longue lorsqu’on étudie un ensemble
possédant un grand nombre d’éléments, on utilise des techniques combinatoires afin de faciliter et
d’accélérer le processus.
Ainsi, le dénombrement est la détermination du nombre d’éléments d’un ensemble fini, à l’aide de
techniques combinatoires.
B.1 Cardinal
Définition B.1.1 (Cardinal d’un ensemble fini). Le cardinal d’un ensemble E fini, noté Card(E)
ou |E|, désigne le nombre d’éléments de cet ensemble E.
Exemple B.1.1. Soit l’ensemble E = {2; 3; 5; 8; 13; 21}.

L’ensemble E, comporte 6 éléments.
Donc |E| = 6.
Définition B.1.2 (Partition d’un ensemble). Une partition d’un ensemble E est un ensemble de
parties deux à deux disjointes de E dont la réunion est égale à E.
Exemple B.1.2. Soit l’ensemble E = {1; 2; 3}.

A = {{1}; {2}; {3}} est une partition de E.
B = {{1; 2}; {3}} est une autre partition de E.
E est encore une autre partition de E lui même.
155
Théorème B.1.1 (Principe de la somme). Si les ensembles A1 , ..., An constituent une partition
de l’ensemble fini E, alors :
|E| = |A1 | + ... + |An |
Démonstration B.1.1. La démonstration se fait par récurrence sur n.

Soit n ≥ 1 posons : P (n) :" Toute partition {A1 , ..., An } de E vérifie |E| = |A1 | + ... + |An |"
Pour n = 1, on a A1 = E. Par conséquent, on a bien : |A1 | = |E|.

Pour n = 2, considérons une partition {A1 , A2 } de E.

Soit |A1 | = a1 et |A2 | = a2 .
Comme l’ensemble N ∩ [1 ; a1 ] possède le même nombre d’éléments que |A1 | et que N ∩ [1 ; a2 ]
possède le même nombre d’éléments que A2 , il existe une bijection, f1 : N ∩ [1 ; a1 ] −→ A1 et une
bijection, f2 : N ∩ [1 ; a2 ] −→ A2 .
Soit f la fonction définie telle que :
f : N ∩ [1 ; a1 + a2 ] → ( E = A1 ∪ A2
f1 (n) si n ≤ n1
n 7→
f2 (n − n1 ) si n > n1
f est alors une bijection, et par conséquent E = A1 ∪ A2 possède le même nombre d’éléments
que N ∩ [1 ; a1 + a2 ], c’est à dire a1 + a2 éléments.
Donc |E| = a1 + a2 = |A1 | + |A2 |.
Supposons que P (n) est vraie pour un certain n, montrons que P (n + 1) est vraie.
{A1 , ..., An } étant un ensemble d’ensembles disjoints deux à deux, il est une partition de
l’ensemble A1 ∪ ... ∪ An on a donc par hypothèse de récurrence :
|A1 ∪ ... ∪ An | = |A1 | + ... + |An |
156
De plus, si A1 , ..., An+1 est une partition de E, alors le couple : {A1 ∪ ... ∪ An ; An+1 } est aussi
une partition de E.
Comme, la propriété P est vraie au rang 2. On a :
|E| = |A1 ∪ ... ∪ An | + |An+1 |

= |A1 | + ... + |An | + |An+1 |
Donc P (n + 1) est vraie.

Donc la propriété est vraie pour tout entier n ≥ 1.
Propriétés B.1.1. Soient A et B deux sous-ensembles quelconques d’un ensemble fini E.

1. |Ac | = |E| − |A|
2. |A \ B| = |A| − |A ∩ B|
3. |A ∪ B| = |A| + |B| − |A ∩ B|
Démonstration B.1.2.
1. On remarque que A ∩ Ac = ∅ et que A ∪ Ac = E.Donc {A, Ac } est une partition de E, et

donc d’après le principe de la somme :
|E| = |A| + |Ac | ⇐⇒ |Ac | = |E| − |A|
2. On remarque que A\B = A\(A ∩ B), donc dans l’ensemble A le complémentaire de A\B est
A ∩ B.Donc d’après la propriété 1. on a : |B\A| = |B| − |A ∩ B|.
3. D’après la propriété 2. on a :
|A\B| = |A| − |A ∩ B| et |B\A| = |B| − |A ∩ B|
De plus on remarque, que les ensembles B\A, A\B et A ∩ B sont disjoints deux à deux et
que leur union est égale à A ∪ B, donc ils forment une partition de A ∪ B.
Donc d’après le principe de la somme on a :
|A ∪ B| = |B\A| + |A\B| + |A ∩ B|
= |B| − |A ∩ B| + |A| − |A ∩ B| + |A ∩ B|
= |A| + |B| − |A ∩ B|
157
Théorème B.1.2 (Principe du produit). Si les ensembles A1 , ..., An sont des ensembles finis,
alors :
|A1 × ... × An | = |A1 | × ... × |An |
Démonstration B.1.3. La démonstration se fait par récurrence sur n.

Soit n ≥ 1 posons P (n) :"Les ensembles finis A1 , ..., An vérifient |A1 × ... × An | = |A1 | × ... × |An |"
Pour n = 1, on a |A1 | = |A1 |. Donc P (1) est vraie.
Supposons que P (n) est vraie pour un certain n, montrons que P (n + 1) est vraie.
Soient A1 , ..., An , An+1 des ensembles finis, on sait par hypothèse de récurrence que :
|A1 × ... × An | = |A1 | × ... × |An |
Comme A1 × ... × An est un ensemble fini de même que An+1 et que la propriété est vraie au rang
2, on a :
|A1 × ... × An × An+1 | = |A1 × ... × An | × |An+1 |

= |A1 | × ... × |An | × |An+1 |
Donc la propriété est vraie au rang n + 1.

Donc la propriété est vraie pour tout n ≥ 1.
B.2 Combinaison
Définition B.2.1 (Combinaison). Soit E un ensemble à n éléments et k un entier naturel inférieur

ou égal à n.
On appelle combinaison de k éléments de E toute partie de E à k éléments.
Exemple B.2.1. Soit E l’ensemble à 6 éléments {1; 2; 3; 5; 8; 13}.
158
– {3} est une combinaison à 1 élément de E.
– {1; 2} et {1; 8} sont deux combinaisons à 2 éléments de E.
– {13; 5; 2} est une combinaison à 3 éléments de E.
– E est une combinaison à 6 éléments de E lui-même.
Remarque B.2.1. L’ordre dans lequel sont placés les éléments d’un ensemble ne compte pas, ainsi
les ensembles {a, b, c}, {b, a, c}, {c, a, b} et {c, b, a} sont un seul et même ensemble.
Les combinaisons étant des ensembles en tant que parties d’un ensemble, par conséquent, ne pren-
nent pas en compte l’ordre dans lequel sont placés les éléments.
Théorème B.2.1 (Nombre de combinaisons d’un ensemble). Soit E un ensemble à n éléments et

k un entier naturel inférieur ou égal à n.
Le nombre de combinaisons à k éléments de l’ensemble E est donné par :

n n!
Cnk = =
k k! (n − k)!
Démonstration B.2.1. La compréhension de cette démonstration nécessite la connaissance de la

partie Arrangement et de la partie Permutation de cette annexe.
Pour construire un arrangement de k éléments de l’ensemble E il faut dans un premier temps

choisir les k éléments de l’ensemble E, puis dans un second temps les ordonnés.
Ceci, revient à choisir une combinaison à k éléments de E puis une permutation de cette combi-
naison.
Notons Cnk le nombre de combinaisons à k éléments de E.
Comme il existe Cnk combinaisons à k éléments de E et k! permutations différentes pour chaque
combinaison à k éléments de E, il existe Cnk × k! arrangements de E.
On en déduit que le nombre d’arrangements à k éléments de E est égal à :
Akn n!
Akn = Cnk × k! ⇐⇒ Cnk = =
k! k! (n − k)!
n!
Donc le nombre de combinaisons à k éléments de E est égal à : Cnk =
k! (n − k)!
Exemple B.2.2 (Tirage simultané dans une urne). Dans une urne se trouvent 7 boules numérotées.
On effectue un tirage simultané de 4 boules, combien de tirages possibles avons nous ?
Le fait que le tirage soit simultané implique qu’on considère les boules tirés sans notion d’ordre
(On ne considère que les numéros tirés et non l’ordre dans lequel ils sont tirés).
159
On cherche donc le nombre de combinaisons de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre de combinaisons :

7 7!
C74 = =
4 4! (7 − 4)!
(7 × 6 × 5 × 4) × (7 − 4)!
=
4! (7 − 4)!
7×6×5×4
=
4!
840
=
24
= 35
On a donc 35 tirages possibles.
Exemple B.2.3 (Tournoi d’échecs). Un tournoi d’échecs est organisé entre six joueurs. Chaque
joueur doit jouer une fois contre tous les autres. Combien de parties d’échecs doit on organiser ?
La partie que joue le joueur A contre le joueur B et la même que la partie que joue le joueur
B contre le joueur A.
Par conséquent, pour chaque partie on ne s’attarde qu’aux joueurs la jouant et non à leur ordre.
On cherche donc le nombre de combinaisons de 2 joueurs de l’ensemble "les six joueurs".

6 6!
C62 = =
2 2! (6 − 2)!
6×5
=
2!
30
= = 15
2
On doit donc organiser 15 parties d’échecs.
160
B.3 Liste
Définition B.3.1 (Liste). Soit E un ensemble à n éléments et k un entier naturel inférieur ou

égal à n.
On appelle liste de k éléments de E un suite finie de k éléments (e1 , ..., ek ) de E.
– (3) est une liste à 1 élément de E.

– (1; 2), (2; 1) et (8; 8) sont trois listes à 2 éléments de E.
– (13; 5; 13), (13; 13; 5) et (5; 13; 13) sont trois listes à 3 éléments de E.
– (3; 3; 3; 3; 3) est une liste à 5 éléments de E.
– (1; 2; 3; 5; 8; 13) est une liste à 6 éléments de E.
Théorème B.3.1 (Nombre de listes d’un ensemble). Soit E un ensemble à n éléments et k un

entier naturel inférieur ou égal à n.
Le nombre de listes à k éléments de l’ensemble E est égal à :
nk
Démonstration B.3.1. Dénombrons tous les arrangements à k éléments de l’ensemble E :
Soit (e1 , e2 , ..., ek ) une suite finie à k éléments, déterminons le nombre de valeurs possibles dif-
férentes que peut prendre cette liste tout en étant une liste de E à k éléments.
L’élément e1 peut prendre n valeurs possibles ( La valeur d’un des n éléments de E ).

L’élément e2 peut prendre n valeurs possibles. ( La valeur d’un des n éléments de E )
..
.
L’élément ek peut prendre n valeurs possibles. ( La valeur d’un des n éléments de E )
... × n} = nk arrangements à k éléments de E possibles.

| × {z
Ainsi, il existe n
k fois
Donc, il existe nk listes à k éléments de E.
161
Exemple B.3.2 (Tirage successif avec remise dans une urne). Dans une urne se trouvent 7 boules
numérotées.
On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?
Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequel
elles sont tirés. C’est à dire que si on nomme A, B, C, D, E, F, G les sept boules de l’urne le tirage
(A, B, C, D) n’est pas le même que le tirage (B, C, D, A).
De plus, le tirage étant avec remise, on peut tirer plusieurs fois la même boule. On cherche donc
le nombre de listes de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre de listes :
74 = 2401
B.4 Arrangement
Définition B.4.1 (Arrangement). Soit E un ensemble à n éléments et k un entier naturel inférieur
ou égal à n.
On appelle arrangement de k éléments de E une liste de k éléments distincts deux à deux de E.
– (3) est un arrangement à 1 élément de E.

– (1; 2), (2; 1) et (1; 8) sont trois arrangements à 2 éléments de E.
– (2; 5; 13), (13; 5; 2) et (13; 2; 5) sont trois arrangements à 3 éléments de E.
– (1; 2; 1) n’est pas un arrangement à 3 éléments de E, car l’élément 1 y est présent deux fois.
Remarque B.4.1. L’ordre dans lequel sont placés les éléments d’une liste est pris en compte,
ainsi (a, b, c), (b, a, c), (c, a, b) et (c, b, a) sont trois listes différentes.
Les arrangements étant notamment des listes prennent, par conséquent, en compte l’ordre dans
lequel sont placés leurs éléments.
Théorème B.4.1 (Nombre d’arrangements d’un ensemble). Soit E un ensemble à n éléments et

k un entier naturel inférieur ou égal à n.
Le nombre d’arrangements à k éléments de l’ensemble E est donné par :
n!
Akn =
(n − k)!
162
Démonstration B.4.1. Dénombrons tous les arrangements à k éléments de l’ensemble E :
Soit (e1 , e2 , ..., ek ) une liste à k éléments, déterminons le nombre de valeurs possibles différentes
que peut prendre cette liste tout en étant un arrangement de E à k éléments.
L’élément e1 peut prendre n valeurs possibles ( La valeur d’un des n éléments de E ).

L’élément e2 peut prendre n − 1 valeurs possibles. ( La valeur d’un des n − 1 éléments restants )
L’élément e3 peut prendre n − 2 valeurs possibles. ( La valeur d’un des n − 2 éléments restants )
..
.
L’élément ek peut prendre n − k + 1 valeurs possibles.
Ainsi, il existe n × (n − 1) × ... × (n − k + 1) arrangements à k éléments de E possibles.

Donc le nombre d’arrangements à k éléments de E est de n × (n − 1) × ... × (n − k + 1).
Or,
n × (n − 1) × ...(n − k + 1) × (n − k) × ... × 1 n!
n × (n − 1) × ... × (n − k + 1) = =
(n − k) × ... × 1 (n − k)!
n!
Donc, il existe arrangements à k éléments de E.
(n − k)!
Exemple B.4.2 (Tirage successif sans remise dans une urne). Dans une urne se trouvent 7 boules
numérotées.
On effectue un tirage successif de 4 boules sans remise, combien de tirages possibles avons nous ?
Le fait que le tirage soit successif implique qu’on considère les boules tirés avec l’ordre dans lequel
elles sont tirés. C’est à dire que si on nomme A, B, C, D, E, F, G les sept boules de l’urne le tirage
(A, B, C, D) n’est pas le même que le tirage (B, C, D, A).
De plus, le tirage étant sans remise, on ne peut pas tirer deux fois la même boule, par conséquent
on exclut les tirages du type : (E, D, G, E).
On cherche donc le nombre d’arrangements de 4 boules de l’ensemble "urne" en contenant 7.
On applique donc la formule nous donnant le nombre d’arrangements :
163
7!
A47 =
(7 − 4)!
(7 × 6 × 5 × 4) × (7 − 4)!
=
(7 − 4)!
=7×6×5×4
= 840
B.5 Permutation
Définition B.5.1 (Permutation). Soit E un ensemble à n éléments.

Une permutation de E est une liste de n éléments distincts deux à deux de E.
– (1; 2; 3; 5; 8; 13) est une permutation de E.

– (2; 1; 3; 5; 8; 13) est une autre permutation de E.
– (1; 2; 3; 5; 8; 1) n’est pas une permutation de E, car l’élément 1 y est présent deux fois.
– (1; 2; 3; 5; 8) n’est une permutation de E, car il ne contient pas |E| = 6 éléments.
Théorème B.5.1 (Nombre de permutations d’un ensemble). Soit E un ensemble à n éléments.

Le nombre de permutations de l’ensemble E est égal à :
n!
Démonstration B.5.1. On remarque qu’une permutation est un arrangement de n éléments de

E.
164
Par conséquent le nombre de permutations de l’ensemble E est de :
n!
Ann =
(n − n)!
n!
=
0!
= n! ( par convention 0! = 1 )
Donc le nombre de permutations de l’ensemble E est de n!
Exemple B.5.2 (Rangement). De combien de manières différentes peut on ranger 6 livres dans
6 tiroirs ?
On cherche à placer dans tous les ordres possibles les 6 éléments "livres" dans l’ensemble de 6
éléments "tiroirs".
On cherche donc le nombre de permutations de l’ensemble “6 tiroirs“ :
6! = A66 = 6 × 5 × 4 × 3 × 2 × 1 = 720
Donc, il existe 720 rangements possibles.
165
166
Annexe C
Calcul intégral
Nous rappellerons ici les principales méthodes de calcul et les critères de convergence principaux
des intégrales de Riemann réelles à une et plusieurs variables. Enfin nous verrons quelques intégrales
célèbres et leur propriétés.
Nous renvoyons néanmoins pour plus de détails vers les cours de LM260 et LM216.
C.1 Méthodes et propriétés

C.1.1 Cas d’une fonction à une variable
Définition C.1.1 (Intégration par partie). Soit f, g : [a, b] → R deux applications de classe C 1
sur [a, b], alors :
Z b Z b
0 x=b
f (x)g (x)dx = [f (x)g(x)]x=a − f 0 (x)g(x)dx
a a
Définition C.1.2 (Changement de variable). Soit φ : [a, b] → R une application de classe C 1 sur
[a, b] et soit f : φ([a, b]) → R une application continue sur φ([a, b]), alors :
Z b Z φ(b)
0
(f ◦ φ)(t)φ (t)dt = f (t)dt
a φ(a)
C.1.2 Cas d’une fonction de deux variables

Définition C.1.3 (Jacobienne). Soit f : R2 → R2 une fonction de deux variables admettant des
dérivées partielles sur R2 suivant les deux variables, alors on définit la jacobienne de f aux points
(a, b) ∈ R, notée Jac(a,b) (f ) par la matrice :
!
∂f1 ∂f1
∂x
(a, b) ∂y
(a, b)
Jac(a,b) (f ) = ∂f2 ∂f2
Où f = (f1 , f2 ).
∂x
(a, b) ∂y
(a, b)
167
On appelle jacobien de f aux points (a, b), noté J(a,b) (f ), le déterminant de la jacobienne de f
aux points (a, b).
Théorème C.1.1 (De Fubini). Soit f : [a, b] × [c, d] → R2 une fonction continue sur [a, b] × [c, d],
alors : Z b Z d
x 7→ f (x, y)dy et y 7→ f (x, y)dx sont continues et dans ce cas on a :
a c
Z Z b Z d Z d Z b
f (x, y)dxdy = f (x, y)dy dx = f (x, y)dx dy
[a,b]×[c,d] a c c a
Définition C.1.4 (Changement de variable ). Soit φ un C 1 difféomorphisme de F vers E deux

parties quarrables de R2 , alors f est intégrable (au sens de Riemann) sur E si et seulement si la
fonction : u, v 7→ (f ◦ φ)(u, v).J(u,v) (φ) est intégrable sur F et dans ce cas on a :
Z Z
f (x, y)dxdy = (f ◦ φ)(u, v).J(u,v) (φ)dudv
E F
Remarque C.1.1 (changement en coordonnées polaire). Un des changements les plus connus et
celui en coordonnées polaires. Explicitons-le ici,
On utilise le C 1 -difféomorphisme φ : r, θ 7→ (x, y) = (r cos(θ), r sin(θ)) ayant pour jacobienne :

!
cos(θ) −r sin(θ)
Jacr,θ (φ) =
sin(θ) r cos(θ)
C.2 Critères de convergence
Nous allons rappeler dans le tableau ci-dessous les critères les plus utilisés de convergence des
intégrales (cela sera utile notamment au chapitre 4).
168
R1 1
0 xa
dx CV SSI 0 < a < 1
R +∞ 1
Critère de Rienmann 1 xa
dx CV SSI a > 1
R1 1
R +∞ 1
0 x
dx et 1 x
dx ne convergent pas
R +∞ 1
2 ta logb (t)
dt CV SSI a > 1 ou (a = 1 et b > 1)
Critère de Bertrand
R1 1
2
0 ta |logb (t)|
dt CV SSI a < 1 ou (a = 1 et b > 1)
Rb Rb
Comparaison Si ∀x ∈]a, b[, 0 ≤ f (x) ≤ g(x), alors si a
g(x) CV alors a
f (x)dx CV
Si f =− o(g),
b
Rb Rb
Négligeabilité alors a
f (t)dt et a f (t)dt sont de mêmes natures
Si f ∼− g,
b
Rb Rb
Equivalent alors a
f (t)dt et a
f (t)dt sont de mêmes natures
C.3 Intégrales classiques

Définition C.3.1 (Fonction Gamma). On note, Γ la fonction Gamma définie par :
Z +∞
Γ : a 7→ e−t ta−1 dt
0
Elle vérifie pour tout x > 0 : Γ(x + 1) = xΓ(x).

Et donc pour tout n ∈ N : Γ(n) = (n − 1)!
Définition C.3.2 (Fonction Bêta). On note, B la fonction bêta de deux variables définies sur
R∗+ × R∗+ par :
Z 1
B : p, q 7→ tp−1 (1 − t)q−1 dt
0
169
Γ(p)Γ(q)
Elle vérifie de plus pour tout p, q ∈ R∗+ × R∗+ : B(p, q) = Γ(p+q)
Définition C.3.3 (Intégrale de Wallis). Soit n ∈ N, on note Wn , l’intégrale de Wallis d’ordre n,

définie par :
Z π
2
Wn = sinn (t)dt
0
Elle vérifie de plus :
π (2p)! 22p (p!)2

∀p ∈ N∗ , W2p = . 2p et W 2p+1 =
2 2 (p!)2 (2p + 1)!
Ainsi que : r
π
Wn ∼
+∞ 2n
Définition C.3.4 (Intégrale de Gauss). L’intégrale de Gauss est donnée par la formule :
Z +∞ √
2
e−x dx = π
−∞
2
La parité de x 7→ e−x donne directement :
Z +∞ Z 0 √
−x2 −x2 π
e dx = e dx =
0 −∞ 2
Définition C.3.5 (Intégrale de Gauss généralisée). Soit a ∈ R∗+ , on définit l’intégrale de Gauss
généralisée par : Z +∞ r
−x2 π
e a dx =
−∞ a
170
Annexe D
Tables statistiques
D.1 Table du khi-carré (χ2)
p
k 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01
1 0, 0158 0, 0642 0, 148 0, 455 1, 074 1, 642 2, 706 3, 841 5, 412 6, 635
2 0, 211 0, 446 0, 713 1, 386 2, 408 3, 219 4, 605 5, 991 7, 824 9, 210
3 0, 584 1, 005 1, 424 2, 366 3, 665 4, 642 6, 251 7, 815 9, 837 11, 341
4 1, 064 1, 649 2, 195 3, 357 4, 878 5, 989 7, 779 9, 488 11, 668 13, 277
5 1, 610 2, 343 3, 000 4, 351 6, 064 7, 289 9, 236 11, 070 13, 388 15, 086
6 2, 204 3, 070 3, 828 5, 348 7, 231 8, 558 10, 645 12, 592 15, 033 16, 812
7 2, 833 3, 822 4, 671 6, 346 8, 383 9, 803 12, 017 14, 067 16, 622 18, 475
8 3, 490 4, 594 5, 527 7, 344 9, 524 11, 030 13, 362 15, 507 18, 168 20, 090
9 4, 168 5, 380 6, 393 8, 343 10, 656 12, 242 14, 684 16, 919 19, 679 21, 666
10 4, 865 6, 179 7, 267 9, 342 11, 781 13, 442 15, 987 18, 307 21, 161 23, 209
11 5, 578 6, 989 8, 148 10, 341 12, 899 14, 631 17, 275 19, 675 22, 618 24, 725
12 6, 304 7, 807 9, 034 11, 340 14, 011 15, 812 18, 549 21, 026 24, 054 26, 217
13 7, 042 8, 634 9, 926 12, 340 15, 119 16, 985 19, 812 22, 362 25, 472 27, 688
14 7, 790 9, 467 10, 821 13, 339 16, 222 18, 151 21, 064 23, 685 26, 873 29, 141
15 8, 547 10, 307 11, 721 14, 339 17, 322 19, 311 22, 307 24, 996 28, 259 30, 578
16 9, 312 11, 152 12, 624 15, 338 18, 418 20, 465 23, 542 26, 296 29, 633 32, 000
17 10, 085 12, 002 13, 531 16, 338 19, 511 21, 615 24, 769 27, 587 30, 995 33, 409
18 10, 865 12, 857 14, 440 17, 338 20, 601 22, 760 25, 989 28, 869 32, 346 34, 805
19 11, 651 13, 716 15, 352 18, 338 21, 689 23, 900 27, 204 30, 144 33, 687 36, 191
20 12, 443 14, 578 16, 266 19, 337 22, 775 25, 038 28, 412 31, 410 35, 020 37, 566
171
21 13, 240 15, 445 17, 182 20, 337 23, 858 26, 171 29, 615 32, 671 36, 343 38, 932
22 14, 041 16, 314 18, 101 21, 337 24, 939 27, 301 30, 813 33, 924 37, 659 40, 289
23 14, 848 17, 187 19, 021 22, 337 26, 018 28, 429 32, 007 35, 172 38, 968 41, 638
24 15, 659 18, 062 19, 943 23, 337 27, 096 29, 553 33, 196 36, 415 40, 270 42, 980
25 16, 473 18, 940 20, 867 24, 337 28, 172 30, 675 34, 382 37, 652 41, 566 44, 314
26 17, 292 19, 820 21, 792 25, 336 29, 246 31, 795 35, 563 38, 885 42, 856 45, 642
27 18, 114 20, 703 22, 719 26, 336 30, 319 32, 912 36, 741 40, 113 44, 140 46, 963
28 18, 939 21, 588 23, 647 27, 336 31, 391 34, 027 37, 916 41, 337 45, 419 48, 278
29 19, 768 22, 475 24, 577 28, 336 32, 461 35, 139 39, 087 42, 557 46, 693 49, 588
30 20, 599 23, 364 25, 508 29, 336 33, 530 36, 250 40, 256 43, 773 47, 962 50, 892
172
D.2 Fonction de répartition de la loi normale centrée ré-
duite : N (0, 1)
0 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0, 5000 0, 5040 0, 5080 0.5120 0, 5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0, 5398 0, 5438 0, 5478 0, 5517 0, 5557 0, 5596 0, 5636 0, 5675 0, 5714 0, 5753
0.2 0, 5793 0, 5832 0, 5871 0, 5910 0, 5948 0, 5987 0, 6026 0, 6064 0, 6103 0, 6141
0, 3 0, 6179 0, 6217 0, 6255 0, 6293 0, 6331 0, 6368 0, 6406 0, 6443 0, 6480 0, 6517
0, 4 0, 6554 0, 6591 0, 6628 0, 6664 0, 6700 0, 6736 0, 6772 0, 6808 0, 6844 0, 6879
0, 5 0, 6915 0, 6950 0, 6985 0, 7019 0, 7054 0, 7088 0, 7123 0, 7157 0, 7190 0, 7224
0, 6 0, 7257 0, 7291 0, 7324 0, 7357 0, 7389 0, 7422 0, 7454 0, 7486 0, 7517 0, 7549
0, 7 0, 7580 0, 7611 0, 7642 0, 7673 0, 7704 0, 7734 0, 7764 0, 7794 0, 7823 0, 7852
0, 8 0, 7881 0, 7910 0, 7939 0, 7967 0, 7995 0, 8023 0, 8051 0, 8078 0, 8106 0, 8133
0, 9 0, 8159 0, 8186 0, 8212 0, 8238 0, 8264 0, 8289 0, 8315 0, 8340 0, 8365 0, 8389
1, 0 0, 8413 0, 8438 0, 8461 0, 8485 0, 8508 0, 8531 0, 8554 0, 8577 0, 8599 0, 8621
1, 1 0, 8643 0, 8665 0, 8686 0, 8708 0, 8729 0, 8749 0, 8770 0, 8790 0, 8810 0, 8830
1, 2 0, 8849 0, 8869 0, 8888 0, 8907 0, 8925 0, 8944 0, 8962 0, 8980 0, 8997 0, 9015
1, 3 0, 9032 0, 9049 0, 9066 0, 9082 0, 9099 0, 9115 0, 9131 0, 9147 0, 9162 0, 9177
1, 4 0, 9192 0, 9207 0, 9222 0, 9236 0, 9251 0, 9265 0, 9279 0, 9292 0, 9306 0, 9319
1, 5 0, 9332 0, 9345 0, 9357 0, 9370 0, 9382 0, 9394 0, 9406 0, 9418 0, 9429 0, 9441
1, 6 0, 9452 0, 9463 0, 9474 0, 9484 0, 9495 0, 9505 0, 9515 0, 9525 0, 9535 0, 9545
1, 7 0, 9554 0, 9564 0, 9573 0, 9582 0, 9591 0, 9599 0, 9608 0, 9616 0, 9625 0, 9633
1, 8 0, 9641 0, 9649 0, 9656 0, 9664 0, 9671 0, 9678 0, 9686 0, 9693 0, 9699 0, 9706
1, 9 0, 9713 0, 9719 0, 9726 0, 9732 0, 9738 0, 9744 0, 9750 0, 9756 0, 9761 0, 9767
2, 0 0, 9772 0, 9778 0, 9783 0, 9788 0, 9793 0, 9798 0, 9803 0, 9808 0, 9812 0, 9817
2, 1 0, 9821 0, 9826 0, 9830 0, 9834 0, 9838 0, 9842 0, 9846 0, 9850 0, 9854 0, 9857
2, 2 0, 9861 0, 9864 0, 9868 0, 9871 0, 9875 0, 9878 0, 9881 0, 9884 0, 9887 0, 9890
2, 3 0, 9893 0, 9896 0, 9898 0, 9901 0, 9904 0, 9906 0, 9909 0, 9911 0, 9913 0, 9916
2, 4 0, 9918 0, 9920 0, 9922 0, 9925 0, 9927 0, 9929 0, 9931 0, 9932 0, 9934 0, 9936
2, 5 0, 9938 0, 9940 0, 9941 0, 9943 0, 9945 0, 9946 0, 9948 0, 9949 0, 9951 0, 9952
2, 6 0, 9953 0, 9955 0, 9956 0, 9957 0, 9959 0, 9960 0, 9961 0, 9962 0, 9963 0, 9964
2, 7 0, 9965 0, 9966 0, 9967 0, 9968 0, 9969 0, 9970 0, 9971 0, 9972 0, 9973 0, 9974
2, 8 0, 9974 0, 9975 0, 9976 0, 9977 0, 9977 0, 9978 0, 9979 0, 9979 0, 9980 0, 9981
2, 9 0, 9981 0, 9982 0, 9982 0, 9983 0, 9984 0, 9984 0, 9985 0, 9985 0, 9986 0, 9986
3, 0 0, 99865 0, 99869 0, 99874 0, 99878 0, 99882 0, 99886 0, 99889 0, 99893 0, 99896 0, 99900
Lecture : Pour F (2.35) lire l’intersection de 2.3 et 0.05.
173
174
Index
A convergent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
arrangement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 efficace. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .136
axiomes de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 15 sans biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
expérience aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 13
B
biais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 F
borélien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 fonction
Bêta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
C
Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
caractère. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .130
fonction caractéristique . . . . . . . . . . . . . . . . . . . . 103
cardinal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .155
fonction de répartition . . . . . . . . . . . . . . . . . . . 40, 93
combinaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
fonction de vraisemblance . . . . . . . . . . . . . . . . . . 134
convergence
fonction génératrice . . . . . . . . . . . . . . . . . . . . . . . . . 73
dans L1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
fonction indicatrice (caractéristique) . . . . . . . 153
dans L2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
formule
dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
de Morgan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
en probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . 111
en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 de Poincaré . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 des probabilités conditionnelles en cascade
30
D des probabilités totales . . . . . . . . . . . . . . . . . . 31
densité de probabilité . . . . . . . . . . . . . . . . . . . . . . . 88 fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
E H
écart type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 hypothèse statistique. . . . . . . . . . . . . . . . . . . . . . .140
échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
effectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 I
ensemble inégalité
dénombrable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 de Bienaymé-Tchebychev . . . . . . . . . . . . . . . 113
discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 de Cauchy-Schwarz . . . . . . . . . . . . . . . . . . . . 114
espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43, 94 de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . 136
espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 de Hölder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
espace probabilisable . . . . . . . . . . . . . . . . . . . . . . . . 15 de Markov généralisée . . . . . . . . . . . . . . . . . . 113
estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
175
indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25–33 Q
de variables aléatoires quantité d’information . . . . . . . . . . . . . . . . . . . . . 136
à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
S
discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
suite de variables aléatoires . . . . . . . . . . . . . . . . 111
individu statistique . . . . . . . . . . . . . . . . . . . . . . . . 129
information de Fisher . . . . . . . . . . . . . . . . . . . . . . 136 T
intégrale test
de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 d’hypothèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
de Wallis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .170 du khi-carré . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
issue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 théorème
de convergence monotone . . . . . . . . . . . . . . 113
L
de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
liste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
de convergence dominée . . . . . . . . . . . . . . . . 112
loi
de Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
de la limite centrale . . . . . . . . . . . . . . . . . . . . 122
binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
de transfert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
de Bernouilli . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
tribu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
borélienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
de probabilité uniforme discrète . . . . . . . . . 20
engendrée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 U
normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 univers. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
centrée réduite (gaussienne) . . . . . . . . . . . 92
V
uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
loi de distribution . . . . . . . . . . . . . . . . . . . . . . . . . . 134
à densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
loi faible des grands nombres . . . . . . . . . . . . . . . 121
loi de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
loi forte des grands nombres . . . . . . . . . . . . . . . 122
réelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
M réelle discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
matrice jacobienne . . . . . . . . . . . . . . . . . . . . . . . . . 167 variable statistique . . . . . . . . . . . . . . . . . . . . . . . . . 130
maximum de vraisemblance . . . . . . . . . . . . . . . . 136 variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49, 99
P
partition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150, 155
de l’univers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
permutation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
population statistique . . . . . . . . . . . . . . . . . . . . . . 129
probabilité conditionnelle . . . . . . . . . . . . . . . . 28–33
176
Bibliographie
[1] Alexander Bulinski. Cours d’amphithéâtre de lm231 - probabilités et statistiques élémentaires.

Université Pierre et Marie Curie, 2011.
[2] Jean-François Delmas. Introduction au calcul des probabilités et à la statistique. ENSTA,
2010.
[3] Jean Lacroix et Pierre Priouret. Probabilités approfondies. Université Pierre et Marie Curie,
2005-2006.
[4] Jacques Féjoz. Calcul vectoriel et matriciel de première année. Université Paris-Dauphine,
2011.
[5] Sylvie Guerre-Delabrière. Suites, séries, intégrales : cours et exercices corrigés, niveau L2.
Ellipses, 2009.
[6] Jean Jacod and Philip Protter. Essentiel en théorie des probabilités. Cassini, 2002.
[7] Benjamin Jourdain. Probabilités et statistiques. Ellipses, 2009.
[8] Amaury Lambert. Théorie de la mesure et intégration. Université Pierre et Marie Curie,
2011-2012.
[9] Jean-Yves Ouvrard. Probabilités : Tome 1, Licence - Capes. Cassini, 2007.
[10] Gilbert Saporta. Probabilités, analyse de données et statistique. Editions Technip, 2006.
177

LM231 Beatriz Michail

Transféré par

Droits d'auteur :

Formats disponibles

LM231 Beatriz Michail

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

LM231 Beatriz Michail

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et Statistiques Élémentaires

Mikael Beatriz - Alkéos Michaïl

Mikael BEATRIZ et Alkéos MICHAÏL

1 Introduction aux probabilités 13

2 Indépendance et probabilité conditionnelle 25

3 Variables aléatoires réelles discrètes 35

4 Variables aléatoires réelles à densité 87

5 Convergence de variables aléatoires 111

6 Introduction aux statistiques 129

7 Estimation ponctuelle 133

8 Test d’hypothèse 139

III Annexes 145

A Théorie des ensembles 147

C Calcul intégral 167

D Tables statistiques 171

« Le hasard, ce sont les lois que nous ne connaissons pas. »

Les probabilités sont l’étude du hasard et de l’incertain. Elle

Comme le dit Emile Borel, un des fondateurs de la théorie de

L’étude des probabilités et des statistiques a connu son es-

Introduction aux probabilités

1.2 Algèbre des événements

1.3 Axiomatique de Kolmogorov

1. En effet, les deux premières propriétés de la définition impliquent que Ω ∈ A et que Ωc ∈ A,

Notation 1.3.1. On note P(Ω), l’ensemble des sous-parties d’un univers Ω

• {Ω; ∅} est une tribu de Ω, nommée tribu triviale

Définition 1.3.3. (Probabilité)

vérifiant les trois axiomes de Kolmogorov suivant :

2. En théorie de la mesure, une probabilité est une mesure de masse totale 1.

Propriétés 1.3.2. Soient A et B deux événements d’un univers Ω.

P(A) + P(Ac ) = P(A ∪ Ac ) = P(Ω) = 1

2. D’après le résultat précédent on a :

3. En remarquant que A = (A ∩ B) ∪ (A ∩ B c ) et que B = (B ∩ A) ∪ (B ∩ Ac ) on en déduit que :

Or comme d’après le premier axiome de Kolmogorov P(B ∩ Ac ) ≥ 0, on en déduit que :

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C)

La formule générale pour n éléments est donnée par la formule de Poincaré.

Cette formule peut aussi s’écrire :

Démonstration 1.3.1. La démonstration de cette formule se fait par récurrence.

Pour n=2, on a : P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A1 ∩ A2 )

Supposons P (n − 1) vraie pour un certain n, montrons que P (n) est vraie.

+ P(An ) − P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )

− P( (A1 ∩ An ) ∪ ... ∪ (An−1 ∩ An ) )

Donc P (n) est vraie.

Pour tout n ≥ 2, P (n) est vraie.

1.4 Loi de probabilité uniforme discrète

Exemple 1.4.1. Prenons l’exemple d’un lancé de dé équilibré.

Ceci signifie que la probabilité d’obtenir un 1, un 2, un 3, un 4, un 5 ou un 6 en jetant ce dé est

On en déduit que cette expérience possède Card({1; 2; 3; 4; 5; 6}) × Card({1; 2; 3; 4; 5; 6}) = 6 × 6 =

Il y a donc, 6 issues de Ω vérifiant l’événement A.

Cette expérience possède 6 issues, donc le cardinal de Ω est égal à : |Ω| = 6

• P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Indépendance et probabilité conditionnelle

L’univers Ω qui est l’ensemble des issues de cette expérience vaut :

L’évènement A ∩ B : “Obtenir un 5 avec le premier dé et un 3 avec le deuxième dé est vérifié

A : "Avoir un 2 au premier lancé"

En revanche comme, A ∩ B ∩ C = ∅, on a : P(A ∩ B ∩ C) = 0.

Comme P(A)P(B)P(C) 6= P(A ∩ B ∩ C) les évènements A, B et C ne sont pas indépendants

On définie de la même manière l’indépendance trois à trois etc...

Proposition 2.1.1 (Indépendance et complémentaire). Soit (Ω, A, P) un espace probabilisé et

Démonstration 2.1.1. Démontrons la première assertion :