Cours 2021
Cours 2021
Cours 2021
2021 - 2022
3 Espérance 27
3.1 Définition formelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Propriétés fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.3 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Fluctuations autour de l’espérance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Indépendance 36
4.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Événements indépendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.3 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
5.3 Loi faible des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6 Fonctions caractéristiques 50
6.1 Définition et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6.2 Propriétés fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
7 Convergence en loi 53
2
Ce cours est important : les probabilités sont au coeur du cursus à Dauphine et occupent de
façon générale une place importante dans toutes les formations en mathématiques. Le contenu de
ce cours vous resservira donc dans votre parcours, ici ou ailleurs. C’est aussi une première occasion
de vous familiariser avec des notions difficiles, et notamment celles de théorie de la mesure que vous
reverrez l’année prochaine dans le cours d’intégration.
Le cours a deux aspects aussi importants l’un que l’autre. Il comporte une partie théorique qui
est l’introduction de la modélisation mathématique du hasard (espace probabilisé, variable aléatoire,
indépendance,...). Il comporte également une partie plus technique qui comporte de nombreux
calculs permettant de se familiariser avec les lois les plus connues et importantes.
Les probabilités se sont développées à partir du 17 ème siècle mais il faut attendre le 20 ème
pour avoir une formalisation de la théorie (ce qui ne signifie pas du tout qu’on n’ait rien fait
d’interessant avant !). C’est Kolmogorov, en 1930, qui s’appuie sur la théorie de la mesure de Borel
et Lebesgue pour proposer l’axiomatique que nous utilisons encore. Aujourd’hui la théorie des
probabilités constitue une composante importante des mathématiques (premières médailles Fields
en probabilités relativement récentes) et en particulier dans l’école mathématique française.
Je remercie Justin Salez qui m’a transmis tous les supports qu’il a conçus et utilisés lorsqu’il
assurait ce cours. Le polycopié de cours comme les feuilles de TDs sont très proches de ce qu’il
m’a donné. Je remercie également José Trashorras pour les nombreuses améliorations faites sur les
feuilles de TDs.
La formule qui détermine la note en fin de semestre est
N’hésitez pas à m’écrire si vous avez des questions, des remarques sur le cours ou que vous avez
noté des erreurs dans le poly :
mail : simenhaus@ceremade.dauphine.fr
bureau : B640
Ma page web est en rénovation mais devrait être actualisée rapidement.
BON SEMESTRE !
3
1 Espaces probabilisés
Nous allons apprendre ici à modéliser des expériences aléatoires telles que le lancer d’une pièce
de monnaie, le tirage de boules dans une urne ou le mélange d’un paquet de cartes. Par définition,
les résultats de ces expériences sont imprévisibles et susceptibles de changer d’une fois sur l’autre,
ce qui ne semble pas très compatible avec le langage mathématique auquel on est habitué. Il nous
faudra donc un peu d’efforts pour parvenir à une description rigoureuse.
Avant de lire la suite, essayez de vous demander comment vous auriez utilisé les objets mathématiques
donc vous avez l’habitude (ensembles, fonctions,...) pour représenter mathématiquement le hasard
dont nous avons tous une conception intuitive. La théorie exposée ci-dessous ne vous en semblera
que plus élégante !
L’objet fondamental qui permet de décrire convenablement une expérience aléatoire est l’espace
probabilisé. Il est constitué de trois ingrédients : un univers Ω, une tribu F, et une mesure de
probabilité P. Nous allons à présent passer un peu de temps sur chacune de ces notions.
1.1 Univers
Pour décrire une expérience aléatoire, il faut commencer par en spécifier les résultats possibles.
L’ensemble de tous ces résultats est appelé univers, et sera noté Ω. La nouveauté cette année est
que nous n’imposerons aucune restriction sur la taille de cet ensemble : il pourra être fini, infini
dénombrable, ou infini non-dénombrable. Notons que le choix de l’univers n’est pas unique : il y a
plusieurs façons raisonnables de décrire les choses. Voici quelques exemples :
1. Lancer d’un dé : Ω = {1, 2, 3, 4, 5, 6}.
2. Deux lancers de dé successifs : Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}.
3. Lancer d’une pièce de monnaie : Ω = {Pile, Face}.
4. Pour n ∈ N fixé, n lancers successifs d’une pièce de monaire : Ω = {Pile, Face}n .
5. Une suite de lancers d’une pièce de monaie : Ω = {Pile, Face}N .
6. Deux tirages successifs avec remise dans une urne contenant une boule rouge, une boule verte
et une boule bleue : Ω = {R, V, B} × {R, V, B}.
7. Même exemple, sans remise : Ω = {(R, V ), (R, B), (V, B), (V, R), (B, R), (B, V )}.
8. Mélange d’un paquet de cartes : Ω = S52 , le groupe des permutations d’ordre 52.
9. Nombre d’éruptions d’un volcan durant le prochain siècle : Ω = N.
10. Proportion de votes démocrates à la prochaine élection présidentielle américaine : Ω = [0, 1].
11. Durée de vie d’une ampoule neuve : Ω = [0, ∞[.
4
Voici quelques exemples d’univers un peu plus sophistiqués :
12. Percolation. On fixe un entier n ∈ N et on considère un écran carré de taille (en pixels) n,
Bn = {1, . . . , n}2 . Chaque point (pixel) de Bn peut être allumée ou non. L’ensemble des pixels
allumés est aléatoire ce qui nous donne comme univers
Ω = {0, 1}Bn ,
• · • · • • · • · ·
· • · • • · · · · •
· • · • · · • · • ·
• • • • · · · • • •
• • • • · • · · • •
• · · · • • • · · ·
· · · · • · · · · ·
• · · • · • · · · •
· • • · · · · • · •
• · • · · • · · · ·
Figure 1: Un exemple d’élément dans Ω pour n = 10. Les points épais correspondent à des 1 (pixel
allumé) et les petits aux 0 (pixel éteint).
2
Ici Ω est fini mais on peut aussi penser à un écran infini et l’univers est alors Ω = {0, 1}Z
qui n’est plus un espace fini, ni même dénombrable.
13. On fixe à nouveau un entier n ∈ N et on considère cette fois une population de taille n dont
les individus sont numérotés de 1 à n. Le fait pour un individu d’en connaitre un autre est
aléatoire et on souhaite modéliser ces relations de connaissance. On considère donc le graphe
(penser aux graphes représentant les liens dans un réseau social) dont l’ensemble des sommets
est S = {1, . . . , n} et l’ensemble des arrêtes non orientées est A = {{i, j}, 1 ≤ i < j ≤ n}.
On peut considérer comme univers l’ensemble des parties de l’ensemble des arrêtes,
Ω = P(A).
1.2 Tribus
5
1
2
3
4
de nous intéresser. L’ensemble de ces événements sera appelé tribu, et noté F. Une tribu F est donc
une collection ou encore une famille de parties de Ω. On a donc F ⊂ P(Ω). Il peut sembler tentant
à ce stade du cours de prendre systématiquement F = P(Ω) mais ça n’est malheureusement pas
pertinent dans certains cas et nous essaierons d’expliquer pourquoi plus loin. L’idée est que P(Ω)
est dans certains cas trop gros pour que l’on puisse construire des probabilités naturelles sur
tout P(Ω), c’est-à-dire associer une probabilité à chaque partie de Ω en respectant les règles qu’une
probabilité doit satisfaire (et que l’on verra dans la partie suivante). C’est notamment le cas quand
Ω n’est pas dénombrable. Il faut donc se restreindre à une sous famille stricte de P(Ω).
Pour définir une tribu, nous allons imposer de respecter quelques règles de stabilité.
Remarque 1. On rappelle qu’un ensemble dénombrable est un ensemble qui est en bijection avec
une partie de N (ou, de façon équivalente, on peut aussi définir un ensemble dénombrable comme un
ensemble qui peut être injecté dans N). On notera donc que dans ce cours un ensemble dénombrable
peut être fini ou dénombrable infini. Dans d’autres documents vous trouverez peut-être une autre
convention où dénombrable signifie seulement infini dénombrable et cela exclut donc les ensembles
finis. Cette notion de dénombrabilité joue un rôle important en théorie de probabilités (et plus
généralement en maths !). Pour vous familiarisez avec cette notion je vous conseille de faire les
exercices de la première feuille de TD.
Nous réserverons désormais le terme événement aux seules parties A ∈ P(Ω) qui sont dans F.
Exemple 1. Par exemple, l’obtention d’un chiffre pair avec un dé correspond à la réalisation de
l’événement A = {2, 4, 6} dans l’univers Ω = {1, 2, 3, 4, 5, 6}, tandis que l’obtention d’un double avec
6
deux lancers de dé successifs correspond à la réalisation de l’événement A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}
dans l’univers Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}.
Exemple 2. Dans l’exemple 12, on peut considérer l’événement suivant : il existe un chemin aux
plus proches voisins de sites allumés qui relie le côté gauche du carré au côté droit :
ω ∈ Ω, ∃K ≥ 0, γ : {0, . . . , K} → B n ,
pour tout i ∈ {0, . . . , K − 1}, ||γ(i + 1) − γ(i)||1 = 1,
A=
γ(1)1 = 1, γ(K)1 = n
pour tout i ∈ {0, . . . , K}, ω
γ(i) = 1
• · · · • · • • · •
· · · · • • • • • ·
· · • • • · • · • ·
• • · • • · · • · •
· • · · · • · • • •
· • · • · · • · · ·
• · • • · • • · • •
• • • · · · · • • ·
· • • · • • · · · ·
· · · • • • · · • •
Exemple 3. Sur l’univers Ω = {1, 2, 3, 4, 5, 6}, l’ensemble F = {∅, {2, 4, 6}, {1, 2, 3, 4, 5, 6}} n’est
pas une tribu, car il contient {2, 4, 6} mais pas son complémentaire. En revanche, l’ensemble F =
{∅, {1, 3, 5}, {2, 4, 6}, {1, 2, 3, 4, 5, 6}} est bien une tribu.
Il y a une correspondance entre le vocabulaire décrivant une expérience aléatoire et les notations
ensemblistes : si A et B sont des événements,
1. A : A s’est réalisé.
2. Ac : A ne se réalise pas
3. A ∪ B : A ou B se réalisent
4. A ∩ B : A et B se réalisent
5. A ⊂ B : si A se réalise alors B aussi
6. A ∩ B = ∅ : A et B ne peuvent se réaliser en même temps
Et la liste est bien sûr à compléter...
7
La définition d’une tribu est concise, mais elle implique automatiquement la stabilité de F par
toutes sortes d’opérations ensemblistes classiques, notamment celles listées ci-dessous.
L’ensemble P(Ω) de toutes les parties est évidemment une tribu, et c’est celle que nous adopte-
rons systématiquement lorsque Ω est fini ou dénombrable. Sur des espaces plus gros, on procédera
plutôt comme suit : on commencera par spécifier un ensemble C de parties que l’on souhaiterait
absolument voir figurer dans la tribu, puis on y ajoutera seulement les parties qui manquent pour
que les axiomes de tribu soient satisfaits. Cette idée est formalisée par la définition suivante.
est bien une tribu (car une intersection de tribu est encore une tribu) qui contient C, et qui est
incluse dans toute autre tribu contenant C. L’intersection est par ailleurs non vide puisque P(Ω)
est une tribu et contient C. Cette expression n’a cependant que peu d’intérêt pratique.
8
On notera bien, car cela sert souvent, que si G est une tribu et G contient C alors G contient
σ(C).
Exercice 1. Soit C l’ensemble de toutes les parties finies de R. Justifier que C n’est pas une tribu
sur l’univers Ω = R, puis déterminer la tribu engendrée par C.
Les intervalles réels constituent une famille tout-à-fait raisonnable de parties de l’univers Ω = R,
mais ne forment pas une tribu (pourquoi ?). Nous sommes donc naturellement amenés à considérer
la tribu qu’ils engendrent. Cette dernière est suffisamment importante pour mériter une définition.
Définition 3 (Tribu borélienne). On appelle tribu borélienne la tribu engendrée sur R par les
intervalles de la forme ]a, b[ avec a, b ∈ R et a < b. Les éléments de B(R) sont appelés les boréliens.
Une définition équivalente que vous rencontrerez souvent et qui permet de définir les tribus
boréliennes de façon plus générale (pour tous les ensembles munis d’une métrique par exemple ou
d’une topologie) :
Définition 4 (Tribu borélienne). On appelle tribu borélienne la tribu engendrée par les ouverts de
R.
On rappelle qu’un ensemble O ⊂ R est un ouvert si pour tout x ∈ O il existe ε > 0 tel que
]x − ε, x + ε[⊂ O. Ainsi ]0, 2[ est un ouvert (comme tous les intervalles ouverts) mais [1, 3[ ne l’est
pas. La preuve de l’équivalence des deux définitions de la tribu borélienne est l’objet de l’exercice
2 ci-dessous.
La tribu borélienne est énorme : elle contient bien-sûr les intervalles, mais aussi toutes les
parties qui peuvent être obtenues à partir de ceux-ci en effectuant un nombre arbitraire d’unions
dénombrables et de passages au complémentaire. Dans la pratique, tous les ensembles réels aux-
quels on peut penser sont boréliens, et il est bien difficile de construire un contre-exemple. À titre
d’exercice, nous invitons le lecteur à considérer un ensemble de réels rencontré au cours de sa scola-
rité – par exemple les irrationnels – et à vérifier qu’il s’agit bien d’un borélien. Dans la suite, nous
munirons toujours R de la tribu borélienne sauf lorsque nous préciserons explicitement que ça n’est
pas le cas. L’exercice qui suit conforte ce choix, puisqu’il montre que B(R) est également engendrée
par plusieurs autres familles toutes aussi naturelles.
Exercice 2. Montrer que B(R) est aussi engendrée par chacune des familles suivantes :
1. Les intervalles de la forme [a, b] avec a, b ∈ R et a < b.
2. Les intervalles de la forme ] − ∞, a] avec a ∈ R.
3. Les parties ouvertes de R.
9
4. Les parties fermées de R.
Il est rarement possible de décrire explicitement tous les éléments de σ(C) (où C est un ensemble
de partie de Ω). Aussi lorsque l’on veut montrer que σ(C) est incluse dans une tribu G on raisonne
souvent de la façon suivante. On commence par montrer que C ⊂ G. Et on conclut en notant que
G est une tribu et contient C donc contient la plus petite tribu qui contient C. C’est une méthode
à retenir car vous l’utiliserez de nombreuses fois !
Il est difficile de montrer que P(R) 6= B(R) et cela nécessite d’admettre l’axiome du choix. Vous
verrez cependant l’année prochaine des exemples de telles parties dans le cours d’intégration. Vous
pouvez aussi aller voir le paradoxe de Banach-Tarski, très bien expliqué sur wikipedia, pour un joli
théorème qui montre au passage l’existence de parties non boreliennes dans R3 .
Maintenant que nous nous sommes mis d’accord sur la liste des événements susceptibles de
nous intéresser, il ne nous reste plus qu’à préciser les chances qu’ils ont de se réaliser. À chaque
événement A ∈ F, nous allons associer une probabilité P(A) ≥ 0. L’application A 7→ P(A) devra
seulement respecter deux règles très naturelles : l’événement “certain” Ω se réalise avec probabilité
1, et les probabilités s’ajoutent lorsque l’on réunit une suite d’événements deux-à-deux disjoints.
Définition 5 (Mesure de probabilité). Soit Ω un univers muni d’une tribu F. Une mesure de
probabilité sur (Ω, F) est une fonction P : F → [0, 1] qui vérifie :
1. P(Ω) = 1
2. pour toute suite (An )n≥1 d’éléments de F deux-à-deux disjoints
∞ ∞
!
[ X
P An = P(An ).
n=1 n=1
10
est une mesure de probabilité sur (Ω, P(Ω)). Les mesures de cette forme sont appelées lois discrètes.
On pourra appeler p fonction de poids même si ce terme n’est pas vraiment répandu.
P
Démonstration. La preuve est facile : P(Ω) = x∈Ω p(x) = 1 et pour toute suite (An )n≥1 d’éléments
de F deux-à-deux disjoints
∞
[ X X X X
P( An ) = p(x) = p(x) = P(An ).
n=1 x∈ ∞
S
n=1 An
n≥1 x∈An n≥1
1
Lorsque Ω est fini, un exemple important consiste à prendre p(ω) = card(Ω) pour tout ω ∈ Ω
(tous les résultats sont équiprobables). On obtient alors la loi discrète importante suivante.
Exemple 5 (Loi uniforme sur un ensemble fini). Soit Ω un ensemble fini et non-vide, muni de la
tribu F = P(Ω). Alors l’application P : F → [0, 1] définie par
card(A)
P(A) := , (1)
card(Ω)
Démonstration. Facile pour 1. Pour 2 : soit (An )n≥1 une suite d’éléments de F deux-à-deux disjoints
c’est une propriété du cardinal card( ∞
S P∞
n=1 An ) = n=1 card(An ).
De la définition générale d’une mesure de probabilité découlent diverses “règles de calcul” bien
utiles en pratique. En voici une liste non-exhaustive, à retenir pour les exercices.
P(Ac ) = 1 − P(A).
11
4. (Monotonie) Pour deux événements A, B quelconques,
A ⊆ B =⇒ P(A) ≤ P(B).
∞ ∞
!
[ X
P An ≤ P (An ) .
n=1 n=1
∞
!
[
P An = lim ↑ P (An ) .
n→∞
n=1
∞
!
\
P An = lim ↓ P (An ) .
n→∞
n=1
12
6. On définit la suite d’événements disjoints suivants : B1 = A1 , B2 = A2 \ B1 et pour n ≥ 1,
Bn+1 = An+1 \(∪ni=1 Ai ). On a alors ∞
S S∞
n=1 An = n=1 Bn ...mais on a gagné que les événements
de cette union sont disjoints 2 à 2 et donc
∞
[ ∞
X ∞
X
P( An ) = P (Bn ) ≤ P (An ) ,
n=1 n=1 n=1
∞
[ ∞
[ ∞
X N
X
P( An ) = P( Bn ) = P (Bn ) = lim ↑ P (Bn ) = lim ↑ P (AN )
N →+∞ N →+∞
n=1 n=1 n=1 n=1
8. D’après le point 2,
∞
\ ∞
[
P( An ) = 1 − P( Acn )
n=1 n=1
∞
[
P( Acn ) = lim ↑ P(Acn ) = 1 − lim ↓ P(An ),
n→∞ n→∞
n=1
et on obtient le résultat.
Ces règles permettent de déduire la probabilité de certains événements à partir de celles d’autres
événements. Au delà de l’intérêt pratique évident, une conséquence théorique importante est qu’il
n’est pas nécessaire de spécifier la probabilité P(A) de chaque événement A ∈ F pour décrire une
mesure de probabilité P : si C ⊆ F est une collection d’événements “suffisamment grosse”, alors la
connaissance de P(A) pour tout A ∈ C suffira à reconstruire entièrement l’application P : F → [0, 1].
Le résultat suivant, admis, donne un sens rigoureux à l’expression “suffisamment grosse”.
13
La démonstration de ce résultat déborde le programme de cette année. C’est une conséquence
directe du lemme de classe monotone. Les lecteurs les plus curieux pourront faire le dernier exercice
du TD 2 qui établit ce résultat. La condition 2 est importante dans le théorème précédent comme
le prouve le contre-exemple suivant.
Exercice 3. On considère Ω = {1, 2, 3, 4, 5} et la collection de parties C = {{1, 2, 3}, {2, 4}, {3, 4, 5}}.
1. Vérifier que σ(C) = P(Ω) (montrer que tous les singletons sont dans σ(C) puis conclure en
utilisant la stabilité par union dénombrable).
2. On note P la probabilité uniforme et on définit la probabilité Q par la fonction de poids
p(1) = 3/10, p(2) = 1/10, p(3) = 1/5, p(4) = 3/10, p(5) = 1/10. Montrer que P et Q
coı̈ncident sur C mais pas sur P(Ω). Est ce que cela contredit le Théorème 1 ?
Voici une application importante de ce résultat, que nous utiliserons dans le chapitre suivant.
Corollaire 1 (Cas borélien). Une mesure de probabilité sur (R, B(R)) est entièrement déterminée
par ses valeurs sur les intervalles de la forme ] − ∞, t] avec t ∈ R.
Nous disposons désormais de tout le vocabulaire nécessaire pour définir notre objet fondamental.
Définition 6 (Espace probabilisé). Un espace probabilisé (ou espace de probabilité) est un triplet
(Ω, F, P), où Ω est un univers, F une tribu sur Ω, et P une mesure de probabilité sur (Ω, F).
Exemple 6. On lance deux fois un dé, et on s’intéresse aux chances d’obtenir un double. L’univers
des possibles est Ω = {1, . . . , 6} × {1, . . . , 6}, que l’on munit de la tribu F = P(Ω) et de la loi
uniforme (1). Dans l’espace probabilisé (Ω, F, P), l’obtention d’un double correspond à l’événement
A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)},
card(A) 6 1
P(A) = = = ≈ 0.17.
card(Ω) 36 6
14
Ainsi, dans notre modèle, il y a environ 17% de chances d’obtenir un double en lançant deux dés.
Exemple 7. Reprenons l’exemple de la percolation, Exemple 12. On peut donc considérer l’espace
probabilisé suivant, Ω = {0, 1}Bn , F = P(Ω) et P la probabilité uniforme sur Ω. Avec les objets
simples construits dans cette section, on peut déjà poser quelques questions très difficiles. Par
exemple que vaut P(A), où on rappelle que A est l’événement ”les côtés gauche et droite de l’écran
sont connectés par un chemin de pixels allumés” ? Quelle est la limite de cette quantité quand
n → +∞ ? Il est étonnant que l’on puisse déjà au terme de ce premier chapitre poser des questions
qui dépassent largement ce que nous allons apprendre cette année et même tout ce que nous allons
apprendre pendant le cursus dauphinois !
On peut cependant montrer qu’il n’est pas possible de construire une application sur P([0, 1])
vérifiant les deux points de la définition d’une probabilité et la propriété (?).
De manière plus générale, le théorème d’Ulam (que vous retrouverez sur wikipedia mais qui
dépasse très largement le programme de ce cours et même de cours de niveaux bien plus élevés)
nous dit qu’il n’est pas possible de construire de nombreuses probabilités qui semblent pourtant
naturelles sur (R, B(R)). Il est donc dans ce cas nécessaire de renoncer à donner une probabilité
à chaque partie de R ; il faut se restreindre à des sous-tribus de P(R)...et à introduire la tribu
borelienne.
15
2 Variables aléatoires réelles
Dorénavant, nous supposerons donné un espace probabilisé (Ω, F, P) modélisant notre expérience
aléatoire. Bien souvent, ce n’est pas directement son résultat ω ∈ Ω lui-même qui va nous intéresser,
mais une certaine quantité X(ω) ∈ R construite à partir de ce résultat. Dans le cas de deux lancers
de dé par exemple, on pourra s’intéresser à la somme des deux chiffres obtenus, au plus grand des
deux chiffres, etc. C’est à l’étude de ces “observables” que nous allons nous consacrer.
Soit X : Ω → R une fonction. Puisque la réalisation ω est choisie au hasard, son image X(ω)
sera aussi aléatoire, et nous allons chercher à estimer les chances pour que X(ω) tombe dans telle
ou telle partie B ∈ P(R). De manière équivalente, cela revient à estimer les chances pour que ω
lui-même tombe dans l’image réciproque de cette partie par X :
On prendra garde à ne confondre cette notation X −1 avec la notation f −1 que l’on utilise pour
la fonction réciproque d’une bijection. Ici X n’a aucune raison d’être supposée bijective et X −1
associe à une partie de l’espace d’arrivée R une partie de l’espace de départ Ω constituée de tous
les antécédents des éléments de B.
Pour que la question ait un sens, il faut bien sûr que X −1 (B) soit un événement de notre
tribu F, et ce pour toute partie B ∈ P(R) susceptible de nous intéresser. Comme expliqué plus
haut, les parties “intéressantes” de R seront toujours pour nous les boréliens, et nous sommes ainsi
naturellement conduits à la définition importante suivante.
Définition 7 (Variable aléatoire réelle, loi). On appelle variable aléatoire réelle (on écrira v.a.r.)
sur (Ω, F, P) une application X : Ω → R qui vérifie la propriété de mesurabilité suivante :
PX (B) := P X −1 (B) .
On vérifie aisément que PX est une mesure de probabilité sur (R, B(R)), appelée loi de X.
Les fonctions qui satisfont (3) sont dites mesurables de (Ω, F) dans (R, B(R)).
16
Remarque 3 (Notations). Pour plus de lisibilité, l’événement (2) sera souvent noté {X ∈ B}, et
nous écrirons P(X ∈ B) plutôt que P(X −1 (B)). Cette notation conforte l’idée que X représente un
“nombre aléatoire”, mais elle ne devra pas faire oublier qu’il s’agit en réalité d’une fonction. D’autre
part, nous utiliserons la notation pratique X ∼ µ pour dire que X a pour loi µ (i.e. PX = µ).
{X ∈ B} := {ω ∈ Ω, X(ω) ∈ B} ∈ F.
On peut alors définir la loi de X comme la probabilité PX sur l’espace d’arrivée (E, E) qui a tout
événement B ∈ E associe
PX (B) = P(X ∈ B).
Cependant, c’est principalement le cas particulier des variables aléatoires réelles qui va nous occuper
ce semestre.
Pour montrer que PX introduit dans la Définition 7 est bien une probabilité sur (R, B(R)) nous
devons vérifier les deux points de la définition. Tout d’abord PX (R) = P(X ∈ R) = P(Ω) = 1. Par
ailleurs pour toute suite (An )n≥0 de boréliens disjoints deux à deux, on note que {X ∈ ∪n≥0 An } =
∪n≥0 {X ∈ An }. Comme X est une variable aléatoire, pour tout n ≥ 0, {X ∈ An } ∈ F et de plus
ces événements sont deux à deux disjoints. On en déduit en utilisant la σ−additivité,
X X
PX (∪n≥0 An ) = P(X ∈ ∪n≥0 An ) = P(∪n≥0 {X ∈ An }) = P(X ∈ An ) = PX (An ).
n≥0 n≥0
La mesure de probabilité PX résume tout ce qui pourra nous intéresser au sujet de la variable
aléatoire X : elle décrit les chances pour que X “tombe” dans n’importe quel borélien B ∈ P(R).
C’est un point important de la construction du modèle probabiliste. Les variables aléatoires sont
des fonctions mais on ne s’intéresse pas réellement à la relation fonctionnelle c’est-à-dire à savoir
quelle est l’image de chacun des points de l’espace de départ. On cherche plutôt à déterminer
la probabilité que la fonction prenne telle ou telle valeur ou tombe dans tel ou tel ensemble de
l’espace d’arrivée. La probabilité PX porte exactement cette information. On notera d’ailleurs que
bien souvent l’espace de départ n’est même pas précisé. Il constitue une sorte de boite noir ou de
générateur de hasard que l’on n’explicite pas. On se contente de considérer une variable et d’en
préciser la loi.
17
Spécifier PX (B) pour tout B ∈ B(R) serait en pratique assez fastidieux (de la même façon qu’il
était difficile de définir P(A) pour tout A ∈ F), mais le Corollaire 1 nous autorise heureusement à
nous restreindre aux boréliens de la forme B =] − ∞, t] avec t ∈ R. Nous sommes ainsi amenés à
introduire l’objet suivant, qui jouera un rôle central dans l’étude de X.
Définition 8 (Fonction de répartition). Soit X une variable aléatoire réelle. On appelle fonction
de répartition de X la fonction FX : R → [0, 1] définie comme suit : pour tout t ∈ R,
La motivation donnée ci-dessus est suffisamment importante pour mériter le nom de théorème.
Théorème 2 (La fonction de répartition caractérise la loi). Soient X et Y deux variables aléatoires
réelles. Alors les propositions suivantes sont équivalentes :
1. X et Y ont même loi : P(X ∈ B) = P(Y ∈ B) pour tout B ∈ B(R).
2. X et Y ont même fonction de répartition : FX (t) = FY (t) pour tout t ∈ R.
Les fonctions de répartition ont des propriétés particulières, dont voici la description complète.
Démonstration. Nous nous contenterons de démontrer le sens facile (la réciproque étant par ailleurs
réellement une question délicate), à savoir que toute fonction de répartition possède bien les trois
propriétés ci-dessus.
1. Soit s ≤ t, comme ] − ∞, s] ⊂] − ∞, t, on a PX (] − ∞, s]) ≤ PX (] − ∞, t]) et donc F (s) ≤ F (t).
2. Soit t ∈ R. Comme F est monotone, il suffit de montrer que la suite (F (t + 1/n))n≥1 converge
vers F (t). On remarque pour ça que ] − ∞, t] = ∩n≥1 ↓] − ∞, t + 1/n] et on utilise la continuité
décroissante pour en déduire que (PX (] − ∞, t + 1/n]))n≥1 converge vers PX (] − ∞, t]).
3. On a ∅ = ∩n≥1 ↓] − ∞, −n], donc en utilisant encore la continuité décroissante, (F (−n))n≥1
converge vers 0. Cela suffit à montrer que F (t) → 0 lorsque t → −∞ puisque F est croissante.
18
Par ailleurs R = ∪n≥1 ↓] − ∞, n] et on en déduit en utilisant la continuité croissante que
(F (n))n≥1 converge vers 1. C’est suffisant pour montrer que F (t) → 1 lorsque t → +∞
puisque F est croissante.
Notons aussi que le fait que la fonction de répartition soit croissante assure qu’elle a une limite
à droite et à gauche en tout point. La fonction de répartition est donc càdlàg : elle est continue à
droite avec une limite à gauche. Vous verrez souvent cette acronyme qui est utilisé même hors de
France !
Le Théorème 2 assure que la fonction de répartition FX caractérise P(X ∈ B) pour tout borélien
B ∈ B(R) mais en pratique il est souvent difficile de déterminer la valeur de P(X ∈ B) à partir de
FX . Pour quelques boréliens simples, on peut cependant aisément trouver la probabilité recherchée :
Exercice 4. Soit X une variable aléatoire réelle, et a ≤ b deux réels. Établir les formules suivantes
1. P(X > a) = 1 − FX (a).
2. P(X < a) = FX (a−), où FX (a−) désigne la limite à gauche de FX au point a.
3. P(a < X ≤ b) = FX (b) − FX (a).
4. P(X = b) = FX (b) − FX (b−).
5. P(a < X < b) = FX (b−) − FX (a).
Nous introduisons maintenant deux classes particulières de variables aléatoires qui joueront un
rôle important tout ce semestre.
Un cas particulièrement simple est celui où l’ensemble Im(X) := {X(ω) : ω ∈ Ω} (rien à voir
donc avec la notation d’algèbre linéaire : l’image n’a pas ici de structure algébrique particulière !) des
valeurs prises par notre variable aléatoire X est fini ou dénombrable. Dans ce cas, il suffit de vérifier
la mesurabilité (3) pour des boréliens élémentaires, à savoir les singletons B = {x}, x ∈ Im(X).
En effet, une fois que l’on sait que {X = x} ∈ F pour tout x ∈ Im(X), on peut en déduire que
{X ∈ B} ∈ F pour tout borélien B ∈ B(R) en écrivant
[
{X ∈ B} = {X = x},
x∈Im(X)∩B
et en invoquant la stabilité de la tribu F par réunion finie ou dénombrable. On notera bien que
l’argument ne fonctionne plus si la variable n’est pas discrète. Comme les événements ({X =
19
x})x∈Im(X)∩B sont en outre deux-à-deux disjoints, la σ-additivité de P nous autorise à écrire
X
P(X ∈ B) = P(X = x). (4)
x∈Im(X)∩B
et la variable aléatoire
X : (Ω, F) → (X , P(X ))
ω 7→ ω.
Nous avons donc ainsi complètement caractérisé les lois des variables aléatoires réelles discrètes.
X(ω) := ω1 + ω2 .
Alors l’application X : Ω → R ainsi définie est une variable aléatoire discrète sur Ω. L’ensemble
des valeurs possibles est X(Ω) = {2, 3, . . . , 12} et l’on calcule aisément les probabilités associées :
x 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
P(X = x) 36 36 36 36 36 36 36 36 36 36 36
20
Voici les cinq lois discrètes les plus utilisées en pratique, à connaı̂tre sur le bout des doigts.
Exemple 9 (Lois discrètes usuelles). Nous dirons qu’une variable aléatoire X suit la :
1. Loi uniforme sur X (fini, non-vide), notée U(X ), si Im(X) = X et
1
∀x ∈ X , PX ({x}) = P(X = x) = ,
|X |
P(X = 1) = p, P(X = 0) = 1 − p.
Notons au passage que la somme des probabilités vaut bien 1, comme on le voit en prenant
a = p et b = 1 − p dans la formule du binôme de Newton : pour tout a, b ∈ C,
n
n
X n k n−k
(a + b) = a b .
k
k=0
4. Loi géométrique avec probabilité de succès p ∈]0, 1], notée G(p), si Im(X) = N∗ et
Le fait que la somme des probabilités vaut 1 s’obtient ici en prenant x = 1 − p dans le
développement en série entière suivant, valable dès que |x| < 1 :
∞
1 X
= xk .
1−x
k=0
e−λ λk
∀k ∈ N, P(X = k) = .
k!
Le fait que la somme des probabilités vaut 1 s’obtient cette fois en prenant x = λ dans le
21
développement en série entière de la fonction exponentielle : pour tout x ∈ C :
∞
X xk
ex = .
k!
k=0
Définition 9 (Densité). Une densité (de probabilité) est une fonction f : R → R+ intégrable, avec
Z +∞
f (x) dx = 1. (6)
−∞
vérifie clairement les trois propriétés du Théorème 3, et est donc une fonction de répartition. Les
v.a.r. dont la fonction de répartition est de cette forme seront dites à densité.
Ici, le terme intégrable doit être compris au sens où il a été défini dans votre cours d’analyse.
Vous verrez l’année prochaine une théorie beaucoup plus puissante de l’intégration qui permet
d’étendre cette définition.
Remarque 5 (Continuité). Si une v.a.r. X admet une densité f au sens ci-dessus, alors la
représentation intégrale (7) implique (entre autres choses) que sa fonction de répartition F est
22
continue. Au vu de l’exercice 4, nous en déduisons en particulier que pour tout x ∈ R,
Les variables à densité sont donc radicalement différentes des variables discrètes introduites précédemment
puisqu’elles ne mettent de masse sur aucun point !
et que la formule ne change pas si l’on remplace les inégalités strictes par des inégalités larges.
Exemple 10 (Densités usuelles). Voici les cinq lois à densité les plus utilisées en pratique.
1. Loi uniforme sur ]a, b[ (avec a, b ∈ R et a < b), notée U(]a, b[) :
(
1
1 b−a si x ∈]a, b[
f (x) = 1 (x) =
b − a ]a,b[ 0 sinon.
(x−µ)2
e− 2σ 2
f (x) = √ .
2πσ 2
La vérification de la condition (6) se déduit ici de la célèbre formule suivante, due à Gauss :
Z +∞ x2 √
e− 2 dx = 2π.
−∞
λr r−1 −λx
f (x) = x e 1]0,∞[ (x).
Γ(r)
23
La condition (6) découle ici de la définition même de la fonction Γ : ]0, ∞[→]0, ∞[ :
Z +∞
Γ(r) := xr−1 e−x dx.
0
Notons que la loi Gamma est une généralisation de la loi exponentielle (prendre r = 1).
5. Loi de Cauchy de paramètre λ > 0, notée C(λ) :
λ
f (x) = .
π(λ2 + x2 )
On pourra vérifier que l’intégrale de cette fonction vaut 1 en dérivant la fonction arctan.
Assurez vous de savoir tracer les graphes de ces différentes fonctions de densité.
Nous serons amenés à considérer diverses opérations naturelles sur les v.a.r. : somme, produit,
limite, composition par certaines applications, etc. Quelques précautions s’imposent afin d’assurer
la propriété de mesurabilité (3). Nous commençons par un lemme très utile.
{X ∈ B} ∈ F, ∀B ∈ C.
Démonstration. On commence par vérifier que l’ensemble {B ∈ B(R) : X −1 (B) ∈ F} est une tribu.
Si cette tribu contient C, elle contient forcément σ(C), donc doit être égale à B(R).
Proposition 3 (sup, inf, lim). Soit (Xn )n≥1 une suite de variables aléatoires réelles. Alors, les
applications suivantes sont des variables aléatoires réelles dès lors qu’elles sont bien définies :
Démonstration. Commençons par le cas X(ω) = supn≥1 Xn (ω). Pour tout t ∈ R, on peut écrire
\
{X ≤ t} = {Xn ≤ t}. (9)
n≥1
24
Pour chaque n ≥ 1, Xn est une variable aléatoire réelle, donc {Xn ≤ t} ∈ F. Comme F est
stable par intersection dénombrable, nous en déduisons que {X ≤ t} ∈ F. C’est vrai pour tout
t ∈ R, et l’on conclut en appliquant le lemme ci-dessus à l’ensemble C des intervalles de la forme
] − ∞, t], t ∈ R. Le cas où X(ω) = inf n≥1 Xn (ω) s’obtient en remplaçant ≤ par ≥ et ] − ∞, t] par
[t, +∞[ dans l’argument ci-dessus. Enfin, lorsque X(ω) = limn→∞ Xn (ω), il suffit de noter que
X(ω) = sup inf Xn (ω), (ou d’ailleurs inf sup Xn (ω) ) (10)
k≥1 n≥k k≥1 n≥k
(voir l’exercice 6 de la première feuille de TD), puis d’invoquer les deux résultats précédents.
Étant données une variable aléatoire réelle X et une fonction h : R → R, il est naturel de
chercher à définir une nouvelle variable aléatoire réelle h(X) en les composant comme suit :
h(X) : Ω → R
ω 7→ h (X(ω)) .
Cependant, pour que cette application soit bien une v.a.r., il faut imposer une condition sur h.
Définition 10 (Fonction borélienne). Une fonction h : R → R est dite borélienne si elle vérifie
Cette propriété garantit que h(X) est une variable aléatoire réelle dès que X en est une.
En reprenant le vocabulaire que nous avons introduit pour définir une variable aléatoire, on
peut dire qu’une fonction borélienne est une fonction mesurable de (R, B(R)) dans (R, B(R)).
Exercice 7 (Exemples importants). Montrer que les fonctions suivantes sont boréliennes :
1. Une fonction h : R → R continue.
2. Une fonction h : R → R monotone (croissante ou décroissante).
3. Une fonction indicatrice h = 1B , avec B ∈ B(R).
4. La composée de deux fonctions boréliennes.
5. Le supremum, l’infimum et la limite d’une suite de fonctions boréliennes (lorsqu’ils existent).
25
Proposition 4 (Fonctions de plusieurs variables). Soient X1 , . . . , Xn des variables aléatoires réelles
sur (Ω, F, P), et soit F : Rn → R une fonction continue. Alors l’application
est une variable aléatoire réelle, que nous noterons simplement F (X1 , . . . , Xn ).
Exercice 8 (Indistingabilité). Soient X, Y des v.a.r. sur (Ω, F, P). Justifier que {X = Y } est un
événement, puis montrer que si X = Y p.s. (i.e. P(X = Y ) = 1), alors X et Y ont même loi.
26
3 Espérance
Ce chapitre est consacré à la quantité la plus fondamentale que l’on puisse associer à une variable
aléatoire réelle X : son espérance mathématique E[X]. Intuitivement, ce nombre représente la
valeur théorique moyenne autour de laquelle la variable aléatoire X va fluctuer. C’est la meilleure
estimation que l’on puisse donner de X, la valeur que l’on est en droit d’espérer. La définition
formelle est un cas particulier de l’intégrale d’une fonction par rapport à une mesure, théorie qui
ne sera développée que l’an prochain. Nous nous contenterons ici d’une présentation allégée.
L’espérance d’une v.a.r. X sur un espace probabilisé (Ω, F, P) est définie en trois étapes :
1. (Variables étagées) On commence par le cas simple où la variable X est étagée, c’est-à-dire
qu’elle ne prend qu’un nombre fini de valeurs. Autrement dit, on a
n
X
X = ai 1Ai , (13)
i=1
n
X
E[X] := ai P(Ai ). (14)
i=1
Ce cas discret fini correspond bien à l’intuition qu’on a de l’espérance (ou de la moyenne) c’est-
à-dire une somme pondérée des ai , i = 1 · · · , n. La construction de l’espérance mathématique
permet de generaliser ce cas à toutes les variables aléatoires (pour lesquelles cette notion
d’espérance a du sens). On note ici (mais c’est vrai en général) que l’espérance ne dépend de
X qu’à travers sa loi PX c’est-à-dire que deux variables de même loi ont même espérance.
2. (Variables positives) On considère ensuite le cas où la v.a.r. X est positive, c’est-à-dire telle
que Im(X) ⊆ [0, ∞[. Dans ce cas, on définit E[X] ∈ [0, ∞] ainsi :
Cette quantité est toujours positive (prendre Z = 0 dans la définition ci-dessus), mais atten-
tion : elle peut très bien être égale à +∞ ! Il faudra bien garder cela en tête. Il y a derrière
27
cette définition l’idée qu’une variable aléatoire positive peut être bien approximée par une
fonction étagée, cf Remarque 7.
3. (Variables intégrables) Enfin, dans le cas d’une variable aléatoire réelle X quelconque, on écrit
X = X + − X −, (16)
Attention cependant : cette définition n’a pas de sens si E[X + ] = E[X − ] = ∞. Nous dirons
donc que la variable aléatoire réelle X est intégrable si E[X + ] < ∞ et E[X − ] < ∞ et dans
ce cas seulement, nous définissons son espérance par la formule (17). On peut vérifier que la
condition (E[X + ] < ∞ et E[X − ] < ∞) est équivalente à E[|X] < +∞ car |X| = X + + X − .
Nous n’avons donc le droit d’écrire E[X] que dans deux cas : quand X est positive
ou quand E[|X|] < +∞.
Avant d’énoncer quelques propositions, un petit point de vocabulaire : on dit d’une propriété
relative à une variable aléatoire X, ou à une suite de variables aléatoires (Xn )n≥0 définie sur le
même espace de probabilité (Ω, F, P), qu’elle est vraie presque sûrement, et on note souvent
p.s., si l’ensemble des ω pour lesquels elle est vraie est de probabilité 1. De façon équivalente on
dit d’une propriété qu’elle est vraie p.s. si les ω qui ne la vérifient pas forment un ensemble de
probabilité nulle. Par exemple on dit que X est positive p.s. si
De la définition ci-dessus, on peut déduire les propriétés suivantes, très utiles en pratique.
28
Proposition 5 (Propriétés fondamentales de l’espérance).
1. (Espérance d’une indicatrice) Pour tout événement A ∈ F, on a
Ce point est une conséquence de la définition dans le cas simple des fonctions étagées.
2. (Linéarité) Soient X, Y des v.a.r. intégrables sur (Ω, F, P), et λ, µ des réels. Alors λX + µY
est une v.a.r. intégrable, et on a
4. (Convergence dominée) Soit (Xn )n≥1 une suite de v.a.r. convergeant p.s. vers X. Supposons
qu’il existe une v.a.r. intégrable Y telle que |Xn | ≤ Y p.s. pour tout n. Alors X, Xn sont
intégrables et
5. (Monotonie) Soient X, Y des v.a.r. positives ou intégrables sur (Ω, F, P). Alors,
6. (Inégalité triangulaire) Une v.a.r. X est intégrable si et seulement si E[|X|] < ∞, auquel cas
Remarque 6. Du point 5 dans la proposition précédente nous déduisons que si une variable
aléatoire X est bornée p.s. c’est-à-dire s’il existe M ∈ R tel que |X| ≤ M p.s. alors X est intégrable
(car E[|X|] ≤ E[M ] = M < +∞).
Remarque 7 (Approximation étagée). Toute v.a.r. positive X est la limite simple d’une suite
29
croissante (Xn )n≥0 de v.a.r. positives et étagées, par exemple
n2n −1
X k
Xn = 1 k k+1 . (24)
2n X∈[ 2n , 2n [
k=0
n2 n −1
X k k k+1
E[X] = lim PX , .
n→∞ 2n 2n 2n
k=0
En particulier, l’espérance d’une v.a.r. positive est déterminée par sa loi. Si X est une v.a.r. quel-
conque, on peut appliquer cela à X + et X − pour en déduire que l’existence de E[X] et sa valeur
sont entièrement déterminées par PX . Attention, la réciproque est fausse ! Deux variables qui
ont même espérance n’ont pas forcément même loi : par exemple la variable qui prend la valeur 1
avec probabilité 1 a pour espérance 1. Une variable qui prend pour valeur 2 ou 0 avec probabilité
1/2 a également pour espérance 1. Pour construire une réciproque il faut donc demander plus que
l’égalité des espérances. C’est l’objet du résultat suivant qui montre que la loi PX est à son tour
déterminée par la donnée des espérances de toutes les fonctions “raisonnables” de X.
Proposition 6 (Espérances et loi). Pour des v.a.r. X, Y , les conditions suivantes sont équivalentes :
1. X et Y ont même loi.
2. E[h(X)] = E[h(Y )] pour toute fonction h borélienne positive.
3. E[h(X)] = E[h(Y )] pour toute fonction h : R → R continue bornée.
Démonstration. (1 =⇒ 2) Si X est une v.a.r. et h une fonction borélienne positive, alors la loi de
h(X) est déterminée par celle de X. En effet, pour tout B ∈ B(R), on peut écrire
Ainsi, l’égalité PX = PY implique Ph(X) = Ph(Y ) et donc E[h(X)] = E[h(Y )], par la remarque 7.
(2 =⇒ 3) Soit h : R → R une fonction continue et bornée. Alors h+ et h− sont boréliennes (car
continues) et positives (par construction), donc l’hypothèse nous assure que
Ces espérances étant finies (h bornée), la décomposition h = h+ − h− entraı̂ne E[h(X)] = E[h(Y )].
(3 =⇒ 1) Fixons t ∈ R, et montrons que FX (t) = FY (t) (cela suffira, puisque la fonction de
répartition caractérise la loi). Pour cela, on aimerait appliquer l’hypothèse à la fonction h = 1]−∞,t] ,
30
mais celle-ci n’est pas continue. Pour tout n ≥ 1, on considère donc plutôt la fonction hn : R → [0, 1]
qui vaut 1 sur ] − ∞, t], 0 sur [t + n1 , +∞[, et qui décroı̂t linéairement de 1 à 0 sur [t, t + n1 ]. Comme
hn est continue et bornée, l’hypothèse assure que
Passons maintenant à la limite n → ∞ dans cette égalité. Comme pour tout x ∈ R, (hn (x))n≥1
converge vers h(x), on a aussi (hn (X)n≥1 ) converge vers h(X) et, comme de plus pour tout n ≥ 1,
|hn (X)| ≤ 1 on peut invoquer la convergence dominée pour obtenir
Comme h = 1]−∞,t] , cette identité n’est rien d’autre que FX (t) = FY (t).
Remarque 8 (Indistingabilité). Modifier une v.a.r. sur un événement négligeable ne modifie pas
sa loi (exercice 8), et ne modifie donc pas non-plus son espérance (remarque 7).
Dans le cas où la v.a.r. est discrète ou à densité, l’espérance E[X] se calcule aisément.
De plus, X est intégrable si et seulement si cette somme est finie, auquel cas on a
X
E[X] = xP(X = x). (27)
x∈Im(X)
Plus généralement, pour toute fonction h : Im(X) → R, telle que h ≥ 0 ou h(X) intégrable (par
exemple si h est bornée),
X
E[h(X)] = h(x)P(X = x). (28)
x∈Im(X)
P
On notera que pour savoir si h(X) intégrable on peut calculer E[|h(X)|] = x∈Im(X) |h|(x)P(X = x)
en appliquant la formule précédente à la fonction positive h.
Démonstration. On se content de montrer la dernière égalité dans le cas ou h est positive. On note
31
Im(X) = {ak , k ≥ 1}. On a donc X = +∞
P P+∞
k=1 ak 1X=ak et h(X) = k=1 h(ak )1X=ak . Pour tout
Pn
n ≥ 1 on définit la variable étagé Yn = k=1 h(ak )1X=ak . Comme (Yn )n≥1 est une suite positive
croissante et convergeant vers h(X) on a, par le théorème de convergence monotone,
E(Yn ) → E(h(X)).
n
X
E(Yn ) = h(ak )P(X = ak ),
k=1
P+∞
et on déduit que E(Yn ) converge vers k=1 h(ak )P(X = ak ).
De plus, X est intégrable si et seulement si l’intégrale ci-dessus est finie, auquel cas on a
Z +∞
E[X] = xf (x)dx. (30)
−∞
Plus généralement, pour toute fonction continue h : R → R, telle que h ≥ 0 ou h(X) intégrable (par
exemple si h est bornée),
Z +∞
E[h(X)] = h(x)f (x)dx (31)
−∞
On remarque que cette formule permet de determiner si h(X) est intégrable puisque h étant positif,
R +∞
E[|h(X)|] = −∞ |h(x)|f (x)dx.
Réciproquement, si une v.a.r. X admet la représentation intégrale (31) pour toute fonction
h : R → R continue bornée, alors X admet f pour densité, comme l’assure la Proposition 6.
Exercice 9 (Lois usuelles). Dans chacun des cas suivants, calculer E[X] si cette quantité existe.
1. X ∼ U({1, . . . , n}) avec n ∈ N∗ .
2. X ∼ B(p) avec p ∈ [0, 1].
3. X ∼ B(n, p) avec n ∈ N et p ∈ [0, 1].
4. X ∼ G(p) avec p ∈]0, 1].
5. X ∼ P(λ) avec λ ∈]0, ∞[.
32
6. X ∼ U([a, b]) avec a, b ∈ R et a < b.
7. X ∼ E(λ) avec λ ∈]0, ∞[.
8. X ∼ N (µ, σ 2 ) avec µ ∈ R et σ 2 > 0.
9. X ∼ Γ(λ, r) avec λ, r ∈]0, ∞[.
10. X ∼ C(λ) avec λ ∈]0, ∞[.
L’espérance E[X] représente la valeur centrale autour de laquelle la v.a.r. X va fluctuer. Nous
allons ici préciser cette intuition à l’aide de deux célèbres inégalités dites de déviation : très impor-
tantes en pratique, ces inégalités quantifient les risques pour que X tombe “loin” de E[X].
Proposition 9 (Inégalité de Markov). Soit X une v.a.r. positive p.s. Alors, pour tout a > 0,
E[X]
P(X ≥ a) ≤ , (32)
a
a1X≥a ≤ X. (33)
L’inégalité de Markov est bien une inégalité de déviation par rapport à l’espérance : elle assure
que n’importe quelle v.a.r. positive a, par exemple, moins de 5% de chances d’être 20 fois plus
grande que sa moyenne. Notons au passage une conséquence intéressante dans le cas où E[X] = 0.
Proposition 10. Soit X une v.a.r. positive (p.s.). Alors E[X] = 0 si et seulement si X = 0 p.s.
Comme
∞
[ 1
{X > 0} = X≥ , (34)
n
n=1
33
on en déduit par sous-additivité dénombrable que
∞
X 1
P(X > 0) ≤ P(X ≥ ). (35)
n
n=1
Donc P(X > 0) = 0. Par ailleurs P(X < 0) = 0 par hypothèse, donc P(X 6= 0) = 0.
Définition 11 (Variance). Soit X une v.a.r. de carré intégrable (E[X 2 ] < ∞). Alors l’inégalité
2|X| ≤ 1 + X 2 assure que X est aussi intégrable, et l’on peut donc définir sa variance :
On note que, comme pour l’espérance, la variance d’une variable aléatoire est entièrement
déterminée par sa loi.
Remarque 9 (Positivité). En utilisant la Proposition 10, la seconde expression montre que l’on a
toujours Var(X) ≥ 0, et qu’il y a égalité si et seulement si X est constante p.s.
La variance d’une v.a.r. X mesure l’écart quadratique moyen entre X et E[X] : elle est d’autant
plus grande que les fluctuations de X autour de son espérance sont importantes. Cela est formalisé
par l’inégalité suivante, qui est en fait un cas particulier “déguisé” de l’inégalité de Markov.
Var(X)
P (|X − E[X]| ≥ a) ≤ , (37)
a2
Le résultat cherché s’obtient simplement en passant aux probabilités, puis en appliquant l’inégalité
de Markov à la v.a.r. positive (X − E[X])2 , qui a pour espérance Var(X).
L’inégalité de Bienaymé-Tchebychev est la plus célèbre des inégalités de déviation. Elle garantit
par exemple qu’une v.a.r. d’espérance µ et de variance σ 2 a au moins 99% de chances de tomber
p
dans l’intervalle ]µ − 10σ, µ + 10σ[. La quantité σ = Var(X) s’appelle l’écart-type de X.
Exercice 10 (Lois usuelles). Calculer la variance de chacune des 10 lois usuelles, lorsqu’elle existe.
34
Exercice 11 (L’espérance est la meilleure prédiction). Soit X une v.a.r. de carré intégrable. Mon-
trer que le point a = E[X] est l’unique minimiseur de la fonction a 7→ E (X − a)2 .
35
4 Indépendance
Considérons un espace probabilisé (Ω, F, P). Comme nous l’avons vu, celui-ci modélise une
certaine expérience au cours de laquelle un résultat est produit “au hasard”. Nous cherchons à
estimer les chances pour que ce résultat tombe dans une certaine partie A ∈ F, c’est-à-dire pour
que l’événement A se réalise. Sans information supplémentaire, la réponse à cette question est
précisément P(A). Mais si l’on apprend par ailleurs qu’un autre événement B s’est réalisé, alors la
question de savoir si A se réalise revient en réalité à savoir si l’événement A ∩ B se réalise. Nous
sommes donc tentés de modifier notre espace probabilisé en remplaçant la mesure A 7→ P(A) par la
mesure A 7→ P(A ∩ B). Il ne faut bien-sûr pas oublier de re-normaliser cette dernière afin d’en faire
une véritable mesure de probabilité, ce qui nous amène tout naturellement à la définition suivante.
P(A ∩ B)
P(A|B) := . (38)
P(B)
Vérifions ce dernier point. Pour tout A ∈ F, P(A|B) ∈ [0, 1] car A ∩ B ⊂ B donc P(A ∩ B) ≤
P(B). De plus P(Ω|B) = P(B)/P(B) = 1. Enfin pour toute suites (Ak )k≥1 d’événements de F
disjoint 2 à 2,
P
P((∪k≥1 Ak ) ∩ B) k≥1 P(Ak ∩ B) X
P(∪k≥1 Ak |B) = = = P(Ak |B).
P(B) P(B)
k≥1
Exemple 11 (Lancer de dé). On lance un dé. Quelle est la probabilité que le chiffre obtenu soit
pair, sachant qu’il est inférieur ou égal à 3 ? On se place bien-sûr sur l’univers Ω = {1, 2, 3, 4, 5, 6},
que l’on munit de la tribu de toutes les parties, et de la loi uniforme. L’obtention d’un chiffre pair et
celle d’un chiffre inférieur ou égal à 3 correspondent respectivement aux événements A = {2, 4, 6}
et B = {1, 2, 3}. Comme A ∩ B = {2}, la réponse cherchée est
P(A ∩ B) 1/6 1
P(A|B) = = = .
P(B) 3/6 3
Notons que la probabilité (inconditionnelle) de A est P(A) = 3/6 = 1/2. Ainsi, le fait de savoir que
le chiffre obtenu est inférieur ou égal à 3 rend moins probable l’obtention d’un chiffre pair.
36
Lemme 3 (Formule de Bayes). Soient A et B deux événements de probabilité non-nulle. Alors,
P(B)P(A|B)
P(B|A) = . (39)
P(A)
Lemme 4 (Formules des probabilités totales). Soient (Bn )n≥1 une famille d’événements formant
une partition de Ω. Alors pour tout événement A, on a
∞
X
P(A) = P(Bn )P(A|Bn ), (40)
n=1
Démonstration. Il suffit de remarque que A = ∪n≥1 (A ∩ Bn ) et que les événements de cette union
sont disjoints 2 à 2. On a donc
X X
P(A) = P(A ∩ Bn ) = P(A|Bn )P(Bn ).
n≥1 n≥1
B 7→ P (X ∈ B|A) (41)
définit une mesure de probabilité sur (R, B(R)) appelée loi conditionnelle de X sachant A.
Exercice 13 (Poisson filtré). Soient λ > 0 et p ∈]0, 1] des paramètres. Sur un même espace
probabilisé, on considère deux v.a.r. N et X. On suppose que N ∼ P(λ) et que pour tout n ∈ N, la
loi conditionnelle de X sachant {N = n} est B(n, p). Quelle est la loi de la v.a.r. X ?
37
4.2 Événements indépendants
P (A ∩ B) = P(A)P(B). (42)
Intuitivement, deux événements sont indépendants lorsque la réalisation de l’un ne nous ren-
seigne absolument pas quant-à celle de l’autre. En effet, la condition A ⊥⊥ B est trivialement vérifiée
si P(A) = 0 ou P(B) = 0, et en dehors de ce cas dégénéré, on a clairement
A⊥
⊥B ⇐⇒ P(A|B) = P(A) ⇐⇒ P(B|A) = P(B). (43)
A⊥
⊥B ⇐⇒ A ⊥⊥ B c . (44)
Définition 15 (Indépendance d’une famille d’événements). Soit (Ai )i∈I une famille quelconque
d’événements. Les événements (Ai )i∈I sont dits indépendants si pour toute partie finie K ⊆ I,
!
\ Y
P Ai = P(Ai ) (45)
i∈K i∈K
Remarque 10 (Indépendance 2-à-2). Attention, l’indépendance de la famille (Ai )i∈I est beaucoup
plus forte que l’indépendance Ai ⊥
⊥ Aj pour tout i 6= j dans I, qui correspond au cas où card(K) = 2.
38
Exercice 14. On lance deux fois un pièce. Les trois événements suivants sont-ils indépendants ?
A : on obtient pile au premier lancer ;
B : on obtient pile au second lancer ;
C : on obtient le même résultat aux deux lancers.
Remarque 11 (Stabilité par extraction et passage au complémentaire). Soient (Ai )i∈I un famille
d’événements indépendants. Alors il en est de même de
1. toute sous-famille (Ai )i∈J avec J ⊆ I ;
2. toute famille (Bi )i∈I obtenue en remplaçant certains des Ai par leur complémentaire, i.e.
∀i ∈ I, Bi = Ai ou Bi = Aci . (46)
∞ ∞ [
∞
!
X \
P(An ) < ∞ =⇒ P An = 0.
n=1 k=1 n=k
∞ ∞ [
∞
!
X \
P(An ) = ∞ =⇒ P An = 1.
n=1 k=1 n=k
T∞ S∞
Un commentaire avant de démarrer la preuve sur l’événement que l’on étudie k=1 n=k An . Il
s’agit de la limite supérieure des An , n ≥ 1 noté lim supn An . C’est l’ensemble des éléments de Ω
qui appartiennent à une infinité de An :
∞ [
\ ∞
lim sup An = An = {ω t.q. ∀k ≥ 1 ∃n ≥ k, ω ∈ An }.
k=1 n=k
∞
!
[ X
P An ≤ P (An ) ,
n=k n≥k
39
et obtient le résultat car le reste d’une série convergente converge vers 0.
Pour le second point, nous allons montrer que pour tout k ≥ 1, P( n≥k Acn ) = 0 ce qui im-
T
plique P( k≥1 n≥k Acn ) = 0 par sigma sous-additivité, et donc notre résultat par passage au
S T
complémentaire. En utilisant l’indépendance de la famille (An )n≥1 on obtient que pour tout K
\ K
\ K
Y
P( Acn ) ≤ P( Acn ) = P(Acn ).
n≥k n=k n=k
S’il existe n ≥ k tel que P(Acn ) = 0, P( n≥k Acn ) = 0. Sinon on passe à l’exponentielle et on
T
doit donc étudier la série de terme général ln(1 − P(An )). Si la suite (P(An ))n≥k ne tend pas vers
0 la série est grossièrement divergente. Sinon, comme le terme général est de signe constant et
P
équivalent à −P(An ), les deux séries sont de même nature et on obtient n≥1 ln(1 − P(An )) = −∞
puis limK→+∞ K c
Q
n=k P(An ) = 0. Ajouter tg tend pas vers 0
Autrement dit, des événéments trop rares ne se produisent qu’un nombre fini de fois, et des
événements non rares et indépendants se produisent un nombre infini de fois.
Exercice 15. On lance une infinité de fois une pièce équilibrée. Montrer qu’on obtient un nombre
infini de pile et un nombre infini de face, presque-sûrement.
Toutes les v.a.r. ci-dessous sont supposées définies sur le même espace probabilisé (Ω, F, P).
Comme pour les événements, nous commençons par le cas simple de deux variables aléatoires
indépendantes.
On note souvent X ⊥
⊥Y.
Remarque 12 (Cas discret). Dans le cas où les v.a.r. X et Y sont discrètes, on a X ⊥⊥ Y ssi
pour tout x ∈ Im(X) et tout y ∈ Im(Y ). En effet, le sens direct est facile et, réciproquement, pour
40
tout A ⊂ Im(X) et B ⊂ Im(Y ),
[ X
P({X ∈ A}∩{Y ∈ B}) = P( {X = x}∩{Y = y}) = P(X = x)P(Y = y) = P(A)P(B).
x∈A,y∈B x∈A,y∈B
Exemple 13 (Lancer de deux dés). On modélise le lancer successifs de deux dés par la loi uniforme
sur l’univers Ω = {1, 2, . . . , 6} × {1, 2, . . . , 6}. On note X et Y les résultats respectifs du premier et
du second lancer. Montrer que les v.a.r. X et Y sont indépendantes.
Démonstration. La preuve est admise. Voici cependant quelques idées pour les différentes étapes.
1. (i) =⇒ (iii) On vérifie que c’est vrai pour g et h indicatrices d’événements puis on généralise
en utilisant l’approximation par fonctions étagées.
2. (iii) =⇒ (ii) C’est la partie facile : on prend g = 1]−∞,s] (·) et h = 1]−∞,t] (·).
3. (ii) =⇒ (i) Il faut utiliser le lemme de classe monotone.
41
La définition de l’indépendance se généralise au cas de plusieurs variables aléatoires, comme
suit.
Définition 17 (Plusieurs variables). Des v.a.r. X1 , . . . , Xn sont dites indépendantes si pour tous
boréliens B1 , . . . , Bn ∈ B(R)
n n
!
\ Y
P {Xi ∈ Bi } = P(Xi ∈ Bi ). (51)
i=1 i=1
Pour une famille infinie de v.a.r. (Xi )i∈I , on parle d’indépendance lorsque toute sous-famille
finie est constituée de v.a.r. indépendantes, c’est-à-dire que pour toute partie finie K ⊆ I et tout
choix des boréliens (Bi )i∈K ,
!
\ Y
P {Xi ∈ Bi } = P(Xi ∈ Bi ). (52)
i∈K i∈K
Remarque 14 (Indépendance 2-à-2). Attention, l’indépendance de la famille (Xi )i∈I est beaucoup
plus forte que l’indépendance Xi ⊥
⊥ Xj pour tout i 6= j dans I, qui correspond au cas card(K) = 2.
Remarque 15 (Stabilité par extraction et application de fonctions). Soient (Xi )i∈I un famille
quelconque de v.a.r. indépendantes. Alors il en est de même de
1. toute sous-famille (Xi )i∈J avec J ⊆ I ;
2. toute famille (Yi )i∈I obtenue en posant Yi = hi (Xi ) avec hi : R → R borélienne.
3. toute famille (Yj )j∈J obtenue en posant Yj = hj (Xi : i ∈ Ij ), où les (Ij )j∈J sont des parties
2-à-2 disjointes et finies de I, et où hj : R|Ij | → R est une fonction continue pour tout j ∈ J.
Proposition 14 (Caractérisation). Soient X1 , . . . , Xn des v.a.r. définies sur le même espace pro-
babilisé. Alors, les conditions suivantes sont équivalentes :
1. Les v.a.r. X1 , . . . , Xn sont indépendantes.
2. Pour tout (t1 , . . . , tn ) ∈ Rn , on a
n n
" #
Y Y
E hi (Xi ) = E [hi (Xi )] (54)
i=1 i=1
42
Définition 18 (Variables i.i.d.). Lorsque les v.a.r. (Xi )i∈I sont indépendantes et qu’elles ont toutes
la même loi, on dit qu’elles sont i.i.d. (indépendantes et identiquement distribuées).
Exercice 16 (Interprétation de la loi géométrique). Soit p ∈]0, 1] un paramètre et (Xn )n≥1 une
suite de v.a.r. i.i.d. de loi B(p). On s’intéresse à la position du premier succès :
N = inf{n ≥ 1 : Xn = 1},
43
5 Sommes de variables indépendantes
Z := X + Y.
Proposition 15 (Cas discret). Soient X, Y des v.a.r. discrètes et indépendantes. Alors Z est
discrète, avec Im(Z) = {x + y : (x, y) ∈ Im(X) × Im(Y )} et pour tout z ∈ Im(Z),
X
P (Z = z) = P (X = x) P (Y = z − x) .
x∈Im(X)
Preuve. On a clairement
[
{Z = z} = {X = x} ∩ {Z = z}
x∈Im(X)
[
= {X = x} ∩ {Y = z − x}
x∈Im(X)
Il suffit alors de remarquer que l’union est disjointe et que X et Y sont indépendantes.
Démonstration. Admise.
En remarquant que B(1, p) = B(p) et que Γ(1, λ) = E(λ), on en déduit en particulier, par une
récurrence immédiate, les deux résultats importants suivants.
44
Corollaire 7. (Interprétation des lois Binômiales et Gamma) Soit n ≥ 1 un entier.
1. Si X1 , . . . , Xn sont des v.a.r. i.i.d. de loi B(p) (p ∈ [0, 1]), alors X1 + · · · + Xn ∼ B(n, p).
2. Si X1 , . . . , Xn sont des v.a.r. i.i.d. de loi E(λ) (λ ∈]0, ∞[), alors X1 + · · · + Xn ∼ Γ(n, λ)
La formule de convolution est parfois dure à exploiter. Le lecteur pourra par exemple essayer
de montrer que la somme de deux v.a.r. de Cauchy indépendantes est encore une v.a.r. de Cauchy.
Nous y reviendrons, munis d’outils plus sophistiqués. En général, il est difficile voire impossible de
calculer la loi de Z explicitement. Néanmoins, comme on va le voir, on peut toujours facilement
accéder aux deux statistiques les plus importantes concernant Z : son espérance et sa variance.
Concernant l’espérance, l’inégalité triangulaire |Z| ≤ |X| + |Y | montre que si les variables
X et Y sont intégrables, alors leur somme Z = X + Y l’est aussi. De plus, dans ce cas, la
linéarité de l’espérance nous autorise à écrire
Notons que l’indépendance de X et Y ne joue aucun rôle ici. La situation est un tout petit peu
plus compliquée pour ce qui est de la variance.
Définition 19 (Covariance). Soient X et Y des v.a.r. de carré intégrable. Alors l’inégalité 2|XY | ≤
X 2 + Y 2 montre que la v.a.r. XY est intégrable, et l’on peut donc définir la covariance :
Cov(X, X) = Var(X).
X⊥
⊥Y =⇒ Cov(X, Y ) = 0.
45
Exemple 15 (Contre-exemple pour la réciproque). Soient X, U des v.a.r. indépendantes avec
X ∼ N (0, 1) et U ∼ U{−1, 1}. On pose Y := U X. Le lecteur pourra vérifier que Y ∼ N (0, 1) et
que Cov(X, Y ) = 0, mais que X et Y ne sont pas indépendantes.
Proposition 17 (Bilinéarité). L’ensemble L2 (Ω, F, P) des v.a.r. de carré intégrable sur (Ω, F, P)
est un espace vectoriel, sur lequel la covariance Cov(·, ·) définit une forme bilinéaire symétrique :
pour toutes v.a.r. X, Y, Z ∈ L2 (Ω, F, P) et tout λ ∈ R
(λX + Y )2 = λ2 X 2 + Y 2 + 2λXY
≤ 2λ2 X 2 + 2Y 2 ,
ce qui montre que λX + Y ∈ L2 (Ω, F, P). Ainsi, L2 (Ω, F, P) est un espace vectoriel. La symétrie de
la covariance est évidente et la bilinéarité est une conséquence de la linéarité de l’espérance.
n n
!
X X X
Var Xi = Var(Xi ) + 2 Cov(Xi , Xj ).
i=1 i=1 1≤i<j≤n
46
En particulier, si X1 , . . . , Xn sont indépendantes 2 à 2, alors
n n
!
X X
Var Xi = Var(Xi ).
i=1 i=1
où l’on a utilisé la remarque 16, puis la bilinéarité et la symétrie de Cov(·, ·).
Exercice 17. Retrouver la variance des loi B(n, p) et Γ(n, λ) pour n ∈ N? , p ∈ [0, 1] et λ ∈]0, ∞[.
Une conséquence de ce qui précède est le résultat fondamental suivant concernant la somme d’un
grand nombre de variables indépendantes et identiquement distribuées. Cela valide l’intuition selon
laquelle l’espérance d’une v.a.r. représente la moyenne obtenue sur un grand nombre d’expériences.
Théorème 4 (Loi faible des grands nombres). Soit (Xn )n≥1 une suite de v.a.r. i.i.d. de carré
intégrable, d’espérance µ. Pour tout n ≥ 1, on pose
X1 + · · · + Xn
Zn := .
n
σ2
P (|Zn − µ| ≥ ε) ≤ . (55)
ε2 n
P (|Zn − µ| ≥ ε) −−−→ 0.
n→∞
47
Preuve. On note σ 2 la variance des (Xn )n≥1 . Par linéarité de l’espérance, on a
E[X1 ] + · · · + E[Xn ]
E[Zn ] = = µ.
n
Var(X1 ) + · · · + Var(Xn ) σ2
Var(Zn ) = = .
n2 n
σ2
P (|Zn − µ| ≥ ε) ≤ .
ε2 n
λσ λσ
Remarque 17. Avec ε = √
n
, (55) nous apprend que la probabilité que Zn tombe dans [µ − √ n
, µ+
λσ 1
√
n
] est au moins 1 − λ2
, indépendamment de n. On peut montrer que cette probabilité tend en
réalité vers une constante universelle explicite lorsque n → ∞.
Remarque 18. À bien y regarder, l’hypothèse i.i.d. peut être affaiblie : on ne s’est finalement servi
que de E[Xn ] = µ, supn Var(Xn ) < ∞, et Cov(Xn , Xm ) = 0 lorsque n 6= m.
Remarque 19. De manière générale, on dit qu’une suite de variables aléatoires (Xn )n≥0 converge
en probabilité vers une variable aléatoire X si pour tout ε > 0,
P(|Xn − X| ≥ ε) −−−→ 0.
n→∞
converge presque sûrement vers 0. De plus pour tout n ≥ 0, |Yn | ≤ 1 et la variable 1 est intégrable,
donc, d’après le théorème de convergence dominée (E(Yn ))n≥0 converge vers 0. On conclut en
remarquant que pour tout n ≥ 0, E(Yn )) = P(|Xn − X| ≥ ε).
Exercice 18. On lance n = 1000 fois une pièce de monnaie et l’on compte la proportion Z de
piles obtenus. À l’aide de l’inégalité BT, déterminer un intervalle dans lequel Z ait au moins 90%
de chances de se trouver. Même question pour n = 25000.
48
Exercice 19. On dispose d’un grand nombre d’observations réelles, supposés indépendentes et de
même loi inconnue. Proposer un moyen d’estimer la fonction de répartition associée.
49
6 Fonctions caractéristiques
Commençons par un mot sur l’espérance de quantités aléatoires à valeurs complexes. Soit X
une v.a.r. et h : R → C une fonction à valeurs complexes. Écrivons h = f + ig avec f = <(h) et
g = =(h). Si f (X) et g(X) sont des v.a.r. intégrables, on peut tranquillement poser
On vérifie immédiatement que les propriétés uselles de l’espérance (la linéarité, notamment) sont
préservées par cette extension au cas complexe. En particulier, si la v.a.r. X est discrète, on a
X
E[h(X)] = h(x)P(X = x)
x∈=(X)
dès que la somme est absolument convergente, tandis que si X admet une densité fX , on a
Z
E[h(X)] = h(x)fX (x) dx,
R
Définition 20. La fonction caractéristique d’une v.a.r. X est la fonction ΦX : R → C définie par
peit
4. Si X ∼ G(p), alors ΦX (t) = 1−(1−p)eit
;
5. Si X ∼ U(−a, a), alors ΦX (t) = sinc(at) ;
λ
6. Si X ∼ E(λ), alors ΦX (t) = λ−it .
50
Proposition 19 (Fonction caractéristique de la loi normale). Pour X ∼ N (µ, σ 2 ), on a
t2 σ 2
ΦX (t) = exp iµt − .
2
la partie imaginaire étant nulle par parité (c’est vrai pour n’importe quelle variable aléatoire sa-
loi
tisfaisant −X = X). Le terme sous l’intégrale est continument dérivable par rapport à t, et sa
x2 x2
dérivée x 7→ −x sin(tx)e− 2 est dominée indépendamment de t par la fonction x 7→ |x|e− 2 , qui
est intégrable sur R. On admettra que cela nous donne le droit d’intervertir dérivée et intégrale :
Z
1 x2
Φ0X (t) = −√ sin(tx)xe− 2 Dx
2π R
2 +∞
Z
− x2 t x2
= sin(tx)e −√ cos(tx)e− 2 Dx
−∞ 2π R
= −tΦX (t).
t2 t2
On déduit de cette equation différentielle classique que ΦX (t) = ΦX (0)e− 2 = e− 2 . Pour le cas
général, on remarque que X = µ + σX0 avec X0 ∼ N (0, 1). Ainsi,
h i
ΦX (t) = E eit(µ+σX0 ) = eiµt ΦX0 (tσ),
Le terme sous l’intégrale est dérivable par rapport à t, et sa dérivée ixr eitx−λx est dominée indépendamment
51
de t par xr e−λx qui est intégrable sur ]0, ∞[. Cela nous autorise à intervertir dérivée et intégrale :
∞
iλr
Z
Φ0X (t) = xr eitx−λx Dx
Γ(r) 0
r
∞ Z ∞
eitx−λx irλr
iλ
= xr + xr−1 eitx−λx Dx
Γ(r) it − λ 0 (λ − it)Γ(r) 0
ir
= ΦX (t).
λ − it
r
λ
La solution de cette equation différentielle avec ΦX (0) = 1 est ΦX (t) = λ−it .
Théorème 5 (La fonction caractéristique porte bien son nom). Si les variables aléatoires réelles
X et Y sont telles que ΦX = ΦY , alors X et Y ont la même loi.
Ainsi, en théorie, on peut retrouver à partir de ΦX tout ce que l’on désire savoir sur la loi de
X. La formule d’inversion de Levy est une belle illustration de ce principe.
R
Théorème 6 (Formule d’inversion de Levy). Soit X une variable aléatoire telle que R |ΦX (t)|Dt <
∞. Alors X admet une densité, donnée par la formule suivante :
Z
1
fX (x) = e−itx ΦX (t)Dt.
2π R
Exercice 20 (Exemple important). Vérifier cette formule dans le cas X ∼ N (0, 1).
Exercice 21 (Fonction caractéristique d’une variable de Cauchy). Soit X une variable aléatoire de
λ −λ|x|
densité fX (x) = 2e . Calculer ΦX , puis appliquer la formule d’inversion de Levy. En déduire
la fonction caractéristique d’une variable aléatoire de Cauchy.
Nous donnons maintenant une proposition immédiate, mais qui fait toute la puissance des
fonctions caractéristiques pour l’étude des sommes de variables indépendantes.
ΦX+Y = ΦX ΦY .
Cette forme produit est infiniment plus simple que la formule de convolution des densités. De
plus, elle est valable pour des variables indépendantes absolument quelconques !
52
Corollaire 11. En particulier, on voit immédiatement que
1. Si X ⊥
⊥ Y avec X ∼ B(n, p) et Y ∼ B(m, p), alors X + Y ∼ B(n + m, p).
2. Si X ⊥
⊥ Y avec X ∼ P(λ) et Y ∼ P(µ), alors X + Y ∼ P(λ + µ).
⊥ Y avec X ∼ N (µ, σ 2 ) et Y ∼ N (ν, τ 2 ), alors X + Y ∼ N (µ + ν, σ 2 + τ 2 ).
3. Si X ⊥
4. Si X ⊥
⊥ Y avec X ∼ Γ(r, λ) et Y ∼ Γ(s, λ), alors X + Y ∼ Γ(r + s, λ).
5. Si X ⊥
⊥ Y avec X ∼ C(λ) et Y ∼ C(µ), alors X + Y ∼ C(λ + µ).
Notons que la dernière assertion est nouvelle.
Nous terminons cette section en faisant le lien entre fonction caractéristique et moments.
Théorème 7 (Moments). Soit X une v.a.r., et soit n ∈ N. On suppose que E[|X|n ] < ∞. Alors,
ΦX est n fois continûment dérivable sur R, et la dérivée n−ième est donnée par
(n)
ΦX (t) = in E X n eitX .
E[X 2 ] 2 in E[X n ] n
ΦX (t) = 1 + iE[X]t − t + ··· + t + o(tn ), lorsque t → 0.
2 n!
7 Convergence en loi
Définition 21 (Convergence en loi). On dit qu’une suite de v.a.r. (Xn )n≥1 converge en loi vers
(loi)
une v.a.r. X, noté Xn −−−→ X, lorsque l’une des conditions équivalentes suivantes est vérifiée :
n→∞
d
Remarque 20 (Terminologie). On parle aussi de convergence en distribution, notée Xn −−−→ X.
n→∞
53
1 2 n
(loi)
Exemple 17. Si Xn ∼ U n, n, . . . , n , alors Xn −−−→ X avec X ∼ U(]0, 1[). En effet,
n→∞
0
si t≤0
bntc
FXn (t) = P(Xn ≤ t) = n si 0<t<1
1 si t≥1
bntc
En remarquant que nt − 1 < bntc ≤ nt, on voit que n → t lorsque n → ∞, et l’on a donc bien
convergence vers la fonction de répartition de la loi uniforme sur [0, 1]. On aurait pu également
passer par les fonctions tests : pour h : R → R continue et bornée, on a bien
n Z 1
1X k
E[h(Xn )] = h −−−→ h(x)Dx = E[h(X)],
n n n→∞ 0
k=1
par le théorème d’approximation des intégrales par les sommes de Riemann. Enfin, si l’on préfère
utiliser les fonctions caractéristiques, on a :
n it
1 X ikt e n (eit − 1) ffl
ΦXn (t) = en = it −−−→ aceit − 1it = ΦX (t).
n n en − 1 n→∞ ffl
k=1
(loi)
Exemple 18. Dans chacun des cas suivants, on a Xn −−−→ X.
n→∞
1. Xn ∼ B (n, pn ) avec npn → λ, et X ∼ P(λ).
2. Xn ∼ n1 G (pn ) avec npn → λ, et X ∼ E(λ)
3. Xn = n min(U1 , . . . , Un ) avec {Un }n≥1 i.i.d. de loi U(]0, 1[), et X ∼ E(1).
(loi) (loi)
Proposition 22. Si Xn −−−→ X et si g : R → R est continue alors g(Xn ) −−−→ g(X).
n→∞ n→∞
Proposition 23 (Cas des variables discrètes). Soient X, X1 , X2 , . . . des v.a.r. à valeurs dans Z.
(loi)
Alors, Xn −−−→ X si et seulement si pour tout k ∈ Z,
n→∞
P (Xn = k) −−−→ P (X = k) .
n→∞
Proposition 24 (Cas des variables à densité). Soient X, X1 , X2 , . . . des v.a.r. admettant des den-
sités fX , fX1 , fX2 . . .. On suppose que pour (presque) tout t ∈ R,
54
d
Alors on peut conclure que Xn −−−→ X. Attention, la réciproque est fausse en général !
n→∞
n −n
X√
Exercice 23 (Application). Pour n ≥ 1, on pose Zn := n
avec Xn ∼ Γ(n, 1). Déterminer la
densité de Zn , et en déduire que la suite (Zn )n≥1 converge en loi vers une limite que l’on précisera.
Nous énonçons maintenant le théorème central de ce cours, qui raffine la loi des grands nombres.
Théorème 8 (Théorème central limite, ou TCL). Soient (Xn )n≥1 des v.a.r. i.i.d. de carré intégrable,
d’espérance µ et de variance σ 2 . Alors,
(X1 + · · · + Xn ) − nµ (loi)
√ −−−→ Z ∼ N (0, σ 2 ).
n n→∞
√√
Z b
1 x2
P X1 + · · · + Xn ∈ [nµ + aσ n, nµ + bσ n] −−−→ √ e− 2 Dx.
n→∞ 2π a
n
" #
it(Xk −µ)
√
Y
ΦZn (t) = E e n
k=1
n it(Xk −µ)
√
Y
= E e n
k=1
n
t
= ΦX1 −µ √
n
2
n
(σt) 1 (σt)2
= 1− +o −−−→ e− 2 = ΦZ (t).
2n n n→∞
55
1. Il faut séparer la partie mathématique du texte écrite sous forme de proposition
de la partie écrite en français. Par exemple, ∀, ∃ sont des quantificateurs logiques que
vous ne devez pas utiliser comme abréviations mais uniquement comme symboles dans les
phrases logiques.
2. Il faut introduire toutes les notations que vous utilisez.
3. Toutes les variables n’ont pas la même durée de vie. Par exemple :
• Les phrases ”Soit ε > 0.” ou ”Il existe donc ε > 0.” introduisent un réel que l’on appelle
ε. Pour toute la durée de la preuve la lettre ε désignera ce réel.
• Dans la proposition ”∀ε > 0, ε/2 > 0” ou encore dans ”∃ε > 0” la variable ε est quantifiée
par ∀ ou ∃. La lettre ε n’est alors définie que le temps de la phrase logique et non plus
pour toute la durée de la preuve. Sortie de la phrase logique, elle n’a plus de sens !
• Quand on écrit 10 2
P
i=1 i , la lettre i désigne un indice muet de sommation qui n’a de sens
que le temps de la somme. En dehors de cette formule, la lettre i ne désigne plus rien.
Il faut respecter ces durées de vie. Changer la valeur d’une variable déjà affectée est une faute
logique.
4. Voici un exemple important de rédaction d’une proposition du type :
(a) Première étape. On doit montrer que quelque chose est vraie pour tout ε > 0 (la pro-
position : ∃α > 0 tel que P (ε, α)). On fixe donc arbitrairement un ε et on va prouver la
proposition pour cet ε arbitraire. La phrase type permettant de fixer ε est :
Soit ε > 0.
On a désormais fixé un ε pour toute la preuve et on va pouvoir travailler avec.
(b) Deuxième étape. L’étape suivante est de proposer un α > 0 tel que P (ε, α) est vrai (où
ε est celui introduit à l’étape précédente). On va donc travailler pour cela en utilisant
des théorèmes, des calculs ou des raisonnements variés. A l’issue de ce travail ont doit
avoir construit ou exhiber un certain α. Le résultat de ce travail doit être clairement,
par exemple :
On pose α = ...
ou
Il existe donc α tel que ...
56
(c) Troisième étape. La dernière étape consiste à prouver que P (α, ε) est vrai où ε et α sont
ceux obtenus à l’issue des deux étapes précédentes. Ce qui peut de nouveau nécessiter
raisonnements et autres calculs... On marque souvent la conclusion par :
On a donc bien P (ε, α).
Entrainez vous à souligner dans vos démonstrations ces étapes clés (en gras dans l’exemple
au-dessus) qui structurent le raisonnement !
5. Bien utiliser les théorèmes :
(a) Vérifier soigneusement toutes les hypothèses du théorème utilisé.
(b) Nommer explicitement le théorème utilisé.
6. Relisez et familiarisez vous avec les différents types de raisonnements et leur rédaction
type (absurde, contraposée, récurrence,...)
57