Poly M1S6 Probas PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 100

Probabilités M1

1
Max Fathi

April 7, 2022

1 LJLL & LPSM, Université de Paris, France


Contents
I Processus en temps discret 3
1 Notions de processus 4
1.1 Généralités sur les processus . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Quelques exemples de base . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Marches aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2 Processus de Galton-Watson . . . . . . . . . . . . . . . . . . . 5
1.2.3 Files d'attente . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Temps d'arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Rappels sur la convergence de variables aléatoires . . . . . . . . . . . 9

2 Martingales 11
2.1 Dénitions et premières propriétés . . . . . . . . . . . . . . . . . . . 11
2.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Transformations de martingales . . . . . . . . . . . . . . . . . 13
2.2.2 Décomposition de Doob-Meyer . . . . . . . . . . . . . . . . . 14
2.2.3 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Théorème d'arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Convergence de martingales . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Convergence L2 . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Martingales uniformément intégrables . . . . . . . . . . . . . 21
2.4.4 Une application en analyse : le théorème de Rademacher . . . 24

3 Chaînes de Markov 26
3.1 Dénitions et premières propriétés . . . . . . . . . . . . . . . . . . . 26
3.2 Propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Mesures invariantes et classication des états . . . . . . . . . . . . . 30
3.3.1 Classication des états . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Théorème principal . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Une brève introduction aux algorithmes MCMC . . . . . . . . 42

4 Martingales et chaines de Markov 44


4.1 Fonctions harmoniques . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2 Applications aux temps de sortie . . . . . . . . . . . . . . . . . . . . 46

1
II Théorèmes limites 48
5 Topologie de la convergence en loi 49
5.1 Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Convergence étroite . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.2 Théorème de Lévy . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Distance de Lévy-Prokhorov . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Tension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Cas réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Cas compact . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.3 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4 Autres distances sur les espaces des mesures de probabilités . . . . . 61
5.4.1 Distance de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 61
5.4.2 Distance en variation totale . . . . . . . . . . . . . . . . . . . 63
5.4.3 Distance de Wasserstein . . . . . . . . . . . . . . . . . . . . . 64
5.5 Théorème de représentation de Skorokhod . . . . . . . . . . . . . . . 69
5.6 Appendice : convergence faible-* et convergence en loi . . . . . . . . 69

6 Autour du théorème central limite 72


6.1 Rappels sur le TCL . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.2 Théorème de Lindeberg . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2.1 Une application en combinatoire . . . . . . . . . . . . . . . . 75
6.3 Vitesse de convergence dans le TCL . . . . . . . . . . . . . . . . . . 76
6.3.1 Lemme de Stein . . . . . . . . . . . . . . . . . . . . . . . . . 76
6.3.2 Méthode des paires échangeables et application au TCL . . . 79
6.4 TCL martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4.1 Théorème principal . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4.2 Application aux chaînes de Markov . . . . . . . . . . . . . . . 82

7 Introduction aux inégalités de concentration et aux grandes dévi-


ations 85
7.1 Premiers exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.2 Inégalité de Cherno et conséquences . . . . . . . . . . . . . . . . . . 86
7.2.1 Inégalité de Cherno . . . . . . . . . . . . . . . . . . . . . . . 86
7.2.2 Inégalité de Hoeding . . . . . . . . . . . . . . . . . . . . . . 87
7.3 Concentration gaussienne . . . . . . . . . . . . . . . . . . . . . . . . 88
7.3.1 Inégalité de concentration gaussienne . . . . . . . . . . . . . . 88
7.3.2 Maximum de gaussiennes indépendantes . . . . . . . . . . . . 90
7.3.3 Lemme de Johnson-Lindenstrauss et compression . . . . . . . 90
7.4 Théorème de Cramer sur R . . . . . . . . . . . . . . . . . . . . . . . 91
7.5 Principes de grandes déviations et théorème de Cramér multidimen-
sionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.6 Théorème de Sanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
7.6.1 Application aux tests d'hypothèse . . . . . . . . . . . . . . . 98

8 Bibliographie 99

2
Part I

Processus en temps discret

3
Chapter 1

Notions de processus
1.1 Généralités sur les processus
On se place sur un espace de probabilités (Ω, F, P).
Par dénition, un processus aléatoire en temps discret est une suite de variables
aléatoires (Xn )n∈N toutes dénies sur (Ω, F, P).
Le paramètre n joue le rôle du temps. Le but est en général de modéliser un
phénomène qui évolue, comme par exemple le cours de la bourse, la propagation
d'une épidémie, ou encore l'évolution d'une opinion mesurée semaine après semaine
par un sondage.

NB. Il est important de distinguer la loi d'un processus (Xn )n∈N de la suite des
lois des Xn . La première notion englobe l'information des corrélations entre les
variables, mais pas la deuxième.
Dénition 1.1.1 (Filtrations). Une ltration de (Ω, F, P) est une suite croissante
(Fn )n∈N de sous-tribus de F , i.e. F0 ⊂ F1 ⊂ F2 ... ⊂ F . On dit aussi que
(Ω, F, (Fn )n∈N , P) est un espace de probabilité ltré.
Un processus (Xn )n∈N est dit adapté à la ltration (Fn )n∈N si pour tout n ∈ N,
Xn est Fn -mesurable.

Informellement, on peut penser à la sous-tribu Fn comme étant l'information


acquise au temps n.

Exemple 1.1.1. 1. Si (Xn )n∈N est une suite (quelconque) de variables aléa-
toires dénies sur (Ω, F, P), FnX := σ(X0 , ..., Xn ) dénit une ltration, ap-
pelée ltration canonique du processus (Xn )n∈N . C'est la plus petite ltration
rendant le processus (Xn )n∈N adapté.
2. Prenons Ω = [0,
 1), F la tribu  borelienne et P la mesure de Lebesgue. Posons
Fn := σ i−1 , i = 1, ..., 2 n . C'est une ltration de [0, 1), appelée ltration
2n
dyadique.
NB. Dans toute la suite, il y aura implicitement un espace de probabilité ltré, qui
ne sera pas toujours rendu explicite, et les notions seront bien entendu relatives à
cet espace.

4
1.2 Quelques exemples de base
1.2.1 Marches aléatoires
L'exemple le plus emblématique de processus aléatoire est celui de la marche aléa-
toire en dimension un :

Exemple 1.2.1 (Marche aléatoire simple sur Z). On part du point 0, et à chaque
instant n on choisit une direction uniformément au hasard (droite ou gauche), et
on fait un pas dans cette direction.
Plus exactement, X0 = 0, et (εn )n∈N est une suite de variables de Rademacher,
c'est àPdire uniformes sur {−1, 1}, et Xn+1 = Xn + εn+1 . De manière équivalente,
Xn = ni=1 εi .

La ltration canonique de ce processus est donnée par σ(X0 , ..., Xn ) =


σ(ε0 , ...εn ).
De manière similaire, on peut dénir une marche aléatoire biaisée de paramètre
p ∈ [0, 1] en sommant des variables εi avec P(εi = 1) = 1 − P(εi = −1) = p. On
parlera alors de marche aléatoire simple asymmétrique de paramètre p.
On peut généraliser cet exemple à des lois de saut arbitraire, et en dimension
arbitraire.

Exemple 1.2.2 (Marche aléatoires sur Rd ). Soit (Yi ) une suite de v.a. i.i.d. sur
Rd , de loi µ. La marchePaléatoire avec condition initiale X0 et loi de saut µ est
donnée par Xn := X0 + ni=1 Yi .
On peut également considérer des marches aléatoires sur des graphes plus
généraux que Z ou Zd :

Exemple 1.2.3 (Marches aléatoires sur les graphes). Soit G = (S, A) un graphe.
Une marche aléatoire simple sur le graphe G est une suite de variables aléatoires
(Xn )n∈N à valeurs dans G, telle que conditionnellement à {Xn = x} la loi de Xn+1
est uniforme sur l'ensemble des voisins de x, c'est à dire
1(x,y)∈A
P(Xn+1 = y|Xn = x) = .
|{z; (x, z) ∈ A}|

1.2.2 Processus de Galton-Watson


Les processus de Galton-Watson sont utilisés pour modéliser l'évolution du nombre
d'individus d'une espèce asexuée, où chaque individu d'une génération donnée se
reproduit indépendamment des autres individus (duplication de cellules...).
Pour les dénir, on considère une suite (Xnk )k,n∈N∗ de v.a. i.i.d. à valeurs dans
N, où Xnk représente le nombre d'enfants du k -ième individu de la génération n,
ainsi qu'une taille de population initiale donnée par une v.a. N0 . Alors le processus
est donné par
Nn
X
Nn+1 := Xnk .
k=1

La ltration canonique de ce processus σ(N0 , ..., Nn ) est diérente de


σ((Xik )i6n ), car cette dernière contient plus d'information que juste les tailles
totales des populations.

5
Exercice 1.2.1. Calculer l'espérance et la variance de Nn en fonction de celles de
X11 .

Solution 1.2.1. On a la relation de récurrence


" "N ##
X n

E[Nn+1 ] = E[E[Nn+1 |Nn ]] = E E Xnk | Nn = E[Nn ]E[X11 ].


k=1

Donc E[Nn ] = E[N0 ]E[X11 ]n .


De même, en posant m = E[X11 ], on a
2 2
E[Nn+1 ] = E[E[Nn+1 |Nn ]] = E[Nn ]E[(X11 )2 ]+E[Nn (Nn −1)]E[X11 ]2 = E[Nn2 ]m2 +E[Nn ] Var(X11 ).

Posons un = E[Nn2 ]m−2n . On a


un+1 = un + E[N0 ] Var(X11 )m−n−2

Donc
1 − m−n
un = E[N02 ] + E[N0 ] Var(X11 )m−2
1 − m−1
et
m2n − mn
E[Nn2 ] = E[N02 ]m2n + E[N0 ] Var(X11 ) .
m2 − m
D'où
E[X11 ]2n − E[X11 ]n
Var(Nn ) = Var(N0 )E[X11 ]2n + E[N0 ] Var(X11 ) .
E[X11 ]2 − E[X11 ]

L'espérance de X gouverne donc la croissance de la taille de la population.

1.2.3 Files d'attente


Un exemple de modèle (très basique) pour le nombre de personnes en train
d'attendre dans une le est celui d'une suite de variables aléatoires sur N, où Xn
représente le nombre de personnes dans la le à l'instant n, et avec la loi condition-
nelle

P(Xn+1 = k+1|Xn = k) = p; P(Xn+1 = k−1|Xn = k) = q; P(Xn+1 = k|Xn = k) = r

avec p + q + r = 1.
On peut aussi voir ce processus comme une marche aléatoire (possiblement
asymétrique) sur N.
Pour modéliser le nombre de gens attendant à des caisses de supermarché, on
peut considérer plusieurs les d'attente en interaction, où les probabilités d'arriver
à un instant donné sont dépendantes du nombre de gens dans chaque le (par
exemple, il ne peut arriver quelqu'un que dans la le avec le moins de monde).

6
1.3 Temps d'arrêt
Dénition 1.3.1. Une v.a. T : Ω −→ N̄ = N ∪ {∞} est appelé temps d'arrêt de
la ltration (Fn )n∈N si pour tout n on a {T = n} ∈ Fn .
Interprétation : on joue à un jeu modélisé par des v.a. Un temps d'arrêt
représente un instant auquel on décide de s'arrêter, qui doit être fonction de
l'information connue à ce moment là (i.e. on ne connaît pas le futur).

Remarque 1.3.1. Il est équivalent de demander {T 6 n} ∈ Fn , on pourra utiliser


ces deux dénitions de manière interchangeable. En eet, si pour tout n {T 6
n} ∈ Fn , alors {T = n} = {T 6 n} ∩ {T 6 n − 1}c ∈ Fn , en utilisant la
propriété de ltration. Réciproquement, si pour tout n on a {T = n} ∈ Fn alors
{T 6 n} = ∪k‘n {T = k} ∈ Fn . De même, on peut utiliser {T > n} dans la
dénition au lieu de {T = n}, par passage au complémentaire.
c
La valeur
S ∞ est  autorisée. En eet, {T = ∞} = n∈N {T = n} , donc {T =
S
∞} ∈ σ n∈N Fn .
On aura souvent à prouver T < ∞ p.s. dans des cas concrets.

Exemple 1.3.1. 1. T = k ∈ N xé est un temps d'arrêt.


2. Si (Xn ) est un processus adapté à valeurs dans Rd et A un borelien de Rd ,
alors
TA := inf{n ∈ N; Yn ∈ A}
est un temps d'arrêt, appelé temps d'atteinte de A. En eet,
{TA = n} = {X0 ∈
/ A, X1 ∈
/ A, ..., Xn−1 ∈
/ A, Xn ∈ A} ∈ σ(X0 , ..., Xn ) ⊂ Fn .

3. En revanche, pour N xé, LA = sup{n 6 N, Xn ∈ A} n'est pas un temps


d'arrêt en général. En eet, pour déterminer que le processus ne reviendra
pas dans l'ensemble A après un temps donné demanderait de connaître le
futur. Interprétation : il n'est pas possible de vendre des actions à leur prix
maximal sur l'année.
Regardons un exemple plus en détails. Soit (Xn ) une marche aléatoire simple
symétrique sur Z, issue de 0. Soit εn := Xn − Xn−1 , de sorte que (εn )n∈N∗ est
une suite de variables iid uniformes sur {−1, 1}. On considère le temps d'arrêt
T := inf{n > 1; Xn = 0}, appelé temps de premier retour en 0. Montrons que
T < ∞ p.s.
Tout d'abord, nous allons montrer que pour tout p ∈ N, on a P(−p 6 inf Xn 6
sup Xn 6 p) = 0. Notons Bp cet évènement. Soit k > 2p, et posons

Aj = {εkj+1 = 1, εkj+2 = 1, ..., εk(j+1) = 1}.

On a Aj ⊂ Bpc . Les Aj sont indépendants,


S et de probabilité strictement positive.
S
Donc, par le lemme de Borel-Cantelli, P( Aj ) = 1, et donc P(Bp ) = 0. On a donc

P[inf Xn < −p] + P[sup Xn > p] > 1


⇒ P[inf Xn = −∞] + P[sup Xn = +∞] > 1
⇒ P[inf Xn = −∞] = P[sup Xn = +∞] > 0.

7
où pour la dernière étape on a utilisé la symétrie du processus. Or
\
{sup Xn = +∞} ⊂ σ(Xk , Xk+1 , ...)
k>0

donc on peut utiliser la loi du 0-1 de Kolmogorov, et en déduire que sup Xn = +∞


presque sûrement, et de même inf Xn = −∞ presque sûrement. On a donc bien
T < ∞ p.s., puisque pour passer de valeurs positives à des valeurs négatives le
processus doit repasser par l'origine.
Fin du cours du 19-01-22
Proposition 1.3.2. 1. Si S et T sont deux temps d'arrêt, alors max(S, T ) et
min(S, T ) en sont aussi.

2. Si (Tk )k∈N est une suite de temps d'arrêt, alors inf Tk , sup Tk , lim inf Tk et
lim sup Tk en sont aussi.
Proof. 1. On a

{min(S, T ) 6 n} = {S 6 n} ∪ {T 6 n} ∈ Fn ;

{max(S, T ) 6 n}{S 6 n} ∩ {T 6 n} ∈ Fn .

2. Nous allons montrer que inf Tk et lim inf Tk sont des temps d'arrêt, les deux
autres cas se prouvent de manière similaire.
[
{inf Tk 6 n} = {Tk 6 n} ∈ Fn ;
k
 
\ [
{lim inf Tk 6 n} =  {Tk 6 n} ∈ Fn .
j k>j

Dénition 1.3.3. Soit T un temps d'arrêt. La tribu du passé jusqu'à l'instant T


est
FT := {A ∈ F; ∀n ∈ N, A ∩ {T = n} ∈ Fn } .
FT est bien une tribu, et si T = k , on a bien FT = Fk . En eet,

Ω ∩ {T = n} = {T = n} ∈ Fn ,

et comme
A ∈ FT ⇔ ∀n, A ∩ {T = n} ∈ Fn
et Ac∩ {T = n} = {T = n}\(A ∩ {T = n}) ∈ Fn , on a bien A ∈ FT ⇒ Ac ∈ FT .
Enn, si (Ak ) est une suite d'évenment de FT , alors
!
[ [
(Ak ∩ {T = n}) = Ak ∩ {T = n} ∈ Fn .
k k

Proposition 1.3.4. Soient S et T deux temps d'arrêt vériant S 6 T . Alors


FS ⊂ FT .

8
Proof. Soit A ∈ FS . On a
n
[
A ∩ {T = n} = A ∩ {S 6 n} ∩ {T = n} = (A ∩ {S = k}) ∩ {T = n},
k=0

or A ∩ {S = k} ∈ Fk ⊂ Fn , donc on a bien A ∩ {T = n} ∈ Fn .

Proposition 1.3.5. Soit (Yn ) un processus adapté à valeurs réelles, et T un temps


d'arrêt. La variable aléatoire
Y (ω) si T (ω) = n;
(
1{T <∞} YT (ω) := n
0 si T (ω) = ∞

est FT -mesurable.
Si T < ∞ p.s., on notera YT cette variable aléatoire, pour simplier les notations.
En particulier, une variable aléatoire de la forme Yn∧T est Fn∧T mesurable, et donc
FT mesurable via la Proposition 1.3.4.

Proof. Soit B un borelien. On a


{1T <∞ YT ∈ B} ∩ {T = n} = {Yn ∈ B} ∩ {T = n} ∈ Fn ,

et donc on a bien {1T <∞ YT ∈ B} ∈ FT .

1.4 Rappels sur la convergence de variables aléatoires


Dénition 1.4.1 (Convergence presque sûre). Une suite de variables aléatoires
(Xn )n∈Ndénies sur un même espace de probabilité (Ω, F, P) converge presque sûre-
ment vers une variable aléatoire X (dénie sur le même espace) si
P({ω ∈ Ω; Xn (ω) −→ X(ω)}) = 1.

Dénition 1.4.2 (Convergence Lp ). Soit p > 1. Une suite de variables aléatoires


(Xn )n∈N dénies sur un même espace de probabilité (Ω, F, P) converge au sens Lp
vers une variable aléatoire X (dénie sur le même espace) si
E[|Xn − X|p ] −→ 0.

Dénition 1.4.3 (Convergence en probabilité). Une suite de variables aléatoires


(Xn )n∈N dénies sur un même espace de probabilité (Ω, F, P) converge au sens Lp
vers une variable aléatoire X (dénie sur le même espace) si pour tout ε > 0 on a
P(|Xn − X| > ε) −→ 0.

Dénition 1.4.4 (Convergence en loi). Une suite de variables aléatoires (Xn )n∈N
converge en loi vers une variable aléatoire X si pour toute fonction continue bornée
on a
E[f (Xn )] −→ E[f (X)].
NB. La convergence en loi est une notion de convergence d'une nature diérente
que les trois premières : elle ne dépend que de la suite des lois, sans demander à
ce que les variables vivent sur un même espace (Ω, F, P), ou qu'on tiennent compte
de corrélations.

9
Proposition 1.4.5 (Relations entre les notions de convergence). 1. La conver-
gence Lp implique la convergence en probabilité;
2. La convergence p.s. implique la convergence en probabilité;
3. La convergence en probabilité implique la convergence en loi.
Exemple 1.4.1. 1. Soit (Xn )n∈N∗ une suite de variables indépendantes, avec
P(Xn = 0) = 1 − 1/n et P(Xn = n) = 1/n. Alors Xn converge en probabilité
(et même presque sûrement) vers 0, mais pas dans Lp , pour n'importe quel
p > 1.

2. Soit Γ = {(n, j); 0 < j 6 n}, qu'on numérote dans l'ordre lexicographique.
Pour m = (n, j) ∈ Γ, on pose Xm = 1((j−1)/n,j/n] . Les Xm forment une suite
de variables aléatoires sur ((0, 1], Leb). Comme la largeur des intervalles tend
vers 0, la suite (Xm )m∈N converge en probabilité vers 0. Toutefois, il existe
des indices arbitrairement grand tels que Xm = 1, et donc lim sup Xm = 1
p.s. En particulier, (Xm )m∈N ne converge pas p.s. vers 0.
3. N'importe quelle suite (Xn ) de variables aléatoires iid et non constante p.s.
converge en loi (puisque la loi ne change jamais), mais ne converge pas p.s.
En eet, la convergence en loi ne tient pas compte des corrélations entre les
Xn , mais la convergence p.s. peut en dépendre.

10
Chapter 2

Martingales
Dans toute cette partie, on ne considérera que des processus à valeurs réelles.

2.1 Dénitions et premières propriétés


Dénition 2.1.1. Soit (Xn )n∈N un processus adapté à une ltration (Fn )n∈N , et
intégrable.
1. (Xn )n∈N est une martingale si ∀n on a E(Xn+1 |Fn ) = Xn .
2. (Xn )n∈N est une surmartingale si ∀n on a E(Xn+1 |Fn ) 6 Xn .
3. (Xn )n∈N est une sous-martingale si ∀n on a E(Xn+1 |Fn ) > Xn .
Lorsque la ltration est la ltration canonique du processus, on parlera de
(sur/sous)-martingale, sans plus de précisions.
Une martingale est donc un processus dont en moyenne on n'attend pas
d'évolution. On interprète souvent une martingale comme un jeu équitable : si
Xn est l'avoir du joueur au temps n, et Fn l'information dont le joueur dispose,
alors E[Xn+1 |Fn ] = Xn signie qu'en moyenne le joueur ne perd ni ne gagne. Une
surmartingale est un jeu défavorable (du point de vue du joueur), et une sous-
martingale un jeu favorable.

Remark 2.1.1. 1. Par récurrence sur ` − n, on peut montrer que si (Xn )n∈N
est une martingale, alors pour tout ` > n > 0 on a E[X` |Fn ] = Xn .
2. Par conséquence, on a aussi E[X` ] = E[Xn ], i.e. l'espérance d'une martingale
reste constante au cours du temps.
3. Le processus (Xn )n∈N est une sous-martingale ssi (−Xn )n∈N est une sur-
martingale. En conséquence, on énoncera souvent les théorèmes pour les sur-
martingales, et l'analogue pour les sous-martingales suivra automatiquement.
Exemple 2.1.1. La marche aléatoire simple de paramètre p est une martingale si
p = 1/2, une sous martingale si p > 1/2, et une surmartingale si p 6 1/2.

Pour le montrer, on calcule

E[Xn+1 |Fn ] = E[Xn + εn+1 |Fn ] = Xn + E[εn+1 ] = Xn + 2p − 1.

11
Plus généralement, un processus de la forme Xn = ni=1 Yi avec les Yi iid à
P
valeurs réelles est une martingale ssi E[Y ] = 0, une surmartingale ssi E[Y ] 6 0, et
une sous-martingale ssi E[Y ] > 0.

Exemple 2.1.2. Le processus de population de Galton-Watson est une martingale


si E[Xij ] = 1, une sous-martingale si E[Xij ] > 1 et une surmartingale si E[Xij ] 6 1.
En eet, si Nn+1 = N avec les Xik iid à valeurs entières et positives,
P n n+1
i=1 Xi
alors E[Nn+1 |Fn ] = Nn E[X1 ].
1

Exemple 2.1.3. Soit (Fn )n∈N une ltration et X une v.a. L1 et mesurable par
rapport à F∞ = σ (∪n Fn ). Alors le processus déni par Xn := E[X|Fn ] est une
martingale. Un processus de cette forme est appelé une martingale fermée.
Cette propriété est une conséquence immédiate de la croissance des ltrations
: E[Xn+1 |Fn ] = E[E[X|Fn+1 ]|Fn ] = E[X|Fn ] = Xn . On verra plus tard que
beaucoup de martingales sont implicitement de cette forme.

Exemple 2.1.4. Si (Xn ) est une suite décroissante et adaptée de variables aléa-
toires intégrables, alors c'est une surmartingale : E[Xn+1 |Fn ] 6 E[Xn |Fn ] = Xn .
Exercice 2.1.1. Montrer que si (Xn ) est une martingale avec Xn ∈ L2 pour tout
n > 0, alors ∀m, n on a
n+m−1
X
E[(Xn+m − Xn )2 ] = E[(Xk+1 − Xk )2 ].
k=n

Solution 2.1.1. Procédons par récurrence sur m. L'identité est trivialement vraie
pour m = 1. Supposons qu'elle est vraie pour un certain m > 1. On a alors
E[(Xn+m+1 −Xn )2 ] = E[(Xn+m −Xn )2 ]+E[(Xn+m+1 −Xn+m )2 ]+2E[(Xn+m+1 −Xn+m )(Xn+m −Xn )],

donc il sut de montrer que le dernier terme à droite est nul. En conditionnant et
en utilisant la propriété de martingale
E[(Xn+m+1 − Xn+m )(Xn+m − Xn )] = E[E[(Xn+m+1 − Xn+m )(Xn+m − Xn )|Fn+m ]]
= E[(Xn+m − Xn )E[(Xn+m+1 − Xn+m )|Fn+m ]] = 0,

ce qui conclut la preuve.


Une variante de cet argument montre que les incréments d'une martingale for-
ment une famille orthogonale dans L2 . L'identité nale est alors une conséquence
du théorème de Pythagore.
Exercice 2.1.2. Soit U une variable aléatoire uniforme sur [0, 1). Pour tout n,
soit In l'intervalle (aléatoire) de la forme [i/2n , (i + 1)/2n ) qui contient U . Soit f
une fonction continue bornée sur [0, 1], et on pose
Z
1
Xn := f dx.
|In | In

1. Montrer que le processus (In )n∈N est adapté par rapport à la ltration
dyadique;

12
2. Montrer que (Xn )n∈N est une martingale par rapport à cette ltration, et
qu'elle converge p.s. vers f (U ).
Solution 2.1.2. 1. On a bien {U ∈ [i/2n , (i + 1)/2n )} ∈ Fn , et les évènements
de cette forme susent à déterminer In .
2. Conditionnellement à In = [i/2n , (i + 1)/2n ), avec probabilité 1/2 on a
In+1 = [2i/2n+1 , (2i + 1)/2n+1 ), et avec probabilité 1/2 on a In+1 = [(2i +
1)/2n+1 , (2i + 2)/2n+1 ). On a donc
(2i+1)/2n+1 (2i+2)/2n+1
2n+1 2n+1
Z Z
E[Xn+1 |In ] = f dx + f dx = Xn .
2 2i/2n+1 2 (2i+1)/2n+1

Pour la convergence p.s., comme f est continue sur le compact [0, 1], elle est
uneiformément continue. Soit ε > 0 et δ > 0 tel que si |x − y| < δ , alors
|f (x) − f (y)| < ε. Alors si 2−n < δ , pour tout x ∈ In , on a |x − y| < δ , et
donc Z
|In |−1

f dx − f (U ) < ε.
In

On en déduit la convergence p.s. de Xn vers f (U ).


Fin du cours du 21-01-22

2.2 Quelques outils


2.2.1 Transformations de martingales
Proposition 2.2.1. Soit (Xn ) un processus adapté et ϕ une fonction convexe telle
que E[|ϕ(Xn )|] < ∞ pour tout n.
1. Si (Xn )n∈N est une martingale, alors (ϕ(Xn ))n∈N est une sous-martingale.
2. Si ϕ est de plus croissante et si (Xn )n∈N est une sous-martingale, alors
(ϕ(Xn ))n∈N est une sous-martingale.

Exemple 2.2.1. Si (Xn )n∈N est une martingale, alors (Xn2 )n∈N est une sous-
martingale. En particulier, la variance d'une martingale croît avec le temps.
Proof. 1. D'après l'inégalité de Jensen,

E[ϕ(Xn+1 )|Fn ] > ϕ(E[Xn+1 |Fn ]) = ϕ(Xn ).

2. Toujours en appliquant l'inégalité de Jensen, et la monotonie

E[ϕ(Xn+1 )|Fn ] > ϕ(E[Xn+1 |Fn ]) > ϕ(Xn )

car E[Xn+1 |Fn ] > Xn .

Dénition 2.2.2. Une famille (Hn ) de variables aléatoires est dite prévisible si
∀n > 1 Hnest L1 et Fn−1 -mesurable.
Informellement, une famille est prévisible si au temps n on connaît déjà Hn+1 .

13
Proposition 2.2.3. Soit (Xn )n∈N un processus adapté, et (Hn )n∈N une famille
prévisible et bornée. On pose (H · X)0 := 0 et pour tout n > 1
n
X
(H · X)n := Hi (Xi − Xi−1 ).
i=1

Alors
1. Si (Xn )n∈N est une martingale alors ((H · X)n )n∈N l'est aussi.
2. Si (Xn )n∈N est une surmartingale et les Hn sont tous positifs, alors ((H ·
X)n )n∈N est aussi une surmartingale.
Proof. Tout d'abord, comme les Hn sont bornés, les variables (H · X)n sont bien
intégrables, et le processus est adapté, par construction.
Supposons que (Xn )n∈N est une martingale. Soit n ∈ N. On a bien
E[(H · X)n+1 − (H · X)n |Fn ] = E[Hn+1 (Xn+1 − Xn )|Fn ]
= Hn+1 E[Xn+1 − Xn |Fn ]
= 0.
De même, si (Xn )n∈N est une surmartingale et les Hn sont positifs,
E[(H · X)n+1 − (H · X)n |Fn ] = E[Hn (Xn+1 − Xn )|Fn ]
= Hn E[Xn+1 − Xn |Fn ]
6 0.

2.2.2 Décomposition de Doob-Meyer


Théorème 2.2.4. Soit (Xn ) un processus adapté et L1 . Il existe un unique proces-
sus prévisible (An ) et une unique martingale (Mn ) tels que A0 = M0 = 0 et pour
tout n > 1 on ait Xn = X0 + An + Mn . De plus, An est donnée par
n−1
X
An = E[Xk+1 − Xk |Fk ]. (2.1)
k=0

Proof. Par dénition, (An ) est bien un processus prévisible, donc il nous sut de
montrer que le processus déni par Mn = Xn − X0 − An est bien une martingale.
Tout d'abord, comme Xn et An sont intégrables, Mn l'est aussi. De plus,
E(Mn+1 − Mn |Fn ) = E(Xn+1 − Xn |Fn ) − E(An+1 − An |Fn )
= E(Xn+1 − Xn |Fn ) − E(Xn+1 − Xn |Fn ) = 0,
et donc (Mn ) est bien une martingale.
Montrons maintenant l'unicité. Supposons qu'il existe une martingale M 0 et
un processus prévisible A0 tels que X = X0 + M 0 + A0 . Alors A0n+1 − A0n =
Xn+1 − Xn − (Mn+1 0 − Mn0 ). Comme A0 est prévisible, on a alors
A0n+1 − A0n = E[A0n+1 − A0n |Fn ] = E[Xn+1 − Xn |Fn ] − E[Mn+1
0
− Mn0 |Fn ].
Comme M 0 est une martingale, le second terme est nul. En sommant sur n on voit
que A0 est bien donné par la formule (2.1), donc coincide avec le processus A, et
nécessairement on a alors aussi M 0 = M .

14
Exercice 2.2.1. Quelle est la décomposition de Doob-Meyer d'une marche aléatoire
simple asymmétrique, de paramètre p? Et pour un processus de Galton-Watson?
Solution 2.2.1. Soit (Xn ) une telle marche aléatoire. On a E[Xk+1 − Xk |Fk ] =
2p − 1, donc An = (2p − 1)n et Mn = Xn − (2p − 1)n.
Pour un processus de Galton-Watson, en reprenant les notations de la Section
1.2.2, on a
E[Nn+1 − Nn |Fn ] = Nn (E[X11 ] − 1)

et donc la partie prévisible est An = (E[X11 ]−1) n−1


k=0 k , et la partie martingale
P 
N
est Nn − (E[X11 ] − 1) n−1 k=0 Nk .
P 

2.2.3 Inégalités maximales


Théorème 2.2.5 (Première inégalité de Doob). Soit (Xn )n∈N une sous-martingale
positive. Alors pour tout n ∈ N et r > 0 on a
E Xn 1max06k6n Xk >r
   
E[Xn ]
P max Xk > r 6 6 .
06k6n r r

Proof. Soit T le temps d'arrêt inf{n; Xn > r}, de sorte que {max06k6n Xk > r} =
{T 6 n}. On a alors

r1T =k 6 Xk 1T =k 6 E[Xn |Fk ]1T =k = E[Xn 1T =k |Fk ],

et donc rP[T = k] 6 E[Xn 1T =k ]. On conclut en sommant sur k 6 n.

Exemple 2.2.2. Soit Mn = ni=1 Yi avec les Yi des v.a. i.i.d. Gaussiennes centrées
P
réduites. Alors P(maxk=1,...,n Mk > t) 6 exp(−t2 /(2n)).
En eet, come x → exp(λx) est une fonction croissante convexe pour tout λ > 0,
exp(λMn ) est une sous-martingale positive. Donc
   
P max Mk > t = P max exp(λMk ) > exp(λt)
k=1,...,n k=1,...,n
−λt
6e E[exp(λMn )]
−λt
=e E[exp(λY1 )]n
= exp(−λt + nλ2 /2).

La conclusion suit en prenant λ = t/n (qui est le choix optimal).

Théorème 2.2.6 (Deuxième inégalité de Doob). Soit (Mn )n∈N une martingale.
Pour tout ∈ N et p > 1 on a
   p
p
E sup |Mk |p 6 E[|Mn |p ].
06k6n p − 1

En particulier,
   p
p p
E sup |Mk | 6 sup E[|Mn |p ].
n>0 p−1 n>0

15
NB. Les prefacteurs dans ces inégalités ne dépendent pas de n, ce qui sera utile
lorsqu'on étudiera le comportement en temps long des martingales.
Proof. La seconde inégalité est une conséquence immédiate de la première, par
convergence monotone. Pour la première inégalité, posons Sn := max06k6n |Mk |.
Comme |Mn | est une sous-martingale positive, par la première inégalité de Doob
on a rP(Sn > r) 6 E[|Mn |1Sn >r ]. En intégrant, on a donc
Z ∞ Z ∞
p−2
rP(Sn > r)pr dr 6 E[|Mn |1Sn >r ]prp−2 dr
0
Z ∞  0Z ∞ 
⇔E 1Sn >r pr dr 6 E
p−1
|Mn |1Sn >r pr dr
p−2
0 0
Z Sn  Z Sn 
p
⇔E 1Sn >r pr dr 6
p−1
E p−2
|Mn |(p − 1)r dr
0 p−1 0
 
p
⇔E[Snp ] 6 E[|Mn |Snp−1 ]
p−1

où on a utilisé e théorème de Fubini-Tonelli pour échanger l'ordre des intégrales. En


utilisant l'inégalité de Hölder, on peut majorer le terme de droite dans la dernière
inégalité :
E[|Mn |Snp−1 ] 6 E[|Mn |p ]1/p E[Snp ](p−1)/p ,
ce qui nous permet de conclure qu'on a bien
 p
p p
E[Sn ] 6 E[|Mn |p ].
p−1

2.3 Théorème d'arrêt


Le but dans cet section va être d'étudier les variables de la forme XT , lorsque
(Xn )n∈N est une martingale, et T un temps d'arrêt.

Théorème 2.3.1. Soit (Xn )n∈N une martingale, et T un temps d'arrêt. Alors
(Xn∧T )n∈N est aussi une martingale.
De même, si (Xn )n∈N est une surmartingale, alors (Xn∧T )n∈N l'est aussi.
Une des applications de ce théorème est de permettre de calculer l'espérance de
XT lorsque T est borné p.s. :

Corollaire 2.3.2. Si (Xn )n∈N est une martingale et T est un temps d'arrêt borné
p.s., alors XT ∈ L1 , et E[XT ] = E[X0 ].
De même, si (Xn )n∈N est une surmartingale et T est un temps d'arrêt borné
p.s., alors XT ∈ L1 , et E[XT ] 6 E[X0 ].
Un exemple d'interprétation est que si on joue à un jeu d'argent équilibré (i.e.
modélisé par une martingale), il est impossible de trouver une stratégie qui gagne
de l'argent en moyenne à un horizon de temps ni.

16
Proof. Soit n > 1. On pose Hn := 1T >n = 1 − 1T 6n−1 . Le processus (Hn )n∈N est
prévisible. Le processus
n
X
(H · X) := Hi (Xi − Xi−1 ) = Xn∧T − X0
i=1

est alors une martingale, et donc (Xn∧T )n∈N l'est aussi. Si de plus T 6 N p.s.,
alors
E[XT ] = E[XN ∧T ] = E[X0 ].
La preuve pour les surmartingales fonctionne de la même manière.

A noter que l'hypothèse T bornée n'est pas anodyne, et le corollaire peut être
faux sans. Par exemple, si on considère une marche aléatoire simple sur Z issue de
0, et le temps d'arrêt T := inf{n > 1; Xn = 1}. On a vu que lim sup Xn = ∞ p.s.,
et donc ce temps d'arrêt est ni p.s. Toutefois,

1 = XT = E[XT ] 6= E[X0 ] = 0.

On voit donc que on ne peut pas remplacer l'hypothèse de T borné par T ni p.s.
Toutesfois, sous des conditions d'intégrabilité supplémentaires, c'est quand même
possible :

Exercice 2.3.1. Soit (Mn )n∈N un martingale telle que il existe L < ∞ avec |Mn | 6
L p.s., pour tout n ∈ N. Montrer que si T est un temps d'arrêt ni p.s., alors
E[MT ] = E[M0 ].
Solution 2.3.1. Pour tout n ∈ N, d'après le théorème d'arrêt on a E[Mn∧T ] =
E[M0 ]. On peut ensuite passer à la limite en n, en utilisant la borne L∞ pour
appliquer le théorème de convergence dominée.
Nous verrons plus tard une version du théorème d'arrêt autorisant des temps
d'arrêt non bornés, mais requérant une hypothèse supplémentaire sur la martingale
à la place, qui sera toutefois plus faible que la borne L∞ de l'énoncé ci-dessus.
On peut généraliser le théorème d'arrêt au résultat suivant :

Exercice 2.3.2. Soient S et T deux temps d'arrêt bornés, tels que S 6 T, et


(Xn )n∈Nune sous-martingale. Montrer que E[XS ] 6 E[XT ].
Le cas S = 0 correspond au théorème d'arrêt.

Solution 2.3.2. S et T sont bornés, donc XS et XT sont bien L1 . Posons Hn :=


1S<n6T = 1S6n−1 − 1T 6n−1 . Ca dénit bien un processus prévisible et positif, donc
(H · X)n est une sous-martingale, et donc pour tout n on a E[(H · X)n ] > 0. Et si
on prend N > T xé, on a (H · X)N = XT − XS , ce qui permet de conclure.

2.4 Convergence de martingales


Dans ce chapitre, nous allons étudier le comportement en temps long des martin-
gales. Le but est de montrer que sous des conditions très générales, si (Xn )n∈N est
une martingale alors la suite Xn converge vers une variable aléatoire limite. Comme
il y a plusieurs notions de limite (limite p.s., limite Lp ), nous aurons plusieurs types
de résultats.

17
2.4.1 Convergence L2
Théorème 2.4.1. Soit (Xn )n∈N une martingale bornée dans L2 . Alors il existe
une variable aléatoire X∞ telle que Xn −→ X∞ p.s. et dans L2 .
Remark 2.4.1. Ce théorème reste vrai si on remplace l'hypothèse de borne L2 par
une borne Lp avec p > 1. En revanche, il est faux si on suppose seulement une
borne L1 . Nous verrons plus tard des contre-exemples.
Proof. Sans perdre de généralité, on peut supposer X0 = 0. Comme on l'a vu à
l'exercice 2.1.1, on a pour tout n, m ∈ N l'identité
X
E[(Xn+m − Xn )2 ] = E[(Xn+1 − Xn )2 ].

En particulier, comme (Xn ) est bornée dans L2 , cela implique que n E[(Xn+1 −
P
Xn )2 ] < ∞, et que (Xn ) est une suite de Cauchy dans L2 . On en déduit alors que
(Xn ) converge dans L2 vers une limite X∞ .
Montrons maintenant que (Xn ) converge aussi p.s. Posons Rn := supk,`>n |Xk −
X` | et Rn0 := supk>n |Xk −Xn |. On a Rn 6 2Rn0 . (Rn ) est une suite monotone, donc
elle converge p.s. vers une limite R∞ . Si on montre que cette limite est nulle, on en
déduirait que (Xn ) est presque sûrement une suite de Cauchy, et donc convergerait
p.s. Pour cela, nous allons montrer que limn E[(Rn0 )2 ] = 0. D'après la deuxième
inégalité de Doob (Théorème 2.2.6) appliqué à la martingale (Xk − Xn )k>n , on a
X
E[(Rn0 )2 ] 6 4 sup E[(Xk − Xn )2 ] = E[(Xk+ − Xk )2 ].
k>n k>n

La série k E[(Xk+ − Xk )2 ] étant nie, on en déduit que E[(Rn0 )2 ] −→ 0, et donc


P
que (Xn ) converge p.s. vers une limite X∞ 0 .

Il nous reste à démontrer que la limite p.s. et la limite L2 coïncident, mais cela
est une conséquence directe du lemme de Fatou appliqué à |Xn − X∞ |, qui converge
p.s. vers |X∞ − X∞ 0 |, et dans L2 vers 0.

2.4.2 Convergence presque sûre


Nous allons maintenant étudier la convergence presque sûre des martingales. On a
déjà vu que les martingales bornées dans L2 convergenent p.s., le but ici va être de
se passer de l'hypothèse de borne L2 .

Théorème 2.4.2. Soit (Xn )n∈N une surmartingale positive. Alors Xn converge
p.s. vers une limite X∞ , à valeurs dans [0, ∞].
Proof. Comme t −→ exp(−t) est convexe et décroissante, le processus déni par
Yn := exp(−Xn ) est une sous-martingale, d'après la Propositon 2.2.1. On considère
sa décomposition de Doob-Meyer

Yn = Y0 + Mn + An

avec M une martingale et A un processus prévisible, tous deux issus de 0. La


formule dénissant An dans la décompositon de Doob-Meyer implique que, comme
Yn est une sous-martingale, An est croissante, et donc converge p.s. vers une limite
A∞ , à valeurs dans [0, +∞]. Pour prouver la converge p.s. de Xn , il nous sut

18
donc de montrer la convergence p.s. de la martingale (Mn ). Pour cela, nous allons
montrer que cette martingale est bornée dans L2 , et appliquer le Théorème 2.4.1.
Tout d'abord, on remarque que comme Yn est bornée, An et Yn sont L2 pour n
xé, et donc Mn est L2 . On peut donc écrire le développement
n−1
X
2
E[(Mn ) ] = E[(Mk+1 − Mk )2 ].
k=0

On peut aussi développer


n−1
X
Yn2 = Y02 + 2
Yk+1 − Yk2 .
k=0

Comme Yk+1 − Yk = Ak+1 − Ak + Mk+1 − Mk , on a alors


n−1
X
Yn2 = 2
Y0 + (Mk+1 −Mk )2 +(Ak+1 −Ak )2 +2Yk (Mk+1 −Mk )+2Yk (Ak+1 −Ak )+2(Mk+1 −Mk )(Ak+1 −Ak ).
k=0

Comme Yk > 0 et (Ak+1 − Ak ) > 0, en négligeant des termes positifs on obtient


n−1
X n−1
X
(Mk+1 − Mk )2 + 2 (Yk + Ak+1 − Ak )(Mk+1 − Mk ) 6 Yn2 6 1.
k=0 k=0

De plus, comme A est un processus prévisible,

E[(Yk + Ak+1 − Ak )(Mk+1 − Mk )] = E[(Yk + Ak+1 − Ak )E[(Mk+1 − Mk )|Fk ]] = 0.

Donc n−1k=0 E[(Mk+1 − Mk ) ] 6 1, et donc M est une martingale bornée dans L ,


2 2
P
ce qui permet de conclure la preuve via le Théorème 2.4.1.

Exemple 2.4.1. Un processus de Galton-Watson avec E[X11 ] 6 1 (on parle de


processus sous-critique) converge p.s.
Exercice 2.4.1. Soit Sn une marche aléatoire simple, symétrique sur Z, issue de
S0 = 1. Soit T := inf{n; Sn = 0}.

1. Montrer que Sn∧T converge p.s. vers une limite que l'on déterminera.
2. Montrer que (Sn∧T )n∈N est bornée dans L1 , mais qu'il n'y a pas convergence
L1 .

Solution 2.4.1. 1. Sn∧T est une martingale positive, donc elle converge p.s.
Comme T est ni p.s., sa limite est 0
On peut aussi montrer cela sans savoir a priori que T est ni p.s. En eet,
si Sn∧T 6= 0, alors |S(n+1)∧T − Sn∧T | = 1. Donc la seule limite possible est 0,
et a fortiori T est ni p.s.
2. D'après le théorème d'arrêt, on a pour tout n E[Sn∧T ] = E[S0 ] = 1 6= 0.
Il n'y a donc pas convergence L1 . Toutefois, comme Sn∧T est positive,
supn E[|Sn∧T |] = supn E[Sn∧T ] = 1.

19
Théorème 2.4.3. Soit (Xn )n∈N une sous-martingale bornée dans L1 . Alors elle
converge p.s. vers une limite X∞ , qui est elle-même L1 .
NB. En revanche, sous ces hypothèses la convergence L1 n'est pas nécessairement
vraie, comme le montre l'exercice précédent. On a seulement E[|X∞ |] 6 lim E[|Xn |]
via le lemme de Fatou.
Proof. Le but va être de se ramener au cas du Théorème 2.4.2, en écrivant X comme
la diérence de deux surmartingales positives. Comme x −→ max(x, 0) est convexe,
Xn+ := max(Xn , 0) est une sous-martingale positive. Soit

Xn+ = X0+ + Mn + An

sa décomposition de Doob. (An ) est une suite croissante, donc elle converge p.s.
vers une limite A∞ . De plus, E(An ) = E(Xn+ ) − E(X0+ ) est uniformément bornée
par sup E(|Xn |), donc par convergence monotone A∞ est L1 . Le processus

Yn := X0+ + Mn + E[A∞ |Fn ]

est alors une martingale, et est positive car A∞ > An et donc

Yn > X0+ + Mn + An = Xn+ > 0.

Donc Yn converge p.s., et on peut vérier que sa limite est L1 .


Le processus Zn := Yn − Xn est alors une surmartingale, car c'est la diérence
entre une martingale et une sous-martingale. De plus

Zn > Xn+ − Xn > 0.

C'est donc une surmartingale positive, elle converge p.s., et on peut aussi vérier
que sa limite est L1 . On en déduit que Xn converge p.s., comme diérence de deux
suites convergentes.

Exercice 2.4.2. Soit (Xn )n∈N le processus issu de X0 = 1, tel que Xn ∈ {0, 2n }
pour tout n, et déni par les opérations suivantes : si Xn = 0, alors Xn+1 = 0.
Sinon, Xn+1 suit une loi uniforme sur {0, 2n }.
1. Montrer que (Xn ) est une martingale.
2. Montrer qu'elle est bornée dans L1 .
3. Montrer qu'elle converge p.s. vers une limite qu'on déterminera. A-t-on con-
vergence L1 ?
Solution 2.4.2. 1. On calcule directement E[Xn+1 |Xn = 0] = 0 et
E[Xn+1 |Xn = 2n ] = 2n .
2. Comme les Xn sont positifs et en utilisant la propriété de martingale
E[|Xn |] = E[Xn ] = E[X0 ] = 1 ∀n.

3. En appliquant le théorème 2.4.3, on a la convergence p.s. vers une limite


X∞ . Comme de plus P(lim inf k Xk > 0) 6 P(Xn > 0) = 2−n −→ 0, la limite
est nulle. On voit que l'espérance de la limite est diérente de la limite des
espérances, donc il n'y a pas convergence L1 .

20
2.4.3 Martingales uniformément intégrables
Le but de cette section va être de mieux comprendre quand est-ce qu'on a conver-
gence L1 des martingales qui sont seulement bornées dans L1 .

Dénition 2.4.4. Une famille (Xn )n∈N de variables aléatoires est dite uniformé-
ment intégrable si
lim sup E[|Xn |1|Xn |>R ] = 0.
R−→∞ n

Exemple 2.4.2. Une famille bornée dans Lp pour p > 1 est uniformément inté-
grable. Et si une famille est uniformément intégrable, alors elle est bornée dans
L1 .

Pour la première assertion, si supn E[|Xn |p ] 6 C , alors en prenant q tel que


p−1 + q −1 = 1, on

sup E[|Xn |1|Xn |>R ] 6 sup E[|Xn |p ]1/p P[|Xn | > R]1/q
n n
6 sup C 1/p E[|Xn |p ]1/q R−p/q
n
6 CR−p/q

et donc on a bien limR−→∞ supn E[|Xn |1|Xn |>R ] = 0.


Pour la deuxième assertion, on a

sup E[|Xn |] 6 R + sup E[|Xn |1|Xn |>R ] < ∞.


n n

Exercice 2.4.3. Soit (Xn )n∈N une famille de variables aléatoires. On suppose qu'il
existe une variable aléatoire Z L1 , et telle que pour tout n on a |Xn | 6 Z . Montrer
que (Xn )n∈N est uniformément intégrable.
Solution 2.4.3. On a supn E[|Xn |1|Xn |>R ] 6 E[|Z|1|Z|>R ], et comme Z est L1 , on
a limR→∞ E[|Z|1|Z|>R ] = 0.
Une manière de voir cet énoncé est que le théorème de convergence dominé est
un critère d'uniforme intégrabilité.
On peut un peu étendre la notion d'uniforme intégrabilité de la manière suivante
:

Proposition 2.4.5. Soit (Xn )n∈N une famile bornée dans L1 . Les propriétés suiv-
antes sont équivalentes :
1. La famille (Xn )n∈N est uniformément intégrable;
2. Pour tout ε > 0, il existe δ > 0 tel que pour tout évènement A ∈ F avec
P (A) 6 δ , on ait
sup E[|Xn |1A ] 6 ε.
n

Proof. (ii) ⇒ (i) est le sens facile, car d'après l'inégalité de Markov, en prenant
C = supn E[|Xn |], on a
C
sup P(|Xn | > R) 6 .
n R

21
Donc pour tout ε > 0 et δ associé, si on prend R tel que C/R < δ , on a bien

sup E[|Xn |1|Xn |>R ] 6 ε.


n

Prouvons maintenant que (i) ⇒ (ii). Soit ε > 0. On peut choisir a susemment
grand tel que
sup E[|Xn |1|Xn |>a ] < ε/2.
n

Alors en prenant δ = ε/(2a), si P (A) 6 δ , on a pour tout n ∈ N

E[|Xn |1A ] = E[|Xn |1A∩{|Xn |6a} ]+E[|Xn |1A∩{|Xn |>a} ] 6 aP (A)+E[|Xn |1|Xn |>a ] < ε,

ce qui conclut la preuve.

Théorème 2.4.6. Soit (Xn )n∈N une martingale. Les propriétés suivantes sont
équivalentes :
1. (Xn )n∈N est uniformément intégrable;
2. (Xn )n∈N est une martingale fermée;
3. (Xn )n∈N converge p.s. et dans L1 .
Proof. Commençons par montrer que (1) ⇒ (3). Si la martingale est UI, on a déjà
vu qu'elle est bornée dans L1 , et donc elle converge p.s. vers une limite X∞ qui
est L1 . Reste à montrer la convergence L1 . Nous allons montrer que la suite est
de Cauchy dans L1 . En utilisant la Propositon 2.4.5, on peut voir que la famile
dénombrable (Xn − Xm )n,m∈N est aussi uniformément intégrable. Donc pour ε > 0,
il existe a tel que
sup E[|Xn − Xm |1|Xn −Xm |>a ] < ε.
n,m

On a ensuite

E[|Xn − Xm |] 6 E[|Xn − Xm |1|Xn −Xm |>a ]


+ E[|Xn − Xm |1ε<|Xn −Xm |<a ] + E[|Xn − Xm |1|Xn −Xm |6ε ]
6 2ε + aP(|Xn − Xm | > ε)

Comme (Xn )n∈N converge p.s. (et donc en probabilité) vers X∞ , on a

P(|Xn − Xm | > ε) 6 P(|Xn − X∞ | > ε/2) + P(|Xm − X∞ > ε/2) −→ 0.


n,m→∞

On en déduit que lim supn,m→∞ E[|Xn − Xm |] 6 2ε, pour tout ε > 0. La suite
(Xn )n∈N est donc bien une suite de Cauchy dans L1 . Sa limite L1 est toujours X∞ ,
par application du lemme de Fatou.
Montrons maintenant que (3) ⇒ (2). Par la propriété de martingale, pour
tout m > n, on a Xn = E[Xm |Fn ]. Comme on a toujours E[|E[Y |Fn |] 6 E[|Y |],
l'application Y −→ E[Y |Fn ] est continue pour la topologie L1 , et donc on peut
faire tendre m vers l'inni, et on obtient que pour tout n Xn = E[X∞ |Fn ], où X∞
est la limite p.s. et L1 . Donc la martingale est fermée.
Enn, montrons que (2) ⇒ (1). Soit Z une variable aléatoire L1 telle que pour
tout n on ait Xn = E[Z|Fn ]. Comme le singleton Z ets uniformément intégrable,

22
d'après la Propositon 2.4.5, pour tout ε > 0, il existe δ > 0 tel que si P(A) < δ , on
a E[|Z|1A ] < ε. Comme pour tout a > 0

E[|E[Z|Fn ]|] E[|Z|]


P(|E[Z|Fn ]| > a) 6 6
a a
si on prend a susemment grand pour que E[|Z|]/a < δ , on a bien

E[|E[Z|Fn ]|1|E[Z|Fn ]|>a ] 6 E[|X|1|E[Z|Fn ]|>a ] < ε,

et la famille E[Z|Fn ] est donc bien uniformément intégrable.

On notera que dans cette preuve, la partie suivante n'a pas utilisé la structure
de martingale, et est donc valable sans cette hypothèse :

Théorème 2.4.7. Soit (Xn )n∈N une famille de variable uniformément intégrable,
et qui converge p.s. Alors la convergence est aussi L1 .
On conclut par un théorème d'arrêt pour les martingales uniformément inté-
grables :

Corollaire 2.4.8 (Théorème d'arrêt pour les martingales UI). Soit (Xn )n∈N une
martingale uniformément intégrable, et T un temps d'arrêt ni p.s. Alors E[XT ] =
E[X0 ].

Proof. Montrons d'abord que XT est L1 . On a


E[|Xn |1T =n ]
X
E[|XT |] =
n∈N∪{∞}

E[|E[X∞ |Fn ]|1T =n ]


X
=
n∈N∪{∞}

E[E[|X∞ ||Fn ]1T =n ]


X
6
n∈N∪{∞}

E[|X∞ |1T =n ]
X
=
n∈N∪{∞}

= E[|X∞ |].

Comme XT est L1 , en appliquant le théorème de Fubini, si A ∈ FT

E[XT 1A ] = E[XT 1A∩{T =n} ] = E[Xn 1A∩{T =n} ]


X X

n∈N∪{∞} n∈N∪{∞}

E[E[X∞ |Fn ]1A∩{T =n} ] = E[X∞ 1A∩{T =n} ] = E[X∞ 1A ].


X X
=
n∈N∪{∞} n∈N∪{∞}

Donc
XT = E[X∞ |FT ]
et la conclusion suit.

Exercice 2.4.4 (Ruine du joueur). Soit Sn une marche aléatoire simple symétrique
issue de k > 0, et soit ` > k. Alors la probabilité que Sn atteigne le site ` avant de
visiter le site 0 est égale à k/`.

23
Solution 2.4.4. On considère les temps d'arrêt Tp = inf{n; Sn = p} et T = T0 ∧T` .
Comme Sn∧T est une martingale bornée, elle est uniformément intégrable. De plus,
le temps d'arrêt T est ni p.s., et donc Sn∧T converge vers ST . On peut donc
appliquer le Théorème 2.4.8 pour obtenir
E[ST ] = E[S0 ] = k.

Or
E[ST ] = `P[T` < T0 ] + 0 × P[T0 < T` ] = `P[T` < T0 ].
On en déduit qu'on a P[T` < T0 ] = k/`, ce qui est le résultat voulu.

2.4.4 Une application en analyse : le théorème de Rademacher


Théorème 2.4.9. Soit f : [0, 1] −→ une fonction lipchitzienne. Alors il existe une
fonction g mesurable bornée telle que pour tout x ∈ R on ait
Z x
f (x) = f (0) + g(t)dt.
0

En particulier, f est dérivable presque partout.


Proof. Soit L > 0 telle que f soit L-lipschitz. On considère X une v.a. uniforme
sur [0, 1], et les variables

Xn = 2−n b2n Xc; Zn := 2n (f (Xn + 2−n ) − f (Xn )).

On note (Fn ) la ltration canonique associèe aux Xn .


Alors (Zn ) est une Fn -martingale bornée par L. En eet, conditionnellement
à la valeur de Xn , on a deux valeurs équiprobables pour Xn+1 , qui sont Xn et
Xn + 2−n−1 . Alors
−n−1 ) − f (X ) f (Xn + 2−n−1 + 2−n−1 ) − f (Xn + 2−n−1 )
 
n+1 f (Xn + 2 n
E[Zn+1 |Fn ] = 2 +
2 2
= 2n (f (Xn + 2−n ) − f (Xn )) = Zn .

Elle converge donc p.s. et dans L1 vers une v.a. Z , qui est σ(X)-mesurable,
car σ(X) = ∩n σ(Xn , Xn+1 ...). Il existe donc une fonction mesurable g telle que
Z = g(X). Comme de plus Z est bornée par L, on peut prendre g bornée par L.
En particulier,
Zn = E[g(X)|Xn ].
Or, conditionnellement à Xn , X est uniformément distribuée sur [Xn , Xn + 2−n−1 [,
donc p.s.
Z Xn +2−n
n
Zn = 2 g(u)du.
Xn
On en déduit que p.s.
Z Xn +2−n
−n
f (Xn + 2 ) − f (Xn ) = g(u)du.
Xn

Donc pour tout k < 2n on a


Z (k+1)2−n
f ((k + 1)2−n ) − f (k2−n ) = g(u)du.
k2−n

24
En sommant, on obtient pour tout k < 2n
Z k2−n
−n
f (k2 ) = f (0) + g(u)du.
0

En faisant tendre k2−n vers x, par continuité de f on en déduit qu'on a bien


Z x
f (x) = f (0) + g(u)du.
0

25
Chapter 3

Chaînes de Markov
Dans ce chapitre, X sera toujours un ensemble au plus dénombrable.

3.1 Dénitions et premières propriétés


Dénition 3.1.1. 
X ×X −→ [0, 1]
Q:
(x, y) −→ Q(x, y)
est une matrice stochastique sur X si pour tout x ∈ X on a Q(x, y) = 1.
P
y

De manière équivalente, une matrice stochastique est une collection (Q(x, ·))x∈X
de mesures de probabilité sur X .

Notation. On peut dénir laPmatrice stochastique Qn := Qn par récurrence avec


avec Q1 = Q et Qn+1 (x, y) = z Qn (x, z)Q(z,Py).
Pour tout f : X −→ R, on note Qf (x) := y Q(x, y)f (y).
Si on identie f à un vecteur colonne de R|X | , alors Qf est obtenue en appliquant
la matrice Q à f .

Dénition 3.1.2. Soient Q une matrice stochastique sur X , et (Xn )n∈N un proces-
sus aléatoire à valeurs dans X . On dit que (Xn )n∈N est une chaîne de Markov de
matrice de transition Q si pour tout n > 0 la loi conditionnelle de Xn+1 connaissant
(X0 , ..., Xn ) est Q(Xn , ·).
De manière équivalente,
P(Xn+1 = y|X0 = x0 , X1 = x1 , ..., Xn = xn ) = Q(xn , y)

pour tout x0 , ..., xn tels que P(X0 = x0 , ..., Xn = xn ) > 0.


Interprétation : pour un processus adapté général, la loi de Xn conditionnelle-
ment à (X0 , ..., Xn ) dépend a priori de tous les Xi , i.e. de tout le passé. Pour une
chaîne de Markov, elle ne dépend que du dernier élément Xn . C'est un processus
avec une absence de mémoire, le futur ne dépend pas du passé, conditionnellement
au présent.

NB. Ce n'est pas la même chose que de ne pas du tout dépendre du passé. Il y a des
corrélations entre passé et futur, mais leur information prédictive est entièrement
contenue dans celle du présent.

26
On peut voir les chaînes de Markov comme l'analogue stochastique des suites
récurrentes xn+1 = f (xn ). En particulier, elles (et leur analogue en temps continu)
jouent le rôle pour la physique statistique que les équations diérentielles ordinaires
jouent pour la mécanique classique.

Exemple 3.1.1. 1. La marche aléatoire simple sur Z de paramètre p est une


chaîne de Markov, de matrice de transition
Q(i, i + 1) = p; Q(i, i − 1) = 1 − p; Q(k, `) = 0 si |k − `| > 2.

2. Une marche aléatoire simple sur un graphe (S, A) est une chaîne de Markov
de matrice de transition
1
si (x, y) ∈ A;

Q(x, y) = dx
sinon;
où dx = Card({y; (x, y) ∈ A}).
Exercice 3.1.1. Montrer qu'un processus de Galton-Watson est une chaîne de
Markov sur N, et calculer sa matrice de transition dans le cas où les Xik sont des
variables de Bernoulli de paramètre p.
Solution 3.1.1. On a
Nn
!
X
P(Nn+1 = kn+1 |N0 = k0 , ..., Nn = kn ) = P Xin = kn+1 | N0 = k0 , ..., Nn = kn
i=1
kn
!
X
=P Xin = kn+1 .
i=1

C'est donc bien une chaîne de Markov. Dans le cas où les Xi suivent une loi
de Bernoulli de paramètre p, conditonnellement à {Nn = kn }, Nn+1 suit une loi
binomiale de paramètres (kn , p). Donc
 
k `
Q(k, `) = p (1 − p)k−` ; 0 6 ` 6 k.
`

Proposition 3.1.3. Un processus (Xn )n∈N à valeurs dans X est une chaîne de
Markov de matrice de transition Q ssi pour tout n ∈ N et x0 , ..., xn ∈ X on a
n
Y
P(X0 = x0 , X1 = x1 , ..., Xn = xn ) = P(X0 = x0 ) Q(xi−1 , xi ). (3.1)
i=1

En particulier, si P(X0 = x) > 0 on a


P(Xn = y|X0 = x) = Qn (x, y). (3.2)

Proof. Si (Xn )n∈N est une chaîne de Markov, on peut démontrer (3.1) par récurrence
sur n, en utilisant la formule de conditionnement

P(X0 = x0 , ..., Xn+1 = xn+1 ) = P(X0 = x0 , ..., Xn = xn )P(Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ).

27
Inversement, si (3.1) est vraie, alors
P(X0 = x0 , ..., Xn+1 = xn+1 )
P(Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ) = = Q(xn , xn+1 ).
P(X0 = x0 , ..., Xn = xn )
L'identité (3.2) s'en déduit via le développement
X n−1
Y
Qn (x0 , xn ) = Q(xi , xi+1 ).
x1 ,...,xn−1 ∈X i=0

La loi de (X0 , ..., Xn ) lorsque les Xi forment une chaîne de Markov est donc
complètement déterminée par la loi de la condition initiale X0 et la matrice de
transition Q.
Notation. On utilisera les notations Eµ et Pµ pour l'espérance et la loi d'une chaîne
de Markov lorsque la condition initiale est donnée par la mesure µ. En particulier,
Px sera la loi de la chaîne lorsque la loi de la condition initiale est δx .
Proposition 3.1.4. Soit f : X −→ R une fonction mesurable, positive ou bornée.
Alors
E[f (Xn+1 )|X0 , ..., Xn ] = E[f (Xn+1 )|Xn ] = Qf (Xn ). (3.3)
Plus généralement,
E[f (Xn+p )|X0 , ..., Xn ] = Qp f (Xn ). (3.4)
Proof. Commençons par démontrer (3.3). On a
X
E[f (Xn+1 )|X0 , ..., Xn ] = f (y)P(Xn+1 = y|X0 , ..., Xn )
y∈X
X
= f (y)Q(Xn , y)
y∈X

= Qf (Xn ).
Pour démontrer (3.4), on procède par récurrence sur p. Nous venons de le
démontrer pour p = 1. Supposons que c'est vrai pour un p > 1 xé. On a alors
E[f (Xn+p+1 )|X0 , ..., Xn ] = E[E[f (Xn+p+1 )|X0 , ..., Xn , Xn+1 ]|X0 , ..., Xn ]
= E[Qp f (Xn+1 )|X0 , ..., Xn ]
= Qp+1 f (Xn ).

On conclut ce chapitre avec un résultat général d'existences des lois de chaînes


de Markov. Il ne sera pas explicitement utilisé par la suite, mais garantit la non-
vacuité des énoncés qu'on fera dans ce cours. On n'en donnera pas la preuve ici.
Théorème 3.1.5. Soit Q une matrice stochastique sur X .
1. Il existe un espace de probabilité (Ω, F, P) sur lequel pour tout x ∈ X il existe
un processus Xnx qui est une chaîne de Markov de matrice de transition Q,
issue de X0 = x.
2. Pour tout x ∈ X , il existe une unique mesure de probabilité Px sur Ω = X N
telle que sous Px le processus des coordonnées (Xn )n∈N est une chaîne de
Markov de matrice de transition Q, et avec Px (X0 = x) = 1.

28
3.2 Propriété de Markov
L'absence de mémoire des chaînes de Markov fait que, conditionnellement à la valeur
de Xn , la loi du futur (Xk )k>n est la même que celle d'une chaîne de Markov de
condition initiale Xn . Ceci est formalisé par le résultat suivant :

Théorème 3.2.1 (Propriété de Markov simple). Soit (Xn )n∈N une chaîne de
Markov de matrice de transition Q, et (Fn )n∈N sa ltration canonique. Alors pour
tout n ∈ N et x ∈ X , conditionnellement à {Xn = x} le processus (Xn+p )p∈N est
une chaîne de Markov de matrice de transition Q, de loi initial δx et indépendante
de (X0 , ..., Xn ), i.e. pour tout A ∈ Fn on a
P(A∩{Xn+1 = x1 , ..., Xn+p = xp }|Xn = x) = P(A|Xn = x)Px (X1 = x1 , ..., Xp = xp ).

On peut aussi dire que la loi conditionnelle de (Xk )k>n connaissant (X0 , ..., Xn )
est PXn .

Proof. Il nous sut de montrer le résultat pour A de la forme {X0 = y0 , ..., Xn =


yn }, puisque cette famille engendre la tribu Fn (car X est au plus dénombrable).
De plus, si yn 6= x, les deux probabilités sont nulles, donc égales, et il sut donc
de considérer le cas yn = x. On a alors

P(A ∩ {Xn+1 = x1 , ..., Xn+p = xp }|Xn = x)


P(X0 = y0 , ..., Xn−1 = yn−1 , Xn = x, Xn+1 = x1 , ..., Xn+p = xp |Xn = x)
=
P(Xn = x)
P(A)
= Q(x, x1 )Q(x1 , x2 )...Q(xp−1 , xp )
P(Xn = x)
= P(A|Xn = x)Px (X1 = x1 , ..., Xp = xp ).

On peut généraliser ce résultat, en remplaçant le temps n par un temps d'arrêt


aléatoire :

Théorème 3.2.2 (Propriété de Markov forte). Soit (Xn )n∈N une chaîne de Markov
de matrice de transition Q, (Fn )n∈N sa ltration canonique et T un temps d'arrêt
adapté. Alors pour tout x ∈ X , conditionnellement à {XT = x} ∩ {T < ∞} le
processus (XT +p )p∈N est une chaîne de Markov de matrice de transition Q, de loi
initial δx et indépendante de (X0 , ..., XT ), i.e. pour tout A ∈ FT on a
P(A∩{XT +1 = x1 , ..., XT +p = xp }|XT = x, T < ∞) = P(A|XT = x, T < ∞)Px (X1 = x1 , ..., Xp = xp ).

Proof. Soit n ∈ N. En appliquant la propriété de Markov simple, on a


P(A ∩ {T = n} ∩ {XT +1 = x1 , ..., XT +p = xp |XT = x, T < ∞)

= P(A ∩ {T = n}|XT = x, T < ∞)Px (X1 = x1 , ..., Xp = xp )


et on conclut en sommant sur n ∈ N.

Comme première application, on peut utiliser cette propriété de Markov forte


pour étudier le nombre de retours en un point :

29
Proposition 3.2.3. Soit (Xn )n∈N une chaîne de Markov. On pose

1Xn =x
X
Nx :=
n=0

le nombre de visites en x, et
Hx := inf{n > 1; Xn = x}

le temps de premier passage en x après l'instant initial. Alors


Px [Nx = ∞] = 1 ⇔ Px [Hx < ∞] = 1,

i.e. si en partant de x on y revient p.s. une fois, on y revient une innité de fois.
Proof. L'implication ⇒ est triviale, pusique bien sur si un état est visité une innité
de fois, il est a fortiori visité au moins une fois après l'instant initial.
Pour l'implication ⇐, comme Px (Hx < ∞) = 1,
loi
Nx (X0 , X1 ...) = 1 + Nx (XHx , XHx +1 , ...).

Mais d'après la propriété de Markov forte, (XHx , XHx +1 , ...) a la même loi que
(X0 , X1 , ...), i.e. Px . Donc
loi
Nx = 1 + Nx
et donc Nx = +∞ p.s.

Exemple 3.2.1. La marche aléatoire simple sur Z issue de 0 revient une innité
de fois en 0.

3.3 Mesures invariantes et classication des états


3.3.1 Classication des états
Dénition 3.3.1 (Etats récurrents, états transitoires). Soit x ∈ X . En reprenant
les notations de la Proposition 3.2.3
ˆ Si Px (Hx < ∞) = 1, on dit que x est récurrent.
ˆ Si Px (Hx < ∞) < 1, on dit que x est transitoire.
Cette terminologie est justiée par la Proposition 3.2.3, puisque si la chaîne part
d'un point récurrent, elle y revient une innité de fois.
Proposition 3.3.2. Si x est transitoire, alors
1
Ex (Nx ) = .
Px (Hx = ∞)
Proof. En utilisant la propriété de Markov forte, on a
Px (Nx > k + 1) = Ex (1Hx <∞ ((Xk )k>0 )1Nx >k ((Xk )k>Hx ))
= Ex (1Hx <∞ )Ex (1Nx >k )
= Px (Hx < ∞)Px (Nx > k).

30
Par récurrence, comme Px (Nx > 1) = 1 (par dénition de Nx ), on a donc
Px (Nx > k) = Px (Hx < ∞)k−1 .
On reconnait une loi géométrique de paramètre Px (Hx < ∞) = 1 − Px (Hx = ∞),
et

X 1
Ex (Nx ) = Px (Nx > k) = .
Px (Hx = ∞)
k=1

Dénition 3.3.3 (Noyau potentiel). Le noyau potentiel de la chaîne de Markov


est  2
X −→ [0, +∞]
U:
(x, y) −→ Ex (Ny ).
Proposition 3.3.4. 1. Pour tout x, y ∈ X , on a U (x, y) = , avec
P
n∈N Qn (x, y)
la convention Q0 = Id.
2. U (x, x) = +∞ ⇔ x est récurrent.
3. Pour tout x 6= y, on a U (x, y) = Px (Hy < ∞)U (y, y).
Proof. 1
P∞
1. U (x, y) =
P P
n=0 Ex ( Xn =y ) = Px (Xn = y) = Qn (x, y).
2. Immédiat par dénition de U .
3. Par propriété de Markov forte,
Ex (Ny ) = Ex (1Hy <∞ Ny ((Xk )k>Hy )) = Px (Hy < ∞)Ey (Ny ).

Remarque 3.3.1. U (x, y) = 0 ssi y est inaccessible depuis x.


U (x, y) > 0 ssi il y a une probabilité positive de visiter y si l'on part de x.
Exemple 3.3.1. Pour la marche aléatoire simple sur Z de paramètre p, U (1, 0) = 0
si p = 1, sinon U (1, 0) > 0.
Exercice 3.3.1. Soit (Ynk )n∈N , k = 1, ...d d copies indépendantes d'une marche
aléatoires simple symétrique issue de 0. Montrer que Yn := (Yn1 , ..., Ynd ) est une
chaîne de Markov, et calculer sa matrice de transition. Montrer ensuite que 0 est
récurrent ssi d < 3.
Solution 3.3.1. On peut explicitement calculer
d
1 Y
P(Yn+1 = y|Y1 , ..., Yn ) = 1|Yni −yi |=1 .
2d
i=1

Donc c'est bien une chaîne de Markov, de matrice de transition Q(x, y) =


i=1 1|xi −yi |=1 .
1 Qd
2d
On a alors Q2n+1 (0, 0) = 0 pour tout n, et, par indépendance des coordonnées,
 
2n
1
Q2n (0, 0) = 1
P(Y2n = 0) d
et 1
P(Y2n = 0) = 2 −2n
≈√
n
πn
où on a utilisé la formule de Stirling. Donc Qn (0, 0) < ∞ ssi < ∞, et
P P −d/2
n
donc ssi d > 3.

31
Lemme 3.3.5. Soit x ∈ cX un point récurrent et y ∈ X tel que U (x, y) > 0.
Alors y est récurrent, et Py (Hx < ∞) = 1. En particulier, U (y, x) est alors aussi
strictement positif.
Une manière de comprendre ce lemme est que il n'est pas possible de visiter un
état transitoire après un état récurrent.

Proof. Par hypothèse,


0 = Px (Nx < ∞)
> Px (Hy < ∞, Hx ((Xk )k>Hy ) = ∞)
= Px (Hy < ∞)Py (Hx = ∞),

où on a utilisé la propriété de Markov forte. Or comme Px (Hy < ∞) > Qp (x, y)


pour tout p ∈ N∗ , comme U (x, y) > 0 on a Px (Hy < ∞) > 0. Donc c'est Py (Hx =
∞) qui est nul.
Il existe alors n1 , n2 ∈ N∗ tels que Qn1 (x, y) > 0 et Qn2 (y, x) > 0. Comme

Qn2 +p+n1 (y, y) > Qn2 (y, x)Qp (x, x)Qn1 (x, y)

on a alors
X
U (y, y) > Qn2 +p+n1 (y, y) > Qn2 (y, x)U (x, x)Qn1 (x, y) > 0.
p

Donc y est bien récurrent.

Théorème 3.3.6 (Classication des états). Soit R l'ensembleSdes points récurrents


d'une chaîne de Markov donnée. Il existe une partition R = i∈I Ri telle que
ˆ Pour tout i ∈ I , si x ∈ Ri , alors Px -p.s. on a Ny = +∞ pour tout y ∈ Ri et
Ny = 0 pour tout y ∈ X \Ri .

ˆ pour tout x ∈ X \R, avec T = inf{n ∈ N; Xn ∈ R}, on a soit T = +∞ et


Ny < ∞ pour tout y ∈ E , soit T < ∞ et alors il existe j ∈ I aléatoire, tel que
que ∀n > T Xn ∈ Rj .
En résumé, on peut partitionner l'espace des points récurrents de manière à ce
que l'on ne puisse pas sortir des Ri . Les Ri sont appelés classes de récurrence de
la chaîne de Markov.

Proof. Tout d'abord, pour x, y ∈ R, la relation


x≡y ⇔ U (x, y) > 0

dénit une relation d'équivalence sur R, grâce au Lemme 3.3.5. On peut donc
partitionner R en ses classes d'équivalences, qui dénissent les Ri du théorème.
Soit i ∈ I est x ∈ Ri . Alors pour tout y ∈ X \Ri on a U (x, y) = 0, et donc
Ny = 0 Px -p.s. Sinon, pour y ∈ Ri , on a Px (Hy < ∞) = 1 et

Px (Ny = ∞) = Ex [1Hy <∞ 1Ny ((Xk )k>Hy )=∞ ]


= Px (Hy < ∞)Py (Ny = ∞)
= 1.

32
Si x ∈ X \R et T = ∞, on ne visite jamais R, et pour y ∈ X \R, on a

Ex (Ny ) = Px (Hy < ∞)Ey (Ny ) < ∞.

Enn, si x ∈ X \R et T < ∞, soit j tel que XT ∈ Rj . Par propriété de Markov


forte appliquée à T , la première partie du théorème implique que pour tout n > T
on a Xn ∈ Rj .

Exemple 3.3.2. Pour la marche aléatoire simple sur Z de paramètre p, tous les
états sont récurrents si p = 1/2, et ils sont tous transitoires si p 6= 1/2.
Dénition 3.3.7 (Chaînes irréductibles). Une chaîne de Markov est dite irré-
ductible si pour tout x, y ∈ X on a U (x, y) > 0.
Une chaîne irréductible est une chaîne où il est possible d'accéder à n'importe
quel état, quelque soit la condition initiales. Il n'y a pas de découpage en plusieurs
classes de récurrence.

Proposition 3.3.8. Si une chaîne de Markov est irréductible, on a l'alternative


suivante :
ˆ Ou bien tous les états sont transitoires, et pour tout x ∈ X on a
Px (Ny < ∞ ∀y) = 1;

ˆ Ou bien tous les états sont récurrents, il y a une unique classe de récurrence,
et pour tout x ∈ X on a
Px (Ny = ∞ ∀y) = 1.

Lorsque X est ni, seul le second cas peut se produire, car Ny = ∞.


P
y

Proof. Si il existe x récurrent, alors tous les points le sont, d'après le Lemme 3.3.5,
et par constructions des classes de récurrence il ne peut y en avoir qu'une. Le reste
découle du théorème de classication des états.

Exemple 3.3.3. Une marche aléatoire sur un graphe ni connexe est irréductible
et récurrente.
Exercice 3.3.2. Soit
 
1/2 0 0 0 1/2
 0 1/2 0 1/2 0 
 
 0
Q :=  0 1 0 0 
.
 0 1/4 1/4 1/4 1/4
1/2 0 0 0 1/2

Déterminer les états transitoires et les classes de récurrence de Q.


Solution 3.3.2. L'ensemble des points transitoires est {2, 4}, et les classes de récur-
rence sont {1, 5} et {3}.

33
3.3.2 Mesures invariantes
On cherche maintenant à étudie les lois stationnaires des chaînes de Markov, c'est
à dire les lois µ telles que si Xn ≡ µ, alors Xn+1 ≡ µ.

Dénition 3.3.9 (Mesures invariantes). On considère une chaîne de Markov de


matrice de transition Q. Soit µ une mesure positive sur X , telle que µ(x) < ∞
pour tout x ∈ X .
On dit que µ est invariante pour la chaîne de Markov si pour tout y ∈ X on a
X
µ(x)Q(x, y) = µ(y).
x

Interprétation : si µ(X ) < ∞, quitte à remplacer µ par µ(X )−1 µ, on peut


supposer µ(X ) = 1. Alors
X X X
Eµ [f (X1 )] = µ(x) Q(x, y)f (y) = µ(y)f (y) = Eµ [f (X0 )]
x y y

c'est à dire que µ est stationnaire pour la chaîne de Markov. Mais attention, cette
dénition autorise des mesures positives de masse arbitraire, y compris innie.

Exemple 3.3.4. Sur Zd , si on considère une matrice de transition de la forme


Q(x, y) = γ(y − x), alors la mesure de comptage est invariante.

Notation. Si on identie µ à un vecteur ligne, une mesure invariante vérie µQ =


µ. On utilisera cette notation par la suite. Par une récurrence immédiate, si µ est
invariante, alors pour tout n on a µQn = µ.
Attention, l'ordre est important, si on identie µ à un vecteur colonne, on n'a
pas en général Qµ = µ.
Exercice 3.3.3. Quelles sont les mesures de probabilité invariantes pour une chaîne
de Markov sur {1, 2, 3} de matrice de transition
 
1/2 0 1/2
Q= 1 0 0 
0 1/2 1/2

Solution 3.3.3. On résoud le système linéaire associé à µQ = µ pour trouver


µ(1) = µ(3) = 2/5 et µ(2) = 1/5.

Dénition 3.3.10 (Mesures réversibles). Une mesure positive µ est dite réversible
pour la chaîne de Markov si ∀x, y on a µ(x)Q(x, y) = µ(y)Q(y, x).
Interprétation : sous la mesure µ, le courant le long d'une arrête est nul :
Pµ (X0 = x, X1 = y) = Pµ (X0 = y, X1 = x).

Proposition 3.3.11. Une mesure réversible est invariante.


Proof. On a bien
X X
µ(x) = Q(x, y)µ(x) = Q(y, x)µ(y).
y y

34
En revanche, il peut exister des mesures invariantes non-réversibles.

Exemple 3.3.5. Soit γ une mesure de probabilité sur Z, non symétrique (i.e. il
existe x ∈ Z tel que γ(x) 6= γ(−x)). On considère la marche aléatoire sur Z de loi
de sauts γ . On a vu que la mesure de comptage est invariante, mais elle n'est pas
réversible, car Q(0, x) = γ(x) 6= Q(x, 0).
En revanche, si γ est symétrique, la mesure de comptage est réversible.
Exemple 3.3.6. Soit p ∈ (0, 1) et q = 1 − p. On dénit la matrice de transition
sur Z
Q(i, i + 1) = p; Q(i, i − 1) = q
i.e. la matrice de transition de la marche aléatoire simple. La mesure de comptage
est invariante, mais la mesure
 i
p
µ(i) = ; i∈Z
q

l'est aussi, car elle est réversible.


Les mesures invariantes ne sont donc pas nécessairement uniques, même à con-
stante multiplicative près.

Exemple 3.3.7. Soit G = (S, A) un graphe. La mesure µ(x) = Card{y; (x, y) ∈ A}


est réversible pour la marche aléatoire sur le graphe. En eet, pour tout x, y, on a
µ(x)Q(x, y) = 1x≡y .

Théorème 3.3.12. Soit x un point récurrent. Alors la mesure dénie par


x −1
HX
!
µ(y) := Ex 1Xk =y
k=0

est invariante. De plus, µ(y) > 0 ssi y est dans la même classe de récurrence que
x.

En général, ce n'est pas une mesure de probabilité, car on a choisit la normali-


sation µ(x) = 1.
En particulier, si la chaîne de Markov a plusieurs classes de récurrence, on
dénit ainsi plusieurs mesures invariantes, à supports disjoints. En revanche, si la
chaîne est récurrente irréductible, on verra plus tard qu'il n'y a qu'une seule mesure
invariante (à constante multiplicative près).
Ce théorème est en pratique rarement utile pour calculer des mesures in-
varaintes, il est plutôt utilisé pour établir des propriétés des temps d'arrêt Hx .

Proof. Tout d'abord, si y n'est pas dans la classe de récurrence de x, alors Px p.s.
y ne sera jamais visité, et donc µ(y) = 0.
Soit y dans la même classe de récurrence que x. Comme sous Px on a XHx = X0 ,
on peut changer l'indexation
HXx −1 Hx
! !
1Xk =y = Ex 1Xk =y .
X
µ(y) = Ex
k=0 k=

35
On a ensuite
Hx
!
1Xk =y,Xk−1 =z
X X
µ(y) = Ex
z k=1

1Xk =y 1k6Hx ,Xk−1 =z
XX 
= Ex
z k=1

Comme {k 6 Hx , Xk−1 = z} est Fk−1 -mesurable, on peut appliquer la propriété de


Markov simple au temps k − 1, et obtenir

Ex 1Xk =y 1k6Hx ,Xk−1 =z = Ex 1k6Hx ,Xk−1 =z Q(z, y).


 

On a donc

1k6Hx ,Xk−1 =z Q(z, y)
XX 
µ(y) = Ex
z k=1
Hx
!
1Xk−1 =z Q(z, y)
X X
= Ex
z k=1
X
= µ(z)Q(z, y).
z

µ est donc bien une mesure invariante pour la chaîne de Markov.


Pour nir, il nous reste à montrer que si y est dans la classe de récurrence de x,
alors µ(y) > 0 et est ni. Comme µQn = µ, pour tout n on a
X
µ(y) = µ(z)Qn (z, y) > µ(x)Q(x, y).
z

Or par dénition des classes de récurrence il existe n tel que Qn (x, y) > 0. Et
comme par dénition µ(x) = 1, on a bien µ(y) > 0. De même, il existe m tel que
Qm (y, x) > 0, et donc
1 = µ(x) > µ(y)Qm (y, x)
et donc µ(y) est bien ni.

Proposition 3.3.13. Si une chaîne de Markov irréductible récurrente admet deux


mesures invariantes µ1 et µ2 , alors il existe une constante C telle que µ1 = Cµ2 .
En particulier, il y a au plus une seule mesure de probabilité invariante (mais il
peut n'y avoir que des mesures invariantes de masse totale innie, et donc aucune
mesure de probabilité invariante).

Proof. Soit µ une mesure invariante non nulle. Nous allons commencer par montrer
par récurrence que pour tout p ∈ N, on a pour tout x, y ∈ X
 
p∧(Hx −1)
1Xk =y  .
X
µ(y) > µ(x)Ex 
k=0

36
Pour p = 0, ou si x = y , cette inégalité est trivialement vraie. Supposons la
vériée pour un p ∈ N donné. Alors, pour x 6= y , on a
X
µ(y) = µ(z)Q(z, y)
z
 
p∧(Hx −1)
1Xk =z  Q(z, y)
X X
> µ(x) Ex 
z k=0
p
1Xk =z,k6Hx −1 1Xk+1 =y
XX 
= µ(x) Ex
z k=0
 
p∧(Hx −1)
1Xk+1 =y 
X
= µ(x)Ex 
k=0
 
(p+1)∧(Hx −1)
1Xk =y 
X
= µ(x)Ex 
k=0

P 
où on a utilisé à la dernière étape x 6= y . Si on pose νx (y) := Ex Hx −1
k=0 1Xk =y
la mesure invariante donnée par le Théorème 3.3.12, en faisant tendre p vers l'inni
on obtient alors
µ(y) > µ(x)νx (y) ∀x, y ∈ X .
Donc pour tout n > 1, comme νx (x) = 1 et νx Qn = ν , on a
X X
µ(x) = µ(z)Qn (z, y) > µ(x) νx (z)Qn (z, y) = µ(x)νx (x) = µ(x).
z z

On en déduit qu'il y a nécessairement égalité au milieu, et donc pour tout z tel


qu'il existe n avec Qn (z, y) > 0 on a

µ(z) = µ(x)νx (z).

L'irréducibilité de la chaîne permet alors de conclure que µ = µ(x)νx pour x xé.

Corollaire 3.3.14. Considérons une chaîne de Markov récurrente irréductible.


Alors on a l'alternative
ˆ Ou bien il existe une mesure de probabilité invariante µ, et alors ∀x ∈ X on
a
1
Ex (Hx ) = .
µ(x)
On dit alors que la chaîne est récurrente positive.
ˆ Ou bien toute mesure invariante a une masse totale innie, et alors ∀x ∈ X
on a
Ex (Hx ) = +∞.
On dit alors que la chaîne est récurrente nulle.
Si X est un ensemble ni, seul le premier cas peut se produire.

37
Proof. Tout d'abord, comme
P les mesures
 invariantes sont nécessairement de la forme
k=0 1Xk =y . Elles sont donc toutes de masse nie, ou
Hx −1
Cνx avec νx (y) := Ex
toutes de masse inni, selon la masse de νx .
Si µ est une mesure de probabilité invariante, µ = Cνx et µ(X ) = 1 donc
C = νx (X )−1 . En particulier, comme νx (x) = 1, µ(x) = νx (X )−1 . Or

x −1
HX
!
1Xk =y = Ex (Hx ),
X
νx (X ) = Ex
y k=0

et donc on a bien µ(x) = Ex (Hx )−1 .


Dans le second cas, en particulier νx est de masse innie, et donc Ex (Hx ) =
νx (X ) = +∞.

Proposition 3.3.15. Supposons la chaîne irréductible. S'il existe une mesure in-
variante de masse totale nie, alors la chaîne est récurrente positive.
Proof. On a vu que
U (x, y) X
U (y, y) = > U (x, y) = Qn (x, y).
Px (Hy < ∞) n

Soit γ une mesure invariante nie. On a


X
γ(X )U (y, y) = γ(x)U (y, y)
x
XX
> γ(x)Qn (x, y)
x n
X
= γ(y)
n
= +∞.

Comme γ(X ) < ∞, on a donc bien U (y, y) = ∞ pour tout y , et la chaîne est donc
bien récurrente.

Remarque 3.3.2. L'existence d'une mesure invariante de masse innie ne dit rien
sur la récurrence. Une marche aléatoire simple sur Z admet toujours la mesure de
comptage comme mesure invariante de masse innie, mais la récurrence dépend de
la valeur du paramètre (récurrente si p = 1/2, transitoire sinon).
Exercice 3.3.4. Soit Q la matrice de transition
 
1/2 0 0 0 1/2
 0 1/2 0 1/2 0 
 
Q := 
 1/2 0 1/2 0 0 .

 0 1/4 1/4 1/4 1/4
1/4 1/4 0 0 1/2

Montrer que la chaîne est irréductible, et calculer sa mesure de probabilité invari-


ante.

38
Solution 3.3.4. On peut vérier que les valeurs suivantes sont strictement positives
: Q(1, 5), Q2 (1, 2), Q3 (1, 4), Q4 (1, 3), et donc on peut accéder à n'importe quel site
depuis le site 1. Réciproquement, Q(5, 1), Q(3, 1), Q2 (4, 1) et Q3 (2, 1) sont stricte-
ment positifs, donc on peut accéder au site 1 depuis n'importe quel site. Tous les
sites communiquent, et donc la chaîne est récurrente. La mesure invariante est
(3/13, 3/13, 1/13, 2/13, 4/13).
Exercice 3.3.5. On dénit



P (0, 0) = 0;
1
= k1 − k+1 ∀k ∈ N∗

P (0, k)
P (k, `)

 = 0 ∀1 6 k 6 `
= 1` ∀0 6 k < `

P (`, k)

1. Vérier que P dénit une matrice de transition sur N.


2. Montrer qu'une chaîne de Markov de matrice de transition P est irréductible
récurrente.
3. Montrer qu'elle est récurrente positive en calculant une mesure invariante.
Solution 3.3.5. 1. On a bien pour tout ` ∈ N, et les P (k, `)
P
k P (`, k) = 1
sont positifs.
2. Montrons d'abord que 0 est récurrent. Comme si Xn 6= 0, on a Xn+1 < Xn ,
de tout point k on va en au plus k pas en 0. Donc p.s. une chaîne issue de 0
retourne en 0 en un certain temps, et donc 0 est récurrent.
La chaîne est de plus irréductible, car P (0, `) et P (`, 0) sont strictement posi-
tifs pour tout ` > 1. Donc la chaîne est récurrente, car elle est irréductible et
a un état récurrent.
3. Soit ak = µ(k) une mesure invariante. On a alors
X a0 X
a0 = a(k)/k; a` = + ak /k.
`(` + 1)
k>1 k>`

En posant b` = , on a donc
P
k>` ak /k
b0
a0 = b0 ; `(b`−1 − b` ) = + b` ∀` > 1.
`(` + 1)
Si on pose c` = `b`−1 pour ` > 1, on a alors
b0
c` − c`+1 =
`(` + 1)
donc X 1
c` = b0 .
k(k + 1)
k>`
D'où
 
b0 X 1 ` 1 X 1
b` = ; a` = b0  + .
` k(k + 1) (` − 1)`(` + 1) ` + 1 k(k + 1)
k>`+1 k>`+1

Comme a` = O(1/`2 ), on a une mesure invariante de masse totale nie, et


donc la chaîne est récurrente positive.

39
3.4 Théorème ergodique
Le but de cette section est l'étude du comportement en temps long des fonctionnelles
additives d'une chaîne de Markov.

3.4.1 Théorème principal


Théorème 3.4.1. On considère une chaîne de Markov récurrente positive, avec µ
son unique mesure invariante, et f une fonction mesurable sur X avec ||f ||L1 (µ) <
∞. Alors Px -p.s. on a
n
1X
f (Xk ) −→ Eµ (f ).
n n→∞
k=0

C'est une forme de loi des grands nombres, mais ici les f (Xk ) sont des variables
corrélées.

Corollaire 3.4.2. On considère une chaîne de Markov récurrente irréductible.


Alors
ˆ Si elle est récurrente positive,
n
1X
1Xk =x −→ µ(x)
p.s.
n
k=0

où µ est l'unique mesure de probabilité invariante.


ˆ Si elle est récurrente nulle,
n
1X
1Xk =x −→ 0.
p.s.
n
k=0

Preuve du théorème ergodique. On dénit par récurrence la suite de temps d'arrêt


Tn avec T0 = 0 et
Tn+1 := inf{k > Tn ; Xk = x}.
Quitte à décomposer f = f+ − f− , on va supposer f positive.
On pose ensuite
Tn+1 −1
X
Yn := f (Xk ).
k=Tn

Comme conséquence de la propriété de Markov forte, (Yn )n∈N est une suite de
variables aléatoires i.i.d. De plus, si νx est la mesure invariante donnée par le
Théorème 3.3.12, comme µ = µ(x)νx , on a

1
Ex [Yn ] = Eµ [f ].
µ(x)

Par la loi forte des grands nombres appliquées à la suite (Yn )n∈N , on a donc
n
1X p.s. 1
Yk −→ Eµ [f ].
n µ(x)
k=0

40
Si on pose alors Nx (n) le nombre de retours en x avant l'instant n, on a pour tout
n
TNx (n) 6 n < TNx (n)+1 (3.5)
et donc
TNx (n) −1 n TNx (n)+1 −1
1 X 1 X 1 X
f (Xk ) 6 f (Xk ) 6 f (Xk )
Nx (n) Nx (n) Nx (n)
k=0 k=0 k=0

ce qui revient à
Nx (n)−1 n Nx (n)
1 X 1 X 1 X
Yk 6 f (Xj ) 6 Yk
Nx (n) Nx (n) Nx (n)
k=0 j=0 k=0

et donc par encadrement


n
1 X p.s. 1
f (Xj ) −→ Eµ [f ].
Nx (n) µ(x)
j=0

Enn, comme les Tn+1 − Tn sont iid, et d'espérance µ(x)


1
d'après le Corollaire
3.3.14,
Tn p.s. 1 Nx (n) p.s.
−→ , et donc −→ µ(x),
n µ(x) n
où on a utilisé (3.5) ce qui permet de conclure la preuve.

Exercice 3.4.1. Soit Q la matrice de transition sur {0, 1} dénie par


 
1−α α
Q=
β 1−β
avec 0 < α, β < 1 et min(α, β) < 1.
1. Diagonaliser Q, et en déduire
(1 − α − β)n α −α
   
n1 β α
Q = + .
α+β β α α+β −β β

2. Calculer la mesure de probabilité invariante π de la chaîne de Markov associée.


3. Calculer Covπ (Xn , Xn+p ) = Eπ [Xn Xn+p ] − E[Xn ]E[Xn+p ].
4. Etudier le comportement asymptotique de n−1 , où X est un chaîne
Pn
i=1 Xi
de Markov de matrice de transition Q.
Solution 3.4.1. 1. Les valeurs propres de Q sont 1 et s = 1 − α − β , de vecteurs
propres colonnes respectifs (1, 1)t et (−α, β)t . On prend comme matrice de
passage    
1 −α 1 β α
P = ; P −1 = .
1 β α+β −1 1
On a alors  n
1 0
n
Q =P P −1 ,
0 1−α−β
et le résultat suit.

41
2. Comme une mesure invariante est un vecteur propre (à gauche) de Qn , de
valeur propre 1, c'est aussi un vecteur propre de Qn . En faisant tendre n vers
l'inni, on voit que ce vecteur propre (normalisé pour que la somme fasse 1)
est  
β α
π= , .
α+β α+β
3. On calcule, et on trouve
α α α(α + β(1 − α − β)p )
Eπ [Xn ] = ; Eπ [Xn Xn+p ] = Qp (1, 1) = .
α+β α+β (α + β)2
On a donc
β(1 − α − β)p
Covπ (Xn , Xn+p ) = .
(α + β)2
4. La chaîne de Markov est irréductible, récurrente positive donc en appliquant
le théorème ergodique, n−1 ni=1 Xi converge presque sûrement vers Eπ [X] =
P
α
α+β .

3.4.2 Une brève introduction aux algorithmes MCMC


Une des applications principales du théorème ergodique est qu'il justie certaines
méthodes probailistes pour le calcul numérique. Par exemple, on peut chercher à
calculer des quantités de la forme
X
f (n)ρ(n)
n=(n1 ,...,nd )∈Zd

où f est une fonction par exemple bornée, et ρ une mesure de probabilité sur Zd .
Le calcul numérique de cette some par des méthodes déterministes peut être très
lent, surtout si d est grand. Certains algorithmes de calcul utilisent à la place des
méthodes probabilistes : on construit une chaîne de Markov réversible par rapport
à la mesure ρ, on en simule une réalisation (Xn )n6N pour un temps N grand, et on
approxime la somme par la moyenne empirique
1 X
f (Xn )
N
Le théorème ergodique garantit que dans la limite N → ∞, cette moyenne empirique
converge vers la bonne valeur.
Avantage : la complexité de l'algorithme peut être beaucoup plus faible que
celle des algorithmes suivant une méthode déterministe.
Inconvénient : contrairement aux méthodes détemrinistes, la quantité
N
1 P
f (Xn ) est aléatoire. En particulier, elle a une variance stictement positive, et
on a une petite probabilité que l'erreur d'approximation par une réalisationd e la
chaîne soit très grande. Cette variance décroit typiquement en 1/N .
Une manière de construire une chaîne de Markov sur Zd avec la bonne mesure
invarainte est donnée par l'algorithme de Metropolis-Hastings : on consdière une
marche aléatoire simple sur Z d , qu'on déforme pour imposer la bonne mesure in-
variante. Pour faire ça, à chaque temps, on procède de la manière suivante :
1. Etant donné la position Xn ∈ Zd , on génère une variable εn+1 uniforme sur
{−1, 1}d ;

42
2. On considère les quantité ρ(Xn ) et ρ(Xn + εn+1 ). Si ρ(Xn ) 6 ρ(Xn + εn+1 ),
on pose Xn+1 = Xn + εn+1 (acceptation).

3. Si ρ(Xn ) > ρ(Xn + εn+1 ), on génère une variable Un+1 uniforme sur [0, 1],
indépendante des autres variables. Si Un < ρ(Xn + εn+1 )/ρ(Xn ), on pose
Xn+1 = Xn + εn+1 (acceptation), et sinon on pose Xn+1 = Xn (rejet).

On a donc superposé une procédure d'acceptation/rejet sur la marche aléatoire


simple, qui cherche à favoriser les points où ρ(n) est grand. Le processus aléatoire
ainsi construit est une chaîne de Markov, et il s'avère que la mesure ρ est réversible
pour cette chaîne de Markov. En eet, si x et y sont voisins, et si ρ(x) > ρ(y) (ce
qu'on peut supposer par symétrie),

2−d ρ(y)
P(Xn+1 = x|Xn = y) = 2−d ; P(Xn+1 = y|Xn = x) =
ρ(x)

et donc
ρ(y)P(Xn+1 = x|Xn = y) = ρ(x)P(Xn+1 = y|Xn = x).
De plus, si ρ > 0 en tout point, alors cette chaîne est irréductible. On a donc une
manière simple de construire une chaîne de Markov avec les bonnes propriétés. Il
existe beaucoup d'autres manières de construire de telles chaînes de Markov, parfois
plus ecaces.
Pour citer un exemple, on peut mentionner l'algorithme PageRank de Google,
qui cherche à trier les pages internet en fonction du nombre de liens qui y mènent.
Pour ce faire, on génère une chaîne de Markov sur l'ensemble des pages web, où à
chaque étape on choisit une nouvelle page web uniformément parmis toutes les pages
webs auxquelles ont peut accéder depuis la page courante. La mesure invariante de
ce processus donne plus de poids aux pages avec beaucoup de liens, et pour estimer
cette mesure invariante, on fait tourner la chaîne pour un temps très long.
Un avantage pratique de cet algorithme est qu'il ne faut connaître la densité
ρ qu'à une constante multplicative près (puisqu'on utilise seulement les ratios de
densité). Ca peut paraître anecdotique, mais il existe de nombreuses distributions
calculées en pratique, notamment en physique statistique, pour lesquelles on a une
formule explicite qu'à cette constante près.

43
Chapter 4

Martingales et chaines de Markov


4.1 Fonctions harmoniques
Si (Xn )n∈N est une chaîne de Markov, et f : X −→ R est bornée, alors (f (Xn ))n∈N
est un processus à valeurs rélles et intégrable. On peut donc s'intéresser à sa
décomposition de Doob-Meyer.
La partie prévisible est alors
n−1
X n−1
X
E[f (Xk+1 ) − Xk |Fk ] = Qf (Xk ) − f (Xk ).
k=0 k=0

En particulier, si f , vu comme un vecteur colonne de R|X | , est dans le noyau du


générateur Q − Id, alors (f (Xn ))n∈N est une martingale. Cette propriété motive la
dénition suivante :

Dénition 4.1.1. Une fonction f est dite harmonique en un point x ∈ X si


Ex [f (X1 )] = f (x).
Une fonction f est dite harmonique sur l'ensemble A ⊂ X si pour tout x ∈ A f
est harmonique en x.
Si on considère la marche aléatoire simple symétrique sur Zd , une fonction est
harmonique en x si
1 X
f (x) = f (y)
2d y≡x

i.e. si f vérie une propriété de moyenne discrète, analogue à la propriété de la


moyenne des fonctions harmoniques en analyse complexe, ce qui motive la ter-
minologie. Ce lien n'est d'ailleurs pas juste une analogie, les deux notions sont
exactement les mêmes si on étend le cadre aux chaînes de Markov en temps continu
sur C, et qu'on considère comme processus de Markov le mouvement brownien.
Mais ceci va au delà du programme de ce cours.

Exercice 4.1.1. Quelles sont les fonctions harmoniques sur Z pour la marche
aléatoire simple symétrique?
Solution 4.1.1. Soit f une fonction harmonique sur Z. On a pour tout n
f (n + 1) = 2f (n) − f (n − 1).

44
On reconnaît une relation de récurrence d'ordre 2. Le polynome caractéristique est
(x − 1)2 , donc f est donnée par la formule

f (n) = n(f (1) − f (0)) + f (0).

Proposition 4.1.2. Soit f une fonction harmonique sur A ⊂ X , et T un temps


d'arrêt tel que pour tout n < T on a Xn ∈ A. Alors si X0 = x ∈ A, (f (Xn∧T ))n∈N
est une martingale.
En particulier, pour tout n ∈ N, Ex [f (Xn∧T )] = f (x).
Ce théorème s'applique notamment au temps d'arrêt T := inf{n; Xn ∈
/ A}.

Proof. Il nous sut de montrer que pour tout n ∈ N on a


E[f (X(n+1)∧T )|Fn ] = f (Xn∧T ).

Or on a

E[f (X(n+1)∧T ) |Fn ] = E[f (X(n+1)∧T )1T 6n |Fn ] + E[f (X(n+1)∧T )1T >n |Fn ]
= f (XT )1T 6n + Qf (Xn )1T >n
= f (XT )1T 6n + f (Xn )1T >n
= f (Xn∧T ).

Dénition 4.1.3 (Problème de Dirichlet). Soit A ⊂ X , et g : A −→ R. On dit


que f est une solution au problème de Dirichlet associé à A et g si f = g sur A et
f est harmonique sur Ac .

Lemme 4.1.4. On considère une chaîne de Markov irréductible, de matrice de


transition Q. Supposons que A est non-vide, et que Ac est ni et non-vide. Alors
la seule solution au problème de Dirichlet avec g = 0 sur A est la fonction nulle.
Proof. Soit f une solution du problème de Dirichlet, et x0 ∈ argmaxAc f . Nous
allons montrer par l'absurde que f (x0 ) 6 0. Si on a f (x0 ) > 0, f (x0 ) est le
maximum de f sur X , puisque f est nulle sur A. Soit T le temps d'arrêt inf{n; Xn ∈
A}. Comme la chaîne est irréductible, P(T = ∞) < 1. Soit n tel que Px0 (T 6 n) >
0.

f (x0 ) = Ex0 [f (Xn∧T )] 6 f (x0 )(1 − Px0 (T > n)) + 0 × P(T 6 n) < f (X0 ).

On a une contradiction, donc f (x0 ) 6 0, et donc f est négative. Mais comme


−f est ausi une solution du même problème de Dirichlet, on en déduit que f est
nulle.

Remarque 4.1.1. Dans cette preuve, l'hypothèse Ac ni sert uniquement à justier
que le maximum de f sur Ac est atteint.
La méthode de preuve est une technique souvent utilisée en EDP, connue sous
le nom de principe du maximum.

45
Théorème 4.1.5 (Représentation des solutions du problème de Dirichlet). Soit Q
la matrice de transition d'une chaîne de Markov irréductible récurrente. Soit A ⊂ X
un ensemble non vide et diérent de X , et g : A −→ R mesurable bornée. Alors la
fonction
f : x −→ Ex [g(XT )]
avec T := inf{n; Xn ∈ A} est une solution du problème de Dirichlet. Si de plus Ac
est ni, alors c'est l'unique solution.
Proof. L'unicité est une conséquence du Lemme 4.1.4, puique la diérence de deux
solutions est une solution au problème de Dirichlet avec condition g = 0.
Pour l'existence, tout d'abord comme la chaîne est irréductible récurrente, f est
bien dénie. De plus, par dénition on a bien f = g sur A. Il nous reste donc à
montrer que f est harmonique sur Ac .
En utilisant la propriété de Markov, on a pour x ∈ Ac

Ex [g(XT )] = Ex [g(XT )1T =1 + g(XT )1T >1 ]


X X
= g(y)Q(x, y) + Q(x, y)Ey [g(XT )]
y∈A y∈Ac
X
= Q(x, y)f (y).
y

Donc f est bien harmonique sur Ac .

On conclut cette section par une caractérisation des chaînes de Markov en terme
de martingales :
Théorème 4.1.6. Un processus (Xn )n∈N sur X est une chaîne de Markov de ma-
trice de transition Q ssi pour toute fonctionf mesurable bornée à valeurs réelles le
processus f (Xn ) − n−1 est une martingale.
 P
k=0 Qf (Xk ) − f (Xk )
n∈N

Proof. On a déjà vu, via la décomposition de Doob-Meyer, que si


(X
 n )n∈N Pest une chaîne de Markov
 de matrice de transition Q, alors
n−1
f (Xn ) − k=0 Qf (Xk ) − f (Xk ) est une martingale.
n∈N
Pour l'autre implication, on utilise f (x) = 1Xn =x . La propriété de martingale
nous donne
E[1Xn+1 = x|Fn ] = Q(Xn , x).
Or E[1Xn+1 = x|Fn ] = P[Xn+1 = x|X0 , ..., Xn−1 ], on reconnait donc la propriété
dénissant les chaînes de Markov de matrice de transition Q.

4.2 Applications aux temps de sortie


On peut utiliser les fonctions harmoniques pour établir des propriétés des temps
d'atteinte de domaines.
Proposition 4.2.1. Soient A et B deux ensembles disjoints avec (A ∪ B)c non
vide, et f la solution au problème de Dirichlet sur A ∪ B avec g = 1A . Alors
Px (TA < TB ) = f (x)

où TA = inf{n; Xn ∈ A} et TB = inf{n; Xn ∈ B}.

46
Donc si on sait calculer la solution du problème de Dirichlet, on peut calculer
des probabilités de sortie.

Proof. On a TA < TB ⇔ g(XTA ∧TB ) = 1 et TB < TA ⇔ g(XTA ∧TB ) = 0. On


conclut via le Théorème 4.1.5

Exercice 4.2.1. Soit Xn la marche aléatoire simple symétrique sur Z, et a < x < b.
Montrer que
x−a
Px (Ta > Tb ) =
b−a
Solution 4.2.1. On peut facilement montrer que les fonctions anes sur Z sont
harmoniques pour la marche aléatoire symétrique. On vérie alors que x−a b−a sur [a, b]
est la solution du problème de Dirichlet sur Z\(a, b) avec g = 1[b+∞) . La conclusion
découle alors du Théorème
Exemple 4.2.1 (Probabilité d'extinction du processus de Galton-Watson). Soit
(Nn )n∈N un processus de Galton Watson, construit à partir de vaiables aléatoires
iid (Xkn )k,n∈N à valeurs dans N , et avec N0 = 1. On pose
h 1i X
m := E[X11 ], ϕ(t) := E tX1 = tk P(X11 = k).
k

Soit ζ la plus petite racine positive de l'équation ϕ(t) = t. On suppose que P(X11 =
0) > 0 et ζ < 1. Alors P(∃n t.q. Nn = 0) = ζ .

Pour montrer ce résultat, on va identier une fonction harmonique pour la chaîne


de Markov sur N dénie par le processus de Galton-Watson. On rappelle que sa
matrice de transtion est donnée par
n
!
X
1
Q(n, `) = P Xi = ` .
k=1

Nous allons montrer que m → ζ m est harmonique. En eet,


h P 1
i
E[ζ N1 |N0 = k] = E ζ 1616k Xi
k
1
Y
= E[ζ Xi ] = ϕ(ζ)k = ζ k .
i=1

Comme P(X = 0) > 0, on peut atteindre 0 avec probabilité positive depuis


n'importe quel état k . En particulier, on a l'alternative suivante : soit Nn = 0 pour
n susamment grand, soit Nn −→ ∞. En eet, si un état k > 1 est visité une
innité de fois, on nit par aller en zero, mais alors on n'en repartirait plus, ce qui
serait absurde.
On peut alors voir m → ζ m comme la solution au problême de Dirichlet sur
{0, ∞} avec second membre 10 . On a alors, comme ζ < 1,

P(∃n t.q. Nn = 0) = lim E[ζ Nn ] = ζ N0 .


n→∞

47
Part II

Théorèmes limites

48
Chapter 5

Topologie de la convergence en loi


Le but de ce chapitre est de comprendre certains aspects topologiques de la conver-
gence en loi, et notamment de caractériser les ensembles compacts des espaces de
mesures de probabilité.
On énoncera les théorèmes, et on fera la plupart des preuves, dans le cadre
général des espaces polonais. Toutefois, si ce cadre pose des dicultés, on pourra
se placer dans le cadre des espaces Rd .

5.1 Quelques rappels


5.1.1 Convergence étroite
Dénition 5.1.1. Soit E un espace polonais (i.e. métrique, séparable complet).
Une suite de mesures positives (µn )n∈N sur E converge étroitement vers une mesure
µ si pour toute fonction f ∈ Cb (E, R) on a
Z Z
f dµn −→ f dµ.

Une suite de variables aléatoires (Xn )n∈N sur E converge en loi vers X si la
suite des lois des Xn converge étroitement vers la loi de X .
Ici, Cb (E, R) est l'ensemble des fonctions continues bornées et à valeurs réelles.
Dans ce chapitre, on utilisera plutôt la terminologie de l'analyse, et on parlera de
convergence étroite.

Proposition 5.1.2. On suppose (E, d) est un espace polonais. Soit (µn )n∈N une
suite de mesures de probabilité. Les propriétés suivantes sont équivalentes :
1. (µn )n∈N converge étroitement vers µ;
2. Pour toute fonction f uniformément continue, f dµn −→ f dµ;
R R

3. Pour toute fonction f lispchitz et bornée, on a f dµn −→ f dµ;


R R

4. Pour tout fermé F , on a µ(F ) > lim sup µn (F );


5. Pour tout ouvert O, on a µ(O) 6 lim inf µn (O);
6. Pour tout borélien A avec µ(∂A) = 0, on a lim µn (A) = µ(A);

49
7. RPour toute fonction f mesurable, continue µ-presque partout et bornée, on a
f dµn −→ f dµ.
R

Proof. Les implications 1 ⇒ 2 ⇒ 3 et 7 ⇒ 1, et l'équivalence 4 ⇔ 5, sont immédi-


ates.
Pour montrer que 3 ⇒ 4, pour F un ensemble fermé, on introduit la fonction
fK (x) := max(0, 1 − Kd(x, F )). Cette fonction est K -lipchitz et bornée, et lorsque
R −→ +∞, fK converge de manière monotone vers 1F . On a donc µn (F ) 6
K
fK dµn pour tout n, et donc
Z Z
lim sup µn (F ) 6 lim lim sup fK dµN = lim fK dµ = µ(F )
n K n K

où on a utilisé le théorème de convergence dominé appliquée aux fonctions fK 6 1.


On a donc bien 3 ⇒ 4.
Montrons maintenant que 4 et 5 (qui sont équivalentes) impliquent 6. Si
µ(∂A) = 0, on a alors µ(A) = µ(A◦ ) = µ(Ā), et donc

µ(A) = µ(A◦ ) 6 lim inf µn (A◦ ) 6 lim inf µn (A) 6 lim sup µn (A)

6 lim sup µn (Ā) 6 µ(Ā) = µ(A),


ce qui permet de conclure.
Montrons enn que 6 ⇒ 7. Soit f une fonction mesurable, bornée et continue
µ-presque partout. Quitte à décomposer f en f+ − f− , on peut supposer que f est
positive. Grâce au théorème de Fubini, on a
Z Z Z ∞ Z ∞
f dµ = µ(dx) 1[O,f (x)] (y)dy = µ({f > y}dy.
0 0

Soit D l'ensemble des points de discontinuité de f . Pour tout y , si Ay = {x; f (x) >
y}, alors ∂Ay ⊂ D ∪ {f = y}. En eet, si x ∈ A¯y , alors il existe une suite telle que
xn → x avec f (xn ) > y pour tout n. Alors, si x n'est pas un point de discontinuité
de f , et n'est pas dans Ay , on a nécessairement f (x) = y . On souhaite montrer que
pour Lebesgue-presque tout y , on a µ(∂Ay ) = 0, et pour ce il sut de montrer que
pour Lebesgue-presque tout y , on a µ({f = y}) = 0.
Or {y > 0; µ({f = y}) > 0} = ∪k∈N {y > 0; µ({f = y}) > 1/k}. Or comme les
{f = y} sont deux à deux disjoints, {y > 0; µ({f = y}) > 1/k} est de cardinal in-
férieur à k . Donc {y > 0; µ({f = y}) > 0} est une réunion dénombrable d'ensemble
nis, donc dénombrable, et donc de mesure de Lebesgue nulle.
Donc, en utilisant 6, pour Lebesgue-presque tout y > 0, on a µn (f > y) −→
µ(f > y). Alors, par convergence dominée,
Z Z ||f ||∞ Z ||f ||∞ Z
f dµn = µn (f > y)dy −→ µ(f > y)dy = f dµ
0 0

ce qui conclut la preuve.

Exercice 5.1.1. Soit (µn )n∈N et µ des mesures de probabilités sur Rk , et H un


ensemble de fonctions mesurables bornées, dont l'adhérenceR pour la topologie de la
convergence uniforme contient Cc (Rk , R). Montrer que si f dµn −→ f dµ pour
R

toute fonction f dans H , alors µn converge étroitement vers µ

50
Ce résultat devient faux si µ n'est pas une mesure de probabilité, ou si on n'est
pas en dimension nie (la preuve utilisera la compacité des boules fermées).

Solution 5.1.1. Montrons d'abord que le résultat est vrai pour H = Cc (Rk , R). On
considère une fonction cuto ξr qui est continue, à valeurs dans [0, 1], égale à 1 sur
B(0, r) et nulle sur B(0, r + 1)c . On a alors
Z
c
lim sup µn (B(0, r + 1) ) 6 1 − lim inf ξr dµn 6 µ(B(0, r)c .

Soit f continue bornée, ε > 0 et r > 1 tel que µ(B(0, r − 1)c ) 6 ε


4||f ||∞ . Par
hypothèse, il existe g ∈ H telle que ||f ξr − g||∞ 6 ε/4. Alors
Z Z Z Z Z Z

f dµ − f dµn 6 f ξr dµn − f dµn + f ξr dµn − gdµn

Z Z Z Z Z Z

+ gdµn − gdµ + gdµ − f ξr dµ + f ξr dµ − f dµ
Z Z
c c

6 ||f ||∞ µn (B(0, r − 1) + ||f ||∞ µ(B(0, r − 1) + 2||f ξr − g||∞ + gdµn − gdµ

Z Z
3ε c

6 + ||f ||∞ µn (B(0, r − 1) + gdµn − gdµ .

4

On a donc
Z Z Z Z
c

lim sup f dµ − f dµn 6 lim sup ||f ||∞ µn (B(0, r − 1) + lim sup gdµn − gdµ

n n n
6 ε.

Comme ε était arbitraire, ceci conclut la preuve.


Pour conclure, on rappelle la caractérisation suivante de la convergence en loi
sur R :

Proposition 5.1.3. Une suite de mesures de probabilité (µn ) sur R converge


étroitement vers une mesure de probabilité µ ssi les fonctions de répartition Fµn
satisfont
Fµn (x) −→ Fµ (x)
en tout point x où Fµ est continue.
A noter que l'ensemble des points de discontinuité d'une fonction de répartition
est au plus dénombrable.

NB. L'hypothèse que toutes les mesures sont des mesures de probabilité est essen-
tielle ici : la suite des fonctions de répartition des mesures δn converge simplement
vers la fonction nulle, mais il n'y a pas de convergence en loi.

5.1.2 Théorème de Lévy


On rappelle ici le théorème de continuité de Lévy, qui lie convergence en loi et
convergence des fonctions caractéristiques.

51
Dénition 5.1.4. La fonction caractéristique d'une mesure positive nie µ sur Rd
est Z
ϕµ (x) := exp(ihx, yi)dµ.
y

Théorème 5.1.5 (Théorème de Lévy). Soit (µn )n∈N une suite de mesures de prob-
abilités sur Rd . Alors la suite (µn )n∈N converge étroitement vers une mesure de
probabilité µ ssi la suite (ϕµn )n∈N converge simplement vers ϕµ .

5.2 Distance de Lévy-Prokhorov


Le but de cette section est de montrer que l'espace des mesures de probabilité, muni
de la topologie de la convergence étroite, peut être équippé d'une distance qui en
fait un espace polonais.

Dénition 5.2.1 (Distance de Lévy-Prokhorov). Soit (E, d) un espace polonais.


La distance de Lévy-Prokhorov (assoicée à d) sur P(E) est
dLP (µ, ν) := inf{r > 0; µ(F ) 6 ν(F r ) + r ∀F ⊂ E fermé },
où F r := {x ∈ E; d(x, F ) < r} est le r-voisinage ouvert de F .
Cette distance est utile pour des considérations théoriques, et notamment
topologique, mais est rarement utilisée en pratique car elle est dicile à calculer.
Nous verrons dans la Section 5.4 d'autres distances, souvent plus pratiques pour
l'étude de problèmes concrets.
Montrons que dLP est bien une distance. Elle est trivialement positive, et prend
des valeurs nies, car elle est trivialement majorée par 1. Commençons par montrer
qu'elle est symétrique. Soit µ et ν donnée, et r > dLP (µ, ν). Pour tout F fermé,
on a
µ(F ) 6 ν(F r ) + r.
Soit F un fermé donné. Alors F 0 = E\F r est fermé, et F ⊂ E\(F 0 )r . Donc

ν(F ) 6 1 − ν((F 0 )r ) 6 1 − µ(F 0 ) + r = µ(F ) + r.

Comme F est quelconque, on en déduit dLP (ν, µ) 6 r, et on conclut en faisant


tendre r vers dLP (µ, ν).
Montrons maintenant qu dLP (µ, ν) = 0 ⇔ µ = ν . L'impliction de la droite vers
la gauche est immédiate. Pour l'autre implication, supposons que dLP (µ, ν) = 0, et
soit F un fermé arbitraire. On a µ(F ) 6 ν(F ε ) + ε pour tout ε > 0. Mais comme
F = ∩ε F ε , en faisant tendre ε vers 0 on obtient µ(F ) 6 ν(F ) pour tout ensemble
fermé. Par symétrie de dLP , on peut donc conclure que µ = ν .
Enn, dLP vérie l'inégalité triangulaire. En eet, si µ1 , µ2 et µ3 sont des
mesures de probailité et r, r0 sont tels que pour tout fermé F on ait
0
µ1 (F ) 6 µ2 (F r ) + r; µ2 (F ) 6 µ3 (F r ) + r0 ,

alors
0 0
µ1 (F ) 6 µ2 (F¯r ) + r 6 µ3 ((F¯r )r ) + r + r0 6 µ3 (F r+r ) + r + r0 ,
et donc dLP (µ1 , µ3 ) 6 r + r0 . On conclut en prenant l'inf sur les r et r0 admissibles.

52
Proposition 5.2.2. La distance dLP induit la topologie de la convergence étroite.
La preuve utilisera le lemme suivant :

Lemme 5.2.3. Soit (E, d) un espace métrique séparable, µ une mesure borelienne
nie sur E et D un sous-ensemble dénombrable dense de E . Pour tout ε > 0, il
existe une famille dénombrable de points xi de D et une famille (δi )i∈N ∈ (0, δ)N
tels que [
B(xi , δi ) = E; µ(∂B(xi , δi )) = 0.
i∈N

Dans ce lemme, ça ne change rien si on considère des boules ouvertes ou fermées.


Ce lemme va nous permettre d'approximer des ensembles arbitraires avec des unions
de boules arbitrairement petites, dans l'esprit de l'approximation de sous-ensembles
de R par des unions d'intervalles. La condition de frontière de mesure nulle va nous
permettre d'utiliser la propriété 6 de la Proposition 5.1.2.
On peut aussi considérer une variante de ce lemme, où le sensembles ne sont
plus des boules, mais deviennent disjoints :

Lemme 5.2.4. Soit (E, d) un espace métrique séparable et µ une mesure borelienne
nie sur E , et δ > 0. Il existe une partition de E en des ensembles disjoints Ai
avec diam(Ai ) < δ et µ(∂A) = 0.
Preuve de la Proposition 5.2.2. Tout d'abord, montrons que si dLP (µn , µ) −→ 0,
alors µn converge étroitement vers µ. On a une suite εn qui décroît vers 0 telle que
pour tout n et tout fermé F on a

µ(F ) 6 µn (F εn ) + εn ; µn (F ) 6 µ(F εn ) + εn .

Donc
lim sup µn (F ) 6 lim sup µ(F εn ) + εn = µ(F̄ ) = µ(F ).
La Proposition 5.1.2 permet de conclure.
Montrons maintenant que si µn converge étroitement vers µ, alors dLP (µn , µ)
tend vers 0. Soit ε > 0 et δ < ε/3. En utilisant le lemme 5.2.3, on se donne une
collection de boules Bi = B(xi , δi ) avec δi < δ/2, ∪i Bi = E et µ(∂Bi ) = 0 pour
tout i. Soit k tel que  
µ ∪ki=1 Bi > 1 − δ.

On considère la collection nie d'ensembles

A := {∪j∈J Bj ; J ⊂ {1, ..., k}} .

Comme tout élément de A ets une réunion nie d'ensembles dont les frontières sont
de mesure nulle, pour tout A ∈ A on a µ(∂A) = 0. On a donc µn (A) −→ µ(A)
pour tout A ∈ A. Soit N susemment grand pour que

|µn (A) − µ(A)| < δ ∀n > N, A ∈ A.

En particulier, pour tout n > N ,

µn (∪j6k Bj ) > µ (∪j6k Bj ) − δ > 1 − 2δ.

53
Soit B un borelien arbitraire, qu'on souhaite approximer avec

A = ∪j6k,Bj ∩B6=∅ Bj .

Alors A ⊂ B δ car le diamètre des Bj est inférieur à δ , et B ⊂ A ∪ (∪j6k Bj )c . On


a donc pou n > N

µ(B) 6 µ(A) + µ ((∪j6k Bj )c )


6 µ(A) + δ
6 µn (A) + 2δ
6 µn (B δ ) + 2δ
6 µn (B ε ) + ε.

On a donc dLP (µ, µn ) 6 ε pour tout n > N . Donc on a bien dLP (µ, µn ) −→ 0.

Preuve du Lemme 5.2.3. Soit D un ensemble dénombrable dense, et x ∈ D. On


pose S(x, r) := {y, d(x, y) = r}. On a ∂B(x, r) ⊂ S(x, r).
Soit Ak := {r ∈ (δ/2, δ); µ(S(x, r)) > 1/k}. Comme les ensembles S(x, r)
sont deux à deux disjoints, ilSy a au plus kµ(E) éléments dans Ak . Donc
{r ∈ (δ/2, δ); µ(S(x, r)) > 0} = k Ak est au plus dénombrable, car réunion dénom-
brable d'ensembles nis.
Il existe donc toujours un r ∈ (δ/2, δ) tel que µ(∂B(x, r)) = 0. Comme D est
dense, en prenant pour chaque x ∈ D une telle boule, l'union de ces boules recouvre
E , ce qui permet de conclure la preuve.

Preuve du Lemme 5.2.4. On considre une collection de boules fermées Bi de rayon


< δ/2 donnée par le Lemme 5.2.3, via une collection de points dénombrables dense
(xi )i∈N . On construit ensuite itérativement la collection (Ai )i∈N avec

A0 = B0 ; An+1 := Bn+1 \ (∪i6n Bi ) .

Les Aj forment bien une partition de E , et ils sont tous de diamètre inférieur à δ .
De plus,
∂An ⊂ ∪j6n ∂Bj
et donc on a bien µ(∂An ) 6 j6n µ(∂Bj ) = 0.
P

Proposition 5.2.5. Si (E, d) est un espace séparable, alors l'espace métrique


(P(E), dLP )est lui aussi séparable.
Preuve de la Proposition 5.2.5. Soit D = {xj , j ∈ N} un ensemble dénombrable
dense de E . Nous allons montrer qu'on peut approximer une mesure donnée par
des mesures de la forme
X X
αj δxj , αj = 1, αj ∈ Q+ ∀j. (5.1)
j j

L'ensemble des mesures de cette forme est bien dénombrable.


Soit Aj la
Pcollection d'ensembles donnée par le Lemme 5.2.4 avec δ < 1/(2n).
On a alors µ(Aj ) = 1 SoitPn ∈ N∗ xé.P On peut trouver une collection de
rationnels positifs βj tels que βj = 1 et |βj − µ(Aj )| 6 n . On dénit
1

X
µn := βj δxj .
j

54
On note que µn est bien une mesure de probabilité de la forme (5.1).
On a ensuite pour tout fermé F l'inclusion ∪xj ∈F Bj ⊂ F 2δ , et donc
X 1 X 1
µn (F ) = βj 6 + µ(Aj ) 6 µ(F 2δ ) +
n n
xj ∈F j

et donc, comme 2δ < 1/n, on a bien dLP (µn , µ) 6 1/n.

Théorème 5.2.6. Si (E, d) est un espace polonais, alors l'espace métrique


est lui aussi polonais.
(P(E), dLP )
La preuve de ce théorème (pour laquelle il sut de montrer la complétude) sera
faite plus tard.

5.3 Tension
L'objectif de cette section est d'étudier plus en détails la topologie de des espaces
de mesures de probabilité, et notamment d'en caractériser les sous-ensembles séqen-
tiellement compacts (pour la convergence étroite).

5.3.1 Cas réel


En dimension 1, on peut utiliser comme outil les fonctions de répartition Fµ (x) :=
µ((−∞, x]) et la Proposition 5.1.3.
Proposition 5.3.1 (Lemme de Helly-Braye). Soit (fn ) une suite de fonctions crois-
santes de R, à valeurs dans l'intervalle [0, 1]. Alors il existe une sous-suite qui
converge simplement. En particulier, de toute suites de fonctions de répartition de
lois de probailité, on peut extraire une sous-suite convergente.
Proof. Comme un produit dénombrable d'espaces métriques séquentiellement com-
pacts est séquentiellement compact, il existe une sous suite convergeante en tous
points de Q, que nous noterons fn . Notons f la limite de cette sous-suite con-
vergeante. On peut dénir
f− (x) := sup{f (y), y ∈ Q ∩ (−∞, x]}, f+ (x) := inf{f (y), y ∈ Q ∩ [x, +∞)}.
Par monotonie, l'ensemble D des points auxquels f− (x) < f+ (x) est au plus dénom-
brable. Notons encore f (x) leurs valeurs communes sur R\D.
Nous allons maintenant montrer que fn (x) −→ f (x) sur R\D. Soit x ∈ R\D.
Il existe y < x et z > x rationnels tels que
f (y) > f (x) − ε; f (z) 6 f (x) + ε
. Par convergence simple des suites (fn (y)) et (fn (z)), pour tout n susamment
grand on a alors
fn (y) > f (x) − 2ε; f (z) 6 f (x) + 2ε
. Par monotonie des fn , on a alors pour n susamment grand
f (x) − 2ε 6 fn (x) 6 f (x) − 2ε
et donc on a bien convergence simple sur R\D.
Enn, comme D est dénombrable, on peut extraire une sous-suite qui converge
aussi simplement sur D, ce qui conclut la preuve.

55
Corollaire 5.3.2. Soit (µn ) une séquence de mesures de probabilités sur R. Il
existe une sous-suite convergeant vaguement vers une mesure positive µ sur R, avec
µ(R) 6 1, c'est à dire que pour toute fonction f continue à support compact,
Z Z
f dµn −→ f dµ.

NB. La limite d'une suite de fonctions de répartition obtenue via le lemme de Helly-
Braye n'est pas forcément elle-même une fonction de répartition. Par exemple, la
suite des fonctions de répartitions des mesures de Dirac δn est 1[n,+∞) , et leur limite
est la fonction nulle.
En revanche, cette limite est toujours une fonction croissante.
En d'autres termes, l'ensemble des mesures positives sur R de masse inférieure
à 1 est séquentiellement compact pour la convergence vague. Par contre, l'ensemble
des mesures de probabilité ne l'est pas. De plus, comme la limite peut avoir une
masse totale strictement inférieure à 1, il n'y a pas nécessairement convergence
étroite.
Pour pouvoir garantir que la limite (après extraction) est une mesure de prob-
abilité, il faut et sut que la limite des fonctions caractéristiques tende vers 1 en
+∞ et 0 en −∞, i.e.

lim lim Fµn (x) = 1; lim lim Fµn (x) = 0 (5.2)


x→+∞ n x→−∞ n

Ceci mène à la dénition suivante :

Dénition 5.3.3 (Tension, cas réel). Une famille Γ de mesures de probabilité sur
R est dite tendue si pour tout ε > 0, il existe r > 0 tel que

inf Fµ (r) − Fµ (−r) > 1 − ε;


µ∈Γ

ou, de manière équivalente,


sup µ([−r, r]c ) 6 ε.
µ∈Γ

Exercice 5.3.1. Montrer que une suite de mesures de probabilité est tendue ssi on
a (5.2).
Solution 5.3.1. La notion de tension est équivalente à
lim inf Fµn (r) − Fµn (−r) = 1.
r n

Comme de plus les fonctions de répartition sont croissantes et prennent des valeurs
entre 0 et 1, on a
lim inf Fµn (r) = 1; lim inf Fµn (−r) = 0.
r n r n

On en déduit que
1 > lim lim Fµn (r) > lim inf Fµn (r) = 1
r n r n

et la même chose fonctionne pour le comportement en −∞.

56
Réciproquement, si on a (5.2), pour tout ε > 0, il existe R > 0 et N = N (R)
tels que pour tout n > N et r > R on ait
Fµn (r) > 1 − ε/2.
Comme de plus pour n xé la fonction de répartition tend vers 1 à l'inni, quitte à
augmenter r on peut avoir la même borne pour n < N , et donc trouver r tel que
inf Fµn (r) > 1 − ε/2.
n

. De manière symétrique, on a le même comportment en −∞, et donc il existe r


susemment grand tel que
inf Fµn (r) − Fµn (−r) > 1 − ε.
n

En combinant le lemme de Helly-Braye et ce résultat, on obtient :


Théorème 5.3.4 (Théorème de Prokhorov, cas réel). Si une suite de mesures de
probabilité sur R est tendue, alors elle admet une sous-suite qui converge étroite-
ment.
La réciproque est aussi vraie en un certain sens, qu'on verra dans la suite.

5.3.2 Cas compact


Dans le cas d'un espace compact, il n'y a pas besoin de parler de tension, et
l'espace des mesures de probabilité sera lui-même compact. Pour démontrer cela,
on s'appuiera sur des résultats d'analyse fonctionnelle.
Théorème 5.3.5 (Théorème de représentation de Riesz-Markov). Soit (E, d) un
espace métrique compact, et ϕ une forme linéaire positive sur (C(E, R), || · ||∞ ) telle
que ϕ(1) < ∞. Alors il existe une unique mesure positive nie borelienne µ sur E
telle que Z
ϕ(f ) = f dµ ∀f ∈ C(E, R).

De plus, µ(E) = ϕ(1) = ||ϕ||.


A noter qu'une telle forme linéaire est nécessairement continue sur (C(E, R), || ·
||∞ ).
Corollaire 5.3.6. Soit (E, d) un espace métrique compact. Alors la topologie
de la convergence étroite de mesures nies coincide avec la topologie faible-* sur
l'ensemble des formes linéaires positives.
Théorème 5.3.7 (Théorème de Banach-Alaoglu-Bourbaki). Soit E un espace vec-
toriel normé séparable. La boule unité de son dual (l'ensemble des formes linéaires
continues) est compact pour la topologie faible-*.
Dans le cadre compact, l'ensemble des mesures de probabilité est fermé dans
C(E, R)∗ , et on en déduit le résultat suivant :
Corollaire 5.3.8 (Théorème de Prokhorov, cas des espaces compacts). Si (E, d)
est un espace compact, alors P(E) est compact pour la topologie de la convergence
étroite.
Corollaire 5.3.9. Si une suite de variables aléatoires est uniformément bornée
(c'est à dire que il existe M > 0 tel que pour tout n on ait |Xn | 6 M p.s.), alors
on peut en extraire une sous-suite qui converge en loi.

57
5.3.3 Cas général
Le but maintenant sera de voir le théorème de Prokhorov dans un cadre plus général.
La généralisation naturelle de la notion de tension pour un espace topologique est :

Dénition 5.3.10 (Tension). Un ensemble Γ ⊂ P(E) est tendu si pour tout ε > 0
il existe un compact Kε ⊂ E tel que
sup µ(E\Kε ) 6 ε.
µ∈Γ

Exercice 5.3.2. 1. Soit µ une mesure de probabilité sur un espace polonais.


Montrer que pour tout k > 1, il existe un nombre ni Nk de boules de rayon
1/k dont l'union est de mesure supérieure à 1 − 2−k ε.

2. En déduire que le singleton {µ} est tendu.


3. Montrer qu'un ensemble ni de mesures de probabilité sur un espace polonais
est tendu.
Solution 5.3.2. 1. Comme E est polonais, on peut considérer une suite dénom-
brable dense (zn )n∈N∗ . Comme pour tout k > 1, on a ∪n B̄(zn , 1/k) = E , où
B̄ est une boule fermée de centre et rayon donnés, on peut toujours trouver
Nk tel que
 ε
µ ∪n6Nk B̄(zn , 1/k) > 1 − .
2k
2. On considére A = ∩k ∪n6Nk B̄(zn , 1/k) . On a


X c 
µ(Ac ) 6 µ ∪n6Nk B̄(zn , 1/k) 6 ε.
k

De plus, A est recouvrable par un nombre ni de boules de rayon arbitrairement


petit, donc A est précompact. Comme de plus A est fermé, cet ensemble est
compact. On a donc un ensemble compact de masse arbitrairement proche de
1, donc {µ} est tendu.

3. Soit {µ1 , ..., µn } un ensemble ni de mesures. Pour tout ε > 0, il existe des
compacts Ki tels que µi (Ki ) > 1 − ε. Alors ∪i Ki est un compact, et tous les
µi lui donnent une masse supérieure à 1 − ε. L'ensemble {µ1 , ..., µn } est donc
tendu.
Notre but va être maintenant de prouver la caractérisation suivante:

Théorème 5.3.11 (Théorème de Prokhorov). Soit E un espace polonais. Une


famille de mesures de probabilité est relativement compacte dans P(E) ssi elle est
tendue.
Proof. Montrons d'abord qu'une famille tendue est relativement compacte. Comme
on a déjà montré que P(E) est un espace métrique séparable, on peut utiliser la
caractérisation séquentielle de la compacité. Soit (µn )n∈N une suite d'éléments
d'une famille tendue. Par dénition de la tension, pour tout p > 1, il existe un
compact Kp tel que
1
sup µn ((Kp )c ) < .
n p

58
Sans perdre de généralité, on supposera les Kp emboîtés, c'est à dire Kp ⊂ Kp+1 .
On peut considérer des restrictions à ces domaines Kp , c'est à dire les mesures de
probabilités µpn dénies par

µn (A ∩ Kp )
µpn (A) := .
µn (Kp )

Ces mesures représentent bien sûr des lois conditionnelles, avec contrainte de rester
dans Kp .
Comme ces mesures sont à support dans un compact, on sait qu'elles sont
séquentiellement compactes : pour tout p, on peut extraire une sous-suite de µpn
qui converge étroitement vers une limite ν p , elle ausi à support dans Kp . Par
extraction diagonale, on peut alors trouver une sous suite ϕ(n) telle que
etr.
µϕ(n) −→ ν p

pour tout p. De plus, comme les µn (Kp ) sont à valeurs dans [1 − p−1 , 1], on peut
aussi sans perdre de généralité (quitte à extraire de nouveau) supposer que pour
tout p,
µϕ(n) (Kp ) −→ mp ∈ [1 − p−1 , 1]
pour tout p > 1. On pose µp = mp ν p . Comme les Kp sont emboi îtés, on a
µn ((A ∩ Kp ) ∩ Kp+1 ) = µn (A ∩ Kp ), et donc µp+1 (A ∩ Kp ) = µp (A). De plus,
µp (A) 6 µp+1 (A) pour tout A. On peut donc étendre µp à l'espace tout entier par
µp (A) = µp (A ∩ Kp ), et dénir

µ(A) = lim µp (A)


p

par convergence monotone. Comme mp −→ 1, cette mesure µ est une mesure de


probabilité. Montrons que µϕ(n) converge étoitement vers µ. On a pour tout ouver
O et pour tout p > 1

lim inf µϕ(n) (O) > lim inf µϕ(n) (O ∩ Kp ) = lim inf µpϕ(n) (O)µϕ(n) (Kp ).
n n

Comme O ∩ Kp est un ouvert de Kp , on peut appliquer la convergence étroite des


restrictions et avoir
lim inf µϕ(n) (O) > µp (O).
n

En faisant tendre p vers l'inni, on en déduit lim inf n µϕ(n) (O) > µ(O), ce qui donne
la convergence étroite via la Propositon 5.1.2.
Démontrons maintenant la réciproque. Soit Γ une famille relativement com-
pacte. Quitte à prendre son adhérence, on peut supposer qu'elle est compacte.
Ceci se fait sans perte de généralité, puisque si l'adhérence d'une famille est ten-
due, la famille est aussi tendue. Soit (xn )n∈N une famille dénombrable dense et
Ok,n := j6n B(xi , 1/k).
S
Pour tout k et tout ε > 0, il existe N tel que pour toute mesure µ ∈ Γ on ait
µ(Ok,N ) > 1 − ε. En eet, si ce n'était pas le cas, on pourrait trouver une suite µn
qui converge vers une mesure µ ∈ Γ par compacité, et telle que µn (Ok,n ) 6 1 − ε
pour tout n. Mais alors, par monotone de la suite Ok,n en n, on aurait pour tout
m
µ(Ok,m ) 6 lim inf µn (Ok,m ) 6 lim inf µn (Ok,n ) 6 1 − ε.
n n

59
Mais comme n Ok,n = E , on a aussi limn µ(Ok,m ) = 1, et donc il y aurait contra-
S
diction.
SoitTε > 0, et Nk un entier tel que µ(Ok,N ) > 1 − ε/2k pour tout µ ∈ Γ. Posons
K := k>1 Ōk,Nk . Alors K est précompact, et fermé, donc compact car E est
complet. De plus,
X X ε
c
µ(E/K) 6 µ(Ok,N ) 6 = ε.
k
2k
k k>1

Comme ε est arbitraire, Γ est donc bien une famille tendue.

Comme conséquence du théorème de Prokhorov, on peut utiliser le raisonnement


suivant pour démontrer une convergence en loi : montrer que la suite des lois est
tendue, puis qu'il n'y a qu'une seule limite possible. C'est l'analogue du raison-
nement classique en analyse qu'une suite bornée de réels qui n'a qu'une seule valeur
d'adhérence converge.

Corollaire 5.3.12. Soit (Xn )n∈N une suite de variables aléatoires à valeurs dans
Rd . On suppose que pour tout ε > 0 il existe R > 0 tel que

sup P(|Xn | > R) 6 ε.


n

Alors il existe une extraction ϕ et une variable aléatoire X à valeurs dans Rd telles
que Xn −→ loi
X.

Démontrons maintenant le Théorème 5.2.6 (qui n'a pas été utilisé dans la dé-
monstration du théorème de Prokhorov).

Preuve du Théorème 5.2.6. Soit (µn ) une suite de Cauchy pour dLP . Nous allons
montrer qu'elle est tendue, et le théorème de Prokhorov nous permettra ensuite
de conclure qu'on peut en extraire une sous-suite convergente, ce qui sura pour
déduire la complétude.
Par propriété de Cauchy, il existe une extraction ϕ telle que
ε
dLP (µm , µϕ (n)) 6 ∀m > ϕ(n).
2n+1
Comme l'ensemble ni {µ1 , ..., µϕ(n) } est tendu, on peut trouver un compact Kn
tel que
ε
max µ(E/Kn ) 6 n+1 .
i6ϕ(n) 2
En conséquence, pour tout m > ϕ(n), on a
n+1 ε
µm (Knε/2 ) > µϕ(n) (Kn ) − dLP (µm , µϕ(n) ) > 1 − .
2n
De plus, cette inégalité est aussi valable pour m 6 ϕ(n), par choix de Kn . Posons
ensuite \ ε/2n+1
K= Kn .
n
ε/2n+1
Comme Kn peut être recouvert par un nombre ni de boules de rayon ε2−n−1 ,
K peut être recouvert par un nombre ni de boules de rayon arbitrairement petit,

60
et est donc précompact. De plus, c'est un ensemble fermé dans un espace complet,
il est donc compact. De plus, pour tout m, on a
X ε/2n+1 c
X ε
µm (E/K) 6 µm ((Kn ) )6 = ε.
n n
2n+1

C'est donc bien une famille tendue, ce qui conclut la preuve.

5.4 Autres distances sur les espaces des mesures de


probabilités
La distance de Lévy-Prokhorov est utile pour des considérations théoriques, mais
est dicilement utilisable pour l'analyse quantitative de problèmes concrets, en
particulier parce qu'elle est dicile à calculer. On verra dans cette section d'autres
distances sur les espaces de mesures, plus faciles à estimer dans des cadres concrets.
NB. Par abus de notation, lorsque d est une distance sur un espace de mesures de
probabilité et X et Y deux variables aléatoires, on notera d(X, Y ) pour la distance
entre la loi de X et la loi de Y .

5.4.1 Distance de Kolmogorov


Dénition 5.4.1 (Distance de Kolmogorov). La distance de Kolmogorov entre deux
mesures de probabilité sur R est donnée par
dKol (µ, ν) := sup |µ((−∞, x]) − ν((−∞, x])| = ||Fµ − Fν ||∞ .
x

La distance de Kolmogorov permet de contrôler la convergence en loi, puisque si


on a convergence uniforme des fonctions de répartition, on a a fortiori convergence
simple. La réciproque n'est pas vraie : dKol (δ1/n , δ0 ) = 1 pour tout n > 0.
Exercice 5.4.1. 1. Calculer la distance de Kolmogorov entre deux lois de
Bernoulli, en fonction de leurs paramètres.
2. Calculer la distance de Kolmogorov entre deux lois exponentielles, en fonction
de leurs paramètres.
Solution 5.4.1. 1. Notons p et q les deux paramètres. La fonction de répartition
d'une loi de Bernoulli est constante par morceaux, avec une valeur qui change
en 0 et 1. En comparant les valeurs en ces deux points, on voit que la distance
de Kolmogorov est donnée par |p − q|.
2. On considère deux lois exponentielles de paramètres respetcifs α et β , et on
suppose sans perdre de généralité que α > β . La diérence des fonctions de
répartition en x est donnée par exp(−βx) − exp(−αx). Si on dérive, on voit
que le maximum est atteint en
log(α) − log(β)
x= ,
α−β

et donc leur distance de Kolmogorov est exp −β


  
log(α)−log(β)
α−β −
.
  
log(α)−log(β)
exp −α α−β

61
Exercice 5.4.2. Soit γt la mesure gaussienne centrée de variance t2 . Montrer que
si µ a une densité bornée par une constante K , alors pour tout h > 0 on a
t
Fγt ∗µ (x) − Fµ (x) 6 Kh +
h
et en déduire que √
dKol (γt ∗ µ, µ) 6 2 tK.

Solution 5.4.2. Soit X une variable aléatoire de loi µ, et Z de loi γT , indépendante


de X . Pour tout h > 0 on a
{X + Z 6 x} ⊂ {X 6 x + h} ∪ {Z 6 −h}

et donc σ
FγT ∗µ (x) 6 Fµ (x + h) + P(Z 6 −h) 6 Fµ (x + h) + .
h
De plus, comme la densité de µ est bornée, Fµ (x + h) − Fµ (x) 6 Kh. La première
inégalité suit.
De même,
σ
Fµ (x) 6 FγT ∗µ (x − h) + P(Z > h) 6 FγT ∗µ (x) + .
h
On a donc bien σ
sup |FγT ∗µ (x) − Fµ (x)| 6 Kh + .
x h
On optimise sur h pour conclure.
On peut utiliser ce résultat pour relier la convergence en distance de Kolmogorov
au comportement des fonctions caractéristiques :

Proposition 5.4.2. Soit µ et ν deux lois de probailité sur R absolument continues


par rapport à la mesure de Lebesgue, et de densités bornées par K . Il existe une
constante C > 0, qui ne dépend pas de K , telle que pour tout T > 0 on ait
T

ϕµ (t) − ϕν (t)
Z
1 dt + CK 2/5 T −2/5 .
dKol (µ, ν) 6
2π −T
t

Ce résultat est une variante d'une inégalité classique de Esseen, qui utilise une
convolution avec une variable de densité (1 − cos(T x))/(T x2 ), dont la fonction car-
actéristique a l'avantage d'être à support compact, plutôt qu'avec une gaussienne.
Le résultat optimal a un second terme en T −1 , et ne demande une borne sur la
densité que pour une seule des deux variables.

Proof. Soit X (resp. Y ) une variable aléatoire de loi µ (resp. ν ). Soit Z une
variable aléatoire gausienne de variance σ 2 , indépendante de X et Y . On note fσ
(resp. gσ ) la densité de la loi de X + Z (resp. Y + Z ). De même, on note Fσ (resp.
Gσ ) la fonction de répartition de la loi de X + Z (resp. Y + Z ).Ces fonctions de
répartition sont continues, donc en utilisant la formule d'inversion de Fourier, on a

(ϕX (y) − ϕY (y))


Z
1
Fσ (x) − Gσ (x) = ϕZ (y)eix·y dy.
2π y iy

62
La fonction caractéristique de Z est exp(−σ 2 x2 /2). On a donc
Z ∞
1 (ϕX (y) − ϕY (y)) ixy −σ2 y2 /2
Fσ (x) − Gσ (x) = e e dy.
2π −∞ iy
D'où
∞ 2 2 /2
T
|ϕX (y) − ϕY (y)| e−σ y
Z Z
1 1
sup |Fσ (x) − Gσ (x)| 6 dy + dy. (5.3)
x 2π −T |y| π T |y|

Pour le deuxième terme, on prouve aisément une borne de la forme C/(σ 2 T 2 ) avec
C une constante positive qui ne dépend d'aucun des paramètres du problème. On
a donc Z T
1 |ϕX (y) − ϕY (y)| C
dKol (X + Z, Y + Z) 6 dy + 2 2 .
2π −T |y| σ T
Avec l'inégalité triangulaire, on en déduit que

1
Z T
|ϕX (y) − ϕY (y)| C √
dKol (X, Y ) 6 dy + 2 2 + 4 σK.
2π −T |y| σ T

On conclut en prenant σ = K −1/5 T −4/5 .

On a une distinction d'ordre topologique entre la distance de Kolmogorov et la


distance de Lévy-Prokhorov :
Proposition 5.4.3. L'espace des mesures de probabilité sur R muni de la distance
dKol n'est pas séparable.
Proof. On a dKol (δx , δy ) = 1x6=y . On a donc une famile indénombrable d'éléments
dont les distances deux à deux sont uniformément minorées par 1, ce qui n'est pas
possible dans un espace séparable.

5.4.2 Distance en variation totale


Dénition 5.4.4 (Variation totale). La distance en variation totale entre deux
mesures de probabilité sur un espace E est
dT V (µ, ν) := sup |µ(A) − ν(A)|.
A mesurable

Sur R, on a trivialement dT V > dKol .


Proposition 5.4.5. Si µ et ν sont deux mesures de probabilité sur Rk avec des
densités f et g par rapport à la mesure de Lebesgue, alors
1
dT V (µ, ν) = ||f − g||L1 (dx) .
2
Proof. Soit A un ensemble mesurable. Comme Rk f dx = Rk gdx = 1, on a
R R

Z Z

f − gdx = f − gdx

A Ac

Et donc
 Z Z  Z
1 1
|µ(A) − ν(A)| = f − gdx + f − gdx 6 |f − g|dx.
2
A

Ac 2

63
Réciproquement, si on considère l'ensemble mesurable A = {x; f (x) > g(x)},
on a
Z Z Z
|f − g|dx = f − gdx+ g − f dx = |µ(A)−ν(A)|+|µ(Ac )−ν(Ac )| = 2|µ(A)−ν(A)|.
A Ac

Tout comme la distance de Kolmogorov, la distance en variation totale ne rend


pas l'espace des mesures de probabilité séparable en général (même si ça peut être
le cas, par exemple sur un espace ni).

5.4.3 Distance de Wasserstein


Dénition 5.4.6 (Distance de Wasserstein L1 ).
W1 (µ, ν) := inf{E[|X − Y |]; L(X) = µ, L(Y ) = ν}.

Cette distance est un cas particulier de distance de transport optimal, dont


l'étude remonte à Monge au 18ème siècle, et qui ont été introduites dans leur
formulation moderne par Kantorovitch dans les années 40.

Exercice 5.4.3. Montrer que si µ est une mesure de probabilité à support dans
et ν une mesure de probabilité à support dans [c, d] avec c > b, alors
[a, b]
Z Z
W1 (µ, ν) = ydν − xdµ.

Donner un contre-exemple lorsque la condition sur les supports n'est pas vériée.
Solution 5.4.3. Pour tout couplage (X, Y ) de ces deux mesures, à cause de la
comparaison entre les supports on a X < Y , et donc
E[|X − Y |] = E[Y ] − E[X].

Comme contre-exemple, on a par exemple µ = δ0 et ν = 12 (δ−1 + δ1 ).


Proposition 5.4.7. Soit µ et ν deux mesures de probabilté avec des moments
d'ordre 1 nis. Il existe un couplzag π de µ et ν tel que
Z
|x − y|dπ = W1 (µ, ν).

Ce couplage est appelé couplage (ou transport) optimal pour le coût L1 .


On démontrera ce résultat d'existence par un argument de compacité :

Lemme 5.4.8. Pour toutes mesures de probabilité µ et ν sur Rd données, l'ensemble


des couplages de µ et ν est compact.
Proof. Commençons par montrer que l'ensemble des couplages est relativement
compact. Soit ε > 0 et K1 et K2 des compacts tels que

µ(K1c ) 6 ε/2; ν(K2c ) 6 ε/2.

64
Alors pour tout couplage π on a

π((K1 × K2 )c ) 6 π(K1c × Rd ) + π(Rd × K2c ) = µ(K1c ) + ν(K2c ) 6 ε.

Comme K1 × K2 est compact, on en déduit que l'ensemble des couplages est tendu,
et donc relativement compact par le Théorème de Prokhorov.
Il nous reste à montrer que l'ensemble des couplages est fermé pour la conver-
gence étroite pour conclure la preuve. Soit πn une suite de couplages, qui converge
étoitement vers une mesure de probabilité π sur Rd × Rd . Pour toute fonction
continue bornée
Z Z Z Z
f (x)dπ(x, y) = lim f (x)dπn (x, y) = lim f (x)dµ(x) = f (x)dµ(x).
n

Donc la première marginale de π est µ. Le même raisonnement appliqué àla seconde


marginale montre qu'elle est égale à ν , et donc π est aussi un couplage de µ et ν .
L'ensemble des couplages est donc bien fermé, et donc compact.

Exercice 5.4.4. Démontrer la Proposition 5.4.7


Solution 5.4.4 (Preuve de la Proposition 5.4.7). Tout d'abord, comme les mesures
ont des moments d'ordre 1 nis, W1 (µ, ν) est ni.
Soit πn une suite de couplages de µ et ν tels que
Z
lim |x − y|dπn = W1 (µ, ν)

Comme l'ensemble des couplages est compact, quitte à extraire, on peut supposer
que πn converge étroitement vers un couplage π. Comme π est un couplage, par
dénition on a Z
|x − y|dπ > W1 (µ, ν).

De plus, pour tout R > 0


Z Z
(|x − y| ∧ R)dπ = lim (|x − y| ∧ R)dπn
n
Z
6 lim |x − y|dπn = W1 (µ, ν)
n

Et donc, par limite monotone en R, on a


Z
|x − y|dπ 6 W1 (µ, ν).

Comme on avait déjà l'inégalité inverse, on en déduit qu'il y a égalité, ce qui conclut
la preuve.
On a aussi une formulation duale de W1 :

Proposition 5.4.9 (Formule de Kantorovitch-Rubinstein).


Z Z 
W1 (µ, ν) = sup f dµ − f dν; f 1-Lipschitz .

65
Esquisse de preuve. On tout d'abord
(
si γ ∈ Π(µ, ν)
Z Z Z
0
sup − f (x) − g(y)dγ(x, y) + f dµ − gdν =
f,g +∞ sinon

où le sup est sur l'ensemble des mesures positives sur Rd × Rd (et pas juste les
mesures de probabilité). On peut donc relacher la contrainte de couplage en
Z Z Z Z Z
inf |x − y|dπ = inf γ > 0 sup |x − y|dγ− f (x) − g(y)dγ(x, y)+ f dµ+ gdν.
π∈Π(µ,ν) f,g

On admet qu'on peut échanger l'inf et le sup (théorème du minmax de Rockafellar).


Comme de plus
(
si f (x) − g(y) 6 |x − y| ∀x, y
Z Z
0
inf sup |x − y|dγ− f (x) − g(y)dγ(x, y) =
γ>0 f,g +∞ sinon,

on a alors
Z Z Z
inf |x − y|dπ = sup f dµ − gdν.
π∈Π(µ,ν) f (x)−g(y)6|x−y|

Si f est 1-lipschitz, on peut prendre g = f . Sinon, on peut remplacer g par


ĝ(y) := supx f (x) − |x − y|. Cette fonction est 1-lipschitz, et pour toute fonction f
telle que f (x) − g̃(y) 6 |x − y| pour tout x et y , on a f 6 ĝ , donc on peut remplacer
f par ĝ . On peut donc se restreindre aux fonctions 1-lipschitz.

Exercice 5.4.5. Quelle est la distance W1 entre deux lois de Bernoulli de


paramètres respectifs p et q? Et entre deux lois gaussiennes de variance 1 et de
moyennes diérentes?
Solution 5.4.5. Sans perdre de généralité, on suppose p > q. Si on considère le
couplage où
π(1, 1) = q; π(1, 0) = p − q; π(0, 0) = q,
alors on voit que W1 (Ber(p), Ber(q)) 6 |p − q|.
Réciproquement, avec la formule de dualité de Kantorovitch-Rubinstein, pour
tout fonction f 1 lipschitz on a
W1 (Ber(p), Ber(q)) > (p − q)(f (1) − f (0)).

En prenant comme fonction f (x) = x on en déduit que W1 > |p − q|.


Pour des gaussiennes de moyenne a > b, en testant la formule de dualité avec
f (x) = x on a W1 (N (a, 1), N (b, 1)) > a − b. Reciproquement, en considérant le
couplage (X, X + b − a) où X ≡ N (a, 1), on a W1 6 a − b. On conclut que la
distance W1 entre deux gaussiennes de mêmes variances est donnée par la distance
entre les moyennes. A noter que ce résultat se généralise en dimension supérieure.
On peut ensuite regarder quelle est la topologie induite par W1 .

Théorème 5.4.10. Soit (µn )n∈N et µ des mesures de probabilité sur Rd . Les propo-
sitions suivantes sont équivalentes :
1. (µn )n∈N converge étroitement vers µ et |x|dµn −→ |x|dµ ;
R R

66
2. W1 (µn , µ) −→ 0.
Pour démontrer ce résultat, on commencera par le cas compact, donné par le
lemme suivant :

Lemme 5.4.11. Soit (µn )n∈N et µ des mesures de probabilité sur la boules fermé
B(0, R). Alors (µn ) converge étroitement vers µ ssi W1 (µn , µ) −→ 0.

Proof. Le sens réciproque est immédiat via la Proposition 5.1.2 (puisque les fonc-
tions lispchitz sur un compact sont bornées).
Pour le sens direct, on va raisonner par contradiction. Supposons que W1 (µn , µ)
ne tend pas vers 0. Par la formule de dualité de Kantorovitch-Rubinstein, il existe
alors ε > 0 et une suite de fonctions 1-lispchitz sur B(0, R) telles que
Z Z
inf fn dµn − fn dµ > ε.
n

Sans perdre de généralité, on peut supposer que fn (0) = 0 pour tout n. On peut
alors utiliser le théorème d'Arzela-Ascoli pour en extraire une suite convergent vers
une fonction f pour la norme uniforme. Cette fonction f est encore 1 lipschitz et
vérie f (0) = 0. Par convergence étroite vers µ, pour tout N assez grand
Z Z

f dµN − f dµ 6 ε/4.

Mais par convergence uniforme de fn vers f , il existe des N arbitrairement grands


tels que Z Z Z Z

fN dµN − f dµN 6 ε/4; fN dµ − f dµ 6 ε/4.

On en déduit qu'on peut trouver N tel que
Z Z

fN dµN − fN dµ 6 3ε/4,

ce qui aboutit à une contradiction.

Preuve du Théorème 5.4.10. Pour démontrer que (2) ⇒ (1), on utilise la conver-
gence des espérances de fonction lispchitz, et la Proposition 5.1.2 pour obtenir la
convergence en loi. Pour la convergence du moment, on peut utiliser la borne

|E[|X|] − E[Y ]| 6 E[|X − Y |]

pour tout couplage (X, Y ) de µn et νn , et donc en particulier


Z Z

|x|dµn − |x|dµ 6 W1 (µn , µ).

Démontrons maintenant que (1) ⇒ (2). Pour chaque mesure on dénit sa


projection sur la boule de rayon R par
µ1B(0,R)
µR := .
µ(B(0, R))

67
Comme ces mesures vivent sur un compact, et que µn (B(0, R)) −→ µ(B(0, R))
pour presque tout R > 0, on peut trouver R arbitrairement grand tel que

W1 (µR R
n , µ ) −→ 0.

De plus, en prenant un couplage (X, Y ) de µ et µR où conditionnellement à |X| 6 R


on a Y = X (ce qui est possible car µ(B(0, R)) 6 1 = µR (B(0, R))), on a
Z Z
W1 (µR , µ) 6 (|x| + R)1|x|>R dµ 6 2 |x|1|x|>R dµ −→ 0.
R→∞

De plus, comme |x|dµn −→ |x|dµ, on a aussi pour tout R


R R

Z Z
|x|1|x|>R dµn −→ |x|1|x|>R dµ.

Donc pour tout ε > 0 on peut trouver R arbitrairement grand et N tels que pour
tout n > N
W1 (µR
n , µn ) 6 ε.

Alors en prenant R assez grand,

lim sup W1 (µn , µ) 6 lim sup(W1 (µR R R R


n , µn ) + W1 (µn , µ )) + W1 (µ , µ) 6 2ε.
n n

Comme ε est arbitraire, ceci conclut la preuve.

Proposition 5.4.12. Soit µ et ν deux mesures de probabilité sur R. On suppose que


ν a une densité bornée par rapport à la mesure de Lebesgue, et soit C un majorant
de la densité. Alors p
dKol (µ, ν) 6 2 CW1 (µ, ν).

Proof. Soit x ∈ R, ε > 0 et g1 la fonction dénie par



1 si t 6 x;

g1 (t) := 0 si t > x + ε;
ε si t ∈ (x, x + ε).

 t−x

Alors g1 est ε−1 -lipschitz, et 1(−∞,x] 6 g1 . Donc


µ((−∞, x]) − ν((−∞, x]) 6 µ(g1 ) − ν(g1 ) + ν(g1 ) − ν((−∞, x]).

Or µ(g1 ) − ν(g1 ) 6 ε−1 W1 (µ, ν), et ν(g1 ) − ν((−∞, x]) 6 ν((x, x + ε)) 6 Cε car la
densité de ν est bornée par C . On en déduit

dKol (µ, ν) 6 ε−1 W1 (µ, ν) + Cε.

On peut alors prendre ε = W1 /C pour conclure.


p

68
5.5 Théorème de représentation de Skorokhod
Théorème 5.5.1. Soit (µn )n∈N une suite de lois de probabilité sur un espace polon-
ais (E, d), qui converge étroitement vers une mesure de probabilité µ. Alors il existe
un espace de probailité (Ω, F, P) et des variables aléatoires (Zn )n∈N et Z sur cet es-
pace telles que
1. Pour tout n ∈ N la loi de Zn est µn , et la loi de Z est µ;
2. (Zn )n∈N converge p.s. vers Z .
Cas E = R. Si Fµ : x −→ µ((−∞, x] est la fonction de répartition de la mesure de
probabilité µ sur R, alors la fonction

Fµ−1 (t) := inf{x ∈ R, Fµ (x) > t}

est une fonction de (0, 1) dans R, telle que si U est uniforme sur (0, 1), alors Fµ−1 (U )
a pour loi µ. Cette construction nous permet de constuire des suites de variables
de lois données, mais fortement corrélées.
Si µn converge étroitement vers µ, alors on a pour tout t ∈ (0, 1)

Fµ−1 (t) 6 lim inf Fµ−1


n
(t) 6 lim sup Fµ−1
n
(t) 6 Fµ−1 (t+)

où Fµ−1 (t+) est la limite à droite de Fµ−1 en t. Comme Fµ−1 est monotone, elle est
continue presque partout, et on en déduit que Fµ−1 n
(U ) converge p.s. vers Fµ−1 (U ),
ce qui conclut la preuve.

Preuve du cas général pas faite en cours.


Exercice 5.5.1. Soit (Xn )n∈N une suite de variables aléatoire réelles uniformément
intégrable, et qui converge en loi vers X . Alors E[Xn ] −→ E[X].
Solution 5.5.1. D'après le théorème de Skorokhod, il existe une suite de variables
Yn constuites sur un même espace de probabilité, telles que pour tout n Xn et Yn ont
la même loi, et Yn converge p.s. vers un variable Y de même loi que X . L'uniforme
intégrabilité étant une propriété qui ne dépend que de la suite des lois, les Yn sont
aussi uniformément intégrables.
D'après le Théorème 2.4.7, une suite de variables aléatoire uniformément inté-
grables qui converge p.s. converge aussi dans L1 , la conclusion suit.

5.6 Appendice : convergence faible-* et convergence en


loi
Cette section ne sera pas traitée en cours.
Dénition 5.6.1 (Convergence vague). Une suite (µn ) de mesures de probabilité
sur un espace métrique (E, d) converge vaguement vers une mesure µ si pour toute
fonction continue à support compact,
Z Z
f dµn −→ f dµ.

La convegrence étroite implique la convergence vague, mais la réciproque est


fausse en général. Toutefois, sur Rd on a le résultat suivant :

69
Proposition 5.6.2. Une suite de mesures de probabilité (µn ) sur Rd converge
étroitement vers une mesure de probabilité µ ssi elle converge vaguement et si
µn (Rd ) −→ 1.
Plus généralement, ce résultat est vrai si l'espace métrique (E, d) est localement
compact.

Proof. L'implication réciproque est immédiate. Prouvons le sens direct.


Soit f une fonction continue bornée et (ϕ` ) une suite croissante de fonctions
continues à support compact dont la limite est la fonciton constante égale à 1. Les
fonctions f ϕ` sont continues à support compact, donc pour tout ` on a
Z Z
lim f ϕ` dµn −→ f ϕ` dµ.

On a aussi Z Z Z
lim ϕ` dµ = 1; lim ϕ` dµn = ϕ` dµ.
` n

Or
Z Z Z Z

f dµn − f dµ 6 f dµn − f ϕ` dµn

Z Z Z Z

+ f ϕ` dµn − f ϕ` dµ + f ϕ` dµ − f dµ

Z Z  Z Z 

6 f ϕ` dµn − f ϕ` dµ + ||f ||∞ 2 − ϕ` dµn − ϕ` dµ

et on conclut en prenant la limsup lorsque n, puis `, tendent vers l'inni.

Dans le cas d'un espace compact, la convergence étoite et la convergence vague


coïncident. Dans le cadre non-compact, la topologie étroite ne coïncide plus avec
la topologie vague, et c'est la convergence vague dont la topologie coïncide avec la
topologie faible-* :
Théorème 5.6.3 (Théorème de représentation de Riesz-Markov-Kakutani). Soit
(E, d) un espace métrique localement compact. On munit l'espace des fonctions
continues à support compact Cc (E) de la topologie de la convergence uniforme.
Alors pour toute forme linéaire ψ continue positive sur Cc (E) il existe une mesure
borélienne positive µ telle que
Z
ψ(f ) = f dµ ∀f ∈ CC (E).

Si de plus on demande que la mesure µ soit régulière, alors elle est unique.
On peut donc identier l'espace des mesures de probailité boréliennes régulières
avec le sous-espace des formes linéaires continues positives et de norme égale à 1.
Ce résultat n'est pas vrai pour la convergence étroite : même si les mesures
de probabilité représentent des formes linéaires continues sur l'espace des fonctions
continues bornées, il existe des formes linéaires continues qui ne sont pas représenta-
bles par des mesures.
A partir du théorème de Riesz-Markov-Kakutani et du théorme de Banach-
Alaoglu-Bourbaki, on en déduite le théorème suivant :

70
Proposition 5.6.4. L'espace des mesures positives de masse totale inférieure à 1
est compact pour la convergence vague.
Toute suite de mesures de probailité a donc une valeur d'adhérencepour la con-
vergence vague, mais elle peut avoir une masse totale strictement inférieure à 1. En
eet, l'espace des mesures de probabilité n'ets pas fermé pour la convergence vague
si l'espace sous-jacent n'ets pas compact. Ceci explique le théorème de Prokhorov
: la seule obstruction à la compacité de l'espace des mesures de probabilité sur un
espace localement compact est le phénomène de perte de masse.

71
Chapter 6

Autour du théorème central limite


6.1 Rappels sur le TCL
Si X = (X1 , ..., Xd ) est un vecteur aléatoire de dimension d dont les coordonnées
sont L2 , on notera Cov(X) sa matrice de covariance, dénie par

Cov(X)i,j := E[Xi Xj ] − E[Xi ]E[Xj ].

Cette notion est invariante par translations, et une matrice de covariance est tou-
jours symétrique et positive. Si on applique la transformation ane

X −→ Cov(X)−1/2 (X − E[X])

on obtient un vecteur centré, dont la matrice de covariance est égale à l'identité.

Dénition 6.1.1 (Vecteurs gaussiens). Une variable aléatoire X = (X1 , ..., Xd ) à


valeurs dans Rd est un vecteur gaussien si pour tout y ∈ Rd la variables X · y est
une variable gaussienne réelle.
Proposition 6.1.2. La loi d'un vecteur gaussien est caractérisée par son espérance
et sa matrice de covariance. On notera N (x, A) la loi d'un vecteur gaussien
d'espérance x et de matrice de covariance A.
On peut aussi caractériser les vecteurs gaussiens par leurs fonctions caractéris-
tiques :
1
ϕN (x,A) (z) := exp(ix · z + hAx, xi).
2
Théorème 6.1.3 (Théorème central limite). Soit (Xi )i∈N une suite de v.a. i.i.d.,
centrées et dont les matrices de covariance sont égales à l'identité. Alors
n
1 X loi
√ Xi −→ N (0, Id).
n
i=1

Exercice 6.1.1. Utiliser le théorème de Prokhorov et le TCL unidimensionnel pour


démontrer le TCL multidimensionnel.
Solution 6.1.1. Soit Yn := √1n ni=1 Xi . Comme on a une borne uniforme sur
P

le second moment de la norme des vecteurs aléatoires Yi , la suite de leurs loi est
tendue, et donc on peut en extraire une sous suite qui converge en loi vers une loi
µ sur Rd .

72
Comme pour tout vecteur p xé les variables aléatoires Yn · p vérient les hy-
pothèses du TCL unidimensionnel, on en déduit qu'elles converent en loi vers une
gaussienne unidimensionnelle centrée de variance |p|2 . Par continuité, la mesure
image de µ par l'application x −→ x · p est alors une mesure gaussienne centrée de
variance |p|2 . Par dénition, µ est donc une mesure gaussienne multidimension-
nelle centrée, et sa matrice de covariance est alors Id.

6.2 Théorème de Lindeberg


Le but de cette section est de relâcher l'hypothèse que toutes les variables aléatoires
ont la même loi dans le TCL.

Théorème 6.2.1 (TCL de Lindeberg). Soit (Xin )n∈N,i6n une famille de variable
indépendantes centrées, et σi,n
2 := E[(X n )2 ]. On pose
i

n
X n
X
Sn := Xin ; s2n := 2
σi,n .
i=1 i=1

Si pour tout ε > 0 on a


n
1 X
lim E[(Xin )2 1|Xin |>εsn ] = 0
n→∞ s2
n i=1

alors Sn /sn converge en loi vers une gaussienne centrée réduite.


Nous allons remettre la preuve de ce théorme, et d'abord voir quelques corol-
laires, plus facilement applicables en pratique.

Corollaire 6.2.2 (TCL de Lyapunov). Supposons qu'il existe δ > 0 tel que
n
1 X
lim E[|Xin |2+δ ] = 0.
n s2+δ
n i=1

Alors Sn /sn converge en loi vers une gaussienne centrée réduite.


Proof. En utilisant l'inégalité de Holder avec exposants (2 + δ)/2 et (2 + δ)/δ , on a
E[Xi2 1|Xi |>εsn ] 6 E[Xi2+δ ]2/(2+δ) P(|Xi | > εsn )δ/(2+δ) .

Or, en utilisant l'inégalité de Markov

E[|Xi |2+δ ]
P(|Xi | > εsn ) 6
(εsn )2+δ
et donc
n n
1 X 1 X
E[X 2
1
i |Xi |>εsn ] 6 E[|Xi |2+δ ]ε−δ .
s2n s 2+δ
n
i=1 i=1
On en déduit que l'hypothèse du TCL de Lyapunov est eectivement plus forte que
l'hypothèse du TCL de Lindeberg.

Exercice 6.2.1. Montrer que si inf i σi,n > α > 0 et supi E[|Xin |2+δ ] 6 β < ∞
alors on peut appliquer le TCL de Lyapunov.

73
Solution 6.2.1. On a
X 1+δ/2
s2+δ
n = 2
σi,n > α2+δ n1+δ/2

et n
X
E[|Xin |2+δ ] 6 βn.
i=1
Donc n
1 X β
E[|Xin |2+δ ] 6 −→ 0.
s2+δ
n i=1
nδ/2 α2+δ
Le TCL de Lyapunov est donc applicable.
Exercice 6.2.2. Montrer que la condition de Lindeberg implique que
2
σi,n
lim max −→ 0.
n i6n s2n
Solution 6.2.2. Pour tout ε > 0, on a
2
max σi,n 6 s2n ε2 + max E[(Xin )2 1|Xin |>εsn ]
i6n i6n
n
E[(Xin )2 1|Xin |>εsn ]
X
6 s2n ε2 +
i=1

Et donc, en utilisant la condition de Lindeberg,


2
σi,n
lim sup max 6 ε2 .
n i6n s2n
Comme ε était arbitraire, on en déduit la convergence vers 0.
Corollaire 6.2.3. Dans le cadre du TCL de Lindeberg, si il existe β > 0 tel que pour
tout i, n |Xin | 6 β et sn −→ ∞, alors Sn /sn converge en loi vers une gaussienne
centrée réduite.
Proof. Comme les Xin sont uniformément bornés, pour tout ε > 0, dès que n
susamment grand et pour tout i 6 n on a P(|Xin | > εsn ) = 0. L'hypothèse du
TCL de Lindeberg est donc vériée.

Passons maintnant à la preuve du TCL de Lindeberg. Elle reposera sur les deux
lemmes élémentaires suivants :
Lemme 6.2.4 (Développements de Taylor). Pour tout x ∈ R, on a
|eix − 1| 6 min(2, |x|); |eix − 1 − ix| 6 min(2|x|, x2 /2); (6.1)

|eix − 1 − ix + x2 /2| 6 min(x2 , |x|3 /6). (6.2)


Lemme 6.2.5. Pour toutes collections z1 , ..., zn et w1 , ..., wn de nombres complexes
de modules tous inférieurs à 1, on a
n n
n
Y Y X
zk − wk 6 |zk − wk |.



k=1 k=1 k=1

74
Preuve du TCL de Lindeberg. Le but va être d'appliquer le théorème de Lévy, en
faisant un développement asymptotique de la fonction caractéristique. Sans perdre
de généralité, on supposera
P sn = 1 pour tout n.
On pose Sn := s1n nk=1 Xkn , et on notera ϕU la fonction caractéristique de la
loi de la variable aléatoire U . Par indépendance, on a
n
Y
ϕSn (x) = ϕXkn (x).
k=1

De plus, en utilisant le Lemme 6.2.4, on a

|ϕ(x) − 1 + t2 σk,n
2
/2| 6 t2 E[min((Xkn )2 , |t||Xkn |3 )];

et comme, pour tout ε > 0,

E[min((Xkn )2 , |t||Xkn |3 )] 6 |t|E[|Xkn |3 1|Xkn |6ε ] + E[|Xkn |2 1|Xkn |>ε ]


2
6 |t|εσk,n + E[|Xkn |2 1|Xkn |>ε ].

Donc, en sommant sur k 6 n, comme sn = 1 on obtient


X
lim sup |ϕ(x) − 1 + t2 σk,n
2
/2| 6 |t|ε.
n
k6n

Comme ε était arbitraire, on a


X
lim |ϕ(x) − 1 + t2 σk,n
2
/2| = 0.
n
k6n

De plus, comme maxk6n σk,n −→ 0 quand n tend vers l'inni (cf. Exercice 6.2.2),
pour t xé et n susamment grand les 1 − σk,n 2 t2 sont tous plus petits que 1 en

valeur absole, et donc on peut appliquer le Lemme 6.2.5, et on obtient


n
Y n
Y
2 2
ϕXkn (t) = (1 − σk,n t ) + o(1) = exp(−t2 /2) + o(1),
k=1 k=1

où on a une nouvelle fois utilisé que maxk6n σk,n −→ 0. Ceci conclut la preuve.

6.2.1 Une application en combinatoire


Nous allons maintenant voir une conséquence du TCL de Lindeberg l'étude des
permutations aléatoires : les uctuations du nombre de cycles d'une permutation
aléatoire uniforme sont asymptotiquement gaussiennes.
Notre but va être de démontrer le résultat suivant :

Théorème 6.2.6. Soit πn une permutation aléatoire uniforme de Sn , et Kn :


Sn −→ N la fonction qui, a une permutation de Sn associe le nombre de cycles
dans sa décomposiiton minimale en produit de cycles. Alors
Kn (πn ) − E[Kn (πn )] loi
−→ N (0, 1).
Var(Kn (πn ))1/2

75
Pour se ramener au TCL de Lindeberg, il nous faut représenter Kn (πn ) comme
une somme de variable indépendantes. Pour cela, on va utiliser le couplage de Feller,
qui construit une permutation aléatoire uniforme de Sn à partir d'une famille de
variables X1n , ..., Xnn indépendantes, de lois

1 1
P(Xin = 0) = 1 − ; P(Xin = 1) = .
i i
Pour cela, on procède en n étapes. A la première étape, on part avec l'élément 1,
et on lui choisit une image uniformément au hasard, en choisissant comme image
1 si Xnn = 1 (ce qui clot un cycle). Ensuit, à l'étape i, on clot le cycle courant si
n
Xn−i+1 = 1, et on redémarre un nouveau cycle avec le plus petit élème pour lequel
on n'a pas encore choisit d'image. Sinon, si Xn−i+1 = 0, on chosiit une image au
denrier élément du cycle uniformément parmis les éléments qui ne sont pas encore
dans un cyle, et on démarre l'étape suivante avec ce même cycle inachevé comme
cycle courant.
Cette procédure dénit bien une permutation aléatoire uniforme. Et avec cette
représentation, s πn est la permutation aléatoire qu'on a construit, comme à chaque
étape on ferme un cycle ssi Xn−i+1
n = 1, on a
n
X
Kn (πn ) = Xin .
i=1

Donc Kn se représente bien comme une some de variables indépendantes, mais pas
identiquement distribuées. Donc on ne peut pas appliquer le TCL classique, mais
on peut espérer appliquer le TCL de Lindeberg. Et en fait, ce sera le Corollaire
6.2.3 qu'on va pouvoir appliquer. En eet, pour tout i, n |Xin − E[Xin ]| 6 1, alors
que
n
2
X i−1
sn = ≡ log n −→ ∞.
i2
i=1

Exercice 6.2.3. A partir du couplage de Feller, calculer E[Kn (πn )] et Var(Kn (πn )).
Solution 6.2.3. On a
n n
X X 1
E[Kn (πn )] = E[Xi ] =
i
i=1 i=1

et n n
X X i−1
Var(Kn (πn )) = Var(Xi ) = .
i2
i=1 i=1

6.3 Vitesse de convergence dans le TCL


6.3.1 Lemme de Stein
Le but de cette section est de donner une borne sur la distance W1 (µ, γ) entre une
mesure de probabilité arbitraire sur R et la loi gaussienne centrée réduite, via des
formules d'intégration par partie. Le point de départ est la caractérisation suivante
de la mesure gaussienne :

76
Lemme 6.3.1 (Lemme de Stein). La loi normale centrée réduite N (0, 1) est la
seule loi de probabilité sur R telle que pour toute fonction C 1 , à croissance au plus
polynomiale et dont la dérivée est à croissance au plus polynomiale, on ait
E[Xf (X)] = E[f 0 (X)].
Le fait que la mesure gaussienne vérie cette formule se prouve par IPP, car
Z Z Z
−x2 /2 −x2 /2 0 2
xf (x)e dx = − f (e ) dx = f 0 e−x /2 dx.

On omet la preuve du sens réciproque, qui sera impliquée par la proposition ci-
dessous.
Le résultat principal de cette section est que ce lemme peut être renforcé en une
version quantitative :
Proposition 6.3.2. Soit γ la loi N (0, 1). Pour toute mesure de probailité µ sur
R, on a
W1 (µ, γ) 6 sup Eµ [f 0 (X) − Xf (X)].
||f ||∞ ,||f 0 || ∞ 61,||f 00 || ∞ 64

Il est possible d'améliorer les constantes 1 et 4 dans ce résultat, mais la preuve


serait un peu plus longue et technique que celle qu'on donnera.
La preuve repose sur le lemme de régularisation suivant
Lemme 6.3.3. Soit h une fonction 1-lipschitz. Il existe une solution f de l'équation
diérentielle
f 0 − xf = h − Eγ [h]
telle que |f |∞ 6 1, |f 0 |∞ 6 1 et |f 00 |∞ 6 4.
Proof. Pour cette preuve, on rappelle le Théorème 2.4.9 : toute fonction lipschitz
est dérivable presque partout. On peut alors dénir la fonction h0 comme étant
la dérivée de hR xaux points où elle existe, et 0 partout ailleurs. On a de plus
h(x) = h(y) + y h (t)dt.
0

On peut alors directement vérier que la fonction suivante est une solution de
l'équation diérentielle :
Z 1
1 √ √
f (x) := − √√ Eγ [Xh( tx + 1 − tX)]dt.
0 2 t 1−t

En eet, en dérivant sous l'intégrale (ce qui se justie par le théorème de convergence
dominée), on a

0
Z 1
1 √ √
f (x) = − √ Eγ [Xh0 ( tx + 1 − tX)]dt. (6.3)
0 2 1−t
Mais par intégration par partie gaussienne
√ √ √ √ √
Eγ [Xh( tx + 1 − tX)] = 1 − tEγ [h0 ( tx + 1 − tX)]. (6.4)
Donc
1 √ √
Z   
0 X x 0
f (x) − xf (x) = Eγ − √ + √ h ( tx + 1 − tX) dt
0 2 1−t 2 t
d √ √
Z 1  
= Eγ h( tx + 1 − tX) dt
0 dt
= h(x) − Eγ [h(Z)].

77
Ce n'est pas la seule solution de l'équation diérentielle, mais on peut montrer que
c'est la seule solution bornée, car la diérence de deux solutions est nécessairement
2
de la forme Cex /2 .
A partir de cette formule, on peut explicitement calculer les bornes voulues.
Tout d'abord, comme |h0 | 6 1, en utilisant (6.4), on a
Z 1
1
||f ||∞ 6 √ dt = 1.
0 2 t

Ensuite, en utilisant (6.3), on a


Z 1
1
||f 0 ||∞ 6 √ Eγ [|X|]dt 6 1.
0 2 1−t
Pour borner la dérivée seconde, en dérivant l'équation diérentielle, on a
f 00 − xf 0 = f + h0
Donc on peut voir f 0 comme la solution bornée de l'équation diérentielle en prenant
comme second membre h̃ = f + h0 , qui vérie la borne |h|∞ 6 2. On peut vérier
que les solutions bornées de l'équation diérentielle f 0 − xf = g − Eγ [g] peuvent
aussi s'écrire sous la forme
Z x
x2 /2 2
f (x) = e (g(y) − Eγ [g])e−y /2 dy.
−∞

En eet, c'est bien une solution, et elle n'explose pas exponentiellement à l'inni,
donc c'est la même solution que celle dénie par la formule de représentation
stochastique ci-dessus, puisque deux solutions dièrent nécessairement par un terme
2
de la forme Cex /2 . Alors on a
Z x
0 x2 /2 2
f (x) = g(x) − Eγ [g] + xe (g(y) − Eγ [g])e−y /2 dy,
−∞

et donc
√ x
  Z 
2 2 /2
|f 0 (x)| 6 ||g − Eγ (g)||∞ 1 + xex /2 2π − e−y dy .
−∞

On a ensuite l'inégalité classique sur la fonction de répartition gaussienne suivante


(inégalité de Mills)
2
e−x /2
Z +∞
−y 2 /2
e dy 6
x x
qui permet de conclure. Pour démontrer cette dernière, on a
0
− exp(−x2 /2)/x = exp(−x2 /2) + exp(−x2 /2)/x2 > exp(−x2 /2)
et on conclut en intégrant.

Preuve de la Proposition 6.3.2. Par dénition de la distance W1 , on a


W1 (µ, γ) = sup Eµ [h] − Eγ [h]
h1−lip

Pour toute fonction h 1-lipschitz, on substitue ensuite à h−Eγ [h] la fonction f 0 −xf
avec f la solution de l'équation diérentielle donée par le lemme de régularisation.
Comme cette solution vérie les bornes |f |, |f 0 | 6 1, et |f 00 | 6 4, le résultat suit
immédiatement.

78
6.3.2 Méthode des paires échangeables et application au TCL
Dans cette section, on va voir comment utiliser le lemme de Stein pour donner une
borne sur la vitesse de convergence dans le TCL.

Théorème 6.3.4. Soit (W, W 0 ) une paire de variables aléatoires aléatoires réelles,
de même loi, centrées et de variance égale à 1. Supposons de plus que il existe
λ ∈ (0, 1) tel que
E[W 0 − W |W ] = −λW.
Alors si Z est une gaussienne centrée réduite,
s   
1 2
W1 (W, Z) 6 Var E 0 2
(W − W ) |W + E[|W 0 − W |3 ]
2λ 3λ

Proof. Le but va être d'appliquer la Proposition 6.3.2. Soit f une fonction avec
|f |, |f 0 | 6 1, |f 00 | 6 4. Posons
Z x
F (x) := f (y)dy.
0

On a alors, via un développement de Taylor

0 = E[F (W 0 ) − F (W )]
 
0 1 0 2 0
= E (W − W )f (W ) + (W − W ) f (W ) + R
2
1
= −λE[W f (W )] + E[(W 0 − W )2 f 0 (W )] + E[R]
2
avec
1 2
|R| 6 |f 00 |∞ |W 0 − W |3 6 |W 0 − W |3 .
6 3
On en déduit que

E[f 0 (W ) − W f (W )] 6 1 E[((W 0 − W )2 − 1)f 0 (W )] + 2 E[|W 0 − W |3 ]



s2λ 3λ
  
1 2
6 Var E (W 0 − W )2 |W + E[|W 0 − W |3 ]
2λ 3λ

où on a utilisé E[(W 0 − W )2 ] = 2 − 2E[W 0 W ] = 2λ. La Proposition 6.3.2 permet


de conclure.

A partir de ce résultat, on va pouvoir prouver le théorème suivant, qui est une


variante du théorème de Berry-Essen sur la vitesse de convergence dans le TCL :

Théorème 6.3.5. SoitP(Xn )n∈N une suite de variable aléatoire i.i.d. centrées ré-
duites, et Sn := n−1/2 ni=1 Xi . Alors
16 1 p
W1 (Sn , Z) 6 √ E[|X1 |3 ] + √ E[|X1 |4 ].
3 n 2 n

où Z est une variable gaussienne centrée réduite.

79
Il est possible de prouver une version plus forte de ce théorème, où il faut
seulement une borne sur le moment d'ordre 3. Si le moment d'ordre 3 est inni, la

vitesse de convergence est en général plus lente qu'en 1/ n.

Proof. Le but va être d'appliquer le Théorème 6.3.4, il nous faut donc construire une
paire pour Sn qui vérie les hypothèses du théorème. Nous allons la construire en
choisissant uniformément au hasard l'un des éléments de la somme, et le remplacer
par une copie indépendante.
Soit X 0 une copie indépendante des Xi , et I un élément de {1, ..., n} choisi
uniformément au hasard, indépendamment des Xi et de X 0 . On pose

X0 XI
Sn0 := Sn + √ − √ .
n n

Par symétrie, (Sn , Sn0 ) est une paire échangeable, et de plus


 0 
0 X XI 1
E[Sn − Sn |Sn ] = E √ − √ | Sn = − Sn .
n n n

Donc les hypothèses du Théorème 6.3.4 sont vériées avec λ = 1/n. De plus

E[|Sn − Sn0 |3 ] = n−3/2 E[|X1 − X10 |3 ] 6 8E[|X1 |3 ]

et
E[X14 ]
   X 
1 X 2 1
Var(E[n(Sn0 2
− Sn ) |Sn ]) = Var E[ Xi |Sn ] 6 Var 2
Xi 6 .
n n n
La conclusion suit immédiatement.
Dans cette dernière étape, on a utilisé le fait que pour toute variable aléatoire
rélle Y et sous-tribu F , on a

Var(Y ) = inf E[(Y − c)2 ] > inf E[(E[Y − F] − c)2 ] = Var(E[Y |F]).
c c

Exercice 6.3.1. Quelles bornes obtient-t-on pour la convergnce d'une somme de


variables de Bernoulli de paramètre p?

6.4 TCL martingale


Dans cette section, nous allons voir un TCL dans le cas où les variables sont des
incréments de martingales (et en particulir, peuvent ne pas être indépendantes).

6.4.1 Théorème principal


Théorème 6.4.1 (TCL Martingale). Soit (kn )n∈N une suite croissante d'entiers
naturels, (Fjn )j6kn ,n∈N une famille de sous-tribus de F , telles que pour tout n xé
la suite (Fjn )j6kn soit une ltration par rapport à la variable j . Pour tout n, on
se donne une martingale (Mjn )j6kn par rapport à la ltration (Fjn ) (toujours par
rapport à la variable j ), et avec M0n = 0 pour tout n. On suppose que
1. E[maxj6kn −1 |Mj+1
n − M n |] −→ 0;
j n→∞

80
2. converge en probabilité vers la constante 1.
Pkn n n )2
j=1 (Mj − Mj−1
Alors Mknn converge en loi vers une gaussienne centrée réduite.
La preuve utilisera le lemme suivant :
Lemme 6.4.2. Soit (Un ) et (Vn ) deux suites de variables aléatoires. Supposons que
1. (Un )n∈N converge en probabilité vers une constante a;
2. Les suites (Vn )n∈N et (Un Vn )n∈N sont uniformément intégrables;
3. E[Vn ] −→ 1.
Alors E[Un Vn ] −→ a.
Proof. On a E[Un Vn ] = aE[Vn ] + E[Vn (Un − a)], donc il sut de montrer que
E[Vn (Un − a)] tend vers 0. Comme (Vn (Un − a))n∈N est uniformément intégrable,
car somme de variables uniformément intégrables, il sut de montrer la convergence
en probabilité vers 0.
Or pour tout K > 0, on a

P(|Vn (Un − a)| > ε) 6 P(|Un − a| > ε/K) + P(|Vn | > K).

Comme (Vn )n∈N est uniformément intégrable, on peut choisir K pour rendre le sec-
ond terme arbitrairment petit. Et comme (Un )n∈N converge converge en probabilité
vers a, le premier terme tend vers 0, et donc on a bien

lim sup P(|Vn (Un − a)| > ε) = 0 ∀ε > 0,


n

ce qui conclut la preuve.

Preuve du Théorème 6.4.1. Nous allons faire la preuve sous l'hypothèse supplémen-
taire
kn
X
∀n, (Mjn − Mj−1
n
)2 6 2. (6.5)
j=1

Le cas général se traite à partir de celui là, avec une procédure de cuto supplé-
mentaire, qu'on omet ici. Le but va être de montrer la convergence de la fonction
caractéristique de Mknn vers exp(−t2 /2), et d'appliquer le théorème de Lévy. Tout
d'abord, via un développement de Taylor, on peut écrire

exp(ix) = (1 + ix) exp(−x2 /2 + r(x)); |r(x)| < |x|3 .

Alors, en posant Zjn = Mjn − Mj−1


n , on a

   
Y kn
X kn
X
E[exp(itMknn )] =  (1 + itZjn ) exp −t2 (Zjn )2 + r(tZjn ) .
j6kn j=1 j=1

On souhaite appliquer le Lemme 6.4.2 avec


 
Y kn
X kn
X
Vn := (1 + itZjn ); Un := exp −t2 (Zjn )2 + r(tZjn ) .
j6kn j=1 j=1

Pour cela, montrons que les hypothèses du Lemme 6.4.2 sont vériées.

81
1. Par hypothèse, kj=1 (Zjn )2 converge en probabilité vers 1, donc il sut de
P n
Pkn
montrer que j=1 r(tZjn ) converge en probabilité vers 0. On a

kn kn
X X
n 3
|Zjn |3


r(tZj ) 6 |t|
j=1 j=1
kn
X
6 |t|3 max |Zjn | |Zjn |2
j6kn
j=1
3 n
6 2|t| max |Zj |.
j6kn

Cette variable converge vers 0 dans L1 , et donc en probabilité. On en déduit


que Un converge en probabilité vers exp(−t2 /2).

2. Comme la suite (Un Vn )n∈N est bornée (en module) par 1, elle est unifor-
mément intégrable. Pour l'uniforme intégrabilité de Vn , grâce à l'inégalité
|1 + ix|2 6 exp(x2 ), on a
 
kn
1 X
|Vn | 6 exp  t2 (Zjn )2  6 exp(t2 ),
2
j=1

ce qui nous sut.

3. Enn, par la propriété de martingale,


    
Y Y
E[Vn ] = E  (1 + itZjn ) = E E  (1 + itZjn ) | Fkn −1 
j6kn j6kn
   
Y Y
= E (1 + itZjn )E[(1 + itZknn ) | Fkn −1 ] = E  (1 + itZjn ) .
j6kn −1 j6kn −1

Par récurrence, on obtient bien E[Vn ] = 1.

L'application du lemme et du théorème de Lévy permet donc de déduire le résultat


sous l'hypothèse supplémentaire (6.5).

6.4.2 Application aux chaînes de Markov


Théorème 6.4.3. Soit (Xn )n∈N une chaîne de Markov irréductible sur un espace
ni X , de mesure invariante π. Soit f : X −→ R une fonction (qui n'est pas
identiquement égale à 0) vériant Eπ [f ] = 0. Alors sous Pπ on a
n
1 X loi
√ f (Xi ) −→ N (0, σ 2 )
n
i=1

avec une variance σ2 > 0 qui ne dépend que de f .


La preuve va utiliser le lemme suivant :

82
Lemme 6.4.4. Soit Q la matrice de transition d'une chaîne de Markov irréductible
sur un espace ni X , et π sa mesure de probabilité invariante. Soit f : X −→ R
telle que Eπ [f ] = 0. Alors il existe une fonction h : X −→ R telle que f = h − Qh.
Proof. Tout d'abord, on a
R|X | = Ker(I − Q∗ ) ⊕ Im(I − Q).

L'espace Ker(I − Q∗ ) est l'espace des mesures (signées) invariantes. On sait que
comme la chaîne de Markov est irréductible sur un espace ni, les mesures invari-
antes forment un espace de dimension 1, et donc dim(Ker(Id − Q∗ )) = 1. Comme
Eπ [f ] = 0, f est orthogonale à cet espace, et donc f ∈ Im(I − Q).

Preuve du Théorème 6.4.3. Le but va être d'appliquer


P le TCL pour les martingales,
n
via la décompositon de Doob-Meyer de Sn := i=1 f (Xi ), qui va pouvoir être
rendue plus explicite via la fonction h telle que f = h − Qh, donnée par le Lemme
6.4.4, et où Q est la matrice de transition de la chaîne de Markov.
On a
n n
S 1 X Qu(X0 ) − Qu(Xn ) 1 X
√n = √ u(Xi ) − Qu(Xi ) = √ +√ u(Xi ) − Qu(Xi−1 ).
n n n n
i=1 i=1

Or comme l'espace est ni, u est bornée, et donc Qu(X0 )−Qu(X



n
n)
converge p.s. vers
√ √
0, donc la limite en loi de S/ n est la même que celle de Mn / n, où
n
X
Mn = u(Xi ) − Qu(Xi−1 ).
i=1

Or Mn est une martingale, et on va pouvoir appliquer le TCL martingale. A cause de



la normalisation en n, comme u est bornée, le maximum des P incréments converge
vers 0, et donc il nous sut de calculer la limite de n −1 (u(Xi ) − Qu(Xi−1 )2 .
On va chercher à appliuer le théorème ergodique pour les chaînes de Markov. Tout
d'abord, Yi = (Xi , Xi+1 ) est une chaîne de Markov sur (un sous-ensemble de) E ×E ,
dont la matrice de transiton est

Q̃((a, b), (c, d)) = 1b=c Q(b, d).

On vérie que π̃((a, b)) = π(a)Q(a, b) est une mesure de probabilité invariante. On
applique le théorème ergodique avec la fonction f (a, b) = (u(b) − Qu(a))2 à cette
chaîne de Markov pour obtenir
1X p.s.
(u(Xi ) − Qu(Xi−1 )2 −→ Eπ [(u(X1 ) − Qu(X0 ))2 .
n
On a, via un conditionnement,

Eπ [(u(X1 ) − Qu(X0 ))2 ] = Eπ [u2 − (Qu)2 ] > 0.

On a donc convergence en loi vers une gaussienne centrée de variance σ 2 = Eπ [u2 −


(Qu)2 ].

83
Exercice 6.4.1. On considère la chaîne de Markov sur {0, 1} dont la matrice de
transition est donnée par  
1−α α
Q=
β 1−β
avec α, β ∈]0, 1[. étudier le comportement asymptotique des uctuations de la pro-
portion de temps passé en 0.
Solution 6.4.1. La chaîne de Markov est irréductible sur un espace ni, donc
récurrente. Un calcul montre que la mesure de probabilité invariante est donnée par
(β/(α + β), α/(α + β)).
Si f (x) = 1x=0 , alors Eπ [f ] = β/(α+β). La résolution de l'équation f −Eπ [f ] =
u − Qu donne u = P (0, −(α + β)−1 ). La variance limite dans le TCL pour les
uctuations de n−1/2 f (Xi ) est donnée par
α βα2 + α(1 − β)2 αβ(α − β + 2)
Eπ [u2 − (Qu)2 ] = − = .
(α + β)3 (α + β)3 (α + β)3

84
Chapter 7

Introduction aux inégalités de


concentration et aux grandes
déviations
7.1 Premiers exemples
On s'intéresse à la probabilité observer une déviation signicative dans la loi des
grandes nombres pour une somme de variables iid. Le TCL régit déjà la probabilité
de voir des déviations d'ordre n1/2 . Ici, on s'intéressera à la probabilité de voir des
déviations d'ordre n, i.e. à des évènements de la forme
 X 
1
P Xi > E[X1 ] + r ; r > 0.
n
Commençons par regarder le cas le plus simple, celuiP de variables gaussiennes. Si
les Xi sont des gaussiennes centrées réduites iid, alors n1
Xi suit une loi N (0, n−1 ),
et donc
 Z ∞√
n exp(−nt2 /2
 X
1
P Xi > E[X1 ] + r = √ dt
n r 2π
Z ∞
exp(−t2 /2)
= √ √ dt
nr 2π
1
≈ √ √ exp(−nr2 /2).
nr 2π
En particulier
r2
 X 
1 1
log P Xi > r −→ −
n n 2
pour tout r > 0. On peut montrer que cette asymptotique est encore vraie pour les
déviations par en dessous par symétrie, i.e.

r2
 X 
1 1
log P Xi 6 −r −→ −
n n 2
L'échelle logarithmique s'avère être la bonne échelle pour étudier l'asymptotique
de cette probabilité pour des variables générales. Toutefois, contrairement au TCL,
la limite n'est pas universelle, mais dépend des détails de la loi des Xi .

85
Commençons par regarder un deuxième exemple, celui des variables de Bernoulli
symétriques. On a  
1 X n
P(Sn > xn) = n .
2 k
k>xn

Pour x > 1, on a trivialement


1
lim log P(Sn > xn) = −∞.
n
Prenons maintenant x ∈ [1/2, 1]. Comme les coecients binomiaux sont décrois-
sants pour k > n/2, pour ` = bxnc on a
   
1 n n+1 n
6 P(Sn > xn) 6 .
2n ` 2n `

Or, par la formule de Stirling,


 
1 n 1
lim log = lim (log n! − log `! − log(n − `)!)
n n ` n n
` ` n−` n−`
= lim log n − 1 − log ` + − log(n − `) +
 n n  n  n
n
` ` n−` n−`
= lim − log − log
n n n n n
= −x log x − (1 − x) log(1 − x).

On en déduit que
1
lim log P(Sn > xn) = −x log x − (1 − x) log(1 − x) − log 2.
n n
Par symétrie, on a pour x ∈ (0, 1/2)

1
lim log P(Sn 6 xn) = −x log x − (1 − x) log(1 − x) − log 2.
n n
On voit donc que cette limite est diérente pour les variables gaussiennes et
pour les variables de Bernoulli. La question est donc de comprendre comment
calculer cette limite pour des variables plus générales. Mais pour commencer, on
va regarder de soutils pour donner de sbornes exponentiellement petites sur des
probabilités d'évènements dans diérentes situations.

7.2 Inégalité de Cherno et conséquences


7.2.1 Inégalité de Cherno
Proposition 7.2.1 (Inégalité de Cherno).

P[f (X) > r] 6 inf e−λr E[eλf (X) ].


λ>0

Exercice 7.2.1. Utiliser l'inégalité de Markov pour démontrer cette inégalité.

86
Regardons déjà ce que donne cette inégalité pour une variable gaussienne. Soit
X de loi N (0, σ 2 ). Alors
E[exp(λX)] = exp(λ2 σ 2 /2).
Appliquer l'inégalité de Cherno nous donne alors
 2 2 
λ σ
P[X > r] 6 inf exp − λr = exp(−r2 /(2σ 2 )).
λ 2
Si on reprend le calcul de la section précédente, on ale développement asymp-
totique
1
P(X > r) ≡ √ exp(−r2 /(2σ 2 )).
rσ 2π
La borne donnée par l'ingalité de Cherno est donc déjà très précise, pusiqu'elle
ne peut pas être améliorée en exp(−(1 + ε)r2 /(2σ 2 )).

7.2.2 Inégalité de Hoeding


Théorème 7.2.2 (Inégalité P de Hoeding). Soit (Xi ) une suite de v.a. i.i.d. centrée
telles que |Xi | 6 A et Sn = ni=1 Xi . Alors
r2
 
P (Sn > r) 6 exp − .
2nA2
Si on regarde des écarts dans la loi des grands nombres, c'est à dire P(Sn /n > r),
ca nous donne une borne en exp(−cnr2 ). En particulier, les uctations observables

sont au plus d'ordre 1/ n, en accord avec le TCL.
Lemme 7.2.3. Soit X une variable aléatoire à valeurs dans [0, 1] et d'espérance
p ∈ [0, 1]. Soit $ : [0, 1] −→ R une fonction convexe. Alors
E[ϕ(X)] 6 pϕ(1) + (1 − p)ϕ(0) = E[ϕ(U )]
où U est une variable de Bernoulli de paramètre p
Ce lemme nous dit que parmi les variables aléatoires de moyenne donnée et à
support compact, celle dont les uctuations (par exemple la variance) sont les plus
grandes est celle qui prend uiquement les valeurs les plus éloignées possibles.

Proof. Par convexité, on a ϕ(X) 6 Xϕ(1) + (1 − X)ϕ(0). On obtient le résultat en


prenant l'espérance de cette inégalit.

Exercice 7.2.2. Utiliser ce lemme pour montrer que si X est une variable de
moyenne nulle et à valeurs dans [−A, B], alors pour toute fonction convexe ϕ, on
a
B A
E[ϕ(X)] 6 ϕ(−A) + ϕ(B).
A+B A+B
Preuve de l'inégalité de Hoeding. Tout d'abord, en appliquant le lemme 7.2.3, on
a
E[exp(λX1 )] 6 cosh(λA) 6 exp(λ2 A2 /2).
Par indépendance, on a alors
E[exp(λSn )] = E[exp(λX1 )]2 6 exp(nλ2 A2 /2).
On utilise ensuite l'inégalité de Cherno pour conclure.

87
On peut généraliser cette inégalité de la manière suivante :
Théorème 7.2.4 (Inégalité de Azuma-Hoeding). Soit Mn une martingale issue
de 0. On suppose que pour tout k on a |Mk+1 − Mk | 6 σk . Alors
r2
 
P (Mn > r) 6 exp − Pn .
2 k=1 σk2
Cette inégalité généralise celle de Hoeding, car une somme de variables aléa-
toires centrées est une martingale.

Proof. On a toujours
E[exp(λ(Mk+1 − Mn ))] 6 exp(λ2 σk2 /2)
car les incréments sont bornés. On a aussi
E[exp(λMn )] = E [E [exp(λMn−1 + λ(Mn − Mn−1 )) | Fn ]]
= E [exp(λMn−1 )E [exp(λ(Mn − Mn−1 )) | Fn ]] .
On souhaite majorer E [exp(λ(Mn − Mn−1 )) | Fn ]. Comme
   
Mn − Mn−1 1 Mn − Mn−1 1
Mn − Mn−1 = + σk + 1 − − (−σk ),
2σk 2 2σk 2
on a par convexité
   
Mn − Mn−1 1 Mn − Mn−1 1
exp(λ(Mn −Mn−1 )) 6 + exp(λσk )+ 1 − − exp(−λσk ).
2σk 2 2σk 2
En prenant l'espérance conditonnelle, on obtient
E [exp(λ(Mn − Mn−1 )) | Fn ] 6 cosh(λσk ) 6 exp(λ2 σk2 /2).
On en déduit par récurrence que
Pn
λ2 σk2
 
1
E[exp(λMn )] 6 exp
2
et on conclut en appliquant l'inégalité de Cherno.

Exercice 7.2.3. On reprend l'exercice 6.4.1. Borner de manière non-asymptotique


la probabilité que la chaîne de Markov (avec condition initiale de loi π) passe au
moins n α+β
β+ε
fois par 0 parmis les n premiers pas.
Solution 7.2.1.

7.3 Concentration gaussienne


7.3.1 Inégalité de concentration gaussienne
Théorème 7.3.1. Soit f : Rd −→ R une fonction 1-lipschitz et X un vecteur
gaussien centré réduit dans Rd (i.e. dont la matrice de covariance est l'identité).
Alors
E[exp(λf (X))] 6 exp(λE[f (X)] + λ2 /2). (7.1)
En conséquence,
P(f (X) > E[f (X)] + r) 6 exp(−r2 /2).

88
La borne (7.1), est optimale, pusiqu'on a égalité pour f (x) = x1 . Le fait
que la constante soit indépendante de la dimension est à l'origine de nombreuses
applications en statistique, mais aussi en physique mathématique, en géométrie et
en sciences des données.

Proof. On va seulement prouver une version non-optimale, à savoir


E[exp(λf (X))] 6 exp(λE[f (X)] + λ2 π 2 /8),

et on suppose pour simplier que f est C 1 . Soit X et Y deux variables indépen-


dantes de loi N (0, Id ). Sans perdre de généralité, on peut supposer E[f (X)] = 0.
Les variables

Xt = cos(tπ/2)X + sin(tπ/2)Y ; Yt = − sin(tπ/2)X + cos(tπ/2)Y

suivent aussi une loi N (0, Id ) et sont indépendantes. On a


Z 1 Z 1
d π
f (Y ) − f (X) = f (Xt )dt = Yt · ∇f (Xt )dt.
0 dt 2 0

D'où
π 1
  Z 
E [exp(λf (Y ) − λf (X))] = E exp λ Yt · ∇f (Xt )dt
2 0
Z 1 h  π i
6 E exp λ Yt · ∇f (Xt ) dt
0 2

Comme Xt et Yt sont indépendantes, conditionnellement à Xt la variable Yt ·∇f (Xt )


suit une loi gaussienne de variance |∇f (Xt )|2 6 1. Donc
Z 1 h  π  2 2
i λ π
E exp λ Yt · ∇f (Xt ) dt 6 exp .
0 2 8

Donc E [exp(λf (Y ) − λf (X))]. Par indépendance, ca nous donne


 2 2
λ π
E [exp(λf (Y ))] 6 exp E[exp(−λf (X))]−1 .
8

On conclut en utilisant que E[f (X)] = 0 et l'inégalité de Jensen pour avoir


E[exp(−λf (X))] > 1.

Exercice 7.3.1. Soit f une fonction 1-lipschitz, et (Xi ) une suite de gaussiennes
centrées réduites indépendantes. Montrer que
n
" #
1X
P f (Xi ) > E[f (X1 )] + r 6 exp(−nr2 /2).
n
1

Comparer avec le TCL.

89
7.3.2 Maximum de gaussiennes indépendantes
On considère des gaussiennes centrées réduites réelles indépendantes, qu'on notera
Xi .
La fonction (x1 , ..., xn ) −→ max xi est 1-lipschitz pour tout n. On a donc

P(max(X1 ..., Xn ) > E[max(Xi )] + r) 6 exp(−r2 /2)

pour tout n. Or E[max(X1 , ..., Xn )] −→ +∞. Le maximum d'un grand nombre de


gaussiennes indépendantes va donc être fortement concentré autour de sa moyenne,
c'est à dire

P(| max(X1 , ..., Xn ) − E[max(X1 , ..., Xn )]| > εE[max(X1 , ..., Xn )]) −→ 0

pour tout ε > 0.


Pour estimer E[max(X1 , ..., Xn )], on peut encore utiliser des controles sur les
moments exponentiels. Soit λ > 0. On a

E[max(X1 , ..., Xn )] 6 λ−1 log E[exp(λ max(X1 , ..., Xn ))]


n
!
X
−1
6 λ log E[exp(λXi )]
1
2 log n + λ2
6 .


La valeur optimale est atteinte pour λ = 2 log n, ce qui donne
p
E[max(X1 , ..., Xn )] 6 2 log n.

Cette borne est en fait asymptotiquement optimale (i.e. lorsque n tend vers l'inni).
A noter que cette borne n'est pas spécique au cas gaussien, elle est vraie pour
toute famille de variables (y compris non-indépendantes) telle que E[exp(λX)] 6
exp(λ2 /2). On appelle de telles variables des variables sous-gaussiennes. Par contre,
la borne sur le maximum n'ets plus optimale en générale (par exemple, elle est très
sous-optimale pour des variables bornées).

7.3.3 Lemme de Johnson-Lindenstrauss et compression


Le probleme de la compression est de trouver une manière ecace de plonger N
points dans un espace de grande dimension (qu'on peut toujours prendre égale à
N ) dans un espace de dimension plus petite, sans trop déformer les distances entre
les points. Le résultat principal que nous allons démontrer ici est

Théorème 7.3.2 (Lemme d'applatissement de Johnson-Lindenstrauss). Soit N ∈


N, ε ∈ (0, 1) et T un ensemble de N points de RN . Alors pour tout n > 6 log(2N
2)

ε2
il existe une application linéaire A : RN −→ Rn telle que
∀x, y ∈ T, (1 − ε)||x − y||2 6 ||Ax − Ay||2 6 (1 + ε)||x − y||2 . (7.2)

Proof. La méthode de preuve qu'on va utiliser, parfois connue sous le nom de méth-
ode probailiste (terminologie utilisée en théorie des graphes), sera de choisir A au

90
hasard suivant une loi donnée, et montrer qu'on a une probabilité positive de vérier
(7.2).
Soit n ∈ N qu'on choisira plus tard. Soit B une matrice n×N avc Bi,j = √1n gi,j ,
où les gi,j sont des gaussiennes i.i.d. centrées réduites. Alors pour tout u ∈ RN
tel que ||u|| = 1, Bu est un vecteur gaussien de Rn centré, dont la matrice de
covariance est l'identité. Comme la norme euclidienne est 1-lipschitzienne, on a

P(|||Bu||2 −E[||Bu||]| > r) = P(||Bu||2 −E[||Bu||] > r)+P(||Bu||2 −E[||Bu||] 6 −r) 6 2 exp(−r2 /2).

Soit m = E[||X||] l'espérance de la norme d'un vecteur gaussien standard en di-


mension n et A = m1
B . On a pour ||u|| = 1 et en prenant r = εm

P (|||Au|| − 1| > ε) 6 2 exp(−ε2 m2 /2).

En particulier, pour tout x, y ∈ T , on a


 
||A(x − y)||
− 1 > ε 6 2 exp(−ε2 m2 /2).

P
||x − y||
On en déduit que
 
||A(x − y)||
P ∃x, y ∈ T t.q. − 1 > ε 6 2N 2 exp(−ε2 m2 /2).


||x − y||
Il sut donc de prendre n tel que

2 log(2N 2 )
m2 >
ε2
pour qu'un A vériant (7.2) existe.
Comme on a pour X vecteur gaussien standard

n = E[||X||2 ] 6 E[||X||]2/3 E[||X||4 ]1/3 et E[||X||4 ] 6 3n2 ,


6 log(2N 2 )
on a m2 > n/3, donc il sut de prendre n > ε2
pour que ça marche.

7.4 Théorème de Cramer sur R


Le but de cette section va être de généraliser les deux exemples de la Section 7.1 à
des variables générales.
Dénition 7.4.1. La transformée de Legendre d'une fonction ϕ : R −→ R est
ϕ∗ (y) := sup xy − ϕ(x).
x

Exercice 7.4.1. 1. Montrer que la transformée de Legendre de x → x2 /2 est


encore x → x2 /2.
2. Montrer que la transformée de Legendre de la fonction t −→ log E[exp(tX)],
avec X une variable de Bernoulli de paramètre p, est x log(x/p) + (1 −
x) log((1 − x)/(1 − p)) si x ∈ (0, 1), et +∞ sinon.
Solution 7.4.1. 1. On peut vérier que, pour y xé, supx xy − x2 /2 est atteint
en x = y, et donc cette valeur est bien y2 /2.

91
2. Si X est une variable de Bernoulli de paramètre p, on a ϕ(t) :=
log E[exp(tX)] = log(pet + (1 − p)). Si pour x xé on pose f (t) =
tx − log(pet + (1 − p)), on a f 0 (t) = x − pet /(pet + 1 − p), et donc,
pour x ∈ (0, 1),
 
0 t (1 − p)x
f (t) = 0 ↔ pe (x − 1) + (1 − p)x = 0 ↔ t = log .
p(1 − x)

On en déduit que
   
t (1 − p)x (1 − p)x
sup tx − log(pe + (1 − p)) = x log − log +1−p
t p(1 − x) 1−x
   
x 1−x
= x log + (1 − x) log .
p 1−p

Au vu de ces calculs, les deux exemples de la Section 7.1 sont des cas particuliers
du résultat suivant :

Théorème 7.4.2 (Théorème de Cramèr sur R). Soit (Xn )n∈N une suite de variables
aléatoires i.i.d. On suppose que la fonction génératrice
ϕX (t) := log E etX
 

est nie sur un intervalle ouvert contenant 0. Alors pour tout x > E[X], on a
" n #
1 X
lim log P Xi > nx = −ϕ∗X (x)
n
i=1

où ϕ∗X est la transformée de Legendre de ϕX .


Pour pouvoir prouver ce théorème, on aura besoin des propriétés suivantes de
la transformée de Legendre :

Exercice 7.4.2. 1. Montrer que une transformée de Legendre est toujours une
fonction convexe.
2. Montrer que si ϕ est C 2 , strictement convexe minorée sur son domaine, t a
pou limites +∞ aux bords de son domaine, alors ϕ∗∗ = ϕ.
Solution 7.4.2. 1. C'est un sup de fonctions anes, donc convexe.
2. Dans ce cas, pour tout y ∈ R, la fonction x −→ xy − ϕ(x) est strictement
concave et majorée. Supposons qu'elle atteint son supremum en un point x.
Alors en dérivant, on a y = f 0 (x), et comme f 0 est inversible, x = (f 0 )−1 (y).
Donc
f ∗ (y) = y(f 0 )−1 (y) − f ((f 0 )−1 (y)).
En particulier, en dérivant on voit que (f ∗ )0 = (f 0 )−1 . Ceci implique que
la transformée de Legendre est une involution sur les fonctions strictement
convexes C 2 .
Ces résultats restent vrais si on suppose juste ϕ convexe, et rien de plus.

92
Théorème 7.4.3 (Théorème de Cramèr sur R). Soit (Xn )n∈N une suite de variables
aléatoires i.i.d. Soit
ϕX (t) := log E etX ,
 

qu'on suppose nie dans un voisinage de 0. Alors pour tout x > E[X], on a
" n #
1 X
lim log P Xi > nx = −ϕ∗X (x)
n
i=1

où ϕ∗X est la transformée de Legendre de ϕX .


Par symétrie, pour x < E[X], on a
" n #
1 X
lim log P Xi 6 nx = −ϕ∗X (x)
n
i=1

Sans perdre de généralité, on supposera E[X] = 0. La preuve reposera sur les


trois faits suivants :

1. Si on pose s(x) = supm 1


m log P(X̄m > x), on a ϕX = (−s)∗ sur R+ .
2. On a limn 1
n log P(X̄n > x) = s(x);
3. s est une fonction concave.

Une fois ces trois résultats démontrées, on en déduit que s = −ϕ∗ en appliquant
la transformée de Legendre à la 1ere assertion, modulo une subtilité sur le fait que
la première identité est sur R+ et pas R.
La preuve de la première partie utilisera l'inégalité de Cherno (Proposition
7.2.1).
Exercice 7.4.3. Utiliser l'inégalité de Cherno pour montrer que ϕX > (−s)∗ sur
R+ .
Solution 7.4.3. Soit t > 0. En prenant le log de l'inégalité de Cherno
1
ϕX (t) = log E[exp(ntX̄n )]
n
1 
> log exp(ntλ)P(X̄n > λ)
n
1
= tλ + log P(X̄n > λ).
n
En optimsant sur λ, on obtient bien ϕX (t) > (−s)∗ (t) pour t > 0.
Prouvons maintenant l'inégalité inverse. L'identité ϕX (0) = (−s)∗ (0) = 0 est
triviale, on considèrera seulement les t > 0. Soit K > 0 xé. On a
 1
log E exp(tX1 )1|X1 |6K = log E exp(tnX̄n )1|X1 |6K · · · 1|Xn |6K
  
n
1 h i
6 log E exp(tnX̄n )1|X̄n |6K
n " ! #
Z X̄n
1
= log E exp(−nK) + nt exp(ntu)du 1|X̄n |6K
n −K
 Z +∞ 
1
= log exp(−nK) + E[1−K6u6X̄n 1|X̄n |6K ]nt exp(ntu)du
n −∞

93
où on a utilisé le théorème de Fubini à la dernière étape. Comme de plus

E[1−K6u6X̄n 1|X̄n |6K ] 6 E[16u6X̄n 1|u|6K ] = P[X̄n 6 u]1|u|6K 6 exp(ns(u))1|u|6K

d'après l'inégalité de Cherno, on a alors


 Z K 
 1
log E exp(tX1 )1|X1 |6K 6 log e −nK

+ ntu exp(ntu + ns(u))du
n −K
 
1 −nK
6 log e + 2Knt exp(n sup tu + s(u))
n u
log(1 + 2Kn)
6 + sup tu + s(u).
n u

On conclut en faisant tendre n vers l'inni, puis K vers l'inni. Ceci conclut la
preuve de la première asserstion.
Pour la deuxième assertion, on procède avec un argument de sous-additivité. Il
nous sura de montrer que
1 1
lim inf log P(X̄n > x) > sup log P(X̄m > x).
n n m m
Fixons un entier m, et on décompose n = qn m + rn avec 0 6 rm < m. Si pour tout
i = 1, ...qn on a
im
1 X
Xj > x
m
j=(i−1)m+1

et Xj > x pour j = qn m+, ..., qn m + rn , alors X̄n > x. Donc

P(X̄n > x) > P(X̄m > x)qn P(X> x)rn .

En prenant le log et en divisant par n, comme qn /n −→ 1/m, on a


1 1
lim inf log P(X̄n > x) > P(X̄m > x).
n m
Comme m est arbitraire, la deuxième assertion suit.
Pour la troisème assertion, avec les mêmes arguments qu'avant, on a
x+y
P(X̄2n > ) > P(X̄n > x)P(X̄n > y)
2
et donc
s((x + y)/2) > (s(x) + s(y))/2.
En itérant cet argument, on a alors s(αx + (1 − α)y) > αs(x) + (1 − α)s(y) pour
α de la forme k/2p . On en déduit la même inégalité pour tout α ∈ [0, 1] par
approximation, en utilisant la monotonie de s.
On a alors montré que pour t > 0 = E[X], ϕX (t) = (−s)∗ (t). Pour les x < 0,
par la loi des grands nombres, on a s(x) = 0. Donc il faut prolonger s par 0 sur
R− . Ce prolongement est toujours concave, et n'empêche pas de retrouver s par
application de la transformée de Legendre pour les valeurs positives, en utilisant
le fait que ϕ0X (0) = E[X] = 0 (ce qui utilise l'hypothèse que ϕX est nie sur un
voisinage de 0).
Exercice 7.4.4. Calculer lim n−1 log P(X̄n > x) lorsque X̄n est la moyenne em-
pirique de variables iid de loi exponentielle, de paramètre λ.

94
7.5 Principes de grandes déviations et théorème de
Cramér multidimensionnel
Dans la formulation du théorème de Cramér sur R, on utilise le caractère bien
ordonné de la droite réelle. Dans un contexte plus général, il nous faut une autre
formulation.

Dénition 7.5.1. Soit (E, d) un espace polonais. Une fonction I : E −→ [0, +∞]
est une bonne fonction de taux si elle est semi-continue inférieurement et si ses
ensembles de niveau sont compacts.
Soit (an ) une suite croissante de réels strictement positifs, et I une bonne fonc-
tion de taux sur E . Une suite de mesures de probabilité (µn ) sur E vérie un
principe de grande déviations de vitesse (an ) et de fonction de taux I si :
1. pour tout fermé F ⊂ E , on a lim sup a−1
n log µn (F ) 6 − inf F I;

2. pour tout ouvert O ⊂ E , on a lim inf a−1


n log µn (O) > − inf O I.

Dans le cas du théorème de Cramér sur R, la fonction de taux était convexe,


donc continue, et donc le sup sur un intervalle [x, +∞[ coincidait avec celui sur
]x, +∞[.
On va maintenant énoncer le théorème de Cramér multidimensionnel (qu'on
ne démontrera pas ici). Pour cela, dénissons a version multidiemsnionnel de la
transormée de Legendre :

ϕ∗ (y) = sup x · y − ϕ(x).


x

C'est encore une involution sur l'espace des fonctions convexes.

Théorème 7.5.2 (Théorème de Cramér multidimensionnel). Soit X¯n la moyenne


empirique de n variables iid à valeurs dans Rd , et
ϕX (y) := log E[exp(y · X1 )],

qu'on suppose nie sur un voisinage de l'origine. Alors la suites de lois des X¯n
vérie un principe de grandes déviations, de vitesse n et de fonction de taux ϕ∗X .

7.6 Théorème de Sanov


Dénition 7.6.1 (Entropie). Soit µ une mesure positive sur un espace E.
L'entropie relative par rapport à µ est la fonctionnelle sur P(E) dénie par
ρ log ρdµ si ν = ρµ;
(R
Entµ (ν) :=
+∞ si ν n'est pas absolutment continue par rapport à µ.
NB. Les physicens ont plutôt l'habitude de dénir l'entropie avec la convention
de signe opposée, i.e. − ρ log ρ. Cette notion est aussi connue sous le nom de
R

divergence de Kullback-Leibler.

95
Proposition 7.6.2 (Formules de dualité pour l'entropie). Si µ et ν sont deux
mesures de probailité, on a
Z Z
Entµ (ν) = sup f dν − log ef dµ.
f bornee

Conversement, pour toute fonction f , on a


Z Z
f
log e dµ = sup f dν − Entµ (ν).
ν

On peut interpréter ces formules comme des formules de dualité.

Proof. On démontrera seulement la première égalité, dans le cas où l'entropie est


nie. C'est une conséquence de la dualité de Legendre pour la fonction exponen-
tielle, dont la transformée de Legendre est y log y − y pourRy > 0. Alors, en posant
ρ = dν/dµ, et en supposant sans perdre de généralité que ef dµ = 1, on a
Z Z Z Z
f dν 6 ef dµ + ρ log ρdµ − ρdµ

= 1 + Entµ (ν) − 1.

On a l'inégalité inverse en approcant log ρ avec une suite de fonctions bornées.

Corollaire 7.6.3. Soit f une fonction mesurable. Alors Entµ◦f −1 (ν ◦ f −1 ) 6


Entµ (ν).
Proposition 7.6.4 (Inégalité de Pinsker). Soit µ et ν deux mesures de probabilité
sur un même espace. Alors
r
Entµ (ν)
dT V (µ, ν) 6 .
2
Proof. On commence par le cas où l'espace est {0, 1}, et on peut voir µ et ν comme
des lois de Bernoulli, de paramètres q et p. Alors

Entµ (ν) = p log(p/q) + (1 − p) log((1 − p)/(1 − q)) > 2(p − q)2 = 2dT V (µ, ν)2 /2.

Donc l'ingalité de Pinsker est vraie sur un espace à deux points.


Pour le cas général, on suppose que ν a une densité f par rapport à µ, et on
pose A = {x, f (x) > 1}. Soit p = ν(A) et q = µ(A). On a dT V (µ, ν) = 2|p − q|
(comme vu dans la section 5.4.2), ce qui est aussi la distance en variation totale
entre des lois de Bernoulli de paramètre p et q . Comme ces lois de Bernoulli sont
les pushforward de µ et ν par la fonction x → 1A (x), on a alors l'inégalité générale
en combinant l'inégalitpour les lois de Bernoulli et le corollaire 7.6.3

Nous allons maintenant voir le théorème de Sanov, un renforcement fonctionnel


du théorème de Cramér. On considère des variables aléatoires Xi dans un espace
polonais (E, d), qu'on suppose indépendantes et identiquement distribuées, de loi
µ. On va s'intéresser au comportement de la mesure empirique du système, c'est à
dire la mesure de probabilité aléatoire
N
1 X
µN := δXi .
N
i=1

96
C'est une variable aléatoire à valeurs dans P(E), qu'on peut aussi voir comme un
espace polonais lorsqu'on le munit de la topologie de la convergence étroite. D'après
la loi forte des grands nombres, elle converge p.s. vers la mesure µ. Le résultat suiv-
ant nous dit que la probabilité d'observer une mesure empirique anormale proche
de ν 6= µ se comporte comme exp(−N Entµ (ν)) :
Théorème 7.6.5 (Théorème de Sanov). Soit (E, d) un espace polonais, µ ∈ P(E)
et (Xi ) un suite de variables aléatoires iid de loi µ. La suite des lois des mesures
empiriques associées à (Xi ) vérie un principe de grandes déviations de vitesse n
et de fonction de taux Entµ
On donne maintenant une ébauche de la preuve dans le cas particulier où E est
un espace ni {a1 , ..., ad }. Les valeurs possibles pour µN sont alors les mesures de
la forme
k1 k2 k1
νk,N = δa1 + δa2 · · · + δad
N N N
avec k1 , ..., kd des entiers naturels dont la somme vaut N . Il s'avère qu'elles ont
toutes la même probabilité, égale à
d
Y  X 
µ(aj )kj = exp N µN (aj ) log µ(aj ) . (7.3)
j=1

Pour calculer la probabilité que µN soit égale à νk,N , il faut donc dénombrer les
congurations possibles des Xi qui donnent lieu à cette mesure empirique. Le lemme
combinatoire suivant répond à cette question :
Lemme 7.6.6. On a
 X  kj     X  kj 
1 kj
t.q. N
X
−1
exp −N log 6 {(x1 , ..., xN ) δ xj = νk,N } 6 exp −N

(N + 1)d N N N
En combinant cette borne et (7.3), on voit que
1
exp(−N Entµ (νk,N )) 6 P (µN = νk,N ) 6 exp(−N Entµ (νk,N )),
(N + 1)d
et donc si νk,N approxime ν lorsque N tend vers l'inni, on a
1
log P (µN = νk,N ) −→ − Entµ (ν).
N
Si on considère ensuite un ouvert O de P(E), pour tout ν ∈ O et pour N assez
grand on peut trouver des νk,N dans O qui approximent ν . Alors
1 1
log P(µn ∈ O) > log P(µn = νk,N ) −→ − Entµ (ν).
N N
Si ensuite on prend le sup sur ν ∈ O, on obtient la borne inf sur les ouverts.
Ensuite, pour F fermé de P(E), en notant PN l'ensemble des valeurs possibles
de µN , comme cet ensemble est de cardinal inférieur à (N + 1)d , on a
 
 
1 1 X 1 d
log P(µN ∈ F ) 6 log  P(µN = νk,N ) 6
 log (N + 1) sup exp(−N Entµ (ν))
N N N ν∈F
νk,N ∈PN ∩F

et le résultat suit.

97
7.6.1 Application aux tests d'hypothèse
On a un échantillon x = (x1 , .., xN ) obtenu à partir de variables iid de loi µ inconnue
sur un alphabet ni. On cherche à tester l'hypothèse µ = ν . Un test possible est
d'utiliser la fonction T (x) = 1 si Entν (µx ) < δ , et 0 sinon. On accepte l'hypothèse
si T (x) = 1, et on la rejete sinon.
D'après le théorème de Sanov, si an est la probabilité d'erreur de type 1 (rejeter
l'hypothèse à tort), on a l'asymptotique lim sup n−1 log an = δ . Donc le choix de δ
nous permet d'ajuster cette erreur.
Il est encore plus naturel de faire dépendre δ de la taille de l'échantillon.

Exercice 7.6.1. 1. Montrer que de manière non-asymptotique et ppour δ xé,


la probabilité d'erreur de type 1 est majorée par (n+1)k exp(−nδ). En déduire
une valeur de δn pour laquelle cette probabilité est inférieure à (n + 1)−1 .
2. Montrer que pour ce choix de valeur de δn , la probabilité bn d'erreur de type
2 (accepter l'hypothèse à tort) vérie lim n−1 log bn = Entµ (ν).

98
Chapter 8

Bibliographie
Les chapitres 1 à 3 suivent largement les notes de cours de Jean-François Le Gall :
https://www.imo.universite-paris-saclay.fr/ jegall/IPPA2.pdf
Le traitement des théorèmes de convergence de martingales du chapitre 2 suit le
poste de blog de Djalil Chafaï : https://djalil.chafai.net/blog/2020/10/02/convergence-
of-discrete-time-martingales/
Le chapitre 5 est en partie inspiré par les notes de cours de Grégory Miermont
: https://perso.ens-lyon.fr/gregory.miermont/thlim.pdf
Le traitement du TCL martingale du chapitre 6 est tiré des notes
de cours de Sunder Sethuraman : https://www.math.arizona.edu/ sethu-
ram/notes/wi_mart1.pdf
La preuve du théorème de Cramér au chapitre 7 est issue de l'article A short
proof of Cramér's theorem on R de Raphaël Cerf et Pierre Petit.

99

Vous aimerez peut-être aussi