Poly M1S6 Probas PDF
Poly M1S6 Probas PDF
Poly M1S6 Probas PDF
1
Max Fathi
April 7, 2022
2 Martingales 11
2.1 Dénitions et premières propriétés . . . . . . . . . . . . . . . . . . . 11
2.2 Quelques outils . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.1 Transformations de martingales . . . . . . . . . . . . . . . . . 13
2.2.2 Décomposition de Doob-Meyer . . . . . . . . . . . . . . . . . 14
2.2.3 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Théorème d'arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Convergence de martingales . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Convergence L2 . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4.2 Convergence presque sûre . . . . . . . . . . . . . . . . . . . . 18
2.4.3 Martingales uniformément intégrables . . . . . . . . . . . . . 21
2.4.4 Une application en analyse : le théorème de Rademacher . . . 24
3 Chaînes de Markov 26
3.1 Dénitions et premières propriétés . . . . . . . . . . . . . . . . . . . 26
3.2 Propriété de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3 Mesures invariantes et classication des états . . . . . . . . . . . . . 30
3.3.1 Classication des états . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.1 Théorème principal . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4.2 Une brève introduction aux algorithmes MCMC . . . . . . . . 42
1
II Théorèmes limites 48
5 Topologie de la convergence en loi 49
5.1 Quelques rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Convergence étroite . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.2 Théorème de Lévy . . . . . . . . . . . . . . . . . . . . . . . . 51
5.2 Distance de Lévy-Prokhorov . . . . . . . . . . . . . . . . . . . . . . . 52
5.3 Tension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Cas réel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3.2 Cas compact . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3.3 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.4 Autres distances sur les espaces des mesures de probabilités . . . . . 61
5.4.1 Distance de Kolmogorov . . . . . . . . . . . . . . . . . . . . . 61
5.4.2 Distance en variation totale . . . . . . . . . . . . . . . . . . . 63
5.4.3 Distance de Wasserstein . . . . . . . . . . . . . . . . . . . . . 64
5.5 Théorème de représentation de Skorokhod . . . . . . . . . . . . . . . 69
5.6 Appendice : convergence faible-* et convergence en loi . . . . . . . . 69
8 Bibliographie 99
2
Part I
3
Chapter 1
Notions de processus
1.1 Généralités sur les processus
On se place sur un espace de probabilités (Ω, F, P).
Par dénition, un processus aléatoire en temps discret est une suite de variables
aléatoires (Xn )n∈N toutes dénies sur (Ω, F, P).
Le paramètre n joue le rôle du temps. Le but est en général de modéliser un
phénomène qui évolue, comme par exemple le cours de la bourse, la propagation
d'une épidémie, ou encore l'évolution d'une opinion mesurée semaine après semaine
par un sondage.
NB. Il est important de distinguer la loi d'un processus (Xn )n∈N de la suite des
lois des Xn . La première notion englobe l'information des corrélations entre les
variables, mais pas la deuxième.
Dénition 1.1.1 (Filtrations). Une ltration de (Ω, F, P) est une suite croissante
(Fn )n∈N de sous-tribus de F , i.e. F0 ⊂ F1 ⊂ F2 ... ⊂ F . On dit aussi que
(Ω, F, (Fn )n∈N , P) est un espace de probabilité ltré.
Un processus (Xn )n∈N est dit adapté à la ltration (Fn )n∈N si pour tout n ∈ N,
Xn est Fn -mesurable.
Exemple 1.1.1. 1. Si (Xn )n∈N est une suite (quelconque) de variables aléa-
toires dénies sur (Ω, F, P), FnX := σ(X0 , ..., Xn ) dénit une ltration, ap-
pelée ltration canonique du processus (Xn )n∈N . C'est la plus petite ltration
rendant le processus (Xn )n∈N adapté.
2. Prenons Ω = [0,
1), F la tribu borelienne et P la mesure de Lebesgue. Posons
Fn := σ i−1 , i = 1, ..., 2 n . C'est une ltration de [0, 1), appelée ltration
2n
dyadique.
NB. Dans toute la suite, il y aura implicitement un espace de probabilité ltré, qui
ne sera pas toujours rendu explicite, et les notions seront bien entendu relatives à
cet espace.
4
1.2 Quelques exemples de base
1.2.1 Marches aléatoires
L'exemple le plus emblématique de processus aléatoire est celui de la marche aléa-
toire en dimension un :
Exemple 1.2.1 (Marche aléatoire simple sur Z). On part du point 0, et à chaque
instant n on choisit une direction uniformément au hasard (droite ou gauche), et
on fait un pas dans cette direction.
Plus exactement, X0 = 0, et (εn )n∈N est une suite de variables de Rademacher,
c'est àPdire uniformes sur {−1, 1}, et Xn+1 = Xn + εn+1 . De manière équivalente,
Xn = ni=1 εi .
Exemple 1.2.2 (Marche aléatoires sur Rd ). Soit (Yi ) une suite de v.a. i.i.d. sur
Rd , de loi µ. La marchePaléatoire avec condition initiale X0 et loi de saut µ est
donnée par Xn := X0 + ni=1 Yi .
On peut également considérer des marches aléatoires sur des graphes plus
généraux que Z ou Zd :
Exemple 1.2.3 (Marches aléatoires sur les graphes). Soit G = (S, A) un graphe.
Une marche aléatoire simple sur le graphe G est une suite de variables aléatoires
(Xn )n∈N à valeurs dans G, telle que conditionnellement à {Xn = x} la loi de Xn+1
est uniforme sur l'ensemble des voisins de x, c'est à dire
1(x,y)∈A
P(Xn+1 = y|Xn = x) = .
|{z; (x, z) ∈ A}|
5
Exercice 1.2.1. Calculer l'espérance et la variance de Nn en fonction de celles de
X11 .
Donc
1 − m−n
un = E[N02 ] + E[N0 ] Var(X11 )m−2
1 − m−1
et
m2n − mn
E[Nn2 ] = E[N02 ]m2n + E[N0 ] Var(X11 ) .
m2 − m
D'où
E[X11 ]2n − E[X11 ]n
Var(Nn ) = Var(N0 )E[X11 ]2n + E[N0 ] Var(X11 ) .
E[X11 ]2 − E[X11 ]
avec p + q + r = 1.
On peut aussi voir ce processus comme une marche aléatoire (possiblement
asymétrique) sur N.
Pour modéliser le nombre de gens attendant à des caisses de supermarché, on
peut considérer plusieurs les d'attente en interaction, où les probabilités d'arriver
à un instant donné sont dépendantes du nombre de gens dans chaque le (par
exemple, il ne peut arriver quelqu'un que dans la le avec le moins de monde).
6
1.3 Temps d'arrêt
Dénition 1.3.1. Une v.a. T : Ω −→ N̄ = N ∪ {∞} est appelé temps d'arrêt de
la ltration (Fn )n∈N si pour tout n on a {T = n} ∈ Fn .
Interprétation : on joue à un jeu modélisé par des v.a. Un temps d'arrêt
représente un instant auquel on décide de s'arrêter, qui doit être fonction de
l'information connue à ce moment là (i.e. on ne connaît pas le futur).
7
où pour la dernière étape on a utilisé la symétrie du processus. Or
\
{sup Xn = +∞} ⊂ σ(Xk , Xk+1 , ...)
k>0
2. Si (Tk )k∈N est une suite de temps d'arrêt, alors inf Tk , sup Tk , lim inf Tk et
lim sup Tk en sont aussi.
Proof. 1. On a
{min(S, T ) 6 n} = {S 6 n} ∪ {T 6 n} ∈ Fn ;
{max(S, T ) 6 n}{S 6 n} ∩ {T 6 n} ∈ Fn .
2. Nous allons montrer que inf Tk et lim inf Tk sont des temps d'arrêt, les deux
autres cas se prouvent de manière similaire.
[
{inf Tk 6 n} = {Tk 6 n} ∈ Fn ;
k
\ [
{lim inf Tk 6 n} = {Tk 6 n} ∈ Fn .
j k>j
Ω ∩ {T = n} = {T = n} ∈ Fn ,
et comme
A ∈ FT ⇔ ∀n, A ∩ {T = n} ∈ Fn
et Ac∩ {T = n} = {T = n}\(A ∩ {T = n}) ∈ Fn , on a bien A ∈ FT ⇒ Ac ∈ FT .
Enn, si (Ak ) est une suite d'évenment de FT , alors
!
[ [
(Ak ∩ {T = n}) = Ak ∩ {T = n} ∈ Fn .
k k
8
Proof. Soit A ∈ FS . On a
n
[
A ∩ {T = n} = A ∩ {S 6 n} ∩ {T = n} = (A ∩ {S = k}) ∩ {T = n},
k=0
or A ∩ {S = k} ∈ Fk ⊂ Fn , donc on a bien A ∩ {T = n} ∈ Fn .
est FT -mesurable.
Si T < ∞ p.s., on notera YT cette variable aléatoire, pour simplier les notations.
En particulier, une variable aléatoire de la forme Yn∧T est Fn∧T mesurable, et donc
FT mesurable via la Proposition 1.3.4.
Dénition 1.4.4 (Convergence en loi). Une suite de variables aléatoires (Xn )n∈N
converge en loi vers une variable aléatoire X si pour toute fonction continue bornée
on a
E[f (Xn )] −→ E[f (X)].
NB. La convergence en loi est une notion de convergence d'une nature diérente
que les trois premières : elle ne dépend que de la suite des lois, sans demander à
ce que les variables vivent sur un même espace (Ω, F, P), ou qu'on tiennent compte
de corrélations.
9
Proposition 1.4.5 (Relations entre les notions de convergence). 1. La conver-
gence Lp implique la convergence en probabilité;
2. La convergence p.s. implique la convergence en probabilité;
3. La convergence en probabilité implique la convergence en loi.
Exemple 1.4.1. 1. Soit (Xn )n∈N∗ une suite de variables indépendantes, avec
P(Xn = 0) = 1 − 1/n et P(Xn = n) = 1/n. Alors Xn converge en probabilité
(et même presque sûrement) vers 0, mais pas dans Lp , pour n'importe quel
p > 1.
2. Soit Γ = {(n, j); 0 < j 6 n}, qu'on numérote dans l'ordre lexicographique.
Pour m = (n, j) ∈ Γ, on pose Xm = 1((j−1)/n,j/n] . Les Xm forment une suite
de variables aléatoires sur ((0, 1], Leb). Comme la largeur des intervalles tend
vers 0, la suite (Xm )m∈N converge en probabilité vers 0. Toutefois, il existe
des indices arbitrairement grand tels que Xm = 1, et donc lim sup Xm = 1
p.s. En particulier, (Xm )m∈N ne converge pas p.s. vers 0.
3. N'importe quelle suite (Xn ) de variables aléatoires iid et non constante p.s.
converge en loi (puisque la loi ne change jamais), mais ne converge pas p.s.
En eet, la convergence en loi ne tient pas compte des corrélations entre les
Xn , mais la convergence p.s. peut en dépendre.
10
Chapter 2
Martingales
Dans toute cette partie, on ne considérera que des processus à valeurs réelles.
Remark 2.1.1. 1. Par récurrence sur ` − n, on peut montrer que si (Xn )n∈N
est une martingale, alors pour tout ` > n > 0 on a E[X` |Fn ] = Xn .
2. Par conséquence, on a aussi E[X` ] = E[Xn ], i.e. l'espérance d'une martingale
reste constante au cours du temps.
3. Le processus (Xn )n∈N est une sous-martingale ssi (−Xn )n∈N est une sur-
martingale. En conséquence, on énoncera souvent les théorèmes pour les sur-
martingales, et l'analogue pour les sous-martingales suivra automatiquement.
Exemple 2.1.1. La marche aléatoire simple de paramètre p est une martingale si
p = 1/2, une sous martingale si p > 1/2, et une surmartingale si p 6 1/2.
11
Plus généralement, un processus de la forme Xn = ni=1 Yi avec les Yi iid à
P
valeurs réelles est une martingale ssi E[Y ] = 0, une surmartingale ssi E[Y ] 6 0, et
une sous-martingale ssi E[Y ] > 0.
Exemple 2.1.3. Soit (Fn )n∈N une ltration et X une v.a. L1 et mesurable par
rapport à F∞ = σ (∪n Fn ). Alors le processus déni par Xn := E[X|Fn ] est une
martingale. Un processus de cette forme est appelé une martingale fermée.
Cette propriété est une conséquence immédiate de la croissance des ltrations
: E[Xn+1 |Fn ] = E[E[X|Fn+1 ]|Fn ] = E[X|Fn ] = Xn . On verra plus tard que
beaucoup de martingales sont implicitement de cette forme.
Exemple 2.1.4. Si (Xn ) est une suite décroissante et adaptée de variables aléa-
toires intégrables, alors c'est une surmartingale : E[Xn+1 |Fn ] 6 E[Xn |Fn ] = Xn .
Exercice 2.1.1. Montrer que si (Xn ) est une martingale avec Xn ∈ L2 pour tout
n > 0, alors ∀m, n on a
n+m−1
X
E[(Xn+m − Xn )2 ] = E[(Xk+1 − Xk )2 ].
k=n
Solution 2.1.1. Procédons par récurrence sur m. L'identité est trivialement vraie
pour m = 1. Supposons qu'elle est vraie pour un certain m > 1. On a alors
E[(Xn+m+1 −Xn )2 ] = E[(Xn+m −Xn )2 ]+E[(Xn+m+1 −Xn+m )2 ]+2E[(Xn+m+1 −Xn+m )(Xn+m −Xn )],
donc il sut de montrer que le dernier terme à droite est nul. En conditionnant et
en utilisant la propriété de martingale
E[(Xn+m+1 − Xn+m )(Xn+m − Xn )] = E[E[(Xn+m+1 − Xn+m )(Xn+m − Xn )|Fn+m ]]
= E[(Xn+m − Xn )E[(Xn+m+1 − Xn+m )|Fn+m ]] = 0,
1. Montrer que le processus (In )n∈N est adapté par rapport à la ltration
dyadique;
12
2. Montrer que (Xn )n∈N est une martingale par rapport à cette ltration, et
qu'elle converge p.s. vers f (U ).
Solution 2.1.2. 1. On a bien {U ∈ [i/2n , (i + 1)/2n )} ∈ Fn , et les évènements
de cette forme susent à déterminer In .
2. Conditionnellement à In = [i/2n , (i + 1)/2n ), avec probabilité 1/2 on a
In+1 = [2i/2n+1 , (2i + 1)/2n+1 ), et avec probabilité 1/2 on a In+1 = [(2i +
1)/2n+1 , (2i + 2)/2n+1 ). On a donc
(2i+1)/2n+1 (2i+2)/2n+1
2n+1 2n+1
Z Z
E[Xn+1 |In ] = f dx + f dx = Xn .
2 2i/2n+1 2 (2i+1)/2n+1
Pour la convergence p.s., comme f est continue sur le compact [0, 1], elle est
uneiformément continue. Soit ε > 0 et δ > 0 tel que si |x − y| < δ , alors
|f (x) − f (y)| < ε. Alors si 2−n < δ , pour tout x ∈ In , on a |x − y| < δ , et
donc Z
|In |−1
f dx − f (U ) < ε.
In
Exemple 2.2.1. Si (Xn )n∈N est une martingale, alors (Xn2 )n∈N est une sous-
martingale. En particulier, la variance d'une martingale croît avec le temps.
Proof. 1. D'après l'inégalité de Jensen,
Dénition 2.2.2. Une famille (Hn ) de variables aléatoires est dite prévisible si
∀n > 1 Hnest L1 et Fn−1 -mesurable.
Informellement, une famille est prévisible si au temps n on connaît déjà Hn+1 .
13
Proposition 2.2.3. Soit (Xn )n∈N un processus adapté, et (Hn )n∈N une famille
prévisible et bornée. On pose (H · X)0 := 0 et pour tout n > 1
n
X
(H · X)n := Hi (Xi − Xi−1 ).
i=1
Alors
1. Si (Xn )n∈N est une martingale alors ((H · X)n )n∈N l'est aussi.
2. Si (Xn )n∈N est une surmartingale et les Hn sont tous positifs, alors ((H ·
X)n )n∈N est aussi une surmartingale.
Proof. Tout d'abord, comme les Hn sont bornés, les variables (H · X)n sont bien
intégrables, et le processus est adapté, par construction.
Supposons que (Xn )n∈N est une martingale. Soit n ∈ N. On a bien
E[(H · X)n+1 − (H · X)n |Fn ] = E[Hn+1 (Xn+1 − Xn )|Fn ]
= Hn+1 E[Xn+1 − Xn |Fn ]
= 0.
De même, si (Xn )n∈N est une surmartingale et les Hn sont positifs,
E[(H · X)n+1 − (H · X)n |Fn ] = E[Hn (Xn+1 − Xn )|Fn ]
= Hn E[Xn+1 − Xn |Fn ]
6 0.
Proof. Par dénition, (An ) est bien un processus prévisible, donc il nous sut de
montrer que le processus déni par Mn = Xn − X0 − An est bien une martingale.
Tout d'abord, comme Xn et An sont intégrables, Mn l'est aussi. De plus,
E(Mn+1 − Mn |Fn ) = E(Xn+1 − Xn |Fn ) − E(An+1 − An |Fn )
= E(Xn+1 − Xn |Fn ) − E(Xn+1 − Xn |Fn ) = 0,
et donc (Mn ) est bien une martingale.
Montrons maintenant l'unicité. Supposons qu'il existe une martingale M 0 et
un processus prévisible A0 tels que X = X0 + M 0 + A0 . Alors A0n+1 − A0n =
Xn+1 − Xn − (Mn+1 0 − Mn0 ). Comme A0 est prévisible, on a alors
A0n+1 − A0n = E[A0n+1 − A0n |Fn ] = E[Xn+1 − Xn |Fn ] − E[Mn+1
0
− Mn0 |Fn ].
Comme M 0 est une martingale, le second terme est nul. En sommant sur n on voit
que A0 est bien donné par la formule (2.1), donc coincide avec le processus A, et
nécessairement on a alors aussi M 0 = M .
14
Exercice 2.2.1. Quelle est la décomposition de Doob-Meyer d'une marche aléatoire
simple asymmétrique, de paramètre p? Et pour un processus de Galton-Watson?
Solution 2.2.1. Soit (Xn ) une telle marche aléatoire. On a E[Xk+1 − Xk |Fk ] =
2p − 1, donc An = (2p − 1)n et Mn = Xn − (2p − 1)n.
Pour un processus de Galton-Watson, en reprenant les notations de la Section
1.2.2, on a
E[Nn+1 − Nn |Fn ] = Nn (E[X11 ] − 1)
Proof. Soit T le temps d'arrêt inf{n; Xn > r}, de sorte que {max06k6n Xk > r} =
{T 6 n}. On a alors
Exemple 2.2.2. Soit Mn = ni=1 Yi avec les Yi des v.a. i.i.d. Gaussiennes centrées
P
réduites. Alors P(maxk=1,...,n Mk > t) 6 exp(−t2 /(2n)).
En eet, come x → exp(λx) est une fonction croissante convexe pour tout λ > 0,
exp(λMn ) est une sous-martingale positive. Donc
P max Mk > t = P max exp(λMk ) > exp(λt)
k=1,...,n k=1,...,n
−λt
6e E[exp(λMn )]
−λt
=e E[exp(λY1 )]n
= exp(−λt + nλ2 /2).
Théorème 2.2.6 (Deuxième inégalité de Doob). Soit (Mn )n∈N une martingale.
Pour tout ∈ N et p > 1 on a
p
p
E sup |Mk |p 6 E[|Mn |p ].
06k6n p − 1
En particulier,
p
p p
E sup |Mk | 6 sup E[|Mn |p ].
n>0 p−1 n>0
15
NB. Les prefacteurs dans ces inégalités ne dépendent pas de n, ce qui sera utile
lorsqu'on étudiera le comportement en temps long des martingales.
Proof. La seconde inégalité est une conséquence immédiate de la première, par
convergence monotone. Pour la première inégalité, posons Sn := max06k6n |Mk |.
Comme |Mn | est une sous-martingale positive, par la première inégalité de Doob
on a rP(Sn > r) 6 E[|Mn |1Sn >r ]. En intégrant, on a donc
Z ∞ Z ∞
p−2
rP(Sn > r)pr dr 6 E[|Mn |1Sn >r ]prp−2 dr
0
Z ∞ 0Z ∞
⇔E 1Sn >r pr dr 6 E
p−1
|Mn |1Sn >r pr dr
p−2
0 0
Z Sn Z Sn
p
⇔E 1Sn >r pr dr 6
p−1
E p−2
|Mn |(p − 1)r dr
0 p−1 0
p
⇔E[Snp ] 6 E[|Mn |Snp−1 ]
p−1
Théorème 2.3.1. Soit (Xn )n∈N une martingale, et T un temps d'arrêt. Alors
(Xn∧T )n∈N est aussi une martingale.
De même, si (Xn )n∈N est une surmartingale, alors (Xn∧T )n∈N l'est aussi.
Une des applications de ce théorème est de permettre de calculer l'espérance de
XT lorsque T est borné p.s. :
Corollaire 2.3.2. Si (Xn )n∈N est une martingale et T est un temps d'arrêt borné
p.s., alors XT ∈ L1 , et E[XT ] = E[X0 ].
De même, si (Xn )n∈N est une surmartingale et T est un temps d'arrêt borné
p.s., alors XT ∈ L1 , et E[XT ] 6 E[X0 ].
Un exemple d'interprétation est que si on joue à un jeu d'argent équilibré (i.e.
modélisé par une martingale), il est impossible de trouver une stratégie qui gagne
de l'argent en moyenne à un horizon de temps ni.
16
Proof. Soit n > 1. On pose Hn := 1T >n = 1 − 1T 6n−1 . Le processus (Hn )n∈N est
prévisible. Le processus
n
X
(H · X) := Hi (Xi − Xi−1 ) = Xn∧T − X0
i=1
est alors une martingale, et donc (Xn∧T )n∈N l'est aussi. Si de plus T 6 N p.s.,
alors
E[XT ] = E[XN ∧T ] = E[X0 ].
La preuve pour les surmartingales fonctionne de la même manière.
A noter que l'hypothèse T bornée n'est pas anodyne, et le corollaire peut être
faux sans. Par exemple, si on considère une marche aléatoire simple sur Z issue de
0, et le temps d'arrêt T := inf{n > 1; Xn = 1}. On a vu que lim sup Xn = ∞ p.s.,
et donc ce temps d'arrêt est ni p.s. Toutefois,
1 = XT = E[XT ] 6= E[X0 ] = 0.
On voit donc que on ne peut pas remplacer l'hypothèse de T borné par T ni p.s.
Toutesfois, sous des conditions d'intégrabilité supplémentaires, c'est quand même
possible :
Exercice 2.3.1. Soit (Mn )n∈N un martingale telle que il existe L < ∞ avec |Mn | 6
L p.s., pour tout n ∈ N. Montrer que si T est un temps d'arrêt ni p.s., alors
E[MT ] = E[M0 ].
Solution 2.3.1. Pour tout n ∈ N, d'après le théorème d'arrêt on a E[Mn∧T ] =
E[M0 ]. On peut ensuite passer à la limite en n, en utilisant la borne L∞ pour
appliquer le théorème de convergence dominée.
Nous verrons plus tard une version du théorème d'arrêt autorisant des temps
d'arrêt non bornés, mais requérant une hypothèse supplémentaire sur la martingale
à la place, qui sera toutefois plus faible que la borne L∞ de l'énoncé ci-dessus.
On peut généraliser le théorème d'arrêt au résultat suivant :
17
2.4.1 Convergence L2
Théorème 2.4.1. Soit (Xn )n∈N une martingale bornée dans L2 . Alors il existe
une variable aléatoire X∞ telle que Xn −→ X∞ p.s. et dans L2 .
Remark 2.4.1. Ce théorème reste vrai si on remplace l'hypothèse de borne L2 par
une borne Lp avec p > 1. En revanche, il est faux si on suppose seulement une
borne L1 . Nous verrons plus tard des contre-exemples.
Proof. Sans perdre de généralité, on peut supposer X0 = 0. Comme on l'a vu à
l'exercice 2.1.1, on a pour tout n, m ∈ N l'identité
X
E[(Xn+m − Xn )2 ] = E[(Xn+1 − Xn )2 ].
En particulier, comme (Xn ) est bornée dans L2 , cela implique que n E[(Xn+1 −
P
Xn )2 ] < ∞, et que (Xn ) est une suite de Cauchy dans L2 . On en déduit alors que
(Xn ) converge dans L2 vers une limite X∞ .
Montrons maintenant que (Xn ) converge aussi p.s. Posons Rn := supk,`>n |Xk −
X` | et Rn0 := supk>n |Xk −Xn |. On a Rn 6 2Rn0 . (Rn ) est une suite monotone, donc
elle converge p.s. vers une limite R∞ . Si on montre que cette limite est nulle, on en
déduirait que (Xn ) est presque sûrement une suite de Cauchy, et donc convergerait
p.s. Pour cela, nous allons montrer que limn E[(Rn0 )2 ] = 0. D'après la deuxième
inégalité de Doob (Théorème 2.2.6) appliqué à la martingale (Xk − Xn )k>n , on a
X
E[(Rn0 )2 ] 6 4 sup E[(Xk − Xn )2 ] = E[(Xk+ − Xk )2 ].
k>n k>n
Il nous reste à démontrer que la limite p.s. et la limite L2 coïncident, mais cela
est une conséquence directe du lemme de Fatou appliqué à |Xn − X∞ |, qui converge
p.s. vers |X∞ − X∞ 0 |, et dans L2 vers 0.
Théorème 2.4.2. Soit (Xn )n∈N une surmartingale positive. Alors Xn converge
p.s. vers une limite X∞ , à valeurs dans [0, ∞].
Proof. Comme t −→ exp(−t) est convexe et décroissante, le processus déni par
Yn := exp(−Xn ) est une sous-martingale, d'après la Propositon 2.2.1. On considère
sa décomposition de Doob-Meyer
Yn = Y0 + Mn + An
18
donc de montrer la convergence p.s. de la martingale (Mn ). Pour cela, nous allons
montrer que cette martingale est bornée dans L2 , et appliquer le Théorème 2.4.1.
Tout d'abord, on remarque que comme Yn est bornée, An et Yn sont L2 pour n
xé, et donc Mn est L2 . On peut donc écrire le développement
n−1
X
2
E[(Mn ) ] = E[(Mk+1 − Mk )2 ].
k=0
1. Montrer que Sn∧T converge p.s. vers une limite que l'on déterminera.
2. Montrer que (Sn∧T )n∈N est bornée dans L1 , mais qu'il n'y a pas convergence
L1 .
Solution 2.4.1. 1. Sn∧T est une martingale positive, donc elle converge p.s.
Comme T est ni p.s., sa limite est 0
On peut aussi montrer cela sans savoir a priori que T est ni p.s. En eet,
si Sn∧T 6= 0, alors |S(n+1)∧T − Sn∧T | = 1. Donc la seule limite possible est 0,
et a fortiori T est ni p.s.
2. D'après le théorème d'arrêt, on a pour tout n E[Sn∧T ] = E[S0 ] = 1 6= 0.
Il n'y a donc pas convergence L1 . Toutefois, comme Sn∧T est positive,
supn E[|Sn∧T |] = supn E[Sn∧T ] = 1.
19
Théorème 2.4.3. Soit (Xn )n∈N une sous-martingale bornée dans L1 . Alors elle
converge p.s. vers une limite X∞ , qui est elle-même L1 .
NB. En revanche, sous ces hypothèses la convergence L1 n'est pas nécessairement
vraie, comme le montre l'exercice précédent. On a seulement E[|X∞ |] 6 lim E[|Xn |]
via le lemme de Fatou.
Proof. Le but va être de se ramener au cas du Théorème 2.4.2, en écrivant X comme
la diérence de deux surmartingales positives. Comme x −→ max(x, 0) est convexe,
Xn+ := max(Xn , 0) est une sous-martingale positive. Soit
Xn+ = X0+ + Mn + An
sa décomposition de Doob. (An ) est une suite croissante, donc elle converge p.s.
vers une limite A∞ . De plus, E(An ) = E(Xn+ ) − E(X0+ ) est uniformément bornée
par sup E(|Xn |), donc par convergence monotone A∞ est L1 . Le processus
C'est donc une surmartingale positive, elle converge p.s., et on peut aussi vérier
que sa limite est L1 . On en déduit que Xn converge p.s., comme diérence de deux
suites convergentes.
Exercice 2.4.2. Soit (Xn )n∈N le processus issu de X0 = 1, tel que Xn ∈ {0, 2n }
pour tout n, et déni par les opérations suivantes : si Xn = 0, alors Xn+1 = 0.
Sinon, Xn+1 suit une loi uniforme sur {0, 2n }.
1. Montrer que (Xn ) est une martingale.
2. Montrer qu'elle est bornée dans L1 .
3. Montrer qu'elle converge p.s. vers une limite qu'on déterminera. A-t-on con-
vergence L1 ?
Solution 2.4.2. 1. On calcule directement E[Xn+1 |Xn = 0] = 0 et
E[Xn+1 |Xn = 2n ] = 2n .
2. Comme les Xn sont positifs et en utilisant la propriété de martingale
E[|Xn |] = E[Xn ] = E[X0 ] = 1 ∀n.
20
2.4.3 Martingales uniformément intégrables
Le but de cette section va être de mieux comprendre quand est-ce qu'on a conver-
gence L1 des martingales qui sont seulement bornées dans L1 .
Dénition 2.4.4. Une famille (Xn )n∈N de variables aléatoires est dite uniformé-
ment intégrable si
lim sup E[|Xn |1|Xn |>R ] = 0.
R−→∞ n
Exemple 2.4.2. Une famille bornée dans Lp pour p > 1 est uniformément inté-
grable. Et si une famille est uniformément intégrable, alors elle est bornée dans
L1 .
sup E[|Xn |1|Xn |>R ] 6 sup E[|Xn |p ]1/p P[|Xn | > R]1/q
n n
6 sup C 1/p E[|Xn |p ]1/q R−p/q
n
6 CR−p/q
Exercice 2.4.3. Soit (Xn )n∈N une famille de variables aléatoires. On suppose qu'il
existe une variable aléatoire Z L1 , et telle que pour tout n on a |Xn | 6 Z . Montrer
que (Xn )n∈N est uniformément intégrable.
Solution 2.4.3. On a supn E[|Xn |1|Xn |>R ] 6 E[|Z|1|Z|>R ], et comme Z est L1 , on
a limR→∞ E[|Z|1|Z|>R ] = 0.
Une manière de voir cet énoncé est que le théorème de convergence dominé est
un critère d'uniforme intégrabilité.
On peut un peu étendre la notion d'uniforme intégrabilité de la manière suivante
:
Proposition 2.4.5. Soit (Xn )n∈N une famile bornée dans L1 . Les propriétés suiv-
antes sont équivalentes :
1. La famille (Xn )n∈N est uniformément intégrable;
2. Pour tout ε > 0, il existe δ > 0 tel que pour tout évènement A ∈ F avec
P (A) 6 δ , on ait
sup E[|Xn |1A ] 6 ε.
n
Proof. (ii) ⇒ (i) est le sens facile, car d'après l'inégalité de Markov, en prenant
C = supn E[|Xn |], on a
C
sup P(|Xn | > R) 6 .
n R
21
Donc pour tout ε > 0 et δ associé, si on prend R tel que C/R < δ , on a bien
Prouvons maintenant que (i) ⇒ (ii). Soit ε > 0. On peut choisir a susemment
grand tel que
sup E[|Xn |1|Xn |>a ] < ε/2.
n
E[|Xn |1A ] = E[|Xn |1A∩{|Xn |6a} ]+E[|Xn |1A∩{|Xn |>a} ] 6 aP (A)+E[|Xn |1|Xn |>a ] < ε,
Théorème 2.4.6. Soit (Xn )n∈N une martingale. Les propriétés suivantes sont
équivalentes :
1. (Xn )n∈N est uniformément intégrable;
2. (Xn )n∈N est une martingale fermée;
3. (Xn )n∈N converge p.s. et dans L1 .
Proof. Commençons par montrer que (1) ⇒ (3). Si la martingale est UI, on a déjà
vu qu'elle est bornée dans L1 , et donc elle converge p.s. vers une limite X∞ qui
est L1 . Reste à montrer la convergence L1 . Nous allons montrer que la suite est
de Cauchy dans L1 . En utilisant la Propositon 2.4.5, on peut voir que la famile
dénombrable (Xn − Xm )n,m∈N est aussi uniformément intégrable. Donc pour ε > 0,
il existe a tel que
sup E[|Xn − Xm |1|Xn −Xm |>a ] < ε.
n,m
On a ensuite
On en déduit que lim supn,m→∞ E[|Xn − Xm |] 6 2ε, pour tout ε > 0. La suite
(Xn )n∈N est donc bien une suite de Cauchy dans L1 . Sa limite L1 est toujours X∞ ,
par application du lemme de Fatou.
Montrons maintenant que (3) ⇒ (2). Par la propriété de martingale, pour
tout m > n, on a Xn = E[Xm |Fn ]. Comme on a toujours E[|E[Y |Fn |] 6 E[|Y |],
l'application Y −→ E[Y |Fn ] est continue pour la topologie L1 , et donc on peut
faire tendre m vers l'inni, et on obtient que pour tout n Xn = E[X∞ |Fn ], où X∞
est la limite p.s. et L1 . Donc la martingale est fermée.
Enn, montrons que (2) ⇒ (1). Soit Z une variable aléatoire L1 telle que pour
tout n on ait Xn = E[Z|Fn ]. Comme le singleton Z ets uniformément intégrable,
22
d'après la Propositon 2.4.5, pour tout ε > 0, il existe δ > 0 tel que si P(A) < δ , on
a E[|Z|1A ] < ε. Comme pour tout a > 0
On notera que dans cette preuve, la partie suivante n'a pas utilisé la structure
de martingale, et est donc valable sans cette hypothèse :
Théorème 2.4.7. Soit (Xn )n∈N une famille de variable uniformément intégrable,
et qui converge p.s. Alors la convergence est aussi L1 .
On conclut par un théorème d'arrêt pour les martingales uniformément inté-
grables :
Corollaire 2.4.8 (Théorème d'arrêt pour les martingales UI). Soit (Xn )n∈N une
martingale uniformément intégrable, et T un temps d'arrêt ni p.s. Alors E[XT ] =
E[X0 ].
E[|X∞ |1T =n ]
X
=
n∈N∪{∞}
= E[|X∞ |].
n∈N∪{∞} n∈N∪{∞}
Donc
XT = E[X∞ |FT ]
et la conclusion suit.
Exercice 2.4.4 (Ruine du joueur). Soit Sn une marche aléatoire simple symétrique
issue de k > 0, et soit ` > k. Alors la probabilité que Sn atteigne le site ` avant de
visiter le site 0 est égale à k/`.
23
Solution 2.4.4. On considère les temps d'arrêt Tp = inf{n; Sn = p} et T = T0 ∧T` .
Comme Sn∧T est une martingale bornée, elle est uniformément intégrable. De plus,
le temps d'arrêt T est ni p.s., et donc Sn∧T converge vers ST . On peut donc
appliquer le Théorème 2.4.8 pour obtenir
E[ST ] = E[S0 ] = k.
Or
E[ST ] = `P[T` < T0 ] + 0 × P[T0 < T` ] = `P[T` < T0 ].
On en déduit qu'on a P[T` < T0 ] = k/`, ce qui est le résultat voulu.
Elle converge donc p.s. et dans L1 vers une v.a. Z , qui est σ(X)-mesurable,
car σ(X) = ∩n σ(Xn , Xn+1 ...). Il existe donc une fonction mesurable g telle que
Z = g(X). Comme de plus Z est bornée par L, on peut prendre g bornée par L.
En particulier,
Zn = E[g(X)|Xn ].
Or, conditionnellement à Xn , X est uniformément distribuée sur [Xn , Xn + 2−n−1 [,
donc p.s.
Z Xn +2−n
n
Zn = 2 g(u)du.
Xn
On en déduit que p.s.
Z Xn +2−n
−n
f (Xn + 2 ) − f (Xn ) = g(u)du.
Xn
24
En sommant, on obtient pour tout k < 2n
Z k2−n
−n
f (k2 ) = f (0) + g(u)du.
0
25
Chapter 3
Chaînes de Markov
Dans ce chapitre, X sera toujours un ensemble au plus dénombrable.
De manière équivalente, une matrice stochastique est une collection (Q(x, ·))x∈X
de mesures de probabilité sur X .
Dénition 3.1.2. Soient Q une matrice stochastique sur X , et (Xn )n∈N un proces-
sus aléatoire à valeurs dans X . On dit que (Xn )n∈N est une chaîne de Markov de
matrice de transition Q si pour tout n > 0 la loi conditionnelle de Xn+1 connaissant
(X0 , ..., Xn ) est Q(Xn , ·).
De manière équivalente,
P(Xn+1 = y|X0 = x0 , X1 = x1 , ..., Xn = xn ) = Q(xn , y)
NB. Ce n'est pas la même chose que de ne pas du tout dépendre du passé. Il y a des
corrélations entre passé et futur, mais leur information prédictive est entièrement
contenue dans celle du présent.
26
On peut voir les chaînes de Markov comme l'analogue stochastique des suites
récurrentes xn+1 = f (xn ). En particulier, elles (et leur analogue en temps continu)
jouent le rôle pour la physique statistique que les équations diérentielles ordinaires
jouent pour la mécanique classique.
2. Une marche aléatoire simple sur un graphe (S, A) est une chaîne de Markov
de matrice de transition
1
si (x, y) ∈ A;
Q(x, y) = dx
sinon;
où dx = Card({y; (x, y) ∈ A}).
Exercice 3.1.1. Montrer qu'un processus de Galton-Watson est une chaîne de
Markov sur N, et calculer sa matrice de transition dans le cas où les Xik sont des
variables de Bernoulli de paramètre p.
Solution 3.1.1. On a
Nn
!
X
P(Nn+1 = kn+1 |N0 = k0 , ..., Nn = kn ) = P Xin = kn+1 | N0 = k0 , ..., Nn = kn
i=1
kn
!
X
=P Xin = kn+1 .
i=1
C'est donc bien une chaîne de Markov. Dans le cas où les Xi suivent une loi
de Bernoulli de paramètre p, conditonnellement à {Nn = kn }, Nn+1 suit une loi
binomiale de paramètres (kn , p). Donc
k `
Q(k, `) = p (1 − p)k−` ; 0 6 ` 6 k.
`
Proposition 3.1.3. Un processus (Xn )n∈N à valeurs dans X est une chaîne de
Markov de matrice de transition Q ssi pour tout n ∈ N et x0 , ..., xn ∈ X on a
n
Y
P(X0 = x0 , X1 = x1 , ..., Xn = xn ) = P(X0 = x0 ) Q(xi−1 , xi ). (3.1)
i=1
Proof. Si (Xn )n∈N est une chaîne de Markov, on peut démontrer (3.1) par récurrence
sur n, en utilisant la formule de conditionnement
P(X0 = x0 , ..., Xn+1 = xn+1 ) = P(X0 = x0 , ..., Xn = xn )P(Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ).
27
Inversement, si (3.1) est vraie, alors
P(X0 = x0 , ..., Xn+1 = xn+1 )
P(Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ) = = Q(xn , xn+1 ).
P(X0 = x0 , ..., Xn = xn )
L'identité (3.2) s'en déduit via le développement
X n−1
Y
Qn (x0 , xn ) = Q(xi , xi+1 ).
x1 ,...,xn−1 ∈X i=0
La loi de (X0 , ..., Xn ) lorsque les Xi forment une chaîne de Markov est donc
complètement déterminée par la loi de la condition initiale X0 et la matrice de
transition Q.
Notation. On utilisera les notations Eµ et Pµ pour l'espérance et la loi d'une chaîne
de Markov lorsque la condition initiale est donnée par la mesure µ. En particulier,
Px sera la loi de la chaîne lorsque la loi de la condition initiale est δx .
Proposition 3.1.4. Soit f : X −→ R une fonction mesurable, positive ou bornée.
Alors
E[f (Xn+1 )|X0 , ..., Xn ] = E[f (Xn+1 )|Xn ] = Qf (Xn ). (3.3)
Plus généralement,
E[f (Xn+p )|X0 , ..., Xn ] = Qp f (Xn ). (3.4)
Proof. Commençons par démontrer (3.3). On a
X
E[f (Xn+1 )|X0 , ..., Xn ] = f (y)P(Xn+1 = y|X0 , ..., Xn )
y∈X
X
= f (y)Q(Xn , y)
y∈X
= Qf (Xn ).
Pour démontrer (3.4), on procède par récurrence sur p. Nous venons de le
démontrer pour p = 1. Supposons que c'est vrai pour un p > 1 xé. On a alors
E[f (Xn+p+1 )|X0 , ..., Xn ] = E[E[f (Xn+p+1 )|X0 , ..., Xn , Xn+1 ]|X0 , ..., Xn ]
= E[Qp f (Xn+1 )|X0 , ..., Xn ]
= Qp+1 f (Xn ).
28
3.2 Propriété de Markov
L'absence de mémoire des chaînes de Markov fait que, conditionnellement à la valeur
de Xn , la loi du futur (Xk )k>n est la même que celle d'une chaîne de Markov de
condition initiale Xn . Ceci est formalisé par le résultat suivant :
Théorème 3.2.1 (Propriété de Markov simple). Soit (Xn )n∈N une chaîne de
Markov de matrice de transition Q, et (Fn )n∈N sa ltration canonique. Alors pour
tout n ∈ N et x ∈ X , conditionnellement à {Xn = x} le processus (Xn+p )p∈N est
une chaîne de Markov de matrice de transition Q, de loi initial δx et indépendante
de (X0 , ..., Xn ), i.e. pour tout A ∈ Fn on a
P(A∩{Xn+1 = x1 , ..., Xn+p = xp }|Xn = x) = P(A|Xn = x)Px (X1 = x1 , ..., Xp = xp ).
On peut aussi dire que la loi conditionnelle de (Xk )k>n connaissant (X0 , ..., Xn )
est PXn .
Théorème 3.2.2 (Propriété de Markov forte). Soit (Xn )n∈N une chaîne de Markov
de matrice de transition Q, (Fn )n∈N sa ltration canonique et T un temps d'arrêt
adapté. Alors pour tout x ∈ X , conditionnellement à {XT = x} ∩ {T < ∞} le
processus (XT +p )p∈N est une chaîne de Markov de matrice de transition Q, de loi
initial δx et indépendante de (X0 , ..., XT ), i.e. pour tout A ∈ FT on a
P(A∩{XT +1 = x1 , ..., XT +p = xp }|XT = x, T < ∞) = P(A|XT = x, T < ∞)Px (X1 = x1 , ..., Xp = xp ).
29
Proposition 3.2.3. Soit (Xn )n∈N une chaîne de Markov. On pose
∞
1Xn =x
X
Nx :=
n=0
le nombre de visites en x, et
Hx := inf{n > 1; Xn = x}
i.e. si en partant de x on y revient p.s. une fois, on y revient une innité de fois.
Proof. L'implication ⇒ est triviale, pusique bien sur si un état est visité une innité
de fois, il est a fortiori visité au moins une fois après l'instant initial.
Pour l'implication ⇐, comme Px (Hx < ∞) = 1,
loi
Nx (X0 , X1 ...) = 1 + Nx (XHx , XHx +1 , ...).
Mais d'après la propriété de Markov forte, (XHx , XHx +1 , ...) a la même loi que
(X0 , X1 , ...), i.e. Px . Donc
loi
Nx = 1 + Nx
et donc Nx = +∞ p.s.
Exemple 3.2.1. La marche aléatoire simple sur Z issue de 0 revient une innité
de fois en 0.
30
Par récurrence, comme Px (Nx > 1) = 1 (par dénition de Nx ), on a donc
Px (Nx > k) = Px (Hx < ∞)k−1 .
On reconnait une loi géométrique de paramètre Px (Hx < ∞) = 1 − Px (Hx = ∞),
et
∞
X 1
Ex (Nx ) = Px (Nx > k) = .
Px (Hx = ∞)
k=1
31
Lemme 3.3.5. Soit x ∈ cX un point récurrent et y ∈ X tel que U (x, y) > 0.
Alors y est récurrent, et Py (Hx < ∞) = 1. En particulier, U (y, x) est alors aussi
strictement positif.
Une manière de comprendre ce lemme est que il n'est pas possible de visiter un
état transitoire après un état récurrent.
Qn2 +p+n1 (y, y) > Qn2 (y, x)Qp (x, x)Qn1 (x, y)
on a alors
X
U (y, y) > Qn2 +p+n1 (y, y) > Qn2 (y, x)U (x, x)Qn1 (x, y) > 0.
p
dénit une relation d'équivalence sur R, grâce au Lemme 3.3.5. On peut donc
partitionner R en ses classes d'équivalences, qui dénissent les Ri du théorème.
Soit i ∈ I est x ∈ Ri . Alors pour tout y ∈ X \Ri on a U (x, y) = 0, et donc
Ny = 0 Px -p.s. Sinon, pour y ∈ Ri , on a Px (Hy < ∞) = 1 et
32
Si x ∈ X \R et T = ∞, on ne visite jamais R, et pour y ∈ X \R, on a
Exemple 3.3.2. Pour la marche aléatoire simple sur Z de paramètre p, tous les
états sont récurrents si p = 1/2, et ils sont tous transitoires si p 6= 1/2.
Dénition 3.3.7 (Chaînes irréductibles). Une chaîne de Markov est dite irré-
ductible si pour tout x, y ∈ X on a U (x, y) > 0.
Une chaîne irréductible est une chaîne où il est possible d'accéder à n'importe
quel état, quelque soit la condition initiales. Il n'y a pas de découpage en plusieurs
classes de récurrence.
Ou bien tous les états sont récurrents, il y a une unique classe de récurrence,
et pour tout x ∈ X on a
Px (Ny = ∞ ∀y) = 1.
Proof. Si il existe x récurrent, alors tous les points le sont, d'après le Lemme 3.3.5,
et par constructions des classes de récurrence il ne peut y en avoir qu'une. Le reste
découle du théorème de classication des états.
Exemple 3.3.3. Une marche aléatoire sur un graphe ni connexe est irréductible
et récurrente.
Exercice 3.3.2. Soit
1/2 0 0 0 1/2
0 1/2 0 1/2 0
0
Q := 0 1 0 0
.
0 1/4 1/4 1/4 1/4
1/2 0 0 0 1/2
33
3.3.2 Mesures invariantes
On cherche maintenant à étudie les lois stationnaires des chaînes de Markov, c'est
à dire les lois µ telles que si Xn ≡ µ, alors Xn+1 ≡ µ.
c'est à dire que µ est stationnaire pour la chaîne de Markov. Mais attention, cette
dénition autorise des mesures positives de masse arbitraire, y compris innie.
Dénition 3.3.10 (Mesures réversibles). Une mesure positive µ est dite réversible
pour la chaîne de Markov si ∀x, y on a µ(x)Q(x, y) = µ(y)Q(y, x).
Interprétation : sous la mesure µ, le courant le long d'une arrête est nul :
Pµ (X0 = x, X1 = y) = Pµ (X0 = y, X1 = x).
34
En revanche, il peut exister des mesures invariantes non-réversibles.
Exemple 3.3.5. Soit γ une mesure de probabilité sur Z, non symétrique (i.e. il
existe x ∈ Z tel que γ(x) 6= γ(−x)). On considère la marche aléatoire sur Z de loi
de sauts γ . On a vu que la mesure de comptage est invariante, mais elle n'est pas
réversible, car Q(0, x) = γ(x) 6= Q(x, 0).
En revanche, si γ est symétrique, la mesure de comptage est réversible.
Exemple 3.3.6. Soit p ∈ (0, 1) et q = 1 − p. On dénit la matrice de transition
sur Z
Q(i, i + 1) = p; Q(i, i − 1) = q
i.e. la matrice de transition de la marche aléatoire simple. La mesure de comptage
est invariante, mais la mesure
i
p
µ(i) = ; i∈Z
q
est invariante. De plus, µ(y) > 0 ssi y est dans la même classe de récurrence que
x.
Proof. Tout d'abord, si y n'est pas dans la classe de récurrence de x, alors Px p.s.
y ne sera jamais visité, et donc µ(y) = 0.
Soit y dans la même classe de récurrence que x. Comme sous Px on a XHx = X0 ,
on peut changer l'indexation
HXx −1 Hx
! !
1Xk =y = Ex 1Xk =y .
X
µ(y) = Ex
k=0 k=
35
On a ensuite
Hx
!
1Xk =y,Xk−1 =z
X X
µ(y) = Ex
z k=1
∞
1Xk =y 1k6Hx ,Xk−1 =z
XX
= Ex
z k=1
On a donc
∞
1k6Hx ,Xk−1 =z Q(z, y)
XX
µ(y) = Ex
z k=1
Hx
!
1Xk−1 =z Q(z, y)
X X
= Ex
z k=1
X
= µ(z)Q(z, y).
z
Or par dénition des classes de récurrence il existe n tel que Qn (x, y) > 0. Et
comme par dénition µ(x) = 1, on a bien µ(y) > 0. De même, il existe m tel que
Qm (y, x) > 0, et donc
1 = µ(x) > µ(y)Qm (y, x)
et donc µ(y) est bien ni.
Proof. Soit µ une mesure invariante non nulle. Nous allons commencer par montrer
par récurrence que pour tout p ∈ N, on a pour tout x, y ∈ X
p∧(Hx −1)
1Xk =y .
X
µ(y) > µ(x)Ex
k=0
36
Pour p = 0, ou si x = y , cette inégalité est trivialement vraie. Supposons la
vériée pour un p ∈ N donné. Alors, pour x 6= y , on a
X
µ(y) = µ(z)Q(z, y)
z
p∧(Hx −1)
1Xk =z Q(z, y)
X X
> µ(x) Ex
z k=0
p
1Xk =z,k6Hx −1 1Xk+1 =y
XX
= µ(x) Ex
z k=0
p∧(Hx −1)
1Xk+1 =y
X
= µ(x)Ex
k=0
(p+1)∧(Hx −1)
1Xk =y
X
= µ(x)Ex
k=0
P
où on a utilisé à la dernière étape x 6= y . Si on pose νx (y) := Ex Hx −1
k=0 1Xk =y
la mesure invariante donnée par le Théorème 3.3.12, en faisant tendre p vers l'inni
on obtient alors
µ(y) > µ(x)νx (y) ∀x, y ∈ X .
Donc pour tout n > 1, comme νx (x) = 1 et νx Qn = ν , on a
X X
µ(x) = µ(z)Qn (z, y) > µ(x) νx (z)Qn (z, y) = µ(x)νx (x) = µ(x).
z z
37
Proof. Tout d'abord, comme
P les mesures
invariantes sont nécessairement de la forme
k=0 1Xk =y . Elles sont donc toutes de masse nie, ou
Hx −1
Cνx avec νx (y) := Ex
toutes de masse inni, selon la masse de νx .
Si µ est une mesure de probabilité invariante, µ = Cνx et µ(X ) = 1 donc
C = νx (X )−1 . En particulier, comme νx (x) = 1, µ(x) = νx (X )−1 . Or
x −1
HX
!
1Xk =y = Ex (Hx ),
X
νx (X ) = Ex
y k=0
Proposition 3.3.15. Supposons la chaîne irréductible. S'il existe une mesure in-
variante de masse totale nie, alors la chaîne est récurrente positive.
Proof. On a vu que
U (x, y) X
U (y, y) = > U (x, y) = Qn (x, y).
Px (Hy < ∞) n
Comme γ(X ) < ∞, on a donc bien U (y, y) = ∞ pour tout y , et la chaîne est donc
bien récurrente.
Remarque 3.3.2. L'existence d'une mesure invariante de masse innie ne dit rien
sur la récurrence. Une marche aléatoire simple sur Z admet toujours la mesure de
comptage comme mesure invariante de masse innie, mais la récurrence dépend de
la valeur du paramètre (récurrente si p = 1/2, transitoire sinon).
Exercice 3.3.4. Soit Q la matrice de transition
1/2 0 0 0 1/2
0 1/2 0 1/2 0
Q :=
1/2 0 1/2 0 0 .
0 1/4 1/4 1/4 1/4
1/4 1/4 0 0 1/2
38
Solution 3.3.4. On peut vérier que les valeurs suivantes sont strictement positives
: Q(1, 5), Q2 (1, 2), Q3 (1, 4), Q4 (1, 3), et donc on peut accéder à n'importe quel site
depuis le site 1. Réciproquement, Q(5, 1), Q(3, 1), Q2 (4, 1) et Q3 (2, 1) sont stricte-
ment positifs, donc on peut accéder au site 1 depuis n'importe quel site. Tous les
sites communiquent, et donc la chaîne est récurrente. La mesure invariante est
(3/13, 3/13, 1/13, 2/13, 4/13).
Exercice 3.3.5. On dénit
P (0, 0) = 0;
1
= k1 − k+1 ∀k ∈ N∗
P (0, k)
P (k, `)
= 0 ∀1 6 k 6 `
= 1` ∀0 6 k < `
P (`, k)
En posant b` = , on a donc
P
k>` ak /k
b0
a0 = b0 ; `(b`−1 − b` ) = + b` ∀` > 1.
`(` + 1)
Si on pose c` = `b`−1 pour ` > 1, on a alors
b0
c` − c`+1 =
`(` + 1)
donc X 1
c` = b0 .
k(k + 1)
k>`
D'où
b0 X 1 ` 1 X 1
b` = ; a` = b0 + .
` k(k + 1) (` − 1)`(` + 1) ` + 1 k(k + 1)
k>`+1 k>`+1
39
3.4 Théorème ergodique
Le but de cette section est l'étude du comportement en temps long des fonctionnelles
additives d'une chaîne de Markov.
C'est une forme de loi des grands nombres, mais ici les f (Xk ) sont des variables
corrélées.
Comme conséquence de la propriété de Markov forte, (Yn )n∈N est une suite de
variables aléatoires i.i.d. De plus, si νx est la mesure invariante donnée par le
Théorème 3.3.12, comme µ = µ(x)νx , on a
1
Ex [Yn ] = Eµ [f ].
µ(x)
Par la loi forte des grands nombres appliquées à la suite (Yn )n∈N , on a donc
n
1X p.s. 1
Yk −→ Eµ [f ].
n µ(x)
k=0
40
Si on pose alors Nx (n) le nombre de retours en x avant l'instant n, on a pour tout
n
TNx (n) 6 n < TNx (n)+1 (3.5)
et donc
TNx (n) −1 n TNx (n)+1 −1
1 X 1 X 1 X
f (Xk ) 6 f (Xk ) 6 f (Xk )
Nx (n) Nx (n) Nx (n)
k=0 k=0 k=0
ce qui revient à
Nx (n)−1 n Nx (n)
1 X 1 X 1 X
Yk 6 f (Xj ) 6 Yk
Nx (n) Nx (n) Nx (n)
k=0 j=0 k=0
41
2. Comme une mesure invariante est un vecteur propre (à gauche) de Qn , de
valeur propre 1, c'est aussi un vecteur propre de Qn . En faisant tendre n vers
l'inni, on voit que ce vecteur propre (normalisé pour que la somme fasse 1)
est
β α
π= , .
α+β α+β
3. On calcule, et on trouve
α α α(α + β(1 − α − β)p )
Eπ [Xn ] = ; Eπ [Xn Xn+p ] = Qp (1, 1) = .
α+β α+β (α + β)2
On a donc
β(1 − α − β)p
Covπ (Xn , Xn+p ) = .
(α + β)2
4. La chaîne de Markov est irréductible, récurrente positive donc en appliquant
le théorème ergodique, n−1 ni=1 Xi converge presque sûrement vers Eπ [X] =
P
α
α+β .
où f est une fonction par exemple bornée, et ρ une mesure de probabilité sur Zd .
Le calcul numérique de cette some par des méthodes déterministes peut être très
lent, surtout si d est grand. Certains algorithmes de calcul utilisent à la place des
méthodes probabilistes : on construit une chaîne de Markov réversible par rapport
à la mesure ρ, on en simule une réalisation (Xn )n6N pour un temps N grand, et on
approxime la somme par la moyenne empirique
1 X
f (Xn )
N
Le théorème ergodique garantit que dans la limite N → ∞, cette moyenne empirique
converge vers la bonne valeur.
Avantage : la complexité de l'algorithme peut être beaucoup plus faible que
celle des algorithmes suivant une méthode déterministe.
Inconvénient : contrairement aux méthodes détemrinistes, la quantité
N
1 P
f (Xn ) est aléatoire. En particulier, elle a une variance stictement positive, et
on a une petite probabilité que l'erreur d'approximation par une réalisationd e la
chaîne soit très grande. Cette variance décroit typiquement en 1/N .
Une manière de construire une chaîne de Markov sur Zd avec la bonne mesure
invarainte est donnée par l'algorithme de Metropolis-Hastings : on consdière une
marche aléatoire simple sur Z d , qu'on déforme pour imposer la bonne mesure in-
variante. Pour faire ça, à chaque temps, on procède de la manière suivante :
1. Etant donné la position Xn ∈ Zd , on génère une variable εn+1 uniforme sur
{−1, 1}d ;
42
2. On considère les quantité ρ(Xn ) et ρ(Xn + εn+1 ). Si ρ(Xn ) 6 ρ(Xn + εn+1 ),
on pose Xn+1 = Xn + εn+1 (acceptation).
3. Si ρ(Xn ) > ρ(Xn + εn+1 ), on génère une variable Un+1 uniforme sur [0, 1],
indépendante des autres variables. Si Un < ρ(Xn + εn+1 )/ρ(Xn ), on pose
Xn+1 = Xn + εn+1 (acceptation), et sinon on pose Xn+1 = Xn (rejet).
2−d ρ(y)
P(Xn+1 = x|Xn = y) = 2−d ; P(Xn+1 = y|Xn = x) =
ρ(x)
et donc
ρ(y)P(Xn+1 = x|Xn = y) = ρ(x)P(Xn+1 = y|Xn = x).
De plus, si ρ > 0 en tout point, alors cette chaîne est irréductible. On a donc une
manière simple de construire une chaîne de Markov avec les bonnes propriétés. Il
existe beaucoup d'autres manières de construire de telles chaînes de Markov, parfois
plus ecaces.
Pour citer un exemple, on peut mentionner l'algorithme PageRank de Google,
qui cherche à trier les pages internet en fonction du nombre de liens qui y mènent.
Pour ce faire, on génère une chaîne de Markov sur l'ensemble des pages web, où à
chaque étape on choisit une nouvelle page web uniformément parmis toutes les pages
webs auxquelles ont peut accéder depuis la page courante. La mesure invariante de
ce processus donne plus de poids aux pages avec beaucoup de liens, et pour estimer
cette mesure invariante, on fait tourner la chaîne pour un temps très long.
Un avantage pratique de cet algorithme est qu'il ne faut connaître la densité
ρ qu'à une constante multplicative près (puisqu'on utilise seulement les ratios de
densité). Ca peut paraître anecdotique, mais il existe de nombreuses distributions
calculées en pratique, notamment en physique statistique, pour lesquelles on a une
formule explicite qu'à cette constante près.
43
Chapter 4
Exercice 4.1.1. Quelles sont les fonctions harmoniques sur Z pour la marche
aléatoire simple symétrique?
Solution 4.1.1. Soit f une fonction harmonique sur Z. On a pour tout n
f (n + 1) = 2f (n) − f (n − 1).
44
On reconnaît une relation de récurrence d'ordre 2. Le polynome caractéristique est
(x − 1)2 , donc f est donnée par la formule
Or on a
E[f (X(n+1)∧T ) |Fn ] = E[f (X(n+1)∧T )1T 6n |Fn ] + E[f (X(n+1)∧T )1T >n |Fn ]
= f (XT )1T 6n + Qf (Xn )1T >n
= f (XT )1T 6n + f (Xn )1T >n
= f (Xn∧T ).
f (x0 ) = Ex0 [f (Xn∧T )] 6 f (x0 )(1 − Px0 (T > n)) + 0 × P(T 6 n) < f (X0 ).
Remarque 4.1.1. Dans cette preuve, l'hypothèse Ac ni sert uniquement à justier
que le maximum de f sur Ac est atteint.
La méthode de preuve est une technique souvent utilisée en EDP, connue sous
le nom de principe du maximum.
45
Théorème 4.1.5 (Représentation des solutions du problème de Dirichlet). Soit Q
la matrice de transition d'une chaîne de Markov irréductible récurrente. Soit A ⊂ X
un ensemble non vide et diérent de X , et g : A −→ R mesurable bornée. Alors la
fonction
f : x −→ Ex [g(XT )]
avec T := inf{n; Xn ∈ A} est une solution du problème de Dirichlet. Si de plus Ac
est ni, alors c'est l'unique solution.
Proof. L'unicité est une conséquence du Lemme 4.1.4, puique la diérence de deux
solutions est une solution au problème de Dirichlet avec condition g = 0.
Pour l'existence, tout d'abord comme la chaîne est irréductible récurrente, f est
bien dénie. De plus, par dénition on a bien f = g sur A. Il nous reste donc à
montrer que f est harmonique sur Ac .
En utilisant la propriété de Markov, on a pour x ∈ Ac
On conclut cette section par une caractérisation des chaînes de Markov en terme
de martingales :
Théorème 4.1.6. Un processus (Xn )n∈N sur X est une chaîne de Markov de ma-
trice de transition Q ssi pour toute fonctionf mesurable bornée à valeurs réelles le
processus f (Xn ) − n−1 est une martingale.
P
k=0 Qf (Xk ) − f (Xk )
n∈N
46
Donc si on sait calculer la solution du problème de Dirichlet, on peut calculer
des probabilités de sortie.
Exercice 4.2.1. Soit Xn la marche aléatoire simple symétrique sur Z, et a < x < b.
Montrer que
x−a
Px (Ta > Tb ) =
b−a
Solution 4.2.1. On peut facilement montrer que les fonctions anes sur Z sont
harmoniques pour la marche aléatoire symétrique. On vérie alors que x−a b−a sur [a, b]
est la solution du problème de Dirichlet sur Z\(a, b) avec g = 1[b+∞) . La conclusion
découle alors du Théorème
Exemple 4.2.1 (Probabilité d'extinction du processus de Galton-Watson). Soit
(Nn )n∈N un processus de Galton Watson, construit à partir de vaiables aléatoires
iid (Xkn )k,n∈N à valeurs dans N , et avec N0 = 1. On pose
h 1i X
m := E[X11 ], ϕ(t) := E tX1 = tk P(X11 = k).
k
Soit ζ la plus petite racine positive de l'équation ϕ(t) = t. On suppose que P(X11 =
0) > 0 et ζ < 1. Alors P(∃n t.q. Nn = 0) = ζ .
47
Part II
Théorèmes limites
48
Chapter 5
Une suite de variables aléatoires (Xn )n∈N sur E converge en loi vers X si la
suite des lois des Xn converge étroitement vers la loi de X .
Ici, Cb (E, R) est l'ensemble des fonctions continues bornées et à valeurs réelles.
Dans ce chapitre, on utilisera plutôt la terminologie de l'analyse, et on parlera de
convergence étroite.
Proposition 5.1.2. On suppose (E, d) est un espace polonais. Soit (µn )n∈N une
suite de mesures de probabilité. Les propriétés suivantes sont équivalentes :
1. (µn )n∈N converge étroitement vers µ;
2. Pour toute fonction f uniformément continue, f dµn −→ f dµ;
R R
49
7. RPour toute fonction f mesurable, continue µ-presque partout et bornée, on a
f dµn −→ f dµ.
R
µ(A) = µ(A◦ ) 6 lim inf µn (A◦ ) 6 lim inf µn (A) 6 lim sup µn (A)
Soit D l'ensemble des points de discontinuité de f . Pour tout y , si Ay = {x; f (x) >
y}, alors ∂Ay ⊂ D ∪ {f = y}. En eet, si x ∈ A¯y , alors il existe une suite telle que
xn → x avec f (xn ) > y pour tout n. Alors, si x n'est pas un point de discontinuité
de f , et n'est pas dans Ay , on a nécessairement f (x) = y . On souhaite montrer que
pour Lebesgue-presque tout y , on a µ(∂Ay ) = 0, et pour ce il sut de montrer que
pour Lebesgue-presque tout y , on a µ({f = y}) = 0.
Or {y > 0; µ({f = y}) > 0} = ∪k∈N {y > 0; µ({f = y}) > 1/k}. Or comme les
{f = y} sont deux à deux disjoints, {y > 0; µ({f = y}) > 1/k} est de cardinal in-
férieur à k . Donc {y > 0; µ({f = y}) > 0} est une réunion dénombrable d'ensemble
nis, donc dénombrable, et donc de mesure de Lebesgue nulle.
Donc, en utilisant 6, pour Lebesgue-presque tout y > 0, on a µn (f > y) −→
µ(f > y). Alors, par convergence dominée,
Z Z ||f ||∞ Z ||f ||∞ Z
f dµn = µn (f > y)dy −→ µ(f > y)dy = f dµ
0 0
50
Ce résultat devient faux si µ n'est pas une mesure de probabilité, ou si on n'est
pas en dimension nie (la preuve utilisera la compacité des boules fermées).
Solution 5.1.1. Montrons d'abord que le résultat est vrai pour H = Cc (Rk , R). On
considère une fonction cuto ξr qui est continue, à valeurs dans [0, 1], égale à 1 sur
B(0, r) et nulle sur B(0, r + 1)c . On a alors
Z
c
lim sup µn (B(0, r + 1) ) 6 1 − lim inf ξr dµn 6 µ(B(0, r)c .
On a donc
Z Z Z Z
c
lim sup f dµ − f dµn 6 lim sup ||f ||∞ µn (B(0, r − 1) + lim sup gdµn − gdµ
n n n
6 ε.
NB. L'hypothèse que toutes les mesures sont des mesures de probabilité est essen-
tielle ici : la suite des fonctions de répartition des mesures δn converge simplement
vers la fonction nulle, mais il n'y a pas de convergence en loi.
51
Dénition 5.1.4. La fonction caractéristique d'une mesure positive nie µ sur Rd
est Z
ϕµ (x) := exp(ihx, yi)dµ.
y
Théorème 5.1.5 (Théorème de Lévy). Soit (µn )n∈N une suite de mesures de prob-
abilités sur Rd . Alors la suite (µn )n∈N converge étroitement vers une mesure de
probabilité µ ssi la suite (ϕµn )n∈N converge simplement vers ϕµ .
alors
0 0
µ1 (F ) 6 µ2 (F¯r ) + r 6 µ3 ((F¯r )r ) + r + r0 6 µ3 (F r+r ) + r + r0 ,
et donc dLP (µ1 , µ3 ) 6 r + r0 . On conclut en prenant l'inf sur les r et r0 admissibles.
52
Proposition 5.2.2. La distance dLP induit la topologie de la convergence étroite.
La preuve utilisera le lemme suivant :
Lemme 5.2.3. Soit (E, d) un espace métrique séparable, µ une mesure borelienne
nie sur E et D un sous-ensemble dénombrable dense de E . Pour tout ε > 0, il
existe une famille dénombrable de points xi de D et une famille (δi )i∈N ∈ (0, δ)N
tels que [
B(xi , δi ) = E; µ(∂B(xi , δi )) = 0.
i∈N
Lemme 5.2.4. Soit (E, d) un espace métrique séparable et µ une mesure borelienne
nie sur E , et δ > 0. Il existe une partition de E en des ensembles disjoints Ai
avec diam(Ai ) < δ et µ(∂A) = 0.
Preuve de la Proposition 5.2.2. Tout d'abord, montrons que si dLP (µn , µ) −→ 0,
alors µn converge étroitement vers µ. On a une suite εn qui décroît vers 0 telle que
pour tout n et tout fermé F on a
µ(F ) 6 µn (F εn ) + εn ; µn (F ) 6 µ(F εn ) + εn .
Donc
lim sup µn (F ) 6 lim sup µ(F εn ) + εn = µ(F̄ ) = µ(F ).
La Proposition 5.1.2 permet de conclure.
Montrons maintenant que si µn converge étroitement vers µ, alors dLP (µn , µ)
tend vers 0. Soit ε > 0 et δ < ε/3. En utilisant le lemme 5.2.3, on se donne une
collection de boules Bi = B(xi , δi ) avec δi < δ/2, ∪i Bi = E et µ(∂Bi ) = 0 pour
tout i. Soit k tel que
µ ∪ki=1 Bi > 1 − δ.
Comme tout élément de A ets une réunion nie d'ensembles dont les frontières sont
de mesure nulle, pour tout A ∈ A on a µ(∂A) = 0. On a donc µn (A) −→ µ(A)
pour tout A ∈ A. Soit N susemment grand pour que
53
Soit B un borelien arbitraire, qu'on souhaite approximer avec
A = ∪j6k,Bj ∩B6=∅ Bj .
On a donc dLP (µ, µn ) 6 ε pour tout n > N . Donc on a bien dLP (µ, µn ) −→ 0.
Les Aj forment bien une partition de E , et ils sont tous de diamètre inférieur à δ .
De plus,
∂An ⊂ ∪j6n ∂Bj
et donc on a bien µ(∂An ) 6 j6n µ(∂Bj ) = 0.
P
X
µn := βj δxj .
j
54
On note que µn est bien une mesure de probabilité de la forme (5.1).
On a ensuite pour tout fermé F l'inclusion ∪xj ∈F Bj ⊂ F 2δ , et donc
X 1 X 1
µn (F ) = βj 6 + µ(Aj ) 6 µ(F 2δ ) +
n n
xj ∈F j
5.3 Tension
L'objectif de cette section est d'étudier plus en détails la topologie de des espaces
de mesures de probabilité, et notamment d'en caractériser les sous-ensembles séqen-
tiellement compacts (pour la convergence étroite).
55
Corollaire 5.3.2. Soit (µn ) une séquence de mesures de probabilités sur R. Il
existe une sous-suite convergeant vaguement vers une mesure positive µ sur R, avec
µ(R) 6 1, c'est à dire que pour toute fonction f continue à support compact,
Z Z
f dµn −→ f dµ.
NB. La limite d'une suite de fonctions de répartition obtenue via le lemme de Helly-
Braye n'est pas forcément elle-même une fonction de répartition. Par exemple, la
suite des fonctions de répartitions des mesures de Dirac δn est 1[n,+∞) , et leur limite
est la fonction nulle.
En revanche, cette limite est toujours une fonction croissante.
En d'autres termes, l'ensemble des mesures positives sur R de masse inférieure
à 1 est séquentiellement compact pour la convergence vague. Par contre, l'ensemble
des mesures de probabilité ne l'est pas. De plus, comme la limite peut avoir une
masse totale strictement inférieure à 1, il n'y a pas nécessairement convergence
étroite.
Pour pouvoir garantir que la limite (après extraction) est une mesure de prob-
abilité, il faut et sut que la limite des fonctions caractéristiques tende vers 1 en
+∞ et 0 en −∞, i.e.
Dénition 5.3.3 (Tension, cas réel). Une famille Γ de mesures de probabilité sur
R est dite tendue si pour tout ε > 0, il existe r > 0 tel que
Exercice 5.3.1. Montrer que une suite de mesures de probabilité est tendue ssi on
a (5.2).
Solution 5.3.1. La notion de tension est équivalente à
lim inf Fµn (r) − Fµn (−r) = 1.
r n
Comme de plus les fonctions de répartition sont croissantes et prennent des valeurs
entre 0 et 1, on a
lim inf Fµn (r) = 1; lim inf Fµn (−r) = 0.
r n r n
On en déduit que
1 > lim lim Fµn (r) > lim inf Fµn (r) = 1
r n r n
56
Réciproquement, si on a (5.2), pour tout ε > 0, il existe R > 0 et N = N (R)
tels que pour tout n > N et r > R on ait
Fµn (r) > 1 − ε/2.
Comme de plus pour n xé la fonction de répartition tend vers 1 à l'inni, quitte à
augmenter r on peut avoir la même borne pour n < N , et donc trouver r tel que
inf Fµn (r) > 1 − ε/2.
n
57
5.3.3 Cas général
Le but maintenant sera de voir le théorème de Prokhorov dans un cadre plus général.
La généralisation naturelle de la notion de tension pour un espace topologique est :
Dénition 5.3.10 (Tension). Un ensemble Γ ⊂ P(E) est tendu si pour tout ε > 0
il existe un compact Kε ⊂ E tel que
sup µ(E\Kε ) 6 ε.
µ∈Γ
X c
µ(Ac ) 6 µ ∪n6Nk B̄(zn , 1/k) 6 ε.
k
3. Soit {µ1 , ..., µn } un ensemble ni de mesures. Pour tout ε > 0, il existe des
compacts Ki tels que µi (Ki ) > 1 − ε. Alors ∪i Ki est un compact, et tous les
µi lui donnent une masse supérieure à 1 − ε. L'ensemble {µ1 , ..., µn } est donc
tendu.
Notre but va être maintenant de prouver la caractérisation suivante:
58
Sans perdre de généralité, on supposera les Kp emboîtés, c'est à dire Kp ⊂ Kp+1 .
On peut considérer des restrictions à ces domaines Kp , c'est à dire les mesures de
probabilités µpn dénies par
µn (A ∩ Kp )
µpn (A) := .
µn (Kp )
Ces mesures représentent bien sûr des lois conditionnelles, avec contrainte de rester
dans Kp .
Comme ces mesures sont à support dans un compact, on sait qu'elles sont
séquentiellement compactes : pour tout p, on peut extraire une sous-suite de µpn
qui converge étroitement vers une limite ν p , elle ausi à support dans Kp . Par
extraction diagonale, on peut alors trouver une sous suite ϕ(n) telle que
etr.
µϕ(n) −→ ν p
pour tout p. De plus, comme les µn (Kp ) sont à valeurs dans [1 − p−1 , 1], on peut
aussi sans perdre de généralité (quitte à extraire de nouveau) supposer que pour
tout p,
µϕ(n) (Kp ) −→ mp ∈ [1 − p−1 , 1]
pour tout p > 1. On pose µp = mp ν p . Comme les Kp sont emboi îtés, on a
µn ((A ∩ Kp ) ∩ Kp+1 ) = µn (A ∩ Kp ), et donc µp+1 (A ∩ Kp ) = µp (A). De plus,
µp (A) 6 µp+1 (A) pour tout A. On peut donc étendre µp à l'espace tout entier par
µp (A) = µp (A ∩ Kp ), et dénir
lim inf µϕ(n) (O) > lim inf µϕ(n) (O ∩ Kp ) = lim inf µpϕ(n) (O)µϕ(n) (Kp ).
n n
En faisant tendre p vers l'inni, on en déduit lim inf n µϕ(n) (O) > µ(O), ce qui donne
la convergence étroite via la Propositon 5.1.2.
Démontrons maintenant la réciproque. Soit Γ une famille relativement com-
pacte. Quitte à prendre son adhérence, on peut supposer qu'elle est compacte.
Ceci se fait sans perte de généralité, puisque si l'adhérence d'une famille est ten-
due, la famille est aussi tendue. Soit (xn )n∈N une famille dénombrable dense et
Ok,n := j6n B(xi , 1/k).
S
Pour tout k et tout ε > 0, il existe N tel que pour toute mesure µ ∈ Γ on ait
µ(Ok,N ) > 1 − ε. En eet, si ce n'était pas le cas, on pourrait trouver une suite µn
qui converge vers une mesure µ ∈ Γ par compacité, et telle que µn (Ok,n ) 6 1 − ε
pour tout n. Mais alors, par monotone de la suite Ok,n en n, on aurait pour tout
m
µ(Ok,m ) 6 lim inf µn (Ok,m ) 6 lim inf µn (Ok,n ) 6 1 − ε.
n n
59
Mais comme n Ok,n = E , on a aussi limn µ(Ok,m ) = 1, et donc il y aurait contra-
S
diction.
SoitTε > 0, et Nk un entier tel que µ(Ok,N ) > 1 − ε/2k pour tout µ ∈ Γ. Posons
K := k>1 Ōk,Nk . Alors K est précompact, et fermé, donc compact car E est
complet. De plus,
X X ε
c
µ(E/K) 6 µ(Ok,N ) 6 = ε.
k
2k
k k>1
Corollaire 5.3.12. Soit (Xn )n∈N une suite de variables aléatoires à valeurs dans
Rd . On suppose que pour tout ε > 0 il existe R > 0 tel que
Alors il existe une extraction ϕ et une variable aléatoire X à valeurs dans Rd telles
que Xn −→ loi
X.
Démontrons maintenant le Théorème 5.2.6 (qui n'a pas été utilisé dans la dé-
monstration du théorème de Prokhorov).
Preuve du Théorème 5.2.6. Soit (µn ) une suite de Cauchy pour dLP . Nous allons
montrer qu'elle est tendue, et le théorème de Prokhorov nous permettra ensuite
de conclure qu'on peut en extraire une sous-suite convergente, ce qui sura pour
déduire la complétude.
Par propriété de Cauchy, il existe une extraction ϕ telle que
ε
dLP (µm , µϕ (n)) 6 ∀m > ϕ(n).
2n+1
Comme l'ensemble ni {µ1 , ..., µϕ(n) } est tendu, on peut trouver un compact Kn
tel que
ε
max µ(E/Kn ) 6 n+1 .
i6ϕ(n) 2
En conséquence, pour tout m > ϕ(n), on a
n+1 ε
µm (Knε/2 ) > µϕ(n) (Kn ) − dLP (µm , µϕ(n) ) > 1 − .
2n
De plus, cette inégalité est aussi valable pour m 6 ϕ(n), par choix de Kn . Posons
ensuite \ ε/2n+1
K= Kn .
n
ε/2n+1
Comme Kn peut être recouvert par un nombre ni de boules de rayon ε2−n−1 ,
K peut être recouvert par un nombre ni de boules de rayon arbitrairement petit,
60
et est donc précompact. De plus, c'est un ensemble fermé dans un espace complet,
il est donc compact. De plus, pour tout m, on a
X ε/2n+1 c
X ε
µm (E/K) 6 µm ((Kn ) )6 = ε.
n n
2n+1
61
Exercice 5.4.2. Soit γt la mesure gaussienne centrée de variance t2 . Montrer que
si µ a une densité bornée par une constante K , alors pour tout h > 0 on a
t
Fγt ∗µ (x) − Fµ (x) 6 Kh +
h
et en déduire que √
dKol (γt ∗ µ, µ) 6 2 tK.
et donc σ
FγT ∗µ (x) 6 Fµ (x + h) + P(Z 6 −h) 6 Fµ (x + h) + .
h
De plus, comme la densité de µ est bornée, Fµ (x + h) − Fµ (x) 6 Kh. La première
inégalité suit.
De même,
σ
Fµ (x) 6 FγT ∗µ (x − h) + P(Z > h) 6 FγT ∗µ (x) + .
h
On a donc bien σ
sup |FγT ∗µ (x) − Fµ (x)| 6 Kh + .
x h
On optimise sur h pour conclure.
On peut utiliser ce résultat pour relier la convergence en distance de Kolmogorov
au comportement des fonctions caractéristiques :
Ce résultat est une variante d'une inégalité classique de Esseen, qui utilise une
convolution avec une variable de densité (1 − cos(T x))/(T x2 ), dont la fonction car-
actéristique a l'avantage d'être à support compact, plutôt qu'avec une gaussienne.
Le résultat optimal a un second terme en T −1 , et ne demande une borne sur la
densité que pour une seule des deux variables.
Proof. Soit X (resp. Y ) une variable aléatoire de loi µ (resp. ν ). Soit Z une
variable aléatoire gausienne de variance σ 2 , indépendante de X et Y . On note fσ
(resp. gσ ) la densité de la loi de X + Z (resp. Y + Z ). De même, on note Fσ (resp.
Gσ ) la fonction de répartition de la loi de X + Z (resp. Y + Z ).Ces fonctions de
répartition sont continues, donc en utilisant la formule d'inversion de Fourier, on a
62
La fonction caractéristique de Z est exp(−σ 2 x2 /2). On a donc
Z ∞
1 (ϕX (y) − ϕY (y)) ixy −σ2 y2 /2
Fσ (x) − Gσ (x) = e e dy.
2π −∞ iy
D'où
∞ 2 2 /2
T
|ϕX (y) − ϕY (y)| e−σ y
Z Z
1 1
sup |Fσ (x) − Gσ (x)| 6 dy + dy. (5.3)
x 2π −T |y| π T |y|
Pour le deuxième terme, on prouve aisément une borne de la forme C/(σ 2 T 2 ) avec
C une constante positive qui ne dépend d'aucun des paramètres du problème. On
a donc Z T
1 |ϕX (y) − ϕY (y)| C
dKol (X + Z, Y + Z) 6 dy + 2 2 .
2π −T |y| σ T
Avec l'inégalité triangulaire, on en déduit que
1
Z T
|ϕX (y) − ϕY (y)| C √
dKol (X, Y ) 6 dy + 2 2 + 4 σK.
2π −T |y| σ T
Z Z
f − gdx = f − gdx
A Ac
Et donc
Z Z Z
1 1
|µ(A) − ν(A)| = f − gdx + f − gdx 6 |f − g|dx.
2
A
Ac 2
63
Réciproquement, si on considère l'ensemble mesurable A = {x; f (x) > g(x)},
on a
Z Z Z
|f − g|dx = f − gdx+ g − f dx = |µ(A)−ν(A)|+|µ(Ac )−ν(Ac )| = 2|µ(A)−ν(A)|.
A Ac
Exercice 5.4.3. Montrer que si µ est une mesure de probabilité à support dans
et ν une mesure de probabilité à support dans [c, d] avec c > b, alors
[a, b]
Z Z
W1 (µ, ν) = ydν − xdµ.
Donner un contre-exemple lorsque la condition sur les supports n'est pas vériée.
Solution 5.4.3. Pour tout couplage (X, Y ) de ces deux mesures, à cause de la
comparaison entre les supports on a X < Y , et donc
E[|X − Y |] = E[Y ] − E[X].
64
Alors pour tout couplage π on a
Comme K1 × K2 est compact, on en déduit que l'ensemble des couplages est tendu,
et donc relativement compact par le Théorème de Prokhorov.
Il nous reste à montrer que l'ensemble des couplages est fermé pour la conver-
gence étroite pour conclure la preuve. Soit πn une suite de couplages, qui converge
étoitement vers une mesure de probabilité π sur Rd × Rd . Pour toute fonction
continue bornée
Z Z Z Z
f (x)dπ(x, y) = lim f (x)dπn (x, y) = lim f (x)dµ(x) = f (x)dµ(x).
n
Comme l'ensemble des couplages est compact, quitte à extraire, on peut supposer
que πn converge étroitement vers un couplage π. Comme π est un couplage, par
dénition on a Z
|x − y|dπ > W1 (µ, ν).
Comme on avait déjà l'inégalité inverse, on en déduit qu'il y a égalité, ce qui conclut
la preuve.
On a aussi une formulation duale de W1 :
65
Esquisse de preuve. On tout d'abord
(
si γ ∈ Π(µ, ν)
Z Z Z
0
sup − f (x) − g(y)dγ(x, y) + f dµ − gdν =
f,g +∞ sinon
où le sup est sur l'ensemble des mesures positives sur Rd × Rd (et pas juste les
mesures de probabilité). On peut donc relacher la contrainte de couplage en
Z Z Z Z Z
inf |x − y|dπ = inf γ > 0 sup |x − y|dγ− f (x) − g(y)dγ(x, y)+ f dµ+ gdν.
π∈Π(µ,ν) f,g
on a alors
Z Z Z
inf |x − y|dπ = sup f dµ − gdν.
π∈Π(µ,ν) f (x)−g(y)6|x−y|
Théorème 5.4.10. Soit (µn )n∈N et µ des mesures de probabilité sur Rd . Les propo-
sitions suivantes sont équivalentes :
1. (µn )n∈N converge étroitement vers µ et |x|dµn −→ |x|dµ ;
R R
66
2. W1 (µn , µ) −→ 0.
Pour démontrer ce résultat, on commencera par le cas compact, donné par le
lemme suivant :
Lemme 5.4.11. Soit (µn )n∈N et µ des mesures de probabilité sur la boules fermé
B(0, R). Alors (µn ) converge étroitement vers µ ssi W1 (µn , µ) −→ 0.
Proof. Le sens réciproque est immédiat via la Proposition 5.1.2 (puisque les fonc-
tions lispchitz sur un compact sont bornées).
Pour le sens direct, on va raisonner par contradiction. Supposons que W1 (µn , µ)
ne tend pas vers 0. Par la formule de dualité de Kantorovitch-Rubinstein, il existe
alors ε > 0 et une suite de fonctions 1-lispchitz sur B(0, R) telles que
Z Z
inf fn dµn − fn dµ > ε.
n
Sans perdre de généralité, on peut supposer que fn (0) = 0 pour tout n. On peut
alors utiliser le théorème d'Arzela-Ascoli pour en extraire une suite convergent vers
une fonction f pour la norme uniforme. Cette fonction f est encore 1 lipschitz et
vérie f (0) = 0. Par convergence étroite vers µ, pour tout N assez grand
Z Z
f dµN − f dµ 6 ε/4.
Preuve du Théorème 5.4.10. Pour démontrer que (2) ⇒ (1), on utilise la conver-
gence des espérances de fonction lispchitz, et la Proposition 5.1.2 pour obtenir la
convergence en loi. Pour la convergence du moment, on peut utiliser la borne
67
Comme ces mesures vivent sur un compact, et que µn (B(0, R)) −→ µ(B(0, R))
pour presque tout R > 0, on peut trouver R arbitrairement grand tel que
W1 (µR R
n , µ ) −→ 0.
Z Z
|x|1|x|>R dµn −→ |x|1|x|>R dµ.
Donc pour tout ε > 0 on peut trouver R arbitrairement grand et N tels que pour
tout n > N
W1 (µR
n , µn ) 6 ε.
Or µ(g1 ) − ν(g1 ) 6 ε−1 W1 (µ, ν), et ν(g1 ) − ν((−∞, x]) 6 ν((x, x + ε)) 6 Cε car la
densité de ν est bornée par C . On en déduit
68
5.5 Théorème de représentation de Skorokhod
Théorème 5.5.1. Soit (µn )n∈N une suite de lois de probabilité sur un espace polon-
ais (E, d), qui converge étroitement vers une mesure de probabilité µ. Alors il existe
un espace de probailité (Ω, F, P) et des variables aléatoires (Zn )n∈N et Z sur cet es-
pace telles que
1. Pour tout n ∈ N la loi de Zn est µn , et la loi de Z est µ;
2. (Zn )n∈N converge p.s. vers Z .
Cas E = R. Si Fµ : x −→ µ((−∞, x] est la fonction de répartition de la mesure de
probabilité µ sur R, alors la fonction
est une fonction de (0, 1) dans R, telle que si U est uniforme sur (0, 1), alors Fµ−1 (U )
a pour loi µ. Cette construction nous permet de constuire des suites de variables
de lois données, mais fortement corrélées.
Si µn converge étroitement vers µ, alors on a pour tout t ∈ (0, 1)
où Fµ−1 (t+) est la limite à droite de Fµ−1 en t. Comme Fµ−1 est monotone, elle est
continue presque partout, et on en déduit que Fµ−1 n
(U ) converge p.s. vers Fµ−1 (U ),
ce qui conclut la preuve.
69
Proposition 5.6.2. Une suite de mesures de probabilité (µn ) sur Rd converge
étroitement vers une mesure de probabilité µ ssi elle converge vaguement et si
µn (Rd ) −→ 1.
Plus généralement, ce résultat est vrai si l'espace métrique (E, d) est localement
compact.
On a aussi Z Z Z
lim ϕ` dµ = 1; lim ϕ` dµn = ϕ` dµ.
` n
Or
Z Z Z Z
f dµn − f dµ 6 f dµn − f ϕ` dµn
Z Z Z Z
+ f ϕ` dµn − f ϕ` dµ + f ϕ` dµ − f dµ
Z Z Z Z
6 f ϕ` dµn − f ϕ` dµ + ||f ||∞ 2 − ϕ` dµn − ϕ` dµ
Si de plus on demande que la mesure µ soit régulière, alors elle est unique.
On peut donc identier l'espace des mesures de probailité boréliennes régulières
avec le sous-espace des formes linéaires continues positives et de norme égale à 1.
Ce résultat n'est pas vrai pour la convergence étroite : même si les mesures
de probabilité représentent des formes linéaires continues sur l'espace des fonctions
continues bornées, il existe des formes linéaires continues qui ne sont pas représenta-
bles par des mesures.
A partir du théorème de Riesz-Markov-Kakutani et du théorme de Banach-
Alaoglu-Bourbaki, on en déduite le théorème suivant :
70
Proposition 5.6.4. L'espace des mesures positives de masse totale inférieure à 1
est compact pour la convergence vague.
Toute suite de mesures de probailité a donc une valeur d'adhérencepour la con-
vergence vague, mais elle peut avoir une masse totale strictement inférieure à 1. En
eet, l'espace des mesures de probabilité n'ets pas fermé pour la convergence vague
si l'espace sous-jacent n'ets pas compact. Ceci explique le théorème de Prokhorov
: la seule obstruction à la compacité de l'espace des mesures de probabilité sur un
espace localement compact est le phénomène de perte de masse.
71
Chapter 6
Cette notion est invariante par translations, et une matrice de covariance est tou-
jours symétrique et positive. Si on applique la transformation ane
X −→ Cov(X)−1/2 (X − E[X])
le second moment de la norme des vecteurs aléatoires Yi , la suite de leurs loi est
tendue, et donc on peut en extraire une sous suite qui converge en loi vers une loi
µ sur Rd .
72
Comme pour tout vecteur p xé les variables aléatoires Yn · p vérient les hy-
pothèses du TCL unidimensionnel, on en déduit qu'elles converent en loi vers une
gaussienne unidimensionnelle centrée de variance |p|2 . Par continuité, la mesure
image de µ par l'application x −→ x · p est alors une mesure gaussienne centrée de
variance |p|2 . Par dénition, µ est donc une mesure gaussienne multidimension-
nelle centrée, et sa matrice de covariance est alors Id.
Théorème 6.2.1 (TCL de Lindeberg). Soit (Xin )n∈N,i6n une famille de variable
indépendantes centrées, et σi,n
2 := E[(X n )2 ]. On pose
i
n
X n
X
Sn := Xin ; s2n := 2
σi,n .
i=1 i=1
Corollaire 6.2.2 (TCL de Lyapunov). Supposons qu'il existe δ > 0 tel que
n
1 X
lim E[|Xin |2+δ ] = 0.
n s2+δ
n i=1
E[|Xi |2+δ ]
P(|Xi | > εsn ) 6
(εsn )2+δ
et donc
n n
1 X 1 X
E[X 2
1
i |Xi |>εsn ] 6 E[|Xi |2+δ ]ε−δ .
s2n s 2+δ
n
i=1 i=1
On en déduit que l'hypothèse du TCL de Lyapunov est eectivement plus forte que
l'hypothèse du TCL de Lindeberg.
Exercice 6.2.1. Montrer que si inf i σi,n > α > 0 et supi E[|Xin |2+δ ] 6 β < ∞
alors on peut appliquer le TCL de Lyapunov.
73
Solution 6.2.1. On a
X 1+δ/2
s2+δ
n = 2
σi,n > α2+δ n1+δ/2
et n
X
E[|Xin |2+δ ] 6 βn.
i=1
Donc n
1 X β
E[|Xin |2+δ ] 6 −→ 0.
s2+δ
n i=1
nδ/2 α2+δ
Le TCL de Lyapunov est donc applicable.
Exercice 6.2.2. Montrer que la condition de Lindeberg implique que
2
σi,n
lim max −→ 0.
n i6n s2n
Solution 6.2.2. Pour tout ε > 0, on a
2
max σi,n 6 s2n ε2 + max E[(Xin )2 1|Xin |>εsn ]
i6n i6n
n
E[(Xin )2 1|Xin |>εsn ]
X
6 s2n ε2 +
i=1
Passons maintnant à la preuve du TCL de Lindeberg. Elle reposera sur les deux
lemmes élémentaires suivants :
Lemme 6.2.4 (Développements de Taylor). Pour tout x ∈ R, on a
|eix − 1| 6 min(2, |x|); |eix − 1 − ix| 6 min(2|x|, x2 /2); (6.1)
74
Preuve du TCL de Lindeberg. Le but va être d'appliquer le théorème de Lévy, en
faisant un développement asymptotique de la fonction caractéristique. Sans perdre
de généralité, on supposera
P sn = 1 pour tout n.
On pose Sn := s1n nk=1 Xkn , et on notera ϕU la fonction caractéristique de la
loi de la variable aléatoire U . Par indépendance, on a
n
Y
ϕSn (x) = ϕXkn (x).
k=1
|ϕ(x) − 1 + t2 σk,n
2
/2| 6 t2 E[min((Xkn )2 , |t||Xkn |3 )];
De plus, comme maxk6n σk,n −→ 0 quand n tend vers l'inni (cf. Exercice 6.2.2),
pour t xé et n susamment grand les 1 − σk,n 2 t2 sont tous plus petits que 1 en
où on a une nouvelle fois utilisé que maxk6n σk,n −→ 0. Ceci conclut la preuve.
75
Pour se ramener au TCL de Lindeberg, il nous faut représenter Kn (πn ) comme
une somme de variable indépendantes. Pour cela, on va utiliser le couplage de Feller,
qui construit une permutation aléatoire uniforme de Sn à partir d'une famille de
variables X1n , ..., Xnn indépendantes, de lois
1 1
P(Xin = 0) = 1 − ; P(Xin = 1) = .
i i
Pour cela, on procède en n étapes. A la première étape, on part avec l'élément 1,
et on lui choisit une image uniformément au hasard, en choisissant comme image
1 si Xnn = 1 (ce qui clot un cycle). Ensuit, à l'étape i, on clot le cycle courant si
n
Xn−i+1 = 1, et on redémarre un nouveau cycle avec le plus petit élème pour lequel
on n'a pas encore choisit d'image. Sinon, si Xn−i+1 = 0, on chosiit une image au
denrier élément du cycle uniformément parmis les éléments qui ne sont pas encore
dans un cyle, et on démarre l'étape suivante avec ce même cycle inachevé comme
cycle courant.
Cette procédure dénit bien une permutation aléatoire uniforme. Et avec cette
représentation, s πn est la permutation aléatoire qu'on a construit, comme à chaque
étape on ferme un cycle ssi Xn−i+1
n = 1, on a
n
X
Kn (πn ) = Xin .
i=1
Donc Kn se représente bien comme une some de variables indépendantes, mais pas
identiquement distribuées. Donc on ne peut pas appliquer le TCL classique, mais
on peut espérer appliquer le TCL de Lindeberg. Et en fait, ce sera le Corollaire
6.2.3 qu'on va pouvoir appliquer. En eet, pour tout i, n |Xin − E[Xin ]| 6 1, alors
que
n
2
X i−1
sn = ≡ log n −→ ∞.
i2
i=1
Exercice 6.2.3. A partir du couplage de Feller, calculer E[Kn (πn )] et Var(Kn (πn )).
Solution 6.2.3. On a
n n
X X 1
E[Kn (πn )] = E[Xi ] =
i
i=1 i=1
et n n
X X i−1
Var(Kn (πn )) = Var(Xi ) = .
i2
i=1 i=1
76
Lemme 6.3.1 (Lemme de Stein). La loi normale centrée réduite N (0, 1) est la
seule loi de probabilité sur R telle que pour toute fonction C 1 , à croissance au plus
polynomiale et dont la dérivée est à croissance au plus polynomiale, on ait
E[Xf (X)] = E[f 0 (X)].
Le fait que la mesure gaussienne vérie cette formule se prouve par IPP, car
Z Z Z
−x2 /2 −x2 /2 0 2
xf (x)e dx = − f (e ) dx = f 0 e−x /2 dx.
On omet la preuve du sens réciproque, qui sera impliquée par la proposition ci-
dessous.
Le résultat principal de cette section est que ce lemme peut être renforcé en une
version quantitative :
Proposition 6.3.2. Soit γ la loi N (0, 1). Pour toute mesure de probailité µ sur
R, on a
W1 (µ, γ) 6 sup Eµ [f 0 (X) − Xf (X)].
||f ||∞ ,||f 0 || ∞ 61,||f 00 || ∞ 64
On peut alors directement vérier que la fonction suivante est une solution de
l'équation diérentielle :
Z 1
1 √ √
f (x) := − √√ Eγ [Xh( tx + 1 − tX)]dt.
0 2 t 1−t
En eet, en dérivant sous l'intégrale (ce qui se justie par le théorème de convergence
dominée), on a
0
Z 1
1 √ √
f (x) = − √ Eγ [Xh0 ( tx + 1 − tX)]dt. (6.3)
0 2 1−t
Mais par intégration par partie gaussienne
√ √ √ √ √
Eγ [Xh( tx + 1 − tX)] = 1 − tEγ [h0 ( tx + 1 − tX)]. (6.4)
Donc
1 √ √
Z
0 X x 0
f (x) − xf (x) = Eγ − √ + √ h ( tx + 1 − tX) dt
0 2 1−t 2 t
d √ √
Z 1
= Eγ h( tx + 1 − tX) dt
0 dt
= h(x) − Eγ [h(Z)].
77
Ce n'est pas la seule solution de l'équation diérentielle, mais on peut montrer que
c'est la seule solution bornée, car la diérence de deux solutions est nécessairement
2
de la forme Cex /2 .
A partir de cette formule, on peut explicitement calculer les bornes voulues.
Tout d'abord, comme |h0 | 6 1, en utilisant (6.4), on a
Z 1
1
||f ||∞ 6 √ dt = 1.
0 2 t
En eet, c'est bien une solution, et elle n'explose pas exponentiellement à l'inni,
donc c'est la même solution que celle dénie par la formule de représentation
stochastique ci-dessus, puisque deux solutions dièrent nécessairement par un terme
2
de la forme Cex /2 . Alors on a
Z x
0 x2 /2 2
f (x) = g(x) − Eγ [g] + xe (g(y) − Eγ [g])e−y /2 dy,
−∞
et donc
√ x
Z
2 2 /2
|f 0 (x)| 6 ||g − Eγ (g)||∞ 1 + xex /2 2π − e−y dy .
−∞
Pour toute fonction h 1-lipschitz, on substitue ensuite à h−Eγ [h] la fonction f 0 −xf
avec f la solution de l'équation diérentielle donée par le lemme de régularisation.
Comme cette solution vérie les bornes |f |, |f 0 | 6 1, et |f 00 | 6 4, le résultat suit
immédiatement.
78
6.3.2 Méthode des paires échangeables et application au TCL
Dans cette section, on va voir comment utiliser le lemme de Stein pour donner une
borne sur la vitesse de convergence dans le TCL.
Théorème 6.3.4. Soit (W, W 0 ) une paire de variables aléatoires aléatoires réelles,
de même loi, centrées et de variance égale à 1. Supposons de plus que il existe
λ ∈ (0, 1) tel que
E[W 0 − W |W ] = −λW.
Alors si Z est une gaussienne centrée réduite,
s
1 2
W1 (W, Z) 6 Var E 0 2
(W − W ) |W + E[|W 0 − W |3 ]
2λ 3λ
Proof. Le but va être d'appliquer la Proposition 6.3.2. Soit f une fonction avec
|f |, |f 0 | 6 1, |f 00 | 6 4. Posons
Z x
F (x) := f (y)dy.
0
0 = E[F (W 0 ) − F (W )]
0 1 0 2 0
= E (W − W )f (W ) + (W − W ) f (W ) + R
2
1
= −λE[W f (W )] + E[(W 0 − W )2 f 0 (W )] + E[R]
2
avec
1 2
|R| 6 |f 00 |∞ |W 0 − W |3 6 |W 0 − W |3 .
6 3
On en déduit que
Théorème 6.3.5. SoitP(Xn )n∈N une suite de variable aléatoire i.i.d. centrées ré-
duites, et Sn := n−1/2 ni=1 Xi . Alors
16 1 p
W1 (Sn , Z) 6 √ E[|X1 |3 ] + √ E[|X1 |4 ].
3 n 2 n
79
Il est possible de prouver une version plus forte de ce théorème, où il faut
seulement une borne sur le moment d'ordre 3. Si le moment d'ordre 3 est inni, la
√
vitesse de convergence est en général plus lente qu'en 1/ n.
Proof. Le but va être d'appliquer le Théorème 6.3.4, il nous faut donc construire une
paire pour Sn qui vérie les hypothèses du théorème. Nous allons la construire en
choisissant uniformément au hasard l'un des éléments de la somme, et le remplacer
par une copie indépendante.
Soit X 0 une copie indépendante des Xi , et I un élément de {1, ..., n} choisi
uniformément au hasard, indépendamment des Xi et de X 0 . On pose
X0 XI
Sn0 := Sn + √ − √ .
n n
Donc les hypothèses du Théorème 6.3.4 sont vériées avec λ = 1/n. De plus
et
E[X14 ]
X
1 X 2 1
Var(E[n(Sn0 2
− Sn ) |Sn ]) = Var E[ Xi |Sn ] 6 Var 2
Xi 6 .
n n n
La conclusion suit immédiatement.
Dans cette dernière étape, on a utilisé le fait que pour toute variable aléatoire
rélle Y et sous-tribu F , on a
Var(Y ) = inf E[(Y − c)2 ] > inf E[(E[Y − F] − c)2 ] = Var(E[Y |F]).
c c
80
2. converge en probabilité vers la constante 1.
Pkn n n )2
j=1 (Mj − Mj−1
Alors Mknn converge en loi vers une gaussienne centrée réduite.
La preuve utilisera le lemme suivant :
Lemme 6.4.2. Soit (Un ) et (Vn ) deux suites de variables aléatoires. Supposons que
1. (Un )n∈N converge en probabilité vers une constante a;
2. Les suites (Vn )n∈N et (Un Vn )n∈N sont uniformément intégrables;
3. E[Vn ] −→ 1.
Alors E[Un Vn ] −→ a.
Proof. On a E[Un Vn ] = aE[Vn ] + E[Vn (Un − a)], donc il sut de montrer que
E[Vn (Un − a)] tend vers 0. Comme (Vn (Un − a))n∈N est uniformément intégrable,
car somme de variables uniformément intégrables, il sut de montrer la convergence
en probabilité vers 0.
Or pour tout K > 0, on a
P(|Vn (Un − a)| > ε) 6 P(|Un − a| > ε/K) + P(|Vn | > K).
Comme (Vn )n∈N est uniformément intégrable, on peut choisir K pour rendre le sec-
ond terme arbitrairment petit. Et comme (Un )n∈N converge converge en probabilité
vers a, le premier terme tend vers 0, et donc on a bien
Preuve du Théorème 6.4.1. Nous allons faire la preuve sous l'hypothèse supplémen-
taire
kn
X
∀n, (Mjn − Mj−1
n
)2 6 2. (6.5)
j=1
Le cas général se traite à partir de celui là, avec une procédure de cuto supplé-
mentaire, qu'on omet ici. Le but va être de montrer la convergence de la fonction
caractéristique de Mknn vers exp(−t2 /2), et d'appliquer le théorème de Lévy. Tout
d'abord, via un développement de Taylor, on peut écrire
Y kn
X kn
X
E[exp(itMknn )] = (1 + itZjn ) exp −t2 (Zjn )2 + r(tZjn ) .
j6kn j=1 j=1
Pour cela, montrons que les hypothèses du Lemme 6.4.2 sont vériées.
81
1. Par hypothèse, kj=1 (Zjn )2 converge en probabilité vers 1, donc il sut de
P n
Pkn
montrer que j=1 r(tZjn ) converge en probabilité vers 0. On a
kn kn
X X
n 3
|Zjn |3
r(tZj ) 6 |t|
j=1 j=1
kn
X
6 |t|3 max |Zjn | |Zjn |2
j6kn
j=1
3 n
6 2|t| max |Zj |.
j6kn
2. Comme la suite (Un Vn )n∈N est bornée (en module) par 1, elle est unifor-
mément intégrable. Pour l'uniforme intégrabilité de Vn , grâce à l'inégalité
|1 + ix|2 6 exp(x2 ), on a
kn
1 X
|Vn | 6 exp t2 (Zjn )2 6 exp(t2 ),
2
j=1
82
Lemme 6.4.4. Soit Q la matrice de transition d'une chaîne de Markov irréductible
sur un espace ni X , et π sa mesure de probabilité invariante. Soit f : X −→ R
telle que Eπ [f ] = 0. Alors il existe une fonction h : X −→ R telle que f = h − Qh.
Proof. Tout d'abord, on a
R|X | = Ker(I − Q∗ ) ⊕ Im(I − Q).
L'espace Ker(I − Q∗ ) est l'espace des mesures (signées) invariantes. On sait que
comme la chaîne de Markov est irréductible sur un espace ni, les mesures invari-
antes forment un espace de dimension 1, et donc dim(Ker(Id − Q∗ )) = 1. Comme
Eπ [f ] = 0, f est orthogonale à cet espace, et donc f ∈ Im(I − Q).
On vérie que π̃((a, b)) = π(a)Q(a, b) est une mesure de probabilité invariante. On
applique le théorème ergodique avec la fonction f (a, b) = (u(b) − Qu(a))2 à cette
chaîne de Markov pour obtenir
1X p.s.
(u(Xi ) − Qu(Xi−1 )2 −→ Eπ [(u(X1 ) − Qu(X0 ))2 .
n
On a, via un conditionnement,
83
Exercice 6.4.1. On considère la chaîne de Markov sur {0, 1} dont la matrice de
transition est donnée par
1−α α
Q=
β 1−β
avec α, β ∈]0, 1[. étudier le comportement asymptotique des uctuations de la pro-
portion de temps passé en 0.
Solution 6.4.1. La chaîne de Markov est irréductible sur un espace ni, donc
récurrente. Un calcul montre que la mesure de probabilité invariante est donnée par
(β/(α + β), α/(α + β)).
Si f (x) = 1x=0 , alors Eπ [f ] = β/(α+β). La résolution de l'équation f −Eπ [f ] =
u − Qu donne u = P (0, −(α + β)−1 ). La variance limite dans le TCL pour les
uctuations de n−1/2 f (Xi ) est donnée par
α βα2 + α(1 − β)2 αβ(α − β + 2)
Eπ [u2 − (Qu)2 ] = − = .
(α + β)3 (α + β)3 (α + β)3
84
Chapter 7
r2
X
1 1
log P Xi 6 −r −→ −
n n 2
L'échelle logarithmique s'avère être la bonne échelle pour étudier l'asymptotique
de cette probabilité pour des variables générales. Toutefois, contrairement au TCL,
la limite n'est pas universelle, mais dépend des détails de la loi des Xi .
85
Commençons par regarder un deuxième exemple, celui des variables de Bernoulli
symétriques. On a
1 X n
P(Sn > xn) = n .
2 k
k>xn
On en déduit que
1
lim log P(Sn > xn) = −x log x − (1 − x) log(1 − x) − log 2.
n n
Par symétrie, on a pour x ∈ (0, 1/2)
1
lim log P(Sn 6 xn) = −x log x − (1 − x) log(1 − x) − log 2.
n n
On voit donc que cette limite est diérente pour les variables gaussiennes et
pour les variables de Bernoulli. La question est donc de comprendre comment
calculer cette limite pour des variables plus générales. Mais pour commencer, on
va regarder de soutils pour donner de sbornes exponentiellement petites sur des
probabilités d'évènements dans diérentes situations.
86
Regardons déjà ce que donne cette inégalité pour une variable gaussienne. Soit
X de loi N (0, σ 2 ). Alors
E[exp(λX)] = exp(λ2 σ 2 /2).
Appliquer l'inégalité de Cherno nous donne alors
2 2
λ σ
P[X > r] 6 inf exp − λr = exp(−r2 /(2σ 2 )).
λ 2
Si on reprend le calcul de la section précédente, on ale développement asymp-
totique
1
P(X > r) ≡ √ exp(−r2 /(2σ 2 )).
rσ 2π
La borne donnée par l'ingalité de Cherno est donc déjà très précise, pusiqu'elle
ne peut pas être améliorée en exp(−(1 + ε)r2 /(2σ 2 )).
Exercice 7.2.2. Utiliser ce lemme pour montrer que si X est une variable de
moyenne nulle et à valeurs dans [−A, B], alors pour toute fonction convexe ϕ, on
a
B A
E[ϕ(X)] 6 ϕ(−A) + ϕ(B).
A+B A+B
Preuve de l'inégalité de Hoeding. Tout d'abord, en appliquant le lemme 7.2.3, on
a
E[exp(λX1 )] 6 cosh(λA) 6 exp(λ2 A2 /2).
Par indépendance, on a alors
E[exp(λSn )] = E[exp(λX1 )]2 6 exp(nλ2 A2 /2).
On utilise ensuite l'inégalité de Cherno pour conclure.
87
On peut généraliser cette inégalité de la manière suivante :
Théorème 7.2.4 (Inégalité de Azuma-Hoeding). Soit Mn une martingale issue
de 0. On suppose que pour tout k on a |Mk+1 − Mk | 6 σk . Alors
r2
P (Mn > r) 6 exp − Pn .
2 k=1 σk2
Cette inégalité généralise celle de Hoeding, car une somme de variables aléa-
toires centrées est une martingale.
Proof. On a toujours
E[exp(λ(Mk+1 − Mn ))] 6 exp(λ2 σk2 /2)
car les incréments sont bornés. On a aussi
E[exp(λMn )] = E [E [exp(λMn−1 + λ(Mn − Mn−1 )) | Fn ]]
= E [exp(λMn−1 )E [exp(λ(Mn − Mn−1 )) | Fn ]] .
On souhaite majorer E [exp(λ(Mn − Mn−1 )) | Fn ]. Comme
Mn − Mn−1 1 Mn − Mn−1 1
Mn − Mn−1 = + σk + 1 − − (−σk ),
2σk 2 2σk 2
on a par convexité
Mn − Mn−1 1 Mn − Mn−1 1
exp(λ(Mn −Mn−1 )) 6 + exp(λσk )+ 1 − − exp(−λσk ).
2σk 2 2σk 2
En prenant l'espérance conditonnelle, on obtient
E [exp(λ(Mn − Mn−1 )) | Fn ] 6 cosh(λσk ) 6 exp(λ2 σk2 /2).
On en déduit par récurrence que
Pn
λ2 σk2
1
E[exp(λMn )] 6 exp
2
et on conclut en appliquant l'inégalité de Cherno.
88
La borne (7.1), est optimale, pusiqu'on a égalité pour f (x) = x1 . Le fait
que la constante soit indépendante de la dimension est à l'origine de nombreuses
applications en statistique, mais aussi en physique mathématique, en géométrie et
en sciences des données.
D'où
π 1
Z
E [exp(λf (Y ) − λf (X))] = E exp λ Yt · ∇f (Xt )dt
2 0
Z 1 h π i
6 E exp λ Yt · ∇f (Xt ) dt
0 2
Exercice 7.3.1. Soit f une fonction 1-lipschitz, et (Xi ) une suite de gaussiennes
centrées réduites indépendantes. Montrer que
n
" #
1X
P f (Xi ) > E[f (X1 )] + r 6 exp(−nr2 /2).
n
1
89
7.3.2 Maximum de gaussiennes indépendantes
On considère des gaussiennes centrées réduites réelles indépendantes, qu'on notera
Xi .
La fonction (x1 , ..., xn ) −→ max xi est 1-lipschitz pour tout n. On a donc
P(| max(X1 , ..., Xn ) − E[max(X1 , ..., Xn )]| > εE[max(X1 , ..., Xn )]) −→ 0
Cette borne est en fait asymptotiquement optimale (i.e. lorsque n tend vers l'inni).
A noter que cette borne n'est pas spécique au cas gaussien, elle est vraie pour
toute famille de variables (y compris non-indépendantes) telle que E[exp(λX)] 6
exp(λ2 /2). On appelle de telles variables des variables sous-gaussiennes. Par contre,
la borne sur le maximum n'ets plus optimale en générale (par exemple, elle est très
sous-optimale pour des variables bornées).
ε2
il existe une application linéaire A : RN −→ Rn telle que
∀x, y ∈ T, (1 − ε)||x − y||2 6 ||Ax − Ay||2 6 (1 + ε)||x − y||2 . (7.2)
Proof. La méthode de preuve qu'on va utiliser, parfois connue sous le nom de méth-
ode probailiste (terminologie utilisée en théorie des graphes), sera de choisir A au
90
hasard suivant une loi donnée, et montrer qu'on a une probabilité positive de vérier
(7.2).
Soit n ∈ N qu'on choisira plus tard. Soit B une matrice n×N avc Bi,j = √1n gi,j ,
où les gi,j sont des gaussiennes i.i.d. centrées réduites. Alors pour tout u ∈ RN
tel que ||u|| = 1, Bu est un vecteur gaussien de Rn centré, dont la matrice de
covariance est l'identité. Comme la norme euclidienne est 1-lipschitzienne, on a
P(|||Bu||2 −E[||Bu||]| > r) = P(||Bu||2 −E[||Bu||] > r)+P(||Bu||2 −E[||Bu||] 6 −r) 6 2 exp(−r2 /2).
2 log(2N 2 )
m2 >
ε2
pour qu'un A vériant (7.2) existe.
Comme on a pour X vecteur gaussien standard
91
2. Si X est une variable de Bernoulli de paramètre p, on a ϕ(t) :=
log E[exp(tX)] = log(pet + (1 − p)). Si pour x xé on pose f (t) =
tx − log(pet + (1 − p)), on a f 0 (t) = x − pet /(pet + 1 − p), et donc,
pour x ∈ (0, 1),
0 t (1 − p)x
f (t) = 0 ↔ pe (x − 1) + (1 − p)x = 0 ↔ t = log .
p(1 − x)
On en déduit que
t (1 − p)x (1 − p)x
sup tx − log(pe + (1 − p)) = x log − log +1−p
t p(1 − x) 1−x
x 1−x
= x log + (1 − x) log .
p 1−p
Au vu de ces calculs, les deux exemples de la Section 7.1 sont des cas particuliers
du résultat suivant :
Théorème 7.4.2 (Théorème de Cramèr sur R). Soit (Xn )n∈N une suite de variables
aléatoires i.i.d. On suppose que la fonction génératrice
ϕX (t) := log E etX
est nie sur un intervalle ouvert contenant 0. Alors pour tout x > E[X], on a
" n #
1 X
lim log P Xi > nx = −ϕ∗X (x)
n
i=1
Exercice 7.4.2. 1. Montrer que une transformée de Legendre est toujours une
fonction convexe.
2. Montrer que si ϕ est C 2 , strictement convexe minorée sur son domaine, t a
pou limites +∞ aux bords de son domaine, alors ϕ∗∗ = ϕ.
Solution 7.4.2. 1. C'est un sup de fonctions anes, donc convexe.
2. Dans ce cas, pour tout y ∈ R, la fonction x −→ xy − ϕ(x) est strictement
concave et majorée. Supposons qu'elle atteint son supremum en un point x.
Alors en dérivant, on a y = f 0 (x), et comme f 0 est inversible, x = (f 0 )−1 (y).
Donc
f ∗ (y) = y(f 0 )−1 (y) − f ((f 0 )−1 (y)).
En particulier, en dérivant on voit que (f ∗ )0 = (f 0 )−1 . Ceci implique que
la transformée de Legendre est une involution sur les fonctions strictement
convexes C 2 .
Ces résultats restent vrais si on suppose juste ϕ convexe, et rien de plus.
92
Théorème 7.4.3 (Théorème de Cramèr sur R). Soit (Xn )n∈N une suite de variables
aléatoires i.i.d. Soit
ϕX (t) := log E etX ,
qu'on suppose nie dans un voisinage de 0. Alors pour tout x > E[X], on a
" n #
1 X
lim log P Xi > nx = −ϕ∗X (x)
n
i=1
Une fois ces trois résultats démontrées, on en déduit que s = −ϕ∗ en appliquant
la transformée de Legendre à la 1ere assertion, modulo une subtilité sur le fait que
la première identité est sur R+ et pas R.
La preuve de la première partie utilisera l'inégalité de Cherno (Proposition
7.2.1).
Exercice 7.4.3. Utiliser l'inégalité de Cherno pour montrer que ϕX > (−s)∗ sur
R+ .
Solution 7.4.3. Soit t > 0. En prenant le log de l'inégalité de Cherno
1
ϕX (t) = log E[exp(ntX̄n )]
n
1
> log exp(ntλ)P(X̄n > λ)
n
1
= tλ + log P(X̄n > λ).
n
En optimsant sur λ, on obtient bien ϕX (t) > (−s)∗ (t) pour t > 0.
Prouvons maintenant l'inégalité inverse. L'identité ϕX (0) = (−s)∗ (0) = 0 est
triviale, on considèrera seulement les t > 0. Soit K > 0 xé. On a
1
log E exp(tX1 )1|X1 |6K = log E exp(tnX̄n )1|X1 |6K · · · 1|Xn |6K
n
1 h i
6 log E exp(tnX̄n )1|X̄n |6K
n " ! #
Z X̄n
1
= log E exp(−nK) + nt exp(ntu)du 1|X̄n |6K
n −K
Z +∞
1
= log exp(−nK) + E[1−K6u6X̄n 1|X̄n |6K ]nt exp(ntu)du
n −∞
93
où on a utilisé le théorème de Fubini à la dernière étape. Comme de plus
On conclut en faisant tendre n vers l'inni, puis K vers l'inni. Ceci conclut la
preuve de la première asserstion.
Pour la deuxième assertion, on procède avec un argument de sous-additivité. Il
nous sura de montrer que
1 1
lim inf log P(X̄n > x) > sup log P(X̄m > x).
n n m m
Fixons un entier m, et on décompose n = qn m + rn avec 0 6 rm < m. Si pour tout
i = 1, ...qn on a
im
1 X
Xj > x
m
j=(i−1)m+1
94
7.5 Principes de grandes déviations et théorème de
Cramér multidimensionnel
Dans la formulation du théorème de Cramér sur R, on utilise le caractère bien
ordonné de la droite réelle. Dans un contexte plus général, il nous faut une autre
formulation.
Dénition 7.5.1. Soit (E, d) un espace polonais. Une fonction I : E −→ [0, +∞]
est une bonne fonction de taux si elle est semi-continue inférieurement et si ses
ensembles de niveau sont compacts.
Soit (an ) une suite croissante de réels strictement positifs, et I une bonne fonc-
tion de taux sur E . Une suite de mesures de probabilité (µn ) sur E vérie un
principe de grande déviations de vitesse (an ) et de fonction de taux I si :
1. pour tout fermé F ⊂ E , on a lim sup a−1
n log µn (F ) 6 − inf F I;
qu'on suppose nie sur un voisinage de l'origine. Alors la suites de lois des X¯n
vérie un principe de grandes déviations, de vitesse n et de fonction de taux ϕ∗X .
divergence de Kullback-Leibler.
95
Proposition 7.6.2 (Formules de dualité pour l'entropie). Si µ et ν sont deux
mesures de probailité, on a
Z Z
Entµ (ν) = sup f dν − log ef dµ.
f bornee
= 1 + Entµ (ν) − 1.
Entµ (ν) = p log(p/q) + (1 − p) log((1 − p)/(1 − q)) > 2(p − q)2 = 2dT V (µ, ν)2 /2.
96
C'est une variable aléatoire à valeurs dans P(E), qu'on peut aussi voir comme un
espace polonais lorsqu'on le munit de la topologie de la convergence étroite. D'après
la loi forte des grands nombres, elle converge p.s. vers la mesure µ. Le résultat suiv-
ant nous dit que la probabilité d'observer une mesure empirique anormale proche
de ν 6= µ se comporte comme exp(−N Entµ (ν)) :
Théorème 7.6.5 (Théorème de Sanov). Soit (E, d) un espace polonais, µ ∈ P(E)
et (Xi ) un suite de variables aléatoires iid de loi µ. La suite des lois des mesures
empiriques associées à (Xi ) vérie un principe de grandes déviations de vitesse n
et de fonction de taux Entµ
On donne maintenant une ébauche de la preuve dans le cas particulier où E est
un espace ni {a1 , ..., ad }. Les valeurs possibles pour µN sont alors les mesures de
la forme
k1 k2 k1
νk,N = δa1 + δa2 · · · + δad
N N N
avec k1 , ..., kd des entiers naturels dont la somme vaut N . Il s'avère qu'elles ont
toutes la même probabilité, égale à
d
Y X
µ(aj )kj = exp N µN (aj ) log µ(aj ) . (7.3)
j=1
Pour calculer la probabilité que µN soit égale à νk,N , il faut donc dénombrer les
congurations possibles des Xi qui donnent lieu à cette mesure empirique. Le lemme
combinatoire suivant répond à cette question :
Lemme 7.6.6. On a
X kj X kj
1 kj
t.q. N
X
−1
exp −N log 6 {(x1 , ..., xN ) δ xj = νk,N } 6 exp −N
(N + 1)d N N N
En combinant cette borne et (7.3), on voit que
1
exp(−N Entµ (νk,N )) 6 P (µN = νk,N ) 6 exp(−N Entµ (νk,N )),
(N + 1)d
et donc si νk,N approxime ν lorsque N tend vers l'inni, on a
1
log P (µN = νk,N ) −→ − Entµ (ν).
N
Si on considère ensuite un ouvert O de P(E), pour tout ν ∈ O et pour N assez
grand on peut trouver des νk,N dans O qui approximent ν . Alors
1 1
log P(µn ∈ O) > log P(µn = νk,N ) −→ − Entµ (ν).
N N
Si ensuite on prend le sup sur ν ∈ O, on obtient la borne inf sur les ouverts.
Ensuite, pour F fermé de P(E), en notant PN l'ensemble des valeurs possibles
de µN , comme cet ensemble est de cardinal inférieur à (N + 1)d , on a
1 1 X 1 d
log P(µN ∈ F ) 6 log P(µN = νk,N ) 6
log (N + 1) sup exp(−N Entµ (ν))
N N N ν∈F
νk,N ∈PN ∩F
et le résultat suit.
97
7.6.1 Application aux tests d'hypothèse
On a un échantillon x = (x1 , .., xN ) obtenu à partir de variables iid de loi µ inconnue
sur un alphabet ni. On cherche à tester l'hypothèse µ = ν . Un test possible est
d'utiliser la fonction T (x) = 1 si Entν (µx ) < δ , et 0 sinon. On accepte l'hypothèse
si T (x) = 1, et on la rejete sinon.
D'après le théorème de Sanov, si an est la probabilité d'erreur de type 1 (rejeter
l'hypothèse à tort), on a l'asymptotique lim sup n−1 log an = δ . Donc le choix de δ
nous permet d'ajuster cette erreur.
Il est encore plus naturel de faire dépendre δ de la taille de l'échantillon.
98
Chapter 8
Bibliographie
Les chapitres 1 à 3 suivent largement les notes de cours de Jean-François Le Gall :
https://www.imo.universite-paris-saclay.fr/ jegall/IPPA2.pdf
Le traitement des théorèmes de convergence de martingales du chapitre 2 suit le
poste de blog de Djalil Chafaï : https://djalil.chafai.net/blog/2020/10/02/convergence-
of-discrete-time-martingales/
Le chapitre 5 est en partie inspiré par les notes de cours de Grégory Miermont
: https://perso.ens-lyon.fr/gregory.miermont/thlim.pdf
Le traitement du TCL martingale du chapitre 6 est tiré des notes
de cours de Sunder Sethuraman : https://www.math.arizona.edu/ sethu-
ram/notes/wi_mart1.pdf
La preuve du théorème de Cramér au chapitre 7 est issue de l'article A short
proof of Cramér's theorem on R de Raphaël Cerf et Pierre Petit.
99