Monte Carlo

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 124

Méthodes de Monte-Carlo

Annie MILLET∗

Universités Paris 7 et Paris 1


Master 2 ème année : Spécialité Modélisation Aléatoire
Recherche et Professionnel
Parcours : Statistique et Modèles Aléatoires en Finance
Parcours : Probabilités, Statistique et Applications :
Signal, Image, Réseaux

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
−1
−2
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

* Laboratoire de Probabilités et Modèles Aléatoires, Universités Paris 6 et Paris 7,


175 rue du Chevaleret 75013 Paris France et
SAMOS-MATISSE, Université Paris 1, 90 Rue de Tolbiac, 75634 Paris Cedex 13 France
e-mail : [email protected] et [email protected]
Table des matières
1 Générateurs de nombres pseudo-aléatoires et suites à discrépance faible 4
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Quelques générateurs fournis par les systèmes . . . . . . . . . . . . . . . . . . . 6
1.3 Générateurs portables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Suites à discrépance faible . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Simulation de variables aléatoires. 16


2.1 Méthode d’inversion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Méthode de rejet pour les lois uniformes . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Méthode de rejet générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Lois gaussiennes réelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.5 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Quelques autres lois classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.7 Méthode de décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8 Simulation de vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.9 Méthode de mélange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.10 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Simulation de processus 36
3.1 Mouvement Brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2 Intégrales stochastiques et diffusions . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3 Schéma d’Euler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Schéma de Milstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.5 Processus de Poisson. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6 Chaı̂nes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

4 Équation de Feynman-Kac et convergence faible des schémas de discrétisation 64


4.1 Générateur infinitésimal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.2 Équation de Feynman-Kac, problèmes de Cauchy et de Dirichlet. . . . . . . . . . 66
4.3 Convergence faible du schéma d’Euler . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Exercices. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5 Méthode de Monte Carlo 82


5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Réduction de la variance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.1 Échantillonnage préférentiel . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.2 Variables de contrôle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.3 Variables antithétiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2.4 Méthode de stratification . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.5 Valeur moyenne ou conditionnement . . . . . . . . . . . . . . . . . . . . 91
5.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

6 Méthode de Monte Carlo et chaı̂nes de Markov. 96


6.1 Mesures invariantes et Théorème ergodique. . . . . . . . . . . . . . . . . . . . . 96
6.2 Simulation exacte d’une probabilité stationnaire . . . . . . . . . . . . . . . . . . 102
6.3 Probabilités réversibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

2
6.4 Algorithme de Hastings-Metropolis. . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.5 Algorithme du recuit simulé. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

3
1 Générateurs de nombres pseudo-aléatoires et suites à
discrépance faible
1.1 Introduction
Toute simulation de Monte Carlo fait intervenir des nombres au hasard et il est donc crucial
de répondre à deux questions :
(1) Comment générer une suite de nombres (xn , n ≥ 1) qui soit la réalisation (Xn (ω) , n ≥ 1)
d’une suite de variables aléatoires indépendantes de même loi donnée ?
(2) Si une telle suite de nombres nous est donnée, comment décider si c’est une réalisation
acceptable de la loi demandée ?

Nous verrons que d’un point de vue théorique, la réponse à ces deux questions se ramène au
cas de la loi U([0, 1]) uniforme sur l’intervalle [0, 1] ; c’est ce qu’on appelle des nombres pseudo-
aléatoires. Pour la seconde question, la réponse est que la suite doit passer un certain nombre
de tests statistiques d’adéquation à la loi uniforme U([0, 1]) et d’indépendance. Rappelons deux
tests classiques d’adéquation sur la suite (U1 , · · · , Un ) de variables aléatoires simulées.
Pour utiliser le test du χ2 (qui permet de tester l’adéquation à une loi sur un ensemble fini
à p éléments), décomposons l’intervalle [0, 1] en p intervalles [(k − 1)/p , k/p[ pour 1 ≤ k ≤ p
et notons Nk (ω) le nombre d’indices i tels que Ui (ω) ∈ [(k − 1)/p , k/p[,
p
X (Nk − n/p)2
Zn = .
k=1
n/p

Lorsque la suite (Ui , i ≥ 1)) est indépendante de loi U([0, 1]), la suite (Zn , n ≥ 1) converge en
loi vers un χ2 à p − 1 degrés de liberté. Par contre, quand la suite (Ui , i ≥ 1) est indépendante
de même loi différente de U([0, 1]), ou tout au moins telle que la probabilité P (U1 ∈ [(k −
1)/p , k/p[) 6= p1 pour au moins une valeur de k ∈ {1, · · · , p}, alors Zn converge presque
sûrement vers +∞. Pratiquement, on choisit donc une valeur a telle que P (χ2 (p−1) ≤ a) ≤ 0.95
et si (ui , 1 ≤ i ≤ n) désigne les valeurs observées de la simulation des Ui et nk désigne le
nombre des valeurs ui pour 1 ≤ i ≤ n qui tombent dans l’intervalle [(k − 1)/p , k/p[, lorsque
Pp (nk − n/p)2
k=1 n/p
> a on rejette l’hypothèse : (U1 , · · · , Un ) est un n-échantillon de loi U([0, 1]).
La fonction de répartition d’un χ2 à ν degrés de liberté est tabulée pour des valeurs de ν
inférieures
√ ou égales à 30. Si 30 < ν < 100 et si Z est un χ2 à ν degrés de liberté, la loi

de 2Z − 2ν − 1 est proche de celle d’une gaussienne centrée réduite N (0, 1) et finalement,
si ν ≥ 100 d’après le théorème de la limite centrale, la loi de Z−ν √

est proche de celle d’une
gaussienne centrée réduite N (0, 1). Lorsque ν > 30, les quartiles sont approximés à partir des
valeurs tabulées de la fonction de répartition d’une gaussienne centrée réduite N (0, 1). Une
variante du test précédent, basée sur la convergence vers le χ2 , permet également de tester si
la loi d’un n-upplet de vecteurs (U1k , · · · , Urk ) ∈ Rr : 1 ≤ k ≤ n est de loi U([0, 1]r ).


Le test de Kolmogorov-Smirnov compare la fonction de répartition empirique


n
1 X
Fn (t) = 1{Ui ≤t} , ∀t ∈ [0, 1]
n i=1

à la fonction
√ de répartition de la loi uniforme F (t) = P (U ≤ t) = t , ∀t ∈ [0, 1]. La suite
Sn = n sup{|Fn (t) − t| : t ∈ [0, 1]} converge en loi vers S dont la fonction de répartition

4
P (S ≤ t) = 1 − ∞ k−1 −2 k 2 t2
P
k=1 (−1) e pour t ∈]0, 1] est tabulée si (Ui , i ≥ 1) est un échantillon
de loi U([0, 1]) (en fait ce test d’adéquation
√ est valable dans une situation beaucoup plus générale
et la fonction de répartition de n Sn est correctement approchée par celle de S si n ≥ 100).
De nouveau on choisit unePvaleur de a telle que P (S ≤ a) ≤ 1 − α (par exemple a = 1, 36
n
si α = 0.05) et si supt | n1 i=1 1{ui ≤t} − t| >
√a on rejette l’hypothèse : (U1 , · · · , Un ) est un
n
n-échantillon de loi U([0, 1]).

La réponse à la première question a donné lieu à une très abondante littérature. Les
procédures qui permettent d’obtenir de telles suites de nombres sont totalement déterministes
et plus ou moins sophistiquées. Voici la liste des qualités que devrait avoir un algorithme de
génération de nombres pseudo-aléatoires définies par Brent [2].
- Uniformité La suite doit passer avec succès les tests d’uniformité et d’indépendance
précédents. Si de nombreux générateurs utilisés dans le passé avaient de très mauvaises pro-
priétés statistiques, on dispose actuellement de générateurs qui passent convenablement ces
tests.
- Indépendance La suite (un , n ≥ 1) et aussi des sous-suites du type (und , n ≥ 1) doivent
être indépendantes au moins pour de « petites » valeurs de d, telles que d ≤ 6.
- Période La plupart des générateurs utilisés sont des suites périodiques et les programmes
font facilement appel à de 10n valeurs de la suite avec n de l’ordre de 30 ou plus. Ceci impose
d’avoir un générateur ayant une très longue période.
- Reproductibilité Pour tester un programme, il faut pouvoir reproduire exactement la suite
de nombres (xn , n ≥ 1) générée.
- Portabilité Il faut pouvoir faire exécuter le programme sur des machines différentes et que
les suites fournies par des ordinateurs avec une architecture de 32 bits ou de 64 bits soient
identiques si elles ont la même valeur initiale.
- Sous-suites disjointes Si une simulation est effectuée sur une machine multiprocesseurs
ou si le calcul est distribué à travers un réseau, il faut que les sous-suites utilisées par chaque
sous-tâche du programme soient indépendantes.
- Efficacité L’appel au générateur étant fait un très grand nombre de fois, il faut que son pro-
gramme soit le plus simple possible et nécessite peu d’opérations qui doivent être peu coûteuses
en temps de calcul.

Il est impossible de présenter dans ces notes tous les générateurs de nombres pseudo-
aléatoires utilisés. Les sections suivantes en présentent quelques uns fournis par les systèmes ou
portatifs. La plupart des générateurs sont de type « congruenciel » , c’est à dire qu’ils fournissent
une suite d’entiers (xn , n ≥ 0) donnés par la relation de récurrence :

xn+1 = a xn + c (mod m) ;

la valeur initiale x0 est appelée racine, a est le multiplicateur, c est l’accroissement et m le


module de la suite. La suite (xn ) prend ses valeurs entre 0 et m − 1 et la suite (xn /m , n ≥ 1)
prend ses valeurs dans l’intervalle [0, 1[. La période maximale d’un tel générateur est m et le
théorème suivant donne des conditions nécessaires et suffisantes pour que la période soit m.

Théorème 1.1 La suite xn+1 = a xn + c (mod m) a une période égale à m si et seulement si :


1) les entiers c et m sont premiers entre eux.
2) Pour tout facteur premier p de m, a − 1 est un multiple de p et si m est un multiple de
4, alors a − 1 est un multiple de 4.

5
Il peut être techniquement intéressant d’interdire les valeurs 0 et 1, c’est à dire de simuler
des réalisations de la loi uniforme sur l’intervalle ]0, 1[ ; il suffit alors de rejeter les valeurs trop
proches de 0 ou de 1.
Les générateurs les plus utilisés correspondent à un accroissement c = 0 et sont donc du
type
xn+1 = a xn (mod m) .
Le théorème suivant donne des conditions nécessaires et suffisantes de maximisation de la
période si le module est un nombre premier.

Théorème 1.2 La période de la suite xn+1 = a xn (mod m) avec un entier m premier est un
diviseur de m − 1. Elle est égale à m − 1 si et seulement si a est une racine primitive de m − 1,
m−1
c’est à dire si a 6= 0 et pour tout facteur premier p de m − 1, a p 6= 1 (mod m). Si a est une
racine primitive de m − 1 et si les entiers k et m − 1 sont premiers entre eux, ak (mod m) est
également une racine primitive de m − 1.

L’exemple « Minimal Standard » d’une telle suite correspond à m = 231 − 1 qui est un
nombre de Mersenne premier et a = 75 = 16 807 qui est une racine primitive de m − 1 ; sa
période est donc 231 − 2 = 2 147 483 646 de l’ordre de 2, 1 × 109 .

1.2 Quelques générateurs fournis par les systèmes


Tout d’abord une mise en garde ; la plupart d’entre eux ont de très mauvaises propriétés
statistiques. Si certains appartiennent au passé, d’autres sévissent toujours et avant de les
utiliser il faut les tester et regarder leur source.
- Le générateur RANDU de la Scientific Subroutine Package (SSP) d’IBM donne un exemple
« historique » de générateur de petite période 229 ayant de très mauvaises propriétés statis-
tiques : les triplets de tirages successifs n’appartiennent qu’à 15 plans. La suite fournie par ce
générateur est xn+1 = 65 539 xn (mod 231 ). Pour que sa période soit maximale (égale à 229 il
faut que la racine soit un nombre premier.
- La fonction Random en Pascal iso, utilisé par le logiciel sas fait appel au générateur
xn+1 = 16 807 ∗ xn (mod 231 ). Le fait que m soit une puissance de 2 et que a = 16 807 = 57 soit
tel que a (mod 8) = 7 ∈ / {3, 5} entraı̂ne que sa période est strictement inférieure à 229 , donc
strictement inférieure à celle du précédent. Il a lui aussi de mauvaises propriétés statistiques
que sas a tenté de corriger par une fonction de « battage » .
- Le générateur rand écrit par les auteurs du système unix est xn+1 = 1 103 515 245 xn +
12 345 (mod 232 ) et a également un mauvais comportement statistique (signalé par le construc-
teur).
- Comme tous les langages de programmation, ANSI C contient un générateur de nombres
pseudo-aléatoires drand48 qui est le générateur « Minimal Standard »

xn+1 = 16 807 ∗ xn (mod 231 − 1) .

6
Les routines suivantes initialisent puis génèrent une telle suite de nombres ;
#include <stdlib.h>
#include <stdio.h>
#include <math.h>
double drand48() ;
intmain(){
drand48();
printf(”%lf\n”drand48());
return(0);
}
Dans ce programme, drand48() produira des nombres réels compris entre 0 et 1. Par défaut,
l’amorce initiale seed vaut 1 et, sans instruction complémentaire, la suite de nombres obtenue
par des appels successifs à drand48() sera toujours la même et pourra commencer par 0 suivant
les compilateurs ; le premier appel « se débarrasse de 0 » et l’appel suivant est affiché à l’écran
après la compilation. L’amorce peut être changée par l’instruction srand48(seed) avant les
appels à drand(48) en précisant la valeur de l’entier seed. Nous verrons dans la section suivante
comment éventuellement implémenter ce générateur qui, s’il n’est pas totalement satisfaisant,
est « moins mauvais » que les précédents.
Pratiquement, si cette méthode de congruence est rapide et nécessite peu de calculs, ce
générateur « n’est pas très bon » pour plusieurs raisons qui varient d’une machine à l’autre :
la période m n’est pas assez grande et les termes successifs sont trop fortement corrélés. Même
dans le cas où la période est de l’ordre de 232 , le nombre de plans contenant des triplets peut
n’être que de l’ordre de 1600.

1.3 Générateurs portables


Diverses procédures permettant d’améliorer la simulation d’une loi uniforme U([0, 1]). L’une
d’entre elles consiste à programmer des générateurs « portables » qui ont passé les tests sta-
tistiques et ont une grande période. Nous présenterons trois de ces générateurs, appelés ran0,
ran1 et ran2 et tirés de Numerical Recipies in C [20]. Les codes C correspondants peuvent être
télé-chargés à l’adresse Web suivante : http ://sources.redhat.com/gsl/ Signalons enfin le site
http ://random.mat.sbg.ac.at/links/ entièrement consacré à la simulation.
Le générateur ran0 est le « Minimal Standard » est utilisé par la commande C drand48() ; il
remonte à Lewis, Goldman et Miller (1969) puis a été repris par Park et Miller (1988). Il utilise
la suite récurrente xj+1 = a ∗ xj (mod m) avec a = 75 = 16 807 et m = 231 − 1 = 2 147 483 647.
Il faut bien sûr ne pas initialiser avec x0 = 0, et l’algorithme suivant de Schrague permet de
calculer les termes successifs de la suite sans dépasser les capacités de la machine. On fait la
division euclidienne de m par a, soit
m = aq + r , avec 0 ≤ r = m (mod a) < a .
On obtient q = 127 773 et r = 2 386 < q. On vérifie alors aisément que pour touth entier i
x

x ∈ {1, · · · , m − 1}, a ∗ x (mod q) est un entier compris entre 0 et m − 1 et que r ∗ q est
un entier compris entre 0 et m − 1 ; de plus :
 h i
 a ∗ x (mod q) − r ∗ x

si c’est positif ou nul,
(a ∗ x) (mod m) = hqi .
 a ∗ x (mod q) − r ∗ x + m sinon.

q

7
Enfin, comme m est premier et a < m, xj 6= 0 entraı̂ne xj+1 6= 0. On calcule 1/m en début de
programme et la suite xi ∗ (1/m) prend alors des valeurs strictement comprises entre 0 et 1, ce
qui sera utile pour la suite. En initialisant ni avec 0 ni avec la valeur 123 459 876 on obtient un
générateur « assez satisfaisant », dont la période est 231 − 2 ∼ 2.1 × 109 d’après le Théorème
1.2, mais qui présente entre autres le défaut suivant : si une des valeurs est inférieure à 10−6 , la
valeur suivante est inférieure à 1, 68 10−2. Cet algorithme présente donc un défaut de corrélation
entre les tirages successifs, même assez loin de la période de la suite.

Le défaut de corrélation précédent pour des tirages consécutifs peut être corrigé en choi-
sissant « au hasard », c’est à dire à l’aide d’autres appels au générateur pour choisir d, le
nombre xk avec k = j + d situé d places après j dans la suite, puis en retournant comme tirage
uniforme après xj la valeur xk . Dans le générateur ran1 l’algorithme de Park et Miller est
mélangé avec une ”shuffling-box” de 32 éléments de Bayes-Durham ; on suppose de nouveau
que m = 2 147 483 647 = 231 − 1, a = 16 807, q = 127 773 et r = 2 836. On note N = 32 le
 m−1
nombre de termes stockés
 n  pour l’étape de sélection aléatoire et D = 1 + N ; alors pour tout
n ∈ {0, · · · , m − 1}, D ∈ {0, · · · , N − 1}. L’algorithme comporte trois étapes :
Étape d’initialisation du tirage
On interdit 0 comme germe x0 puis on produit successivement 8 valeurs de la suite xj+1 =
a ∗ xj (mod m) par une boucle critique qui est celle de ran0 :
h i
h ← xq
t ← a ∗ (x − h ∗ q) − h ∗ r
Si (t < 0)
faire x ← t + m
Sinon x ← t
Fin
Ces valeurs seront « jetées » et on produit ensuite par la même boucle critique N valeurs
de la suite xj+1 = a ∗ xj (mod m) qui sont stockées dans le tableau S[j] de j = 31 à j = 0. On
stocke aussi dans n la dernière valeur prise par la suite récurrente (et déjà stockée dans S[0]).
Étape de production des tirages uniformes
On calcule le terme suivant de la suite xj+1 = a ∗ xj (mod m) par la boucle critique
précédente et on le stocke dans x, puis on calcule j = Dn ∈ {0, · · · , N − 1}, on prend le terme
S[j] qui est stocké dans n alors que x est stocké dans S[j].
n
On calcule enfin u = m+1 qui est la valeur retournée à la fin de cette étape. On peut
éventuellement remplacer les valeurs trop près de 0 ou de 1 par (u ∨ ε) ∧ (1 − ε) à l’aide d’un
seuil ε de l’ordre de 10−7 pour simuler une loi uniforme sur ]0, 1[.
Si on peut se contenter d’une « petite » période, ce générateur est satisfaisant car il donne de
bons résultats quand on lui applique les test statistiques d’indépendance et d’équidistribution
des tirages consécutifs, sauf quand on s’approche trop de la période de la suite en faisant plus
de 108 tirages. On peut alors utiliser d’autres générateurs qui ont une plus longue période et
sont satisfaisants d’un point de vue statistique.

Le générateur ran2 de L’Ecuyer utilise deux générateurs congruenciels : m1 = 2 147 483 563,
a1 = 40 014, q1 = 53 668 et r1 = 12 211 pour le premier, m2 = 2 147 483 399, a2 = 40 692,
q2 = 52 774 et r2 = 3 791 pour le second. On vérifie que la racine n0 n’est pas nulle ; sinon
on la remplace par 1 et on stocke la racine dans y. On prend de nouveau un tableau S[j],

8
j = 0, · · · , N − 1 avec N = 32 et on pose D = 1 + m1N−1 . On procède comme dans ran1 pour
 

l’initialisation de S avec m = m1 et on stocke le dernier entier obtenu dans x et n


Dans l’étape de tirage, en utilisant respectivement q1 , r1 et q2 , r2 , on calcule a1 ∗ x (mod m1 )
et a2 ∗ y (mod m2 ) qui sont stockées dans x et y respectivement.
n Si n est le tirage uniforme sur
{0, · · · , m1 − 1} précédent, on calcule alors j = D et on pose n = S[j] − y si ce nombre est
strictement positif et n = S[j] − y + m1 sinon, puis on stocke x dans S[j].
Il reste enfin à diviser n par m1 et éventuellement interdire les valeurs trop proches de
0 ou de 1. Comme le PGCD de m1 et m2 et 2, la période combinée des deux suites (sans
tenir compte de la sélection aléatoire) est de l’ordre de 260 ∼ 2, 3 × 1018 et ran2 a de bonnes
propriétés statistiques.

La figure suivante montre la simulation de points uniformément répartis dans le carré [0, 1]2
à l’aide de la simulation de 10 000 tirages de deux variables aléatoires indépendantes de loi
U([0, 1]) obtenues par le générateur de Scilab qui est une version de ran2 de P. L’Ecuyer et
S Côté (1991) ; sa période est 2, 3 × 1018 .

Fig. 1 – Simulation de 10 000 points de loi uniforme sur le carré unité

.
.. . .. . . . .. . ...... . ..
. .. . . .... .. .. . .... .. . . .. . . .. ... . .... ..... .. . ... ... .. . . . ...... ... ... . .. .. . . . . .... . ... .. .. .. . .. . ..... . ... .. . . .
1.0 . ... ... . .. .. . ........ ...... .. .... ........ . ... . .... .. ..... . . . ... ..... . ... . ..... .. . .. . .... . ..... .. .... .. ........ .. . .. ... . ......... .... . .. . . ..... . . .. .. ... . ........ .............. .. . ...... ... ...... .... . ...... . .. . . .... .. ... .... .. . ... ....
. .. . .. . .. . ... .... ....... . .... . . ... . . . .... . . . .. . . . . ... ..... .. ... .. ..... .. . . . .. . ... . . .. .... . . ..... .. . .. ... . . . . . . ..... ........ . .. .. . ... ... .. . .. . . . .. . ... .
. . . . . .. . . .. . . . . . . . . . .. .
. ...... ... . ... .... ....... ... ... . ............ ... ... .. . ... .... .. .. ......... ..... ...... . . ... . . .. .. .... .. ...... . ... . .... ... ......... .. . . .. ... ....... . ....... .. .. ........ ... ......... ... .. .. . . . . ..... ... .. . .. . ... ............ .... ...... .
... ....... ... ...... . . . .. .. .. ... .. ... . .. .. . ........ .. .. . .. . ... ..... . .. ..... . ........... . .. .. ....... .. . ...... .. .. ... ....... . . . . . ... . .. .... .... . .. . . . ... ....... . .... . . . .. .. ...... .... . . . . .. . ... . . . ........
. .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . .. . . . . . .. . . .. . .. . .
0.9 .... ... . .. .. ....... ... ... ... . ... .. .. . .. ... .. . .. . . .... . .... . .. ....... . ......... . . ....... . .. .... .. .. . . . . .... .. .... ........ ... .. . .... . ..... . . ..... . .. ... ..... .. .. . . ...... .. . .. . .... .. .. . . .. . ... . .. . .
. . . ... . . . . . . . .. ... .. . ...... . ... . . ... ..... . . ... .. ..... .... . .. . . . .. . . . .... .. .. .. . .. .. .. .. . . ... . . . . . . .. . .. . .. . . .... ... ... . . . .. . . . . . . .. . ....... . . . . .. . ..
. . . .. ... . .. ... ... . . . . . . . . . . ...... .. . . . . . . . . . .. ... . . . .... . . .... .. . .. .. . . .. ... . . . .. . .. .... . . . . . . . . .. . .. .. ..
.. .. ... ..... ................. . ... . . .... . .. .. . .. . ... .... . .... . . . .. . ........ . . . . .. . .... . . . ... .. .... ...... ...... . .............. . .. . ......... . ... ..... ..... . . .. ........ .. ........... . .... ... . .... . ... .. ... .. . .. . . ... .......
. .
.... .. . . . ... . . . . . .
. . . . . . . ... . . ... . ...... . .. . .... . . . . .... . .... . .. .. .. . .. .. .... . .. . . ..... .. .. .... ... . ... ..... . ... ..... . . . . .. .. .. . . . ... . .. . . .. . . .. . . .. . . . .
0.8 .. .. . ........ ..... . .. .. ... .. .. .. . . . ...... .. . .... ...... ... .. .... ... .. .. .. . .... .. . ... . ..... .. ... .. . .... .. .. ... .. .. .. .. ... ... ....... ... . . . . ..... . ... . . ...... . .. .. . .. ... ..... ..... .. . . .. .. ... . . .... .
. .. . . . . . . . . . . . . . . .
. . . .
.. . . . ... . .... .... ............ . ... . . . ... . ..... .. .... . . .. . .... ... . ....... .... ..... .. . . .. .... . .. . . . . .... ... ..... ..... .. .. ..... ... . .. .... .... . . .. ...... . . .. .. . .. ....... . ... ... .. ... . .. .. .. .... .. .. .
. . . . . . .
.... . . . .. ... . . .... .. ..... . ..... . . .. .. .. ..... ... .. . ... .... . ... .. ... .. .... . ....... .. .... . ... . ... ... .. ........ . ....... ... ... ........ .... . .... ........ .. . . ... . ... . .. .. .. . ........... ...... ... .. .. ..... .......... .. .. .... ........
. . . . . . . .. . .
... . . .... .. .. ... .. ...... ...... .. .. .. . . ...... .. . .... .. ...... .. ..... . . .. ... ....... . ... ... .. . . .. .... ... . ....... .... .... ....... ...... .... . . . .. .. ..... . .. .... .. . . . . . . .... .. ..... .. ... . .. . .... ... .... . ... .... .. . . .. . .. . . ...
0.7 . . . . ... .. . . .. .. . .. . . . .. . . . . ... . . . . . . . . . . . .. .. . . . .. . . . . ... ... . . . . . . . . . ... . . . . . . . . ..
...... .. ... .................... ... .... . .. .. . ..... .. ...... . .. ...... .... ....... ....... . . ... ... .... . . ... .. .... .... .. .. .... . .. ... .. . . . .... . . . ... .... ...... .. . . . ..... .. ........ . ... .......... . ... .. .. . .. ......... ....... ....... .... .....
. ... . .. .. ..... .. .. ... ......... . .. . . . .... . ...... .... . . ... ... .. . . . . .. . . . .. .. .. .... . . ... . . . . .... .. .. .. . .. . . .. . ...... ...... .... .... .. . . . . .. ... ... .. . ... .. .... .. .. . ... ... . . . .. .. .... .. ...
.. ... .. . ... . .... .. .... . .... . .. . ......... ... . .. ... . .. . ... ...... .. . . . . .. .. ...... . .. .. . . ... ..... . ... .... . ... . .. . .... ..... ...... .. ...... . . . .... .... ..... . . . ...... . ... ... . .. ...... .... .. . . . .. ..
. . .. . .
... . . .. .... . .. . .. . ... .... .. .. . . . . . ..... . . .. . . .
.. . . .
. . . . .. . . . . . . .. .. . . . . .. .. . .. . . . . . .
. . . . .. . ... . . . .. . ...
. . ... . . . . . . . . . .... . ..... . .. .. . . .. . ... . . .. ... . . ...... .. . . ... ... . . ... . .. . . . .. ....... . . .. . .... . . . . .. .. .. . . . .. . ... ....
0.6 .... . .... . ... .. ... . . .......... ... . .. .... ..... .......... . .. . ... . . .... . .. ..... ....... ...... ... ... . .. ... ... . . .. .... . ..... . .. ..... ..... .. . ... . .. . ............. . .. ........ .. . .. . . . ............ . . ..... . . . .... .. ... . . ... . ... ... .......... . .....
.. . .... . ... . . .. .. . ..... . . . .. ..... ... . . . . ... . . . . . . .. . ... .. .... . .. . . . . .. .... . .. ... ...... . . . . ... . . .. . ... . .... .. ... . .. ... .. . . ... .. . .. .. . . ....... ... .
. .
. ... . .. . .. ...... ... .... ... . ... ... ..... ............ .. . .. . .. .. . . ..... ..... . .. . .... . .. . .... ... . .. .. ...... .. .. ..... ... .... ........ .. . ... . . ......... . . . ..... .. .... .. .. .... ....... ... ... . . . .. ... .... .. . . . . . . ........ .. .... ..... .
. . .
.. .. .. ... .. ... . . . . .. .. ..... . .. . . . .. . . ... ... . ... . . ... . .. .. . . . .. .. ... .. . . . . . . . . .. .. . . . . . .... . . ... .. .... .. .. . . . .. .... . ....... . .
.
. ...... . ..... . ... .. . . .. .......... ..... ... .. ... ... .. . .. . ..... .. ... .. ... . .... .. .. .. .... .... . .... .... .. .... .... . ..... .. ..... . .. .. .......... . . .. . . .... ... . . .. ..... . . ... . ..... . ..... .. ... .... .. . . .. ..... .. .. . ........... . ... .. ... .. ... .....
0.5 . . . ... . .. . . ... . .. .. . . .. . . ... . .. ... . .. ..... . .. ... . . . . .. ... .. .. .. ... . . .. ..
.
. . . . . . . . . . . .. . . . .. . .. .. . ... .. ... . . . .. ........ .. . . .... ..... .. . .. . .. .. ... ... ..
. ... .. .. ... ... ...... ... . ..... ... ..... . .... ....... .. .. .. . .. .. .... ...... . . . . ... . .. ..... . .... .... ... .. ... . ... ... . . ... .. . ... .. . .. .. . . . . ..... ... ... . . ....... . ... .. ... .. ...... . .. . . . .... ... . .. . .. . .... .. ... ...
. . . . . . . . . . . .. . . . .. . . . .
.. .. . ..... .. . . . ... . .. .. ... .. .. ..... .. . ... . ... .. ... .. .. .. ..... ... .. .... ...... ..
. .
. .... .... ...... . . ............ ..... . . ....... .... .... .... ... ... ....... ... . ...... .. .. .. . .. ...... ... .. .. ... . . . . . . . . . . .
.. ....... . . .. ... ......... .. .. ....... ..... ...... . .. .. . . . . . ... . . ...... . .. ..... .. ......... ............. .... ... .. .... ... . ..... ...... ..... ..... .. . ... ..... .. ....... ... .. ... ....... ... . ... . ...... .... . ........ ... . .. .. .. . . . .. ...... .. .. .
0.4 . ... .. .. ... ... .. . .. . .. . .. .. ... . . .... ........... . . .... ....... .. ... ... ..... . . ...... ... . ... .. . .. .... .. .... . .. .. .... .. .. ... ........ .. ... . . . . .... ... . ..... .......... . . . . .... .. .... . . . . .... .. .. ... .. ....
.. . .. . . . . . . . .. . . . . . . . . . .. . . . . . . . . . . . . .. .. . . . . . . . .. . ... .. . . ... . .. .. . ..
.. ......... .. .... .. .. ...... ... . ... ... .. ... ... . .. .. .... ... . . . . .. .... . .. . .... . ... .. . ... . . . . .. . ....... .... .. . . ..... . . . ...... ....... .. .... . ... .. .. . . . ....... .... . . .. .. . . .. . . . ... . .
. .. . . ... . . ... ... .. . . ... . ... .. . .. ... . . .. . . . . . . . . . ... .. . . . .. . .. .. .. .. . .. .. . . ... .. .. .. .... . . ... . . . .. ... . . . .. .. . .... .
...... . . .. ... .. . . . . ... .... ...... ... .... ...... . .... .. .. . ..... . ....... .. . ... ... .... ........ .. . . .. . .. .... ... . . . .. .. . .. . . .. .. ... . . ... ...... ...... .. ... . ..... . ... .... . .. ....... . .... . .... ..... ... ... ... .... . . .. ...... . . ...... . ....
0.3 .... . .... .... .... .... .... .... .... ....... .. ..... .. .. . . .. .... . . . .. .. . . . ..... . . ... . . . .. . .. . ... . .. . .. . .. . .... .. . ... .. ....... ... . .. . . .. .. . . ...... .. . .. .. .. .. . . . . . .. .. ... .
..... .. . .. .... . . . . ... . ......... .. ..... .. . . .. .. .. .. ..... .. . .. .. .... .. ... ... . . . .... ..... ..... .. .. .... ... ... . . .. . . ...... .. . . .... . .. . . .... ... . ... ... ..... ... .. ..... .... .. . ..... . .. ..... .. .. ...
. .. . . . . . . .. . .. . . . . .. . . .. .. .. . . . . ... .. . . .. . . . .. .. . . . .. . . . . ... . . . . . .. . . . .
........ . . . .. . . ... .. . . .. ... . . .. . . . . . . .. .. . ...... . . . . ... . . .. . ... . .. . . .. . .. . ... . . . . ... . .. . . . . .. . .. . .. ... .. . . . . .. . . . .. .. . . . . ... ..
.. .. .... . . .... ...... ... .. . .. .. .. . .... . .... . ... .... ... ... .... . ... .... . .. . . . .... ... .. . .. .. . ... . .. ... ...... .. ..... . .... . .... .. ... ... .. . ........ ... . .. .. . . . . .. .. .. ... .. .. .... . ... ... ....... ... .. ... ... . ..
. .. ..... .. .... ............ . ......... ....... ...... ... . ..... . ..... .. ... .. ... .. . . .......... . .... . .. .. .... ... . . ........ ... ... .... ...... . .. .. .. ........ . . .... . . . . ... .. . .. ..... . .. . .. . . . .... ... . .... ..... . . .... .... .... . ... .. .. . .. ... .
0.2 . . .. . .. . . . . . . .
. .. ... . . . . . . . . .. . . . . .. . . . . . . . . .. . . . . ..
. .. . . ... .. . . .. .. .. . . . . ..... ........ .. . . ..... .. . ...... . .... ... .. ... . ...... . .
. .
.... . . . . . .. . . . . .... .. . . . . . . . . . . . .. . .... .. ... . . . .. ..... .. . . .
.
... ..... . .... .... . ... . . ...... .... . .. . ..... ... ... ... ... . .... ..... .. ..... .. .. ..... ... .. ...... ..... ..... .... . ... ...... .. . . . .... ... . . . .. . . .. ... ..... ........ .. . . . ..... .. . ........ ..... . . . .... .... . .... ... ......
. . . .. ... . .. . ... . . ... . . .. .. .. . . . .. .. . ... . ... . . .... . . . . . .. . .. ..... . .. .. . . ... ...... . ........ . .. ... . .. . .. . .. . . .. .. . ... . .. . . . .. .. . . .... .
. . . . . . .
. .
. . ... ... . . . . . . .
. .. .. .. . . . . .
.. . . . . . . . .. . . .
.. . . . . . . .
. . .
.. . . . .... . . . . .. . . ... . ..... .. . . . . . ... .. .... . ...... .. . . . . . . . ... . . ... . ..
. . . .
.. . . .. . .. . .... . . . .... .. ... . . . .. .. .. .. . .. . .. .. ...... . .. .. ... . . . . .. . . ... . . . . . . .. . . ... .... . . .. .. . . . . . . . .. . . . ......
0.1 . . . ........ ... . . . . . .. .. .. ...... .. ... ..... . .... . .. .. .... .. . ...... .... . . .. . . .. ... . . ... .. .. .. . ........ . .. . ..... . .. . ........ . ....... ..... ... .. . ... .. ..... ... .. . . .... .. . . .... ... ... .. ... .. . . ..... ..... ..
.. ....... ... . .. ...... ... ........ . . . . . .. ... . . ... .. .. .... . ...... .... . . .. .. ..... . . . .. . . .. . ........ . .... . . ....... .. . ......... .. . ... ...... . . .. ..... . .. .. ... . . ... ... ... . . ... .... . ... . ... .. . .. . ...
.. .. ... . . . .. ... . . . . . . .. . . .. . . . .. . . ... . .. . . . . .. ... . . .. .. ... . . . . . .. .... . . . .. . . . . . . . . . .. . . . . .. . .
. . .. .... . . .. . . ........ .. . . . . .. . .. . . . . . . .. . . . . . . . . . . . . ... . . . . .... . . .. ... . .... . ... . .. ... ...... ... ... . . . . . ... .
. . ... ..... .. . . . . . . . . . .. . . ... ... .. . ... . . . . .. . .. .. .. .. . . . . . . .. ... .. .. . ... . . . . . ... .. . ... . . . . .. . . .. .
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Il est impossible de présenter tous les générateurs de nombres pseudo-aléatoires corrects


existants. On pourra se reporter à [15] pour une grande variété de tels générateurs. Certains
son implémentés dans la bibliothèque de programmes C de GNU gsl (les codes sont inclus si on
ne veut pas utiliser les librairies correspondantes) et parmi les « bons générateurs », ils signalent
que les plus rapides sont les suivants : gsl rng 19937 de Makato Matsumoto et Takuji Nishmura
(1998), aussi appelé Mersenne Twister, a une période de 106000 , gsl rng taus2 de P. L’Ecuyer
(1999) est très bien équidistribué avec une période de 1026 . Le générateur par défaut de la
bibliothèque ranlib disponible sur internet l’adresse suivante : http ://www.netlib.org/cgi-
bin/search.pl est de P. L’Ecuyer et S Côté (1991) ; sa période est de 2, 3 × 1018 . Nous ne sau-
rions trop insister sur le fait qu’avant d’utiliser un quelconque de ces programmes
disponibles sur internet, il faut impérativement le tester soi même.

9
Une dernière remarque : par défaut quel que soit le générateur, la suite des nombres retournés
sera toujours la même puisqu’elle aura toujours la même racine ; ce peut être utile dans une
phase de mise au point d’un programme, mais nuisible dans d’autres conditions. Il est possible
de rentrer à la main une racine que l’on choisit et de terminer le programme en faisant stocker
l’état du système qui réinitialisera la racine dans l’exécution suivante. Une telle procédure est
disponible par exemple dans des routines de gsl, de netlib ou de Scilab. Une autre procédure
consiste à utiliser un générateur minimal standard initialisé avec l’horloge afin de générer une
racine différente à chaque simulation, sans risque d’atteindre la période.

1.4 Suites à discrépance faible


Nous avons utilisé les générateurs de nombres pseudo aléatoires pour calculer entre autres des
intégrales par la méthode de Monte Carlo. Une autre façon de procéder consiste à renoncer au
caractère « aléatoire » des tirages et de tirer des points de façon « plus ordonnée ». On parle alors
de méthode de quasi-Monte Carlo qui utilise des suites à discrépance faible. Dans un programme,
l’appel à la fonction Random qui donne le terme suivant d’une suite récurrente prenant ses valeurs
entre 0 et 1 doit être remplacé par l’appel au terme suivant de la suite à discrépance faible.
Dans ce paragraphe, on pourra se reporter à [1] ou [19] pour les démonstrations omises dans
les notes.
La définition suivante formalise la notion de suite équirépartie. Pour tout a = (a1 , · · · , ad ) ∈
[0, 1]d , et b = (b1 , · · · , bd ) ∈ [0, 1]d on note a ≤ b si ai ≤ bi pour tout i = 1, · · · , d et
[a, b] = {x ∈ [0, 1]d : a ≤ x ≤ b} ; on note enfin 0 (resp. 1) le vecteur de Rd dont toutes les
composantes sont nulles (resp. égales à 1).

Définition 1.3 Une suite (xn )n≥1 est équirépartie dans [0, 1]d si pour tout a = (a1 , · · · , ad )
∈ [0, 1]d ,
n d
1 X Y
lim 1{xk ∈[0,a]} = ai = Π(a) .
n n
k=1 i=1

La discrépance de la suite (xn , n ≥ 1) est



1 X n

Dn (x) = sup 1{xk ∈[0,a]} − Π(a) .

a∈[0,1]d n k=1
Pn
Pour tout entier n ≥P 1, Fn (a) = n1 k=1 1{xk ∈[0,a]} est la fonction de répartition de la probabilité
1
empirique µn = n k=1 δxn calculée au point a. Afin de montrer que la discrépance d’une
suite équirépartie converge vers 0, nous établissons le lemme suivant qui donne des conditions
suffisantes pour qu’une suite Fn de fonctions de répartition converge uniformément vers Π.

Lemme 1.4 Soit (µn , n ≥ 1) une suite de probabilités sur la tribu des boréliens de [0, 1]d et
(Fn , n ≥ 1) la suite des fonctions de répartition des µn telle que Fn → Π dans L1 ([0, 1]d , λ) où
λ désigne la mesure de Lebesgue. Alors la suite Fn converge uniformément vers Π.

Démonstration : Soit µ une probabilité sur la tribu des boréliens de [0, 1]d et F sa fonction
de répartition. Soit a ∈]0, 12 [ et A = [a, 1 − a]d .
S’il existe b > 0 et x0 ∈ A tels que F (x0 ) ≤ Π(x0 ) − b ; alors pour x ≤ x0 , F (x) ≤ Π(x0 ) − b
et Z Z   +
|F (x) − Π(x)| dx ≥ Π(x) − Π(x0 ) − b dx .
[0,x0 ]

10
De même, s’il existe x0 ∈ A tel que F (x0 ) ≥ Π(x0 ) + b avec b > 0, alors pour x0 ≤ x ≤ 1,
F (x) ≥ Π(x0 ) + b et :
Z Z  +
|F (x) − Π(x)| dx ≥ Π(x0 ) + b − Π(x) dx .
[x0 ,1]

On déduit que si sup{|F (x) − RΠ(x)| : x ∈ A} ≥ b > 0, il existe une constante C(a, b) ≥
b
2
a ∧ bd 2−d(d+1) > 0 telle que |F (x) − Π(x)| dx ≥ C(a, b), c’est à dire que :
Z
|F (x) − Π(x)| dx < C(a, b) entraı̂ne que sup{|F (x) − Π(x)| : x ∈ A} ≤ b .

On suppose que sup{|F (x) − Π(x)| : x ∈ A} ≤ ε. Si x ∈ [0, 1]d est tel qu’il existe i =
1, · · · , d avec xi < a, alors

|F (x) − Π(x)| ≤ F (x) + Π(x) ≤ µ(Ac ) + λ(Ac ) .

Sinon, soit y = (xi ∧ (1 − a), 1 ≤ i ≤ d) ∈ A ; alors :

|F (x) − Π(x)| ≤ |F (y) − Π(y)| + |Π(x) − Π(y)| + |F (x) − F (y)| ≤ ε + λ(Ac ) + µ(Ac ) .

Clairement, λ(A) = (1 − 2a)d et en décomposant [0, 1 − a]d \A en d pavés (non disjoints) dont
les points extrémaux qui ne sont pas situés sur les faces {xi = 0} appartiennent à A, on déduit :

µ(A) = µ([0, 1 − a]d ) − µ([0, 1 − a]d \A)


h i
d d−1
≥ Π([0, 1 − a] ) − ε − d a (1 − a) +ε ,

ce qui entraı̂ne que


h i h i
sup |F (x) − Π(x)| ≤ (2 + d) ε + 1 − (1 − 2a) + 1 − (1 − a) + d a (1 − a)d−1 .
d d
x∈[0,1]d

d d
+d a (1−a)d−1 ≤
 
Pour tout α > 0, il suffit alors de choisir a > 0 tel que
R 1−(1−2a) + 1−(1−a)
α, puis ε > 0 tel que (2 + d) ε ≤ α. Puisque limn |Fn (x) − Π(x)| dx = 0, pour n assez grand
sup{|Fn (x) − Π(x)| : x ∈ A} ≤ ε, ce qui entraı̂ne sup{|F (x) − Π(x)| : x ∈ A} ≤ 2 α. 2

Soit (Un , n ≥ 1) une suite de variables aléatoires indépendantes de même loi uniforme sur
[0, 1]d et (Fn , n ≥ 1) la suite des fonctions de répartition empiriques associée définies par
n
1 X
Fn (t) = 1[0,t] (Ui ) , ∀t ∈ [0, 1]d . (1.1)
n i=1
√ 
Le théorème de la limite centrale montre que pour tout t ∈ [0, 1]d , n Fn (t) − Π(t) converge


en loi vers une gaussienne N(0, Π(t) − Π(t)2 ). De plus le√théorème de la limite centrale
 vectoriel
montre que pour tout (t1 , · · · , td ) ∈ [0, 1]d , le vecteur
 
n Fn (ti )−Π(ti ) , 1 ≤ i ≤ d converge
en loi vers un vecteur gaussien centré dont la matrice de covariance Σ est celle de (1[0,ti ] (U1 ) 1 ≤
i ≤ d). Si d = 1, la covariance du processus gaussien centré Z limite est E(Zs Zt ) = s ∧ t − s t
pour tout s, t ∈ [0, 1], c’est à dire la covariance du pont Brownien Wt − t W1 , où (Wt , t ≥ 0)
désigne un Brownien standard. Le théorème suivant montre que la suite (Fn ) des fonctions
de répartition empiriques de la loi uniforme converge vers Π ; cette version du théorème de
Kolmogorov-Smirnov est due à Doob-Donsker.

11
Théorème 1.5 Soit (Un , n ≥ 1) une suite de variables aléatoires indépendantes de même loi
uniforme sur [0, 1]d et (Fn , n ≥ 1) la suite des fonctions de répartition empiriques associée.
On note

D∞ (n) = sup{|Fn (t) − Π(t)| : t ∈ [0, 1]d } .
(i) Si d = 1 et si (Wt , t ∈ [0, 1]) désigne un mouvement Brownien standard réel,
√ ∗
n D∞ (n) → sup{|Wt − t W1 | : t ∈ [0, 1]} en loi .

De plus, pour tout λ > 0,


! +∞
2 λ2
X
P sup |Wt − t W1 | ≤ λ = (−1)j e−2 j .
t∈[0,1] j=−∞

(ii) Si d > 1, il existe un processus Gaussien centré réel (Zt , t ∈ [0, 1]d ) à trajectoires
continues de covariance

E Zs Zt ) = Π(s ∧ t) − Π(s) Π(t) , s, t ∈ [0, 1]d ,


√ ∗
et la suite n D∞ (n) converge en loi vers sup{|Zt | : t ∈ [0, 1]d }.

Le théorème suivant donne la vitesse de convergence « maximale » de D∞ (n) vers 0 ; cette
loi du logarithme itéré est due à Chung et Kiefer.
Théorème 1.6 Soit (Un , n ≥ 1) une suite de variables aléatoires indépendantes de même loi
uniforme sur [0, 1]d ; alors presque sûrement
s
2n ∗
lim sup D∞ (n) = 1 .
n ln(ln n)

L’intérêt de la discrépance d’une suite pour des problèmes d’approximation d’intégrale réside
dans le résultat suivant pour les fonctions « à variation finie » (qui sont intégrables au sens de
Riemann). Pour tout vecteur x = (x1 , · · · , xd ) ∈ [0, 1]d , notons x̄ = (1 − x1 , · · · , 1 − xd ) le
symétrique de x par rapport au centre de l’hypercube [0, 1]d et pour toute fonction f : [0, 1]d →
R, notons f¯(x) = f (x̄).
Définition 1.7 On dit qu’une fonction f : [0, 1]d → R est à variation finie s’il existe une
mesure à variation finie µ sur l’ensemble des boréliens de [0, 1]d , dont le support est contenu
dans [0, 1]d \{0}, telle que pour tout x ∈ [0, 1]d :

f¯(x) = f(0)
¯ + µ([0, x]) .

Cette mesure µ est unique et la variation de f , notée V (f ) est égale à la variation totale kµk
de µ.
Le théorème suivant de Koksma et Hlawka relie l’approximation de l’intégrale de f par la
moyenne de f le long d’une suite (Xn ) à la discrépance de la suite.
Théorème 1.8 Soit f : [0, 1]d → R une fonction à variation finie et x = (xn , n ≥ 1) une suite
équirépartie sur [0, 1]d . Alors pour tout entier n ≥ 1 :
Z
n
1 X
f (x) dx − f (xk ) ≤ V (f ) Dn∗ (x) .

n k=1

[0,1]d

12
La démonstration de ce théorème repose sur le lemme suivant.

Lemme 1.9 Soit µ une mesure à variation finie sur [0, 1]d , µ̄ l’image de µ par la symétrie x →
x̄ par rapport au centre de l’hypercube [0, 1]d et pour tout x ∈ [0, 1]d , notons F (x) = µ([0, x]).
Alors : Z Z
Π(x) dµ̄(x) = F (x) dx .
[0,1]d [0,1]d

Démonstration : Puisque Π(x) est la fonction de répartition de la mesure de Lebesgue λ sur


[0, 1]d calculée au point x ∈ [0, 1]d et que λ̄ = λ, le théorème de Fubini entraı̂ne que :
Z Z Z
Π(x) dµ̄(x) = 1[0,x] (y) dy dµ̄(x)
[0,1]d [0,1]d [0,1]d
Z Z
= 1[0,x̄] (y) dy dµ(x)
[0,1]d [0,1]d
Z Z
= 1[0,ȳ] (x) dµ(x) dy
[0,1]d [0,1]d
Z Z
= F (ȳ) dy = F (y) dy . 2
[0,1]d [0,1]d

Démonstration du Théorème 1.8 : D’après la définition, F = f¯ − f(0)¯ est la fonction


de répartition de la mesure µ ; on en déduit en appliquant le Lemme 1.9 :
n n
1 X 1 X¯
Z Z
f (x) dx − f (xk ) = f (x̄) dx − f(x¯k )
[0,1]d n k=1 [0,1]d n k=1
n
1 X
Z
= F (x) dx − F (x¯k )
[0,1]d n
k=1
" n
#
1 X
Z
= Π(x) − 1{x̄≤x¯k } dµ̄(x)
[0,1]d n
k=1
" n
#
1 X
Z
= Π(x) − 1{x ≤x} dµ̄(x) .
[0,1]d n k=1 k

Ceci entraı̂ne immédiatement :


Z
n
1 X
f (x) dx − f (xk ) ≤ Dn∗ (x) kµ̄k = Dn∗ (x) kµk . 2

n

[0,1]d
k=1

Il est donc important de disposer de suites de discrépance aussi petite que possible.

Définition 1.10 On dit qu’une suite (xn , n ≥ 1) à valeurs dans [0, 1]d est à discrépance faible
si sa discrépance Dn∗ (x) est asymptotiquement meilleure que la discrépance D∞ ∗
(n) d’une suite
d
aléatoire (Un , n ≥ 1) de loi uniforme sur [0, 1] .

On peut prouver que la discrépance Dn∗ (x) d’une suite quelconque vérifie

n Dn∗ (x)
lim sup d ≥ Cd ,
n ln(n) 2

13
où Cd > 0 est une constante ne dépendant
  que de la dimension d. Les meilleures discrépances
ln(n)d
connues sont asymptotiquement O n
et cette discrépance est « presque » optimale. Nous
indiquons quelques exemples de suites à discrépance faible. On en trouvera d’autres dans [19].

Suite de Van Der Corput Soit p un entier strictement supérieur à 1. Pour tout nombre
entier positif n on note a0 , · · · , ar les coefficients de la décomposition p-adique de x, c’est à
dire les nombres entiers tels que :

n = a0 + a1 p + · · · + ar pr , ar > 0 , 0 ≤ ai < p pour 0 ≤ i ≤ r.

La suite de Van Der Corput en base p est donnée par


a0 a1 ar
φp (n) = + 2 + · · · + r+1 . (1.2)
p p p
Ainsi, lorsque la décomposition p-adique de n est n = ar ar−1 · · · a1 a0 , celle de φp (n) est
φp (n) = 0, a0 a1 · · · ar . La discrépance de la suite de Van Der Corput est
 
∗ ln(n)
Dn (φ) = O .
n

Suites de Halton C’est la version d-dimensionnelle de la suite de Van Der Corput. Soit
p1 , · · · , pd des entiers strictement supérieurs à 1 et premiers entre eux (par exemple les d
premiers nombres premiers). La suite de Halton est

xdn = (φp1 (n), · · · , φpd (n)) .

La discrépance d’une suite de Halton est


d
(ln(n))d
 
1 Y pi ln(pi n)
Dn∗ (xd ) ≤ =O .
n i=1 ln(pi ) n

Suite de Faure Soit p ≥ d un entier premier et ∆p l’ensemble des nombres x pour lesquels
il existe un entier K ≥ 0 tel que :
K
X ai
x=
i=0
pi+1
et soit Tp : ∆p → ∆p l’application définie par
K
! K K
X ai X bi X j!
Tp i+1
= i+1
où bi = aj mod(p) .
i=0
p i=0
p j=i
i! (j − i)!

Si φp est définie par (1.2), la suite de Faure de dimension d est alors :

xn = φp (n − 1), Tp (φp (n − 1)), · · · , Tpd−1 (φp (n − 1)) .




La discrépance de cette suite est


(ln(n))d
 
Dn∗ (x) =O .
n

14
Translations irrationnelles du tore Soit α = (α1 , · · · , αd ) ∈ Rd un vecteur de nombres
√ √
réels tel que la famille {1, α1 , · · · , αd } soit libre sur Q (par exemple α = ( p1 , · · · pd ) où
p1 , · · · pd désignent les d premiers nombres premiers). Si [x] désigne la partie entière de x, la
suite (xαn , n ≥ 1) est définie par

xαn = (nαi − [nαi ] , 1 ≤ i ≤ d) .

Pour tout ε > 0, la discrépance de la suite (xα. ) est


 
∗ α 1
Dn (x ) = O .
n1−ε

Les sources C de ces diverses suites à discrépance faible peuvent être télé-chargées sur le
site : http ://cermics.enpc.fr/∼premia.

15
2 Simulation de variables aléatoires.
2.1 Méthode d’inversion
On suppose que l’on sait simuler la réalisation d’un échantillon de loi uniforme sur [0, 1],
c’est à dire de variables aléatoires indépendantes (Xn , n ≥ 1) de même loi U([0, 1]), par exemple
en appelant la fonction Random. On cherche à simuler des réalisations de variables aléatoires
réelles (Xn , n ≥ 1) indépendantes de même loi de fonction de répartition F : R → [0, 1] définie
par F (t) = P (X1 ≤ t) pour tout t ∈ R.

Proposition 2.1 Notons F −1 :]0, 1[→ R la pseudo-inverse de F définie par

F −1 (u) = inf{t : F (t) ≥ u} pour tout u ∈]0, 1[ .

Alors si U suit une loi U(]0, 1[), F −1 (U) a pour fonction de répartition F .

Démonstration. Montrons tout d’abord que pour tout u ∈]0, 1[ et t ∈ R, F −1 (u) ≤ t si et


seulement si u ≤ F (t). En effet, si u ≤ F (t), par définition F −1 (u) ≤ t. Réciproquement, soit
y > t ≥ F −1 (u) ; alors, puisque F est croissante, F (y) ≥ u et puisque F est continue à droite,
F (t) ≥ u.
On en déduit que si U suit une loi U(]0, 1[), pour tout t ∈ R,

P (F −1 (U) ≤ t) = P (U ≤ F (t)) = F (t) .

2
Si la fonction de répartition F de X est explicite, on en déduit que (F −1 (Un ), n ≥ 1) est un
échantillon de la loi de X. Ceci fournit par exemple un algorithme de simulation lorsque :

Cas 1. X ne prend qu’un nombre fini ou dénombrable de valeurs On suppose que


les valeurs prises par X sont (ai , 0 ≤ i ≤ N) ou bien (ai , i ∈ N) ordonnées de façon croissante,
et que P (X = ai ) = pi pour tout i. On calcule alors Fi = p0 + · · · + pi pour tout i et pour tout
u ∈]0, 1[ on note : X
F −1 (u) = a0 1{u≤F0 } + ai 1{Fi−1 <u≤Fi } .
i≥1

Exemple d’une loi de Bernoulli de paramètre p : P (X = 0) = q = 1−p et P (X = 1) = p .


On en déduit la simulation de n variables aléatoires indépendantes de même loi de Bernoulli
de paramètre p ∈]0, 1[ que l’on stocke dans le tableau X (en utilisant le fait que si U suit une
loi uniforme U([0, 1]), 1 − U suit aussi une loi U([0, 1])) :

Pour k = 1, ..., n
Si (Random < p)
X[k] ← 1
Sinon X[k] ← 0
Fin
X ne prend qu’un nombre fini de valeurs : Si X prend N + 1 valeurs, en début de
programme on calcule les valeurs de Fi que l’on stocke dans un tableau F [i], i = 0, · · · , N et on
stocke également les valeurs ai dans un tableau a[i]. La boucle critique est alors la suivante :

16
i←0
U ← Random
Tantque (U > F [i])
i← i+1
Fin
X[k] ← a[i]

X prend une famille dénombrable de valeurs : Si la variable X prend une famille


dénombrable de valeurs, on stocke en début de programme dans un tableau F [i], i = 0, · · · , N
les premières valeurs de Fi , en s’arrêtant au premier entier N tel que FN dépasse une valeur
fixée, par exemple 0.999. Lorsque le tirage uniforme est supérieur à la valeur choisie (par exemple
0.999), on poursuit le calcul de la fonction de répartition.
Exemple d’une loi de Poisson P(λ) de paramètre λ > 0

λn+1 λ
P (X = 0) = e−λ et pour n ≥ 0, P (X = n + 1) = e−λ = P (X = n) .
(n + 1)! n+1
La boucle principale de l’algorithme de simulation est alors la suivante (pour une loi de Poisson
P(λ)) ; elle fournit la valeur X :
P N ← F [N] − F [N − 1]
U ← Random
Si (U ≤ F [N ])
Alors
X ←0
Tantque (U > F [X]) faire
X ←X +1
Fin
Sinon
X ← N , P ← P N, F ← F [N]
Tantque (U > F ) faire
X ← X + 1, P ← P ∗ λ/X, F ← F + P
Fin
Fin
Si λ = 1, F [4] = 0.9963 et F [5] = 0.9994, donc N = 5 avec le test d’arrêt précédent et sauf
dans six cas sur 10 000, on utilise seulement 6 valeurs tabulées de la fonction de répartition.
On verra plus loin une autre méthode pour simuler une loi de Poisson de paramètre λ reliée à
la simulation de processus.

Cas 2. Loi E(λ) exponentielle de paramètre λ > 0 La densité de X est f (x) =


λ e 1{x>0} et la fonction de répartition est donc F (t) = 0 si t ≤ 0 et F (t) = 1 − e−λt < 1 si
−λx

t > 0. On en déduit pour u ∈ [0, 1[ :


ln(1 − u)
F −1 (u) = − .
λ
Puisque si U suit une loi U([0, 1]), 1 − U suit également une loi U([0, 1]), on en déduit un
algorithme de simulation d’une loi exponentielle de paramètre λ :
X = − ln( Random )/λ

17
L’utilisation des lois exponentielles fournit une autre méthode de simulation de la loi de Poisson
de paramètre λ.

Proposition 2.2 Soit (Ei , i ≥ 1) une suite de variables aléatoires indépendantes de même loi
exponentielle de paramètre λ > 0 ; alors pour tout entier n ≥ 1,
λn
pn = P (E1 + · · · + En ≤ 1 < E1 + · · · + En+1 ) = e−λ .
n!
Démonstration : Pour tout entier n ≥ 1,
Z
λn+1 exp − λ(x1 + · · · + xn+1 ) dx1 · · · dxn+1

pn =
{x +···xn ≤1<x1 +···xn+1
Z 1
λn exp − λ (x1 + · · · + xn ) exp − λ[1 − (x1 + · · · xn )] dx1 · · · dxn
 
=
{x1 +···xn ≤1}
λn
Z
−λ n
= e λ dx1 · · · dxn = e−λ . 2
{x1 +···xn ≤1} n!

On en déduit qu’en simulant des variables aléatoires (Ui , i ≥ 1) indépendantes et de même


loi U([0, 1]), si n désigne le premier entier tel que UI U2 · · · Un+1 < e−λ , n suit une loi de Poisson
P(λ), d’où un second algorithme de simulation d’une variable aléatoire X de loi P(λ) :

a ← exp(−λ), X ← 0
U ← Random
Tantque (U > a) faire
U ← U ∗ Random , X ← X + 1
Fin

2.2 Méthode de rejet pour les lois uniformes


On suppose que l’on sait simuler par l’algorithme A une variable aléatoire de loi uniforme
sur un ensemble borélien D ⊂ Rd (par exemple le carré ] − 1, +1[2 ) et que l’on veut simuler une
variable aléatoire de loi uniforme sur un sous-ensemble borélien C ⊂ D. L’algorithme
Faire X ← A
Tantque C faux
Fin
Retourner X
donne une simulation de la loi uniforme sur C. En effet, soit (Xn , n ≥ 1) une suite de variables
aléatoires indépendantes de loi uniforme sur D et τ = inf{n ≥ 1 : Xn ∈ C} ; l’algorithme
précédent retourne la variable aléatoire Xτ telle que pour tout sous-ensemble borélien B ⊂ C,

X
P (Xτ ∈ B) = P (X1 6∈ C)k−1 P (Xk ∈ B)
k=1
∞  k−1
X |C| |B| |B|
= 1− = .
k=1
|D| |D| |C|

Ainsi, pour simuler une loi uniforme sur le disque unité, on procède comme suit :

18
Faire U ← 2 ∗ Random − 1
V ← 2 ∗ Random − 1
Tantque (U ∗ U + V ∗ V > 1)
Fin
X ← U et Y ← V

La figure suivante montre une méthode de rejet uniforme sur le cercle unité à partir d’une
loi uniforme sur le carré [0, 1]2 . Sur 10 000 points tirés dans le carré, seuls 7 848 sont gardés
car ils sont dans le cercle unité ; on a par ailleurs π/4 = 0, 785 398.

Fig. 2 – Simulation de points suivant une loi uniforme dans le disque unité

1.060
.. . ........ .. . ... ...... .. . .
.. .. .. ... . ...... .. . .. . ... . .. .. ......
. ... . . ... ... . .... .. . . . . .. .. .. . . . .. .... .. .... ... . .
. .. . . . .. .. . . ... . .... . . . . . ........ ..... . ....... ...... ... . .. .
.. .... .... .. ......... .. .... ...... .... .................. . ......... ..... .... .. . ... . .......... . ...... ... ....... . ..
0.848 ..... . ..... ... ..... ... . .. ...... . . .. .... .. ........ .... . .. .... ..... . . . . . ..... .... ..... ..... .. ..
. . .
...... ........ . ... .. ... . .. . .. . . ... . . .. ... . ... ..... . . .. .. .. .. . .. .... . ...
.... .... .. .. ............. .......... ... .. ............... .... ...... ... ........ ..... .............. .......... . .... ........ ... .......... ........... ..... . ..... .. . .
.
. .. . . . ... . . . .... .. . . . .... ... . . . . .. . . . . . . ... ...... .
......... .... ......... . ..... ........ . .... ..... ........... ...... ... . .... .. ........................ ...... .... ..... . . .......... ....... .... ........ .. .... .. ... ...... .... .
. . ..... .... ... ...... . ..... .. ...... . ...... . . .... .... . .. ... ... ...... . ....... ... ...... .. ...... . . . ..... ..... . ........... .. . .
. ........ ... .. . .. . ... ...... ............ .. .. . .. .. ... ... . .. ..... . ..... .. ........... ......... ... ........... ... ............. . .. .............. ....... .. .... .
0.636
....... ..... .. .... .... ........ ... ... ......... . . ............. ... ..... . ......... ........ ... . . . .. .......... .... . ... ........ ... ......... ............ ..... ...... . ..... .. ... . .
. . .. . . . . .. . . . .. .. . .. . . . .. . . . .... . . . . .. . . . . . .... . ...... ..... . . . .. .. ..
.... .. . . ... ...... . ....... . ... ... . . ....... ......... .................... ... . . . .... . . .. . .. . ..... . .... .......... . ..... .. .. .... . . ...... .. ..... .......
.
... . .. .... .... .. . .... . ... ... ... .. . . . ...... .. ...... .. ... .. . ... . . ... . .. . ... ... . . ... .. .. .... .. ........ .. .. .. . ..... .. .. ...... ..
0.424 ...... .... . .. . ....... .............. .... ......... .. ... ... .... ...... ................. .. .... ....... ..... .......... ........ . .......... . .. ........ ........... ... .... . ......... ............. . .. .... ...... ....
. . . . . .
. . .. . . .. . . . .. . . .. ... . . . . . . .. . . .. . . . . . . .. .. . . .. .
. . . . ..
... . . ......... ................ .... ........... ........ ...... .. .... . . .... . ... .. ... ... ... . . .. .... . ...... ...... .......... .. . ........ ..... ....... .. . .. .... . ....... .. ... ...
... ... . .... . . .. ..... ... . .... .... . ... .... .. ....... ........ ........... . . . .. . .. . .. . .... .... . ....... . . .. . .. ... .... .... .. .. .. .. .. .... . . ........ .
........ ...... ..... ... .... .... ............ .. ..... ... ........ ... ... ..... ........... ... . .. ......... ..... ... . .. .... . .. .. ....... ... .. ........ ... .. ...... ..... .... . .. .. .... .. . ..... ...... . .. ......... ....... ...
. ... . . ... . ... ... ... ... . . .. ... .. ... . . . ... . ... . . .. .. . .. .... .......... .. ... . . . ...... ..... .. . . . . .
0.212 ....... ... .. ... ........ ..... . ...... ... ......... ........... .... . . .... ......... ... . .. . ... ........ .... ........ .. .. ...... . ............. .... ............ ... .............. ..... ...... ..... ........ . ..... .... .... ..... . ...
...... ...... .. . . . .. . ...... .. .. . .. ...... ..... . . . ... . . .. ...... ......... . .. . ... . . .. . .. . . . .. ..... ....... . ...... ........ ..... ... . .. . . .... . .... .. ... . . ... ...
........ . ...... ... .. ... ... . ... ..... .. .......... .... .............. .. ......... .. .................. ..... ........ .... ... ........ . .... ... . ........... ........... . . . .. ...... .. .... ........ ..... . .... ...... ...... ............ .
..... ... .. . . ... . . .. .... . . .. . .. .. .. . ... . ........ .. . . . ... . .. . .... . . . . . .. .. . . . . .. .. ... . ....... .. . ..
. . .. ............. .. ....... .... .... .. . . ... ...... .. .......................... ....... .......... ............... ............ .. .. .......... .. ..... . ........... .. ........ ... .. .... ........ . ... . ..... ......... . .........
0.000 .. ........ ....... ........ . .. .. . ... ... .. ..... ......... .. . . ..... .......... . . ...... .. ... .. ..... ..... .. ........... . ..... ....... ... ..... .. .... .. ............. .... .... . ....... ... . ..... . ..... ..... .
. ....... . .. . .. ... . . .... .. . . . . .. .. .. ... ... . . .... ... .. .... .. . .. .. . . ... .... . . .. . ........ . ... ...... . . .. .. . . . ...... .. . . .. ...
... ........... . ... ............ . ... . ..... .... . . .... .. ...... ........ ... .. ........... .. .. ... .. .. ........ . .......... ... . .... ..... ......... .. ....................... ........... ... ... ..... ...... . .. .... ........ ...... .........
. .. ..... . .. .. . .. .. .... .. . ... . .. . ...... .... . .. . . . . .. . ... .. .. . ..... .... ........ ....... ... . . . . . .... . ... . . . . ..
.. ........... . ....... ......... ............ ... ...... .... .. ..... ....... ...... . .... . . ... ........ .... . ... ...... ... .......... .... .. ........... .. ..... ...... ............ .. . ..... . . . . ...... ... .... ... ..
−0.212 . ... ...................... . .. . . ... ..... .... ... . .... . .... .. . .. . ..... . .... . . . .... .. .. ... .. ........ . . ..... ..... ... . .. ... .... . . . .. .. .. .. .. ..... ..... ..
. .. .... . . . .... . .. .. . . . .. . .. . . . ... . ... . .... .. . . .. . . . . . .. . ..... . . . .. ... . .. . . .. . .....
.. .... ...... ........ .... ... ..... .................. . ........... . .. . ...... ....... ... ..... .. .. . ... ........... .. . ... ..... .......... . . .... .. ...... .......... ........... ... ..... ............. .. .. ..... . .
. .. . ...... .. ... .. ..... . . ... . ..... . .. ... . ... ... ... ..... .... ... .. . ... . ... .. .. .. .. .... ... ... ...... . .. .... ... . ... .... .. . ... . .. . .... .
.... . . ... .. ... . .. . ... . .. . . . ........... .. . ... ......... ... . . .. ... ... .. ...... ..... . . ...... . ..... ..... ....... . .. . ... . .......... . ..
. . . .. . . .
−0.424 . ..... .... .. .......... . .............. ...... .. ................. .......... ..... .... .......... .... .. .......... ... .......... .. .... ... ......... ...... .. .. .. . ............ ... ... ......... ..... .........
... ...... . ... .... .. ....... ... .. .... .. ...... .. ...... .... . ... ... . .............. .. . ... .. . ...... . ............ . .. .... ... . ....... .... ... ... .. . ..... ...
... . . ... . . .. ... ... ..... .. . ... ... ...... .. . . ............... .. .. ... .. .. ... .... . .... ......... ..... ..... . ....... ... ..... . ..... . . ... ..
.. .... ... . ....... . .. ..... . . .... ..... . . .. . ...... .... . ... ... . .... ... ... ... . .. . .. . ..... ....... . .. . . .... ... . .... .. ..
...... ........................ .... ..... ........ . ... ..... . ... ... ...... .. .. . . . ...... .. ..... .... .. . .. . .. ...... ... ...... ... ..... ..... . ..... . . .
−0.636 ...... ... . ... .......... .. .. ... . ... .... ........ . .. ..... . ... ... ......... ....... ... . ..... ..... ...... ............ . .. ... . .. ......... ......... ... ... . ..
.. . . .. .. . .. . . ... . .... . . .... .. .. .. .. . ....... ... . .. .. ..... ... . . . .. . .. .. ..
. ..... .... ... . . ................. ..... .... ... .... . . ..... ..... .... .. .. .......... ... ....... .... ... . ... ... .. ..... ....... ... ...... ...
. . .. . ... .. . . .. . .. ... ... .... .. .. . ... ..... . . . . .. .... . . . .. . . . . . .
. .. . .. . ..... . .. . .. .. . .. . .. .. .. .. . . . ........ ... ...... .... . .. .. .. .. .. .
. . .. . .. . ..
.... ......... .. ..... ... .... ........ ......... .. ....... ..... ........ ... . ................ .... ............ .. . ..... ........ ..
−0.848 ......... . ... . ... ... ... . . .. . ...... . . ..... . ... ........ ....
. . .. . . . . .. . . .. . . . . ... ... .. ... .... . .
. .... . ... .. . ...... .. . ....... . . .. .

−1.060
−1.5 −1.2 −0.9 −0.6 −0.3 0.0 0.3 0.6 0.9 1.2 1.5

2.3 Méthode de rejet générale


On veut simuler une variable aléatoire X dont la loi a pour densité f et on suppose qu’il
existe une loi de densité g facilement simulable et une constante c > 0 telles que :

f (x) ≤ c g(x) , ∀x ∈ R .

Puisque f et g sont des densités, on a c ≥ 1. L’idée de la méthode repose sur le résultat suivant :
Proposition 2.3 Soit f une densité sur Rd et Df = {(x, u) ∈ Rd × R+ : 0 ≤ u ≤ f (x)}. Soit
X : Ω → Rd et U : Ω → R+ des variables aléatoires. Le couple (X, U) suit une loi uniforme
sur Df si et seulement si X a pour densité f et la loi conditionnelle de U sachant X = x est
uniforme sur l’intervalle [0 , f (x)].

19
Démonstration : Puisque |Df | = 1, la densité de la loi uniforme sur Df est
 
1
g(x, u) = 1Df (x, u) = f (x) 1[0,f (x)] (u) ,
f (x)
ce qui prouve l’équivalence annoncée. 2
On en déduit que simuler une variable aléatoire de densité f revient à tirer un point au
hasard sous le graphe de f et retourner l’abcisse de ce point. Ce résultat peut être généralisé à
une densité par rapport à une mesure quelconque et justifie la méthode de rejet suivante :
Proposition 2.4 Soit f et g des densités telles que f ≤ c g ; notons q(x) = cfg(x) (x)
∈ [0, 1].
Soit Y1 une variable aléatoire de densité g et U1 une variable aléatoire de loi uniforme U([0, 1])
indépendante de Y1 . Si U1 ≤ q(Y1 ), on pose X = Y1 . Sinon, on rejette X1 et on simule une
suite de variables aléatoires indépendantes Yi de densité g et Ui de loi uniforme U([0, 1]) jusqu’à
τ = inf{i ≥ 1 : Ui ≤ q(Yi )} . Alors la variable aléatoire X = Yτ a pour densité f , τ suit une
loi géométrique de paramètre 1c et E(τ ) = c.
Démonstration : Puisque f et g sont des densités de probabilité, on a :
Z +∞ Z 1
 1
P U1 > q(Y1 ) = g(y) dy du = 1 − .
−∞ f (y)
c g(y)
c

1 k−1 1

On en déduit que pour tout entier k ≥ 1, P (τ = k) = 1 − c c
, tandis que pour tout t ∈ R :
∞  k−1 Z t Z f (y)
X 1 c g(y)
P (X ≤ t) = 1− g(y) dy du
k=1
c −∞ 0
Z t Z t
f (y)
= c g(y) dy = f (y) dy .
−∞ cg(y) −∞

Remarquons que cette méthode s’applique au cas où les variables aléatoires X et Y ont une
densité par rapport à une même mesure (qui n’est pas obligatoirement la mesure de Lebesgue,
mais peut être la mesure de comptage). 2
Application aux lois Gamma La méthode de rejet permet par exemple de simuler une
λa
variable aléatoire de loi Γ(λ, a), c’est à dire de densité f (x) = Γ(a) exp(−λ x) xa−1 1]0,+∞[ (x) où
R +∞ −x a−1
λ et a sont des paramètres strictement positifs et Γ(a) = 0 e x dx.
Si X et Y sont des variables aléatoires indépendantes de loi Γ(λ, a) et Γ(λ, b) respectivement,
la variable aléatoire X +Y suit une loi Γ(λ, a+b). De plus, la loi Γ(λ, 1) est une loi exponentielle
E(λ), ce qui entraı̂ne qu’une variable aléatoire de loi Γ(λ, n) avec n entier supérieur ou égal à
1 peut être aisément simulée comme somme de n variables aléatoires indépendantes de même
loi exponentielle E(λ).
Un changement de variables montre enfin que si Y suit une loi Γ(1, a), la variable aléatoire
X = Yλ suit une loi Γ(λ, a).
D’après ce qui précède, pour simuler toutes les lois Γ(λ, a), il suffit donc de savoir simuler une
variable aléatoire de loi Γ(1, a) pour un paramètre a ∈]0, 1[ , ce qui est possible par la méthode
de rejet suivante de Ahrens et Dieter (1974) modifiée par Best (1983) (et qui ne nécessitera pas
de calculer Γ(a)).
1
Soit a ∈]0, 1[ et f (x) = Γ(a) e−x xa−1 1]0,+∞[(x) et
a e  a−1
x 1]0,1[ (x) + e−x 1[1,+∞[ (x) ;

g(x) =
a+e

20
a+e
alors f ≤ a e Γ(a)
g et pour tout x > 0 :

f (x)
q(x) = a+e = e−x 1]0,1[ (x) + xa−1 1[1,+∞[(x) .
a e Γ(a)
g(x)

Soit Y une variable aléatoire de densité g ; on peut aisément calculer la fonction de répartition
G de Y et son inverse est définie pour z ∈]0, 1[ par :
  a1  
−1 a+e a+e
G (z) = z e (z) − ln
1]0, a+e (1 − z) 1[ a+e
[ e
,1[ (z) .
e ae

(1) On simule une variable aléatoire U de loi uniforme U([0, 1]), on calcule Y = G−1 (U), puis
on simule V de loi uniforme U([0, 1]) indépendante de U.
(2) Si V ≤ q(Y ), on pose X = Y et sinon on retourne en (1).
Cependant, si a est supérieur ou égal à 12, les bibliothèques de programmes donnent souvent
une méthode alternative de simuler une loi Γ(1, a) qui repose sur une méthode de rejet ; elle est
théoriquement valable pour tout a > 1 et fait en moyenne moins d’appels au générateur pour
les « grandes » valeurs de a. Soit (Un , n ≥ 1) une suite de variables aléatoires indépendantes
de même loi U([0, 1]). On note

Zk = tg(π Uk ) et Yk = 2a − 1 Zk + a − 1 ;

les variables aléatoires (Zk ) sont indépendantes et un changement de variables montre qu’elles
suivent une loi de Cauchy de densité π1 1+z 1
2 . On note τ = inf{k ≥ 1 : Yk > 0} et on pose

Y = Yτ . Pour toute fonction borélienne bornée Φ,


∞ k−1 Z +∞


 X 1−a  1 1
E Φ(Y ) = P Zk ≤ √ Φ 2a − 1 z + a − 1 dz ;
k=1
2a − 1 √1−a π 1 + z2
2a−1

la densité de Y est donc


1 1 1
g(x) = 1 1
 × √ × (x+1−a)2
× 1{x>0} .
− Arctg √1−a π 2a − 1 1 + 2a−1
2 π 2a−1
h i
(x+1−a)2
−x a−1
On suppose que a > 1 et on note h(x) = e x 1 + 2a−1 pour x > 0 ; le maximum de
h sur ]0, +∞[ est atteint en a − 1, ce qui entraı̂ne que pour tout x > 0 :
√ (a − 1)a−1 1−a
 
1 −x a−1 1 1 1−a 
e x ≤ c g(x) avec c = − Arctg √ π 2a − 1 e .
Γ(a) 2 π 2a − 1 Γ(a)

Lorsque a est un entier supérieur ou égal à deux, pour tout x > 0 on a :


"  2 #  a−1
f (x) x+1−a x
q(x) = = 1+ √ e−x+a−1 .
c g(x) 2a − 1 a−1

On en déduit l’algorithme suivant de simulation d’une loi Γ(1, a) pour a entier (supérieur ou
égal à 12 pour faire appel en moyenne à moins de 12 uniformes)

21

S← 2a− 1
Faire
Faire (
Z ←tg (π Random)
Y ←S ∗ Z +a−1
Tantque (Y ≤ 0))    
Tantque Random >(1+Z*Z) *exp (a − 1) ∗ log Y /(a − 1) − S ∗ Z
X←Y

2.4 Lois gaussiennes réelles


La fonction de répartition d’une loi gaussienne centrée réduite N (0, 1) n’est pas explicite et
l’utilisation de cette fonction tabulée risque d’accumuler les erreurs. On dispose d’une méthode
de simulation « exacte » dite de Box-Muller. Si X1 et X2 sont des variables aléatoires gaus-
siennes N (0, 1) centrées réduites indépendantes, alors les variables aléatoires Xi2 , i = 1, 2 sont
indépendantes et un changement de variable montre qu’elles suivent une loi Gamma Γ( 21 , 21 ) de
1 1
densité f (x) = √12 π e− 2 x x− 2 1]0,+∞[ (x). La variable aléatoire R2 = X12 + X22 suit donc une loi
exponentielle de paramètre 12 . Si on pose X1 = R cos(θ) et X2 = R sin(θ), un changement de
variable montre que θ suit une loi uniforme sur l’intervalle [0, 2π] et est indépendante de R. On
en déduit la

Proposition 2.5 Soit U1 et U2 des variables aléatoires indépendantes de même loi uniforme
U([0, 1]) ; alors les variables aléatoires
p p
X1 = −2 ln(U1 ) cos(2 π U2 ) et X2 = −2 ln(U1 ) sin(2 π U2 )

sont gaussiennes N (0, 1) indépendantes.

(On pourra montrer cette proposition directement à titre d’exercice).


Cependant, afin de gagner éventuellement du temps de calcul, on peut éviter de faire appel
à des fonctions trigonométriques en utilisant une « méthode de rejet ». La méthode suivante est
l’algorithme polaire ; d’autres méthodes sont proposées en exercice. Soit U1 et V1 des variables
aléatoires indépendantes de loi uniforme sur l’intervalle [−1, +1]. On calcule ρ21 = U12 + V12 ; si
ρ21 ≥ 1, on rejette (U1 , V1 ) et on tire deux nouvelles variables aléatoires indépendantes (U2 , V2 ) de
2 2 2
q l’intervalle [−1, +1]. On procède ainsi jusqu’à τ = inf{i ≥ 1 : ρi = Ui + Vi <
loi uniforme sur
−2 ln(ρ2τ )
1}. Soit Z = ρ2τ
; alors les variables aléatoires

X = Uτ Z et Y = Vτ Z

sont gaussiennes N (0, 1) indépendantes. En effet, l’application

T : {(u, v) ∈] − 1, +1[2 : 0 < u2 + v 2 < 1} → R2 \(0, 0)


 q q 
−2 ln(u2 +v2 ) −2 ln(u2 +v2 )
définie par T (u, v) = u u2 +v2
,v u2 +v2
est un C1 difféomorphisme d’applica-
  2 2  2 2 
x +y
x
tion réciproque T (x, y) = √ 2 2 exp − 4
−1
, √ 2 2 exp − x +y
y
4
et le jacobien de
x +y x +y

22
 2 2

T −1
est égal à − 12 exp − x +y
2
. Pour toute fonction borélienne φ : R2 → R+ , on a donc

∞ 
π k−1 1 1 1
X Z Z
 
E φ(X, Y ) = 1− 1{0<u2 +v2 <1}
k=1
4 −1 −1 4
r r !
−2 ln(u2 + v 2 ) −2 ln(u2 + v 2 )
×φ u ,v du dv
u2 + v 2 u2 + v 2
 2
x + y2

4 1 1
Z Z
= φ(x, y) exp − dx dy
π4 R2 2 2
 2
x + y2

1
Z Z
= φ(x, y) exp − dx dy .
R2 2π 2

On en déduit la simulation de deux variables aléatoires gaussiennes N (0, 1) indépendantes par


l’algorithme polaire :

Faire U ← 2 ∗ Random − 1
V ← 2 ∗ Random − 1
Tantque (U ∗ U + V ∗ V ≥ 1)
Fin
Z = sqrt(−2 log(U ∗ U + V ∗ V )/(U ∗ U + V ∗ V ))
X ←Z ∗U
Y ←Z ∗V

Fig. 3 – H istogrammes de densité de loi gaussienne N (0, 1) par Box-Muller et par rejet

Histogramme des echantillons par Box Muller Histogramme des echantillons par rejet
Densite Densite
0.40 0.40

0.36 0.36

0.32 0.32

0.28 0.28

0.24 0.24

0.20 0.20

0.16 0.16

0.12 0.12

0.08 0.08

0.04 Valeurs 0.04 Valeurs

0 0
−6 −4 −2 0 2 4 6 −6 −4 −2 0 2 4 6

Les figures ci-dessus montrent les histogrammes de simulation de variables aléatoires Gaus-
siennes N (0, 1) à l’aide de 10 000 couples de tirages uniformes indépendants par la méthode de
Box-Muller puis par la méthode de rejet précédente, ainsi que le graphe de la densité théorique.
Les temps de calcul de la méthode de Box-Muller et par la méthode du rejet (en simulant
des couples de variables de loi Gaussienne N (0, 1)) utilisant 2N tirages uniformes, donnés par
la fonction timer() de Scilab sont :

23
2N 20 000 40 000 60 000 80 000
Box-Muller 0.38 0.76 1.15 1.53
Polaire 0.55 1.11 1.66 2.23

On voit que la méthode de Box-Muller est un peu plus rapide en dépit du calcul des fonctions
trigonométriques. Si l’on définit une procédure
p de simulation d’une seule variable aléatoire de loi
gaussienne
p en ne conservant que X = −2 ln(U 1 ) sin(2ΠU2 ) par la méthode de Box-Muller ou
V
−2 ln(U 2 + V 2 ) U 2 +V 2 dans la méthode du rejet, la méthode de Box-Muller devient presque
deux fois plus rapide, comme le montre le tableau suivant des temps de simulation de N tirages
de variables aléatoires N (0, 1) en ne gardant que l’une des deux composantes :

N 20 000 40 000 60 000 80 000


Box-Muller 0.54 1.07 1.6 2.14
Polaire 1.01 2 2.99 4.03

La figure suivante montre la simulation de 10 000 couples de variables aléatoires N (0, 1)


indépendantes ; la moyenne empirique de l’abcisse est - 0.0001353 et la moyenne empirique de
l’ordonnée est 0.0011352.

Fig. 4 – S imulation de 10 000 couples de gaussiennes N (0, 1) indépendantes

. . .
3.26 . .
. . . .. .. . . .
. . .
. . . . . . .. .
. . .. . . . . .. . . . . .
.. .. . .. . .. . . . . . . . . . .
. .. . . ... . .
.. . .. .......... .. . . .. ... . . . . . .. . . . .. . . .
2.58 .
. . . . . . . . .
. . . . . . . . . . . . . . .. . . .
. .. . .. ... ..
.. . . . .. . .
. . . . . . .. . .. . .. . . . . . . . . .
. . .. . . .
. . .. . . . . . . . . .. ... .. .. .. . . ... ..... ...... . ........ . ................... ... . . . .. . .. .. ... . . . . .
. . . . .. . .. . . .. .
1.90 .
. . ... . .... ......... .... ... .. .. ..... ...... .. .......................... ..... . ........ .. .......... . .... ... .... ... . . .. .... ... . . .
. . . . . . . .. . . . . ... . . . . . ... . . . . .. . . . . . . . . . . . . . . . . ... . .. . . .
. .
.
..
. .. .. .... .. .... .... .... .. .. .... ............ ..... .............. ......... ... ...... ... ..... ....... ...... . ..... ...... .. ..... . .... .. . . ..
. . .. . . . . . . .... .......... .. ..... ............ .......................................... ................................... . ....... ........ .. ... . .. . .. .
.. . . . . . . .. .. . . ..... . .. .. . . .. ....... . .. . . .
.. . . . . . . . ... ... . ................................... ............ ..................................................................... ........................ ...... . .. ..... ... .. ..... . .
1.22 . . . .. .. .. . ...... . ... .... .. .. .... .......................... ............................ ................................................ . ......... .... ......... ... . ... . .. .. . . .
. . .. .. . . . ....... ...... . ... . ... ............ .. .................... . .. .. ...... . .. .. ... . . . .. . . . . .
. .. . . . . . .. . . ................... . ..................... ...................................................................................................................................................................................... ............. ..... ......... . ..... .. .. .
. .. ... .. ... ... . .. .. ................................................................. ........................................................................................................................ ....... ......................... ............ . . ..... . . . . .
. .. . ... . . ... . .. .. . . .. ... . . . ... .... . ... ... . . ..... . .. .. .. .. .
.
. . . . .. . ... .................. .... ... ..... ..................................................................................................................................................................................................................................... ................... . .. . ... . . . .
0.54 . . . . .. . . . .. ..... . .. ... .. . .. . ... . . . . . .. . . .. . . . ..
. . . . . . .... . ...... ...... .................. ...................................................................... ................. ................ ... ... ... .. . . . . ... . ..
. .. .. . .. ..... ....... ..... .............................................................................. ........................................................................................................................................... .... ...................... ...... .. .. . .
. . . . .... .. ... .. ..... .... ......................................................................................................................................................................................................................................................................... .................... ........ ... .. . . .. .
. .. . . .. ..... .................. ............ ............. ........................................................................................................................................ . .. . . . .. . .
. . . .. . ... .. .... .. ..... .......... ..................... ................... ............... ...................................... ............... ... .......... ..... .. . . . . .
−0.14 . . .. . .. . ... . ........... ................................................................................................................................................................................................................................................. ............ .. .... .. .. . . .... . . .. . .
. . .. . . . . . .. . .. . .... . . . . ... .. . . . .. .. . .. . . .
. . . . .... .. ..... .. ...... .. .... ....... ........ ............. .................................................................... ..... ........ .. ... .... .. . .. . . . . ..
. .. . .... . .. . ..... .............. ........................................................................................................................................................................................ ................................................ .... ... . ... . ....
... . ... . . . .. ....... .. ........ ... ................................................................................................................................................................................. ... ..... . . . . . .
−0.83 . .. . .. . . . . .. . .. . . . . . . .. .. . . . . .
.. . .
. . . . .. ..
. ..
. .. . .. . .. . ... . ... .. .. .......... ............... ............. ..... .............. . . ....... ......... .. . .. . .. ... . .. .. .. . . . . . .. .
. .. . .. . . . .. .. . .. .. .. . . . ... . .. . . . . . . .. .... . . . . . . . . . . .
. . . . . .. ... ... .... . . ... .............. .......................... ..... .... .. ... ......... ................. ............. ..... . .... . . .. .. . ... . .
.. . . . .... ... ....... ...... ......... ............................ ................. .................... ... ...... .......... ......... . ... .. . . .. . . . . .. . . .
. . ... . . .. . ... ... .............. .............. ......................................... . . .. ........................ . .... . ... .. . . . ... .
. . .. . . . . . .. . . . .
. . . . . . . . . .... .. . . ...... ...... .................. . .......... . . . ...... .... ...... . . . .. . . . . ... . .
. .. .
−1.51 . .. ... .. .. . .. ..... ... ........... . ..... . .. ... ...... ................ . .......................... ........... ...... . ..................... .. . ..... . . . . . .... .
.. ... .. . ... ..... . ... ... . .... ... ... ..... . ... ... . ........ . . .... .. .
. . . . ...... .. .. . .... . . ............ .... ... . ... ...... .. .. ... .. . . . . . .. .
. . . . .. . . ... . .... .. . ... . ..... .. . . . .... . ..
. . . .. . . . .
. . . . . . ... .. ... . . .. . ... . . .. .. . ...
. . . . ... .. .. .... ... ... .............. ... . ...... ... . . . . . . . . . .... .
. . . . . . . . . . . . . . . . . .
−2.19 . . .... . . . . ..... .. . .. .. . . . .. .
. .
. . . .. . . . . .. . . . ... .. . . .. .
. . .. . . . . . .. .
.
. . . . . .
. . .
.. . . . . . .
. .
−2.87 .. . .
. .
. . .
..
.. .
−3.55
−4.96 −4.00 −3.03 −2.07 −1.11 −0.14 0.82 1.79 2.75 3.72 4.68

Pour simuler une variable aléatoire gaussienne Z de loi N (m, σ 2 ) avec σ > 0, il suffit de
simuler une variable aléatoire Z̃ de loi N (0, 1) et de poser Z = m + σ Z̃.
Si F désigne la fonction de répartition d’une variable aléatoire gaussienne N (0, 1), signalons
enfin les procédures suivantes (en Scilab) de calcul approché de F et de F −1 qui peuvent être
utiles dans certains cas.

24
Calcul approché de F (t)
function [rep]=rep gauss(x)
P= 0.2316419 ;
b1= 0.319381530 ; b2= -0.356563782 ; b3= 1.781477937 ;
b4= -1.821255978 ; b5= 1.330274429 ;
unsurrac2pi = 0.39894228 ;
if(x >= 0.0) then
t = 1.0 / (1.0 + P * x) ;
rep = 1.0 - unsurrac2pi * exp(- x*x /2.0) * t * (t * (t * (t * ( t * b5 + b4) +
b3) + b2 ) + b1) ;
else
t = 1.0 / (1.0 - P*x) ;
rep = unsurrac2pi * exp(- x*x/2.0)* t * (t * (t * (t * ( t * b5 + b4) + b3) + b2
) + b1 ) ;
end ;
endfunction
Calcul approché de F −1 (t) pour 0 < t < 1
function [inverse]=inverse N(x)
c0= 2.515517 ; c1= 0.802853 ; c2= 0.010328 ;
d1= 1.432788 ; d2= 0.189269 ; d3= 0.001308 ;
if (x>0.5) then signe = +1.0 ; x=1.0-x ;
else signe = -1.0 ;
end
t=sqrt(-2.0 * log(x)) ;
inverse = signe * (t-((c2*t+c1)*t+c0)/(1.0+t*(d1+t*(d2+d3*t)))) ;
endfunction

Fig. 5 – Graphes de F et F −1 où F est la fonction de répartition de la gaussienne N (0, 1)

Fonction de repartition de loi gaussienne N(0,1) Inverse de la Fonction de repartition de loi gaussienne N(0,1)
F(t) F^{−1}(t)
1.0 3

0.9

2
0.8

0.7
1

0.6

0.5 0

0.4

−1
0.3

0.2
−2

0.1 t t

0.0 −3
−4 −3 −2 −1 0 1 2 3 4 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

2.5 Vecteurs gaussiens


Pour simuler un vecteur gaussien X = (X1 , · · · , Xd ) d’espérance m = (m1 , · · · , md ) et de
matrice de covariance Σ, il suffit de simuler un vecteur gaussien centré Y = (Y1 , · · · , Yd ) de

25
matrice de covariance Σ et de poser Xi = Yi + mi pour i = 1, · · · , d ; dans la suite on suppose
donc que m = 0. Si la matrice de covariance Σ est diagonale, c’est à dire si les composantes du
vecteur gaussien sont indépendantes, il suffit de simuler successivement d variables aléatoires
gaussiennes réelles. Sinon, puisque Σ est symétrique de type positif (puisque pour tout vecteur
v ∈ R, hv , Σ vi = Var(hv , Xi ≥ 0), un résultat classique d’algèbre linéaire permet d’écrire la
décomposition de Cholevsky de Σ, c’est à dire de trouver une matrice A triangulaire inférieure
telle que Σ = A A∗ . Il suffit alors de simuler un vecteur gaussien Z = (Z1 , · · · , Zd ) dont
les composantes sont gaussiennes N (0, 1) indépendantes, puis de calculer X = A Z (où on
commet l’abus de langage consistant à identifier un vecteur de Rd et la matrice colonne de ses
coefficients dans la base canonique) ; le vecteur X est clairement gaussien, centré de matrice
de covariance Σ. Rappelons que lorsque la matrice Σ = (Si,j , 1 ≤ i, j ≤ d) est définie positive,
la décomposition de Cholesky de Σ (qui est disponible dans de nombreuses bibliothèques de
programmes) est calculée de la façon suivante :
pS1,i
S1,1 , ai,1 =
a1,1 = pour 2 ≤ i ≤ d ,
a1,1
s X
pour i croissant de 2 à d : ai,i = Si,i − |ai,k |2 ,
1≤k≤i−1

pour i < j ≤ d
Pi−1
Si,j − k=1 ai,k aj,k
aj,i = , ai,j = 0 .
ai,i

La figure ci-dessous montre la simulation de 10 000 vecteurs X dans R2 , centrés et de matrice

Fig. 6 – S imulation de 10 000 couples de gaussiennes corrélées

.
5.08
.
. . . .
. . .
4.07 . . ... . . . . .
. . ...... .. . .
. . ... . . . .. ... ....... . . . . .
.. . . . . . ... .. . . .
. . .. . . ..... . . .... . ...... .. . .. .... .. . .
3.06 . . .. . .. .. ... .. .... ... ..... . .. . .
. .. .... .. .. . . . . . . . . . .
... ........ .......................................................... ... . . ..
... ..... ....... .................................................... ............................ . ..
. . . . . .
. . . . ........ ............................................... .. .. . . .. .. .
... .. . . . . .
. . .. . .
. . . . .
.. . ........ . .
.... .
. . . .
2.04 .. ...... ............................................................................................................................... ... .
...... .. .......................................................................... . .. .
.... ... .................................................................................................................................................... ......... . .
. . .
. . ... ...................................................................................... ... ... . . . . . .. . .. . . . .
1.03 ... ... .... ...................................................................................................................................................................................... .... . . ..
... .. ............. ...................................................................................................................................... ..
. ........ .................................................................................... ....... ..... ............ ..... . .. .
. . . . .... . . . . ........................................................... . ....
.. ... ............................................................................................................................................................................................................. ...... .
. . . .. . .
. . .. ... ................................................................................................................................................................................................................ ...... .. .
. .
0.02 . . ... ........................................................................................................................................................................................................ .. ... . .
. .. ...... .......................................................................... ......................................................................... . .. . .
.......... ... . .. . . .. ..
.
. .... . ...................................................................................................... .
.. ........... ......................................................................................................................................................................................
. ..... .. ... .. . . .. . .
. . ..... . ............................................................................ ... ..
−1.00 . . .. ..... ...................................................................................................................................................................... .. .. .... .
. . .. ..... .. ..... ... ... .. . .. ..
. ........................................................................................................................................ .... ... . . .
.. . . . ... . .. . . . . .
.. ........ .......... ................................................................................................. ........ .
. ..................... ...................... ......... .... . . ..
−2.01 . . .... ... ... .. ... ....................................................................... . ...... . . .
. ... ... .... ........ ............. ... ....... . . .
. . . . . . ... . . . . .. . .
. . .... . .... . ................... ............... . . . ..
. ... ... .. . ... . . ... .... . ..... ... .. .
−3.02 . . . . . . .. .
.
. . .. . . ....... .. . ..... . . .
. .. . .
. .
... . . . . .
.. .
−4.04 . . .. .
. .
.
.
−5.05
−6.85 −5.42 −3.98 −2.55 −1.12 0.32 1.75 3.19 4.62 6.05 7.49

26
√ !
11 7 3
de covariance Σ = 16
√ 16 : La moyenne empirique de la première composante est
7 3 25
16 16
−0.0015815, celle de la seconde composante est 0.0027786, la variance empirique de la première
composante est 0.6772414 alors que 11 16
= 0.6875, celle de la seconde composante

est 1.5607471
25 7 3
alors que 16 = 1.5625 et la covariance empirique est 0.7520688 alors que 16 = 0.7577722.
σ12
   
ρ σ1 σ2 σ1 0
Dans le cas particulier d = 2, Σ = , on a A = p .
ρ σ1 σ2 σ22 ρ σ2 σ2 1 − ρ2
Donc si Z1 et Z2 sont des variables
p aléatoires
 gaussiennes N (0, 1) indépendantes, X1 = m1 +
σ1 Z1 , X2 = m2 + σ2 ρ Z1 + 1 − ρ2 Z2 , le vecteur X = (X1 , X2 ) est gaussien de vecteur
espérance m = (m1 , m2 ) et de matrice de covariance Σ.

2.6 Quelques autres lois classiques


Loi géométrique G(a), a ∈]0, 1[. C’est la loi du premier instant où on obtient un succès en
répétant des expériences indépendantes de même loi qui donnent un succès avec la probabilité
1 − a. On a donc pour tout entier n ≥ 1, P (X = n) = (1 − a) an−1 . L’algorithme suivant simule
une loi G(a).

X ←0
Faire (
X ←X +1
Tantque Random < a )
Fin
Retourner X
A titre d’exercice, calculer la loi de la variable aléatoire simulée par l’algorithme suivant :
X ←0
Tantque Random < a
Faire ( X ← X + 1 )
Fin
Retourner X
Chi-deux. Un changement de variables montre que le carré d’une variable aléatoire gaus-
sienne N (0, 1) suit une loi Γ( 21 , 12 ) ; on en déduit que si les variables aléatoiresPXk , 1 ≤ k ≤ n
sont indépendantes de même loi gaussienne N (0, 1), la variable aléatoire Zn = nk=1 Xk2 , qui est
un χ2n , c’est à dire un Chi-deux à n degrés de liberté, suit une loi Gamma Γ( n2 , 21 ). Si n = 2N est
un entier pair, un χ2n est une somme de N exponentielles indépendantes de paramètre 12 tandis
que si n = 2N + 1 est un entier impair, un χ2n est la somme de N exponentielles indépendantes
de paramètre 12 et du carré d’une gaussienne N (0, 1) indépendante des exponentielles.
Γ(a+b)
Loi Beta β(a, b), a > 0, b > 0. Elle a pour densité f (x) = Γ(a)Γ(b) xa−1 (1 − x)b−1 1]0,1[ (x).
Montrer que pour tout λ > 0, si X et Y sont des variables aléatoires indépendantes de loi
X
Γ(λ, a) et Γ(λ, b) respectivement, les variables aléatoires X + Y et X+Y sont indépendantes de
loi respectives Γ(λ, a + b) et β(a, b). En déduire un algorithme de simulation d’une loi β(a, b).
Un autre algorithme de simulation d’une loi β(a, b) pour a, b < 1, du à Jönk (1964), est proposé
dans l’exercice 2.10.
Loi log-normale. C’est la loi de X = eY lorsque Y suit une loi normale N (m, σ 2 ) ; sa
2
densité est f (x) = x σ√1 2 π exp − 2 1σ2 ln(x)−m)2 1{x>0} , son espérance est E(X) = exp(m+ σ2 )

27
 
et sa variance est Var(X) = exp 2(m+σ 2) −exp 2m+σ 2 . Écrire un algorithme de simulation
de cette loi.
Loi de Pareto. C’est la loi de X = r eY lorsque r > 0 et Y suit une loi exponentielle de

paramètre α > 0. Sa densité est f (x) = xαα+1 1{x>r} et sa fonction de répartition est F (t) =
r α
  
1− t 1{t>r} . La variable aléatoire X n’est pas intégrable si α ≤ 1 et n’est pas de carré
αr 2
intégrable si α ≤ 2. Si α > 1, E(X) = α−1 et si α > 2, Var(X) = (α−1)α2r(α−2) . Écrire un
algorithme de simulation de cette loi.
Loi de Weibull W (α, θ), α > 0, θ > 0. Sa densité est f (x) = α θ xα−1 exp(−θ xα ) 1{x>0} ,
1
Γ(1+ α )
sa fonction de répartition est F (t) = [1 − exp(−θ tα )] 1{t>0} , son espérance est 1 et sa
θα
2 1 2
Γ(1+ α )−Γ(1+ α )
variance est 2 . Montrer que si Y suit une loi exponentielle de paramètre θ > 0,
θα
1
X = Y suit une loi de Weibull W (α, θ). En déduire un algorithme de simulation d’une loi de
α

Weibull W (α, θ).

2.7 Méthode de décomposition


P
On cherche à simuler une variable aléatoire de densité f = n pn fn par rapport à une
d
mesure µ sur la tribu des boréliens de R où (pn , n ≥ 0), désigne une probabilité sur N et
pour tout entier n ≥ 0, fn désigne une densité par rapport à µ. Soit (Xn , n ≥ 0) une suite
de variables aléatoires indépendantes telles que Xn a pour densité fn par rapport à µ et soit
τ : Ω → N une variable aléatoire indépendante de la suite (Xn ) et de loi (pn , n ≥ 0). Alors la
variable aléatoire Xτ a pour densité f par rapport à µ. En effet, pour tout borélien B de Rd ,
le théorème de Fubini entraı̂ne que :
X
P (Xτ ∈ B) = P (τ = n) P (Xτ ∈ B | τ = n)
n≥0
X Z
= pn fn (x) µ(dx)
n≥0 B
Z X Z
= pn fn (x) µ(dx) = f (x) µ(dx) .
B n≥0 B

Cette méthode est particulièrement intéressante lorsque les densités fn sont à support disjoints,
par exemple lorsqu’on veut simuler une loi uniforme sur la réunion D d’ensembles disjoints Dn ;
on pose alors pn = |D n|
|D|
. C’est par exemple le cas si l’on souhaite simuler une densité à support
compact linéaire par morceaux. Si U1 et U2 sont des variables aléatoires indépendantes de loi
U([0, 1]), la densité de Max = max(U1 , U2 ) est 2 x et celle de Min = min(U1 , U2 ) est 2(1 − x).
On déduit par exemple de la Proposition 2.3 l’algorithme suivant de simulation d’une variable
aléatoire de densité f définie par f (x) = 0 si x ≤ 0 ou x ≥ 7 et pour 0 < x < 7,
 3x
 10
si x ∈]0, 1] ,
 4−x

10
si x ∈]1, 3] ,
f (x) = x−2

 10
si x ∈]3, 4] ,
 7−x
15
si x ∈]4, 7[ .

On décompose l’ensemble Df = {(x, u) : 0 < x < 7 , 0 ≤ u ≤ f (x)} en cinq ensembles


1
disjoints D1 = {(x, u) : 0 < x ≤ 1 , 0 ≤ u ≤ f (x)}, D2 = {(x, u) : 1 < x ≤ 4 , 0 ≤ u ≤ 10 },
1
D3 = {(x, u) : 4 < x < 7 , 0 ≤ u ≤ f (x)}, D4 = {(x, u) : 1 < x < 3 , 10 ≤ u ≤ f (x)},

28
1 3
D5 = {(x, u) : 3 < x < 4 , 10 < u ≤ f (x)}. Les surfaces sont respectivement : |D1 | = 20 ,
3 3 2 1
|D2 | = 10 , |D3 | = 10 , |D4 | = 10 et |D5 | = 20 . On simule donc une variable aléatoire U de loi
uniforme U([0, 1]), puis suivant le résultat obtenu, on choisit un point au hasard dans chaque
zone 1 à 5 en gardant à chaque fois l’abscisse du point tiré (ce qui revient dans certains cas
à simuler directement la densité fn ) . On a f1 (x) = 2x 1[0,1] (x), f2 (x) = 13 1]1,4] (x), f3 (x) =
2
9
(7 − x) 1]4,7] (x), f4 (x) = 12 (3 − x) 1]1,3] (x) et f5 (x) = 2(x − 3) 1]3,4](x) ; l’algorithme suivant
retourne la valeur X :
U ← Random
Si U ≤ 0.15
Faire ( X← Max( Random, Random) )
Si 0.15 < U ≤ 0.45
Faire ( X ← 3*Random+1 )
Si 0.45 < U ≤ 0.75
Faire ( X← Min(3*Random,3*Random)+4 )
Si 0.75 < U ≤0.95
Faire ( X← Min(2*Random,2*Random)+1 )
Si 0.95 < U ≤ 1
Faire ( X← Max(Random,Random)+3 )

2.8 Simulation de vecteurs aléatoires


• Si les composantes du vecteur sont indépendantes, il suffit de simuler chaque composante.
• On peut simuler une composante, puis des lois conditionnelles successives. Ainsi, si (X, Y )
désigne un couple de variables aléatoires réelles ou vectorielles de densité f (x, y), la densité de
X est fX (x) = f (x, y) dy et la densité conditionnelle de Y sachant X = x est f (y|x) = ffX(x,y)
R
(x)
.
Pour simuler le couple (X, Y ), on simule d’abord X de densité fX , puis ayant obtenu la valeur
réelle (ou vectorielle) x, on simule Y de densité f (.|x) indépendamment de X. En procédant
ainsi pas à pas, on peut simuler des vecteurs aléatoires de dimension quelconque.
• On peut enfin utiliser les changements de variables, comme on l’a fait dans la méthode
de Box-Muller pour couple de variables gaussiennes N (0, 1) indépendantes.

2.9 Méthode de mélange


On suppose que la densité de la loi que l’on veut simuler est
Z
f (x) = g(x, y) dy ,

où g est uneR fonction borélienne


R positive. Puisque f est une densité, le théorème de Fubini
montre que g(x, y) dx dy = f (x) dx = 1, c’est à dire R que g est une densité. Si (X, Y ) désigne
un couple de densité g, la densité de Y est gY (y) = g(x, y) dx tandis que la densité condition-
nelle de X sachant Y = y est g(x|y) = g(x,y)gY (y)
. Si densités gY et g(.|y) sont aisément simulables,
on simule d’abord Y de densité gY , puis ayant obtenu y on simule la densité conditionnelle
g(.|y) indépendamment de Y , ce qui fournit une simulation de X de densité f . De nouveau,
les densités considérées ne sont pas nécessairement par rapport à la mesure de Lebesgue, mais
peuvent être prises par rapport à une mesure positive σ-finie quelconque.
Par exemple, si nRest un paramètre strictement positif, pour simuler une densité la densité
+∞
définie par f (x) = n 1 y −n e−xy dy sur [0; +∞[, on a g(x, y) = n y −n e−xy 1[0,+∞[(x) 1[1,+∞[ (y).

29
On en déduit que gY (y) = n y −(n+1) 1[1,+∞[(y) et que pour y ≥ 1, g(x|y) = y e−xy 1[0,+∞[(x), c’est
à dire que la loi conditionnelle de X sachant Y = y est exponentielle de paramètre y. La fonction
1
de répartition de la loi de Y est FY (t) = (1 − t−n ) 1[1,+∞[(t) et FY−1 (u) = (1 − u)− n 1[0,1[ (u).
Puisque si U suit une loi U([0, 1]), 1 − U suit également une loi U([0, 1]), en déduit l’algorithme
suivant de simulation de X :
Y ← exp( - log( Random ) / n )
X ← - log (Random) /Y
Retourner X

2.10 Exercices
Exercice 2.1 Déterminer la loi de la variable aléatoire X simulée par les algorithmes suivants :
1) On note Int(x) la partie entière du nombre réel x
N ← Int( Random *5 )
X ← Int( Random *N )
2)
X ← 0 ; Y ←1
Tantque ( Random < Y )
Faire ( X ← X+1 ; Y ← Y/2 )
Fin
3)
N ← 0
Répéter n fois
Si (Random < p1) faire N ← N+1
Fin
Fin
X ← 0
Répéter N fois
Si (Random < p2) faire X ← X+1
Fin
Fin
4)
P ← p; F ← P; X ← 1
Tantque (Random > F) faire
P ← P * (1-p) ; F ← F+P ; X ← X+1
Fin
Exercice 2.2 Soit 0 < a < 1 ; montrer que l’algorithme suivant permet de simuler une loi
Gamma Γ(a, 1) :

30
p ← a+e
e

Faire
U ← Random, V ← Random
Si U < p
X ← exp( (1/a) * log(V) )
q ← exp( -X )
Sinon
X ← 1 - log(V)
q← exp( (a-1) * log(X) )
Fin
Tantque ( Random >= q)
Retourner X

Exercice 2.3 Écrire un algorithme de simulation pour les lois suivantes :


- par inversion de la fonction de répartition
- par rejet par rapport de la loi uniforme sur l’ensemble des valeurs prises et calculer le
nombre moyen d’appels à Random dans la méthode du rejet et comparer les vitesses d’exécution
des deux méthodes :
1) Loi binomiale B(5, 0.5).
2) Loi sur {1, · · · , n} définie par P (X = k) = n(kn+1
2 +k) pour 1 ≤ k ≤ n.

Exercice 2.4 Comparer l’efficacité de la méthode de simulation d’une loi géométrique de


paramètre a ∈]0, 1[ décrite dans la section 2.6 et la méthode d’inversion de la fonction de
répartition.

Exercice 2.5 Soit n ≥ 1 un entier fixé, P1 et P2 des probabilités sur {1, · · · , n} définies par :

P1 (1) = 1/(2n − 1) ,
P1 (k) = 2/(2n − 1) , ∀k ∈ {2, · · · , n} ,
P2 (k) = 3/(3n − 2) , ∀k ∈ {1, · · · , n − 1} ,
P2 (n) = 1/(3n − 2) .

Soit P3 la probabilité sur {1, · · · , 2n} définie par



(1/3) P1( (k + 1)/2 ) si k est impair ,
P3 (k) =
(2/3) P2( k/2 ) si k est pair .

1. Écrire un algorithme de simulation de P1 en appliquant la méthode de rejet par rapport


à la loi uniforme sur {1, · · · , n}. Quel est le nombre moyen d’appels à Random ?
2. Écrire un algorithme de simulation de P2 en appliquant la méthode de rejet par rapport
à la loi uniforme sur {1, · · · , n}. Quel est le nombre moyen d’appels à Random ?
3. Écrire un algorithme de simulation de P3 en appliquant la méthode de rejet par rapport
à la loi uniforme sur {1, · · · , 2n}. Quel est le nombre moyen d’appels à Random ?
4. En utilisant les deux premières questions et la méthode de décomposition de P3 , écrire
un algorithme de simulation de P3 . Quel est le nombre moyen d’appels à Random ?

Exercice 2.6 Écrire un algorithme de simulation pour les lois suivantes sur N2 :
−1
1) P (k, n) = k!e2n+1 , ∀(k, n) ∈ N2 .
e−n nk
2) P (k, n) = k! 2n+1
, ∀(k, n) ∈ N2 .

31
Exercice 2.7 Soit X une variable aléatoire dont la loi est symétrique par rapport à 0, c’est
à dire telle que X et −X ont la même loi. Soit S une variable aléatoire indépendante de |X|,
telle que P (S = 1) = P (S = −1) = 12 . Montrer que Z = |X| S a même loi que X. En déduire
un algorithme de simulation d’une variable aléatoire X de densité f (x) = λ2 exp(−λ |x|) pour
une constante λ > 0.
2 1
Exercice 2.8 Montrer que pour tout x ≥ 0, √12π exp(− x2 ) ≤ √12π e 2 e−x . En utilisant l’exercice
précédent, en déduire un algorithme de simulation d’une loi gaussienne N (0, 1). Implémenter cet
algorithme, la méthode de Box-Muller et l’algorithme polaire, faire tracer les histogrammes dans
les trois cas (fonction histplot en Scilab) d’un échantillon, le comparer à la densité théorique et
comparer l’efficacité de ces trois algorithmes (fonction Scilabtimer() en Scilab).

Exercice 2.9 Soit f la densité de probabilité définie par


2 
f (x) = x 1[0,1] (x) + 1]1,2] (x) .
3
1. Écrire un algorithme de simulation de f par la méthode d’inversion de la fonction de
répartition.
2. Écrire un algorithme de simulation de f par la méthode de rejet à partir de la loi uniforme
sur [0, 2].
3. Soit Y et Z des variables aléatoires indépendantes de loi uniforme respectivement sur
[0, 1] et sur [0, 2]. Quelle est la densité de S = max(Y, Z) ? En déduire un algorithme de
simulation de X.
4. Montrer que la variable aléatoire fournie par l’algorithme suivant a pour densité f :
U ← Random
Si ( U < 1/3 )
faire X ← 3*U+1
sinon
faire X ← Max( 3*(U-1/3)/2, 2*Random)
Fin
5. Implémenter les programmes de ces quatre algorithmes. Les comparer pour le temps
d’exécution (par la fonction timer() de Scilab) et pour le nombre d’appels au générateur.

Exercice 2.10 Algorithme de Jönk pour la simulation d’une loi β(a, b).
Soit a, b ∈]0, 1[, (U1 (n), n ≥ 1) et (U2 (n), n ≥ 1) des suites indépendantes de variables aléatoires
indépendantes de même loi U([0, 1]).
1 1
Soit V1 = U1 (1) a , W1 = U2 (1) b et S1 = V1 + W1 . Si S1 ≤ 1, X = SV11 . Sinon, pour tout k ≥ 2,
1 1
soit Vk = U1 (k) a , Wk = U2 (k) b et Sk = Vk + Wk . Soit enfin τ = inf{n ≥ 1 : Sk ≤ 1}. Montrer
que X = SVττ suit une loi Beta(a, b). En déduire un algorithme de simulation d’une loi β(a, b).

Exercice 2.11 Soit m un nombre réel fixé et X une variable aléatoire réelle de fonction de
répartition F inversible ; notons F −1 la fonction réciproque de F .
1. Écrire un algorithme de simulation de la loi de X conditionnellement à X > m à l’aide
de la méthode du rejet. Que se passe-t-il quand m → +∞ ?

2. Soit U une variable aléatoire de loi U([0, 1]) et Z = F −1 F (m) + (1 − F (m)) U . Calculer
la densité de Z et en déduire une méthode de simulation de X conditionnellement à
X > m. Comparer l’efficacité de cette méthode à celle du rejet.

32
3. On cherche à simuler une variable aléatoire gaussienne N (m, σ 2) conditionnellement à
X > m. Montrer que l’on peut se ramener au cas centré réduit m = 0 et σ = 1.
4. Proposer une méthode de rejet de la loi conditionnelle d’une variable aléatoire gaussienne
N (m, σ 2 ) conditionnellement à X > m basée sur la loi exponentielle translatée de densité
θ exp(−θ(x − m))1{x>m} . Comment choisir le paramètre θ ?
Le tableau suivant donne une idée de la comparaison entre le temps de calcul et le nombre
d’itérations nécessaires pour simuler 1000 valeurs de la loi conditionnelle de X/{X ≥ m} lorsque
X est une variable gaussienne N (0, 1) en utilisant la méthode de rejet directe de la question
Q 1, la méthode de rejet basée sur la loi exponentielle de la question Q 4 et la technique de
la question Q 2 basée sur la fonction de répartition. Le calcul de F et de F −1 est fait par la
méthode numérique approximative décrite dans la section 2.4.
m=1 m=2 m=3 m=4 m=1 m=2 m=3 m=4
Temps Temps Temps Temps Nombre Nombre Nombre Nombre
Q1 0.15 0.83 14.17 568.54 6.6 × 103 4.5 × 104 7.7 × 105 3.1 × 107
Q4 0.15 0.44 4.72 144.22 2.4 × 103 8.7 × 103 105 3.4 × 106
Q2 0.12 0.12 0.12 0.12 103 103 103 103
La figure suivante montre l’histogramme obtenu pour ces lois conditionnelle par la méthode de
la question Q 2 pour 10 000 simulations et la densité théorique :

Fig. 7 – H istogrammes de la loi conditionnelle gaussienne X sachant X ≥ m

1.6 2.4

1.4
2.0

1.2

1.6
1.0

0.8 1.2

0.6
0.8

0.4

0.4
0.2

0 0
1.0 1.4 1.8 2.2 2.6 3.0 3.4 3.8 4.2 2.0 2.4 2.8 3.2 3.6 4.0 4.4 4.8 5.2

3.2 4.0

3.6
2.8

3.2
2.4
2.8

2.0
2.4

1.6 2.0

1.6
1.2

1.2
0.8
0.8

0.4
0.4

0 0
3.0 3.4 3.8 4.2 4.6 5.0 5.4 5.8 6.2 4.0 4.4 4.8 5.2 5.6 6.0 6.4 6.8 7.2

33
Exercice 2.12 On se propose de simuler par une méthode de rejet un échantillon de taille N
de variables aléatoires gaussiennes N (0, 1) de densité f par rapport à la densité exponentielle
symétrique de densité g(x) = λ2 exp(−λ |x|) où λ est une constante strictement positive.
1. Trouver le meilleur couple (λ, c) tel que f ≤ c g.
2. Écrire un schéma de programme permettant de simuler un échantillon de taille N de
loi N (0, 1) par cette méthode de rejet, qui fasse calculer le nombre moyen d’itérations
nécessaires pour obtenir un tirage gaussien (et le comparer avec c), qui fasse calculer la
moyenne et la variance empiriques de l’échantillon et qui trace enfin sur le même graphique
l’histogramme de l’échantillon et la densité théorique.
Le tableau suivant donne les temps de calcul, nombre moyen d’itérations, moyenne et variance
empiriques suivant les valeurs de N (quand λ = 1 et c = 1.3154892) et la figure trace l’histo-
gramme correspondant à N = 40 000.
N Temps Itérations Moy. Var.
1 000 0.09 1.36 0.0373 1.0434
4 000 0.33 1.32 0.0058 0.95
10 000 0.81 1.31 0.0015 0.992
20 000 1.63 1.31 0.0033 1.006
40 000 3.27 1.32 0.0022 1.002

0.5

0.4

0.3

0.2

0.1

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Exercice 2.13 Soit X et Y des variables aléatoires indépendantes de même loi exponentielle
de paramètre 1.
1. Calculer la densité conditionnelle de X sachant {Y > (1 − X)2 /2}.
2. Soit Z une variable aléatoire suivant cette loi conditionnelle et S une variable aléatoire
indépendante de Z et prenant les valeurs +1 et −1 avec probabilité 21 . Trouver la loi de
SZ ?
3. En déduire une méthode de simulation d’une loi gaussienne N (0, 1).
4. Écrire un schéma de programme permettant de simuler un échantillon de taille N suivant
cette méthode, qui fasse calculer le nombre moyen d’itérations nécessaires pour obtenir
un tirage gaussien, qui fasse calculer la moyenne et la variance empiriques de l’échantillon
et qui trace enfin sur le même graphique l’histogramme de l’échantillon et la densité
théorique. Comparer cette méthode à celle de l’exercice précédent.
Le tableau suivant donne les mêmes informations que dans la méthode de rejet de l’exercice
précédent.

34
N Temps Itérations Moy. Var.
1 000 0.08 1.279 - 0.0183 0.9518
4 000 0.32 1.32 - 0.0116 0.970
10 000 0.8 1.317 - 0.017 1.006
20 000 1.6 1.317 - 0.005 1.010
40 000 3.2 1.316 0.006 1.001

0.5

0.4

0.3

0.2

0.1

0
−5 −4 −3 −2 −1 0 1 2 3 4 5

Pour la simulation d’un échantillon de taille 105 de loi gaussienne N (0, 1) les temps de calcul
et nombre d’appels au générateur de nombres pseudo aléatoire Random sont donnés dans le ta-
bleau suivant (suivant les méthodes utilisées ; Box-Muller1 et Polaire1 désignent les algorithmes
correspondants dans lesquels on garde seulement un composante, Box-Muller2 et Polaire2 ceux
où on garde les couples à chaque simulation, Rejet1 désigne la méthode de rejet de l’exercice
précédent et Rejet2 celle de cet exercice) :

Méthode Temps Nombre


Box-Muller1 2.67 2 × 105
Box-Muller2 1.9 105
Polaire1 5 2.54 × 105
Polaire2 2.78 2.54 × 105
Rejet1 8.16 2.64 × 105
Rejet2 7.99 3.62 × 105

Que peut-on en conclure ?

35
3 Simulation de processus
3.1 Mouvement Brownien
Rappelons la définition et quelques propriétés du mouvement Brownien.
Définition 3.1 Un processus stochastique W : [0, +∞[×Ω → R est un mouvement Brownien
(standard) si
(i) W0 = 0.
(ii) Pour tout s ≤ t, Wt − Ws suit une loi gaussienne N (0, t − s).
(iii) Pour tout n ≥ 1 et tout t0 = 0 < t1 < · · · < tn , les accroissements (Wti+1 − Wti : 0 ≤
i ≤ n − 1) sont indépendants.
On en déduit immédiatement que pour tout instant t ≥ 0, Wt suit une loi gaussienne N (0, t)
et que pour tout couple d’instants s, t ≥ 0,

E Ws Wt = Cov (Ws , Wt ) = s ∧ t , (3.1)
tandis que pour tout T > 0 :
n−1
X 2
lim W (i+1)T − W iT =T dans L2 . (3.2)
n→+∞ n n
i=0

Les trajectoires de (Wt , t ≥ 0) sons presque sûrement continues, c’est à dire qu’il existe un
ensemble négligeable N tel que pour tout ω ∈ / N, la fonction t → Wt (ω) est continue mais
presque sûrement les trajectoires t → Wt (ω) ne sont dérivables en aucun point. (On en fait le
résultat plus précis suivant : presque sûrement les trajectoires de (Wt , t ≥ 0) sont Höldériennes
d’ordre α < 12 , mais ne sont pas Höldériennes d’ordre 12 .)
Le mouvement Brownien (Wt , t ≥ 0) est un processus à accroissements indépendants,
(c’est la propriété (iii) de la Définition 3.1), stationnaires (c’est à dire que pour tout s, t ≥ 0,
les variables aléatoires Ws+t − Wt et Ws − W0 ont la même loi) et gaussien (c’est à dire que
pour 0 ≤ t1 < · · · < tn , le vecteur (Wt1 , · · · , Wtn ) est gaussien). Il existe de très nombreuses
caractérisations du mouvement Brownien ; nous en signalons deux :
Proposition 3.2 (i) Soit (Xt , t ≥ 0) un processus continu, à accroissements indépendants
stationnaires. Alors il existe des constantes r et σ telles que pour tout t ≥ 0, Xt −X0 = r t+σ Wt ,
où (Wt , t ≥ 0) est un mouvement Brownien.
(ii) Un processus gaussien centré continu (Xt , t ≥ 0) tel que Cov (Xs , Xt ) = s ∧ t est un
mouvement Brownien.

Nous allons donner deux méthodes de simulation des trajectoires d’un mouvement Brownien
(Wt , 0 ≤ t ≤ T ) où T > 0 est fixé. Dans les algorithmes suivants, on désignera par grand
la simulation d’une variable aléatoire N (0, 1) et chaque appel à grand fournit une réalisation
d’une nouvelle variable aléatoire gaussienne réduite indépendante des précédentes (cf. Section
2.4).
La première méthode est directement inspirée par la définition. On choisit un entier n ≥ 1
et un pas de discrétisation h = Tn . L’algorithme suivant :
ecart ← sqrt(T / n)
W[0] ← 0
Pour i=1 à n Faire
W[i] = W[i-1] + ecart * grand
36
fournit les valeurs d’une réalisation du processus aux points de la grille de discrétisation iT /n,
0 ≤ i ≤ n, c’est à dire W[i] = W iT . En interpolant linéairement entre les points ( iTn , W[i]), on
n
obtient une approximation de la trajectoire de W entre les instants 0 et T grâce à la continuité
p.s. des trajectoires de W . Voici un exemple de trois trajectoires obtenues pour T = 1 et
n = 6000.

Fig. 8 – S imulation de trajectoires Browniennes

4.0

3.2

2.4

1.6

0.8

0.0

−0.8

−1.6

−2.4

−3.2

−4.0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

Cette méthode très simple a comme inconvénient que, si l’on souhaite raffiner la subdivision,
les calculs doivent être tous refaits. Ceci est corrigé par la seconde méthode proposée.
L’idée de la seconde méthode est de calculer successivement les valeurs de WT , WT /2 , WT /4 ,
W3T /4 , puis de W en des multiples dyadiques de T d’ordre K + 1 qui ne sont pas des multiples
dyadiques de T d’ordre K. Pour mener à bien cette construction, pour 0 ≤ s < t ≤ T , cherchons
des constantes a et b telles que si on pose Za,b = W s+t − a Ws − b Wt , la variable aléatoire Za,b
2
soit indépendante du couple (Ws , Wt ). Puisque le vecteur (Ws , Wt , Za,b ) est gaussien, il suffit
d’avoir Cov(Ws , Za,b ) = 0 et Cov(Wt , Za,b ) = 0, c’est à dire d’après (3.1
Cov(Ws , Za,b ) = s − a s − b s = 0 ,
s+t
Cov(Wt , Za,b ) = − as − bt = 0.
2
Ces équations sont satisfaites pour tout s < t si et seulement si a = b = 21 et on voit par un
calcul similaire que Za,b indépendante de la tribu G = σ(Wu : u ≤ s, u ≥ t). Dans ce cas, la

37
variable aléatoire
1  1 
Z = Z1,1 = W s+t − Ws − Wt − W s+t
2 2 2 2 2 2

1 t−s 1 t−s t−s


est gaussienne centrée de variance 4 2 + 4 2 = 4 . On en déduit que

W s+t = 12 Ws + Wt + t − s G ,
  
2 (3.3)
G est une gaussienne N (0, 1) indépendante de Wu , u ≤ s, u ≥ t .

Si (Gn , n ≥ 1) désigne une suite de variables aléatoires indépendantes N (0, 1), on en déduit la
procédure suivante de simulation des Wi 2−n :
1) W1 = G1 .
W1/2 = 12 W1 + G2 (onutilise (3.3) avec s = 0 et t = 1).

2)
3) W1/4 = 21 W1/2 + √12 G3 (on utilise (3.3) avec s = 0 et t = 1/2),
W3/4 = 21 W1/2 + W1 + √12 G4 (on utilise (3.3) avec s = 1/2 et t = 1).
 

4) Recommencer pour les points 2i−1


2k
avec k = 2, · · · , n.
On pourra écrire un programme utilisant cette construction des trajectoires de (Wt , 0 ≤
t ≤ 1) en interpolant linéairement entre les points (i 2−n , Wi 2−n ).
Rappelons la définition suivante de martingale.
Définition 3.3 Soit (Ft , t ≥ 0) une filtration, c’est à dire une suite croissante de tribus et
(Mt , t ≥ 0) un processus stochastique à valeurs dans Rd . Le processus (Mt ) est une (Ft )
martingale si :
(i) Mt est F t mesurable pour tout t ≥ 0.
(ii) E |Mt | < +∞ pour tout t ≥ 0. 
(iii) Pour tout 0 ≤ s ≤ t < +∞, E Mt | Fs = Ms .
La proposition suivante montre que le Brownien est une martingale pour sa filtration naturelle.

Proposition 3.4 Soit (Wt , t ≥ 0) un mouvement Brownien standard réel et pour tout t ≥ 0
notons Ft = σ(Ws , 0 ≤ s ≤ t).
(i) (Wt , t ≥ 0) est une (Ft ) martingale.
(ii) (Wt2 − t , t ≥ 0) est une (Ft ) martingale.
2 
(iii) Pour tout λ > 0, exp λ Wt − λ2 t , t ≥ 0 est une (Ft ) martingale.


Définition 3.5 Un Brownien standard r-dimensionnel est un processus W : [0, +∞[×Ω → Rr


tel que si Wt = (Wt1 , · · · , Wtr ), les processus (Wti , t ≥ 0), 1 ≤ i ≤ r sont des Browniens
standards réels indépendants.

La première méthode d’interpolation sur la grille i/n , 0 ≤ i ≤ n proposée pour simuler un


Brownien standard unidimensionnel sur l’intervalle [0, 1] montre que si (Yi , i ≥ 1) désigne une
suite de variables aléatoires indépendantes de même loi N (0, 1), et si pour tout t ≥ 0 on note :
[nt]
X 1 1
Wtn = √ Yi + (nt − [nt]) √ Y[nt]+1
i=1
n n

le processus W.n est celui qui est produit par la simulation et les lois des vecteurs (Wk/n
n
, k ≥ 0)
et (Wk/n , k ≥ 0) sont égales pour tout n.
Les figures suivantes montrent la simulation de deux trajectoires du mouvement Brownien
dans R2 avec 2000 pas entre les instants 0 et 1 :

38
Fig. 9 – S imulation de deux trajectoires du Brownien dans le plan

2.1

−1.8
−1.7 3.8

3.0

−3.3
−2.3 6.4

39
Le théorème de la limite centrale permet d’étendre cette approximation du Brownien au-
delà de sommes de gaussiennes indépendantes équidistribuées ; c’est le principe d’invariance de
Donsker.
Théorème 3.6 (Principe d’invariance de Donsker) Soit (Yn , n ≥ 1) une suite de variables
aléatoires indépendantes de même loi de carré intégrable, centrées de variance σ 2 . Pour tout
t ≥ 0 et tout n ≥ 1 soit
[nt]
n 1 X nt − [nt]
Xt = √ Yi + √ Y[nt]+1 . (3.4)
σ n i=1 σ n
Alors la suite des lois Pn de X.n sur la tribu des boréliens de C([0, +∞[) converge faiblement
vers une probabilité P telle que si Wt (ω) = ω(t) désigne le processus canonique, (Wt , t ≥ 0)
est un mouvement Brownien standard réel.
Démonstration : Nous ne donnons qu’un bref aperçu de la preuve.
Pour prouver la convergence de la suite (Pn ), il faut montrer sa tension. Ceci revient à
prouver que pour tout T > 0 et ε > 0,
 

lim sup P  sup |Xtn − Xsn | > ε = 0 .


δ→0 n |t−s|≤δ
0≤s,t≤T

Nous renvoyons le lecteur à à [12], p. 62-71 pour une démonstration complète de ce résultat.
Il faut d’autre part montrer la convergence des lois fini-dimensionnelles, c’est à dire vérifier
que pour tout d ≥ 1, 0 < t1 < · · · < td , le vecteur (Xtn1 , · · · , Xtnd ) converge en loi vers
(Wt1 , · · · , Wtd ) quand n → +∞. Pour simplifier les notations, prenons d = 2, choisissons
0 < s < t et montrons que le couple (Xsn , Xtn ) converge en loi vers
P (Ws , Wt ). Par définition de
X n , l’inégalité de Bienaymé-Chebychev montre que pour Sk = ki=1 Yi :
√  C

S
 
n [nt]
P Xt − √ ≥ ε ≤ P Y[nt]+1 ≥ ε σ n ≤ .
σ n n
S S
La suite (Xsn − σ[ns]
√ , Xn − √
n t
[nt]
σ n
) converge en probabilité, donc en loi, vers 0 et il suffit de montrer
S S S S −S
que la suite ( σ[ns]
√ , √[nt]
n σ n
) converge en loi vers (Ws , Wt ), soit encore que la suite ( σ[ns]
√ , [nt] √ [ns] )
n σ n
converge en loi vers (Ws , Wt − Ws ). Pour tout n, les variables aléatoires S[ns] et S[nt] − S[ns] sont
indépendantes et pour tout u, v ∈ R, n ≥ 1 :
  
[ns] [nt]
iu X iv X
E exp  √ Yj + √ Yj 
σ n j=1 σ n
j=[ns]+1
     
[ns] [nt]
iu X iv X
= E exp  √ Yj  E exp  √ Yj  .
σ n j=1 σ n
j=[ns]+1
 √

P[ns]
De plus, la suite 1

σ n
− √s Yj converge vers 0 dans L2 (P ) (donc en loi) quand
j=1
σ [ns]
√ P[ns]
n → +∞ et le théorème de la limite centrale montre que la suite √s j=1 Yj converge en
σ [ns]
loi vers une gaussienne N (0, s), ce qui entraı̂ne que
  
[ns]
iu X u2 s
lim exp  √ Yj  = e− 2 .
n σ n j=1

40
1
P[nt]
Un raisonnement similaire sur σ

n j=[ns]+1 Yj conclut la démonstration. 2

On suppose que (Yn , n ≥ 1) est une suite de variables aléatoires indépendantes de même loi
sur le réseau Z (ou un réseau homothétique) et pour toute variable aléatoire Σ0 sur Z, on pose

Σn+1 = Σn + Yn .

Une marche aléatoire symétrique unidimensionnelle de pas a est définie sur le réseau a Z par
P (Yn = +a) = P (Yn = −a) = 12 . Soit (Σn = (Σjn , 1 ≤ j ≤ d), n ≥ 1) un vecteur de Rd formé de
composantes (Σjn , n ≥ 1), 1 ≤ j ≤ d qui sont des marches aléatoires symétriques indépendantes
sur Z de pas 1. Les variables aléatoires Ynj = Σjn − Σjn−1 sont donc indépendantes centrées de
variance 1. D’après le principe d’invariance de Donsker, la suite de processus
[nt]
X 1 (t − [nt])
W̃tn = √ Yi + √ Y[nt]+1 ,
i=1
n n

qui sont les interpolés linéaires de ( √1n Σj[n.] , 1 ≤ j ≤ d), converge en loi vers un Brownien
standard de dimension d. En effet, chaque composante de W̃ n converge en loi vers un Brownien
standard réel et l’indépendance des composantes est préservée par passage à la limite en loi. La
suite W̃.n est aussi la suite des vecteurs d’interpolés linéaires de marches aléatoires indépendantes
de pas √1n .
Les figures suivantes montrent les simulations d’interpolés de marches aléatoires symétriques
unidimensionnelles de pas √1N avec respectivement N = 100, N = 200, N = 1 000 et N = 5 000 :

Fig. 10 – S imulation de marches aléatoires symétriques unidimensionnelles renormalisées

0.60

−0.60
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

41
0.57

−0.64
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.8

−0.3
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

0.4

−0.7
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Les figures suivantes montrent les simulations de marches aléatoires symétriques bidimen-
sionnelles de pas √1N avec respectivement N = 2 000, N = 5 000 et N = 10 000.

42
Fig. 11 – S imulation de marche aléatoires symétriques renormalisées dans le plan

0.51

−0.26
−0.65 0.45

0.47

−0.86
−0.8 1.1

1.05

−0.36
−1.1 0.9

43
3.2 Intégrales stochastiques et diffusions

Dans toute cette section, nous noterons Ft = σ(Ws , 0 ≤ s ≤ t) , la filtration d’un
Brownien standard de dimension r.

Définition 3.7 (1) Fixons T > 0 et notons L2T l’ensemble des processus X : [0, T ] × Ω → R
tels que :
(i) X : [0, t] × Ω → R est mesurable pour B[0, t] ⊗ Ft pour tout t ∈ [0, T ] ; Xt est donc
Ft -mesurable. R
T 
(ii) kXk2L = 0 E |Xt |2 dt < +∞
L’ensemble L2T muni de la norme kXkL est un espace de Banach.
(2) Notons ST2 l’ensemble des processus simples, c’est à dire des processus tels qu’il existe des
instants 0 = t0 < t1 < · · · < tp = T et des variables aléatoires (xi , 1 ≤ i ≤ p) telles que xi est
Fti -mesurable et de carré intégrable pour tout i ∈ {0, · · · , p − 1} et :
p
X
Xt = xi 1]ti ,ti+1 ] (t) .
i=0

Alors ST2 est un sous-ensemble dense de L2T .

On définit l’intégrale stochastique d’un processus simple Xt = pi=0 xi 1]ti ,ti+1 ] (t) par rapport
P
à un mouvement Brownien standard de dimension 1 comme suit pour t ∈]tk , tk+1], 0 ≤ k ≤ r−1 :
Z t k−1
X  
Xs dWs = xi Wti+1 − Wti + xk Wt − Wtk .
0 i=0

De plus on a l’isométrie suivante pour tout X ∈ ST2 :


 Z t 2  Z t
E Xs dWs = E(Xs2 ) ds . (3.5)

0 0

On en déduit que si une suite de R t processus simple (X(n)t , n ≥ 1) converge vers X ∈ L2T pour
la norme k kL , alors la suite ( 0 X(n)s dWs , n ≥ 1) est de Cauchy dans L2 (Ω) ; on note de
Rt
nouveau 0 Xs dWs sa limite et l’isométrie (3.5) s’étend à X ∈ L2T .
Enfin, si on note A2T l’ensemble des processus X : [0, T ] × Ω → R tels que la condition (i)
de la définition 3.7 est satisfaite mais la condition (ii) est remplacée par :
RT
(ii’) 0 |Xt (ω)|2 dt < +∞ p.s. pour tout t ∈ [0, T ].
Rt
L’intégrale stochastique 0 Xs dWs s’étend de façon unique à des processus X ∈ A2T et
Rt
définit un processus ( 0 Xs dWs , t ∈ [0, T ]) qui est Ft -adapté et presque sûrement continu.
Rt
Cependant, pour X ∈ L2T , le processus ( 0 Xs dWs , 0 ≤ t ≤ T ) est une (Ft ) martingale, alors
que cette propriété n’est plus nécessairement vraie si X ∈ A2T .

Soit enfin (Wt = (Wt1 , · · · , Wtr ) , t ∈ [0, T ]) un Brownien standard de dimension r et X =


(X i,j , 1 ≤ i ≤ d , 1 ≤ j ≤ r) : [0, T ] × Ω → Rrd un processus à valeurs dans Rrd dont toutes les
composantes (Xti,j , t ∈ [0, T ]) appartiennent à A2T . Alors pour tout t ∈ [0, T ],
Z T r Z
X t 
Xs dWs = Xsi,k dWsk , 1 ≤ i ≤ d ∈ Rd .
0 k=1 0

44
Si les composantes de X appartiennent à L2T , l’isométrie s’écrit pour tout i ∈ {1, · · · , d} et
t ∈ [0, T ] :
r Z t
 X 2  Z t X r
i,k k
E |Xsi,k |2 ds .

E Xs dWs = (3.6)

k=1 0 0 k=1

Rappelons enfin l’inégalité suivante de Burkholder-Davies-Gundy qui généralise l’isométrie à


un espace Lp quelconque avec p ∈ [2, +∞[ :
Proposition 3.8 Pour tout p ∈ [1, +∞[ il existe une constante Cp > 0 telle que pour tout
processus adapté de carré intégrable X : [0, T ] ⊗ Ω → Rr :
 Z 2p  Z p !
tX r TXr
k k  k 2
E sup Xs dWs ≤ Cp E |Xs | ds .

0≤t≤T 0 0
k=1 k=1

Le résultat suivant assure l’existence et l’unicité de solutions fortes d’équations différentielles


stochastiques (qui sont des processus de diffusion).
Théorème 3.9 Soit W un Brownien standard de dimension r pour la filtration (Ft ), σ : [0, T ]×
Rd → Rrd et b : [0, T ] × Rd → Rd des fonctions mesurables pour les tribus produit de boréliens
pour lesquelles il existe une constante C > 0 telle que pour tout t ∈ [0, T ], x, y ∈ Rd :
(i) (condition de Lipschitz)
|σ(t, x) − σ(t, y)| + |b(t, x) − b(t, y)| ≤ C |x − y| , (3.7)
(ii) (restriction sur la croissance)
|σ(t, x)| + |b(t, x)| ≤ C (1 + |x|) . (3.8)
Alors pour tout x ∈ Rd l’équation différentielle stochastique
Z t Z t
Xt = x + σ(s, Xs ) dWs + b(s, Xs ) ds (3.9)
0 0

a une unique solution trajectorielle (Xt , t ∈ [0, T ]) adaptée à la filtration (Ft ) à trajectoires
presque sûrement continues, et telle que pour tout p ∈ [1, +∞[ il existe une constante Cp telle
que pour tout h > 0 :
!
E sup |Xt |p ≤ Cp (1 + |x|p ) , (3.10)
t∈[0,T ]

sup E( |Xt+h − Xt |2p ≤ Cp (1 + |x|2p ) hp .



(3.11)
t∈[0,T ]

Ce théorème est montré par exemple en utilisant un schéma de Picard, l’inégalité de


Burkholder-Davies-Gundy, ainsi que le lemme de Gronwall :
Lemme 3.10 Soit λ, v : [0, +∞[→ [0, +∞[ des fonctions telles que v est bornée et λ est
continue, et soit C > 0 une constante telle que pour tout t ∈ [0, T ] :
Z t
v(t) ≤ C + λ(s) v(s) ds .
0

Alors pour tout t ∈ [0, T ] : Z t 


v(t) ≤ C exp λ(s) ds .
0

45
Théorème 3.11 (Formule d’Itô) Soit σ et b des fonctions satisfaisant les conditions (3.7) et
(3.8) du Théorème 3.9 et f : [0, T ] × Rd → R une fonction f (t, x) dérivable par rapport à t
et deux fois différentiable par rapport à x = (x1 , · · · , xd ) et dont les dérivées partielles sont
continues ; alors
t d r t
∂f ∂f
Z XX Z
f (t, Xt ) = f (0, x) + (s, Xs ) ds + (s, Xs ) σki (s, Xs ) dWsk (3.12)
0 ∂s 0 ∂xi
i=1 k=1
d Z t d Z
X ∂f 1 X t ∂2f
+ i
(s, Xs ) b (s, Xs ) ds + (s, Xs ) (σ σ ∗ )i,j (s, Xs ) ds .
i=1 0 ∂xi 2 i,j=1 0 ∂xi ∂xj

3.3 Schéma d’Euler


Soit b et σ des coefficients qui satisfont les conditions (3.7) et (3.8) du Théorème 3.9, n ∈ N∗
et pour tout entier k ∈ {0, · · · , n}, notons tk = kTn
. Définissons par récurrence le processus X n
sur [0, T ] (schéma d’Euler de X de pas h = T /n) en posant :

X0n = x , (3.13)
n n n n
  
Xtk+1 = Xtk + σ tk , Xtk Wtk+1 − Wtk + b tk , Xtk (tk+1 − tk ) , ∀0 ≤ k < n . (3.14)

Pour définir un processus pour tout t ∈ [0, T ], il y a deux nt façons classiques de procéder entre les
n T
instants tk et tk+1 . Pour tout t ∈ [0, T ], notons φt = T n = max{tk : tk ≤ t} et définissons
le processus X̄tn par X̄tnk = Xtnk pour tout k ∈ {0, · · · , n − 1} et
Z t Z t
n n n
b tk , Xtnk ds pour tk ≤ t < tk+1 .
 
X̄t = Xtk + σ tk , Xtk dWs + (3.15)
tk tk

Alors le processus X̄ n est solution de l’équation différentielle stochastique :


Z t Z t
n n n
b φns , X̄φnns ds .
 
X̄t = x + σ φs , X̄φns dWs + (3.16)
0 0

Si ce processus est agréable à manipuler d’un point de vue théorique, il n’est bien sûr pas
« vraiment » simulable, sauf aux points tk . D’un point de vue pratique, on lui préfère donc
le processus X (n) interpolé linéaire de X n entre les instants tk et tk+1 , c’est à dire défini par
(n)
Xtk = Xtnk pour tout k ∈ {0, · · · , n − 1} et par :

(n) t − tk
= Xtnk + Xtnk+1 − Xtnk

Xt pour tk ≤ t < tk+1 . (3.17)
tk+1 − tk
(n)
Ce processus n’est pas adapté, mais pour tout k ∈ {0, · · · , n}, Xtk = X̄tnk = Xtnk ∈ Ftk et :
Z k−1
tk X Z k−1
tk X
Xtnk tj , Xtnj b tj , Xtnj 1[tj ,tj+1 [ (s) ds .
 
=x+ σ 1[tj ,tj+1 [ (s) dWs +
0 j=0 0 j=0

Le lemme suivant fournit une majoration des moments de X̄ n et de X (n) .


Lemme 3.12 Pour tout p ∈ [1, +∞[,
 
n p (n) p
sup E sup X̄t + sup Xt
< +∞ . (3.18)
n≥1 0≤t≤T 0≤t≤T

46
Démonstration : Nous montrerons l’inégalité (3.18) pour X̄ n et laissons l’autre démonstration
en exercice.
Soit p ∈ [1, +∞[ ; montrons tout d’abord que
 
n 2p
E sup |X̄t | < +∞, ∀n ≥ 1, (3.19)
0≤t≤T
 
ce qui revient à prouver que pour tout k = 0, · · · , n − 1, E sup |X̄tn |2p < +∞. On le
t∈[tk ,tk+1 ]
montre par récurrence sur k. En effet, l’indépendance de Xtnk et de Wt − Wtk pour t ∈ [tk , tk+1 ]
prouve que pour k = 0, · · · , n − 1,
  h  
E sup |X̄tn |2p ≤ 32p−1 E(|Xtnk |2p ) + E(|σ(tk , Xtnk )|2p )E sup |Wt − Wtk |2p
t∈[tk ,tk+1 ] t∈[tk ,tk+1 ]
i
+ E(|b(tk , Xtnk )|2p )(tk+1 − tk )2p
h  2p 2p  T p
2p−1 n 2p 2p−1 2p n 2p
≤3 E(|Xtk | ) + 2 C (1 + E(|Xtk | )
2p − 1 n
 T 2p i
+ 22p−1 C 2p (1 + E(|Xtnk |2p ) .
n
Pour tout t ∈ [0, T ], d’après l’inégalité de Burkholder-Davies-Gundy (Proposition 3.8) :

 p
    Z t  Z t 
n 2p 2p−1 2p
2 n n
n n  2p
E sup |X̄s | ≤3 |x| + Cp E σ φs , X̄φns ds + E b φs , X̄φn ds
s
.
0≤s≤t 0 0

Notons Ytn = E sup0≤s≤t |X̄sn |2p ; l’inégalité de Hölder par rapport à la mesure de Lebesgue
sur [0, t] avec les exposants conjugués p et p/(p − 1) (respectivement 2p et 2p/(2p − 1)), et la
restriction sur la croissance (3.8) des coefficients entraı̂nent que :
 Z t Z t 
n 2p p−1 n 2p−1 n
Yt ≤ Cp |x| + t C (1 + Ys ) ds + t C (1 + Ys ) ds ;
0 0

où les constantes C et Cp sont indépendantes de n. Nous avons montré dans (3.19) que pour
tout entier n la fonction Y n est bornée et le lemme de Gronwall permet alors de conclure que
supn YTn ≤ Cp (1 + |x|2p ). 2

Les figures 12 et 13 donnent la simulation des trajectoires de (X (n) (t) , t ∈ [0, 2]) avec n = 5000
pour les deux diffusions suivantes de Black et Sholes avec une volatilité égale à 1 pour la
première figure :
Rt Rt
Xt = 1 + 0
Xs dWs + 0
Xs ds (courbe « supérieure » )
Rt Rt
Xt = 1 + 0
Xs dWs − 0
Xs ds (courbe « inférieure »)

et à 0.5 pour la seconde figure :


Rt Rt
Xt = 1 + 0 0.5 Xs dWs + 0 Xs ds (courbe « supérieure )
Rt Rt
Xt = 1 + 0
0.5 Xs dWs − 0
Xs ds (courbe « inférieure »).

47
Fig. 12 – S imulation de deux trajectoires de diffusion avec σ(x) = (x + 1) et b(x) = ±(x + 1)
puis avec σ(x) = 0.5 (x + 1) et b(x) = ±(x + 1)

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
−1
−2
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
−1
−2
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

48
Fig. 13 – S imulation de deux trajectoires de processus de Black et Sholes avec σ(x) = x et
b(x) = ±x puis avec σ(x) = 0.5 x et b(x) = ±x

15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
−1
−2
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

10

−1
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

Pour établir la convergence de X̄ n vers X, écrivons l’expression explicite de X̄tn − Xt :


Z t Z tk
n n n
    n n 
X̄t − Xt = σ φs , X̄φns − σ s, Xs dWs + b φs , X̄φns − b s, Xs ds .
0 0

Clairement la propriété de Lipschitz des coefficients doit être renforcée pour évaluer par exemple
b(t, x) − b(s, x). Nous introduisons la propriété de Hölder suivante sur les coefficients σ et b ; il
existe α > 0 tel que pour tout 0 ≤ s ≤ t ≤ T et x ∈ Rd :
|σ(t, x) − σ(s, x)| + |b(t, x) − b(s, x)| ≤ C (1 + |x|) |t − s|α . (3.20)
Cette condition est trivialement vérifiée avec α arbitraire si les coefficients ne dépendent pas
de t. Le théorème suivant fournit la vitesse d’approximation « forte » du schéma d’Euler :

49
Théorème 3.13 Soit W un mouvement Brownien standard à valeurs dans Rr , σ et b des
coefficients vérifiant les conditions (3.7), (3.8) et (3.20) avec α ≥ 21 . Alors pour tout p ∈
[1, +∞[ :  
n 2p
E sup |X̄t − Xt | ≤ Cp n−p . (3.21)
0≤t≤T
   
(n) 2p (n) 2p
sup E |Xt − Xt | +E sup |X kT − X kT | ≤ Cp n−p . (3.22)
n
0≤t≤T 0≤k≤n n

1
D’autre part pour tout β < 2
on a presque sûrement :
(n)
lim nβ sup |X̄tn − Xt | + |Xt − Xt | = 0 .
 
(3.23)
n→+∞ 0≤t≤T

Démonstration : Pour tout t notons Zt = sup0≤s≤t |X̄sn − Xs |. D’après (3.19) et (3.10),


supt≤T E(Zt2p ) = E(ZT2p ) < +∞ pour tout p ∈ [1, +∞[. Les inégalités de Burkholder-Davies-
Gundy et de Hölder entraı̂nent que pour tout p ∈ [1, +∞[ et t ∈ [0, T ],

 2 p
 Z t 
2p  n n

E Zt ≤ Cp E σ φs , X̄φns − σ s, Xs ds
Z0 t 
n n  2p
+Cp E b φs , X̄φns − b s, Xs
0
Z t 
p−1
 2p 
E σ φns , X̄φnns − σ s, Xs

≤ Cp t ds
0
Z t 
2p−1
 2p 
E b φns , X̄φnns − b s, Xs

+Cp t ds .
0

De plus les inégalités (3.7) et (3.20) entraı̂nent que pour h = T /n,


n n
b φs , X̄φn − b(s, Xs ) ≤ b φns , X̄φnn − b(φns , Xφn ) + b φns , Xφn − b(s, Xφn )
 
s s s s s

+ b s, Xφns − b(s, Xs )
≤ CT |X̄φnns − Xs | + hα (1 + |Xφns |) + |Xφns − Xs | .
 


Une inégalité similaire pour la différence σ φns , X̄φnns − σ(s, Xs ) , les inégalités (3.10) et (3.11)

entraı̂nent que Z t 
2p 2p 2αp p
 
E Zt ≤ Cp,T E Zs ds + h + h .
0

L’inégalité (3.18) et le lemme de Gronwall permettent d’en déduire (3.21). D’autre part, X̄tnk =
(n) (n)
Xtk pour tout k ∈ {0, · · · , n}. Puisque X (n) est l’interpolé linéaire de X̄ n , sup0≤t≤T E(|Xt −
Xt |2p ) ≤ Cp 3i=1 Ai , où
P

 
n 2p
A1 = E sup |X̄tk − Xtk | ,
0≤k≤n
!
A2 = sup E sup |Xt − Xtk |2p ,
0≤k≤n−1 tk ≤t≤tk+1
 
A3 = sup E |X̄tnk+1 − X̄tnk |2p .
0≤k≤n−1

50
L’inégalité (3.21) montre que A1 ≤ Cp n−p . L’inégalité (3.11) montre que A2 ≤ Cp n−p . Enfin
A3 ≤ Cp (A1 + A2 ), ce qui termine la démonstration de (3.21). La convergence presque sûre est
laissée en exercice. 2
Le théorème précédent montre que la vitesse de convergence « forte » du schéma d’Euler
est 1/2. Nous montrerons plus loin (section 4.3) que sa vitesse de convergence « faible » est
(n) 

1, c’est à dire que nous établirons que E f (XT ) − E f (XT ) ≤ C n−1 pour une fonction

borélienne f convenable.

3.4 Schéma de Milstein


La « mauvaise » vitesse de convergence forte du schéma
Rt d’Euler est due àl’intégrale sto-
chastique pour laquelle la majoration des moments de 0 σ(s, Xs ) − σ φns , Xφns dWs utilisant
seulement le caractère Lipschitzien des coefficients et (3.11) est « grossière » . Une idée natu-
relle consiste à utiliser une formule de Taylor de σ à l’ordre 1 ; pour la présenter, supposons
que r = d = 1 et que les coefficients σ, b ne dépendent que de x ; alors pour tk ≤ s < tk+1 et σ
assez régulière :
 Z s Z s 
σ(Xs ) = σ Xtk + σ(Xu ) dWu + b(Xu ) du
tk tk
 
∼ σ Xtk + σ(Xtk ) (Ws − Wtk ) + b(Xtk ) (s − tk )
∼ σ(Xtk ) + σ ′ (Xtk ) σ(Xtk ) (Ws − Wtk ) ;
en effet, d’après l’isométrie (3.5) ou l’inégalité de Burkholder-Davies-Gundy 3.8, les normes Lp
du carré de l’accroissement du Brownien (Ws − Wtk )2 sont du même ordre que l’accroissement
de temps s − tk . Enfin la formule d’Itô appliquée à (Ws − Wtk )2 montre que
Z tk+1 Z tk+1
2
Wtk+1 − Wtk = 2 (Ws − Wtk ) dWs + ds ;
tk tk

on en déduit que
Z tk+1  
1 ′ 2 T
σ(Xs ) dWs ∼ σ(Xtk ) (Wtk+1 − Wtk ) + σ (Xtk ) σ(Xtk ) (Wtk+1 − Wtk ) − .
tk 2 n
Ceci conduit au schéma suivant en dimension r = d = 1 (en notant σx′ (t, x) la dérivée
partielle de σ par rapport à x) :
X̃0n = x
1 ′  h 2 T i
X̃tnk+1 X̃tnk tk , X̃tnk n
 
= +σ Wtk+1 − Wtk + σ σ tk , X̃tk Wtk+1 − Wtk −
2 x n
T
+b tk , X̃tnkpour 0 ≤ k < n . (3.24)
n
Dans le cas vectoriel, un raisonnement similaire conduit au schéma suivant (dans lequel il
faut en général laisser l’intégrale stochastique double) :
X̃0n = x
r
X Z tk+1
X̃tnk+1 X̃tnk tk , X̃tnk ∇• σj σl• tk , X̃tnk Wsj − Wtjk dWsl
    
= +σ Wtk+1 − Wtk +
j,l=1 tk

T
+b tk , X̃tnk pour 0 ≤ k < n . (3.25)
n
51
Il est pratiquement très difficile de simuler l’intégrale double en dimension quelconque sans
hypothèse supplémentaire. Lorsque r ≥ 2, on utilise ce schéma sous l’hypothèse de commuta-
tivité :
∇• σj σl• = ∇• σl σj• , ∀j, l ∈ {1, · · · , r} ; (3.26)
en effet dans le cas le schéma prend la forme suivante (qui n’utilise que des accroissements des
composantes du Brownien, comme en dimension r = 1) :

X̃0n = x
T
X̃tnk+1 = X̃tnk + σ tk , X̃tnk Wtk+1 − Wtk + b tk , X̃tnk
 
n
r
1 X
∇• σj σl• tk , X̃tnk Wtjk+1 − Wtjk Wtlk+1 − Wtlk
   
+
2 j,l=1
r
1 X T
∇• σj σj• tk , X̃tnk

− pour 0 ≤ k < n . (3.27)
2 j=1 n

Le théorème suivant donne la vitesse de convergence forte de ce schéma :


Théorème 3.14 Soit σ : [0, T ] × Rd → Rdr et b : [0, T ] × Rd → Rd des fonctions de classe C 1
par rapport à t et de classe C 2 par rapport à x, telles que les dérivées partielles d’ordre 1 et 2 de
ces fonctions soient bornées. Soit X la diffusion solution de (3.9) et X̃ n le schéma de Milstein
défini par (3.25) (c’est à dire par (3.24) si r = 1 ou (3.27) sous l’hypothèse de commutation
(3.26)) ; alors pour tout p ∈ [1, +∞[ il existe une constante Cp > 0 telle que :
 
E sup |Xtk − X̃tk | ≤ Cp n−p .
n p
(3.28)
0≤k≤n

De plus pour tout β ∈]0, 1[, limn nβ sup0≤k≤n |Xtk − X̃tnk | = 0 p.s.
Démonstration : Pour dégager les idées, nous supposerons r = d = 1 et que les fonctions b et
σ ne dépendent que de x et sont de classe C 2 ; la démonstration dans le cas général est laissée
en exercice. Remarquons tout d’abord que si pour tout t ∈ [0, T ] on pose,
Z t Z tZ s Z t
n n ′ n
b(X̃φnns ) ds ,

X̃t = x + σ X̃φns dWs + (σ σ)(X̃φns ) dWu dWs +
0 0 φn
s 0

le processus X̃.n prend les valeurs imposées par (3.25) aux points tk ; de plus, un raisonnement
similaire à celui fait pour prouver (3.18) montre que
 
n p
sup E sup X̃t < +∞ (3.29)
n≥1 0≤t≤T

Fixons p ∈ [2, +∞[ et notons h = Tn le pas de discrétisation ; alors pour tout t ∈ [0, T ] :
Z t Z t
n n
b Xφns − b X̃φnns ds
     
Xt − X̃t = σ Xφns − σ X̃φns dWs +
0 0
Z tZ s Z t
 ′  ′ n
   
+ (σ σ) Xφns − (σ σ) X̃φns dWu dWs + σ Xs − σ Xφns dWs
0 φn
s 0
Z tZ s Z t
(σ ′ σ) Xφns dWu dWs +
   
− b Xs − b Xφns ds.
0 φn
s 0

52
En utilisant la formule d’Itô pour σ(Xt ) et b(Xt ), on obtient
Z s Z s 
′ ′ 1 ′′ 2
σ(Xs ) − σ(Xφns ) = (σ σ)(Xu ) dWu + σ b + σ σ (Xu ) du
φn φ n 2
Z ss Z ss  
′ ′ 1 ′′ 2
b(Xs ) − b(Xφns ) = (b σ)(Xu ) dWu + b b + b σ (Xu ) du
φn
s φn
s
2

Notons Zt = sup0≤s≤t |Xs − X̃sn | pour tout t ∈ [0, T ] ; alors :

  Z s 2p !
2p n
  
E |Zt | ≤ Cp E sup σ Xφnu − σ X̃φnu dWu
0≤s≤t 0
!
 2p
Z s
n
 
+ Cp E sup b Xφnu − b X̃φnu du
0≤s≤t 0
Z s Z u
2p ! 5
 ′ X
′ n
 
+ Cp E sup (σ σ) Xφnu − (σ σ) X̃φnu dWv dWu
+ Cp Ri (t) ,
0≤s≤t 0 φn
u i=1

avec
 Z ′ Z 2p 
s s
(σ ′ σ)(Xu ) − (σ ′ σ)(Xφns ) dWu dWs  ,

R1 (t) = E  sup


0≤s ≤t 0 φn
s

 Z ′ Z  2p 
s s 1

R2 (t) = E  sup σ ′ b + σ ′′ σ 2 (Xu ) du dWs  ,

0≤s′ ≤t 0 φn
s
2
 Z ′ Z 2p 
s s

R3 (t) = E sup (b σ)(Xφns )) dWu ds  ,

0≤s′ ≤t 0 φn
s

 Z ′ Z 2p 
s s
′ ′

R4 (t) = E sup (b σ)(Xu ) − (b σ)(Xφns )) dWu ds  ,

0≤s′ ≤t 0 φn
s

 Z ′ Z  2p 
s s 1

R5 (t) = E  sup b′ b + b′′ σ 2 (Xu ) du ds  .


0≤s ≤t 0 φn
s
2

Puisque les fonctions b, σ et (σ ′ σ) sont Lipschitziennes, les inégalités de Burkholder-Davies-


Gundy (Proposition 3.8) et de Hölder par rapport à la mesure de Lebesgue entraı̂nent que pour
tout p ∈ [1, +∞[ :
Z t Z t
2p p−1 2p 2p−1
E |Zs |2p ds
  
E |Zt | ≤ Cp t E |Zs | ds + Cp t
0 0
Z t 5
X
+Cp tp−1 E |Zs |2p hp ds + Cp

Ri (t) ,
0 i=1

53
et que
Z t Z s  2p 
p−1
R1 (t) ≤ Cp t (s − φns )p−1 E Xu − Xφns du ds ,
0 φn
Z t Zs s
R2 (t) ≤ Cp tp−1 (s − φns )2p−1 1 + E(|Xu |2p ) du ds ,
 
0 φn
s
Z t Z s
R4 (t) ≤ Cp t2p−1 (s − φns )p−1 E |Xu − Xφns |2p du ds ,

0 φn
Z t Zs s
R5 (t) ≤ Cp t2p−1 (s − φns )2p−1 1 + E(|Xu |2p ) du ds .
 
0 φn
s

Enfin le théorème de Fubini stochastique entraı̂ne que


 Z ′ Z n ! 2p 
s (φu +h)∧s′
R3 (t) = E  sup ds (b′ σ)(Xφnu ) dWu 

0≤s′ ≤t 0 u
Z t
2p p−1
1 + sup E(|Xv |2p ) du .
 
≤ Cp h t
0 0≤v≤u

Les inégalités (3.10) et (3.11) montrent que


5
X
Ri (t) ≤ Cp,T h2p .
i=1

Le lemme de Gronwall permet d’en déduire


 
n 2p
E sup |Xt − X̃t | ≤ Cp,T h2p ,
0≤t≤T

ce qui entraı̂ne (3.28). 2

Le schéma de Milstein est plus lent à simuler que celui d’Euler (en dimension r > 1, il faut
évaluer beaucoup plus de fonctions aux points tk ) et, même si sa convergence forte est plus
rapide, il est pratiquement moins utilisé que le schéma d’Euler.
Il est clair qu’en poursuivant les développements de Taylor de σ et b et en jouant sur la
formule d’Itô, on peut espérer construire des schémas d’ordre strictement supérieur à 1. Cepen-
dant, ils font intervenir des intégrales stochastiques multiples et sont pratiquement difficilement
exploitables (cf. [13] pour une théorie générale de ces approximations de Taylor).

3.5 Processus de Poisson.


Définition 3.15 Un processus de Poisson (Nt , t ≥ 0) d’intensité λ > 0 est un processus
stochastique N : [0, +∞[×Ω → N tel que :
(i) N0 = 0.
(ii) Pour 0 ≤ s ≤ t, Nt − Ns suit une loi de Poisson de paramètre λ (t − s).
(iii) Pour tout choix d’instants 0 ≤ t1 < t2 < · · · < tk , k ≥ 2, les variables aléatoires
Nti+1 − Nti , 0 ≤ i < k sont indépendantes.

54
Le processus de Poisson (Nt ) est donc, comme le mouvement Brownien, un processus à
accroissements indépendants et stationnaires.
Le théorème suivant, dont la démonstration classique est laissée en exercice, permet de
construire et simuler un processus de Poisson d’intensité λ (cf. la Proposition 2.2).

Théorème 3.16 Soit λ > 0, (Tn , n ≥ 1) une suite de variables aléatoires


Pn indépendantes de
même loi exponentielle de paramètre λ et pour tout n ≥ 1 soit Sn = k=1 Tk . Alors le processus

X
Xt = n 1[Sn ,Sn+1 [ (t)
n=1

est un processus de Poisson d’intensité λ.

Les graphiques suivants montrent des trajectoires de processus de Poisson d’intensité


λ = 0.5, λ = 1 et λ = 2. Les 10 premiers instants de saut sont respectivement :

• pour λ = 0.5 : 2.177957 , 6.744571 , 9.640822 , 10.29956 , 10.86043 , 11.98261 , 14.91761 ,


15.45311 , 17.62061 , 21.04892
• pour λ = 1 : 0.212028 , 1.435998 , 1.704459 , 5.441348 , 6.345117 , 7.967036 , 8.300007 ,
10.09506 , 10.40521 , 11.03153
• pour λ = 2 : 0.404272 , 1.136381 , 1.85529 , 1.989455 , 2.80864 , 2.97061 , 3.03802 , 3.442472 ,
3.810711 , 4.406239

10.00

9.09

8.18

7.27

6.36

5.45

4.55

3.64

2.73

1.82

0.91

0.00
0.0 10.5 21.0

Fig. 14 – S imulation de processus de Poisson d’intensité 0.5, 1 et 2

55
10.00

9.09

8.18

7.27

6.36

5.45

4.55

3.64

2.73

1.82

0.91

0.00
0.0 5.5 11.0

10.00

9.09

8.18

7.27

6.36

5.45

4.55

3.64

2.73

1.82

0.91

0.00
0.0 2.2 4.4

3.6 Chaı̂nes de Markov


Une chaı̂ne de Markov est une suite (Xn , n ≥ 0) de variables aléatoires telle que la loi de
Xn+1 sachant les valeurs du passé X0 , , · · · , Xn ne dépend que de Xn . Plus précisément, on a
la :

Définition 3.17 Soit E un espace discret (fini ou dénombrable).


Pmatrice de transition Q = (Q(x, y) , x, y ∈ E) est une application Q : E × E → [0, 1]
(i) Une
telle que y∈E Q(x, y) = 1 pour tout x ∈ E.

56
(ii) Une chaı̂ne de Markov homogène de matrice de transition Q est une suite de variables
aléatoires à valeurs dans E telle que pour tout entier n ≥ 1 et tout x0 , · · · , xn , y ∈ E :
 
P Xn+1 = y | X0 = x0 , X1 = x1 , · · · , Xn = xn = P Xn+1 = xn+1 | Xn = xn
= Q(xn , y) . (3.30)
La loi initiale de la chaı̂ne est la loi µ de X0 , c’està dire la probabilité sur la tribu E des parties
de E telle que pour tout x ∈ E, µ(x) = P X0 = x .
Le terme Q(x, y) désigne donc la probabilité de passer de l’état x à l’instant n à l’état y à
l’instant n + 1. P
Pour toute fonction f : E → R positive ou bien telle que y∈E Q(x, y) |f (y)| < +∞ et toute
probabilité ν sur E, on note
X X
(Qf )(x) = Q(x, y) f (y) et (νQ)(y) = ν(x) Q(x, y) .
y∈E x∈E
R
Alors
R Qf est une fonction définie sur E tandis que νQ est une probabilité sur E et (Qf ) dν =
f d(νQ). On déduit immédiatement de la définition la loi des vecteurs (X0 , · · · , Xn ) et de
Xn qui sont explicites à l’aide de µ et de Q. Si Q est une matrice de transition sur E, il en est
de même de toutes les puissances Qn , n ≥ 0.
Proposition 3.18 Soit (Xn , n ≥ 0) une chaı̂ne de Markov homogène de matrice de transition
Q et de loi initiale µ ; pour tout entier n ≥ 0, on note Fn0 = σ(Xk , 0 ≤ k ≤ n).
(i) Pour tout entier n ≥ 0 et tout vecteur (x0 , · · · , xn ) ∈ En+1 :

P X0 = x0 , X1 = x1 , · · · , Xn = xn = µ(x0 ) Q(x0 , x1 ) · · · Q(xn−1 , xn ) .
(ii) Pour tout entier n ≥ 1 et pour tout x, y ∈ E :
X
P Xn = y | X0 = x = Qn (x, y) et P Xn = y) = µ(x) Qn (x, y) = (µQn )(y) .

x∈E
P
(iii) Pour toute fonction f : E → R positive ou bien telle que y∈E Q(x, y) |f (y)| < +∞ et
pour tout entier n ≥ 1,
E f (Xn+1 ) |Fn0 = Qf (Xn ) ,


E f (Xn ) |F00 = Qn f (x) .




Si Q(x, y) ne dépend pas de x, la suite (Xn , n ≥ 1) est une suite indépendante de loi Q(x, .).
Un exemple très simple de chaı̂ıne de Markov « non triviale » est une marche aléatoire. Il est
facile de vérifier qu’une marche aléatoire satisfait les propriétés de la définition 3.17.
La simulation d’une chaı̂ne de Markov est théoriquement très simple si l’on sait simuler
les lois µ et Q(x, .) pour tous les états x ∈ E. L’algorithme correspondant à la simulation de
(Xi , 0 ≤ i ≤ n) est donc :
n←0
Simuler la loiµ et retourner X[0]
Pour k = 1 à n
i ← X[k − 1]
Simuler la loi Q(i, .) et retourner j
X[k] ← j
n← n+1
Fin

57
Si l’on souhaite seulement simuler la valeur de Xn , on remplace le tableau (X[k], 0 ≤ k ≤ n)
par X. Si la simulation de chaque loi Q(i, .) est faite par inversion de la fonction de répartition,
l’algorithme précédent fournit Xn+1 = Φ(Xn , Un ) pour une suite i.i.d. de variables aléatoires
U([0, 1]).

Définition 3.19 Soit (Xn , n ≥ 0) une chaı̂ne de Markov homogène de matrice de transition
Q sur l’espace discret E. La probabilité Π sur E est invariante si Π Q = Q.

Si Π est une probabilité invariante de la chaı̂ne et si la loi initiale est Π, alors pour tout instant
n ≥ 0, Π Qn = Π et toutes les variables aléatoires Xn sont de loi Π. Ce résultat peut être
renforcé comme suit :

Proposition 3.20 Soit (Xn , n ≥ 0) une chaı̂ne de Markov de matrice de transition Q sur
l’espace d’états discret E et de loi initiale Π. Les propriétés suivantes sont équivalentes :
(i) Π est une probabilité invariante.
(ii) La chaı̂ne (Xn , n ≥ 0) est strictement stationnaire, c’est à dire que pour tout n ≥ 0 les
lois des vecteurs (X0 , · · · , Xn ) et (X1 , · · · , Xn+1 ) coı̈ncident.

Démonstration Puisque X1 a comme loi Π Q, la stationnarité entraı̂ne que Π est invariante.


Réciproquement, fixons n ≥ 0, x0 , · · · xn ∈ E ; alors, si Π est invariante :
 X
P X1 = x0 , · · · , Xn+1 = xn = Π(y) Q(y, x0) Q(x0 , x1 ) · · · Q(xn−1 , xn )
y∈E
= (Π Q)(x0 ) Q(x0 , x1 ) · · · Q(xn−1 , xn )

= P X0 = x0 , · · · , Xn = xn ,

ce qui prouve que les lois de (X0 , · · · , Xn ) et (X1 , · · · , Xn+1 ) coı̈ncident. 2

Définition 3.21 (i) On dit qu’une matrice A à coefficients positifs ou nuls est irréductible si
pour tout x, y ∈ E, il existe n ≥ 1 tel que An (x, y) > 0. Si Q est une matrice de transition
irréductible, on dit que la chaı̂ne (Xn , n ≥ 0) de matrice de transition Q est irréductible.
(ii) On dit que deux états x, y communiquent s’il existe n1 , n2 ≥ 1 tels que Qn1 (x, y) > 0 et
n2
Q (y, x) > 0 .

On distingue enfin deux types d’états suivant le nombre de visites de la chaı̂ne.

Définition 3.22 On dit qu’un état x ∈ E deP la chaı̂ne de Markov (Xn , n ≥ 0) issue de x
(c’est
P à dire telle que X0 = x) est récurrent si n≥1 1{Xn =x} = +∞ p.s. et qu’il est transitoire
si n≥1 1{Xn =x} < +∞ p.s.

Le théorème suivant donne une classification des états.

Théorème 3.23 Un état x ∈ E de la chaı̂ne de Markov (Xn , n ≥ 0) est soit récurrent, soit
transitoire. Si les états x et y communiquent, ils sont de même nature et il existe une partition
(Ci , i ∈ I) de l’ensemble des états récurrents en classes de récurrence telle que si X0 = x ∈ Ci ,
alors pour tout entier n, P (Xn ∈ Ci ) = 1. Si l’espace des états E est fini, la chaı̂ne admet au
moins un état récurrent.

58
Si l’ensemble E des états a N éléments notés 1, · · · , N, l’algorithme suivant permet de
trouver l’ensemble C(x) des états qui communiquent avec x, de déterminer si la chaı̂ne est
irréductible et de classifier les états.

Algorithme de classification des états. Soit A une matrice logique (dont les éléments
sont 0 ou 1) telle que pour tout i, j = 1 , · · · , N, A(i, i) = 1 et pour i 6= j, A(i, j) = 1 si et
seulement si P (i, j) > 0. On définit le produit AB de deux matrices logiques A et B (c’est à
dire dont tous les termes sont 0 ou 1) carrées N × N par (AB)(i, j) = ∨k [A(i, k) ∧ B(k, j)]. Il
est clair que si i 6= j, Ak (i, j) = 1 si et seulement s’il existe l ∈ {1, · · · , k} tel que P l (i, j) > 0.
Remarquons que si les états x0 = i, · · · , xl = j sont deux à deux distincts, on a nécessairement
l ≤ N − 1 et que (en supprimant des boucles éventuelles), s’il existe une suite d’états xk , 0 ≤
k ≤ l, tels que x0 = i, xl = j et P (xk , xk+1 ) > 0 pour 0 ≤ k ≤ l − 1, on peut supposer que
les états xk , 0 ≤ k ≤ l sont deux à deux distincts. On en déduit que pour des états i 6= j, il
existe un entier l ≥ 1 tel que P l (i, j) > 0 (c’est à dire que j est accessible à partir de i) si
et seulement si AN −1 (i, j) = 1, ce qui est aussi équivalent au fait que pour tout (ou pour un)
entier k ≥ N − 1, Ak (i, j) = 1. On voit donc que la chaı̂ne est irréductible si et seulement si
tous les termes de Ak sont égaux à 1 pour un entier k ≥ N − 1. Il est pratiquement plus rapide
de calculer les puissances de A de la forme 2k , en élevant pas à pas les matrices trouvées au
carré, jusqu’au premier entier k tel que 2k ≥ N − 1. On pourra programmer cet algorithme (qui
est lié à la recherche des composantes connexes d’un graphe). L’ensemble C(x) est l’ensemble
des états y ∈ E tels que Ak (x, y) = Ak (y, x) = 1 pour un (tout) entier k ≥ N − 1. Comme
exercice, on pourra donner un critère sur Ak permettant de déterminer les états transitoires et
les classes de récurrence.

Exemples :
Marche aléatoire Soit (Xn , n ≥ 1) une suite de variables aléatoires indépendantes
Pn et
d
de même loi à valeurs dans un sous-ensemble fini de R , S0 = 0 et Sn = k=1 Xk . Alors
(Sn , n ≥ 0) est une chaı̂ne de Markov de loi initiale la mesure de Dirac en 0 et de matrice de
transition
Q(x, y) = P (X1 = y − x) .
Modèle de Cox-Ross-Rubinstein Soit (Vn , n ≥ 1) une suite de variables aléatoires in-
dépendantes de même loi définie par P (Vn = u) = p et P (Vn = d) = 1 − p, avec 0 < p < 1.
Posons X0 = x, puis Xn+1 = Xn Vn+1 pour tout n ≥ 0. Alors (Xn , n ≥ 0) est une chaı̂ne de
Markov de loi initiale la mesure de Dirac en x et de probabilité de transition

Q(x, xu) = p , Q(x, xd) = 1 − p et Q(x, y) = 0 sinon.

Nombre de piles consécutifs dans un jeu de pile ou face Soit (Yn , n ≥ 1) une suite de
variables indépendantes de même loi de Bernoulli de paramètre p ∈ [0, 1]. Soit N0 = 0 et pour
tout n ≥ 1, notons Nn le nombre de 1 consécutifs avant le nème tirage, avec par convention
Nn = 0 si Yn = 0. On vérifie aisément que Nn+1 = (Nn + 1) 1{Yn+1=1} , puis que (Nn , n ≥ 0) est
une chaı̂ne de Markov de loi initiale la mesure de Dirac en 0 et de probabilité de transition sur
l’ensemble E des entiers positifs :

Q(n, n + 1) = p , Q(n, 0) = 1 − p et Q(n, y) = 0 sinon.

Pour tout entier l ≥ 1, notons τl le premier instant où l’on voit l valeurs 1 consécutives, soit

τl = inf{k ≥ 1 : Nk = l} ,

59
et Nnl = Nn∧τl la chaı̂ne arrêtée à l’instant τl . L’évènement {Nnl = l} décrit donc le fait que l’on
a observé au moins l fois des 1 consécutifs lors des n premiers tirages, et l’on a :
l
Nn+1 = (Nnl + 1) 1{Nnl <l , Yn+1 =1} + l 1{Nnl =l} .

La suite (Nnl , n ≥ 0) est donc une chaı̂ne de Markov de loi initiale la mesure de Dirac en 0 et
de probabilité de transition Q̄ définie par

Q̄(n, n + 1) = p et Q̄(n, 0) = 1 − p si n < l , Q̄(l, l) = 1 et Q̄(x, y) = 0 sinon ;

de plus Q̄n (0, l) = P (Nnl = l).


l
Les deux figures suivantes donnent l’histogramme de la loi de N100 pour l = 2, · · · , 12
1 100 100
lorsque p = 2 obtenues en calculant Q̄ (0, l) − Q̄ (0, l + 1) pour ces valeurs de l, puis la
probabilité d’avoir au moins des 1 l fois de suite en 100 tirages pour l = 2, · · · , 12 (on pourra
écrire un algorithme permettant de calculer Q̄n pour tout p et n) ; On remarque que si l’on est
presque sûr d’obtenir au moins 3 fois 1 de suite, la probabilité d’avoir au moins 5 fois 1 de suite
(et également 5 fois 0 de suite) vaut 0.81 et est donc « assez élevée » . Elle tombe à environ 0.65
si p = 0.45 et vaut 0.92 si p = 0.55. Ceci fournit un critère efficace du fait que le paramètre de
la loi de Bernoulli est 21 .

Fig. 15 – N ombre de 1 parmi 100 tirages d’une loi de Bernoulli de paramètre 12 .

0.30

0.27

0.24

0.21

0.18

0.15

0.12

0.09

0.06

0.03

0.00
2 3 4 5 6 7 8 9 10 11 12
loi du nombre de 1

60
1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
2 3 4 5 6 7 8 9 10 11 12
probabilite du nombre minimal de 1

3.7 Exercices
Exercice 3.1 Écrire et implémenter un algorithme de simulation sur l’intervalle [0, T ] de la
diffusion : Z t Z t
Xt = X0 + cos(Xs ) dWs + sin(Xs ) ds
0 0

où X0 est une variable aléatoire de loi uniforme U([0, 1]) indépendante du mouvement Brownien
standard réel (Wt ).

Exercice 3.2 Soit σi , bi , i = 1, 2 des nombres réels,x ∈ R et (Xt ) la diffusion définie par
Z t Z t
Xt = x + (σ1 Xs + σ2 ) dWs + (b1 Xs + b2 ) ds .
0 0

Écrire et résoudre l’équation différentielle satisfaite par et = E(Xt ). Calculer et résoudre les
équations différentielles satisfaites par φ(t) = E(Xt2 ). En déduire le comportement asympto-
tique de E(Xt ) et Var(Xt ) quand t → +∞. Ces résultats sont-ils cohérents avec les simulations
faites dans les cas particuliers σ1 = σ2 = 1 ou 0.5, b1 = b2 = 1 ou − 1 et x = 1 dans la figure
9, σ1 = 1 ou 0.5, σ2 = 0, b1 = 1 ou − 1 , b2 = 0 et x = 1 dans les simulations du modèle de
Black-Sholes de la figure 10.

Exercice 3.3 Soit σ , b , x des nombres réels.


1. Montrer que la solution de l’EDS
Z t Z t
Xt = x + σ Xs dWs + b Xs ds
0 0

a la forme explicite
σ2
   
Xt = x exp σ Wt + b − t .
2

61
2. Simuler une trajectoire de (Xt , 0 ≤ t ≤ 1) en utilisant la formule explicite, puis en
utilisant un schéma d’Euler de pas 2−4 , 2−8 et 2−16 et tracer sur trois graphiques séparés
la « vraie » solution et ses approximations.
3. Simuler une trajectoire de (Xt , 0 ≤ t ≤ 1) en utilisant la formule explicite, puis en
utilisant un schéma de Milstein de pas 2−4 , 2−8 et 2−16 et tracer sur trois graphiques
séparés la « vraie » solution et ses approximations.
4. Calculer directement E(X1 ), la moyenne empirique de 100 (respectivement 4000 simula-
tions) de E(X1 ) et celle des valeurs absolues des erreurs entre les valeurs simulées et la
valeur exacte de E(X1 ) en utilisant le schéma d’Euler et en utilisant le schéma de Mil-
stein avec les divers pas précédents. Tracer les courbes donnant le logarithme de l’erreur
moyenne en fonction du logarithme du pas pour les deux schémas.
Exercice 3.4 Démontrer la Proposition 3.4
Exercice 3.5 On suppose que les hypothèses du Théorème 3.13 sont satisfaites et on cherche
à prouver (3.23). Soit β ∈]0, 21 [.
1. Soit p ∈ [2, +∞[ et an > 0. Montrer en utilisant (3.21) que pour tout λ > 0,
 
P n sup |X̄t − Xt | ≥ an ≤ a−2p
β n
n n2βp n−p
0≤t≤T

Soit an = n−γ ; en choisissant convenablement γ > 0 et p, montrer que nβ sup |X̄tn − Xt |


0≤t≤T
converge vers 0 p.s.
kT
2. Montrer que si tk = n
et p ∈ [2, +∞[ :
!
sup E sup |Xt − Xtk |2p ≤ Cp n−p .
0≤k≤n−1 tk ≤t≤tk+1

En déduire que pour tout λ > 0 :


 
P sup |Xt − Xφnt | ≥ λ ≤ Cp λ−2p n−p+1 .
0≤t≤T

En déduire (3.23).
Exercice 3.6 Démontrer (3.18) pour l’interpolé X (n) du schéma d’Euler puis (3.29) pour le
schéma de Milstein X̃ n .
Exercice 3.7 Démontrer le Théorème 3.16.
Exercice 3.8 Soit E = {1, 2, 3, 4}, µ la probabilité uniforme sur E et Q la matrice de transi-
tion  
0.5 0 0 0.5
 0 0.5 0 0.5 
Q=  0.5 0.5 0
.
0 
0 0 0.5 0.5
Donner un algorithme de simulation des valeurs de Xn pour n ≤ 100. Montrer que la chaı̂ne
est irréductible. Calculer la probabilité invariante Π de cette chaı̂ne. Calculer Qn et vérifier
que Qn converge vers une matrice dont toutes les lignes sont égales à Π. Si on note δn =
maxi,j∈E |Qn (i, j) − Π(j)|, tracer la courbe ln(δn ) en fonction de ln(n) pour diverses valeurs de
n (par exemple n = 5, 10, 15, 20, 25, 30) ; qu’observe-t-on ?

62
Exercice 3.9 Soit E = {1, 2, 3, 4, 5}, µ la probabilité uniforme sur E et Q la matrice de
transition  
0.8 0 0.2 0 0
 0 0.7 0 0.3 0 
 
Q=  0.2 0 0.8 0 0  .
 0 0.3 0 0.7 0 
0.5 0.5 0 0 0
Donner un algorithme de simulation des valeurs de Xn pour n ≤ 100. Chercher pour chaque
état x l’ensemble C(x) des états y ∈ E qui communiquent avec x. Calculer les probabilités
invariantes Π de cette chaı̂ne. Calculer Qn et vérifier que cette suite converge vers une li-
mite que l’on déterminera et que l’on comparera aux probabilités invariantes. Si on note
δn = maxi,j∈E |Qn (i, j) −Π(j)|, tracer la courbe ln(δn ) en fonction de ln(n) pour diverses valeurs
de n (par exemple n = 5, 10, 15, 20, 25, 30) ; qu’observe-t-on ?

Exercice 3.10 Soit (Xn , n ≥ 0) une chaı̂ne de Markov sur l’espace d’états E d’état initial
X0 = x0 et de matrice de transition Q. Soit f : E → R une fonction définie sur l’espace d’états
E. On note Fn0 la tribu engendrée par les variables aléatoires Xk , 0 ≤ k ≤ n.
1. On suppose que |E| < +∞ et on considère l’algorithme suivant :
Pour x ∈ E faire
u(N, x) = f (x)
Pour n = N − 1 : 0
faire X
u(n, x) = Q(x, y) u(n + 1, y)
y∈E
fin
0
2. Montrer que pour tout n ∈ {0, · · · , N − 1}, E  (u(n + 1, Xn+1) | Fn ) = u(n, Xn ). En
déduire que u(0, x0 ) retourne la valeur E f (XN ) .
3. On suppose que (Xn , n ≥ 0) est la marche aléatoire symétrique
  sur Z issue de x0 et
on cherche un programme qui permette de calculer E f (XN ) . Modifier l’algorithme
précédent en tenant compte du fait (que l’on justifiera) qu’il suffit de calculer u(n, y)
pour x0 − n ≤ y ≤ x0 + n.
4. On suppose que la chaı̂ne est du type Cox-Ross-Rubinstein de probabilité de transition
Q(x , x (1 + a)) = p et Q(x , x (1 + b)) = 1 − p. Écrire le schéma de programme d’une
procédure récurrente permettant de calculer E [(K − XN )+ ].

63
4 Équation de Feynman-Kac et convergence faible des
schémas de discrétisation
4.1 Générateur infinitésimal.
Notons Cn,p ([0, T ] × Rd ) (resp. Kn,p ([0, T ] × Rd )) l’ensemble des fonctions u : [0, T ] × Rd → R
de classe C n par rapport à la variable t ∈ [0, T ] et de classe C p par rapport à la variable x ∈ Rd
(resp. et dont les dérivées sont à croissance polynomiales, c’est à dire telles qu’il existe des
constantes C > 0 et des entiers k tels que chaque dérivée partielle v de u satisfasse l’inégalité
|v(t, x)| ≤ C (1 + |x|k )). On note Kp (Rd ) l’ensemble des fonctions u : Rd → R de classe C p par
rapport à la variable x ∈ Rd dont les dérivées partielles sont à croissance polynomiales.
Rappelons enfin que si les coefficients de la diffusion sont notés b = (bi , 1 ≤ i ≤ d) et
σ = (σji , 1 ≤ i ≤ d, 1 ≤ j ≤ r) et si a(t, x) = σ(t, x) σ ∗ (t, x) désigne la matrice carrée
symétrique d × d de type positif définie par ai,j (t, x) = rk=1 σki (t, x) σkj (t, x), le générateur de
P
la diffusion (Xt ) définie par (3.9) est l’opérateur différentiel défini sur C1,2 ([0, T ] × Rd ) par :
d d
X
i ∂u 1 X i,j ∂2u
At u(t, x) = b (t, x) (t, x) + a (t, x) (t, x) . (4.1)
i=1
∂xi 2 i,j=1 ∂xi ∂xj

Si les coefficients σ et b ne dépendent pas de t, le générateur est alors l’opérateur différentiel


défini sur C2 (Rd ) par :
d d
X
i ∂u 1 X i,j ∂2u
Au(x) = b (x) (x) + a (x) (x) . (4.2)
i=1
∂xi 2 i,j=1 ∂xi ∂xj

Ainsi, le générateur du mouvement Brownien sur Rr est 21 ∆, où ∆ est le Laplacien défini sur
Rt Rt
C2 (Rr ). Le générateur d’une diffusion de Black et Sholes Xt = x + 0 σ Xs dWs + 0 b Xs ds
∂ ∂2
est l’opérateur défini sur C2 (R) par A = b x ∂x + 12 σ 2 x2 ∂x 2 . Les théorèmes suivants relient le

générateur d’une diffusion à des martingales. Les premiers résultats s’appliquent à des diffusions
dont les coefficients ne dépendent pas du temps.

Théorème 4.1 Soit b : Rd → Rd et σ : Rd → Rrd des fonctions Lipschitziennes, c’est à dire


telles qu’il existe une constante C > 0 telle que pour tout x, y ∈ Rd :

|σ(x) − σ(y)| + |b(x) − b(y)| ≤ C |x − y| , (4.3)

W un mouvement Brownien standard à valeurs dans Rr et (Xt , t ≥ 0) la diffusion solution de


l’équation différentielle stochastique
Z t Z t
Xt = x + σ(Xs ) dWs + b(Xs ) ds , (4.4)
0 0

de générateur A. Alors pour toute fonction f ∈ K2 (Rd ), le processus M. (f ) défini par


Z t
Mt (f ) = f (Xt ) − f (X0 ) − Af (Xs ) ds
0

est une martingale pour la filtration Ft = σ(Ws , 0 ≤ s ≤ t) , t ≥ 0 .

64
Démonstration : La formule d’Itô (3.12) entraı̂ne que pour tout t ≥ 0,

t d X
r Z t
∂f
Z X
f (Xt ) − f (X0 ) − Af (Xs ) ds = (Xs ) σki (Xs ) dWsk .
0 i=1 k=1 0 ∂xi
Rt ∂f
Il suffit donc de vérifier que les intégrales stochastiques 0 ∂xi
(Xs ) σki (Xs ) dWsk sont des (Ft )-
martingales, ce qui revient à vérifier que pour tout t ≥ 0,
Z t 2 !
∂f i

Ii,k = E ∂xi (Xs ) σk (Xs ) ds < +∞ .

0

Les dérivées de f étant à croissance polynomiale, l’inégalité (3.10) montre qu’il existe p ∈
p

[1, +∞[ et une constante C > 0 tels que Ii,k ≤ C t sup0≤s≤t 1 + E |Xs | < +∞. 2
2
Ce théorème entraı̂ne immédiatement que si f est une fonction de classe C à support compact
et si X est la solution de l’EDS (4.4),
Z T 

E f (XT ) = f (x) + E Af (Xs ) ds .
0

Le théorème d’arrêt permet d’étendre cette égalité au cas où T est un temps d’arrêt pour la
filtration (Ft ) tel que E(T ) < +∞ ; c’est la formule de Dynkin.

Définition 4.2 On dit que l’opérateur A défini par (4.2) est uniformément elliptique sur B ⊂
Rd s’il existe une constante C > 0 telle que pour tout x ∈ B et y ∈ Rd :
d
X
ai,j (x) yi yj ≥ C |y|2 .
i,j=1

Sous cette condition, le processus (Xt ) solution de (4.4) admet une densité. On pourra voir la
démonstration du résultat suivant par exemple dans [10] :

Théorème 4.3 Soit σ : Rd → Rrd et b : Rd → Rd des fonctions satisfaisant les conditions


(4.3), tel que le générateur A défini par (4.2) soit uniformément elliptique sur Rd . Alors pour
tout t > 0 et pour tout x ∈ Rd , la loi de la diffusion Xt définie par (4.4) admet une densité
y → p(t; x, y) par rapport à la mesure de Lebesgue sur Rd . Si de plus les fonctions σ et b sont
de classe C ∞ avec des dérivées partielles d’ordre supérieur ou égal à 1 bornées, alors la fonction
p(t; x, .) est de classe C ∞ .

Le résultat suivant permet de généraliser le Théorème 4.1 au cas de coefficients dépendant


du temps et introduit un coefficient d’actualisation ρ.

Théorème 4.4 Soit σ et b des fonctions qui satisfont les conditions de Lipschitz et de restric-
tion sur la croissance (3.7) et (3.8), W un mouvement Brownien standard de dimension r, Xt
la solution de l’équation différentielle stochastique :
Z t Z t
Xt = x + σ(s, Xs ) dWs + b(s, Xs ) ds (4.5)
0 0

65
et At son générateur infinitésimal. Alors pour toute fonction continue bornée ρ : [0, T ]×Rd → R
et toute fonction f ∈ K1,2 ([0, T ] × Rd ) le processus
 Z t 
ρ
Mt (f ) = exp − ρ(s, Xs ) ds f (t, Xt ) − f (0, X0)
0
Z t  Z s  
∂f
− exp − ρ(u, Xu ) du + As f − ρ f (s, Xs ) ds
0 0 ∂s

est une martingale pour la filtration Ft = σ(Ws , 0 ≤ s ≤ t) , t ≥ 0 .
Démonstration : La formule d’Itô pour un produit entraı̂ne que
  Z t    Z t 
d exp − ρ(s, Xs ) ds f (t, Xt ) = −ρ(t, Xt ) exp − ρ(s, Xs ) ds f (t, Xt ) dt
0 0
 Z t 

+ exp − ρ(s, Xs ) ds d f (t, Xt ) .
0

La formule d’Itô pour f (t, Xt ) permet alors d’écrire :


 Z t 
exp − ρ(s, Xs ) ds f (t, Xt ) = f (0, X0 )
0
Z t  Z s  
∂f
+ exp − ρ(u, Xu ) du + As f − ρ f (s, Xs ) ds
0 0 ∂s
d X r Z t  Z s 
X ∂f
+ exp − ρ(u, Xu ) du (s, Xs ) σki (s, Xs ) dWsk .
i=1 k=1 0 0 ∂x i

La fonction
R t ρ étant
R s bornée, on montre alors comme dans le théorème précédent que les pro-
∂f i k
cessus 0 exp − 0 ρ(u, Xu ) du ∂x i
(s, X s ) σk (s, Xs ) dWs sont des martingales, ce qui conclut
la démonstration. 2

4.2 Équation de Feynman-Kac, problèmes de Cauchy et de Diri-


chlet.
Dans cette section, nous allons présenter quelques rapports entre les diffusions et les équa-
tions aux dérivées partielles. Ainsi, grâce à la formule d’Itô, il est possible de donner une
interprétation probabiliste à certaines équations aux dérivées partielles, ce qui permet ainsi
de prouver l’existence de solutions. Nous ne ferons qu’effleurer le sujet et le lecteur pourra se
référer à [6], [8] ou [12] pour d’autres exemples ou des conditions plus précises de validité des
théorèmes.

L’exemple le plus simple est l’équation de la chaleur en dimension 1, c’est à dire


∂u σ2 ∂2 u
(t, x) = (t, x) , (t, x) ∈]0, +∞[×R , (4.6)
∂t 2 ∂x2
où σ > 0 et où la condition initiale u(0, x) = f (x) est donnée par une fonction f : R → R
borélienne à croissance polynomiale. Pour t > 0, notons p(t; x, .) la densité de x + σ Wt où
(Wt , t ≥ 0) est un mouvement Brownien standard à valeurs réelles, c’est à dire la fonction
1 (x−y)2
p(t; x, y) = √ e− 2 σ2 t .
σ 2πt

66
2 ∂2p
Un calcul facile montre que ∂p = σ2 ∂x

∂t 2 . Notons u(t, x) = E f (x+σ Wt ) pour tout t ≥ 0 ; alors
R +∞
u(0, x) = f (x). De plus, pour t > 0, u(t, x) = −∞ p(t; x, y) f (y) dy et la croissance polynomiale
de f entraı̂ne que l’on peut appliquer le théorème de dérivation sous le signe intégral et que
pour tout couple d’entiers positifs m et n,
Z +∞ n+m
∂ n+m ∂
m n
u(t, x) = m n
p(t; x, y) f (y) dy ;
∂t ∂x −∞ ∂t ∂x
2 2
la fonction définie par u(t, x) = E[f (x + σ Wt )] satisfait donc l’équation ∂u
∂t
(t, x) = σ2 ∂∂xu2 (t, x)
sur ]0, +∞[×R et appartient à K1,2 ([ε, +∞[×R) pour tout ε > 0.. Reste à vérifier le compor-
tement asymptotique de u(t, y) quand (t, y) → (0, x). De nouveau, puisque f est à croissance
polynomiale, si cette fonction est de plus continue, le théorème de convergence dominée entraı̂ne
que pour tout x ∈ R,
lim u(t, y) = f (x) .
(t,y)→(0,x)

On a ainsi prouvé que l’équation (4.6) de condition initiale f continue à croissance polyno-
miale a une solution ; reste à prouver l’unicité de la solution de (4.6) pour la condition initiale,
ce qui donnera une interprétation probabiliste à la solution de cette EDP. De nouveau, on peut
montrer l’unicité de la solution de (4.6) de façon probabiliste.
Théorème 4.5 Soit u une fonction de classe C 1,2 sur ]0, T ] × R qui satisfait l’équation de la
chaleur (4.6), telle que sup |u(t, x)| soit à croissance polynomiale en x et telle pour tout x ∈ R,
0<t≤T
lim u(t, y) = 0. Alors, u(t, x) = 0 sur ]0, T ] × R.
(t,y)→(0,x)

Démonstration : Fixons x ∈ R et soit n un entier tel que n > |x| ; notons τn = inf{t ≥ 0 : |x+
σWt | ≥ n}. Alors τn est un temps d’arrêt pour la filtration Brownienne Ft = σ(Ws : 0 ≤ s ≤ t).
Rappelons le principe de réflexion pour le mouvement Brownien (Wt , 0 ≥ t) : pour tout a > 0
et tout T ≥ 0, 
P sup{Wt : 0 ≤ t ≤ T } ≥ a = 2 P (WT ≥ a) .
De plus, si Y désigne une variable aléatoire gaussienne centrée réduite N (0, 1), alors pour tout
b > 0, Z +∞ Z +∞
1 − x2
2 1 x2 C b2
P (Y ≥ b) = √ e dx ≤ √ x e− 2 dx = e− 2 .
2π b b 2π b b
Nous en déduisons pour tout T0 ∈]0, T ] :
 
P (τn < T0 ) ≤ P sup σ |Wt | ≥ n − |x|
0≤t≤T0
   
n − |x| n − |x|
≤ 2 P WT0 ≥ + 2 P −WT0 ≥
σ σ
Z +∞
u2
≤ C e− 2 du
n−|x|

σ T0

(n − |x|)2
 
σ T0
≤ C exp − .
n − |x| 2T0 σ 2
On en déduit que pour tout T0 ∈]0, T ], p > 0, np P (τn < T0 ) → 0 quand n → ∞. Pour tout
t ∈ [0, T [ et 0 ≤ s < T − t notons
v(s, x) = u(T − t − s, x) .

67
La formule d’Itô, le fait que u soit solution de (4.6) et le théorème d’arrêt pour les martingales
entraı̂nent que pour 0 ≤ s < T − t,
Z s∧τn 
 ∂v
E v(s ∧ τn , x + σ Ws∧τn ) = v(0, x) + E (θ, x + σ Wθ ) σ dWθ = v(0, x) .
0 ∂x
De plus, la croissance imposée à u montre que :
|v(s, x + σ Ws )| 1{s<τn} + |v(τn , x + σWτn )| 1{s≥τn } ≤ sup |u(T − t − s, y)| ≤ C np ,
0≤s≤T −t
|y|≤n

tandis que lorsque s → T −t, la continuité p.s. des trajectoires de W entraı̂nent v(s, x+Ws) → 0
presque sûrement. Le théorème de convergence dominée permet de déduire que lorsque s →
T −t, E v(s, x + σ Ws ) 1{s<τn } → 0. D’autre part le théorème de convergence dominée entraı̂ne
en faisant tendre s vers T − t que

u(T − t, x) = E v(τn , x + σ Wτn ) 1{τn ≤T −t} .
La restriction sur la croissance de u et la convergence précédente de np P (τn < T − t) vers 0
lorsque n → +∞ montrent que u(T − t, x) = 0, ce qui conclut la démonstration. 2
La démonstration précédente a fait apparaı̂tre une martingale liée à la formule d’Itô comme
dans la section précédente, ainsi qu’un retournement du temps (changement de t en T − t), ce
∂ 2 ∂2 σ2 ∂ 2
qui a permis de remplacer ∂t − σ2 ∂x ∂
2 par − ∂t − 2 ∂x2 . On peut ainsi considérer le problème

similaire à celui de l’équation (4.6) sur l’intervalle de temps [0, T ] en « renversant le temps » et
imposant une condition finale :
 ∂v 2 ∂2v
(t, x) + σ2 ∂x 2 (t, x) = 0 pour (t, x) ∈ [0, T [×R ,
∂t (4.7)
v(T, x) = f (x) pour x ∈ R .
On pourra montrer comme exercice le théorème suivant :
Théorème 4.6 Soit v une fonction de C 1,2 ([0, T ] × R) ∩ K0([0, T ] × R) qui satisfait (4.7). Alors
   
v(t, x) = E f (x + σ(WT − Wt )) = E f (x + σWT −t ) pour (t, x) ∈ [0, T [×R , (4.8)
et 
v(t, x + σ Wt ) = E f (x + σ WT ) Ft .
De plus, si la fonction f appartient à K0 (R), alors la fonction v définie par (4.8) est l’unique
solution de (4.7) dans l’espace des fonctions continues sur [0, T ] × R qui appartiennent à
C 1,2 ([0, T − ε] × R) pour tout ε ∈]0, T [.
Le théorème suivant fournit une interprétation probabiliste à une équation aux dérivées
partielles qui généralise (4.7) ; c’est l’équation de Feynman-Kac pour le mouvement Brownien.
∂2p
La base des résultats est la remarque sur le lien entre ∂p ∂t
(t; x, y) et ∂x 2 (t; x, y) lorsque p est

la densité d’un mouvement Brownien standard unidimensionnel. Cette propriété se généralise


immédiatement en dimension d : pour tout t > 0, x, y ∈ Rd , soit
d Pd !
2

1 (x i − y i )
p(t; x, y) = √ exp − i=1 ;
2πt 2 t
∂2
alors si ∆ désigne le Laplacien di=1 ∂x
P
2,
i

∂p 1
(t; x, y) = ∆p(t; x, y) .
∂t 2

68
Définition 4.7 Soit T > 0, m un nombre réel, f : Rd → R, ρ : [0, T ] × Rd → [m, +∞[ et
g : [0, T ] × Rd → R des fonctions continues. On dit qu’une fonction v ∈ C 1,2 ([0, T [×Rd est
solution du problème de Cauchy de potentiel ρ, de Lagrangien g et de condition terminale f si
elle est solution de :
∂v 1
(t, x) + ∆v(t, x) − ρ(t, x) v(t, x) + g(t, x) = 0 , (t, x) ∈ [0, T [×Rd , (4.9)
∂t 2
v(T, x) = f (x) , x ∈ Rd . (4.10)

Théorème 4.8 (Théorème de Feynman-Kac pour le mouvement Brownien) Soit f, g, ρ comme


dans la définition 4.7 tels que sup0≤t≤T |g(t, x)| soit à croissance polynomiale en x et v ∈
C 1,2 ([0, T [×Rd ) ∩ K0 ([0, T ] × Rd ) une solution du problème de Cauchy (4.9) de condition ter-
minale f (4.10). Alors si W désigne un mouvement Brownien standard de dimension d, la
fonction v admet la représentation stochastique :
"  Z T −t 
v(t, x) = E f (x + WT −t ) exp − ρ(t + s, x + Ws ) ds
0
Z T −t  Z s  #
+ g(t + s, x + Ws ) exp − ρ(t + u, x + Wu ) du ds . (4.11)
0 0

Démonstration : En utilisant la formule d’Itô et l’EDP (4.9) on déduit que pour tout t ∈
[0, T [ :
"  Z s #
ds v(t + s, x + Ws ) exp − ρ(t + u, x + Wu ) du =
0
 Z s " d
#
X ∂
exp − ρ(t + θ, x + Wθ ) dθ −g(t + s, x + Ws ) ds + v(t + s, x + Ws ) dWsi .
0 i=1
∂xi

Soit ε ∈]0, T [, n > |x| et τn = inf{t ≥ 0 : |x + Wt | ≥ n d} ; puisque ρ ≥ m et v ∈
C 1,2 ([0, T [×Rd ), le processus
Z s  Z u 

exp − ρ(t + θ, x + Wθ ) dθ v(t + u, x + Wu ) dWui , 0 ≤ s ≤ T − ε − t
0 0 ∂x i

est une martingale de carré intégrable etP le théorème d’arrêt entraı̂ne pour tout τ ∈]0, T − ε − t[
en intégrant entre 0 et τ ∧ τn , v(t, x) = 3i=1 Tn,τi
(t, x), où :
Z τ ∧τn  Z s  
1
Tn,τ (t, x) = E g(t + s, x + Ws ) exp − ρ(t + u, x + Wu ) du ds ,
0 0
  Z τn  
2
Tn,τ (t, x) = E v(t + τn , x + Wτn ) exp − ρ(t + s, x + Ws ) ds 1{τn ≤τ } ,
0
  Z τ  
3
Tn,τ (t, x) = E v(t + τ, x + Wτ ) exp − ρ(t + s, x + Ws ) ds 1{τn >τ } .
0

De nouveau, puisque ρ ≥ m et sup0≤t≤T g(t, .) est à croissance polynomiale, le théorème de


convergence dominée entraı̂ne que lorsque n → +∞ et τ → T − ε − t,
Z T −ε−t  Z s  
1
Tn,τ (t, x) → E g(t + s, x + Ws ) exp − ρ(t + u, x + Wu ) du ds .
0 0

69
2
La croissance polynomiale de v entraı̂ne que terme Tn,τ est dominé par

d
X  
p p
|Wsi| ≤ C np exp − c(n − |x|)2 ,

C n P (τn ≤ T ) ≤ C n P sup ≥ n − |x|
0≤s≤T
i=1

2
ce qui montre que lorsque n → +∞, Tn,τ (t, x) → 0. Le théorème de convergence dominée
entraı̂ne enfin que lorsque n → +∞ et τ → T − ε − t,
  Z T −ε−t 
3
Tn,τ (t, x) → E v(T − ε, x + WT −ε−t ) exp − ρ(t + s, x + Ws ) ds ,
0

ce qui termine la démonstration de (4.11) en faisant tendre ε vers 0. 2

Remarque 4.9 Sous les hypothèses du théorème 4.8, v admet également la représentation
suivante :
"  Z T 
v(t, x) = E f (x + WT − Wt ) exp − ρ(s, x + Ws − Wt ) ds
t
Z T  Z s  #
+ g(s, x + Ws − Wt ) exp − ρ(u, x + Wu − Wt ) du ds .
t t

C’est cette dernière représentation qui se généralisera à des diffusions quelconques en remplaçant
le Laplacien par le générateur infinitésimal.

Définition 4.10 Soit σ : [0, T ] × Rd → Rdr et b : [0, T ] × Rd → Rd des fonctions satisfaisant


les conditions (3.7) et (3.8) et soit At le générateur infinitésimal défini sur C1,2 ([0, T ] × Rd ) par
(4.1) :
d d
X
i ∂u 1 X i,j ∂2u
At u(t, x) = b (t, x) (t, x) + a (t, x) (t, x) .
i=1
∂xi 2 i,j=1 ∂xi ∂xj

Soit m un nombre réel, f : Rd → R, g : [0, T ] × Rd → Rd et ρ : [0, T ] × Rd → [m, +∞[ des


fonctions continues. La fonction v ∈ C 1,2 ([0, T [×Rd ) ∩ K0 ([0, T ] × Rd ) satisfait le problème de
Cauchy d’opérateur At , de potentiel ρ, de Lagrangien g et de condition terminale f si c ’est
une fonction continue sur [0, T ] × Rd et si

∂v
(t, x) + At v(t, x) − ρ(t, x) v(t, x) + g(t, x) = 0 pour (t, x) ∈ [0, T [×Rd , (4.12)
∂t
v(T, x) = f (x) pour x ∈ Rd . (4.13)

Le théorème suivant étend l’équation de Feynman-Kac à ce problème de Cauchy plus général :

Théorème 4.11 (Théorème de Feynman-Kac) Soit σ et b des fonctions satisfaisant les condi-
tions (3.7) et (3.8), f, g, ρ des fonctions satisfaisant les conditions de la définition 4.10. Suppo-
sons que f ∈ K0 (Rd ) et que sup0≤t≤T |g(t, x)| est à croissance polynomiale. Pour tout t ∈ [0, T [
et x ∈ Rd , notons pour t ≤ s ≤ T :
Z s Z s
t,x t,x
Xs = x + σ(u, Xu ) dWu + b(u, Xut,x ) du . (4.14)
t t

70
Alors une solution v du problème de Cauchy (4.12) et (4.13) admet la représentation stochas-
tique :
"  Z T 
t,x t,x
v(t, x) = E f (XT ) exp − ρ(s, Xs ) ds
t
Z T  Z s  #
+ g(s, Xst,x ) exp − t,x
ρ(u, Xu ) du ds . (4.15)
t t

De plus, si g = 0 et si (Xt = Xt0,x , t ∈ [0, T ]) est la diffusion solution de (3.9), alors pour tout
t ∈ [0, T ],   Z T  
v(t, Xt ) = E exp − ρ(s, Xs ) ds f (XT ) Ft . (4.16)

t

Démonstration : Lorsque g = 0, le théorème 4.4 montre que si v résout l’équation (4.12), le


processus :  Z s 
t,x
Ms = exp − ρ(u, Xu ) du v(s, Xst,x ) , s ∈ [t, T ]
t,x
t

est une Ft -martingale, ce qui entraı̂ne que Mtt,x = E MTt,x | Ft . La propriété de martingale de


(Ms0,x , s ∈ [0, T ]) et la condition (4.13) montrent alors (4.16). Remarquons que de même, la
condition (4.13) entraı̂ne que que pour tout ε ∈]0, T [ et t ∈ [0, T − ε],
  Z T −ε  
t,x t,x t,x
v(t, x) = v(t, Xt ) = E exp − ρ(u, Xu ) du v(T − ε, XT −ε ) Ft ,

t

qui correspond bien à (4.15) lorsque g = 0.


Pour prouver (4.15) dans le cas général, nous procédons comme dans la démonstration du
Théorème 4.8. Fixons (t, x) ∈ [0, T [×Rd , ε ∈]0, T − t[ et notons τn = inf{s ≥ t , |Xst,x
P| 3≥ n}.
La formule d’Itô et le théorème d’arrêt pour les martingales entraı̂nent que v(t, x) = i=1 Tni ,
avec :
"Z  #
(T −ε)∧τn  Z s
Tn1 (t, x) = E g(s, Xst,x) exp − ρ(u, Xut,x ) du ds ,
t t
  Z τn  
2 t,x t,x
Tn (t, x) = E v(τn , Xτn ) exp − ρ(s, Xs ) ds 1{τn ≤T −ε} ,
t
  Z T −ε  
3 t,x t,x
Tn (t, x) = E v(T − ε, XT −ε) exp − ρ(s, Xs ) ds 1{τn >T −ε} .
0

Une généralisation immédiate de (3.10) basée sur le lemme de Gronwall montre que pour tout
p ∈ [1, +∞[, E(supt≤s≤T |Xst,x |p ) ≤ Cp (1 + |x|p ). Comme dans le Théorème 4.8, le théorème de
convergence dominée et la croissance polynomiale de g montrent que, lorsque n → +∞,
Z T −ε  Z s  
1 t,x t,x
Tn (t, x) → E g(s, Xs ) exp − ρ(u, Xu ) du ds .
t t

Il existe K > 0 tel que le terme |Tn2(t, x)| est dominé par CnK P (τn ≤ n). Pour tout p ∈ [1, +∞[,

P (τn ≤ T ) ≤ Cp n−p E sup |Xst,x |p ≤ Cp n−p .



t≤s≤T

71
Choisissant p > K nous obtenons Tn2 (t, x) → 0 quand n → +∞. Le théorème de convergence
dominée entraı̂ne que lorsque n → +∞,
  Z T −ε 
3 t,x t,x
Tn (t, x) → E v(T − ε, XT −ε ) exp − ρ(s, Xs ) ds ,
0

ce qui termine la démonstration en faisant tendre ε vers 0. 2

Remarque 4.12 Dans le cas particulier où les coefficients b et σ sont indépendants du temps,
de classe C 4 à dérivées partielles d’ordre 1 à 4 bornées, ρ = 0, g = 0 et f ∈ K4 (Rd ), si
Z t Z t
Xt = x + σ(Xs ) dWs + b(Xs ) ds ,
0 0

la fonction u : [0, T ] × Rd → R définie par :


 
u(t, x) = E f (XT ) Ft

appartient à K4 ([0, T [×Rd ) et est solution de l’EDP sur [0, T [×Rd :


d d
∂u X i ∂u 1 X ∂2u
+ b (x) + (σ σ ∗ )i,j (x) = 0, (4.17)
∂t i=1
∂xi 2 i,j=1
∂xi ∂xj

avec la condition terminale u(T, .) = f (.). Dans ce cas, la solution du problème de Cauchy
existe et est unique.

Remarque 4.13 Si les fonctions σ : Rd → Rrd et b : Rd → Rd sont de classe C ∞ avec des


dérivées partielles bornées telles que le générateur A est uniformément elliptique sur Rd et si
p(t; x, .) désigne la densité de la loi de Xt , t > 0 donnée par le théorème 4.3, alors :

∂p
(t; x, y) = A p(t; x, y)
∂t
et
d d
∂p 1 X ∂2 i,j
X ∂ i
(t; x, y) = [a (y) p(t : x, y)] − [b (y) p(t; x, y)] .
∂t 2 i,j=1 ∂yi ∂yj i=1
∂yi

De plus, quand t → 0, la probabilité p(t; x, y) dy converge faiblement vers la mesure de Dirac


δx . Ces équations et les EDP précédentes montrent que p(t; x, y) est la solution fondamentale
des problèmes de Cauchy avec condition initiale ou finale ; ceci traduit le fait que la solution
de ces problèmes de Cauchy est obtenue en prenant le produit de convolution de p(t; ) avec la
condition initiale (ou finale). Les équations satisfaites par p(t; x, y) généralisent celles observées
sur la densité de la loi du mouvement Brownien à la base de tous ces résultats.

La figure suivante montre l’aspect du noyau de la chaleur p(t; 0, x) pour t ∈]1/N, 1] et


x ∈ [−2, 2] avec N = 25.

72
Fig. 16 – Représentation du noyau de la chaleur en dimension 1

0
2

x
−2
0.04 0.52 1.00
t

Nous considérons maintenant des problèmes de Dirichlet. Soit O un ouvert borné de Rd ,


O son adhérence, ∂O sa frontière et Φ : ∂O → R une fonction continue ; nous considérons
maintenant un problème de Dirichlet, c’est à dire une EDP satisfaite par la fonction v dans
O (avec éventuellement une condition initiale ou terminale) et avec comme condition au bord
v = Φ sur ∂O.
Le premier résultat donne une interprétation probabiliste d’un tel problème de Dirichlet en
horizon infini à l’aide d’une diffusion dont les coefficients ne dépendent pas du temps.
Théorème 4.14 Soit O un ouvert borné de Rd , m un nombre réel, ρ : O → [m, +∞[, g :
O → R et Φ : ∂O → R des fonctions continues, σ : Rd → Rdr et b : Rd → Rd des fonctions
globalement Lipschitziennes et
d d
X
i ∂ 1 X ∂2
A= b (x) + (σ σ ∗ )i,j (x)
i=1
∂xi 2 i,j=1 ∂xi ∂xj

le générateur associé. Une fonction continue u sur O de classe C 2 dans O est solution du
problème de Dirichlet si :

Au(x) − ρ(x) u(x) + g(x) = 0 dans O , (4.18)


u(x) = Φ(x) dans ∂O . (4.19)

Soit W un mouvement Brownien standard de dimension r et pour tout x ∈ O, soit


Z t Z t
x
Xt = x + σ(Xs ) dWs + b(Xs ) ds ,
0 0

et
τOx = inf{t ≥ 0 : Xtx 6∈ O} .

73
Alors, si P (τOx < +∞) = 1 pour tout x ∈ O, et si u est une solution du problème de Dirichlet
(4.18) et (4.19), alors u admet la représentation suivante :
  Z τx  Z τx  Z t  
O O
x x x x
u(x) = E Φ(XτOx ) exp − ρ(Xs ) ds + g(Xt ) exp − ρ(Xs ) ds dt . (4.20)
0 0 0

Démonstration : Pour tout ε > 0, notons Oε = {x ∈ O : d(x, δO) > ε} et

τOx ε = inf{t ≥ 0 : Xtx 6∈ Oε } .

Le théorème 4.4 et le théorème d’arrêt montrent que le processus


 Z t∧τ x  Z t∧τ x  Z s 
Oε Oε
x x x x
Mt = u(Xt∧τOx ) exp − ρ(Xs ) ds + g(Xs ) exp − ρ(Xθ ) dθ ds
ε
0 0 0

est une (Ft )-martingale. De plus le fait que Oε soit borné, l’équation (3.10), la minoration
de ρ et la continuité de u et g sur Oε montrent que cette martingale est bornée dans Lp ,
p > 1, donc uniformément intégrable. De plus, E(M0 ) = u(x) tandis que lorsque ε → 0,
E(M∞ ) = limt→+∞ E(Mt ) coı̈ncide avec le membre de droite de (4.20), ce qui termine la
démonstration. 2

Le théorème précédent montre donc que, si P (τOx < +∞) = 1 pour tout x ∈ O, la solution
u du problème de Dirichlet (4.18) et (4.19) est unique. Dans le cas particulier r = d, σ = Id,
b = 0, g = 0 et ρ = 0, le problème de Cauchy précédent revient donc à la recherche des fonctions
u harmoniques sur O (c’est à dire telles que ∆u = 0 sur O) telles que u(x) = Φ(x) sur ∂O.
Puisque pour tout i = 1, · · · , d la trajectoire de (Wti , t ≥ 0) est presque sûrement non bornée,
dans ce cas, pour tout x ∈ O, P (τOx < +∞) = 1 et la solution du problème de Dirichlet (qui
existe) est donc unique. Dans le cas d’une diffusion Xtx , cette propriété requiert des hypothèses
supplémentaires qui impliquent que les trajectoires de X.x « ressemblent » à celles du Brownien.

Si l’opérateur A est uniformément elliptique sur O, P (τOx < +∞) = 1 pour tout x ∈ O et,
si elle existe, la solution du problème de Dirichlet (4.18) et (4.19) est unique. Nous renvoyons le
lecteur à [10] pour une démonstration de ce résultat, ainsi que pour des conditions suffisantes
de régularité sur O pour l’existence d’une solution.
Le résultat suivant fait appel à une diffusion dont les coefficients dépendent du temps.
L’EDP satisfaite dans O est parabolique et nous imposons uns condition terminale similaire à
celle du problème de Cauchy.

Théorème 4.15 Soit σ et b des fonctions satisfaisant les conditions (3.7) et (3.8), At l’opé-
rateur différentiel
d d
X
i ∂ 1 X ∂2
At = b (t, x) + (σ σ ∗ )i,j (t, x) .
i=1
∂xi 2 i,j=1 ∂xi ∂xj

Soit O un ouvert borné de Rd dont la frontière est de classe C 2 , m un nombre réel, ρ : [0, T ] ×
O → [m, +∞[, g : [0, T ] × Rd → R, Φ : [0, T ] × ∂O → R et f : [0, T ] × O → R des fonctions
continues. Soit v une fonction de classe C 1,2 ([0, T [×O) dont les dérivées partielles par rapport

74
à x sont bornées sur [0, T ] × O et solution de l’équation parabolique avec les conditions de
Dirichlet au bord :
∂v
(t, x) + At v(t, x) − ρ(t, x) v(t, x) + g(t, x) = 0 dans [0, T [×O , (4.21)
∂t
v(T, x) = f (x) dans O, (4.22)
v(t, x) = Φ(t, x) dans [0, T [×∂O . (4.23)

Alors si pour tout t ∈ [0, T [ et x ∈ O, X.t,x désigne la diffusion solution de (4.14) et si

τOt,x = inf{s ≥ t : Xst,x 6∈ O} ,

v admet la représentation stochastique :


t,x
"Z
T ∧τO  Z s 
t,x
v(t, x) = E exp − ρ(θ, Xθ ) dθ g(s, Xst,x) ds
t t
 Z T 
f XTt,x 1{τ t,x ≥T }
ρ(s, Xst,x ) ds

+ exp −
O
t
Z τ t,x ! #
O
 
+ exp − ρ(s, Xst,x ) ds Φ τOt,x , Xτt,x
t,x 1{τ t,x <T } . (4.24)
O O
t

Démonstration : Fixons (t, x) ∈ [0, T [×O et pour tout n ≥ 1 notons On = {x ∈ O :


d(x, Oc ) > n1 } et τn = inf{s ≥ t : |Xst,x | ≥ n} ∧ inf{s ≥ t : Xst,x 6∈ On }. Le raisonnement fait
au début de la démonstration du théorème 4.11 et le théorème d’arrêt montrent que d’après
l’EDP satisfaite par v sur [0, T [×O pour tout n ≥ |x| tel que d(x, Oc ) > n1 , le processus
(Ms , s ∈ [t, T ]) défini par
 Z s∧τn  Z s∧τn  Z r 
n t,x t,x t,x
ρ(θ, Xθ ) dθ g(r, Xrt,x ) dr

Ms = exp − ρ(r, Xr )dr v s ∧ τn , Xs∧τn + exp −
t t t
P3
est une martingale. On en déduit que v(t, x) = E(MTn ) = i=1 Tni (t, x) où :
Z T ∧τn  Z s  
Tn1 (t, x)= E g(s, Xst,x ) exp
− t,x
ρ(u, Xu ) du ds ,
t t
  Z τn  
2 t,x t,x

Tn (t, x) = E v τn , Xτn exp − ρ(s, Xs ) ds 1{τn ≤T } ,
t
  Z T  
3 t,x t,x
Tn (t, x) = E v(T, XT ) exp − ρ(s, Xs ) ds 1{τn >T } .
0

Il suffit alors de faire tendre n vers l’infini et d’utiliser la condition terminale à l’instant T sur
l’ensemble {T < τOt,x } et la condition au bord sur l’ensemble {τOt,x ≤ T }. Les détails techniques
sont laissés en exercice. 2
On peut aussi donner une interprétation
Pd probabiliste d’un problème de Neumann dans lequel
∂v
la condition (4.23) est remplacée par i=1 ∂xi (t, x) νi (x) = Φ(t, x) dans [0, T [×∂O, où ν(x) est
un champ de vecteurs dans Ō tel que si n(x) désigne la normale sortante de O, hν(x) , n(x)i > 0
sur ∂O. Nous renvoyons à [17] ou [12] pour la formulation précise.

75
4.3 Convergence faible du schéma d’Euler
Dans la pratique, la vitesse de convergence forte du schéma de discrétisation d’une diffusion
est beaucoup moins importante que celle qui permet d’approximer l’espérance d’une fonction
de la diffusion à l’instant T à l’aide de celle de l’espérance du schéma (que l’on peut simuler
et dont on peut donc calculer la moyenne empirique). L’exemple suivant montre que la vitesse
forte du schéma d’Euler est 1/2, maisR que sa vitesse faible (celle de l’approximation de E[f (XT )]
t
par E(f (X̄Tn )] est 1. Soit Xt = 1 + 0 Xs dWs ; une application immédiate de la formule d’Itô
montre que Xt = exp Wt − 2t . L’exercice 4.1 montre que la vitesse forte de convergence du
schéma d’Euler dans cet exemple ne peut pas être supérieure à 1/2. Par contre, pour f (x) = x2
ou f (x) = x3 , un calcul explicite des moments d’ordre 2 ou 3 de X1 et X̄1 fournit :
  
2 3 3
E(X1 ) = E [exp(2 W1 − 1)] = e et E(X1 ) = E exp 3 W1 − = e3 .
2

Si les variables aléatoires (Gk , k ≥ 1) sont gaussiennes N (0, 1) indépendantes, on a :


" n  2 #  n
n 2
 Y 1 1
E |X̄1 | = E 1 + √ Gk = 1+ ,
k=1
n n

tandis que "


n  3 #  n
Y 1 3
(X̄1n )3

E =E 1 + √ Gk = 1+ .
n n
k=1
 
Le tableau suivant donne les valeurs de X = ln(n), Y = ln E(|X1 − X̄1 |) , qui correspond
à une approximation forte, et Z3 = ln E X̄13 − e3 , qui correspond à une approximation
faible, obtenues par la  méthode de Monte
 Carlo  sur 3un
 échantillon de taille K = 90 000,
1 n 3 n

T2 = ln 1 + n − e et enfin T3 = ln 1 + n − e pour n = 20 + 10 k, 0 ≤ k ≤ 8.

n X Y T2 Z3 T3
20 2.9957323 - 2.0404171 - 2.7336123 1.2517926 1.3134547
30 3.4011974 - 2.2486329 - 3.1244057 0.9497913 0.9693137
40 3.6888795 - 2.4021837 - 3.4046637 0.7830386 0.7135859
50 3.912023 - 2.5113522 - 3.623324 0.5294511 0.5100549
60 4.0943446 - 2.6087408 - 3.8026446 0.3771230 0.3409984
70 4.2484952 - 2.6857551 - 3.9546457 0.2065828 0.1964180
80 4.3820266 - 3.8068414 - 4.0865617 0.1501653 0.0701173
90 4.4998097 - 2.8104988 - 4.2030863 0.0596871 0.0420101
100 4.6051702 - 2.859227 - 4.3074388 - 0.2314346 - 0.1428259

Les coefficients de régression linéaire α de Y en X (resp. Z, T2 ou T3 en X) et l’écart type


σ de la régression sont donnés par :

Y en X T2 en X Z3 en X T3 en X
α - 0.5105131 - 0.9788650 - 0.8709157 - 0.9086548
σ 0.0033108 0.0024575 0.0629701 0.0099577

76
La figure ci-dessous représente les graphiques de (X, T2 ) et (X, T3 ).

Fig. 17 – Vitesse de convergence faible théorique du schéma d’Euler pour x2 et x3

1.680
.

1.044

0.408

−0.228

−0.864

−1.500

−2.136

−2.772

−3.408

−4.044
.

−4.680
−0.50 0.40 1.30 2.20 3.10 4.00 4.90 5.80 6.70 7.60 8.50
faible carre calculee

La figure ci-dessous représente les graphiques de (X, Y ) et (X, Z3 ).

Fig. 18 – Vitesse de convergence forte et faible pour x3 du schéma d’Euler simulé

1.680
.

1.044

0.408

−0.228

−0.864

−1.500

−2.136

−2.772

−3.408

−4.044
.

−4.680
−0.50 0.40 1.30 2.20 3.10 4.00 4.90 5.80 6.70 7.60 8.50
forte simulee

77
Le résultat suivant de D. Talay et L. Tubaro [22] montre que la vitesse de convergence faible
du schéma d’Euler est 1, c’est à dire le double de la vitesse forte de ce schéma. La vitesse de
convergence faible du schéma de Milstein est également 1 mais la simplicité de simulation du
schéma d’Euler fait préférer celui-ci dans ce contexte.
Théorème 4.16 Soit σ : Rd → Rrd et b : Rd → Rd des fonctions de classe C 4 dont les dérivées
partielles d’ordre 1 à 4 sont bornées. Pour tout x ∈ Rd et n ≥ 1 soit X la diffusion :
Z t Z t
Xt = x + σ(Xs ) dWs + b(Xs ) ds ,
0 0

et notons X n soit le schéma d’Euler X̄ n défini par (3.16), soit X (n) l’interpolé du précédent
sur les points knT . Alors pour toute fonction f appartenant à K4 (Rd ), il existe une constante
CT (f ) (qui dépend de T et de f ) telle que
E f (XTn ) − E f (XT ) ≤ CT (f ) n−1 .
 
(4.25)

Démonstration : D’après la remarque 4.12, u(t, x) = E f (XT ) Ft est de classe C 2,4 et est
solution du problème de Cauchy (4.17) avec la condition terminale u(T, .) = f (.). L’équation
(4.16) et la formule d’Itô appliquée au schéma d’Euler X̄.n défini par (3.16) montrent que si
a = σ σ∗ ,

E f (X̄Tn ) − f (XT ) = E u(T, X̄Tn ) − u(0, x)


   
"Z d d
#
T n 2
∂u X ∂u 1 X ∂ u o
=E (t, X̄tn ) + (t, X̄tn ) bi (X̄φnnt ) + (t, X̄tn ) ai,j (X̄φnnt ) dt .
0 ∂t i=1
∂x i 2 i,j=1
∂xi ∂x j

Puisque u est solution de (4.17), le fait que u est de classe C 2,4 entraı̂ne que les dérivées partielles
2u
de u, ∂u , ∂u et ∂x∂i ∂x
∂t ∂xi j
sont de classe C 1,2 De plus, puisque u est solution du problème de Cauchy
(4.17),
Z T  
n ∂u n ∂u n
T1 = E (t, X̄t ) − (t, X̄φnt ) dt ,
0 ∂t ∂t
d Z T   
n
X ∂u n ∂u n i n
T2 = E (t, X̄t ) − (t, X̄φnt ) b (X̄φnt ) dt ,
i=1 0 ∂x i ∂x i
d Z
1 X T
 2
∂2u
 
n ∂ u n n i,j n
T3 = E (t, X̄t ) − (t, X̄φnt ) a (X̄φnt ) dt .
2 i,j=1 0 ∂xi ∂xj ∂xi ∂xj

Puisque b est à croissance linéaire et que les dérivées partielles de u sont à croissance poly-
nomiale, la formule d’Itô appliquée à la fonction ∂u
∂t
sur l’intervalle [φnt , t] et l’inégalité (3.18)
montrent que :
"Z (
t d
 ∂u n ∂u n
X ∂2u
(t, X̄sn ) bi (X̄φnns )

E (t, X̄t ) − (t, X̄φnt ) ≤ E

∂t ∂t n
φt i=1
∂t ∂xi
d
) #
1X ∂3u
+ (t, X̄sn ) ai,j (X̄sn ) ds

2 ∂t ∂xi ∂xj
i,j=1

−1
≤Cn ;

78
nous en déduisons que |T1n | ≤ C n−1 et un calcul similaire pour des termes |T2n | et |T3n | termine
la démonstration. 2

La régularité imposée à la fonction f est gênante en pratique et le théorème peut être


amélioré sur ce point, en renforçant les conditions sur les coefficients de la diffusion X ; la
démonstration, qui repose sur des techniques de calcul de Malliavin, est omise.
Théorème 4.17 Supposons que les coefficients σ et b du Théorème 4.16 sont de classe C ∞
avec des dérivées partielles d’ordre supérieur ou égal à 1 bornées et que le générateur A est
uniformément elliptique sur Rd (c’est à dire que la condition de la définition 4.2 est satisfaite).
Alors si f est de classe C ∞ avec des dérivées partielles à croissance polynomiale, pour tout
entier K ≥ 1 il existe des constantes Ck , 1 ≤ k ≤ K telles que :
K
X Ck
f (XTn ) + O(n−(K+1) ) .
 
E − f (XT ) =
k=1
nk

Notons que dans le théorème précédent, la condition d’ellipticité uniforme du générateur A


peut être affaiblie.

Remarque 4.18 Notons qu’en utilisant le théorème 4.17 avec 2n pas, on peut peut obtenir
une erreur en n−2 au lieu de n−1 ; c’est l’extrapolation de Romberg. En effet :
 2 C1 C1 2 C2 C2
E 2f (XT2n ) − f (XTn ) − E f (XT ) = − 2 + O(n−3) = O(n−2) .
  
− +
2n n 4 n2 n

4.4 Exercices.
Exercice 4.1 Soit (Wt , t ≥ 0) un mouvement Brownien standard à valeurs dans R et
Z t
Xt = 1 + Xs dWs .
0

1. Écrire le schéma d’Euler X̄tn entre les instants 0 et 1 de pas 1/n et donner une expression
explicite de X̄1n en fonction de ∆Wi = W(i+1)/n − Wi/n pour 0 ≤ i < n. Dans la suite, on
notera X̄1 pour X̄1n .
2. Montrer que pour presque tout ω il existe N(ω) tel que pour tout n ≥ N(ω) et tout
i = 0 , · · · , n − 1, |∆Wi (ω)| ≤ 12 .
3. Montrer que pour tout n ≥ N(ω) :
 1 1
ln X̄1 (ω) = W1 (ω) − + T1 (ω) + T2 (ω) + ǫn (ω) ,
2 3
où :
n−1
! n−1 n−1
1 X X X
T1 = 1− ∆Wi2 , T2 = ∆Wi3 et |ǫn | ≤ C T3 où T3 = ∆Wi4 .
2 i=0 i=0 i=0

4. Montrer que E(T16 ) ≤ C n−3 et que E(T24 ) ≤ C n−4 . En déduire que pour 0 ≤ α < 32 ,
quand n → +∞ :
nα T12 → 0 p.s. et nα T2 → 0 p.s.

79
C
5. Montrer qu’il existe une constante C et une variable aléatoire U3 telles que : T3 = n
+ U3
et E(U32 ) ≤ C n−3 . En déduire que si 0 ≤ α < 1, nα ǫn → 0 p.s.
6. Montrer que si (Zn , n ≥ 1) est une suite de variables aléatoires positives qui converge en
loi vers une variable aléatoire Z qui a une densité, alors pour tout ε > 0, la suite (nε Zn )
converge en probabilité vers +∞ et en déduire que P (lim supn nε Zn = +∞) = 1.
7. Montrer que si α > 12 , lim supn nα T1 = +∞ p.s. et en déduire :
 
α 1
P lim sup n |X1 − X̄1 | = +∞ pour α > .
n 2

Exercice 4.2 Soit A l’opérateur différentiel défini sur les fonctions de classe C 2 sur R par
1 −2x2
Ag(x) = e g” + x g ′ .
2

1. Écrire un algorithme de simulation de la diffusion (Xt , t ≥ 0) ayant A comme générateur


infinitésimal.
2. Écrire un algorithme de simulation du calcul approché de la fonction g : [0, 1] → R
solution du problème de Dirichlet :

Ag(x) − cos(x) g(x) = sin(x) , ∀x ∈] − 1, +1[ ,
g(−1) = g(1) = 1 .

3. Écrire un algorithme de simulation du calcul approché de la solution u : [0, +∞[×R → R


du problème de Cauchy :  ∂u
∂t
(t, x) = Au(t, x) ,
u(0, x) = cos(x) .

4. Écrire un algorithme de simulation du calcul approché de la solution v : [0, 1] × R → R


du problème de Cauchy :
 ∂v
− ∂t (t, x) = e−t Av(t, x) + sin(t + x) ,
v(1, x) = cos(x) .

Exercice 4.3 Soit A l’opérateur différentiel défini sur les fonctions de classe C 2 (R2 ) pour x =
(x1 , x2 ) par :

∂2f ∂2f
Af (x) = (1 + cos2 x1 ) (x) + 2 sin(x1 + x 2 ) (x)
∂x21 ∂x1 ∂x2
∂2f ∂f ∂f
+(1 + cos2 x2 ) 2 (x) + x1 (x) + x2 (x) .
∂x2 ∂x1 ∂x2

1. Montrer que A est uniformément elliptique sur R2 .


2. Soit D le disque unité ouvert de R2 . Écrire un algorithme de calcul approché de la solution
du problème de Dirichlet :
 2
Ag(x) − (x1 + x2 )2 g(x) = e−(x1 +x2 ) , ∀x ∈ D ,
g(x) = 1 , ∀x ∈ ∂D .

80
3. Écrire un algorithme de simulation du calcul approché de la solution du problème de
Cauchy :  ∂u
∂t
(t, x) = A u(t, x) , ∀(t, x) ∈ [0, T ] × R2 ,
2
u(0, x) = e−(x1 +x2 ) , ∀x ∈ R2 .
4. On note At l’opérateur différentiel défini par

At f = et Af .

(a) Modifier les algorithmes précédents pour résoudre le problème de Cauchy :


 ∂u
∂t
(t, x) = At u(t, x) , ∀(t, x) ∈]0, T ] × R2 ,
u(0, x) = cos((x1 x2 ) , ∀x ∈ R2 .

(b) Écrire un algorithme de simulation du calcul approché de la solution du problème


de Cauchy :
 ∂v
∂t
(t, x) = At v(t, x) + cos(t x1 x2 ) u(t, x) + sin(t x1 x2 ) , ∀(t, x) ∈ [0, T [×R2 ,
v(T, x) = 1 , ∀x ∈ R2 .

81
5 Méthode de Monte Carlo
5.1 Introduction
Le but de cette section est de justifier la méthode, d’indiquer la précision qu’elle fournit et les
intervalles de confiance que l’on peut obtenir pour les valeurs numériques des intégrales que l’on
souhaite évaluer. Cette méthode qui converge « lentement » a comme intérêt d’être « insensible
à la dimension » des problèmes étudiés (contrairement à des méthodes classiques d’analyse
numérique qui ne sont performantes qu’en R« petite dimension » ) et à la régularité de la fonction
g dont on cherche à calculer l’intégrale [0,1]d g(x1 , · · · , xd ) dx1 · · · dxd = E[g(U1 , · · · , Ud )]
lorsque les variables aléatoires (Ui , 1 ≤ i ≤ d) sont i.i.d. de loi uniforme U([0, 1]).
La justification théorique de la méthode est la loi forte des grands nombres qui permet de
ne faire appel qu’à une réalisation d’un échantillon, c’est à dire à la suite Xn (ω) pour un seul
ω.

Théorème 5.1 Soit (Xn = (Xnk , 1 ≤ k ≤ d), n ≥ 1) une suite de variables aléatoires à valeurs
Xd
d
dans R indépendantes de même loi (i.i.d.) intégrables, c’est à dire telles que E|X1k |) < +∞
k=1
et X̄n = n1 ni=1 Xi . Alors pour presque tout ω ∈ Ω :
P

lim X̄n (ω) = E(X1 )


n→+∞

L’hypothèse d’intégrabilité est essentielle, comme le montre l’exemple classique suivant :


soit (Xn , n ≥ 1) une suite de variables aléatoires i.i.d. de loi de Cauchy,
 c’est à dire
 de densité
1
π (1+x2 )
. Alors E(|X1 |) = +∞ et la fonction caractéristique de X1 est E exp(itX1 ) = exp(−|t|).
On en déduit immédiatement que la fonction caractéristique de X̄n est également exp(−|t|), et
que X̄n suit donc une loi de Cauchy pour tout n ≥ 1 et ne converge pas presque sûrement vers
une constante.
La vitesse de convergence est bien sûr un problème crucial pour maı̂triser l’erreur commise
en approximant la valeur souhaitée E(X) par X̄n (ω) que l’on peut simuler. L’inégalité de
Bienaymé-Chebychev donne une première estimation très grossière de cette erreur :

Lemme 5.2 Soit (Xn , n ≥ 1) une suite de variables aléatoires réelles i.i.d. de carré intégrable,
c’est à dire telle que E(|X1 |2 ) < +∞. Alors si Var(X1 ) = E(|X1 |2 ) − E(X1 )2 , pour tout λ > 0 :
 Var(X1 )
P X̄n − E(X1 ) ≥ λ ≤ . (5.1)
n λ2
Cette inégalité donne de très mauvaises estimations de la probabilité que la moyenne empi-
rique soit « loin » de l’espérance et peut être nettement améliorée par un résultat très simple
de grandes déviations sous des hypothèses renforcées d’intégrabilité. Ainsi, lorsque les Xn ont
des moments exponentiels, le théorème suivant de Chernov montre que la probabilité que X̄n
appartienne à un intervalle qui ne contient pas E(X1 ) converge vers 0 à une vitesse  exponen-
tielle. Soit X une variable aléatoire réelle ; pour tout t ∈ R, on note ΦX (t) = ln E et X la


log-Laplace de X et DX = {t ∈ R : ΦX (t) < +∞} le domaine de ΦX . L’inégalité de Hölder


montre que ΦX est convexe et le théorème de dérivation sous l’intégrale de Lebesgue montre
E X etX
que Φ est dérivable sur l’intérieur de DX avec Φ′X (t) =  .
E etX

82
Théorème 5.3 Soit X une variable aléatoire réelle telles que 0 appartient à l’intérieur de DX ;
on note
ΨX (x) = sup{tx − ΦX (t) : t ∈ R} = sup{tx − ΦX (t) : t ∈ DX }
la transformée de Cramer de X. Soit (Xn , , n ≥ 1) une suite de variables aléatoires réelles
i.i.d. de même loi que X ; alors pour tout a < E(X) < b :
P X̄n ≥ b ≤ e−n ΨX (b) et P X̄n ≤ a ≤ e−n ΨX (a) .
 
(5.2)
Démonstration : Soit b > E(X) ; pour tout t > 0 et n ≥ 1,
P (X̄n ≥ b) ≤ E e−nbt+tSn = e−nbt+nΦX (t) .


On en déduit que 
P (X̄n ≥ b) ≤ exp − n sup{bt − ΦX (t) : t > 0}
Pour prouver l’inégalité (5.2) lorsque b > E(X), il suffit donc de montrer que sup{bt − ΦX (t) :
t > 0} = ΨX (b) dès que b > E(X). Notons g la fonction définie par g(t) = b t − ΦX (t) pour tout
t ∈ DX . Clairement, g est concave et g(0) = 0. De plus, puisque 0 appartient à l’intérieur de
DX , g ′ (0) = b − E(X) > 0. On en déduit que sup{bt − ΦX (t) : t > 0} = sup{bt − ΦX (t) : t ∈
DX } = ΨX (b). Le raisonnement, similaire pour l’intervalle ] − ∞, a[ avec a < E(X) est laissé
comme exercice. 2
Pour obtenir des intervalles de confiance de E(X1 ), on utilise le théorème de la limite centrale
suivant.
Théorème 5.4 Soit (Xn , n ≥ 1) une suite de variables √
aléatoires réelles i.i.d. de carré in-
n
2

tégrable, m = E(X1 ) et σ = Var(X1 ). Alors la suite σ X̄n − m converge en loi vers une
variable N de loi gaussienne centrée réduite N (0, 1).
On en déduit immédiatement le corollaire suivant :
Corollaire 5.5 Soit (Xn , n ≥ 1) une suite de variables aléatoires réelles i.i.d. de carré inté-
grable d’espérance m et de variance σ 2 . Alors pour toute fonction f : R → R continue bornée
(resp. continue sauf en un nombre fini de points), si N désigne une variable aléatoire gaussienne
N (0, 1) :
 √  Z +∞
n 1 x2
f (x) √ e− 2 dx .

lim E f X̄n − m = E(f (N)) =
n→+∞ σ −∞ 2π
De plus pour tout couple de nombre réels a < b, on a
  Z b
σ σ 1 x2
lim P √ a ≤ X̄n − m ≤ √ b = √ e− 2 dx .
n→+∞ n n a 2π
Une table de fonction de répartition d’une loi gaussienne centrée réduite montre que si N est
N (0, 1), P (|N| ≤ 1.96) = 0.95. On en déduit que pour n assez grand,
 
σ
P |X̄n − E(X1 )| ≤ 1.96 √ ∼ 0.95 ,
n
c’est à dire que l’on a un intervalle de confiance de E(X1 ) à 95% en posant
 
σ σ
X̄n − 1.96 √ , X̄n + 1.96 √ . (5.3)
n n
L’ordre de grandeur de l’erreur commise étant 1.96 √σn , il faut impérativement estimer l’écart
type σ s’il est inconnu. C’est le but du résultat suivant :

83
Théorème 5.6 Soit (Xi , 1 ≤ i ≤ n) un échantillon de taille n d’une variable aléatoire X de
carré intégrable (c’est à dire n variables aléatoires indépendantes de même loi que X). Notons
X̄n la moyenne empirique de cet échantillon ; la variance empirique de l’échantillon est
n n
!
1 X 2 n 1 X
σ̄n2 = Xi2 − X̄n2 .

Xi − X̄n = (5.4)
n − 1 i=1 n − 1 n i=1

Alors σ̄n2 est un estimateur sans biais consistant de σ 2 , c’est à dire que E σ̄n2 = σ 2 et que la


suite σ̄n2 converge presque sûrement vers σ 2 quand n → +∞.

théorème précédent montre que σ̄n2 est très facilement calculé à partir des sommes ni=1 Xi
P
Le P
et ni=1 Xi2 . De plus, en remplaçant σ par σ̄n , on obtient un intervalle de confiance de E(X1 )
avec une probabilité proche de 0.95 (quand n est grand) :
 
σ̄n σ̄n
X̄n − 1.96 √ , X̄n + 1.96 √ . (5.5)
n n

Signalons enfin que le Théorème de la Limite Centrale peut parfois être amélioré (par
exemple en imposant un peu plus d’intégrabilité). Le théorème suivant donne la vitesse de
convergence des fonctions de répartition vers celle de la loi N (0, 1).

Théorème 5.7 (Berry-Essen) Soit (Xn , n ≥ 1) une suite de variables aléatoires réelles i.i.d.
centrées (c’est à dire que E(X1 ) = 0) et telles que E(|X1 |3 ) < +∞. Notons σ 2 la variance de
X1 et pour tout t ∈ R notons Z t
1 x2
F (t) = √ e− 2 dx
−∞ 2π
la fonction de répartition d’une loi gaussienne N (0, 1). Pour tout entier n ≥ 1 et t ∈ R, notons
Pn 
i=1 Xi
Fn (t) = P √ ≤t .
σ n

Alors il existe une constante C ∈ [0.398 , 0.8] telle que

E(|X1 |3 )
sup |Fn (t) − F (t)| ≤ C √ .
t∈R σ3 n

Les deux exemples suivants montrent les limites pratiques de la méthode.


• On cherche tout d’abord à estimer la probabilité qu’une variable aléatoire appartienne
à un ensemble. Cela revient à estimer le paramètre p d’une loi de Bernoulli X pour laquelle
E(X) = p et Var(X) = p (1 − p) < 14 . Afin que l’erreur √σn soit inférieure à 0.01, il faut donc
choisir n de l’ordre de 2500 et l’intervalle de confiance de p donné par le théorème de la limite
centrale est donc [x̄n − 1.96 × 10−2 , x̄n − 1.96 × 10−2 ], ce qui est convenable dans certaines
situations. Dans d’autres cas (par exemple dans le cas de second tour d’élections présidentielles
assez « serrées » ), si on interroge n = 2 500 personnes et que 1 250 déclarent vouloir voter pour
chacun des deux candidats, on obtient une erreur beaucoup trop grande, avec un intervalle de
confiance [0.48 , 0.52] de la proportion p des électeurs qui voteront√ pour l’un des candidats.

Enfin si p est très proche de 0 (ou de 1), comme σ ∼ p (resp. ∼ 1 − p), l’erreur relative est
de l’ordre de √2pn et pour estimer p il faut prendre n très grand.

84
• Dans le second exemple, on cherche à estimer un moment  exponentiel d’une variable
a2
aléatoire G gaussienne N (0, 1), par exemple ǫ = E exp(a G) = exp( 2 ). Si (Gn , n ≥ 1)
désigne une suite i.i.d. N (0, 1) et si on note ǫn = exp(a G1 )+···+exp(a
n
Gn )
alors d’après le théorème
σ
de la limite centrale, ǫn −ǫ ∼ n N où N suit une loi N (0, 1). La variance de la variable aléatoire

q
2
exp(a G) est σ 2 = exp(2 a2 ) − exp(a2 ) et l’erreur relative est de l’ordre de ǫ √σ n = exp(an )−1 .
Ainsi pour a = 1, une erreur relative de 4% nécessite 1 074 tirages, tandis que pour a = 5, une
erreur relative de 100% nécessite 7.2 × 1010 tirages. Dans ce dernier cas, pour une valeur exacte
de 268 337, si la valeur estimée par 1010 tirages est 854 267 et l’intervalle de confiance à 95%
est [−557 029 , 2 265 563].
Ce dernier exemple est relié à deux quantités
Rt importantes en finance. Pour une variable
2
aléatoire G gaussienne N (0, 1), F (t) = −∞ √2 π exp(− x2 ) dx, et des constantes β > 0 (de
1

l’ordre de 1) et K > 0, le call (prix d’une option d’achat) est donné par la formule de Black et
Sholes :    
βG +
 β2 ln(K) ln(K)
C = E (e − K) = e 2 F β − −KF − ;
β β

Pour β = K = 1, on a la valeur « exacte » C = 0.887. De plus, Var (eG − 1)+ ∼ 4.16, d’où
σC ∼ 2.04.
Le put (prix d’une option de vente) est
   
βG +
 ln(K) β2 ln(K)
P = E (K − e ) = K F −e 2 F −β .
β β
De nouveau pour β = K = 1, on a la valeur « exacte » P = 0, 238, tandis que Var (1 − eG )+ ∼


0.0885, d’où σP ∼ 0.297. Ceci entraı̂ne que, suivant la taille de l’échantillon, la demi-longueur
de l’intervalle de confiance à 95 % de C ou de P est
σC σP
n 1.96 × √ n
1.96 × √ n
102 0.400 5.8×10−2
103 0.126 1.8×10−2
104 0.040 6×10−3
L’intervalle de confiance du call est donc environ 7 fois plus grand que celui du put et l’ap-
proximation du put est donc bien meilleure. Puisque
β2
C − P = E eβ G − K = e 2 − K ,


on a donc intérêt à calculer le put P par la méthode de Monte-Carlo pour en déduire le call C.

5.2 Réduction de la variance.


Les méthodes proposées seront systématiquement étudiées sur le put (ou le call) précédent.

5.2.1 Échantillonnage préférentiel


Soit X une R variable aléatoire (par exemple réelle) de densité f ; on cherche à calculer
E(g(X)) = R g(x) f (x) dx. Soit f˜ une autre densité sur R et soit Y une variable aléatoire
de densité f˜. Alors
 
g(x) f (x) ˜ g(Y ) f (Y )
Z

E g(X) = f (x) dx = E .
R
˜
f(x) f˜(Y )

85
g(Y ) f (Y )
le calcul de E(g(X)) par l’approximation n1 ni=1 g(Yf˜i(Y
) f (Yi )
P
Si on note Z = f˜(Y )
, pour une
i)

suite (Yi) i.i.d. de densité f˜ sera plus efficace que par l’approximation n1 ni=1 g(Xi) pour une
P
suite (Xi ) i.i.d. de densité f si Var(Z) << Var(g(X)).

Donnons deux exemples d’utilisation de cette méthode.


R1
Exemple 1. On cherche tout d’abord à calculer 0 cos( π2x ) dx, ce qui correspond à la fonction
g(x) = cos( π2x ) et à la densité f d’une variable aléatoire U de loi uniforme U([0, 1]). La variance
de g(U) est
1 π x Z 1 π x 2  2
1 2
Z
2
Var(g(U)) = cos dx − cos dx = − ∼ 9.47 × 10−2 .
0 2 0 2 2 π

On remplace la loi de U([0, 1]) par une fonction f˜ telle que le produit f g soit proche de f˜.
Puisque f est constante et que l’on sait simuler une variable aléatoire de densité polynomiale,
on prend pour densité f˜ une fonction polynôme paire de degré deux, positive sur [0, 1] et qui
R1
vaut 1 en 0 et 0 en 1 ; comme 0 (1 − x2 ) dx = 32 on pose f˜(x) = 23 (1 − x2 ) 1[0,1] (x). Si Y a pour
2 cos( πY )
densité f˜, la variable aléatoire Z = 2
2 a pour espérance E(g(X)) = 2 et :
3 (1−Y ) π

 2
2 1
cos2 ( π2x ) 2
Z
Var(Z) = dx − ∼ 1.0242 × 10−3 ;
3 0 1 − x2 π

on voit que la variance est environ divisée par 100 et que la longueur des intervalles de confiance
est donc environ divisée par 10. La fonction
Rt  de répartition Y est définie pour t ∈ [0, 1] par
3 2 3 t3
P (Y ≤ t) = 2 0 (1 − x ) dx = 2 t − 3 . L’inverse de la fonction de répartition peut être
explicitée par la méthode de Cardan. On peut également simuler la variable Y par la méthode
du rejet par rapport à la densité de la loi uniforme U. On gagne ici en précision, mais on perd
en temps de calcul.
Exemple 2. Cas des call et des put avec K = 1. Pour β de signe quelconque, on cherche à
calculer le put
2
− x2
βx + e
Z
βG +

P = E (1 − e ) = (1 − e ) √ dx .
R 2π
Clairement, 1 − eβx ≥ 0 si et seulement si x < 0 pour β > 0 (resp. x > 0 si β < 0) et le
changement de variable y = x2 montre que pour tout β 6= 0 :
Z +∞ √ √
(1 − eβ y )+ + (1 − e−β y )+ 1 − y
P = √ e 2 dy .
0 2πy 2
y
La fonction f˜(y) = 12 e− 2 1]0,+∞[(y) est la densité d’une variable aléatoire Y de loi exponentielle
de paramètre 12 et on a alors :
√ √ !
(1 − eβ Y )+ + (1 − e−β Y )+
P =E √ .
2πY

Le tableau des précisions que l’on obtient pour le put avec β = 1 et la valeur exacte 0.23842
est :

86
n 1.96 √σn
102 1.05 × 10−2
103 4 × 10−3
104 10−3
On voit que pour 10 000 tirages, l’erreur relative est environ divisée par 6.

On peut aussi directement calculer le call C = E (eβG  − K) +
 en utilisant la fonction
˜ (x−m)2
d’importance. On fixe m ∈ R et on pose f (x) = √ exp −1

; f˜ est la densité d’une
2
variable aléatoire Y = G + m de loi N (m, 1). Un calcul facile montre que si G suit une loi
N (0, 1), pour toute fonction borélienne φ : R → R positive ou bornée,
m2 m2
h i h i
E [φ(G)] = E φ(G + m) e−m G− 2 = E φ(G + m) e−m (G+m)+ 2 .

Il faut donc pour chaque fonction φ déterminer une valeur de m telle que la variance de Xm =
m2
φ(G+m) e−m (G+m)+ 2 soit minimale, en tout cas inférieure à celle de φ(G). Posons par exemple
φ(x) = (exp(β x) − K)+ avec β, K > 0 et notons σm 2
la variance de Xm dans ce cas ; alors :
2
 +2 −2 m (G+m)+m2   + 2
σm = E eβ (G+m) − K e − E eβG − K
y2
+∞
e− 2
Z
βy
2 −my+ m2
2  + 2
= e −K e √ dy − E eβG − K .
ln(K)
β

On en déduit que
+∞
∂ 1
Z 2
2 m2
2 − y2
(σm )= √ eβy − K (m − y) e−my+ 2 dy ;
∂m 2π ln(K)
β

donc pour m ≤ m0 = ln(K) β



, ∂m 2
(σm ) ≤ 0. On prend donc comme fonction f˜ la densité de G + m0
et lorsque K >> 1, ceci améliore nettement la méthode de Monte-Carlo.
Une généralisation au cas de vecteurs gaussiens est proposée dans l’exercice 5.1.

5.2.2 Variables de contrôle


L’idée de la méthode consiste à trouver une variable aléatoire Y et une constante C telles
que E(X) = E(Y )+C avec Var(Y ) < Var(X). Il faut cependant prendre garde au fait que cette
méthode risque de provoquer une augmentation du temps de calcul et arbitrer entre précision
et temps d’exécution. On cherche donc à écrire E(f (X)) sous la forme :
  
E f (X) = E f (X) − h(X) + E h(X)
 
dans le cas où E h(X) peut être calculé explicitement
 et Var f (X) − h(X) est inférieure à
Var f (X) . On calcule alors E f (X) − h(X) par la méthode de Monte Carlo. Si par exemple
R1
on cherche à calculer 0 ex dx, comme ex ∼ 1 + x près de 0, on écrit
Z 1 Z 1
x 3
e dx = (ex − 1 − x) dx + .
0 0 2
Si U suit une loi U([0, 1]), la variance de eU vaut 12 (e2 − 1) − (e − 1)2 ∼ 0.242 tandis que la
variance de eU − 1 − U vaut 12 e2 − 2 e + 11 6
− (e − 25 )2 ∼ 0.0436 ; elle donc divisée par 5 environ.
Comme nous l’avons remarqué à la fin de la section 5.1, si on cherche à calculer le call C,
β2
il est préférable de calculer le put P et d’écrire C = P + e 2 − K.

87
5.2.3 Variables antithétiques.
Pour dégager
R 1 l’idée de la méthode, commençons par l’exemple simple suivant : on cherche
à calculer I = 0 f (x) dx. Si U est une variable aléatoire de loi uniforme U([0, 1]), 1 − U suit
également une loi uniforme U([0, 1]), et on a donc
Z 1  
1 
f (x) dx = E f (U) + f (1 − U) .
0 2

On en déduit que si les variables aléatoires (Ui , i ≥ 1) sont i.i.d. de loi U([0, 1]), on peut
approximer l’intégrale I par
1
I˜2n = [f (U1 ) + f (1 − U1 ) + · · · + f (Un ) + f (1 − Un )] .
2n
La méthode de Monte Carlo usuelle ferait approximer I par
1
I2n = [f (U1 ) + f (U2 ) + · · · f (U2n−1 ) + f (U2n )] .
2n
1
De façon évidente, Var(I2n ) = 2n Var(f (U1 )). D’autre part
 
1 1
Var(I˜2n ) =
 
Var f (U1 ) + f (1 − U1 )
n 2
1h   i
= Var f (U1 ) + Var f (1 − U1 ) + 2Cov f (U1 ), f (1 − U1 )
4n
1h  i
= Var f (U1 ) + Cov f (U1 ), f (1 − U1 )
2n
On en déduit que si les variables aléatoires f (U1 ) et f (1 − U1 ) sont négativement corrélées,
c’est à dire si Cov f (U1 ), f (1 − U1 ) ≤ 0, Var(I˜2n ) ≤ Var(I2n ). La méthode se généralise en


dimension d quelconque. Si les composantes du vecteur U = (U1 , · · · , Ud ) sont des variables


aléatoires i.i.d. de loi U([0, 1]), la transformation (U1 , · · · , Ud ) → (1 − U1 , · · · , 1 − Ud ) laisse
la loi du vecteur U invariante. Plus généralement, soit (X1 , · · · , X2n ) un 2n-échantillon de la
variable aléatoire X à valeurs dans Rd telle qu’il existe une transformation T : Rd → Rd pour
laquelle les lois de X et de T (X) sont les mêmes. L’estimateur
n
1 X
I˜2n =

f (Xj ) + f (T (Xj ))
2n j=1

est tel que si Cov f (X), f (T (X)) ≤ 0, alors la variance de I˜2n est inférieure ou égale à celle

1
P2n
de I2n = 2n j=1 f (Xj ).
La proposition suivante montre que sous des conditions de monotonie de f , les variables
aléatoires f (X) et f (T (X)) sont négativement corrélées.

Proposition 5.8 Soit (X1 , · · · , Xn ) des variables aléatoires i.i.d. de même loi à valeurs dans
R f, g : Rn → R des fonctions telles que pour chaque i ∈ {1, · · · , n} les fonctions xi →
f (x1 , · · · , xi−1 , xi , xi+1 , · · · , xn ) et xi → g(x1 , · · · , xi−1 , xi , xi+1 , · · · , xn ) soient toutes crois-
santes (resp. décroissantes) pour tout x̂i = (x1 , · · · , xi−1 , xi+1 , · · · , xn ). Alors
     
E f (X1 , · · · , Xn ) g(X1, · · · , Xn ) ≥ E f (X1 , · · · , Xn ) E g(X1 , · · · , Xn ) . (5.6)

88
Démonstration : Soit n = 1. Nous supposerons que les fonctions f et g sont croissantes par
rapport à chaque argument ; le raisonnement est similaire dans le cas où elles sont décroissantes.
Soit X et Y des variables aléatoires réelles ; la croissance de f et g entraı̂ne que
 
E (f (X) − f (Y )) (g(X) − g(Y )) ≥ 0 .

On en déduit que
       
E f (X) g(X) + E f (Y ) g(Y ) ≥ E f (X) g(Y ) + E f (Y ) g(X) ;

en choisissant une variable aléatoire Y indépendante de X et de même loi, on en déduit que


     
E f (X) g(X) ≥ E f (X) E g(X) .

Supposons l’inégalité (5.6) vraie pour n − 1 ≥ 1 et montrons-la pour n. L’indépendance des


variables aléatoires Xi , 1 ≤ i ≤ n entraı̂ne que pour toute fonction h : Rn → R,
   
E h(X1 , · · · , Xn ) | Xn = H(Xn ) avec H(x) = E h(X1 , · · · , Xn−1 , x) .
   
Notons E f (X1 , · · · , Xn ) | Xn = φ(Xn ) et E g(X1 , · · · , Xn ) | Xn = ψ(Xn ). L’hypothèse de
récurrence entraı̂ne que pour tout x,
 
E f (X1 , · · · , Xn−1 , x) g(X1 , · · · , Xn−1 , x) ≥ φ(x) ψ(x) .
 
On en déduit que E f (X1 , · · · , Xn ) g(X1, · · · , Xn ) | Xn = x ≥ φ(x) ψ(x), d’où :
   
E f (X1 , · · · , Xn ) g(X1, · · · , Xn ) ≥ E φ(Xn ) ψ(Xn ) .

Puisque les fonctions f ((X1 (ω), · · · , Xn−1 (ω), .) et g(X1 (ω), · · · , Xn−1 (ω), .) ont la même mo-
notonie par rapport à la n-ième variable pour tout (X1 (ω), · · · , Xn−1 (ω)), les fonctions φ et ψ
ont la même monotonie et on conclut grâce à (5.6) appliqué avec n = 1. 2
En appliquant cette proposition avec n = 1 et g = −f ◦ T , on déduit immédiatement le
corollaire suivant :

Corollaire 5.9 Soit f : R → R une fonction monotone, T : R → R une fonction décroissante


et X une variable aléatoire réelle telle que les variables aléatoires T (X) et X ont même loi.
Soit (Xn , n ≥ 1) une suite de variables aléatoires i.i.d. de même loi que X. Alors pour tout
n≥1: ! !
n 2n
1 Xh i 1 X
Var f (Xi) + f (T (Xi )) ≤ Var f (Xi ) .
2n i=1 2n i=1

Ce corollaire montre que si f est monotone, en choisissant 1 − U quand U suit une loi uni-
forme U([0, 1]), les variables aléatoires f (U) et f (1 − U) sont négativement corrélées. L’exemple
+ 
suivant reprend l’étude du put P = E K − eβG

. La transformation T (x) = −x est
décroissante et laisse invariante la loi de la gaussienne N (0, 1) et lafonction f (x) = (K − eβx )+
est décroissante si β > 0 et croissante si β < 0. On en déduit que 12 (K − eβG )+ + (K − e−βG )+
a une variance inférieure à celle de (K − eβG )+ .

89
5.2.4 Méthode de stratification

Cette méthode est classique dans la théorie des sondages. On veut calculer I = E g(X) =
d
R
Rd
g(x) f (x) dx où X est une variable aléatoire à valeurs dans R de densité f . On introduit
une partition de (Ai , 1 ≤ i ≤ m) de Rd et on pose pi = P (X ∈ Ai ) et Ii = E g(X) | X ∈ Ai


pour 1 ≤ i ≤ m ; alors
m
X m
X

I= E g(X) | X ∈ Ai P (X ∈ Ai ) = pi Ii .
i=1 i=1

On approxime Ii par la moyenne empirique Iˆi d’un échantillon


 de taille ni de la loi conditionnelle
2
de X sachant X ∈ Ai et on note σi = Var g(X) | X ∈ Ai . L’estimateur considéré de I est
m
X
Iˆ = pi Iˆi
i=1

est sans biais et convergent si chaque ni tend vers +∞ quand n → +∞. Si les estimateurs
Iˆi , 1 ≤ i ≤ m sont indépendants, la variance de Iˆ est
m
ˆ =
X p2 σ 2i i
Var(I) .
i=1
ni
Pm ˆ sous la contrainte
Si on dispose au total de n = i=1 ni simulations, le minimum de Var(I)
P m
i=1 ni = n est réalisé lorsque ni = c σi pi , soit pour

pi σi
ni = n Pd , 1≤i≤m
j=1 p j σj

et vaut !2
m
ˆ = 1
X
Var(I) pi σi .
n i=1

Pour la comparer à la variance de la moyenne empirique des g(Xi) pour un échantillon de taille
n, calculons la variance de g(X) ;
m m
!2
2
X X
Var(g(X)) = E g(X)2 −E g(X) = pi E g(X)2 | X ∈ Ai −
   
pi E g(X) | X ∈ Ai .
i=1 i=1

En introduisant les variances conditionnelles et en utilisant deux fois la convexité de la fonction


x → x2 et le fait que m
P
i=1 i = 1 (c’est à dire l’inégalité de Schwarz pour la probabilité pi ),
p
nous déduisons que
m m m
!2
2
X X X
pi σi2 +
 
Var(g(X)) = pi E g(X) | X ∈ Ai − pi E g(X) | X ∈ Ai
i=1 i=1 i=1
m m
!2
X X
≥ pi σi2 ≥ pi σi .
i=1 i=1

On en déduit que la variance de Iˆn est inférieure ou égale à celle de n1 nj=1 g(Xj ). Cependant,
P

le choix optimal de ni demande de connaı̂tre les variances conditionnelles σi2 , ce qui n’est pas

90
toujours le cas ; on peut alors les estimer par une méthode de Monte Carlo. Il faut prendre garde
au fait qu’un « mauvais » choix des ni peut augmenter la variance. Remarquons cependant que
le choix ni = n pi , s’il n’est pas optimal, diminue toujours la variance. En effet dans ce cas
m n
!
ˆ = 1 X 1 1 X
pi σi2 ≤ Var g(X) = Var

Var(I) g(Xj ) .
n i=1 n n j=1
+ 
Dans l’exemple du calcul d’un call C = E eβG − K , en posant d = ln(K)
β
, il est naturel
d’introduire A1 =]−∞, d[ et A2 = [d, +∞[. Dans ce cas σ1 = 0 et les n points sont donc affectés
pour le calcul de Iˆ2 .
D’un point de vue pratique, il est important de savoir simuler dans les diverses zones Ai sans
faire appel à la méthode du rejet, mais plutôt par inverse de la fonction de répartition (c’est
possible dans le cas du call en se référant à une fonction de répartition tabulée en dimension 1,
mais dans ce cas les simulations sont inutiles ...). Le choix de la partition est délicat, sauf dans
des cas concrets où elle est imposée par le modèle (géographie, sexe, ...).

5.2.5 Valeur moyenne ou conditionnement


L’idée consiste à conditionner X par une variable aléatoire Y , ce qui laisse l’espérance
inchangée mais diminue la variance puisque l’espérance conditionnelle contracte la norme L2 .
Ainsi  
E(X) = E E(X | Y ) et Var E(X | Y ) ≤ Var(X) .
La difficulté réside bien sûr dans l’expression explicite de la fonction φ(y) = E(X | Y = y)
telle que E(X | Y ) = φ(Y ). Dans le cas particulier où X = f (Y, Z) avec Y, Z indépendantes :
 
E f (Y, Z) | Y = y = E f (y, Z) .
Par exemple, si l’on veut calculer P (X ≤ Y ) pour deux variables aléatoires X et Y indépen-
dantes, on a 
P (X ≤ Y ) = E F (Y )
où F est la fonction de répartition de X ; il faut alors pouvoir calculer F explicitement, mais
la réduction de variance peut être importante quand la probabilité P (X ≤ Y ) est petite.

5.3 Exercices
Exercice 5.1 Notons h. , .i le produit scalaire et | . | la norme euclidienne dans Rd . Soit X =
(X1 , · · · , Xd ) un vecteur gaussien centré de matrice de covariance la matrice Id. Pour tout
d d
vecteur m ∈ R  borélienne φ : R → R positive ou bornée, soit Xm =
 et toute fonction
2
φ(X + m) exp −hm , Xi − |m| 2
2
, et σm la variance de Xm .
1. Monter que pour tout i = 1, · · · , d,
 
∂ 2 2 −hm , Xi+ |m|
2
(σ ) = E φ (X) e 2 (mi − Xi ) .
∂mi m
2. Soit λi , βi , 1 ≤ i ≤ d et K des constantes strictement positives, mi (a) = a λi βi et
 +
φ(X) = K − di=1 λi eβi Xi . Montrer que si di=1 λi > K,
P P

Pd
∂ 2 K− i=1 λi
σ ≥ 0 pour ≤a≤0
∂a m(a)
Pd
i=1 (λi βi )2

91
Pd
K− i=1 λi 2
et en déduire que pour Mi = βi λi Pd 2
, on a σM ≤ σ02 .
i=1 i βi )

Exercice 5.2 Soit (Xn , n ≥ 1) et (Yn , n ≥ 1) des suites indépendantes de variables aléatoires
i.i.d. de même loi que lavariable aléatoire X à valeurs dans Rd , f, g : Rd → R. On cherche à
calculer E f (X) − g(X) et on pose
n n
1X 1X
Iˆn1 = [f (Xi) − g(Yi)] et Iˆn2 = [f (Xi ) − g(Xi )] .
n i=1 n i=1

Calculer les variances de Iˆn1 et Iˆn2 . Dans quel cas vaut-il mieux utiliser Iˆn2 ?

Exercice 5.3 Soit X une variable aléatoire gaussienne N (m, σ 2 ), F la fonction de répartition
d’une variable N (0, 1), K > 0 et d = m−ln(K)
σ
.
1. Montrer que
σ2
E 1{X≥ln(K)} eX = em+ 2 F (d + σ) .


2. Montrer la formule de Black et Sholes :


σ2
h + i
E eX − K = em+ 2 F (d + σ) − K F (d) .

Exercice 5.4 Soit X et Y des variables aléatoires réelles indépendantes, F la fonction de


répartition de X et G la fonction de répartition de Y . On veut calculer

p = P (X + Y ≤ t)

par la méthode de Monte Carlo.


1. Donner une procédure de réduction de variance basée sur la méthode de conditionnement.
2. On suppose que F et G sont connues, au moins numériquement. Expliquer comment
implémenter une méthode de variables antithétiques et pourquoi elle diminue la variance
dans ce cas.
R1
3. Soit h une fonction telle que 0 |h(x)|2 dx < +∞. Soit (Un , n ≥ 1) une suite de variables
aléatoires i.i.d. de loi uniforme U([0, 1]). Montrer que
n  ! n
!
1X i − 1 + Ui 1X
Var h ≤ Var h(Ui ) .
n i=1 n n i=1
R2
Exercice 5.5 On cherche à calculer l’intégrale I = 0 x2 dx par diverses méthodes. Implémenter
les méthodes proposées pour diverses tailles d’échantillon, calculer la valeur approchée corres-
pondante de I (vérifier qu’elle converge bien vers 83 ), la variance empirique dans chaque cas
(vérifier qu’elle converge bien vers la variance théorique que l’on calculera dans chaque cas),
donner un intervalle de confiance correspondant et, pour chaque méthode, déterminer le temps
de calcul et le nombre moyen de tirages d’une loi uniforme consommés suivant la taille de
l’échantillon utilisé. En déduire la méthode qui vous semble la plus efficace.
1. Méthode de rejet sur l’ensemble R = [0, 2]×[0, 4] ; la variance théorique est 82 31 23 ∼ 14, 22.
 
2. Méthode de rejet sur l’ensemble A = [0, 1] × [0, 1] ∪ [1, 2] × [0, 4] ; la variance théorique
8 7
est 52 15 15
∼ 6, 22.

92
3. Espérance d’une fonction de la variable aléatoire X de densité 12 1[0,2] (x) ; la variance
théorique est 256
45
∼ 5, 69.
4. Espérance d’une fonction de la variable aléatoire X de densité x2 1[0,2] (x) ; la variance
théorique est 98 ∼ 0.89.
5. Variables antithétiques avec la variable aléatoire de loi uniforme sur [0, 2] et la transfor-
16
mation T (x) = 2 − x ; la variance théorique est 45 ∼ 0, 36.
Exercice 5.6 Soit X une variable  aléatoire gaussienne N (0, 1) et t > 0. On cherche à estimer
l’intégrale I(t) = E etX 1{X>0} par une méthode de Monte Carlo en utilisant un échantillon
de taille N de loi N (0, 1).
1. Écrire et implémenter un programme pour le calcul direct de I(t) pour les valeurs de
n
t = 100 pour un entier n compris entre 0 et 150.
2. En reliant I(t) et P (X ∈ [t, t+1]), écrire et implémenter un second programme permettant
de calculer I(t) par une méthode de Monte Carlo pour les mêmes valeurs de t.
3. Proposer une méthode de variable de contrôle. Écrire et implémenter un programme
permettant de calculer I(t) pour les mêmes valeurs de t par cette méthode.
4. Proposer une méthode de variables antithétiques. Écrire et implémenter un programme
permettant de calculer I(t) pour les mêmes valeurs de t par cette méthode.
5. Tracer des graphiques permettant de visualiser l’écart-type empirique de chaque méthode
pour ces valeurs de t puis tracer dans une même fenêtre les graphes de ces quatre fonctions
lorsque N = 10 000.
Les figures suivantes donnent dans l’ordre la figure traçant les quatre graphes simultanément,
puis séparément de gauche à droite (et de haut en bas) les graphes des écarts-types des méthodes
proposées dans les questions 1, 2, 3, 4. Quelle conclusion en tirez-vous ?

10

0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

93
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 0.00 0.16 0.32 0.48 0.64 0.80 0.96 1.12 1.28 1.44 1.60

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0.00 0.16 0.32 0.48 0.64 0.80 0.96 1.12 1.28 1.44 1.60 0.00 0.16 0.32 0.48 0.64 0.80 0.96 1.12 1.28 1.44 1.60

Exercice 5.7 Soit (Ui , 1 ≤ i ≤ n) un échantillon de loi uniforme U([0, 1]) et V1 ≤ V2 ≤ · · · ≤


Vn l’échantillon ordonné. On pose par convention V0 = 0 et Vn+1 = 1. Pour i = 0, · · · , n, on
pose ∆i = Vi+1 − Vi .
1. Calculer la loi du couple (Vi , Vi+1 ) pour i = 1, · · · , n − 1 puis trouver la loi de ∆i pour
i = 0, · · · , n.
2. Montrer que la suite (sup0≤i≤n ∆i ,, n ≥ 1) converge vers 0 p.s.
n
X
3. Soit f : [0, 1] → R une fonction continue. Montrer que l’estimateur Zn = ∆i f (Vi )
i=0
Z 1
converge p.s. vers I = f (x) dx.
0
4. Montrer que la suite (E(Zn ), n ≥ 1) converge vers I.
5. On suppose de plus que f est de classe C 1 . Montrer qu’il existe une constante C > 0 telle
que
Xn
|Zn − I| ≤ C ∆2i .
i=0

En déduire la vitesse de convergence de Zn vers I dans L1 .


n
1X
6. Peut-on espérer la même vitesse pour l’estimateur usuel Yn = f (Ui ) ?
n i=1
La figure suivante compare les graphes de (Yn ) et (Zn ) pour des valeurs de n qui sont des
multiples de 50 et la fonction f (x) = x en utilisant un échantillon de taille N = 10 000 de loi

94
uniforme. On remarquera que le graphe de Zn est beaucoup plus régulier que celui de Yn et que
la suite (Zn , n ≥ 1) converge plus rapidement vers 1/2.

0.52

0.51

0.50

0.49

0.48

0.47

0.46

0.45

0.44
0 1e3 2e3 3e3 4e3 5e3 6e3 7e3 8e3 9e3 10e3

95
6 Méthode de Monte Carlo et chaı̂nes de Markov.
6.1 Mesures invariantes et Théorème ergodique.
Dans toute cette section, Q est une matrice de transition sur un ensemble fini (ou dénombrable)
d’états E et (Xn , n ≥ 0) désigne une chaı̂ne de Markov de matrice de transition Q. Si x ∈ E,
on notera Xnx une chaı̂ne Markov d’état initial x, c’est à dire telle que X0 = x. Rappelons
qu’une mesure Π sur l’ensemble des états E est invariante si ΠQ = Π. Dans la suite, nous
nous intéresserons au cas où la chaı̂ne admet une unique probabilité invariante, ce qui nécessite
d’imposer l’irréductibilité de la matrice Q (cf. Exercice 3.9). Rappelons que dans ce cas, tous les
états sont récurrents (on dit que la chaı̂ne est récurrente) ou bienPtous les états sont transitoires
(on dit que la chaı̂ne est transitoire). Si la chaı̂ne est transitoire, n≥0 1{Xnx =y} < +∞ pour tout
x, y ∈ E. Ainsi, une marche aléatoire symétrique sur Zd est récurrente si d = 1, 2 et transitoire
si d ≥ 3, tandis que si E est fini, toute marche aléatoire irréductible est récurrente irréductible.
Le théorème suivant « remplace » la loi des grands nombres valable dans le cas de suites i.i.d.

Théorème 6.1 (Théorème ergodique) Soit Q une probabilité de transition irréductible ; on


suppose qu’il existe une probabilité invariante Π. Alors :
(i) Π est l’unique probabilité invariante et Π(x) > 0 pour tout x ∈ E.
(ii) Tous les états sont récurrents. R
(iii) Pour tout état x ∈ E et toute fonction f : E → R telle que E |f (x)| dΠ(x) < +∞ :
n
1 X
Z
x
lim f (Xk ) = f (y) dΠ(y) p.s. (6.1)
n n E
k=1

Démonstration : (i) Puisque Π est une probabilité, il existe un état x ∈ E tel que Π(x) > 0.
L’irréductibilité entraı̂ne que pour tout y ∈ E, y 6= x, il existe un entier n ≥ 1 tel que Qn (x, y) >
0 ; de plus
Π(y) = (Π Qn )(y) ≥ Π(x) Qn (x, y) > 0 .
Montrons que Π est l’unique probabilité invariante ; soit Π̄ une probabilité invariante, et Π′ =
Π ∧ Π̄. Alors, Π′ est une mesure positive telle que Π′ Q ≤ Π Q = Π et Π′ Q ≤ Π̄ Q = Π̄, soit
Π′ Q ≤ Π′ . PLa mesure ∆ =P Π − Π′ estP donc positive,P telle que ∆ Q ≥ ∆ et d’après le théorème
de Fubini, y (∆ Q)(y) = x ∆(x) y Q(x, y) = x ∆(x). On en déduit que ∆ est invariante,
positive de masse totale inférieure ou égale à 1. D’après ce qui précède, soit ∆ est identiquement
nulle, soit elle charge tous les états. Si ∆ est identiquement nulle, on en déduit que Π ≤ Π̄ et
dans l’autre cas, on a Π(x) > Π̄(x) pour tout état x ∈ E. Comme les masses totales de Π et Π̄
sont toutes les deux égales à un, la seconde possibilité est exclue, ce qui entraı̂ne que Π ≤ Π̄.
En échangeant les rôles de Π et Π̄, on en déduit que Π̄ ≤ Π, ce qui conclut la démonstration
de (i). P
(ii) Supposons que tous les états sont transitoires. Alors n 1{Xnx =y} < +∞ p.s. pour tout
couple d’états x et y, d’où limn 1{Xnx =y} = 0 p.s. Le théorème de convergence dominée entraı̂ne
donc que limn Qn (x, y) = 0, puis que
X
Π(y) = lim Π(x) Qn (x, y) = 0
n
x∈E

ce qui contredit (i). La chaı̂ne est donc récurrente irréductible.

96
(iii) Nous ne montrerons (iii) que lorsque f est bornée et esquisserons seulement cette
démonstration lorsque la chaı̂ne est récurrente irréductible ; les détails techniques peuvent par
exemple être trouvés dans [4].
Montrons tout d’abord (iii) lorsque f = 1{y} . Soit x l’état initial (récurrent) de la chaı̂ne,
c’est à dire que X0 = x ; pour tout état y, notons Tx0 = 0 et pour tout entier k ≥ 1,
X
Txk (ω) = inf n > Txk−1 (ω) : Xnx (ω) = x k

et Nx,y = 1{Xnx =y} .
Txk−1 ≤n<Txk

Pour tout k ≥ 0 les temps d’arrêt Txk sont presque sûrement finis et la suite de variables
k 1

aléatoires Nx,y , k ≥ 1 est indépendante, équidistribuée et intégrable. De plus, µx (y) = E(Nx,y )
définit une mesure strictement positive invariante, c’est à dire telle que µx Q = µx et µx (y) > 0
pour tout y ∈ E ; cette mesure invariante est donc unique à une constante multiplicative près.
Puisque la chaı̂ne admet une probabilité invariante Π, µx est finie est est un multiple de Π.
1
De plus, la définition de µx (y) = E Nx,y entraı̂ne que Π(y) ≥ Π(x) µx (y) pour tout y ∈ E,
tandis que µx (x) = 1. La mesure positive invariante Π(.) − π(x) µx (.), qui s’annule en x, est
Π(y)
donc identiquement nulle et pour tout y ∈ E, µx (y) = Π(x) .
D’après la loi forte des grands nombres,
l
1X k 1 X 1
Nx,y = 1{Xn =y} → µx (y) = E(Nx,y )
l k=1 l l
0≤n<Tx

presque sûrement quand l → +∞. Notons Lk le nombre de passages en x avant l’instant k,


soit Lk = n<k 1{Xn =x} . Alors, si Txj (ω) < k ≤ Txj+1(ω), Lk (ω) = j + 1 et Lk (ω) → +∞ p.s.
P
puisque x est récurrent. Pour tout entier k tel que Txj (ω) < k ≤ Txj+1(ω) on a donc :
X X X X X
n n
Nx,y (ω) = 1{Xn (ω)=y} ≤ 1{Xn (ω)=y} ≤ 1{Xn (ω)=y} = Nx,y (ω) .
n<j n<Txj (ω) n<k n<Txj+1 (ω) n<j+1

Donc pour tout k ≥ 1,


P
1 X 1{Xn =y} 1 X n
Nx,y ≤ Pn<k
n
≤ N .
Lk n<L n<k 1{Xn =x} Lk n<L x,y
k−1 k

Les deux termes extrêmes de l’inégalité précédente


P convergent presque sûrement vers µx (y), et
1{Xn =y} P P
il en est donc de même pour le quotient P 1{X =x} . Puisque y∈E n<k 1{Xnx =y} = k, on en
n<k
n<k P n
1 1{Xn =y}
P
déduit que n<k k{Xn =x} → Π(x) p.s., puis que n<k
k
→ Π(y) p.s., ce qui prouve que (6.1)
est vraie pour f = 1{y} .
Supposons maintenant que f est bornée ; il existe alors une constante M telle que g =
f − M ≥ 0, puis une suite (gi , i ≥ 1) de fonctions à support fini telle que P gi converge en
1 n x
Rcroissant vers g quand i → +∞. Pour tout i ≥ 1, nous avons établi que limn n k=1 gi (Xk ) =
g (x) dΠ(x) p.s. Nous en déduisons que pour tout i ≥ 1,
E i
n
1 X
Z
x
lim inf g(Xk ) ≥ gi (x) dΠ(x) p.s.
n n E
k=1
n
d’où lim inf n n1 x
P R
k=1 g(Xk ) ≥ E g(x) dΠ(x) p.s. Par linéarité, nous avons donc établi que
n
1 X
Z
x
lim inf f (Xk ) ≥ f (x) dΠ(x) p.s.
n n E
k=1

97
1
Pn
f (Xkx ) ≤
R
Remplaçant f par −f , nous en déduisons que lim supn n k=1 E
f (x) dΠ(x) p.s., ce
qui termine la démonstration. 2

Il est alors naturel dans les calculs d’intégrale par rapport à Π de remplacer la simulation
d’une suite de variables aléatoires i.i.d. de loi Π (qui peut être difficile à réaliser) par celle d’une
chaı̂ne de Markov irréductible de probabilité invariante Π, puis la loi forte des grands nombres
par le théorème ergodique. Cependant, il serait souhaitable d’avoir un analogue Pn du théorème
1 x
Rde la limite centrale, permettant de connaı̂tre la vitesse de convergence de n k=1 f (Xk ) vers
E
f (y) dΠ(y). Ce n’est hélas pas possible et on peut construire des exemples dans lesquels la
vitesse est aussi lente (et aussi rapide) que l’on veut.
Nous allons tout d’abord établir des propriétés du spectre d’une matrice A irréductible sur
un espace fini E noté {1, · · · , d}. Remarquons que si Q est une matrice de transition et si 1
désigne le vecteur de Rd dont toutes les composantes sont égale à 1, Q 1 = 1, ce qui entraı̂ne que
1 est valeur propre de Q. De plus, Π est une probabilité invariante si c’est un vecteur propre de
t
Q pour la valeur propre 1. On notera x >> 0 un vecteur (xi , 1 ≤ i ≤ d) dont les composantes
xi sont toutes strictement positives.

Théorème 6.2 (Théorème de Perron Frobenius)


Soit A une matrice d × d irréductible à coefficients positifs. Alors il existe une valeur propre
de A notée ρA et appelée valeur propre de Perron Frobenius de A, telle que :
(i) ρA > 0 est valeur propre simple de A.
(ii) Toute autre valeur propre λ 6= ρA de A est telle que |λ| ≤ ρA .
(iii) Il existe un vecteur propre x >> 0 de A et un vecteur propre y >> 0 de A∗ pour la
valeur propre ρA .
(iv) Pour tout i, j ∈ {1, · · · , d} et tout vecteur x >> 0 de Rd ,
d
! d
!
1 X 1 X
lim ln An (i, j) xj = lim ln xi An (i, j) = ln(ρA ) .
n j=1
n i=1

Démonstration
(1) Pour tout vecteur x ∈ Rd dont les composantes sont positives ou nulles, notons
( Pd )
j=1 A(i, j) xj
ρ(x) = inf ; xi > 0 .
xi
P
Alors ρ(x) < +∞ et pour tout i ∈ {1, · · · , d} on aP xi ρ(x) ≤ j A(i, j) xj . Sommant ces
inégalités sur i, on en déduit que ρ(x) ≤ M = supj ( i A(i, j)). Puisque A est irréductible,
P P
j A(i, j) > 0 pour tout i = 1, · · · , d et 0 < ρ(1) = inf i j A(i, j) . Notons

P
j A(i, j) xj
ρA = sup ρ(x) = sup inf ;
x≥0 ,x6=0 x≥0 , kxk=1 i xi

puisque K = {x ≥ 0 , kxk = 1} est compact et que ρ(.) est l’infimum de fonctions continues, la
fonction ρ(.) est semi-continue supérieurement et atteint son maximum en un vecteur x∗ ∈ K,
tel que

P
j A(i, j) xj
ρA = inf ≥ ρ(1) > 0 .
i x∗i

98
(2) Montrons que x∗ est un vecteur propre de A pour la valeur propre ρA et que x∗ >> 0.
Notons ∆ = A x∗ − ρA x∗ ; par définition de ρA , ∆i = j A(i, j) x∗j − ρA x∗i ≥ 0. Puisque A
P
est irréductible, l’algorithme de classification des états montre qu’il existe k ≤ d − 1 tel  que
k k
(I +A) >> 0. S’il existe un indice i tel que ∆i > 0, alors pour tout indice j, (I + A) ∆ j > 0.
Notons y = (I +A)k x∗ ; pour tout j,Pon en déduit que Ay −ρA y >> 0, tandis que par définition
de ρA , il existe un indice i tel que j A(i, j) yj ≤ ρA yi . Ceci fournit une contradiction, et on
a donc ∆ = 0, c’est à dire que x∗ est un vecteur propre de valeur propre ρA . Montrons enfin
que x∗ >> 0 ; pour tout entier n, An x∗ = ρnA x∗ . Changeant éventuellement le signe de x∗ , on
déduit l’existence d’un indice j tel que x∗j > 0. Puisque A est irréductible, pour tout indice i in
existe n tel que An (i, j) > 0, ce qui entraı̂ne que ρnA x∗i > 0 et que x∗ >> 0.
(3) Soit λ 6= ρA une valeur propre de A, y un vecteur propre associé à λ et |y| le vecteur
dont les composantes sont les valeurs absolues P de celles de A. Alors pour tout indice i, |λ| |yi| ≤
j A(i,j) |yj |
P
j A(i, j) |yj |, ce qui entraı̂ne que |λ| ≤ |yi |
. Puisque |y| ≥ 0 et |y| =
6 0, on en déduit
que |λ| ≤ ρ(|y|) ≤ ρA .
(4) Soit
P y un autre vecteur propre de A pour la valeur propre ρA ; alors pour tout i,
ρA |yi| ≤ j A(i, j) |yj |, d’où
P
j A(i, j) |yj |
ρA ≤ ≤ ρA .
|yi|
On en déduit que le vecteur |y| est également un vecteur propre associé à la valeur propre ρA .
L’argument précédent montre que |y| >> 0. Si les vecteurs x∗ et y ne sont pas colinéaires, il
existe un indice i ∈ {1, · · · , d} et une constante c telle que (y − c x∗ )i = 0 et y − c x∗ 6= 0.
Cependant, y − c x∗ est également un vecteur propre de A pour la valeur propre ρA , et le
raisonnement précédent montre que y − c x∗ >> 0 ou y − c x∗ << 0, ce qui fournit une
contradiction ; la valeur propre ρA est donc simple.
P
x A(i,j)
(5) Pour la matrice transposée A∗ notons r(x) = inf j i xi j et rA = sup{r(x) : x ≥
0 , x 6= 0}. Un raisonnement similaire montre que rA est la valeur propre de A∗ ayant le plus
grand module, c’est à dire que rA = ρA , puis qu’il existe un vecteur propre de A∗ dont les
composantes sont toutes strictement positives.
(6) Soit x = (x1 , · · · , xd ) >> 0, α = inf{xi : 1 ≤ i ≤ d} et β = sup{xi : 1 ≤ i ≤ d}. Soit
x >> 0 tel que A x∗ = ρA x∗ , γ = inf{x∗i : 1 ≤ i ≤ d} et δ = sup{x∗i : 1 ≤ i ≤ d}. Alors pour

tout i, j = 1, · · · , d et n ≥ 1,
α n β
A (i, j) x∗j ≤ α An (i, j) ≤ An (i, j) xj ≤ An (i, j) x∗j .
δ γ
En sommant sur j = 1 , · · · , d on en déduit que :
  !  
1 α ∗ 1 1 X 1 β ∗ 1
ln x + ln (ρnA ) ≤ ln An (i, j) xj ≤ ln x + ln (ρnA ) ,
n γ i n n j
n γ i n
P 
donc ln(ρA ) = limn n1 ln j An
(i, j) xj . Un raisonnement similaire montre que ln(ρA ) =
limn n1 ln ( i xi An (i, j)), ce qui termine la démonstration.
P
2

En renforçant les hypothèses sur la matrice Q, on peut notablement améliorer la vitesse de


convergence dans le cas d’une espace d’états fini.

99
Définition 6.3 (i) La période de l’état x ∈ E est le PGCD de l’ensemble des entiers n ≥ 1
tels que Qn (x, x) > 0.
(ii) On dit qu’une matrice A à coefficients positifs est apériodique si pour tout x ∈ E, le
PGCD de l’ensemble des entiers n ≥ 1 tels que An (x, x) > 0 vaut 1. Lorsque A est la matrice
de transition de la chaı̂ne de Markov (Xn , n ≥ 0), on dit alors que la chaı̂ne est apériodique
(ce qui décrit que tous ses états sont de période 1).

Si deux états communiquent, ils ont la même période ; dans le cas d’une chaı̂ne irréductible, si
on établit que la période d’un des états est 1, la chaı̂ne est donc apériodique. Le résultat suivant
montre une propriété de communication entre les états d’une chaı̂ne de Markov irréductible
apériodique sur un ensemble fini E.

Lemme 6.4 Soit Q une matrice irréductible apériodique sur un ensemble fini E. Il existe un
entier naturel n0 tel que pour tout couple d’états x, y de E, Qn (x, y) > 0 pour tout entier n ≥ n0 .

Démonstration Soit y ∈ E, n1 , · · · nI des entiers premiers entre eux dans leur ensemble tels
que Qni (y, y) > 0 pour toit i = 1, · P · · , I. D’après le théorème de Bezout, il existe des entiers
relatifs ki , 1 ≤ i ≤ I tels que 1 = Ii=1 ni ki . En regroupant les entiers ki > 0 (et les entiers
ki < 0), on en déduit deux entiers naturels my et ny tels que Qmy (y, y) > 0, Qny (y, y) > 0 et
1 = my − ny . Notons n0 (y) = ny (ny − 1). Pour tout entier n ≥ n0 (y), la division euclidienne de
n par ny , n = q ny + r est telle que 0 ≤ r ≤ ny − 1 ≤ q. On en déduit que n = (q − r) ny + r my
est tel que Qn (y, y) > 0.
Pour tout couple d’états x, y, il existe un entier m(x, y) > 0 tel que Qm(x,y) (x, y) > 0 et
pour tout entier n ≥ n(x, y) = m(x, y) + n0 (y), on en déduit que Qn (x, y) > 0.
Puisque E est fini, il suffit alors de poser n0 = max{n(x, y) : x, y ∈ E}. 2

Afin de montrer la convergence de la suite Qn (à une vitesse exponentielle lorsque l’ensemble
des états est fini), nous introduisons la notion suivante sur la matrice Q (qui est trivialement
satisfaite dans le cas irréductible apériodique sur un ensemble d’états finis d’après le Lemme
6.4).

Définition 6.5 Le matrice de transition Q satisfait la condition de Doeblin s’il existe un entier
l ≥ 1, une constante α ∈]0, 1[ et une probabilité λ sur E tels que pour tout x, y ∈ E,

Ql (x, y) ≥ α λ(y) . (6.2)


 
0 1
L’exemple trivial Q0 = montre que l’hypothèse d’irréductibilité ne suffit pas pour
1 0
que la suite Qn0 converge. La matrice Q0 ne satisfait pas la condition de Doeblin et, si elle est
irréductible, ses états sont de période 2. Le théorème suivant montre que sous la condition de
Doeblin, quelle que soit la loi µ de X0 , la suite µ Qn des lois de Xn converge vers une unique
probabilité invariante.

Théorème 6.6 Soit Q une matrice de transition qui satisfait la condition de Doeblin sur un
espace d’états E dénombrable. Alors pour toute probabilité initiale µ sur E, la suite de proba-
bilités µ Qn des lois de Xn converge en variation totale vers une probabilité Π qui est l’unique
probabilité invariante de la chaı̂ne de Markov (Xn , n ≥ 0).

100
Démonstration : Nous supposerons que E est fini pour dégager les idées de la preuve. Suppo-
sons tout d’abord que l = 1. Soit ν et ν ′ des probabilités sur E ; alors puisque Q(x, y) − αλ(y) ≥
0:
X
kν Q − ν ′ Qk ≤ (ν Q)(y) − (ν ′ Q)(y)

y∈E

X X


= ν(x) − ν (x) Q(x, y)



y∈E x∈E

X X 

  
= ν(x) − ν (x) Q(x, y) − αλ(y)



y∈E x∈E
X X
|ν(x) − ν(x′ )|

≤ Q(x, y) − αλ(y)
x∈E y∈E
X
≤ |ν(x) − ν(x )| (1 − α) = (1 − α) kν − ν ′ k .

x∈E

L’ensemble des probabilités sur E peut être identifié auPsous-ensemble fermé borné M1 des
vecteurs p ∈ R|E| tels que p(x) ≥ 0 pour tout x ∈ E et x∈E p(x) = 1. Ce sous-ensemble est
également compact pour la norme l1 , c’est à dire celle de la convergence en variation totale.
Le calcul précédent montre que l’application F : M1 → M1 définie par F (ν) = ν Q est
contractante de rapport 1 − α < 1. Le théorème du point fixe permet de conclure qu’elle admet
un unique point fixe Π et que pour toute loi initiale µ sur E, la suite F n (µ) = µ Qn , qui est la
loi de Xn , converge vers Π en variation totale.
Si l > 1, la suite (Xnl , n ≥ 1) est une chaı̂ne de Markov de matrice de transition Ql et le
résultat précédent entraı̂ne que (µ Qnl , n ≥ 1) converge vers l’unique probabilité Π telle que
Π Ql = Π. Pour tout n ≥ 1, la division euclidienne de n par l fournit des entiers d ≥ 0 et
0 ≤ r < l tels que n = d l + r pour lesquels :

kµ Qn − Πk = kµ Qdl+r − Π Qdl k ≤ (1 − α)d kµ Qr − Πk ≤ 2 (1 − α)d .

On en déduit que lorsque n → +∞, la suite µ Qn des lois de Xn converge vers Π en variation
totale. Puisque Π est invariante pour Ql , Π Q = Π Ql+1 et Π Q est donc une probabilité inva-
riante de Ql , ce qui entraı̂ne que Π Q = Π. Soit enfin Π′ une autre probabilité invariante pour
Q ; alors Π′ est invariante pour Ql et on a donc Π′ = Π. 2
Le théorème suivant améliore le théorème ergodique pour des matrices irréductibles apé-
riodiques sur un ensemble d’états fini ; dans ce cas la suite Qn (x, .) converge (sans utiliser les
moyennes de Césaro) vers une unique probabilité invariante Π à une vitesse exponentielle.

Théorème 6.7 Soit Q une matrice irréductible apériodique sur un ensemble fini d’états E.
Alors :
(i) Il existe un vecteur (Π(y) , y ∈ E) et des constantes α ∈]0, 1[ et M > 0 telles que pour
tout x, y ∈ E, toute probabilité initiale µ sur E et tout entier n ≥ 1 :

|Qn (x, y) − Π(y)| ≤ M αn ,


|Pµ (Xn = y) − Π(y)| ≤ M αn .

De plus, Π est l’unique probabilité invariante et charge tous les éléments de E qui sont récurrents.

101
(ii) Pour tout x et toute fonction f : E → R :
n
!
√ 1X X
n f (Xkx ) − Π(y) f (y)
n y∈E
k=1

converge en loi vers une variable aléatoire gaussienne N (0, σ 2) avec σ 2 < +∞

Démonstration
(i) Il suffit d’appliquer le lemme 6.4 et le théorème 6.6.
(ii) Nous renvoyons le lecteur à [4] pour la démonstration. 2

La valeur de σ 2 est beaucoup plus délicate à calculer que dans le théorème de la limite
centrale.

6.2 Simulation exacte d’une probabilité stationnaire


La méthode suivante, due à J. Propp et D. Wilson permet une simulation exacte de la
probabilité invariante Π d’une matrice récurrente irréductible Q avec un test d’arrêt explicite.
Soit E un espace d’états finis, Q une matrice de transition sur E, U, U) un espace mesurable,
(Un , n ≥ 0) uns suite i.i.d. de variables aléatoires à valeurs dans U et Φ : E × U → E une
application telle que  
P Φ(x, Un ) = y = Q(x, y) , ∀x ∈ E . (6.3)

Pour tout entier n ≥ 0, notons Φn : Ω → EE l’application aléatoire de E dans E définie par


Φn (x) = Φ(x, Un ) pour tout x ∈ E.
Soit F : Ω → E une variable aléatoire indépendante de la suite (Un , n ≥ 0). On définit par
récurrence la suite (Fn : Ω → EE , n ≥ 0) par :

F0 = F , Fn+1 (.) = Fn (Φ(., Un )) ,

c’est à dire : Fn = F ◦Φ0 ◦· · ·◦Φn−1 pour tout entier n ≥ 1. On vérifie aisément que (Fn , n ≥ 0)
est une chaı̂ne de Markov sur E = EE et on note PF la probabilité correspondante sur l’espace
canonique E N . Par construction, on voit que la suite des images de Fn est décroissante. On
aimerait que la suite converge vers une application constante, mais l’exemple suivant montre
que ce n’est pas le cas même lorsque la matrice Q est irréductible apériodique. Soit E = {a, b},
Q(x, y) = 12 pour tout x, y ∈ E, U = {0, 1} et (Un , n ≥ 0) une suite de variable de Bernoulli de
paramètre 21 . Soit Φ : E × U → E l’application définie par

Φ(a, 0) = Φ(b, 1) = a Φ(a, 1) = Φ(b, 0) = b .

Soit F = Id ; alors pour tout entier n ≥ 1, Fn (ω) est soit l’identité, soit la permutation des
états a et b et l’image de Fn reste égale à E.
Dans la suite on impose donc la condition suivante qui fait que le cardinal de l’image de Fn
diminue avec une probabilité strictement positive :

∀A ⊂ E , |A| > 1 ⇒ P |Φ(A, Un )| < |A| > 0 . (6.4)

Le théorème suivant justifie la simulation exacte de la loi Π.

102
Théorème 6.8 Soit Q une matrice de transition irréductible apériodique sur l’espace d’états
E fini, de probabilité invariante Π, (Un , n ≥ 0) et Φ définis par (6.3) et satisfaisant (6.4). Alors
les applications constantes f (x) : E → E définies par f (x) (y) = x pour tout y ∈ E sont les seuls
états récurrents de la chaı̂ne de Markov (Fn ) et sont absorbants. Soit

T = inf{n ≥ 0 : |Im(Fn )| = 1} . (6.5)

Alors P (T < +∞) = 1 et si F = Id,

PId FT = f (x) = Π(x) ,



∀x ∈ E . (6.6)

Démonstration L’hypothèse (6.4) entraı̂ne que toute application ϕ : E → E non constante


est un état transitoire de la chaı̂ne (Fn , n ≥ 0). D’après le lemme 6.4, il existe un entier m tel
que Qm (x, y) > 0 pour tout x, y ∈ E. On en déduit qu’il existe un nombre α ∈]0, 1[ tel que
pour toute condition initiale F , PF (T > m) ≤ α. La propriété de Markov entraı̂ne que pour
tout entier k ≥ 1, PF (T ≥ km) ≤ αk . On en déduit que

X X m
EF (T ) = P (T ≥ i) ≤ mP (T ≥ km) ≤ .
i k=0
1−α

La chaı̂ne (Fn ) atteint donc un des états absorbants f (x) en un temps p.s. fini et il reste à
prouver (6.6). Pour toute application ϕ ∈ EE , et tout y ∈ E, notons

P̃ϕ (y) = Pϕ FT = f (y) .




Si F0 = Id et FT (ω) = f (y) , on en déduit que pour tout n ≥ T (ω), Im(Φ0 ◦ · · · ◦ Φn ) ⊂ ϕ−1 (y),
d’où Im(Id ◦ Φ0 ◦ · · · ◦ Φn ) ⊂ ϕ−1 (y). La chaı̂ne (Fn ) partant de Id est donc absorbée en une
application f (x) pour x ∈ ϕ−1 (y). Réciproquement, si la chaı̂ne (Fn ) partant de Id est absorbée
en f (x) pour x ∈ ϕ−1 (y), en composant avec ϕ, on en déduit que la chaı̂ne partant de ϕ est
absorbée en f (y) , d’où X
P̃ϕ (y) = P̃Id (x) .
x∈ϕ−1 (y)

D’autre part en décomposant suivant les valeurs de Φ0 , on obtient pour tout y ∈ E :


X
P Φ0 = ϕ , FT = f (y)

P̃Id (y) =
ϕ
X  X
= P Φ0 = ϕ P̃Id (x)
ϕ x∈ϕ−1 (y)
X X
= P̃Id (x) P (Φ0 = ϕ)
x∈E {ϕ∈EE :ϕ(x)=y}
X X
= P̃Id (x) P (Φ0 (x) = y) = P̃Id (x) Q(x, y) .
x∈E x∈E

On en déduit que P̃Id est une probabilité invariante de Q et est donc égale à Π. 2
L’utilisation pratique de ce théorème demande de choisir Φ pour ne calculer que les images
par Φ0 ◦ · · · ◦ ΦN de quelques points de E (dont le nombre d’éléments est grand) et de stopper
la composition lorsque les images de ces points sont les mêmes.

103
6.3 Probabilités réversibles.
La notion suivante renforce celle de probabilité invariante. Si une matrice de transition
irréductible apériodique admet une probabilité réversible, on en déduit des renseignements
précis sur son spectre (qui renforcent sensiblement le théorème de Perron Frobenius).

Définition 6.9 Soit Q une matrice de transition sur l’espace d’états E. Une probabilité Π sur
E est réversible pour Q (ou pour une chaı̂ne de Markov de matrice de transition Q) si

Π(x) Q(x, y) = Π(y) Q(y, x) , ∀x, y ∈ E . (6.7)

En sommant l’équation (6.7) sur y ∈ E, on déduit que si Π est réversible pour Q,


X X
Π(x) = Π(x) Q(x, y) = Π(y) Q(y, x) ,
y y

ce qui entraı̂ne que Π est invariante. Si la chaı̂ne de Markov (Xn , n ≥ 0) est de matrice de
transition Q et si la loi de Xn est la probabilité réversible Π,

P (Xn = x, Xn+1 = y) = P (Xn = y, Xn+1 = x) ;

de plus, si Π(x) = 0 et Π(y) > 0, alors Q(y, x) = 0, c’est à dire que la restriction de Q au
support de Π est encore une matrice de transition pour laquelle Π est réversible ; on peut donc
se ramener au cas où Π(x) > 0 pour tout x ∈ E. Si E est un ensemble à N éléments noté
E = {1, · · · , N} et Π est une mesure strictement positive sur E, notons D la matrice (N, N)
diagonale définie par p
D(i, i) = Π(i) , ∀i ∈ E .
De plus, l’opérateur de L2 (Π) adjoint de celui associé à une matrice A est associé à la
matrice à = D −2 A∗ D 2 , où A∗ désigne la transposée de A. Un calcul immédiat montre que la
matrice de transition Q sur E admet Π comme probabilité réversible si et seulement si D Q D −1
est symétrique ; ceci traduit le fait que l’opérateur associé à Q dans L2 (Π) est autoadjoint. Le
résultat suivant montre que si Π est une probabilité invariante pour la matrice de transition Q,
on peut définir une nouvelle matrice de transition P telle que Π soit réversible pour P .

Proposition 6.10 Soit Π une probabilité strictement positive sur E fini et Q une matrice de
transition telle que Π est invariante. Soit
1
Q̃ = D −2 Q∗ D 2 et P = (Q + Q̃) ;
2

alors Q̃ est une matrice de transition admettant Π comme probabilité invariante et P est une
matrice de transition admettant Π comme probabilité réversible.

Démonstration : Le fait que Π soit invariante entraı̂ne que Q̃ est une matrice de transition et
P l’est donc aussi. Puisque Q est une matrice de transition, Π est invariante pour Q̃. Un calcul
immédiat montre enfin que Π est réversible pour P . 2

Le résultat suivant donne des conditions suffisantes sur Q pour que la probabilité uniforme
sur E soit invariante ou réversible ; la démonstration élémentaire est laissée au lecteur.

104
Proposition 6.11 Soit E un ensemble d’états fini.
(i) Soit Q une matrice bistochastique, c’est à dire une matrice de transition telle que
X
Q(x, y) = 1 , ∀y ∈ E .
x∈E

Alors la probabilité uniforme sur E est invariante pour Q.


(ii) Soit Q une matrice de transition symétrique. Alors la probabilité uniforme sur E est
réversible pour Q.

Dans le cas où la mesure invariante Π est réversible pour Q, l’écriture de la différence entre
n
Q et Π est légèrement plus précise, comme le montre la :
Proposition 6.12 Soit E = {1 · · · , d}, Q une matrice de transition irréductible apériodique
sur E admettant une probabilité invariante Π réversible. Alors Q est diagonalisable, ses valeurs
propres λ1 = 1 > λ2 ≥ · · · ≥ λd > −1 sont réelles, 1 est simple et il existe une base orthonormée
(φi , 1 ≤ i ≤ d) de Rd telle que pour tout entier n ≥ 1,
p d
n Π(y) X n
Q (x, y) = Π(y) + p λl φl (x) φl (y) . (6.8)
Π(x) l=2
Notons α = sup{|λi| , 2 ≤ i ≤ d} ∈]0, 1[ ; pour tout entier n ≥ 1 et tout x ∈ E :
!2
X (Qn (x, y) − Π(y))2 α2n
|Qn (x, y) − Π(y)| ≤ ≤ . (6.9)
y∈E
Π(y) Π(x)

Démonstration
p : Puisque Π est Q réversible, si on note D la matrice diagonale définie par
D(i, i) = Π(i), D Q D−1 est symétrique, donc diagonalisable dans R par une matrice de
passage orthogonale. Soit donc (φi , 1 ≤ i ≤ d) une base orthonormée de vecteurs propres de
D Q D−1 pour les valeurs propres λi ordonnées par ordre décroissant. Clairement les vecteurs
ψi (x)
ψi définis par ψi (x) = √ sont des vecteurs propres de Q pour les mêmes valeurs propres.
Π(x)
Le théorème de Perron Frobenius entraı̂ne donc que 1 est valeur propre simple et que les autres
valeurs propres de Q appartiennent à l’intervalle [−1, 1[ et il reste à montrer que −1 n’est pas
valeur propre. Supposons qu’il existe un vecteur non nul et différent de c 1 tel que Qv = −v ;
alors Q2 v = v et v est vecteur propre de la matrice Q2 pour la valeur propre 1. Il suffit donc
de prouver que la matrice de transition Q2 est irréductible pour en déduire une contradiction
par application du théorème de Perron-Frobenius. D’après le lemme 6.4, il existe un entier n0
tel que pour tout couple d’états x, y on a Q2n0 (x, y) > 0, ce qui prouve l’irréductibilité de Q2 .
p De plus, on peut choisir comme vecteur ψ1 = 1, soit commed vecteur φ1 le vecteur unitaire
( Π(x) , 1 ≤ x ≤ d). Pour tout couple de vecteurs u, v de R et pour tout entier n ≥ 1, la
forme bilinéaire définie par la matrice D Qn D −1 satisfait
d
X
n −1
hu , D Q D vi = λnl hu , φj i hv , φj i .
l=1
p
L’équation (6.8) s’en déduit immédiatement pour u(.) = √ 1 1{x} (.) et v(.) = Π(y) 1{y} (.).
Π(x)
L’équation (6.8) entraı̂ne que pour tout x, y ∈ E,
 n  d
p Q (x, y) 1 X
a(x, y) = Π(y) −1 = p λnl φl (x) φl (y) .
Π(y) Π(x) l=2

105
La base (φl , 1 ≤ l ≤ d) étant orthonormée, on en déduit que
d d
X
2 1 X 2n α2n
a(x, y) = λl φl (x)2 ≤ ,
y=1
Π(x) l=2
Π(x)

ce qui montre la seconde inégalité de (6.9). La première inégalité de (6.9) découle immédiatement
de l’inégalité de Schwarz, ce qui termine la démonstration. 2

On peut également donner une majoration de l’erreur commise en remplaçant l’espérance


d’une fonction par rapport à la probabilité réversible Π par l’espérance de cette fonction de Xn .

Proposition 6.13 Sous les hypothèses de la Proposition 6.12, soit f : E → R ; notons


X X i2
EΠ (f ) = f (y) Π(y) et VarΠ (f ) = f (y) − EΠ (f ) Π(y) .
y∈E y∈E

Alors si (Xn , n ≥ 0) est une chaı̂ne de Markov de matrice de transition Q, pour tout entier
n ≥ 1 et tout x ∈ E,
h  i2 α2n
E f (Xn ) | X0 = x − EΠ (f ) ≤ V arΠ (f ) . (6.10)
Π(x)
La démonstration est laissée en exercice.

Pratiquement, les valeurs de α et VarΠ (f ) sont impossibles à calculer et pour appliquer le


théorème ergodique, il faut que l’on soit proche de la probabilité invariante bien avant l’ins-
tant terminal pour lequel on simule la chaı̂ne. On fait démarrer la simulation en un état x0
quelconque, puis on la simule jusqu’à l’instant n0 à partir duquel on considère que la loi de
Xn est proche de la probabilité invariante : c’est la phase de « préchauffage » . On évalue en-
suite f (Xn0 +k n1 ) en des instants séparés par un temps n1 (inférieur à n0 ) tel que l’on puisse
considérer que les variables aléatoires Xn0 +k n1 , k ≥ 1 sont « presque indépendantes » (c’est une
propriété de mélange des chaı̂nes irréductibles apériodiques) et on calcule
K
1 X
f (Xn0 +k n1 ) .
K k=1

6.4 Algorithme de Hastings-Metropolis.


R
Afin de calculer E f dΠ, au lieu de simuler une suite de variables aléatoires indépendantes
Xi de loi « exactement » Π (qui peut être très difficile à simuler par les méthodes du chapitre
2), il suffit donc de simuler une chaı̂ne de Markov récurrente irréductible apériodique de ma-
trice de transition P (à déterminer) telle que cette chaı̂ne ait Π comme probabilité invariante
(ou réversible) ; c’est le but de l’algorithme de Hastings-Metropolis. On remplace alors la loi
des grands nombres par le théorème ergodique. Il faut concrètement que la simulation de la
chaı̂ne soit « simple » et rapide en temps de calcul et que l’erreur commise soit connue et
faible ; le théorème 6.7 ou les propositions 6.12 et 6.13 assurent que la convergence vers Π est
« exponentiellement rapide » et remplacent le théorème de la limite centrale.
Soit E un ensemble d’états fini ou dénombrable, Q une matrice de transition sur E et Π
une probabilité sur E. Fixons x0 ∈ E tel que Π(x0 ) > 0 et posons X0 = x0 . On construit alors
(Xn , n ≥ 0) de façon itérative par une méthode similaire à la méthode du rejet :

106
Supposons que pour n ≥ 0, Xn = xn ait été défini et construisons Xn+1 . On simule des
variables aléatoires Yn et Un indépendantes de Xk k ≤ n et indépendantes telles que :
• Yn est de loi Q(xn , .), c’est à dire que pour tout y ∈ E, P (Yn = y) = Q(xn , y).
• Un suit une loi uniforme U([0, 1]) sur l’intervalle [0, 1].
Posons  
Π(y) Q(y, x)
α(x, y) = min 1 , ,
Π(x) Q(x, y)
avec la convention α(x, y) = 1 si Π(x) Q(x, y) = 0, puis :
• Si Un ≤ α(Xn , Yn ), Xn+1 = Yn , c’est à dire que l’on « accepte » la transition.
• Si Un > α(Xn , Yn ), Xn+1 = Xn , c’est à dire que l’on « rejette » la transition.
On a alors la :
Proposition 6.14 Le processus (Xn , n ≥ 0) est une chaı̂ne de Markov de matrice de transition
P définie par
(  
Π(y) Q(y,x)
P (x, y) = Q(x, y) α(x, y) = Q(x, y) min 1 , Π(x) Q(x,y)
si x 6= y ,
P (6.11)
P (x, x) = 1 − y6=x P (x, y) .

De plus Π est une probabilité réversible (donc invariante) pour P .


Démonstration. Il est clair que la loi de Xn+1 sachant X0 = x0 , · · · , Xn = xn ne dépend
que de xn et que (Xn ) est donc une chaı̂ne de Markov. Supposons que P (Xn = x) > 0 ; alors
pour y 6= x, l’indépendance de Un et de (Xn , Yn ) et la loi conditionnelle de Yn sachant Xn = x
entraı̂nent :

P (Xn+1 = y | Xn = x) = P Yn = y , Un ≤ α(x, y) | Xn = x

P Yn = y , Un ≤ α(x, y) , Xn = x
=
P (Xn = x)

= P Un ≤ α(x, y) P (Yn = y | Xn = x)
= α(x, y) Q(x, y) .

Enfin, l’égalité X
P (Xn+1 = x | Xn = x) = 1 − P (Xn+1 = y | Xn = x)
y6=x

termine la caractérisation de la matrice de passage de (Xn ). Si x 6= y, puisque Π(x) ≥ 0 :

Π(x) P (x, y) = Π(x) α(x, y) Q(x, y) = min{Π(x) Q(x, y), Π(y) Q(y, x)} = Π(y) P (y, x) ,

ce qui prouve que Π est réversible pour P . 2

Puisque Π est réversible pour P , la chaı̂ne ne visite que des états y ∈ E tels que Π(y) > 0
et on peut donc remplacer E par le support de Π, c’est à dire ne considérer que des matrices de
transition Q et P sur E1 = {x ∈ E , Π(x) > 0}. D’autre part, la définition de α suggère de ne
considérer que des matrices Q sur E1 telles que pour x 6= y, Q(x, y) > 0 entraı̂ne Q(y, x) > 0.
Une grande latitude est possible dans le choix de Q et de x0 ; nous y reviendrons ultérieurement.

R
Afin de pouvoir
Pn utiliser le théorème ergodique 6.1 pour approximer E
f dΠ par les moyennes
1
de Césaro n k=1 f (Xk ), ou bien le théorème 6.7 pour avoir une vitesse de convergence dans

107
cette approximation, il faut que la matrice P définie dans la proposition précédente soit
irréductible, ou bien irréductible et apériodique. Les deux résultats suivants donnent des condi-
tions suffisantes sur Q pour assurer ces propriétés de P .

Proposition 6.15 Si la probabilité Π est strictement positive et si la matrice de transition Q


6 y, Q(x, y) 6= 0, alors la matrice de transition P définie par (6.11)
est telle que pour tout x =
est irréductible.

Démonstration : Si x 6= y, P (x, y) = Q(x, y) α(x, y) > 0 et tous les états communiquent


donc. 2

Proposition 6.16 Soit Π une probabilité non constante sur E discret, Q une matrice de transi-
tion symétrique irréductible. Alors la matrice de transition P définie par (6.11) est irréductible
apériodique et admet Π comme probabilité réversible (donc invariante).
 
Π(y)
Démonstration. Puisque la probabilité Π est non nulle et que α(x, y) = min 1, Π(x) , on
voit que α(x, y) 6= 0 pour tout x, y ∈ E. Montrons tout d’abord l’irréductibilité de P . Puisque
Q est irréductible, pour tout x 6= y (en supprimant d’éventuelles boucles du chemin menant
de x à y) on déduit qu’il existe des états deux à deux distincts xk ∈ E, 1 ≤ k ≤ K tels que
x1 = x, xK = y et pour tout k ∈ {1, · · · , K − 1}, Q(xk , xk+1 ) > 0. La définition de P (xk , xk+1 )
pour xk 6= xk+1 montre que pour tout k ∈ {1, · · · , K − 1}, P (xk , xk+1 ) > 0 donc P K (x, y) > 0
et P est irréductible.
La chaı̂ne étant irréductible, tous les états ont la même période et pour prouver qu’elle est
apériodique, il suffit de prouver l’existence d’un état x ∈ E tel que P (x, x) > 0. Supposons que
pour tout état x ∈ E, P (x, x) = 0 ; alors pour tout x ∈ E :
X
0 = 1− P (x, y)
y6=x
X X
= Q(x, y) − Q(x, y) α(x, y)
y∈E y6=x
X  
= Q(x, x) + Q(x, y) 1 − α(x, y) .
y6=x

Les termes de la dernière somme étant tout positifs, on en déduit que si y 6= x et Q(x, y) > 0,
α(x, y) = 1, c’est à dire que Π(y) ≥ Π(x). La symétrie de Q entraı̂ne (en intervertissant x et
y) que si Q(x, y) > 0, Π(y) ≤ Π(x), d’où Π(x) = Π(y).
Puisque Q est irréductible, pour tout couple d’états x 6= y, il existe une suite d’états deux à
deux distincts xk , 1 ≤ k ≤ K tels que x1 = x, xK = y et Q(xk , xk+1 ) > 0 pour 0 ≤ k ≤ K − 1.
On en déduit que Π(xk ) = Π(x) pour 1 ≤ k ≤ K, c’est à dire que Π(x) = Π(y). La probabilité
Π est donc constante, ce qui fournit une contradiction. 2

Dans le cas précédent d’une matrice Q symétrique (qui est l’algorithme original de Metro-
polis), la procédure de test est un peu plus simple car
 
Π(y)
α(x, y) = min 1, .
Π(x)

Pour maximiser les chances d’accepter les transitions, il faut que α(Xn , Yn ) soit égal à 1 ou
Π(yn )
proche de 1, ce qui demande que Π(x n)
ne devienne pas trop petit.

108
Lorsque Q(x, y) = q(y), c’est à dire si toutes les lignes de Q sont égales, on dit que l’algo-
rithme est indépendant et dans ce cas :
 
Π(y) q(x)
α(x, y) = min 1, .
Π(x) q(y)

Dans ce cas, la valeur de Yn ne dépend pas de Xn , mais son rejet éventuel dépend de Xn .

L’algorithme général de Hastings Metropolis est donc :


Initialiser X avec x0
t←0
Répéter
i←X
Produire j avec la probabilité Q(i, j)
α = (Π(j) ∗ Q(j, i))/(Π(i) ∗ Q(i, j))
Si α ≥ 1 faire
X←j
Sinon
Si Random < α faire
X←j
Fin
Fin
t← t+1
Jusqu’à l’arr^
et de la simulation

Dans les cas où Q est symétrique, le calcul de α est beaucoup plus simple et on a intérêt à
tester si Π(j) < Π(i) avant de calculer α.
Souvent, l’ensemble des états est muni d’une structure de graphe et on choisit pour Q la
matrice de transition d’une marche aléatoire symétrique sur ce graphe (c’est à dire que pour
tout état x ∈ E, Q(x, .) est la loi uniforme sur l’ensemble des états y voisins de x).

Un autre cas particulier important est celui où la probabilité Π a une forme exponentielle.

Définition 6.17 Soit E un ensemble fini, β > 0 une constante et V : E → R une fonction
définie sur E. La mesure de Gibbs associée à β et V est définie par :

exp(−β V (x))
Πβ (x) = , ∀x ∈ E ,
Z(β)

où la constante de normalisation Z(β) est la fonction de partition


X
Z(β) = exp(−β V (x)) .
x∈E

Intuitivement, β est l’inverse de la température et V (le plus souvent positive) est la fonction
d’énergie des états. L’utilisation de ces probabilités vient du fait qu’elles maximisent l’entropie
X
H(µ) = − µ(x) ln(µ(x))
x∈E

109
(avec la convention y ln(y)
R = 0 quand y = 0) parmi les probabilité µ sur E telles que l’énergie
moyenne
P du système E V (x) dµ(x) soit fixée
P égale à C. En Peffet, pour maximiser H(µ) =
− x∈E µ(x) ln(µ(x)) sous les contraintes x∈E µ(x) = 1 et x∈E V (x) µ(x) = C, on utilise la
méthode des multiplicateurs de Lagrange et on considère la fonction
! !
X X X
Φ(β, b, µ) = µ(x) ln(µ(x)) + β V (x) µ(x) − C + b µ(x) − 1 .
x∈E x∈E x∈E
∂Φ

Les équations ∂µ(x)
= 0 pour tout x ∈ E entraı̂nent que ln µ(x) + 1 + β V (x) + b = 0
(β, b, µ)

exp −β V (x)
pour tout x ∈ E. On en déduit que µ(x) = Z(β)
, où puisque µ est une probabilité,
P 
Z(β) = x∈E exp − βV (x) . Enfin la constante β est déterminée par la contrainte

X exp − β V (x)
V (x) =C.
x∈E
Z(β)

En multipliant cette égalité par Z(β) eβ C , ceci revient à chercher les zéros de la fonction
X  −β V (x)−C 
G(β) = V (x) − C e .
x∈E

Un calcul facile montre que G ≤ 0, limβ→−∞ G(β) = +∞ et limβ→+∞ G(β) = −∞ ; la fonction
G admet donc un seul zéro.
L’entropie mesure l’absence d’information sur le système. En effet, si l’énergie est constante
(qui traduit le fait qu’on ne dispose d’aucune information), la probabilité qui maximise l’en-
tropie, c’est à dire pour laquelle l’incertitude est maximale, est la probabilité uniforme. Au
contraire, si µ est une mesure de Dirac (il n’y a aucune incertitude) et l’entropie H(µ) est nulle.

Dans le cas d’une mesure de Gibbs Πβ , si la matrice de transition Q est symétrique et


irréductible, à une température fixée, il est inutile de calculer la fonction de partition Z(β)
puisque : h + i
α(x, y) = exp −β V (y) − V (x) .
Dans ce cas, l’algorithme est simplifié comme suit :
Initialiser X avec x0
t←0
Répéter
i←X
Produire j avec la probabilité Q(i, j)
Si V (j) < V (i)
X←j
Sinon  
Si Random < exp −β V (j) − V (i) faire
X ←j
Fin
Fin
t←t+1
Jusqu’à l’arr^
et de la simulation

110
6.5 Algorithme du recuit simulé.
Le but de cette méthode est de trouver le minimum global d’une fonction V : E → R
définie sur un ensemble E fini, mais trop grand pour faire une recherche systématique. Un
exemple typique est le célèbre « problème du voyageur de commerce » suivant : Un voyageur
de commerce doit visiter N clients dans N villes différentes et revenir à son point de départ ; il
cherche à minimiser la longueur du trajet à effectuer. Le nombre de permutations sur l’ensemble
des villes est N! et vaut environ 10159 si N = 100. Si on ne tient compte ni du point initial ni du
sens du parcours, le nombre de trajets peut être ramené à (N −1)! . La formule de Stirling donne
p π N − 1 −N 2
un équivalent du nombre « réduit » de trajets 2 N 2 e . Même pour 30 villes, le nombre
de trajets possibles est d’environ 1030 et pour se convaincre de l’impossibilité d’énumérer tous
ces trajets pour trouver le plus court, il suffit de voir que le nombre d’opérations élémentaires
qui pourraient avoir été effectuées par un ordinateur actuel qui aurait fonctionné depuis la
naissance de l’univers (voilà environ 2 × 1010 années) est d’environ 4 × 1026 . Un des problèmes
techniques est que les méthodes classiques (telles que la descente de gradient) risquent de rester
piégées dans des minima locaux de V . Le problème du voyageur de commerce ayant fait l’objet
de très nombreux travaux, certains algorithmes spécifiques sont plus efficaces que celui du recuit
simulé que nous allons présenter. Le recuit simulé a par contre l’avantage de pouvoir s’adapter
à de nombreuses situations où la fonction V que l’on cherche à minimiser possède de nombreux
minima locaux.

L’utilisation de mesures de Gibbs dans ce contexte est naturelle car, comme le montre le
résultat suivant, à basse température, elles se concentrent sur les états d’énergie minimale.

Proposition 6.18 Soit E un ensemble fini, V : E → R, m = min{V (x) , x ∈ E} le minimum


de V et E = {x ∈ E : V (x) = m} l’ensemble des points où V atteint son minimum. Pour tout
β > 0, soit Πβ la mesure de Gibbs définie par la définition 6.17. Alors quand β → +∞ (c’est
1
à dire quand la température converge vers 0), pour tout x ∈ E, limβ→+∞ Πβ (x) = |E| 1E (x) et
pour tout ε > 0, limβ→+∞ Πβ ({x ∈ E : V (x) ≥ m + ε}) = 0.

Démonstration : Puisque E est fini, il existe δ > 0 tel que inf y∈E
/ V (y) ≥ m + δ. Pour tout
β > 0 et x ∈ E,
exp(−β V (x)) exp(−β [V (x) − m])
Πβ (x) = P = P .
|E| exp(−β m) + y∈E/ exp(−β V (y)) |E| + y∈E
/ exp(−β [V (y) − m])

1
On en déduit que lorsque β → +∞, exp(−β[V (y)−m]) → 0 si y ∈ / E ce qui entraı̂ne Πβ (x) → |E|
−β m
si x ∈ E et Πβ (x) → 0 sinon. Enfin, puisque Z(β) ≥ e |E|, pour tout ε > 0,
X e−β (m+ε) |E|
Πβ (V ≥ m + ε) ≤ = e−βε . 2
x∈E
e−β m |E| |E|

On dit que la suite (Xn , n ≥ 0) est une chaı̂ne de Markov in-homogène si sa matrice de
transition à chaque instant dépend de l’instant, c’est à dire s’il existe une suite (Pn , n ≥ 1)
de matrices de transition sur E telle que pour tout n ≥ 0 et tout choix d’éléments xk ∈ E,
0≤ k ≤ n+1 :

P Xn+1 = xn+1 | X0 = x0 , · · · , Xn = xn = Pn (xn , xn+1 ) .

111
On en déduit que P (Xn+1 = y | X0 = x) = (P1 · · · Pn )(x, y) et que si ν0 désigne la loi de X0 , la
loi νn de Xn est νn = ν0 P1 · · · Pn . On construit la chaı̂ne in-homogène suivante :
On fixe une matrice de transition Q symétrique (c’est à dire telle que Q(x, y) = Q(y, x)
pour tout couple d’états x, y de E) et satisfaisant la condition de Doeblin (6.2). On se donne
une suite de paramètres (βn , n ≥ 1) qui croit vers +∞ et on construit la matrice de transition
Pn associée à Q et à la température 1/βn par l’algorithme de Hastings Metropolis, c’est à dire
en posant :
+
Pn (x, y) = Q(x, y) e−βn V (y)−V (x) si x 6= y , (6.12)
X
Pn (x, x) = 1 − Pn (x, y) .
y6=x

Il faut alors trouver une suite (βn , n ≥ 1), appelée schéma de température, telle que la
chaı̂ne ne reste pas piégée dans un minimum local de V , que l’on appelle un puits de potentiel.
La terminologie est inspirée de la métallurgie où le métal est refroidi lentement. Le problème
crucial est la vitesse de refroidissement, c’est à dire la vitesse de convergence de la température
1/βn vers 0. En effet, si le refroidissement est trop rapide, le système est « gelé » dans un
état qui ne correspond pas à un minimum du potentiel V , tandis que si le refroidissement est
trop lent, le temps de calcul devient trop long. Les résultats sur la vitesse de convergence sont
importants car ils donnent la précision de l’algorithme ; ils ne seront pas abordés et on renvoie
à [3] ou [7] pour plus de détails.
Dans le cas du problème du voyageur de commerce, on fixe la ville de départ et on tient
compte de l’ordre dans lequel les villes sont parcourues. On identifie un trajet à une permutation
et l’espace des états est donc l’ensemble SN des permutations de {1, · · · , N}. Partant d’un
trajet σ ∈ E, on sélectionne au hasard deux villes i et j et on les échange. Si i < j, le nouveau
trajet est donc σ ′ = (σ1 , · · · , σi−1 , σj , σi+1 · · · , σj−1 , σi , σj+1 , · · · , σN ). Si i = j, σ ′ = σ et
sinon il existe une transposition τ telle que σ ′ = τ ◦ σ. Le nombre de permutations σ ′ auxquelles
on peut accéder à partir de σ, que l’on appellera les voisins de σ, est donc N (N2−1) + 1 et on
prend comme matrice de transition
 Q(x, y) = N22 si x et y sont voisins et x 6= y ,

Q(x, x) = N1 ,
Q(x, y) = 0 si x et y ne sont pas voisins.

Cette matrice de transition est symétrique et nous allons vérifier qu’elle satisfait la condition
de Doeblin. Toute permutation y peut s’écrire comme la composée de la permutation x et
d’au plus N − 1 transpositions ; on a donc y = τN −1 ◦ · · · τ1 ◦ x où on désigne par τi , 1 ≤
i ≤ N − 1 soit une permutation, soit l’identité. Comme dans les deux cas, z et τi ◦ z sont
N −1
voisins, on a Q(z, τi ◦ z) ≥ N22 . On en déduit que QN −1 (x, y) ≥ N22 = α µ(y) où µ est la
N −1 −2N +2
probabilité uniforme sur E et où α = N! 2 N . On voit d’ailleurs que Q est irréductible
et apériodique. On pourra remarquer que la probabilité de transition « plus naturelle » définie
par Q̄(x, y) = N (N2−1) si x et y sont voisins et 0 sinon est symétrique, mais n’est pas apériodique
et ne satisfait pas non plus la condition de Doeblin.
−βn V (x)
Notons Πβn la probabilité définie par Πβn (x) = e Z(βn ) , qui est la probabilité invariante de
la chaı̂ne de Markov homogène de matrice de transition Pn . Puisque la suite βn converge vers
+∞, la suite de probabilités Πβn se concentre sur les points dont l’énergie V est proche du
minimum m de V . Il faut donc contrôler la norme en variation totale de la différence νn − Πβn .
Si cette norme est petite, l’énergie de Xn sera également proche de m quelque soit l’état initial
x0 .

112
Théorème 6.19 Soit E un ensemble fini, ν0 une probabilité sur E et Q une matrice de tran-
sition symétrique sur E qui satisfait la condition de Doeblin (6.2). Pour tout entier n ≥ 1,
soit βn = γ ln(n), Pn la matrice de transition définie par (6.12) et νn = ν0 P1 · · · Pn . Il existe
γ0 ∈]0, +∞[ tel que :
(i) Pour tout γ ∈]0, γ0 [ et toute loi initiale ν0 on a
lim kνn − Πβn k = 0 (6.13)
n→+∞

et si m = min{V (x) : x ∈ E}, pour tout ε > 0, limn→+∞ P (V (Xn ) ≥ m + ε | X0 = x) = 0.


(ii) Si γ > γ0 , il existe x ∈ E tel que limn→+∞ P (V (Xn ) > m | X0 = x) = 1.
La démonstration repose sur les trois lemmes techniques suivants.
Lemme 6.20 Soit δ(V ) = maxx∈E V (x) − minx∈E V (x) ; on a pour tout β et β ′ :
kΠβ − Πβ ′ k ≤ 2 |β − β ′| δ(V ) .
Démonstration : La mesure Πβ est inchangée quand on remplace V par V − m, où m =
minx∈E V (x). On peut donc supposer que m = 0 et que V ≥ 0. Sans perte de généralité, on
peut aussi supposer que β ≤ β ′ , ce qui entraı̂ne (β ′ − β) V (x) ≥ 0. On en déduit que pour tout
x∈E:
−β V (x) ′ ′
− e−β V (x) ≤ e−β V (x) 1 − e−(β −β) V (x) ≤ (β ′ − β) δ(V ) e−β V (x) .

e

En sommant sur x ∈ E, puis en divisant par Z(β) Z(β ′), on obtient :


e−β V (x) − e−β ′ V (x) ≤ (β ′ − β) δ(V ) Z(β) ,
X
|Z(β) − Z(β ′ )| ≤

x∈E

1 1 ′ 1
Z(β) − Z(β ′) ≤ (β − β) δ(V ) Z(β ′ ) .

Puisque Πβ et Πβ ′ sont des probabilités, on a :



X 1 1 ′ V (x)
−βV (x) −β
kΠβ − Πβ ′ k = Z(β) e
− ′)
e
x∈E
Z(β
1
X
−βV (x) −β ′ V (x)
X ′ 1 1
e−β V (x)

≤ e −e + −
Z(β) Z(β ′ )
Z(β) x∈E

x∈E
X e−βV (x) X e−β ′ V (x)
≤ (β ′ − β) δ(V ) + (β ′ − β) δ(V )
x∈E
Z(β) x∈E
Z(β ′ )
≤ 2 (β ′ − β) δ(V ) . 2
Notons +
κ = max 1{Q(x,y)>0} V (x) − V (y)
x,y∈E

le saut maximum d’énergie possible entre deux instants pour une chaı̂ne de Markov qui a Q
comme matrice de transition. Alors :

Lemme 6.21 Soit Q une matrice de transition qui satisfait la condition de Doeblin (6.2) avec
les constantes α et l. Pour tout couple de probabilités µ et µ′ sur E et pour tout entier n ≥ 1
on a :
k(µ − µ′ ) Pn+1 · · · Pn+l k ≤ 1 − α e−l γ κ ln(n+l) kµ − µ′ k .


113
Démonstration : Pour tout couple d’états x 6= y et tout entier k ≥ 1 on a :
+
Pk (x, y) = e−βk (V (y)−V (x)) Q(x, y) ≥ e−βk κ Q(x, y)
et puisque Pk (x, y) ≤ Q(x, y) si x 6= y,
X X
Pk (x, y) = 1 − Pk (x, y) ≥ 1 − Q(x, y) = Q(x, x) ≥ e−βk κ Q(x, x) .
y6=x y6=x

On en déduit que Pk (x, y) ≥ e−βk κ Q(x, y) pour tout x, y ∈ E. Puisque Q satisfait la condition
de Doeblin :
Pn+1 · · · Pn+l (x, y) ≥ e−(βn+1 +···+βn+l) κ Ql (x, y) ≥ e−γ κ l ln(n+l) α µ(y) .
Notons Q′ = Pn+1 · · · Pn+l et α′ = e−γ κ l ln(n+l) α. Le raisonnement fait dans la démonstration
du Théorème 6.6 pour l = 1 montre que k(µ − µ′ ) Q′ k ≤ (1 − α′ ) kµ − µ′ k. 2

Lemme 6.22 Soit (zk , k ≥ 0) une suite telle que z0 ≥ 0 et zk+1 Q ≤ (11− αk ) zk + bk avec
αk ∈]0, 1[ et bk ≥ 0 pour tout entier k ≥ 0. Notons A0 = 1 et Ak = k−1
i=0 1−αi pour tout k ≥ 1.
Alors pour tout entier k ≥ 1, on a :
k−1
A0 z0 1 X bi
zk ≤ + (Ai+1 − Ai ) . (6.14)
Ak Ak i=0 αi
P bi
En particulier, si i≥1 αi = +∞ et αi
→ 0 quand i → +∞, alors limk→+∞ zk = 0.

Démonstration : Puisque Ak+1 > 0, on a Ak+1 zk+1 ≤ Ak zk + Ak+1 bk pour tout entier k ≥ 1.
On en déduit par récurrence que
k−1
X
Ak zk ≤ A0 z0 + Ai+1 bi .
i=0

La majoration (6.14) est alors une conséquence immédiate du fait que Ai+1 = α1i (Ai+1 − Ai ). Si
P Q 1
la série i αi diverge, il en est de même du produit infini i 1−αi
et la suite Ak croit donc vers
+∞. Si le quotient bi /αi converge vers 0, pour tout ε > 0 il existe i0 tel que αbii ≤ ε si i ≥ i0 .
Notons M un majorant de la suite αbii puis k0 un entier tel que A−1 ε
k ≤ M Ai0 pour tout entier
k ≥ k0 . Alors pour tout k ≥ k0 :
k−1
1 X bi 1 Ak − Ai0
(Ai+1 − Ai ) ≤ M Ai0 + ε ≤ 2ε.
Ak i=0 αi Ak Ak
Pk−1 bi
On en déduit que lorsque k → +∞, la suite A1k i=0 αi (Ai+1 − Ai ) converge vers 0, ce qui
entraı̂ne que la suite zk converge vers 0. 2

Démonstration du Théorème 6.19 : Nous démontrerons seulement la partie (i) du Théorème


6.19 qui justifie la méthode et prouverons l’existence d’une constante γ0′ , non optimale, telle
que pour 0 < γ < γ0′ , limn kνn − Πβn k = 0. Pour alléger les notation, notons Πn pour Πβn où
βn = γ ln(n). Par définition, pour tout n, k ≥ 1, νn+k = νn Pn+1 · · · Pn+k et Πj = Πj Pj , d’où :
νn+k − Πn+k =(νn − Πn ) Pn+1 · · · Pn+k + (Πn − Πn+1 ) Pn+1 · · · Pn+k
+ (Πn+1 − Πn+2 ) Pn+2 · · · Pn+k + · · · + (Πn+k−1 − Πn+k ) Pn+k .

114
Si µ et µ′ sont deux probabilités sur E, on a

X X
′ ′
kµ Pj − µ Pj k ≤ (µ(x) − µ (x)) Pj (x, y)


y∈E x∈E
X X
≤ |µ(x) − µ′ (x)| Pj (x, y) = kµ − µ′ k . (6.15)
x∈E y∈E

Le lemme 6.20 permet alors de déduire que


k
X
kνn+k − Πn+k k ≤ k(νn − Πn ) Pn+1 · · · Pn+k k + kΠn+j−1 − Πn+j k
j=1
k
X
≤ k(νn − Πn ) Pn+1 · · · Pn+k k + 2 γ δ(V ) [ln(n + j) − ln(n + j − 1)]
j=1
 
n+k
≤ k(νn − Πn ) Pn+1 · · · Pn+k k + 2 γ δ(V ) ln . (6.16)
n
Il reste à majorer k(νn − Πn ) Pn+1 · · · Pn+k k. Si l est l’entier de la condition de Doeblin, notons
zk = kνkl − Πkl k. L’inégalité précédente et le lemme 6.21 entraı̂nent que
 
−γ κ l ln[(k+1)l] k+1
zk+1 ≤ (1 − αk ) zk + bk pour αk = α e et bk = 2 γ δ(V ) ln .
k
Il existe donc des constantes strictement positives c et c′ telles que lorsque k → +∞, αk ∼
c k −γ κ l et αbkk ∼ c′ k γ κ l−1 , d’où k αk = +∞ et limk αbkk = 0 si γ < κ1,l . Le lemme 6.22 montre
P

alors que limk→+∞ kνkl −Πkl k = 0. Pour tout j = 1, · · · , l −1, en appliquant j fois les inégalités
(6.15) et (6.16) à k(νkl − Πkl ) Pkl+1 · · · Pkl+j k, on déduit que
 
kl + j
kµkl+j − Πkl+j k ≤ kνkl − Πkl k + 2δ(V ) ln ,
kl
ce qui entraı̂ne limn→+∞ kνn − Πn k = 0. Puisque νn est la loi de Xn , la Proposition 6.18 permet
de conclure la démonstration de (i). 2

Remarque 6.23 Pour 0 < γ < γ0 , la vitesse de convergence de P (V (Xn ) ≥ m + ε) est de la


forme O(n−ε γ+δ ) pour tout δ > 0. Il faudrait donc prendre γ aussi proche que possible de γ0 ,
mais cette valeur est très difficile à calculer. Elle dépend de V et aussi de la matrice Q choisie et
il faut considérer que γ0 est inconnue. De plus, pour les praticiens, un schéma de température
logarithmique est trop lent et ils utilisent plus souvent des schémas de la forme βn = C nγ . En
fait, pour un nombre fixé n0 d’itérations, le schéma optimal est βn = a ln(n0 ) bn/n0 , avec des
paramètres a et b qu’il faut considérer comme inconnus (cf. [3]).

Concrètement, on utilise une approche empirique en essayant divers schémas de température


et en changeant éventuellement la matrice de transition Q. Une autre méthode consiste à laisser
la température constante sur des paliers.

Définition 6.24 Soit x ∈ / E. On dit que x communique avec E à hauteur h > 0 s’il existe
x0 , x1 , · · · , xj tels que x0 = x, xj ∈ E et :

Q(xi , xi+1 ) > 0 ∀i = 0, · · · , j − 1 et

115
V (xi ) ≤ V (x) + h , ∀i = 1, · · · , j .
La hauteur de communication h∗ de V est la plus petite hauteur h à laquelle tout élément x ∈
/E
communique avec E à hauteur h.

Nous admettrons le résultat suivant de Hajek (1988).


1
Théorème 6.25 Pour l’algorithme du recuit simulé avec le schéma de température T (n) = βn
,
on a limn P (Xn ∈ E) = 1 si et seulement si :
+∞
X
lim βn = +∞ et exp (−h∗ βn ) = +∞ .
n
n=1

La condition du Théorème 6.25 de Hajek est bien sûr vérifiée si βn = γ ln(n) avec γ ≥ h1∗
et la convergence est rapide si h est proche de h∗ . Deux problèmes se posent de nouveau :
concrètement, la valeur de h∗ est inconnue et on ne connaı̂t pas le temps d’atteinte du minimum
avec une précision donnée. Au lieu de recalculer βn à chaque instant n, on le fixe sur des paliers
de temps de plus en plus longs en imposant pour tout entier k ≥ 1 :

βn = k pour tout n ∈]e(k−1) h , ekh ] .

Si h > h∗ , ces paliers de temps sont assez longs pour que loi de la chaı̂ne définie par l’algorithme
de Metropolis et ayant comme probabilité invariante la mesure de Gibbs Π̃kP = Πβn pour n ∈
]e(k−1) h , ekh ] atteigne Π̃k à la fin du palier. Ainsi, pour h > h∗ la suite supx∈E y∈E |Pβm (x, y) −
Π(y)| converge vers 0 quand k → +∞. On pourra trouver des détails sur cette méthode et sur
son implémentation dans [23].
Dans le cas du voyageur de commerce, le programme Scilab suivant vient de [5]. Il permet
de trouver le trajet optimal avec N = 50 villes réparties de façon indépendante équidistribuée
de loi uniforme dans le carré unité. La matrice Q décrite précédemment, ainsi qu’avec une
matrice Q̃ plus efficace. La matrice Q̃ est définie de façon similaire à Q, avec une définition
différente de trajets voisins. Pour toute permutation σ ∈ SN , les permutations voisines de
σ sont les permutations σ̃ ′ déduites de σ en choisissant au hasard deux villes i et j, en les
échangeant et en changeant le sens du parcours entre les villes i et j, c’est à dire en posant
σ̃ ′ = (σ1 , · · · , σi−1 , σj , σj−1 , · · · , σi+1 , σi , σj+1 , · · · , σN ) si i < j.

Le programme principal recuit.sce est le suivant. Pour l’exécuter, taper exec recuit.sce
dans un terminal Scilab.

xset("default") ;
getf fonctionsrecuit.sci
// Nombre de villes
n=50 ;
//n=20 ;

// Villes aleatoires dans [0, 1]2


position=grand(n,2,’unf’,0,1) ;

// Nombre d’iterations de l’algorithme


N=60000 ;

116
Long=zeros(1,N) ;

// Trajet initial=permutation aleatoire de {1, · · · ,n}


trajet=grand(1,’prm’,[1 :n]’) ;

// fonction de temperature
function [beta]=schema temp(k)
beta=k/200 ;
endfunction ;
h=longueur(trajet,position) ;
trajet initial=trajet ;
trajet optimal=trajet ;

for i=1 :N,


n trajet=trajet voisin(trajet) ;
n h=longueur(n trajet,position) ;
if (n h<h) then
trajet=n trajet ;
h=n h ;
trajet optimal=trajet ;
elseif (grand(1,1,’unf’,0,1)<%e^(-schema temp(i)*(n h-h))) then
trajet=n trajet ;
h=n h ;
end ;
Long(i)=h ;
end ;

trajetfinal=trajet ;

// Graphe de l’evolution de l’energie


fenetre=1 ;
xset(’window’,fenetre) ;
xbasc() ;
plot2d([1 :N],Long) ;
xtitle([’Evolution de la longueur du trajet’]) ;

// Graphe des trajets


fenetre=2 ;
xset(’window’,fenetre) ;
xbasc() ;
xsetech([0.25,0,.5,.5])
dessin(trajet initial,position) ;
xtitle([’trajet initial’]) ;
xsetech([0.25,0.5,.5,.5])
dessin(trajet optimal,position) ;
xtitle([’trajet obtenu par recuit apres 60000 iterations’]) ;

Le programme principal fait appel au fichier de fonctions fonctionsrecuit.sci suivant.

117
On verra que deux versions de trajetvoisin sont données, la première avec la matrice Q et la
seconde avec la matrice Q̃. Les graphes sont donnés avec la version du fichier qui correspond à
Q̃, qui est plus efficace.
Le fichier fonctionsrecuit.sci est le suivant (avec la matrice Q̃) :

// Calcul d’un trajet voisin avec Q̃


// par permutation de deux villes et
// retournement du trajet entre les deux villes
function [x]=trajet voisin(y) ;
l=length(y) ;
i=grand(1,1,’uin’,1,l) ;
j=grand(1,1,’uin’,1,l) ;
x=y ; z=y ;
if (i-1<j) then
x([i :j])=y([j :-1 :i]) ;
else z=y([l :-1 :1]) ; x=z ; x([l-i+2 :l-j])=z([l-j :-1 :l-i+2]) ;
end ;
endfunction ;

// Calcul de la longueur d’un trajet


function [h]=longueur(perm,position) ;
n position=position(perm, :) ;
l=length(perm) ;
A=eye(l,l)-[zeros(l,1),eye(l,l-1)] ;
A(l,1)=-1 ;
B=A*n position ;
h=sqrt(sum(B.*B)) ;
endfunction ;

// Affichage d’un trajet


function dessin(trajet,position) ;
pos=position(trajet, :) ;
pos=[pos ;pos(1, :)] ;
plot2d(pos( :,1),pos( :,2),1,’000’) ;
endfunction ;
La fonction trajet voisin peut éventuellement être remplacée par la suivante, qui se
contente de permuter les villes i et j, ce qui correspond à la matrice Q.
// permutation de 2 villes
function [x]=trajet voisin(y) ;
l=length(y) ;
i=grand(1,1,’uin’,1,l) ;
j=grand(1,1,’uin’,1,l) ;
x=y ; z=y ;
x([i,j])=y([j,i]) ;
endfunction ;

118
Fig. 19 – Trajets pour 50 villes uniformément réparties dans un carré de façon indépendante

trajet initial trajet obtenu par recuit apres 20 000 iterations

trajet obtenu par recuit apres 60 000 iterations

119
Fig. 20 – Évolution de la longueur du trajet au cours des 60 000 itérations

Evolution de la longueur du trajet

4.8

4.4

4.0

3.6

3.2

2.8

2.4

2.0

1.6

1.2

0.8
0 1e4 2e4 3e4 4e4 5e4 6e4

6.6 Exercices
Exercice 6.1 Reprendre les exercices 3.8 et 3.21 et calculer la période des états. Les résultats
établis pouvaient-ils être prévus ?

Exercice 6.2 Démontrer l’inégalité (6.10).

Exercice 6.3 Soit E un ensemble fini ou dénombrable, p et q des probabilités sur E telles
que 0 < p ≤ C q où q est facile à simuler. Soit (Yn , n ≥ 1) une suite de variables aléatoires
indépendantes de même loi q et X0 une variable aléatoire à valeurs dans E indépendante de la
suite (Yn ). On définit la suite (Xn n ≥ 0) par récurrence à partir de X0 de la façon suivante :
(
Yn+1 avec la probabilité Cp(Y n+1 )
q(Yn+1 )
,
Xn+1 = p(Yn+1 )
Xn avec la probabilité 1 − C q(Yn+1 ) .

1. En considérant une suite (Un , n ≥ 1) de variables aléatoires indépendantes de loi U([0, 1])
et indépendante de (X0 , (Yn )), montrer que Xn+1 = f (Xn , Un+1 , Yn+1 ) et en déduire que
(Xn ) est une chaı̂ne de Markov.
2. Calculer la probabilité de transition Q de cette chaı̂ne.
3. Pour toute probabilité µ sur E, calculer µ Q et en déduire que la suite des lois de Xn
converge vers une unique probabilité invariante égale à p.
4. Quel rapport y a-t-il entre cette chaı̂ne de Markov et la méthode du rejet usuelle ?
P
5. Si E est fini, approximer x Φ(x) p(x) pour une fonction Φ : E → R. Que peut-on dire
de la vitesse de convergence ?

120
Exercice 6.4 (Échantillonneur de Gibbs) Soit (X1 , · · · , Xd ) un vecteur aléatoire prenant
ses valeurs dans Ed où E est un ensemble fini et soit p(x1 , · · · , xd ) la loi de ce vecteur.
On définit une chaı̂ne de Markov (X(n) , n ≥ 0) sur Ed comme suit : si X = X(n) est
donné, on choisit au hasard un entier i compris entre 1 et d et on modifie la ième coordonnée
suivant la loi conditionnelle de Xi sachant {Xj = xj , j 6= i}.
1. Montrer que la probabilité de transition de la chaı̂ne (X(n)) est définie pour x̄ = (xj , 1 ≤
j ≤ d) et ȳ = (x1 , · · · , xi−1 , y, xi+1 , · · · , xd ) pour un indice i = 1, · · · , d par :
1
Q(x̄, ȳ) = P (Xi = y | Xj = xj , j 6= i) .
d
et Q(u, v) = 0 sinon.
2. Donner un algorithme de simulation de la probabilité de transition Q(x̄, ȳ) quand on sait
simuler la loi conditionnelle P (Xi = y | Xj = xj , j 6= i).
3. Soit A un sous-ensemble de Ed ; on cherche à simuler une variable aléatoire de loi

p(x̄) 1{x̄∈A}
.
P ((X1, · · · , Xd ) ∈ A)

Écrire l’algorithme de Hastings Metropolis dans ce cas.


4. Que devient l’algorithme si A = Ed ?
5. Proposer un algorithme permettant de tirer d points uniformément répartis sur le cercle
conditionnellement à ce que la distance minimum entre ces points soit δ > 0.

Exercice 6.5 Écrire un algorithme de Metropolis pour la simulation des lois suivantes :
1. Loi sur l’ensemble de vecteurs d’entiers (k1 , · · · , kd ) dont la somme des composantes est
n telle que la probabilité d’un vecteur soit proportionnelle à sa première coordonnée.
2. Loi sur l’ensemble des sous-ensembles à n éléments de {1, · · · , d} telle que la probabilité
d’un sous-ensemble soit proportionnelle à la somme de ses éléments.

Exercice 6.6 Soit E = {0, 1}d l’ensemble des états dont les éléments sont notés η = (η(i) , 1 ≤
i ≤ d) avec η(i) ∈ {0, 1}. On dit que deux éléments de E sont voisins s’ils diffèrent en une seule
coordonnée i ∈ {1, · · · , d} ; on en déduit alors un graphe dont les sommets sont les éléments
de E et tels que l’ensemble des arêtes A est caractérisé par le fait que :
d
X
{η, ζ} ∈ A si et seulement si |η(i) − ζ(i)| = 1 .
i=1

Fixons γ ∈ [0, 1] et construisons la matrice de transition Q par :


 γ
 d si η et ζ sont voisins,
Q(η, ζ) = 1 − γ si η = ζ ,
0 sinon.

Pour γ = 0, Q est l’identité et pour γ = 1, Q est la matrice de la marche aléatoire symétrique


sur le graphe précédent défini sur l’hypercube ; dans ce cas la période est 2.
Dans la suite, nous supposerons que 0 < γ < 1.

121
1. Pour tout ξ ∈ E, notons χξ : E → {−1, +1} le caractère défini par :
χξ (η) = (−1)hξ , ηi .
d
Montrer que la famille (χξ , ξ ∈ E) est une base orthogonale de R2 et calculer la norme
de χξ .
2. Montrer que χξ est un vecteur propre de Q pour la valeur propre
d
2γ X
λξ = 1 − ξ(i) .
d i=1
3. En déduire que les valeurs propres de Q sont
2γ 4γ
1, 1− , 1− , · · · , 1 − 2γ ,
d d
la valeur propre 1 − 2 kd γ étant d’ordre de multiplicité Cdk .
4. Calculer α = sup{|λξ | : ξ ∈ E , λξ 6= 1}.
d
Nous supposons désormais que γ ≤ 1+d et considérons la base orthonormée de vecteurs
− d2
propres φξ définie par φξ (η) = 2 χξ (η). Le but est d’évaluer la puissance de Q nécessaire
pour que Qn approxime la probabilité invariante avec une précision fixée.
5. Montrer que Q est irréductible apériodique et admet une probabilité invariante réversible.
En utilisant l’équation (6.9), montrer que :
X 2 ln(2) d
2−d 2d Qm (η, ζ) − 1 < ε si m > d2 − ln(ε) .
ξ∈E
4 γ 4 γ

6. En utilisant (6.8), montrer que :


X 2 d ln(d) d
2−d 2d Qm (η, ζ) − 1 < ε si m> − ln(ln(1 + ε)) .
4γ 4γ
ξ∈E

L’ordre de grandeur du nombre de pas nécessaire est donc d ln(d)



et est très inférieur au
d
nombre d’états 2 .
7. On considère la chaı̂ne de Markov sur E simulée par l’algorithme suivant :
k←0
Initialiser η
n←0
Répéter
Choisir i de loi uniforme sur {1, · · · , d}
η(i) ← 1 − η(i)
Si Random < 0.5
Choisir j de loi uniforme sur {1, · · · , d}
η(j) ← 1 − η(j)
Fin
n←n+1
Jusqu’à n ≥ Palier
Jusqu’à l’arr^
et de la simulation
Déterminer les valeurs propres de la matrice de transition Q de cette chaı̂ne et évaluer la
vitesse de convergence de Qn vers sa probabilité invariante.

122
Références
[1] N. Bouleau et D. Lepingle, Numerical methods for stochastic processes, Wiley Series in
Probability and Mathematical statistics 1994.
[2] Brent, R.P., Uniform random number generators for supercomputers, Proc. Fifth Aus-
tralian Supercomputer Conference, Melbourne, December 1992, 95-104. Also Technical
Report TR-CS-92-02, March 1992.
[3] Catoni, O., Simulated annealing algortihms and Markov chains with rare transitions,
Séminaire de probabilités XXXIII, Lecture Notes in Mathematics 1709, p. 69-119, 1999.
[4] Chung, K.L., Markov chains with stationary transition probabilities, Srpinger Verlag, 1967.
[5] Delmas, J.F., Jourdain, B., Cours de Modèles Aléatoires : maı̂triser l’incertain, 2nde et
3ème années, Ecole Nationale des Ponts et Chaussées, avril 2003.
[6] Doob, J.L., Classical Potential Theory and Its Probabilistic Counterpart, Springer Verlag,
1984.
[7] Duflo, M., Algorithmes stochastiques, Mathématiques et Applications, vol. 23, Springer
Verlag, 1996.
[8] Durrett, R., Brownian Motion and Martingales in Analysis, Wadsworth, Belmont, Califor-
nia, 1984.
[9] Elie, L., Lapeyre, B., Intruduction aux Méthodes de Monte Carlo, Cours de l’Ecole Poly-
technique, Septembre 2001.
[10] Friedman, A., Stochastic Differential Equations and Applications, Volume 1, Academic
Press, 1975.
[11] J.E. Gentle, Random Number Generation and Monte Carlo Methods, Statistics and Com-
puting, Springer Verlag 1998.
[12] Karatzas, I., Shreve, S.E., Brownian motion and Stochastic Calculus, Spronger Verlag,
1991.
[13] Kloeden, P., Platen, E., Numerical Solution of Stochastic Differential Equations, Applica-
tions of Mahtematics, Stochastic Modelling and Applied Probability 23, Springer Verlag
1992.
[14] Kloeden, P., Platen, E., Schurz, Numerical Solution of SDE through Computer Experi-
ments, Universitext, Springer Verlag 1997.
[15] Knuth, D.E., Seminumerical Algorithms, 2nd edition, vol. 2 of The Art of Computer Pro-
gramming, Addison-Wesley, 1981.
[16] Lapeyre, B., Pardoux, E., Sentis, R., Méthodes de Monte-Carlo pour les équations de
transport et de diffusion, Matématiques et Applications 29, Springer Verlag 1998.
[17] Lapeyre, B., Sulem, A., Talay, D., Understanding Numerical Analysis for Financial Models,
Mai 2003, à paraı̂tre.
[18] L’Ecuyer, P., Random numbers for simulation, Communications of the ACM, p. 33-10,
1990.
[19] H. Neiderreiter, Random Number Generation and Quasi Monte Carlo Methods, Society
for industrial mathematics, 1992.
[20] Numerical Recipies in C, the art of scientific computing, Cambridge University Press 1992.
[21] Petritis, N., http ://perso.univ-rennes1.fr/dimitri.petritis/

123
[22] Talay, D., Tubaro, L., Expansion of the global error of numerical schemes solving stochastic
differential equations, Stochastic Analysis and Applications 8(4), 1991, p. 94-120.
[23] Ycart, B., Modèles et Algorithmes Markoviens, Mathématiques et Applications 39, Sprin-
ger Verlag 2002.

124

Vous aimerez peut-être aussi