Suquet Cours Deug Proba
Suquet Cours Deug Proba
Suquet Cours Deug Proba
Introduction au
Calcul des Probabilités
Probabilités à Bac+2 et plus si affinités. . .
Charles SUQUET
L2 2005–2006
Table des matières
1 Espaces Probabilisés 1
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 La probabilité comme fonction d’ensembles . . . . . . . . . . . 5
1.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Remarques sur le choix d’un modèle . . . . . . . . . . . . . . . 17
1.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2 Conditionnement et indépendance 29
2.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . 29
2.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.1.3 Quelques exemples . . . . . . . . . . . . . . . . . . . . 34
2.2 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.1 Indépendance de deux événements . . . . . . . . . . . 36
2.2.2 Indépendance mutuelle . . . . . . . . . . . . . . . . . . 39
2.2.3 Épreuves répétées . . . . . . . . . . . . . . . . . . . . . 40
2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
i
3.3.6 Lois de Poisson . . . . . . . . . . . . . . . . . . . . . . 63
3.3.7 Sur le caractère universel de la loi de Poisson . . . . . . 70
3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
ii
8.4 Lois à densité classiques . . . . . . . . . . . . . . . . . . . . . 199
8.4.1 Lois uniformes . . . . . . . . . . . . . . . . . . . . . . . 199
8.4.2 Lois exponentielles . . . . . . . . . . . . . . . . . . . . 201
8.4.3 Lois gaussiennes . . . . . . . . . . . . . . . . . . . . . . 204
8.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
iii
iv
Introduction
Issu du cours de Probabilités en DEUG MASS et MIAS, ce document
s’adresse à un public varié. Les étudiants de DEUG pourront y trouver une
rédaction détaillée de toutes les questions abordées en cours. Quelques déve-
loppements vont au-delà du strict programme et sont susceptibles d’intéresser
des lecteurs curieux ou plus avancés. Les outils mathématiques utilisés restent
néanmoins strictement dans le cadre du DEUG.
Ce premier tome 1 est consacré à ce que l’on appelle les probabilités dis-
crètes. Par rapport aux rudiments de calcul des probabilités enseignés au
lycée, l’innovation est la prise en compte de l’infini. Cette notion s’introduit
très naturellement en calcul des probabilités, par exemple dès qu’il s’agit de
modéliser des temps d’attente. On ne peut pas étudier avec un espace Ω
de cardinal fini une expérience aléatoire aussi simple que : « on lance un dé
jusqu’à la première obtention d’un six ». Nous nous posons donc la question
de la définition et de l’étude des probabilités sur des univers Ω infinis. Il est
possible au niveau du DEUG de faire une théorie assez rigoureuse si l’on
veut bien faire l’impasse sur les problèmes de construction (ou d’existence)
de tels espaces probabilisés infinis capables de modéliser correctement les
expériences aléatoires envisagées.
Le principal outil mathématique utilisé est celui des séries. Il permet
une étude classique assez complète des variables aléatoires discrètes. Cette
étude débouche sur deux grands théorèmes de convergence de la théorie des
probabilités : la loi des grands nombres et la convergence vers une loi gaus-
sienne qui sont discutés dans des cas simples dans les deux derniers chapitres.
Nous avons choisi de donner autant que possible des démonstrations de ces
théorèmes dans ces cas particuliers. Ces démonstrations sont instructives en
elles-mêmes et peuvent être considérées comme une introduction au cours
de Licence. Une autre particularité de ce document est la discussion sur les
questions de vitesse de convergence à propos des approximations (par une loi
de Poisson ou par une loi de Gauss). Trop souvent on trouve à ce sujet dans
la littérature des recettes qui, données sans justification, ressemblent plus à
1. Y en aura-t-il un deuxième ?
v
de la cuisine 2 qu’à des mathématiques.
Chaque chapitre contient une section d’exercices qui suit autant que pos-
sible l’ordre d’exposition du cours 3 . Certains sont des applications directes
du cours ou des sujets d’examen ou de D.S., d’autres des approfondisse-
ments. Leur niveau de difficulté n’a volontairement pas été indiqué a priori.
De même, on ne trouvera pas dans cette introduction de plan de lecture
détaillé pour chaque DEUG. De telles indications pourront être données en
cours ou en TD, mais je n’ai pas souhaité cloisonner a priori une curiosité
qui, pour un scientifique, est tout le contraire d’un vilain défaut. . .
Je remercie tous les collègues qui m’ont aidé directement ou indirectement
à rédiger ce polycopié et plus particulièrement Maurice Chamontin, Sylvie
Roelly et Marie-Claude Viano avec qui j’ai fait équipe en DEUG MASS et
MIAS. Il va de soi qu’ils ne portent aucune responsabilité pour les quelques
débordements auxquels j’ai pu me laisser aller ni pour les quelques fautes 4
que l’on ne manquera pas de trouver dans cette première édition 5 (septembre
1996).
Comme prévu ci-dessus, le deuxième tome n’a toujours pas été écrit et
un certain nombre d’erreurs ont été détectées dans la première édition et
corrigées dans la deuxième 6 (septembre 1997). Je remercie tous ceux qui m’en
ont signalé et plus particulièrement les étudiants de l’amphithéâtre de DEUG
MASS 96–97 pour leur vigilance. Merci également à Michel Lifshits pour
ses précisions sur l’historique du théorème de De Moivre-Laplace, à Youri
Davydov et Myriam Fradon pour d’utiles discussions ainsi qu’à tous les
chargés de TD de probabilités en DEUG MIAS pour leur participation active.
Last but not least, merci à Daniel Flipo qui avec patience et disponibilité
m’a fait bénéficier de ses compétences d’expert dans le traitement de texte
scientifique LATEX 2ε .
Les troisième et quatrième éditions de ce polycopié (septembre 1998 et
1999), ont bénéficié des amendements et corrections suggérés par Myriam
Fradon, Jeanne Devolder et Anne Philippe. C’est pour moi un plaisir
de les en remercier ici.
La cinquième édition (septembre 2000) de ce polycopié s’est enrichie
(alourdie ?) d’un chapitre sur les variables aléatoires réelles qui s’est sub-
2. Il y a souvent de bonnes raisons cachées derrière une recette qui peut paraı̂tre arbi-
traire. . .
3. Ces exercices ne se substituent pas aux séances de TD et à leurs fiches d’exercices
mieux adaptées à chacun des publics concernés.
4. Dont le nombre suit une loi de Poisson.
5. Remerciements anticipés à tout lecteur qui m’aidera à réduire le paramètre de ladite
loi pour la prochaine édition.
6. Qui ne prétend pas en être exempte, voir exercice 5.7 pour une modélisation.
vi
stitué à la promesse électorale d’un deuxième tome. Le titre a changé en
conséquence.
La sixième édition (septembre 2001) comprend quelques exercices sup-
plémentaires. La septième est inchangée, sauf la correction d’un quarantaine
(sic) de fautes de frappe ou d’orthographe. La plupart m’ont été signalées par
Denis Bitouzé de l’Université du Littoral que je remercie pour sa lecture
attentive. Je saisis l’occasion de cette huitième édition (septembree 2003)
pour remercier également Azzouz Dermoune, Jeanne Devolder, Daniel
Flipo, Myriam Fradon, Marguerite Zani, Gwénaëlle Castellan et Lau-
rence Marsalle pour la diffusion de ce polycopié à leurs étudiants des
DEUG MIAS et MASS et de la préparation au C.A.P.E.S. et à l’Agréga-
tion Interne.
http://math.univ-lille1.fr/~suquet/
vii
viii
Chapitre 1
Espaces Probabilisés
1.1 Introduction
La théorie des probabilités fournit des modèles mathématiques permet-
tant l’étude d’expériences dont le résultat ne peut être prévu avec une totale
certitude. En voici quelques exemples :
1
Chapitre 1. Espaces Probabilisés
1.2 Événements
Les opérations logiques sur les événements peuvent bien sûr faire interve-
nir plus de deux événements. Ainsi, si A1 ,. . ., An sont des événements,
n
∪ Ai = A1 ∪ A2 · · · ∪ A n
i=1
est l’ensemble des ω qui sont dans l’un au moins des Ai . C’est donc l’événe-
ment « réalisation de l’un au moins des Ai (1 ≤ i ≤ n) ». De même :
n
∩ Ai = A1 ∩ A2 · · · ∩ A n
i=1
est l’ensemble des ω qui sont dans tous les Ai . C’est donc l’événement « réa-
lisation de chacun des Ai (1 ≤ i ≤ n) ». Il est facile d’étendre ces définitions
aux réunions et intersections d’une suite infinie d’événements :
+∞
∪ ∗ Ai = ∪ Ai = {réalisation de l’un au moins des Ai , i ∈ N∗ },
i∈N i=1
+∞
∩ Ai = ∩ Ai = {réalisation de tous les Ai , i ∈ N∗ }.
i∈N∗ i=1
Ces opérations logiques sur des suites d’événements sont très utiles pour
analyser des événements complexes à l’aide d’événements plus simples et,
comme nous le verrons plus tard, calculer ainsi des probabilités. A titre
d’illustration, examinons la situation suivante.
Exemple 1.1 Alice et Bruno lancent le même dé à tour de rôle (Alice com-
mence). Le gagnant est le premier à obtenir un « six ».
On s’intéresse aux trois événements
A = {victoire d’Alice},
B = {victoire de Bruno},
D = {Il n’y a pas de vainqueur}.
Alice ne peut gagner la partie que lors d’un lancer de rang impair puisque
les lancers de rang pair sont ceux de Bruno. Alice peut donc gagner à l’un
des lancers 1, 3, 5, . . . , 2k + 1, . . . Alice gagne si et seulement si la partie se
termine par l’un de ces lancers. De même Bruno peut gagner aux lancers
2, 4, 6, . . . , 2k, . . . d’où :
[ [
A= F2k+1 B= F2k .
k∈N k∈N∗
et finalement :
[ 2k [ 2k−1
c
A= ∩ Sj ∩ S2k+1 , B= ∩ Sjc ∩ S2k .
j=1 j=1
k∈N k∈N∗
Remarquons que nous n’avons pas eu besoin de préciser dans quel ensemble Ω
on travaillait pour effectuer les décompositions d’événements ci-dessus. Seule
importait leur structure logique. Voici un choix possible (parmi d’autres) de
Ω : on prend l’ensemble des suites de chiffres ω de l’un des deux types suivants.
Soit ω est une suite finie de chiffres pris parmi {1, 2, 3, 4, 5} et terminée par
un 6. Soit ω est une suite infinie de chiffres pris parmi {1, 2, 3, 4, 5} (et donc
sans aucun 6). Remarquons qu’avec ce choix de Ω, D est l’ensemble des suites
∗
du deuxième type : D = {1, 2, 3, 4, 5}N .
On constate que Alice est légèrement avantagée par le fait de lancer la pre-
mière, ce qui est conforme à l’intuition. De plus par la propriété d’additivité
2.(b) ci-dessous, comme A, B et D sont trois événements disjoints dont la
réunion est Ω, on en déduit que P (D) = 0. La probabilité qu’il n’y ait aucun
vainqueur est donc nulle, ce qui là aussi est conforme à l’intuition. On remar-
∗
quera cependant que dans le modèle choisi pour Ω, D = {1, 2, 3, 4, 5}N est
très loin d’être vide, c’est même un ensemble très « gros » du point de vue
de la cardinalité : on peut démontrer qu’il est en bijection avec l’ensemble de
tous les nombres réels 4 .
3. ∀A ∈ F, P (Ac ) = 1 − P (A).
4. ∀A ∈ F, ∀B ∈ F, A ⊂ B ⇒ P (A) ≤ P (B).
5. ∀A ∈ F, ∀B ∈ F, P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
6. Continuité monotone séquentielle
(a) Si (Bn )n≥1 est une suite croissante d’événements de F conver-
gente 5 vers B ∈ F, alors P (B) = lim P (Bn ). Notation :
n→+∞
n
n X
(b) ∀A1 , . . . , An ∈ F, P ∪ Ai ≤ P (Ai ).
i=1
i=1
+∞
X
(c) ∀A1 , . . . , An , . . . ∈ F, P ∪ ∗ Ai ≤ P (Ai ).
i∈N
i=1
+∞
X
P (∅) = P ∪ Aj = P (Aj ) ≥ P (∅) + P (∅).
j∈N∗
j=1
D’après 1, la somme pour j ≥ n + 1 vaut 0, ceci prouve 2(b). Bien sûr 2(a)
n’est que le cas particulier n = 2.
Preuve de 3. Prendre B = Ac dans 2 (a) et utiliser (i).
Preuve de 4. Si A ⊂ B, alors B = A ∪ (B ∩ Ac ) et cette réunion est disjointe.
D’après 2 (a) on a P (B) = P (A) + P (B ∩ Ac ) et comme P (B ∩ Ac ) ≥ 0, on
en déduit P (B) ≥ P (A).
Preuve de 5. On a les décompositions suivantes en unions disjointes :
A ∪ B = (A ∩ B c ) ∪ (A ∩ B) ∪ (Ac ∩ B),
A = (A ∩ B c ) ∪ (A ∩ B),
B = (A ∩ B) ∪ (Ac ∩ B).
P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B)
= P (A ∩ B c ) + P (A ∩ B) + P (A ∩ B) + P (Ac ∩ B)
−P (A ∩ B)
= P (A) + P (B) − P (A ∩ B).
Comme cette série converge, sa somme est la limite de la suite de ses sommes
partielles de rang n, ce qui s’écrit :
n n
X o
P (B) = lim P (B0 ) + P (Bi \ Bi−1 ) = lim P (Bn ).
n→+∞ n→+∞
i=1
0 1B B \ B0 B2 \ B1
car P (A ∩ B) ≥ 0.
Preuve de 7(b). On remarque que pour tout n ≥ 1 on a :
n n
∪ Ai = ∪ Bi ,
i=0 i=0
où les Bi sont des événements deux à deux disjoints définis comme suit :
B0 = A0 , B1 = A1 ∩ B0c , B2 = A2 ∩ (B0 ∪ B1 )c , . . .
. . . Bn = An ∩ (B0 ∪ B1 ∪ . . . Bn−1 )c , . . .
Par additivité :
n
n n X
P ∪ Ai = P ∪ Bi = P (Bi ).
i=0 i=0
i=0
n
D n = ∪ Ai , D= ∪ Dn = ∪ Ai .
i=0 n≥1 i∈N
La suite (Dn )n≥1 est croissante et a pour limite D. Donc d’après 6(a),
P (Dn ) ↑ P (D) (n → +∞). D’après 7(b) on a :
n
X
∀n ≥ 1, P (Dn ) ≤ P (Ai ).
i=0
Les deux membres de cette inégalité étant les termes généraux de deux suites
croissantes de réels positifs, on obtient en passant à la limite quand n tend
vers +∞ :
X+∞
P ( ∪ Ai ) = P (D) ≤ P (Ai ).
i∈N
i=0
Ce qui prouve 7(c). Remarquons que les sommes partielles de la série convergent
dans R+ ∪ {+∞}. Bien sûr l’inégalité obtenue n’a d’intérêt que lorsque la
série de terme général P (Ai ) converge et a une somme strictement inférieure
à 1.
Le calcul de probabilités de réunions ou d’intersection est une question
cruciale. La propriété 5 montre qu’en général on ne peut pas calculer P (A∪B)
à partir de la seule connaissance de P (A) et P (B) et qu’on se heurte à la
même difficulté pour P (A ∩ B) (voir l’exercice 1.6). Le calcul des probabilités
d’intersections sera discuté au chapitre 2. Pour les probabilités de réunions,
on peut se demander comment se généralise la propriété 5 lorsqu’on réunit
plus de deux évènements. Il est facile de vérifier (faites-le !) que :
Le cas général est donné par la formule de Poincaré ci-dessous qui exprime
P (A1 ∪ · · · ∪ An ) à l’aide des probabilités de toutes les intersections des Ai :
2 à 2, 3 à 3, etc. L’exercice 1.12 sur le problème des appariements présente
une application de cette formule.
n+1 n h n i
P ∪ Ai = P ∪ Ai + P (An+1 ) − P ∪ Ai ∩ An+1
i=1 i=1 i=1
n n
= P ∪ Ai + P (An+1 ) − P ∪ (Ai ∩ An+1 ) .
i=1 i=1
n n
n+1 X X X
P ∪ Ai = P (Ai ) + (−1)k+1 P (Ai1 ∩ · · · ∩ Aik )
i=1
i=1 k=2 1≤i1 <i2 <...<ik ≤n
+ P (An+1 )
Xn n
X X
0
− P (Ai ) − (−1)j+1 P (A0i1 ∩ · · · ∩ A0ij )
i=1 j=2 1≤i1 <i2 <...<ij ≤n
n+1
X
= P (Ai ) (1.3)
i=1
Xn X
+ (−1)k+1 P (Ai1 ∩ · · · ∩ Aik ) (1.4)
k=2 1≤i1 <i2 <...<ik ≤n
n
X
+ (−1)2+1 P (Ai ∩ An+1 ) (1.5)
i=1
n
X X
+ (−1)(j+1)+1 P (Ai1 ∩ · · · ∩ Aij ∩ An+1(1.6)
)
j=2 1≤i1 <i2 <...<ij ≤n
Cela revient à vérifier que Tn+1 est égal à la somme des lignes (1.4) à (1.6) ci-
dessus. Partageons Tn+1 en deux blocs comme suit. Le premier bloc regroupe
tous les termes tels que ik < n + 1 (et donc ik ≤ n et k ≤ n). On le
retrouve exactement à la ligne (1.4). Le deuxième bloc regroupe tous les
termes pour lesquels ik = n + 1. Dans ce bloc, la somme des termes pour
lesquels k = 2 se retrouve ligne (1.5). Il reste alors la somme des termes pour
lesquels 3 ≤ k ≤ n + 1 et ik = n + 1 (donc ik−1 ≤ n). Cette somme est
exactement le contenu de la ligne (1.6), comme on peut le voir en faisant le
changement d’indice k = j + 1 dans (1.6). Ceci achève la récurrence.
1.4 Exemples
Nous examinons maintenant quelques exemples élémentaires.
Exemple 1.3 On effectue une partie de pile ou face en trois coups. Quelle
est la probabilité d’obtenir pile aux premier et troisième lancers ?
On peut modéliser cette expérience en prenant Ω = {f, p}3 et pour famille
d’événements observables F = P(Ω) l’ensemble de toutes les parties 7 de Ω.
La pièce étant supposée symétrique, nous n’avons a priori pas de raison de
supposer que l’un des 8 triplets de résultats possibles soit favorisé ou défa-
vorisé par rapport aux autres. Nous choisirons donc P de sorte que tous les
événements élémentaires aient même probabilité (hypothèse d’équiprobabi-
lité), soit :
1 1
∀ω ∈ Ω, P ({ω}) = = 3.
Card Ω 2
L’événement B dont on veut calculer la probabilité s’écrit :
B = {(p,f,p); (p,p,p)}.
D’où :
1 1 1
P (B) = + = .
8 8 4
Ces trois premiers exemples concernent le cas où l’on peut choisir Ω fini.
On peut caractériser complètement les probabilités sur les ensembles finis.
C’est l’objet de l’énoncé suivant.
et des n égalités
P ({ωi }) = pi , 1 ≤ i ≤ n.
Si on définit les réels pi par pi := P ({ωi }), il est clair qu’ils vérifient les
conditions requises.
Réciproquement, donnons nous une suite finie p1 , . . . , pn de réels positifs
de somme 1. Définissons la fonction d’ensemble Q sur (Ω, P(Ω)) de la manière
suivante :
(a) Q(∅) := 0.
(b) ∀i ∈ {1, . . . , n}, Q({ωi }) := pi . X
(c) ∀B ∈ P(Ω) (c.à.d. ∀B ⊂ Ω), Q(B) := pi .
ωi ∈B
Remarquons que (a) et (b) sont deux cas particuliers de (c) si l’on convient
qu’une somme indexée par l’ensemble vide (donc ayant 0 termes) vaut 0
et une somme indexée par un singleton donc ayant un seul terme vaut ce
terme. Nous allons vérifier que la fonction d’ensembles Q ainsi définie est
bien une probabilité sur (Ω, P(Ω)), autrement dit que Q vérifie les conditions
(i) (Q(Ω) = 1) et (ii) (σ-additivité) de la définition 1.1.
Vérification de (i) : En utilisant la définition de Q et l’hypothèse sur la
somme des pi :
X Xn
Q(Ω) = pi = pi = 1.
ωi ∈Ω i=1
Vérification de (ii) : Soit (Aj )j≥1 une suite de parties de Ω deux à deux
disjointes. Comme Ω est fini, seul un nombre fini m de Aj sont non vides
(m ≤ n). Notons les Aj1 , . . . , Ajk . . . , Ajm . Soit A leur réunion :
m
∪ ∗ Aj = ∪ Ajk = A.
j∈N k=1
D’après la définition de Q :
X
Q(A) = pi .
ωi ∈A
Dans cette somme finie, regroupons en un même paquet tous les pi indexés
par des ωi appartenant au même Ajk :
m
X X m
X
Q(A) = pi = Q(Ajk ).
k=1 ωi ∈Ajk k=1
Finalement
m
X +∞
X
Q ∪ ∗ Aj = Q(A) = Q(Ajk ) = Q(Aj ).
j∈N
k=1 k=1
Mais si tous les pi sont égaux, la série ci-dessus contient une infinité de termes
tous égaux à p0 . Sa somme vaut alors +∞ si p0 > 0 ou 0 si p0 = 0, il y a
donc une contradiction.
Proposition 1.5 Soit Ω = {ω0 , ω1 , . . . , ωi , . . .} un ensemble infini dénom-
brable (c’est-à-dire en bijection avec N). La donnée d’une probabilité sur
(Ω, P(Ω)) équivaut à la donnée d’une suite (pi )i∈N de réels tels que :
+∞
X
pi = 1, pi ≥ 0 (i ∈ N)
i=0
et des égalités
P ({ωi }) = pi , i ∈ N.
Exemple 1.6 (Une probabilité définie sur N, P(N) )
Soit a un réel strictement positif fixé. On pose :
e−a ak
∀k ∈ N, pk = .
k!
On remarque que pk est le terme général positif d’une série convergente :
+∞ −a k +∞ k
X e a −a
X a
=e = e−a ea = 1.
k=0
k! k=0
k!
D’après la proposition 1.5, P est une probabilité sur (N, P(N)). On l’appelle
loi de Poisson de paramètre a. Calculons par exemple P (2N) où 2N désigne
l’ensemble des entiers pairs.
+∞ −a 2l
X X e a 1
P (2N) = pk = = e−a ch a = (1 + e−2a ).
k∈2N l=0
(2l)! 2
1 2 3 4 5 6
1
2
3
4
5
6
Ce modèle (1) ou (10 ) est accepté d’autant plus facilement qu’on aura
précisé que les deux dés sont distinguables (par exemple un dé rouge et un
vert, ou deux dés blancs lancés chacun sur une table différente). On peut
ainsi distinguer l’événement {(2, 3)} de l’événement {(3, 2)} où la première
composante désigne le résultat du dé rouge. A la question : quelle est la
probabilité d’obtenir un 2 et un 3 et quelle est celle d’obtenir un double 6 ?
On répondra naturellement :
1.6 Exercices
[ n−1
A∪B = ∩ Sjc ∩ Sn .
j=1
n∈N∗
c \ n−1
c c
A∪B =A ∩B = ∪ Sj ∪ Snc .
j=1
n∈N∗
On en déduit :
\ n−1 \
∪ Sj ∪ Snc = Sjc .
j=1
n∈N∗ j∈N∗
8. En un sens qui sera précisé dans le chapitre sur la loi des grands nombres.
Ex 1.3. On effectue une suite infinie de lancers d’un dé. Pour tout i ∈ N∗ ,
on note :
Ai = {Obtention de l’as au i-ème lancer}.
1) Définir par une phrase ne comportant aucun vocabulaire mathéma-
tique chacun des événements :
+∞ 4 +∞
E1 = ∩ Ai , E2 = ∩ Aci ∩ ∩ Ai , E3 = ∪ Ai .
i=5 i=1 i=5 i>4
Proposition 1.6
r−1 n
a) L’équation (1.7) admet exactement Cn+r−1 = Cn+r−1 solutions à com-
posantes entières positives ou nulles ;
r−1
b) si n ≥ r > 1, l’équation (1.7) admet exactement Cn−1 solutions à
composantes entières strictement positives.
Voici une traduction plus concrète du problème. On dispose de n jetons iden-
tiques (il n’est donc pas possible de les distinguer) et de r boı̂tes numérotées
de 1 à r. Le cas a) donne le nombre de façons de répartir ces jetons dans les r
boı̂tes (certaines pouvant rester vides). Le cas b) donne le nombre de répar-
titions pour lesquelles aucune boı̂te ne reste vide. Dans cette interprétation,
xi représente le nombre de jetons déposés dans la boı̂te no i.
1) Démontrez la Proposition 1.6 b) en vous aidant du codage des répar-
titions possibles par des chaı̂nes de caractères, illustré par l’exemple suivant
avec n = 9 et r = 4. On représente d’abord chaque jeton par le caractère ’O’,
avec un espace entre deux caractères consécutifs :
O O O O O O O O O.
Pour représenter les 4 boı̂tes, il suffit d’insérer 3 caractères ’|’, chacun dans
un espace libre. Par exemple, la chaı̂ne
O O|O O O|O|O O O
code la répartition avec 2 jetons dans la première boı̂te, 3 dans la deuxième, 1
dans la troisième et 3 dans la quatrième, autrement dit la solution (x1 , x2 , x3 , x4 ) =
(2, 3, 1, 3).
2) Prouvez la Proposition 1.6 a), en utilisant le codage suivant illustré
à nouveau dans le cas n = 9 et r = 4. Le caractère ’|’ représente à la fois le
début et la fin d’une boı̂te (sauf s’il est le premier ou le dernier de la chaı̂ne).
Il nous en faut donc 5 pour représenter 4 boı̂tes. On représente encore chaque
jeton par un ’O’, mais cette fois on ne laisse plus d’espace entre les caractères
de la chaı̂ne. L’exemple de la question précédente sera alors codé par la chaı̂ne
de 14 caractères sans espaces :
|OO|OOO|O|OOO|.
Ceci permet de représenter une boı̂te vide par deux caractères ’|’ consécutifs.
Par exemple les chaı̂nes
|OO||OOOO|OOO|, |||OOOO|OOOOO|,
représentent respectivement les solutions (2, 0, 4, 3) et (0, 0, 4, 5).
3) Montrer que l’on peut passer du cas a) au cas b) par un simple
changement d’inconnue et utiliser cette remarque pour contrôler les résultats
précédents.
OLOLLOLOLLLOLOLO
Notre sociologue se demande si les voyageurs ont choisi leur place au hasard
parmi les places disponibles, ou s’ils ont cherché à s’isoler. Si les voyageurs
choisissent au hasard parmi les places disponibles, toutes les répartitions des
7 personnes sur les 16 places sont équiprobables. Pour se faire une idée, on
compte les séries. Une série est ici un bloc de lettres identiques encadré (sauf
s’il est en début ou en fin) par des lettres différentes. Dans l’observation
réalisée, il y donc 13 séries :
O, L, O, LL, O, L, O, LLL, O, L, O, L, O.
L. . .L} O.
| {z . .O} L.
| {z . .L} O.
| {z . .O} . . . . . . L.
| {z . .L} O.
| {z . .O} L.
| {z . .L}
| {z
y1 x1 y2 x2 yr xr yr+1
z1 = y1 + 1, zr+1 = yr + 1, zi = yi (2 ≤ i ≤ r).
2) Calculer PN (EN,0 ).
3) On fixe k nageurs retrouvant leurs affaires. Exprimer à l’aide de
PN −k (EN −k,0 ) le nombre de permutations des N − k autres nageurs telles
qu’aucun d’eux ne retrouve ses affaires. En déduire la valeur de PN (EN,k ).
4) Pour k fixé, calculer : pk = lim PN (EN,k ). Montrer que la suite
N →∞
(pk )k∈N définit une probabilité P sur N (il s’agit d’une loi de Poisson).
5) Montrer que :
1
∀k ∈ {0, . . . , N }, |PN (EN,k ) − pk | < .
k! (N + 1 − k)!
9. Toute ressemblance avec une piscine proche du campus ne serait pas forcément aléa-
toire.
En déduire :
n
X e
∀n ∈ {0, . . . , N }, |PN (EN,j ) − pj | ≤ .
j=0
(N + 1 − n)!
5
X
6) Application : après avoir vérifié que : 0.9994 < pj < 0.9995,
j=0
donner pour N ≥ 12 quelconque des valeurs numériques approchées à 10−4
près des PN (EN,j ) pour j = 0, 1, . . . 5 (ces valeurs ne dépendent pas de N ).
Même question pour la probabilité qu’au moins 6 nageurs retrouvent leurs
affaires.
1
∀n ∈ N∗ , P (nN) = .
n
et on souhaite réfuter cette conjecture.
1) Montrer que nécessairement P ({0}) = 0.
2) Prouver la relation
+∞
1 −1 1 −1 X X 1
1− 1− = k1 3k2
.
2 3 m=0 k +k =m
2
1 2
Conditionnement et
indépendance
NG∩H N P (G ∩ H) P (G ∩ H)
= = .
NH N P (H) P (H)
29
Chapitre 2. Conditionnement et indépendance
Définition 2.1 Soit H un événement tel que P (H) 6= 0. Pour tout événe-
ment observable A, on définit :
P (A ∩ H)
P (A | H) = ,
P (H)
appelée probabilité conditionnelle de l’événement A sous l’hypothèse H.
Remarquons que pour l’instant, il ne s’agit que d’un jeu d’écriture. On a
simplement défini un réel P (A | H) pour que :
P (A ∩ H) = P (A | H)P (H).
d’où :
r(r − 1)
P (A ∩ H) = .
(r + v)(r + v − 1)
Notons d’ailleurs que card H = r(r + v − 1) d’où
card H r(r + v − 1) r
P (H) = = = .
card Ω (r + v)(r + v − 1) r+v
ce qui est bien la valeur que nous avions attribuée a priori en analysant les
conditions expérimentales.
2.1.2 Propriétés
Proposition 2.2 Soit (Ω, F, P ) un espace probabilisé et H un événement
fixé tel que P (H) 6= 0. Alors la fonction d’ensembles P ( . | H) définie par :
P ( . | H) : F → [0, 1] B 7→ P (B | H)
2
Proposition 2.5 (Conditionnement par les cas possibles )
(i) Si H est tel que P (H) 6= 0 et P (H c ) 6= 0, on a
+∞
X
∀A ∈ F, P (A) = P (A | Hi )P (Hi ).
i=0
A=A∩Ω=A∩ ∪ Hi = ∪ (A ∩ Hi )
i∈N i∈N
et cette réunion est disjointe car les Hi étant deux à deux disjoints, il en est
de même pour les (A ∩ Hi ). Par conséquent par σ-additivité :
+∞
X +∞
X
P (A) = P (A ∩ Hi ) = P (A | Hi )P (Hi ).
i=0 i=0
On en déduit :
P (T ∩ V ) P (T | V )P (V )
P (V | T ) = =
P (T ) P (T | V )P (V ) + P (T | V c )P (V c )
0.95 × 0.005
= ' 0.323
0.95 × 0.005 + 0.01 × 0.995
On voit ainsi que contrairement à ce que l’on aurait pu croire le test n’est
pas fiable : si la personne présente un test positif, la probabilité qu’elle ne
soit pas porteuse du virus est deux fois plus élevée que celle qu’elle le soit !
2.2 Indépendance
2.2.1 Indépendance de deux événements
Soient A et B deux événements de probabilité non nulle. Il arrive que la
connaissance de la réalisation de A ne modifie pas notre information sur celle
de B, autrement dit que P (B | A) = P (B). C’est le cas par exemple lorsque
l’on fait un tirage avec remise et que la réalisation de A ne dépend que du
résultat du premier tirage, celle de B que du deuxième. Symétriquement on
aura dans cet exemple P (A | B) = P (A). Cette remarque se généralise :
P (A ∩ B) P (A ∩ B)
= P (B) ⇔ P (A ∩ B) = P (A)P (B) ⇔ = P (A).
P (A) P (B)
D’autre part la relation (iii) est toujours vérifiée dans le cas dégénéré où
P (A) = 0 ou P (B) = 0. En effet, on a alors à la fois P (A)P (B) = 0 et
0 ≤ P (A ∩ B) ≤ min P (A), P (B) = 0 d’où P (A ∩ B) = 0. Ainsi la relation
(iii) est un peu plus générale que (i) et (ii). Elle a aussi sur les deux autres
l’avantage de la symétrie d’écriture. C’est elle que l’on retient pour définir
l’indépendance.
P (A ∩ B) = P (A)P (B).
sont indépendants.
En effet, en prenant Ω = {1, 2, . . . , 6}2 , F = P(Ω) et P l’équiprobabilité,
on vérifie que :
3×6 1 6×1 1
P (A) = = , P (B) = = ,
36 2 36 6
3×1 1 1 1 1
P (A ∩ B) = = , P (A)P (B) = × = .
36 12 2 6 12
Remarques :
– Si A est un événement tel que P (A) = 0 ou P (A) = 1, alors il est
indépendant de tout événement, y compris de lui même (c’est le cas en
particulier pour Ω et ∅).
– Deux événements incompatibles A et B avec P (A) > 0 et P (B) > 0 ne
sont jamais indépendants. En effet A ∩ B = ∅ implique P (A ∩ B) = 0
or P (A)P (B) 6= 0.
– L’indépendance de deux événements A et B n’est pas une propriété in-
trinsèque aux événements, elle est toujours relative au modèle (Ω, F, P )
que l’on a choisi. Voici un exemple pour l’illustrer.
Définition 2.14 On dit que les épreuves sont indépendantes si toute suite
(Ai )i≥1 telle que la réalisation de chaque Ai est déterminée uniquement par
le résultat de la i-ème épreuve est une suite indépendante d’événements.
2.3 Exercices
Ex 2.1. Donner une CNS pour que P (A | H) = 1.
Ex 2.2. Un avion a disparu et la région où il s’est écrasé est divisée pour sa
recherche en trois zones de même probabilité. Pour i = 1, 2, 3, notons 1−αi la
probabilité que l’avion soit retrouvé par une recherche dans la zone i s’il est
effectivement dans cette zone. Les constantes αi représentent les probabilités
de manquer l’avion et sont généralement attribuables à l’environnement de
la zone (relief, végétation,. . .). On notera Ai l’événement l’avion est dans la
zone i, et Ri l’événement l’avion est retrouvé dans la zone i (i = 1, 2, 3).
1) Pour i = 1, 2, 3, déterminer les probabilités que l’avion soit dans la
zone i sachant que la recherche dans la zone 1 a été infructueuse.
2) Étudier brièvement les variations de ces trois probabilités condition-
nelles considérées comme fonctions de α1 et commenter les résultats obtenus.
∀A ∈ F, PH (A) := P (A | H).
On sait (cf. Prop 2.2) que PH est une nouvelle probabilité sur (Ω, F), on peut
donc l’utiliser pour construire de nouvelles probabilités conditionnelles. On
définit ainsi :
P (A | H2 | H1 ) := PH1 (A | H2 ).
A - B
C1 C2 C3 -
C1
A - -B
C2
C2 C3
A - - B
C1
C4 C5
[
Bn,k ⊂ ∩ Ai .
i∈F
F ⊂{1,...,n}
card F =k
3) En déduire que
X Y
P (Bn,k ) ≤ pi .
F ⊂{1,...,n} i∈F
card F =k
Pn
4) On note an = i=1 pi . Montrer que
X Y
akn ≥ k! pi .
F ⊂{1,...,n} i∈F
card F =k
5) Conclure.
4) Déterminer ∩ Cn .
n≥1
+∞ n +∞
X 1 Y 1 −1 Y 1 −1
∀a > 1, a
= ζ(a) = lim 1 − a
= 1 − a
.
k=1
k n→∞
i=1
p i i=1
p i
6) On peut retrouver cette formule par une calcul direct sur la série
définissant ζ(a). En voici le début :
+∞
X 1 X 1 X 1
ζ(a) = = +
k=1
ka ka ka
2|k 26 | k
1 X 1
= a ζ(a) +
2 ka
26 | k
On recommence avec la série (1−2−a )ζ(a) en séparant les termes dont l’indice
est un multiple de 3 des autres. . .Expliciter cette méthode et résoudre le
problème de convergence sous-jacent.
3.1 Introduction
Ω = {1, 2, 3, 4, 5, 6}2 .
51
Chapitre 3. Variables aléatoires discrètes
3.2 Généralités
3.2.1 Variable aléatoire discrète
Définition 3.1 Soit (Ω, F, P ) un espace probabilisé. On appelle variable
aléatoire discrète sur (Ω, F, P ) toute application X :
X : Ω −→ R ω 7→ X(ω),
vérifiant les deux conditions :
(i) L’ensemble des images X(Ω) = {X(ω), ω ∈ Ω} est une partie au
plus dénombrable de R. On peut donc numéroter ses éléments par des
indices entiers 1
X(Ω) = {x0 , x1 , . . . , xk , . . .}.
(ii) Pour tout xk ∈ X(Ω), Ak = {ω ∈ Ω, X(ω) = xk } fait partie de la
famille F d’événements auxquels on peut attribuer une probabilité par
P.
L’événement Ak est aussi noté X −1 ({xk }) (inverse ensembliste 2 ) ou plus com-
modément {X = xk }. Nous utiliserons l’abréviation v.a. pour variable aléa-
toire. Remarquons que la famille de tous les Ak forme une partition de Ω :
on classe chaque élément de Ω selon son image par X. Il en résulte :
X X
P (Ak ) = P (X = xk ) = 1.
xk ∈X(Ω) xk ∈X(Ω)
Dans cette écriture, les sommes sont des séries convergentes si X(Ω) est infini
et des sommes ordinaires lorsque l’ensemble X(Ω) est fini.
1. Pour tous les exemples classiques que nous rencontrerons, il est possible de les nu-
méroter de manière croissante : x0 < x1 < x2 . . .. Mais ce n’est pas toujours le cas, car
l’ensemble des valeurs possibles peut être par exemple les décimaux (ou les rationnels) de
[0, 1] (voir exercice 3.15).
2. Ceci ne suppose pas la bijectivité de X.
pk = PX ({xk }) = P (Ak ) = P (X = xk ),
On en déduit : P (X 6= Y ) = 5/6.
Remarque 2 : Deux variables aléatoires discrètes X et Y peuvent avoir
même loi sans que X(Ω) = Y (Ω). Cela vient du fait que pour certaines va-
leurs xk dans X(Ω) (ou yl ∈ Y (Ω)), on peut avoir P (X = xk ) = 0 (ou
P (Y = yl ) = 0). Bien sûr, on pourrait redéfinir X et Y de façon à effacer
ces valeurs particulières, ce qui reviendrait remplacer Ω par l’un de ses sous-
ensembles Ω0 . On ne fera pas cette convention 3 , car on a parfois intérêt à
laisser dans l’ensemble des valeurs possibles d’une v.a. des valeurs qui sont
atteintes avec une probabilité nulle. C’est le cas lorsqu’on étudie des pro-
blèmes de convergence de suites de v.a. (voir la discussion sur la loi forte des
grands nombres pour les fréquences).
On a aussi :
X
FX (x) = P (X = xk ).
xk ∈X(Ω)
xk ≤x
6
1
-
0 2 3 4 5 6 7 8 9 10 11 12 x
Supposons que les variables aléatoires X et Y aient même loi. Cela signifie
que pour tout B ⊂ R, PX (B) = PY (B). En choisissant B de la forme ]−∞, t],
t ∈ R, on en déduit que pour tout réel t, P (X ≤ t) = P (Y ≤ t) autrement
dit FX (t) = FY (t). Donc les fonctions FX et FY sont égales.
Réciproquement, supposons que les deux variables aléatoires discrètes X
et Y aient même fonction de répartition, ce qui signifie :
1 1 1
P (x − < X ≤ x) = P (X ≤ x) − P (X ≤ x − ) = FX (x) − FX (x − ).
n n n
\n 1 o
{X = x} = x− <X ≤x (3.5)
n∈N∗
n
P (X = 1) = p P (X = 0) = 1 − p = q.
On notera X ∼ B(p).
∀k = 0, 1, . . . , n, P (X = k) = Cnk pk (1 − p)n−k .
La formule ci-dessus définit bien une loi de probabilité puisque les Cnk pk (1 −
p)n−k sont positifs et :
n
X n
Cnk pk (1 − p)n−k = p + (1 − p) = 1n = 1,
k=0
Définition 3.9 La loi définie par (3.6) s’appelle loi hypergéométrique de pa-
ramètres N , M et n. Notation : X ∼ H(N, M, n). Le paramètre N est l’ef-
fectif de la population totale, M celui de la sous-population à laquelle on
s’intéresse et n la taille de l’échantillon observé.
Pour une taille d’échantillon n fixée, plus N et M sont grands, moins les
tirages sans remise diffèrent des tirages avec remise. Plus précisément, la loi
hypergéométrique converge vers la loi binomiale au sens suivant.
Théorème 3.10 On suppose que quand N tend vers +∞, M = M (N ) tend
vers +∞ en vérifiant la condition :
M
lim =p avec 0 < p < 1. (3.7)
N →+∞ N
autrement dit :
k
CM × CNn−k
−M
∀k = 0, 1, . . . , n, lim = Cnk pk (1 − p)n−k . (3.9)
N →+∞ CNn
Preuve : Remarquons d’abord que comme p est strictement positif, l’hypo-
thèse (3.7) implique que M tend vers +∞ avec N ; il en va de même pour
N − M puisque p < 1.
Pour n et k fixés, posons :
CMk
× CNn−k
−M
pN = n
CN
M! (N − M )! n!(N − n)!
= × ×
k!(M − k)! (n − k)! (N − M ) − (n − k) ! N!
M! (N − M )! (N − n)!
= Cnk × × . (3.10)
(M − k)! (N − M ) − (n − k) ! N!
Comme k est fixé et M tend vers +∞, la première fraction dans (3.10) est
le produit de k facteurs M , (M − 1), . . ., (M − k + 1) tous équivalents 6 à M
d’où :
M!
∼ M k, N → +∞. (3.11)
(M − k)!
6. Rappelons que deux suites (uN ) et (vN ) sont dites équivalentes lorsque uN = vN (1 +
εN ) avec εN tendant vers 0 quand N tend vers +∞ (notation : uN ∼ vN ).
i=1
∀k ∈ N∗ , P (X = k) = (1 − p)k−1 p.
Notation : X ∼ G(p).
Lorsque X suit une loi géométrique, les probabilités P (X > n) ont une
expression particulièrement simple en fonction de q = 1 − p . Calculons les
de deux façons.
Première méthode : On calcule le reste d’une série géométrique :
+∞
X +∞
X
P (X > n) = q k−1 p = ql p
k=n+1 l=n
+∞
X +∞
X
n l−n n
= pq q = pq qj
l=n j=0
n
pq
= = qn.
1−q
7. Mais pas borné par un nombre fixé choisi avant le début des épreuves. . .
On a donc bien :
+∞ +∞ k
X
−λ
X λ
P (X = k) = e = e−λ eλ = 1.
k=0 k=0
k!
alors :
λk
∀k ∈ N, Cnk pkn (1 − pn )n−k −→ e−λ , quand n → +∞.
k!
Preuve : L’hypothèse (3.15) peut s’écrire sous la forme plus maniable :
npn = λun avec un tendant vers 1 quand n tend vers +∞. Ainsi pn = λun /n
et
k k n−k n! 1 λ k k λun n−k
Cn pn (1 − pn ) = un 1 − . (3.16)
(n − k)! k! n n
Pour obtenir la limite de cette expression lorsque n tend vers +∞, k restant
fixé, on remarque successivement que :
n! 1
lim = 1, (3.17)
n→+∞ (n − k)! nk
λun n−k
lim 1− = e−λ . (3.19)
n→+∞ n
Pour justifier (3.19), on écrit :
λun n−k h λun i
1− = exp (n − k) ln 1 − , (3.20)
n n
puis comme λun /n tend vers 0 :
λun λu
n
(n − k) ln 1 − ∼n − ∼ −λ, (n → +∞).
n n
Par continuité de la fonction exponentielle, la limite du second membre de
(3.20) est donc bien e−λ , ce qui prouve (3.19). On obtient alors la conclusion
du théorème en passant à la limite dans (3.16).
Application pratique : Le théorème 3.13 sert de justification théorique à la
règle pratique suivante : lorsque n est « grand » et np « petit », on peut
remplacer la loi binomiale B(n, p) par la loi de Poisson P(λ) où λ = np. En
général on considère que n de l’ordre de quelques centaines et np de l’ordre de
quelques unités donnent une bonne approximation. Sous cette forme, cette
règle relève plus de la cuisine que des mathématiques. Il est possible par
des techniques élémentaires (voir exercice 3.19) de contrôler l’erreur commise
en utilisant cette approximation. Nous nous contenterons ici d’un exemple
classique et d’une comparaison graphique pour illustrer la qualité de cette
approximation.
Exemple 3.3 Le président d’un bureau de vote est né un 1er avril. Il décide
de noter le nombre X de personnes ayant leur anniversaire le même jour que
lui parmi les 500 premiers électeurs qui se présentent.
La situation peut être assimilée à une suite d’épreuves répétées indépen-
dantes et X est une variable aléatoire suivant la loi binomiale de paramètres
n = 500 et p = 1/365 (en négligeant la question des années bissextiles sinon
on prendrait p = 4/(3 × 365 + 366), ce qui ne changerait pas grand chose
numériquement). Ainsi :
1 k 364 500−k
k
P (X = k) = C500 .
365 365
La règle énoncée ci-dessus nous conduit à approximer la loi de X par une loi
de Poisson de paramètre :
1
λ = np = 500 × .
365
64 Ch. Suquet, Probabilités
3.3. Lois discrètes classiques
k 0 1 2 3 4 5
P (X = k) 0.2537 0.3484 0.2388 0.1089 0.0372 0.0101
e−λ λk
0.2541 0.3481 0.2385 0.1089 0.0373 0.0102
k!
Comparaison graphique :
Les diagrammes en bâtons ci-dessous représentent la loi binomiale B(n, p)
et la loi de Poisson approximante P(λ) avec λ = np. Les segments verticaux
(les bâtons) du diagramme représentant la loi d’une variable discrète X (
à valeurs dans N) ont une hauteur égale à P (X = k) avec une extrémité
inférieure au point d’abscisse k de l’axe horizontal. Pour la lisibilité, on a
légèrement décalé vers la gauche les bâtons de la loi de Poisson (en bleu)
et vers la droite ceux de la loi binomiale(en rouge). Bien que le diagramme
en bâtons de la loi binomiale B(n, p) soit constitué théoriquement de n + 1
bâtons (et que celui de la loi de Poisson en ait une infinité), seul un petit
nombre de bâtons est visible sur les graphiques, les autres correspondant à des
probabilités trop petites 8 . L’échelle verticale de chaque figure a été choisie de
façon adaptative de façon que l’avant dernière graduation verticale donne la
valeur de la plus grande probabilité binomiale. On constate que pour n = 200
(figure 3.4), la différence entre les deux diagrammes n’est pratiquement plus
discernable visuellement.
0.2663
0.2130
0.1598
0.1065
0.0533
0.0000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.255
0.204
0.153
0.102
0.051
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.249
0.199
0.150
0.100
0.050
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
0.247
0.197
0.148
0.099
0.049
0.000
-1 0 1 2 3 4 5 6 7 8 9 10 11 12 13
où
An = l observations avec au plus une dans chaque In,k ,
Bn = l observations avec au moins un In,k en contenant plusieurs .
e−λ λl
lim P (An ) = . (3.23)
n→+∞ l!
Majoration de P (Bn ) : Le calcul de P (Bn ) étant trop compliqué, nous nous
contenterons d’une majoration. La réalisation de l’événement Bn implique
l’existence d’au moins deux observations dans au moins l’un des intervalles
de longueur 1/n. Autrement dit :
n−1
[n hk k + 1h o
Bn ⊂ au moins deux observations dans , .
k=0
n n
Par conséquent
h k k + 1 h o
n−1 n
P (Bn ) ≤ P ∪ au moins deux observations dans ,
k=0 n n
n−1
X
≤ (rn − pn ) = n(rn − pn ) = npn εn .
k=0
D’après (c) et la convergence de npn vers λ, npn εn tend vers 0 quand n tend
vers +∞. Il en est donc de même pour P (Bn ).
Pour conclure, on remarque que (3.22) est vérifiée pour tout entier n ≥ 1
et que le premier membre de cette égalité ne dépend pas de n. Cette égalité
reste donc vraie à la limite :
e−λ λl
P (l observations dans [0, 1[) = lim P (An ) + P (Bn ) = ,
n→+∞ l!
d’après (3.23) et la majoration de P (Bn ). Ce résultat étant valable pour tout
entier l, nous avons donc démontré :
Théorème 3.14 Soit un phénomène donnant lieu à des observations aléa-
toires vérifiant les hypothèses :
(a) Les observations dans des intervalles de temps disjoints sont indé-
pendantes ;
(b) Pour tout réel t tel que 0 ≤ t < t + T ≤ 1 la loi du nombre (aléatoire)
d’observations dans l’intervalle [t, t + T [ ne dépend que de la durée T
de cet intervalle.
(c) En notant pn la probabilité d’avoir exactement une observation dans
un intervalle de temps de durée 1/n et rn celle d’en avoir au moins
rn − p n
une, εn = −→ 0, quand n → +∞.
pn
Alors le nombre aléatoire d’observations dans l’intervalle [0, 1[ suit la loi de
Poisson de paramètre λ défini par
λ = − ln(1 − r1 ).
3.4 Exercices
Ex 3.1. La propriété d’absence de mémoire
1) Montrer que si X est une v. a. de loi géométrique, elle vérifie la
propriété d’absence de mémoire suivante :
∀k ∈ N, ∀n ∈ N, P (X > n + k | X > n) = P (X > k). (3.24)
Interpréter ce résultat en considérant une suite d’épreuves répétées.
2) Trouver toutes les lois qui vérifient la propriété (3.24).
Indication : On notera G(n) = P (X > n) et on montrera que (3.24) se
traduit par une relation simple entre G(n + k), G(n) et G(k).
Ex 3.2.
1) Proposer des formules permettant de simplifier les expressions :
X X
F (x, y) = Cn2k x2k y n−2k , G(x, y) = Cn2k+1 x2k+1 y n−2k−1 .
0≤2k≤n 0<2k+1≤n
2) Soit X une variable aléatoire suivant la loi binomiale B(n, p). Calcu-
ler : P (X pair).
P (S = i, U = m) = P (S = i, T = m − i, V = 40 − m).
P (T = k) = (k − 1)p2 q k−2 , k ≥ 2.
+∞
X
f (x) := xk−1 ,
k=n+1
k
∀k ∈ N, P (X = k) = Cn+k−1 pn q k ,
on définit une loi de probabilité sur N. Cette loi s’appelle loi binomiale né-
gative de paramètres n et p.
3) On considère une urne contenant n1 boules vertes et n2 boules rouges.
On note p = n1 /(n1 + n2 ). On effectue des tirages avec remise d’une boule
dans l’urne jusqu’à l’obtention de la n-ième boule verte. Soit Y la variable
aléatoire égale au nombre de boules rouges ainsi tirées. Quelle est la loi de
Y?
Ex 3.9. On jette deux dés dont l’un est équilibré, l’autre est truqué de façon
inconnue. On note X, Y les nombres de points indiqués respectivement par le
dé équilibré et le dé truqué. La variable aléatoire X suit ainsi la loi uniforme
sur {1, . . . , 6}, tandis que la loi de Y nous est inconnue : on sait seulement
que l’ensemble des valeurs possibles de Y est {1, . . . , 6}, mais on ignore les
valeurs des P (Y = j) pour j ∈ {1, . . . , 6}. On suppose que le truquage
n’affecte pas l’indépendance des deux dés. On note R la variable aléatoire
égale au représentant dans {0, . . . , 5} de la classe d’équivalence de X + Y
modulo 6.
1) Montrer sans faire de calcul que pour tout r ∈ {0, . . . , 5} et tout
j ∈ {1, . . . , 6}, il existe un unique i ∈ {1, . . . , 6} tel que i + j = r modulo 6.
2) Expliquer pourquoi l’événement {R = r} est réunion de 6 événements
deux à deux disjoints du type {X = i, Y = j}. Expliciter cette décomposition
pour {R = 3}.
3) Calculer P (R = r) pour r ∈ {0, . . . , 5} et en déduire que R suit la
loi uniforme sur {0, . . . , 5} et ceci quelle que soit la loi de Y , c’est-à-dire quel
que soit le truquage du deuxième dé.
αk
P (N = k) = e−α k ∈ N.
k!
On suppose également que la probabilité de développement d’un oeuf est
p et que les oeufs sont mutuellement indépendants. On note S le nombre
(aléatoire) de survivants. Montrer que S suit une loi de Poisson de paramètre
pα.
2) En déduire que :
∀k ≥ 2λ − 1, P (X > k) < P (X = k).
Ex 3.19. Contrôle de l’erreur dans l’approximation poissonienne
On se propose de donner des résultats quantitatifs sur l’approximation de la
probabilité binomiale b(k, n, p) par e−λ λk /k! où λ = np.
1) Justifier l’encadrement suivant :
u2
∀u ∈ [0, 1[, exp −u − ≤ 1 − u ≤ exp(−u). (3.29)
2(1 − u)
Indication : Dans le développement en série entière de ln(1 − u), contrôler le
reste de rang 2 par une série géométrique.
2) En déduire que si 0 ≤ k ≤ n,
k−1
nk Y j nk (k − 1)k
Cnk = 1− ≤ exp − .
k! j=1 n k! 2n
3) En déduire que si n ≥ 2 et 0 ≤ k ≤ n :
e−λ λk k
b(k, n, p) ≤ exp (2λ + 1 − k) .
k! 2n
En particulier :
e−λ λk
∀k ≥ 2λ + 1, b(k, n, p) ≤ .
k!
En combinant cette inégalité avec le résultat de l’exercice 3.18, on en déduit
la majoration suivante de la queue de la loi binomiale :
n
X e−λ λk
∀k ≥ 2λ + 1, b(j, n, p) ≤ . (3.30)
j=k+1
k!
4.1 Introduction
Dans des situations où interviennent plusieurs variables aléatoires, le cal-
cul de la probabilité d’un événement dont la réalisation dépend des valeurs
de ces variables doit faire intervenir ces variables considérées dans leur en-
semble et non chacune isolément. On est amené à étudier ainsi une nouvelle
notion, celle de vecteur aléatoire. Commençons par préciser cette idée sur un
exemple élémentaire.
Il est clair que ces deux variables suffisent à décrire complètement l’expérience
puisque la composition de l’échantillon est déterminée par les valeurs de X
et Y : le nombre de rouges étant (3 − X − Y ). L’espace probabilisé associé
naturellement à cette expérience est l’ensemble de tous les échantillons pos-
sibles (il y en a C73 = 35) muni de l’équiprobabilité. Les valeurs possibles du
couple aléatoire (X, Y ) sont dans l’ensemble {0, 1, 2}×{0, 1, 2, 3}. Les proba-
bilités d’observation de ces valeurs P (X = i, Y = j) se calculent facilement
en faisant du dénombrement.
83
Chapitre 4. Vecteurs aléatoires discrets
↓ i\j → 0 1 2 3 P (X = i)
3 6 1 10
0 0 35 35 35 35
2 12 6 20
1 35 35 35
0 35
2 3 5
2 35 35
0 0 35
4 18 12 1
P (Y = j) 35 35 35 35
1
Dans la suite les ensembles de valeurs possibles pour les v.a. marginales X
et Y seront notés :
X(Ω) = {x0 , x1 , . . . , xi , . . .} et Y (Ω) = {y0 , y1 , . . . , yj , . . .}.
Il est facile de voir que la loi du couple (X, Y ) est caractérisée par les proba-
bilités PX,Y {(xi , yj } = P (X = xi , Y = yj ), pour xi ∈ X(Ω), yj ∈ Y (Ω).
Proposition 4.4 Si (X, Y ) est un couple aléatoire, ses lois marginales PX
et PY peuvent se calculer par :
X
∀xi ∈ X(Ω), P (X = xi ) = P (X = xi , Y = yj ), (4.1)
yj ∈Y (Ω)
X
∀yj ∈ Y (Ω), P (Y = yj ) = P (X = xi , Y = yj ). (4.2)
xi ∈X(Ω)
Preuve : Il suffit de faire la vérification pour (4.1), celle de (4.2) est analogue
en échangeant les rôles de X et Y . Pour i fixé, l’événement {X = xi } est la
réunion de la famille dénombrable d’événements 2 à 2 disjoints {X = xi , Y =
yj } (pour tous les j tels que yj ∈ Y (Ω)). La relation (4.1) s’en déduit par
σ-additivité.
Remarque : La connaissance de la loi du couple (X, Y ) permet de calculer
les lois marginales. Il importe de bien comprendre que la réciproque est fausse.
Il n’est généralement pas possible de calculer la loi PX,Y du couple aléatoire
(X, Y ) à partir de la seule connaissance de ses lois marginales PX et PY .
Voici un exemple élémentaire de deux couples aléatoires ayant mêmes lois
marginales sans avoir même loi (voir aussi l’exercice 4.1).
Exemple 4.2 On jette un dé bleu et un rouge. On note X les points indiqués
par le dé bleu, Y ceux du dé rouge et on pose Z = 7 − X. Alors les couples
aléatoires (X, Y ) et (X, Z) ont mêmes lois marginales mais pas même loi.
En effet il est clair que X, Y et Z suivent chacune la loi uniforme sur
{1, 2, 3, 4, 5, 6}. Les lois des couples sont données par les tableaux suivants
1 2 3 4 5 6 1 2 3 4 5 6
1 1 1 1 1 1 1
1 36 36 36 36 36 36
1 0 0 0 0 0 6
1 1 1 1 1 1 1
2 36 36 36 36 36 36
2 0 0 0 0 6
0
1 1 1 1 1 1 1
3 36 36 36 36 36 36
3 0 0 0 6
0 0
1 1 1 1 1 1 1
4 36 36 36 36 36 36
4 0 0 6
0 0 0
1 1 1 1 1 1 1
5 36 36 36 36 36 36
5 0 6
0 0 0 0
1 1 1 1 1 1 1
6 36 36 36 36 36 36
6 6
0 0 0 0 0
= P (X ∈ A)P (Y ∈ B).
Dans (4.5) nous avons utilisé les propriétés des séries à termes positifs (som-
mation par paquets, produit de deux séries).
Remarque : Si l’on connaı̂t la loi de X et celle de Y et si l’on sait que X et Y
sont indépendantes, alors on peut reconstruire la loi du couple (X, Y ) à partir
des lois marginales. Il suffit d’utiliser (4.4). Au risque d’insister lourdement,
rappelons que cette reconstruction n’est pas possible en général à partir de
la seule connaissance des lois de X et Y .
La proposition 4.8 peut se généraliser au cas des vecteurs aléatoires (énoncé
et démonstration laissés en exercice).
L’ensemble des valeurs possibles f X(Ω) = {f (x0 ), f (x1 ), . . .} est au plus
dénombrable 1 . f (X) est donc bien une variable aléatoire discrète (et de même
pour g(Y )).
Pour prouver l’indépendance de f (X) et g(Y ), il suffit d’après
la propo-
sition 4.8 de vérifier que pour tous s ∈ f X(Ω) , et t ∈ g Y (Ω) ,
P f (X) = s, g(Y ) = t = P f (X) = s P g(Y ) = t .
En utilisant (4.4) et le produit de deux séries à termes positifs, on obtient :
X
P f (X) = s, g(Y ) = t = P (X = xi , Y = yj )
xi :f (xi )=s
yj :g(yj )=t
X
= P (X = xi )P (Y = yj )
xi :f (xi )=s
yj :g(yj )=t
X X
= P (X = xi ) P (Y = yj )
xi :f (xi )=s yj :g(yj )=t
= P f (X) = s P g(Y ) = t .
1. On ne suppose pas f injective, on peutdonc très bien avoir X(Ω) infini dénombrable
et f X(Ω) fini. Dans tous les cas, f X(Ω) est en bijection avec une partie D de X(Ω)
obtenue en regroupant dans la même classe tous les éléments de X(Ω) ayant même image
par f et en choisissant un seul représentant dans chaque classe. Comme X(Ω) est au plus
dénombrable, il en est de même pour D ⊂ X(Ω).
e−α αi e−β β j
P (X = i) = , P (Y = j) = .
i! j!
4.4 Exercices
Ex 4.1. On jette un dé bleu et un rouge. On note X les points indiqués
par le dé bleu, Y ceux du dé rouge et on définit la variable aléatoire Z de la
manière suivante :
X(ω) si X(ω) ≤ 3,
Z(ω) = Y (ω) si X(ω) > 3 et Y (ω) > 3,
Y (ω) + 3 si X(ω) > 3 et Y (ω) ≤ 3.
Déterminer les lois des couples (X, Y ) et (X, Z). Vérifier que ces couples ont
mêmes lois marginales mais pas même loi.
| ∗∗ | ∗ ∗ ∗ || ∗ | ∗ |
Calculer P (Z = 0).
4) Application : Un match de coupe entre deux équipes de football
s’étant terminé sur un score nul, l’équipe qualifiée est désignée par la séance
des penaltys. Un joueur de l’équipe A tire un penalty face au gardien de
l’équipe B, puis un joueur de l’équipe B tire un penalty face à celui de l’équipe
A et ainsi de suite jusqu’à ce que chaque équipe ait tiré 5 penaltys. On admet
que la probabilité de réussir un penalty est dans chaque cas de 0, 7 et que
tous les tirs sont indépendants. Calculer la probabilité que les deux équipes
soient encore à égalité après avoir tiré chacune ses 5 penaltys. Calculer la
probabilité de qualification de A au bout de ses 5 penaltys.
5.1 Espérance
Définition 5.1 Soit X une variable aléatoire discrète vérifiant :
X
|xk |P (X = xk ) < +∞. (5.1)
xk ∈X(Ω)
97
Chapitre 5. Moments des v. a. discrètes
IE X = 0 × P (X = 0) + 1 × P (X = 1) = 0 × q + 1 × p.
réserve de justification :
+∞ +∞
X
k−1
X d k
IE X = kq p = p (x ) (5.4)
k=1 k=1
dx x=q
" +∞ #
d X k
= p x (5.5)
dx k=1
x=q
1 1
= p 2
= . (5.6)
(1 − q) p
Justification : La série entière de terme général xk a pour rayon de conver-
gence 1. On sait (cf. cours d’analyse) que sa somme est alors dérivable terme
à terme en tout point de ] − 1, +1[. Ceci légitime le passage de (5.4) à (5.5).
On remarque alors que :
+∞ +∞
d X k d X k d 1 1
x = x = = ,
dx k=1 dx k=0 dx 1 − x (1 − x)2
Remarques :
1. Si X et Y ont même loi, il est clair que IE X = IE Y . La réciproque est
fausse. Voici un contre exemple. On choisit X suivant la loi uniforme
sur {−1, +1} et Y suivant la loi uniforme sur {−2, 0, +2}. Les lois PX
et PY sont différentes, mais IE X = IE Y :
1 1
IE X = −1 × +1× = 0,
2 2
1 1 1
IE Y = −2 × + 0 × + 2 × = 0.
3 3 3
2. Il y a des lois sans espérance. Par exemple celle définie sur N∗ par :
+∞
c X 1 6
P (X = k) = , avec c = 1 soit c = .
k2 k=1
k 2 π 2
IE(X + Y ) = IE X + IE Y, (5.7)
IE(aX) = a IE X. (5.8)
X
∀zk ∈ Z(Ω), P (Z = zk ) = P (X = xi , Y = yj ), (5.9)
xi +yj =zk
la sommation étant étendue à tous les couples (xi , yj ) de X(Ω) × Y (Ω) vé-
rifiant la condition xi + yj = zk . Pour alléger les écritures, dans les formules
suivantes, nous abrégeons l’indexation par xi ∈ X(Ω) en indexation par i et
de même pour Y , j et Z, k.
X
IE Z = zk P (Z = zk ) (5.10)
k
X X
= zk P (X = xi , Y = yj )
k xi +yj =zk
X X
= (xi + yj )P (X = xi , Y = yj ) (5.11)
k xi +yj =zk
X
= (xi + yj )P (X = xi , Y = yj ) (5.12)
i,j
XX XX
= xi P (X = xi , Y = yj ) + yj P (X = xi , Y = yj(5.13)
)
i j i j
" #
X X
= xi P (X = xi , Y = yj )
i j
" #
X X
+ yj P (X = xi , Y = yj ) (5.14)
j i
X X
= xi P (X = xi ) + yj P (Y = yj ) (5.15)
i j
= IE X + IE Y. (5.16)
IE Y = 2P (Y = 2) + 14P (Y = 14).
On obtient de même :
Proposition 5.6 Si Z est une v.a. discrète ayant une espérance et si pour
tout ω ∈ Ω, |X(ω)| ≤ |Z(ω)|, alors X possède une espérance.
Preuve : Cet énoncé fait penser à la propriété suivante des séries : si pour
tout k ∈ N, |uk | ≤ |vk | et si vk est le terme général d’une série absolument
convergente, alors la série de terme général uk est aussi absolument conver-
gente. Malheureusement, la situation est ici plus compliquée pour la raison
suivante. Il peut y avoir plusieurs valeurs différentes 1 zl de Z(ω) lorsque ω
décrit l’événement fixé {X = xk }. Tout ce que l’on peut en dire est qu’elles
vérifient toutes |zl | ≥ |xk |. S’il n’y avait qu’une seule valeur zl = zk commune
à tous les Z(ω) pour ω ∈ {X = xk }, on serait ramené à l’énoncé sur les séries
en posant uk = xk P (X = xk ) et vk = zk P (Z = zk ).
Le point clé de la démonstration est la remarque suivante :
X
P (X = xk ) = P (X = xk , Z = zl )
zl ∈Z(Ω)
X
= P (X = xk , Z = zl ). (5.21)
zl ∈Z(Ω)
|zl |≥|xk |
Lorsqu’il existe, ce moment d’ordre r sera noté IE X r (ne pas confondre avec
(IE X)r ).
Lorsque X(Ω) est borné, (5.23) est vérifiée pour toute valeur de r (exercice)
et X possède des moments de tout ordre. Lorsque X(Ω) n’est pas borné, la
condition est d’autant plus contraignante que r est plus grand.
2. Inversement, on peut construire une variable aléatoire n’ayant pas d’espérance pour
laquelle cette convergence est aussi lente que l’on veut.
Comme X est positive, tous les termes du deuxième paquet sont positifs ou
nuls, par conséquent on obtient une minoration de IE X en les effaçant :
X
IE X ≥ xk P (X = xk )
xk : xk ≥t
X
≥ tP (X = xk ) = tP (X ≥ t).
xk : xk ≥t
5.3 Variance
Considérons un amphi de 100 étudiants venant de subir 3 un D.S. où la
moyenne de l’amphi a été 10. On choisit un étudiant au hasard et on désigne
par X sa note ; X(Ω) est l’ensemble des notes (toutes différentes) attribuées
à ce D.S.. Comme tous les choix d’étudiants sont équiprobables, pour tout
xk ∈ X(Ω),
Nombre d’étudiants ayant obtenu la note xk
P (X = xk ) = .
100
X
D’où : IE X = xk P (X = xk ) = 10.
xk ∈X(Ω)
Cette moyenne ne nous apporte pas une information très précise sur l’am-
phi. Elle peut être obtenue avec 100 étudiants ayant 10 aussi bien qu’avec
50 ayant 0 et 50 ayant 20 ou un grand nombre de situations intermédiaires
entre ces deux configurations extrêmes. Il est important pour compléter l’in-
formation apportée par la moyenne de disposer d’une quantité permettant de
mesurer la dispersion autour de cette moyenne. Le deuxième moment centré
de X, à savoir IE(X − IE X)2 joue ce rôle 4 .
Cette somme ou série à termes positifs ne peut être nulle que si tous ses
termes sont nuls, donc :
∀xk ∈ X(Ω), (xk − µ) = 0 ou P (X = xk ) = 0.
Autrement dit, pour tous les xk 6= µ, P (X = xk ) = 0. On en déduit P (X 6=
µ) = 0 et P (X = µ) = 1. La variable aléatoire X est donc égale presque
sûrement à la constante µ = IE X.
n n
2
X
2 1X 2
IE X = k P (X = k) = k
k=1
n k=1
1 n(n + 1)(2n + 1) (n + 1)(2n + 1)
= = .
n 6 6
En appliquant la formule de Koenig, on obtient :
(n + 1)(2n + 1) (n + 1)2 (n + 1)(n − 1)
Var X = − = .
6 4 12
D’où : n
X X
2
(Sn − IE Sn ) = Yi2 + Yi Yj .
i=1 1≤i,j≤n
i6=j
D’après l’exemple 5.8, on sait que IE Yi2 = Var Xi = pq. D’autre part,
IE(Yi Yj ) = IE (Xi − p)(Xj − p)
= IE(Xi Xj ) − p IE Xj − p IE Xi + p2
= IE(Xi Xj ) − p2 .
Il reste donc à calculer les IE(Xi Xj ) pour i 6= j. Comme les Xk ne peuvent
prendre que les valeurs 0 ou 1, il en est de même pour Zi,j = Xi Xj . C’est
donc une v.a. de Bernoulli de paramètre p0 donné par :
p0 = P (Xi Xj = 1) = P (Xi = 1, Xj = 1) = P (Xi = 1)P (Xj = 1) = p2 ,
en utilisant l’indépendance de Xi et Xj pour i 6= j. On en déduit IE(Xi Xj ) =
p0 = p2 et IE(Yi Yj ) = 0 pour i 6= j. En reportant ce résultat dans (5.26) il
vient : n
X
Var X = Var Sn = IE Yi2 = npq.
i=1
Exemple 5.13 On jette 3600 fois un dé. Minorer la probabilité que le nombre
d’apparitions du 1 soit compris strictement entre 480 et 720.
Notons S le nombre d’apparitions du 1. Cette variable aléatoire suit la loi
binomiale B(3600, 1/6). La valeur exacte de la probabilité qui nous intéresse
est :
719
X 1 k 5 3600−k
k
P (480 < S < 720) = C3600 .
k=481
6 6
Le calcul de la valeur exacte de cette somme nécessiterait l’écriture d’un
programme et une certaine puissance de calcul informatique. L’inégalité de
Tchebycheff est une alternative pratique à un calcul aussi déraisonnable. En
effet on a :
1 1 5
IE S = 3600 × = 600, Var S = 3600 × × = 500
6 6 6
et on remarque que 480 − 600 = −120, 720 − 600 = 120 d’où :
480 < S < 720 ⇔ −120 < S − 600 < +120 ⇔ |S − 600| < 120.
d’où :
{550 < S < 700} ⊃ {550 < S < 650}
et d’appliquer l’inégalité de Tchebycheff avec t = 50. Bien sûr le résultat
obtenu sera moins bon.
{S − IE S ≥ t} ⊂ {|S − IE S| ≥ t}.
On en déduit :
500
P (S ≥ t + IE S) = P (S − IE S ≥ t) ≤ P (|S − IE S| ≥ t) ≤ .
t2
Il suffit alors de choisir la plus petite valeur de t telle que 500/t2 ≤ 0.05 soit
t1 = 100. La valeur correspondante pour u étant u1 = t1 + IE S = 700.
5.4 Covariance
Le but de cette section est le calcul de la variance d’une somme de va-
riables aléatoires. L’inégalité de Tchebycheff montre l’importance d’un tel
calcul en vue des théorèmes de convergence. Le calcul de la variance d’une
loi binomiale (exemple
5.10) illustre le rôle
clé joué par des quantités comme
IE(Xi Xj ) et IE (Xi − IE Xi )(Xj − IE Xj ) . Nous allons généraliser l’étude de
ces quantités.
Si X et Y sont des variables aléatoires discrètes, leur produit XY est aussi
une v.a. discrète. En utilisant l’inégalité |XY | ≤ X 2 + Y 2 et les propositions
5.6 et 5.2, on voit qu’une condition suffisante pour l’existence de IE(XY )
est que X et Y possèdent des moments d’ordre deux. Lorsqu’elle existe,
l’espérance de XY se calcule par la formule suivante (justification laissée en
exercice) : X
IE(XY ) = xi yj P (X = xi , Y = yj ). (5.29)
xi ∈X(Ω)
yj ∈Y (Ω)
Pour compléter la preuve, il reste à montrer que les hypothèses IE |X| <
+∞ et IE |Y | < +∞ entraı̂nent IE |XY | < +∞. En remplaçant les x et
les y par leurs valeurs absolues dans les séries ci-dessus et en utilisant les
propriétés des séries à termes positifs (à somme éventuellement infinie), on
obtient IE |XY | = IE |X| IE |Y | d’où IE |XY | < +∞.
Remarque : La réciproque est fausse. Il peut arriver que IE(XY ) = IE X IE Y
sans que X et Y soient indépendantes. Prenons par exemple X suivant la loi
uniforme sur {−1, 0, 1} et Y = 1{X=0} . D’une part IE X = 0 et d’autre part
XY est identiquement nulle donc IE(XY ) = 0 = IE X IE Y . Clairement X et
Y ne sont pas indépendantes.
Regardons maintenant comment calculer Var(X + Y ) lorsque X et Y ont
des moments d’ordre 2 (ce qui entraı̂ne l’existence de cette variance. . .). En
utilisant la définition de la variance et la linéarité de l’espérance on obtient :
2
Var(X + Y ) = IE X + Y − IE(X + Y )
2
= IE (X − IE X) + (Y − IE Y )
= IE (X − IE X)2 + (Y − IE Y )2
+ 2(X − IE X)(Y − IE Y )
= Var X + Var Y + 2 IE (X − IE X)(Y − IE Y ) .
Cov(X, Y )
ρ(X, Y ) = .
σ(X)σ(Y )
Cov(X, Y ) = IE(XY ) − IE X IE Y.
Preuve : Nous avons déjà rencontré le cas n = 2 pour lequel (5.32) s’écrit :
5. Et même dans le cas encore plus général de v.a. Xi deux à deux non corrélées. . .
5.5 Exercices
Ex 5.1. Soit X une variable aléatoire discrète à valeurs dans N et d’espé-
rance finie.
1) Vérifier que
P (X > 0) ≤ IE X.
Donner un contre-exemple lorsque X n’est pas à valeurs entières.
2) On suppose que X a un moment d’ordre 2. Montrer que
1
P (X ≥ 2) ≤ IE X(X − 1).
2
Proposer et montrer une inégalité du même type s’il y a un moment d’ordre
k.
Ex 5.5. Dans une urne contenant au départ une boule verte et une rouge on
effectue une suite de tirages d’une boule selon la procédure suivante. Chaque
fois que l’on tire une boule verte, on la remet dans l’urne en y rajoutant une
boule rouge. Si l’on tire une boule rouge, on arrête les tirages. On désigne par
X le nombre de tirages effectués par cette procédure. On notera Vi (resp. Ri )
l’événement obtention d’une boule verte au i-ème tirage (resp. rouge).
1) Pour k ∈ N∗ , donner une expression de l’événement {X = k} à l’aide
des événements Vi (1 ≤ i ≤ k − 1) et Rk .
2) Que vaut P (Vn | V1 ∩ . . . ∩ Vn−1 ) pour n ≥ 2 ?
3) Déterminer la loi de X.
4) Calculer IE X.
5) Calculer l’espérance de la variable aléatoire X1 .
6) On recommence l’expérience en changeant la procédure : à chaque
tirage d’une boule verte on la remet dans l’urne en y rajoutant une boule
verte. Comme précédemment, on interrompt les tirages à la première appa-
rition d’une boule rouge. Soit Y le nombre de tirages effectués suivant cette
nouvelle procédure. Trouver la loi de Y . Que peut-on dire de l’espérance de
Y ? Interpréter.
· · · + (−1)n+1 P (A1 ∩ · · · ∩ An ).
Ex 5.8.
1) Soit Z une variable aléatoire de loi uniforme sur l’ensemble {1, 2, . . . , n}.
Calculer explicitement IE Z en fonction de n.
2) On considère l’expérience aléatoire suivante. On dispose au départ
d’une urne vide et d’autant de boules numérotées que l’on veut. Par un
procédé quelconque, on génère une variable aléatoire X à valeurs dans N∗
(on suppose pour simplifier que P (X = n) > 0 pour tout n ∈ N∗ ). Soit n
la valeur effectivement obtenue par ce procédé. On rajoute alors dans l’urne
n boules numérotées de 1 à n. On effectue enfin un tirage d’une boule dans
cette urne. Soit Y son numéro. On a ainsi :
1
si 1 ≤ k ≤ n,
P (Y = k | X = n) = n
0 sinon.
+∞
X
Calculer kP (Y = k | X = n).
k=1
1 1
3) On suppose que X a une espérance. Montrer que IE Y = IE X + .
2 2
Indication : Comme on ne connaı̂t pas la loi de Y , il est commode de démarrer
le calcul de la manière suivante :
+∞
X +∞ X
X +∞
IE Y = kP (Y = k) = k P (Y = k | X = n)P (X = n).
k=1 k=1 n=1
Ex 5.9. Soit X une variable aléatoire à valeurs dans N et ayant une espé-
rance.
1) Montrer que
lim nP (X ≥ n) = 0.
n→∞
Indication : On pourra utiliser, après l’avoir justifiée, l’inégalité :
+∞
X
nP (X ≥ n) ≤ kP (X = k).
k=n
n
X
2) Exprimer P (X ≥ k) à l’aide des P (X = k) (1 ≤ k ≤ n − 1) et de
k=1
P (X ≥ n).
3) En déduire que :
+∞
X
IE X = P (X ≥ k).
k=1
P (Y = k | X = n).
P (T = k | N = n) = P (Sn = k).
Notons que puisque ω est dans Ω0 , tous les termes de la série sont nuls à partir
du rang (aléatoire) N (ω) + 1, il n’y a donc pas de problème de convergence.
S est le nombre total de points obtenus, sauf dans le cas où il y a une infinité
de lancers. Comme celui-ci a une probabilité nulle, le fait de le laisser tomber
n’affecte pas la loi du nombre total de points obtenus qui est donc celle de S.
Après avoir justifié l’inclusion :
{S = k} ⊂ {12N ≥ k},
En déduire l’existence de IE S.
8) On définit sur Ω0 la variable aléatoire Rn = S − Sn−1 . Montrer qu’elle
vérifie :
Rn ≤ S1{S≥2n} .
En déduire que pour tout n ∈ N∗ :
0 ≤ IE S − IE Sn−1 ≤ IE(S1{S≥2n} ).
Ex 5.13. Montrer qu’une variable aléatoire bornée (i.e. X(Ω) est une partie
bornée 6 de R) a des moments de tout ordre.
Ex 5.14. Montrer qu’une loi de Poisson possède des moments de tout ordre.
Si X suit la loi P(λ), calculer IE(X − λ)3 et IE(X − λ)4 .
6. Pas forcément finie !
Ex 5.15. Soit X une variable aléatoire. On suppose qu’il existe une constante
a > 0 telle que IE exp(aX) < +∞. Que peut-on dire de la vitesse de conver-
gence vers 0 de P (X > t) quand t tend vers +∞ ? Donner un exemple de
v.a. non bornée vérifiant cette condition pour tout a.
σ 2 + u2
P (X ≥ t) ≤ P (X + u)2 ≥ (t + u)2 ≤ .
(t + u)2
Ex 5.21.
1) Donner un exemple très simple de couple (X, Y ) de v.a. non indé-
pendantes pour lequel on a IE(XY ) 6= IE X IE Y .
2) Donner un exemple de couple (X, Y ) de v.a. tel que le produit XY
ait une espérance sans que X ni Y n’aient de moment d’ordre 2.
7. Il n’est pas nécessaire de connaı̂tre la loi multinomiale (exercice 4.11) pour pouvoir
faire cet exercice.
kf k∞ = sup |f (x)|.
x∈[0,1]
1) Justifier la relation :
n
X
f (x) = Cnk f (x)xk (1 − x)n−k .
k=0
kf k∞
∀n ≥ 1, ∀x ∈ [0, 1], |f (x) − Bn f (x)| ≤ ε + (5.39)
2δ 2 n
Conclure.
6) On s’intéresse maintenant à la vitesse de convergence. Supposons
d’abord que f est lipschitzienne : il existe une constante a telle que
131
Chapitre 6. Loi des grands nombres
3. Sauf si l’on connaı̂t la loi de la v.a. ω 7→ n0 (ε, ω), ou au moins si l’on sait majorer
P (n0 > t). . .
Remarque : Nous avons en fait démontré un peu plus que la seule conver-
gence en probabilité. Nous avons d’après (6.3) une vitesse de convergence en
O(1/n). Si l’on connaı̂t Var X1 ou si on sait le majorer, on peut donc ré-
pondre à la question posée page 132 lors de l’introduction de la convergence
en probabilité.
Preuve : Il suffit d’appliquer la loi faible des grands nombres en notant qu’ici
IE X1 = p.
Interprétation : Considérons une suite d’épreuves répétées indépendantes.
Pour chaque épreuve la probabilité d’un « succès » est p. Notons Xi l’indica-
trice de l’événement succès à la i-ème épreuve. Alors :
Xn
Sn = Xi est le nombre de succès en n épreuves et Mn = n−1 Sn est la
i=1
fréquence des succès au cours des n premières épreuves. Remarquons que
pour tout ω, 0 ≤ Mn (ω) ≤ 1.
Var X1 p(1 − p)
P (|Mn − p| ≥ t) ≤ 2
= . (6.4)
nt nt2
Comme p est inconnu, on ne peut pas utiliser directement ce majorant. On
remplace alors p(1 − p) par :
1
sup x(1 − x) =
x∈[0,1] 4
Var X1 1
P (|Mn − p| ≥ t) ≤ 2
= (6.5)
nt 4nt2
d’où en passant à l’événement complémentaire :
1
P (Mn − t < p < Mn + t) ≥ 1 − . (6.6)
4nt2
En pratique on remplace Mn par la valeur réellement observée Mn (ω) et on
dit que I =]Mn (ω)−t, Mn (ω)+t[ est un intervalle de confiance (ou fourchette)
pour p. Le deuxième membre de (6.5) peut s’interpréter comme un majorant
de la probabilité de se tromper lorsque l’on déclare que p est dans I. On dit
aussi que I est un intervalle de confiance au niveau α ≥ 1 − 1/(4nt2 ).
(n, p − ε) et (n, p + ε). Elle ne nous dit rien sur le comportement individuel
de chaque trajectoire. Une trajectoire qui traverse ]p − ε, p + ε[ à la verticale
de n peut très bien sortir de la bande horizontale engendrée par ce segment
au delà de n. Une question naturelle est alors : existe-t-il des trajectoires
qui à partir d’un certain rang n0 = n0 (ω, ε) restent dans la bande {(x, y) ∈
R2 , x ≥ n0 et p − ε < y < p + ε} ? Nous allons montrer que l’ensemble des
trajectoires qui vérifient cette propriété pour tout ε > 0 a pour probabilité
1, autrement dit que Mn converge presque sûrement vers p.
Remarquons que l’inégalité de Tchebycheff est ici trop faible puisqu’elle nous
donne seulement une vitesse en O(n−1 ). En fait, on peut obtenir une vitesse
de convergence exponentielle grâce à l’inégalité suivante de Bernstein :
Nous admettons provisoirement cette inégalité dont une preuve est proposée
à l’exercice 6.7. A partir de maintenant, la démonstration se développe en 7
« pas » élémentaires.
1er pas : On rappelle la traduction automatique des quantificateurs. Si I est
un ensemble quelconque d’indices, (Pi ) une propriété dépendant de l’indice
Remarquons au passage que, sous cette forme, il est clair que l’ensemble C
est en fait un événement, c’est-à-dire un membre de la famille F de parties
de Ω sur laquelle est définie la fonction d’ensemble P . En effet, Mn étant une
variable aléatoire, les {|Mn − p| < εj } sont des événements et C s’obtient
par des opérations ensemblistes dénombrables sur ces événements. Il est donc
légitime de parler de la probabilité de C. Nous allons montrer que P (C) = 1.
4e pas : Nous venons de passer d’une infinité non dénombrable de ε à une
suite (εj ). Le lemme suivant va nous permettre de travailler avec une seule
valeur de ε.
Lemme 6.6 Si (Aj )j∈N est une suite d’événements ayant chacun une pro-
babilité 1, alors leur intersection a aussi une probabilité 1.
Preuve : Par passage au complémentaire, il suffit de prouver que la réunion
des Acj a une probabilité nulle. Or :
X
0≤P ∪ Acj ≤ P (Acj ) = 0,
j∈N
j∈N
puisque chaque P (Acj ) est nul par hypothèse. Nous avons utilisé ici la pro-
priété 7(c) de la proposition 1.2 pour majorer la probabilité d’une réunion
dénombrable d’événements (pas forcément disjoints).
Si l’on prouve que pour chaque ε > 0 fixé, P (Cε ) = 1 où
[ \
Cε = {|Mn − p| < ε},
k∈N n≥k
On a : \ [
B= Bk avec Bk = {|Mn − p| ≥ ε}.
k∈N n≥k
6.5 Discussion
Considérons une urne contenant 10 boules numérotées de 0 à 9. La loi
forte des grands nombres pour les fréquences nous dit que si l’on effectue
une suite illimitée de tirages avec remise d’une boule, la fréquence d’appari-
tion du chiffre 7 va converger vers 1/10 avec probabilité 1. Pour démontrer ce
théorème, nous avons admis implicitement l’existence d’un espace probabilisé
(Ω, F, P ) modélisant cette expérience (suite infinie de tirages avec remise).
La construction mathématique rigoureuse d’un tel modèle présente une réelle
difficulté qui est au coeur de la théorie de la mesure et relève du programme
de la licence de mathématiques. Nous nous contenterons de quelques considé-
rations élémentaires 6 sur cet espace probabilisé, utiles pour notre exploration
de la loi forte des grands nombres.
L’espace Ω doit être assez « riche » pour « supporter » une suite infinie
(Yi )i≥1 de v. a. indépendantes et de même loi uniforme sur {0, 1, 2, . . . , 8, 9}.
La variable aléatoire Yi s’interprète comme le numéro Pn obtenu lors du i-ième
−1
tirage. On pose alors Xi = 1{Yi =7} et Mn = n i=1 Xi est la fréquence
d’aparition du 7 en n tirages.
Nous allons examiner deux choix possibles pour Ω. Le premier et le plus
naturel est de prendre :
∗
Ω = {0, 1, 2, . . . , 8, 9}N .
Autrement dit un élément quelconque ω de Ω est une suite (ci )i≥1 de chiffres
décimaux. Le choix de la famille F d’événements observables est plus dé-
licat. On ne peut pas prendre l’ensemble de toutes les parties de Ω car on
6. Tout est relatif. . .
∀n ≥ 1, 0 ≤ P ({ω0 }) ≤ 10−n .
B= ∩ {Yi = 0 ou 1}.
i∈N∗
n
On a donc pour tout n ≥ 1, B ⊂ Bn = ∩ {Yi = 0 ou 1}, d’où
i=1
2 n
∀n ≥ 1, 0 ≤ P (B) ≤ P (Bn ) = .
10
ω0 = ( 7, 7 , 8, 8, 8, 8, 7, . . . , 7, 8, . . . , 8, 7, . . . . . . , 7, . . . . . .).
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2
ω = ( 7, ∗ , 8, 8, 8, ∗, 7, . . . , 7, ∗, 8, . . . , 8, ∗, 7, . . . . . . , 7, ∗, . . . . . .)
|{z} | {z } | {z } | {z } | {z }
2 22 62 422 (42+422 )2
ω ∈ [0, 1] n’est pas décimal, Yi (ω) = Yi0 (ω) est le i-ème chiffre décimal de
l’unique développement décimal de ω. Si ω est un décimal de [0, 1], Yi (ω) est
le i-ème chiffre de son développement propre, Yi0 (ω) le i-ème chiffre décimal
de son développement impropre. On requiert, comme dans le premier modèle
que chacune de ces deux suites soit indépendante et que chacune des variables
Yi et Yi0 suive la loi uniforme sur {0, 1, . . . , 8, 9}. Ceci permet de montrer que
chaque événement élémentaire ω doit avoir une probabilité P 0 nulle. D’autre
part, Yi et Yi0 diffèrent seulement sur l’ensemble D des décimaux de [0, 1] qui
est dénombrable (voir exercice 3.15), donc de probabilité P 0 nulle. Ainsi les
deux suites (Yi )i≥1 et (Yi0 )i≥1 sont égales P 0 -presque sûrement. Il est donc
quand même possible d’interpréter la suite illimitée de tirages dans l’urne
comme le choix aléatoire d’un réel ω de [0, 1] suivant la loi de probabilité P 0 .
On peut maintenant examiner les conséquences de notre cahier des charges
(les conditions sur les suites de v.a. (Yi )i≥1 et (Yi0 )i≥1 ) sur la construction de
(F 0 , P 0 ). La condition d’indépendance de la suite (Yi )i≥1 avec même loi uni-
forme sur {0, 1, . . . , 8, 9} pour tout Yi peut s’écrire comme suit. Pour tout
n ≥ 1, et tout n-uplet (c1 , . . . , cn ) de chiffres décimaux,
n
0
Y 1
P (Y1 = c1 , Y2 = c2 , . . . , Yn = cn ) = P 0 (Yi = ci ) = .
i=1
10n
(ou à chacune des conditions obtenues avec [a, b[, ]a, b] ou ]a, b[). Par conti-
nuité monotone de P 0 , on en déduit que (6.15) s’étend au cas de réels a, b > a
quelconques de [0, 1] : il suffit de considérer deux suites de décimaux an ↑ a
et bn ↓ b et de noter que [a, b] = ∩n≥1 [an , bn ] (détails laissés en exercice).
Nous voyons maintenant que le problème de la construction de (F 0 , P 0 ) est
exactement celui de la construction d’une fonction d’ensemble σ − additive
prolongeant la fonction longueur d’un intervalle. Ce problème est celui de la
construction de la mesure de Lebesgue. On peut le résoudre en prenant pour
F 0 la plus petite famille d’événements observables (toujours au sens de la page
5) contenant les intervalles. On arrive ainsi à définir la longueur ou mesure de
Lebesgue des sous ensembles de [0, 1] qui sont dans F 0 . Si un tel sous ensemble
est de la forme B = ∪i≥1 ]ai , bi [ où les suites (ai ) et (bi ) vérifient pour tout
n : 0 ≤ an < bn ≤ an+1 < bn+1 ≤ 1, alors B est une réunion disjointe
d’intervalles et sa probabilité P 0 ou longueur est évidemment la série de
terme général la longueur de ]ai , bi [. Malheureusement, tous les éléments de la
famille F 0 sont loin d’avoir une structure aussi simple et le calcul explicite de
leur longueur n’est pas toujours possible (on sait qu’elle existe et on connaı̂t
ses propriétés). Nous connaissons déjà un exemple d’élément de F 0 qui ne
peut pas s’écrire comme réunion dénombrable d’intervalles disjoints, c’est
l’événement C7 = {convergence de la fréquence du chiffre 7 vers 1/10}. En
effet par densité des décimaux, tout intervalle contient au moins un décimal
(en fait une infinité) et si ω est décimal, Yi (ω) = 0 à partir d’un certain
rang (de même Yi0 (ω) = 9) par conséquent Mn (ω) converge vers 0 donc
ω∈ / C7 . Ainsi C7 ne peut s’écrire comme réunion dénombrable d’intervalles
disjoints. Nous savons pourtant calculer sa longueur par la loi forte des grands
nombres : elle vaut 1.
Dans toute cette section nous nous sommes intéressés à la fréquence d’ap-
parition du 7. Bien sûr ce chiffre n’a été choisi que pour fixer les idées et
n’importe quel autre chiffre décimal aurait tout aussi bien fait l’affaire. Pour
généraliser un peu définissons Mn,j comme la fréquence d’apparition du chiffre
j (j ∈ {0, 1, . . . , 8, 9}) au cours des n premiers tirages. Notons de même Cj
l’événement {Mn,j converge vers 1/10}. Par la loi forte des grands nombres,
chaque Cj a une longueur (i.e. une probabilité P 0 ) égale à 1. Par le lemme
6.6, l’intersection de ces dix ensembles a aussi une longueur 1.
Convenons d’appeler nombre normal tout réel de [0, 1] tel que la fréquence
de chacun des 10 chiffres décimaux 0, 1, . . . 9 dans le développement décimal
illimité de ce nombre converge vers 1/10. Nous avons ainsi obtenu un résultat
de théorie des nombres qui s’énonce ainsi : l’ensemble de tous les nombres
normaux de [0, 1] a pour longueur 1 (on dit aussi presque tout nombre de
[0, 1] est normal). Ce résultat est dû à Borel. On pourrait maintenant traduire
tous les exemples étudiés dans le cadre du premier modèle et voir ainsi que
l’ensemble de longueur nulle des nombres non normaux a une structure très
complexe. Là encore, le théorème de Borel est plus profond qu’il n’y paraı̂t
à première vue. . .
6.6 Exercices
Ex 6.1. Montrer que si Xn converge presque sûrement vers X et Yn converge
presque sûrement vers Y , il existe un événement Ω0 de probabilité 1 tel que
pour tout ω ∈ Ω0 , le couple (Xn (ω), Yn (ω)) converge vers (X(ω), Y (ω)). En
déduire que pour toute fonction continue g : R2 → R, la suite de v.a. g(Xn , Yn )
converge presque sûrement vers g(X, Y ). Applications : g(x, y) = x + y,
g(x, y) = xy,. . .
Vérifier que la suite (Ak )k≥1 est croissante pour l’inclusion et identifier sa
réunion. En déduire :
puis :
∀n ≥ k0 , P (|Xn − X| < ε) > 1 − η.
4) Conclure.
Ex 6.5. Reprendre les calculs des exemples 6.2 et 6.3 avec un niveau de
confiance de 99%.
(b − a)2
IE (exp(Z − IE Z)) ≤ exp
8
Une condition suffisante pour qu’une fonction soit convexe sur I est qu’elle
I. Soit t > 0 et d ∈ R. On définit la
ait une dérivée seconde positive sur
fonction g par g(x) = exp t(x − d) . Vérifier sa convexité et en déduire :
b − x t(a−d) x − a t(b−d)
∀x ∈ [a, b], et(x−d) ≤ e + e (6.16)
b−a b−a
2) On pose d = IE Z. Déduire de la question précédente l’inégalité :
b − d t(a−d) d − a t(b−d)
IE (exp(t(Z − d))) ≤ e + e
b−a b−a
3) On pose :
b − d ta d − a tb
f (t) = ln e + e − td
b−a b−a
−2nε2
Sn
P − IE X1 ≥ ε ≤ 2 exp
. (6.18)
n (b − a)2
En particulier si les Xi sont des v.a. de Bernoulli de paramètre p, on peut
prendre a = 0 et b = 1 et on a :
Sn
P − p ≥ ε ≤ 2 exp(−2nε2 ).
(6.19)
n
Ex 6.8. On considère une suite infinie de jets d’un dé et on appelle Sn le
nombre d’apparitions du 6 au cours des n premiers lancers.
1) En quels sens peut-on dire que Sn /n converge vers 1/6 ?
2) En utilisant l’inégalité de Tchebycheff, puis celle de Bernstein, ma-
jorer :
Sn 1
P − > 0.01 .
n 6
3) On note un le majorant donné par l’inégalité de Tchebycheff, vn celui
donné par celle de Bernstein. Comparer ces deux majorants suivant les valeurs
de n. Indication : On pourra par exemple étudier les variations de la fonction :
Ex 6.9. Énoncer une loi forte des grands nombres pour une suite de va-
riables aléatoires indépendantes, de même espérance et uniformément bornées
(∃a, b tels que ∀i ∈ N∗ , a ≤ Xi ≤ b p.s.). Quelles sont les adaptations à faire
dans la preuve du théorème 6.5 pour obtenir cette généralisation ?
Ex 6.10. Vitesse de convergence des polynômes de Bernstein ↑ 5.23
L’inégalité (6.19) permet d’améliorer les résultats obtenus à l’exercice 5.23 sur
la vitesse de convergence uniforme des polynômes de Bernstein d’une fonction
continue. L’utilisation de (6.19) à la place de l’inégalité de Tchebycheff nous
donne en effet la majoration :
kf − Bn f k∞ ≤ ε + 4kf k∞ exp(−2nδ 2 ). (6.20)
1) On suppose f lipschitzienne. Vérifier que le choix ε = cn−β dans
(6.20) donne une vitesse de convergence en O(n−β ) pour tout β < 1/2, mais
que la même méthode ne permet pas d’obtenir la vitesse O(n−1/2 ).
2) Toujours avec f lipschitzienne, comment choisir
c minimal pour ob-
tenir avec ε = c(ln n/n)1/2 la vitesse O (ln n/n)1/2 ?
3) On suppose maintenant f hölderienne d’exposant α.Montrer qu’avec
un choix judicieux de ε, on obtient la vitesse O (ln n/n)α/2 .
Ex 6.11. Développement(s) décimaux illimités d’un réel
1) Prouver l’existence du développement décimal illimité d’un réel x de
[0, 1]. On donnera un algorithme simple permettant d’obtenir à partir de x
les sommes partielles de la série du type (6.13).
2) Étudier l’unicité de ce développement. Indication : Supposons que :
+∞ +∞
X ci X di
i
=
i=1
10 i=1
10i
et notons n0 le plus grand indice pour lequel les n0 premiers chiffres décimaux
ci et di sont deux à deux égaux. Si c1 6= d1 , on prend n0 = 0. On peut alors
supposer que dn0 +1 > cn0 +1 . Examiner ce que cela implique pour les chiffres
ci et di , i > n0 en utilisant la relation (6.14).
Ex 6.12. Reprendre l’exercice 6.4 avec Ω = [0, 1], F 0 et P 0 étant définis à
partir des intervalles et de leur longueur comme dans le deuxième modèle de la
section 6.5. On définit Xi (ω) comme le i-ème chiffre du développement du réel
ω en base 2. On conviendra d’exclure les développements binaires impropres
(i.e. n’ayant que des 1 à partir d’un certain rang). Montrer qu’avec ce modèle
les v.a. Tn s’interprètent simplement comme des indicatrices d’intervalles.
Interpréter graphiquement la convergence en probabilité des Tn et leur non
convergence p.s.
Approximation gaussienne de
la loi binomiale
155
Chapitre 7. Approximation gaussienne
La courbe C0,1 (figure 7.1) est très populaire sous le nom de courbe en cloche
de Gauss.
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1 2 3 4
Bien que f0,1 (t) soit strictement positif pour tout réel t, la densité f0,1
semble être à support dans [−4, +4]. Cela provient de la décroissance rapide
2
de exp(− t2 ) quand t tend vers +∞ et des limites de résolution du dessin.
L’influence des paramètres m et σ est illustrée par les figures 7.2 et 7.3.
Une propriété importante de C0,1 est que l’aire qu’elle délimite avec l’axe
des abscisses vaut 1 :
Z +∞ t2
1
√ exp − dt = 1. (7.1)
−∞ 2π 2
L’exercice 7.1 présente une démonstration de cette relation. Les autres fonc-
tions fm,σ ont aussi une intégrale généralisée sur R qui vaut 1. Pour le
voir, soient a < b deux réels quelconques. Par le changement de variable
u = (t − m)/σ :
b Z b∗
(t − m)2
Z 2
1 1 u
√ exp − dt = √ exp − du, (7.2)
a σ 2π 2σ 2 a∗ 2π 2
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-8 -6 -4 -2 0 2 4 6 8
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-8 -6 -4 -2 0 2 4 6 8
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-4 -3 -2 -1 0 1 2 3 4
Rx
Fig. 7.4 – Fonction Φ : x 7→ −∞
f0,1 (t) dt
La table en annexe donne les valeurs de Φ(x) par pas de 0.01 pour x
compris entre 0 et 3 et quelques valeurs pour x compris entre 3 et 4.5. Pour
x négatif, la parité de la densité entraı̂ne la relation Φ(x) = 1 − Φ(−x). Pour
les « très grandes valeurs de x », (i.e. |x| ≥ 4), on dispose du résultat suivant
qui donne une évaluation de la « queue » de la loi normale :
1. Les rectangles de l’histogramme ont une aire proportionnelle aux nombres P (Sn = k)
et ont pour axes de symétrie les droites d’équation x = k correspondantes.
0.12
0.1
0.08
0.06
0.04
0.02
0
5 10 15 20 25 30 35 40 45
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 0 5 10 15 20 25 30 35
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-5 0 5 10 15 20 25 30 35 40 45
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
-5 0 5 10 15 20 25 30 35 40
0.1
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0
-10 0 10 20 30 40 50
Il suffit alors d’utiliser la table des valeurs de Φ pour calculer cette probabilité.
Pour que l’approximation soit légitime, il convient de savoir majorer l’er-
reur commise en fonction de n, p (et aussi de a et b). Une telle majoration
sera donnée sans démonstration section 7.5. L’idée générale est que la vitesse
de convergence dans le théorème de De Moivre-Laplace est, comme pour l’in-
égalité de Tchebycheff, en O(n−1/2 ). La constante sous-entendue dans le O
est d’autant meilleure que p est proche de 1/2 (et se dégrade fortement quand
p est proche de 0 ou 1). Cette dépendance par rapport à p est illustrée par
les figures 7.5 à 7.9.
Exemple 7.1 On lance 3600 fois un dé. Évaluer la probabilité que le nombre
d’apparitions du 1 soit compris strictement entre 540 et 660.
Soit S le nombre d’apparitions du 1. Cette variable aléatoire suit la loi bi-
nomiale B(3600, 1/6). On a IE S = 600 et Var S = 500. En notant S ∗ =
(S − IE S)/σ(S) la variable centrée réduite associée à S :
540 − 600 660 − 600
P (540 < S < 660) = P √ < S∗ < √ .
500 500
Comme n est grand on peut utiliser l’approximation liée au théorème de De
Moivre-Laplace :
−60 60 6 −6
P √ < S∗ < √ ' Φ √ − Φ √ .
10 5 10 5 5 5
En utilisant la parité de la densité f0,1 , on a pour tout a > 0 : Φ(a)−Φ(−a) =
2Φ(a) − 1. En utilisant la table des valeurs de Φ on obtient donc :
P (540 < S < 660) ' 2Φ(2.68) − 1 ' 0.9926 ' 0.99.
√
(en raison de l’approximation de 6/ 5 par 2.68, il n’y a pas lieu de conserver
les deux derniers chiffres).
Il est intéressant de comparer ce résultat avec ce qu’aurait donné l’inéga-
lité de Tchebycheff. En reprenant les calculs de l’exemple 5.13, on obtient :
500 31
P (540 < S < 660) ≥ 1 − 2
= > 0.86.
60 36
Pour être honnête, il convient néanmoins de noter que les deux résultats sont
de nature différente. Le deuxième est une minoration dont on est certain, pas
une approximation. Pour pouvoir affirmer que le théorème de De Moivre-
Laplace nous donne ici un meilleur résultat que l’inégalité de Tchebycheff, il
faut donc vérifier que l’erreur d’approximation est inférieure à 0.99 − 0.86 =
0.13. (À suivre. . .)
Exemple 7.2 Une entreprise emploie 500 personnes qui déjeunent à la can-
tine à l’un ou l’autre des deux services avec une probabilité égale de manger
au premier ou au second. Si le gérant veut avoir une probabilité supérieure
à 95% de disposer d’assez de couverts, combien devra-t-il en prévoir pour
chacun des deux services ?
La loi de Sn est la binomiale B(500, 1/2), mais comme n est grand, il est
légitime d’utiliser l’approximation de cette loi par le théorème de De Moivre-
Laplace. Pour ce faire, on normalise Sn en la centrant puis en divisant par
l’écart type. L’espérance et la variance de Sn sont IE Sn = n 21 = 250 et
Var Sn = n( 21 )(1 − 12 ) = 125. On peut écrire (7.6) sous la forme équivalente :
500 − k − 250 ∗ k − 250
P √ ≤ Sn ≤ √ ≥ 0.95.
125 125
√
où Sn∗ = (Sn − 250)/ 125. En négligeant l’erreur d’approximation, le pro-
blème revient à trouver k minimal tel que :
k − 250 250 − k
Φ √ −Φ √ ≥ 0.95.
125 125
3. Ou tout autre ordre fixé à l’avance.
4. Ce ne serait bien sûr pas le cas si on les avait numérotées d’après leur ordre d’arrivée
à la cantine, mais cet ordre est lui même aléatoire et nous l’avons exclu.
L’étape suivante est d’encadrer les produits figurant dans (7.11) et (7.12).
Pour cela, il est commode d’utiliser le lemme suivant qui procure un enca-
drement de chaque facteur par des exponentielles.
Lemme 7.4
t2
∀t ∈]0, 1[, exp −t − < 1 − t < exp(−t).
2(1 − t)
On en déduit :
t2
∀t ∈]0, 1[, ln(1 − t) > −t − ,
2(1 − t)
1
∀n ≥ n2 , 0 ≤ |uj | ≤ ,
2
pour tous les j concernés par notre démonstration. Si t ∈ [0, 1/2], 1/(1 − t) ≤
2. Combinée à cette remarque, l’application du lemme 7.4 avec t = uj nous
fournit :
∀n ≥ n2 , ∀j > m, exp(−uj − u2j ) < 1 − uj .
un terme d’erreur. Comme nous voulons seulement avoir une idée de la vi-
tesse de convergence dans le théorème de De Moivre-Laplace, une majoration
grossière nous suffit. On l’obtient en majorant chaque terme de la somme par
le plus grand d’entre eux :
k k
X 1 X 2 (k − m)3
u2j = 4 j − (n + 1)p ≤ .
j=m+1
τn j=m+1 τn4
exp(−x2k /2) A
b(k, n, p) = √ (1 + εn,k ) avec |εn,k | ≤ . (7.23)
σn 2π σn
Par conséquent :
1 X c6
P (c ≤ Sn∗ ≤ d) − f (xk ) ≤ . (7.24)
σn c≤x ≤d σn
k
f (xk )
xk sk+1 xk sk xk
sk + sk+1
Choix sk = xk Choix xk = Choix sk+1 = xk
2
La fonction f 00 est donnée ici par f 00 (x) = (2π)−1/2 (x2 − 1) exp(−x2 /2). Elle
est bornée sur R, le maximum de |f 00 | est atteint en 0 et vaut (2π)−1/2 . Nous
pouvons donc écrire :
k2 Z xk +1/(2σn )
1 X 2
f (xk ) = f (x) dx + ∆n , (7.25)
σn k=k xk1 −1/(2σn )
1
9. Le choix de la position de l’un des xk détermine celle de tous les autres par transla-
tion.
où
1 k2 − k 1 + 1 (d − c)σn + 1 c7
|∆n | ≤ √ × 3
≤ √ ≤ 2. (7.26)
2π 24σn 24 2π σn3 σn
Enfin dans l’évaluation de notre somme de Riemann par Φ(d) − Φ(c), nous
devons tenir compte d’une dernière source d’erreur : les deux termes de bord
générés par la non coı̈ncidence (en général) des bornes c et xk1 − 1/(2σn ) à
gauche et d et xk2 + 1/(2σn ) à droite (cf. figure 7.11). Comme à chaque fois la
distance entre les deux bornes √ concernées n’excède pas 1/(2σn ) et la fonction
f est majorée sur R par 1/ 2π, on contrôle ces deux termes d’erreur par
l’inégalité :
Z c Z d 1
f (x) dx + f (x) dx ≤ √ . (7.27)
xk1 −1/(2σn ) xk2 +1/(2σn ) 2π σn
c x k1 1/σn xk d
Conclusion
L’inégalité triangulaire nous permet de déduire de (7.24), (7.25), (7.26) et
(7.27) l’existence d’une constante C et d’un entier n0 = n0 (p, c, d) tels que :
d
exp(−x2 /2)
Z
∗ C
∀n ≥ n0 , P (c ≤ Sn ≤ d) − √ dx ≤ √ . (7.28)
c 2π npq
Remarque :
Lorsqu’on applique ce théorème d’un point de vue pratique (i.e. avec n fixé),
on peut éliminer l’erreur due aux termes de bord (7.27) en remplaçant c par
xk1 − 1/(2σn ) et d par xk2 + 1/(2σn ). On peut voir que cela ne change rien
pour Sn∗ , en effet :
1 1 k1 − 1/2 − np Sn − np k2 + 1/2 − np
x k1 − ≤ Sn∗ ≤ xk2 + ⇔ √ ≤ √ ≤ √
2σn 2σn npq npq npq
1 1
⇔ k1 − ≤ Sn ≤ k2 +
2 2
⇔ k 1 ≤ Sn ≤ k 2 ,
q−p
t2 z2
2
P (k1 ≤ Sn ≤ k2 ) = Φ(z2 ) − Φ(z1 ) + √ (1 − t ) exp − + ε,
6 2πnpq 2 z1
0.13 + 0.18|p − q| 3√
|ε| < + exp − npq . (7.30)
npq 2
√
Le terme d’erreur dominant est en 1/ npq, il se dégrade quand p est proche
de 0 ou de 1 ( q = 1 − p est alors proche de 0).
√
Dans le cas particulier où p = 1/2, le terme en 1/ npq s’annule et l’erreur
d’approximation est en O(1/(npq)). De même si p est quelconque mais z1 =
−z2 (intervalle [k1 , k2 ] symétrique autour de np).
Lorsque l’on n’effectue pas la correction de continuité, les résultats sont
moins bons, mais on a toujours en général un terme d’erreur dominant en
√
1/ npq. Quelques notations supplémentaires sont nécessaires à leur exposi-
tion. Nous souhaitons évaluer P (x1 ≤ Sn∗ ≤ x2 ) pour x1 et x2 réels fixés. Pour
0.20 + 0.25|p − q| 3√
|ε0 | < + exp − npq . (7.33)
npq 2
On peut faire des commentaires analogues à ceux qui suivent le théorème
7.6. Il est intéressant de déduire du théorème 7.7 une majoration uniforme
√
(par rapport à x1 et x2 ) de l’erreur d’approximation du type C/ npq. Ceci
permet de se faire rapidement une première idée et de voir s’il y a lieu d’affiner
l’approximation à l’aide de l’un des résultats ci-dessus.
Preuve : Comme θ1 et θ2 sont dans [0, 1[, il est clair que |A| ≤ 1. D’autre
2
part l’étude des variations de la fonction t 7→ (1 − t2 )e−t /2 montre que sur
−1.5
R son maximum est √ en t = 0) et son minimum −2e
√ 1 (atteint > −0.4463
(atteint en t = − 3 et t = 3). On a donc :
i
q−p h
√ 2 −t ≤ √ 1 1 +√
2 /2 x2 0.4463
6 2πnpq (1 − t )e x1
npq 6 2π
.
√
Par hypothèse, npq ≥ 5, d’où :
1 1.4463
C=√ 1+ + 0.09 + 0.0028 < 0.5880.
2π 6
(en diminuant d’une unité le quatrième chiffre après la virgule pour prendre
en compte la précision de 10−4 dans la table des valeurs de Φ). L’approxi-
mation gaussienne donne donc bien un meilleur résultat que l’inégalité de
Tchebycheff.
7.6 Exercices
Ex 7.1. Un calcul d’intégrale
1) Montrer la convergence de l’intégrale généralisée :
Z +∞ x2
I= exp − dx.
0 2
2) Vérifier que :
Z +∞ Z +∞ (x2 + y 2
2
I = exp − dx dy.
0 0 2
jour du vol. Cela est dû à des empêchements imprévisibles de certains pas-
sagers et à une politique systématique de certains d’entre eux qui réservent
des places sur plusieurs vols de façon à choisir au dernier moment celui qui
leur convient le mieux (en raison de la concurrence, les compagnies ne péna-
lisent pas les clients qui se désistent et ne font payer effectivement que ceux
qui embarquent). Pour compenser ce phénomène, une compagnie aérienne
exploitant un avion de 300 places décide de faire de la surréservation (sur-
booking) en prenant pour chaque vol un nombre n > 300 de réservations. S’il
se présente plus de 300 passagers à l’embarquement, les 300 premiers arrivés
prennent leur vol et les autres sont dédommagés financièrement.
1) On considère que les passagers sont mutuellement indépendants et
que la probabilité de désistement de chacun d’eux est 10%. On note n le
nombre de réservations prises par la compagnie pour un vol donné et Sn le
nombre (aléatoire) de passagers se présentant à l’embarquement pour ce vol.
Donner la loi de Sn , IE Sn et Var Sn .
2) Le directeur commercial de la compagnie aimerait connaı̂tre la valeur
maximale de n telle que : P (Sn ≤ 300) ≥ 0.99. En utilisant le théorème de
De Moivre-Laplace, proposez une solution approchée de ce problème.
Ex 7.6. Une entreprise de vente par correspondance envoie un lundi 2100
colis. La probabilité qu’un colis soit distribué le lendemain est 0.7, celle qu’il
soit retourné pour erreur d’adresse est de 0.001. On note X le nombre de
colis distribués le lendemain et Y le nombre de colis retournés pour erreur
d’adresse.
1) Donner la loi exacte, l’espérance et la variance de X. Même question
pour Y .
2) Proposer une valeur approchée de la probabilité P (1358 ≤ X ≤ 1442)
en expliquant soigneusement la méthode utilisée.
3) Par quelle loi discrète classique peut-on approcher la loi de Y ? Uti-
liser cette approximation pour évaluer P (Y ≥ 4).
Ex 7.7. Un modèle simple pour le mélange de deux gaz
Un récipient hermétique de 2 litres est séparé en deux parties symétriques
« gauche » et « droite » par une cloison hermétique munie d’une vanne à large
ouverture. La vanne étant fermée, la partie gauche du récipient contient au
départ 1 litre d’oxygène et sa partie droite 1 litre d’azote le tout à la pression
atmosphérique. On ouvre la vanne de la cloison intermédiaire et on laisse
s’effectuer le mélange, puis au bout d’un temps suffisant on ferme la vanne.
On mesure alors la proportion d’azote et d’oxygène dans la partie gauche et
on constate expérimentalement qu’elles sont égales. Le but de cet exercice
est l’étude d’un modèle simple permettant de prévoir ce phénomène.
n
X 2n
X
Sn = Xi , Tn = Xi .
i=1 i=n+1
Montrer que A ∩ B ⊂ C.
4) En négligeant l’erreur due à l’approximation gaussienne, proposer à
l’aide de Φ(x) une majoration de P (Ac ∪ B c ). En déduire une minoration de
P (C). On exprimera simplement le résultat final en fonction de la quantité
R(x) = (1 − Φ(x)).
5) Application numérique : n = 1022 , x = 10. On utilisera la formule
d’encadrement de 1 − Φ(x) pour les « très grandes valeurs de x » fournie à
la fin des tables. Commentez le résultat obtenu.
Φ(x)
x t
x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5754
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6627 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7122 0.7156 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7356 0.7389 0.7421 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7793 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8079 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8414 0.8438 0.8461 0,8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8622
1.1 0.8643 0.8665 0.8687 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0,8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9083 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9193 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9485 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9648 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9874 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9895 0.9898 0.9901 0.9903 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9924 0.9926 0.9928 0.9930 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9944 0.9946 0.9948 0.9949 0,9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9958 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
x 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.8 4.0 4.5
Φ(x) 0.99865 0.99904 0.99931 0.99952 0.99966 0.99976 0.999841 0.999928 0.999968 0.999997
Φ(x) = 1 − Φ(−x)
1
∀x ∈ [0, 1[, Fn (x) ≤ x < Fn (x) + ,
n
d’où 0 ≤ x − Fn (x) < 1/n. Si nous faisons tendre n vers +∞, ceci montre
que Fn (x) converge (uniformément) sur [0, 1[ vers x. Comme Fn est constante
égale à 0 sur ] − ∞, 0[ et constante égale à 1 sur [1, +∞[, Fn converge sur
187
Chapitre 8. Variables aléatoires réelles
l’expérience dont l’unité de temps est la durée d’une épreuve. Par exemple
si l’on fait des tirages avec remise d’une boule dans une urne contenant des
boules vertes et des rouges, le numéro du tirage où l’on sort pour la première
fois une boule verte est assimilé à la durée de l’attente de ce premier succès 2 .
Envisageons maintenant une situation où le temps d’attente a un sens plus
physique. Par exemple l’attente du premier éclair d’un orage, celle du premier
tremblement de terre de l’année, de la première désintégration d’atome dans
un accélérateur de particules,. . .On dispose d’une horloge H0 pour mesurer
ce temps d’attente. La durée observée sera toujours un multiple entier de la
plus petite durée u0 mesurable par l’horloge H0 . On découpe alors le temps
en intervalles [0, u0 [, [u0 , 2u0 [, [2u0 , 3u0 [, etc. Si l’évènement que l’on attend
se produit pour la première fois dans l’intervalle de temps [ku0 , (k + 1)u0 [,
son temps d’attente mesuré par notre horloge aura été ku0 . Si l’on remplace
H0 par une horloge dix fois plus précise H1 , la plus petite unité de temps
mesurable sera u1 = u0 /10 et le temps d’attente observé sera l’un des 10
nombres 10ku1 , (10k + 1)u1 , . . ., (10k + 9)u1 . . .
Pour fixer les idées, imaginons que l’on attende le premier éclair lors
d’un orage. Prenons comme unité de départ u0 = 1 seconde et notons A[s,t[ ,
l’évènement « il n’y a pas d’éclair pendant l’intervalle [s, t[ ». On suppose
ici que s et t sont des réels (0 ≤ s < t) mesurant le temps en secondes
avec une précision infinie, ce qui est évidemment inaccessible à l’expérience.
Nous ferons les hypothèses suivantes (analogues aux hypothèses (a) et (b))
du théorème 3.14) :
(a) Les A[s,t[ indexés par des intervalles de temps disjoints sont indépen-
dants ;
(b) Pour tout réels 0 ≤ s < t, P (A[s,t[ ) ne dépend que de la durée t − s.
Autrement dit, il existe une fonction h : R+ → [0, 1] telle que P (A[s,t[ ) =
h(t − s).
Soit X0 le temps d’attente du premier éclair mesuré par l’horloge H0 . La
variable aléatoire discrète X0 prend ses valeurs dans N. Pour trouver sa loi,
on remarque d’abord que p0 := P (X0 = 0) = P (Ac[0,1[ ) = 1 − h(1). Ensuite
pour k ∈ N∗ , la décomposition
k
{X0 = k} = ∩ A[i−1,i[ ∩ Ac[k,k+1[
i=1
Cette loi ressemble à la loi géométrique (à une translation près : 1 + X0 suit
la loi géométrique de paramètre p0 ). On suppose désormais que q0 est stric-
tement inférieur à 1 et strictement positif. Comme pour la loi géométrique,
il est facile dévaluer la queue de la loi de X0 . En effet, pour tout entier k, on
a
+∞ +∞
X j k+1
X p0
P (X0 > k) = q0 p 0 = q0 p 0 q0i = q0k+1 = q0k+1 .
j=k+1 i=0
1 − q0
où l’on a noté [x] la partie entière de x, c’est-à-dire l’unique entier k tel que
k ≤ x < k + 1.
Maintenant, supposons que l’on dispose d’une suite d’horloges (ou chrono-
mètres) Hn où la plus petite unité de temps mesurable par Hn est un = 10−n
secondes. Notons Xn le temps d’attente du premier éclair mesuré par cette
horloge dans l’unité un . Notons Yn ce même temps d’attente converti en se-
condes. Par exemple avec n = 3, si l’on observe X3 (ω) = 5 347 millièmes de
seconde, on aura Y3 (ω) = 5,347, X2 (ω) = 534, Y2 (ω) = 5,34, X1 (ω) = 53,
Y1 (ω) = 5,3, et X0 (ω) = Y0 (ω) = 5. Il est clair que pour trouver la loi de Xn ,
il suffit de remplacer dans (8.1), q0 par qn = h(10−n ) et p0 par pn = 1 − qn .
D’autre part la relation entre h(1) et h(10−n ) découle immédiatement de la
décomposition
10n
A[0,1[ = ∩ A[(i−1)10−n ,i10−n [ .
i=1
n
On obtient donc h(1) = h(10−n )10 . Pour alléger les écritures, notons h(1) =
exp(−a), ce qui est toujours possible avec un paramètre a > 0 puisque 0 <
h(1) < 1. Avec cette notation, qn = h(10−n ) = exp(−a10−n ).
Comment se comporte la fonction de répartition de Yn lorsque n tend vers
l’infini ? En utilisant (8.2) avec qn à la place de q0 , on obtient :
n x]+1
P (Yn > x) = P (Xn > 10n x) = qn[10 = exp −a10−n ([10n x] + 1) .
Grâce à l’encadrement y − 1 < [y] ≤ y valable pour tout réel y, on voit que
X : Ω −→ R ω 7→ X(ω),
vérifiant la condition :
(i) Pour tout intervalle I de R, l’ensemble A = {ω ∈ Ω, X(ω) ∈ I}
appartient à la famille F d’événements auxquels on peut attribuer une
probabilité par P .
Cette définition a un contenu plus riche qu’il n’y paraı̂t. Par exemple si X est
une variable aléatoire réelle, {X ∈
/ [0, 1]} est dans F puisque F est stable par
passage au complémentaire. De même {X ∈] − 3, 1] ou X ∈]4, 5]} est dans
F puisque F est stable par union dénombrable, donc a fortiori par union
finie. Plus généralement, on peut montrer que si BR est la plus petite famille
contenant tous les intervalles de R et telle que 3
(a) R ∈ BR ;
(b) BR est stable par passage au complémentaire dans R ;
(c) BR est stable par union dénombrable ;
alors pour tout B ∈ BR , X −1 (B) est dans F. On peut donc attribuer une
probabilité à {X ∈ B}.
Cette famille BR s’appelle tribu borélienne de R. Il se trouve qu’il existe
des parties de R qui ne sont pas dans BR . La situation est donc plus complexe
que pour une variable aléatoire discrète Y où Y −1 (B) ∈ F pour tout B ⊂
R. Cette propriété des variables aléatoires discrètes repose sur le fait que
l’ensemble des valeurs possibles Y (Ω) est dénombrable. Pour une variable
aléatoire réelle, en général on ne dispose plus de cette hypothèse. Bien sûr,
les variables aléatoires discrètes sont aussi des variables aléatoires réelles.
Les propriétés (a)–(c) sont les mêmes que celles attribuées à la famille
d’évènements observables F lors de la définition 1.1 de l’espace probabilisé
(Ω, F, P ) mais avec R à la place de Ω. On peut alors définir la loi de X
comme dans le cas d’une variable discrète (cf. la définition 3.2) mais avec BR
au lieu de P(R).
Définition 8.2 Soit X une variable aléatoire réelle sur (Ω, F, P ). On lui
associe la fonction d’ensembles PX définie sur la famille BR de parties de R
en posant :
Pour légitimer cette définition, il nous faut vérifier que la fonction d’ensembles
PX est bien une probabilité sur BR . En effet, PX (R) = P (Ω) = 1. De plus si
(Bi )i∈N est une suite de parties de R éléments de BR et deux à deux disjointes,
on voit aisément que
X −1 ∪ Bi = {ω ∈ Ω; X(ω) ∈ ∪ Bi } = ∪ {ω ∈ Ω; X(ω) ∈ Bi }.
i∈N i∈N i∈N
3. Plus petite au sens de l’inclusion, ce qui signifie que BR est une sous-famille de toute
autre famille B 0 contenant les intervalles et ayant les trois propriétés (a)–(c).
La conséquence pratique de ce théorème est que pour montrer que deux va-
riables aléatoires X et Y ont même loi, il suffit de montrer que pour tous
réels a ≤ b, P (X ∈]a, b]) = P (Y ∈]a, b]) ou que X et Y ont même fonction
de répartition. La caractérisation (a) revient à dire que deux probabilités (au
sens fonctions d’ensembles) sur BR qui coı̈ncident sur la famille des intervalles
de R sont égales. C’est un résultat qui sera vu en Licence et que nous admet-
tons. La caractérisation (b) découle alors facilement de (a) en remarquant
que P (X ∈]a, b]) = FX (b) − FX (a).
Il est clair d’après cette définition que si Y est une autre variable aléatoire
ayant même loi que X ( donc mêmes probabilités d’appartenance aux inter-
valles), elle a aussi la densité f . Il serait donc plus correct de parler de la
densité de la loi de X.
Voyons maintenant à quoi peut ressembler une densité. D’abord si f est
une fonction positive définie seulement sur un intervalle ]a, b[ de R et telle
Rb
que a f (t) dt = 1, on peut en faire une densité en la prolongeant à tout R
en posant f (t) := 0 pour t ∈]a,
/ b[.
Voici quatre exemples simples de densités :
1 1
f1 (t) := 1[a,b] (t); f2 (t) := √ 1]0,1] (t);
b−a 2 t
1
f3 (t) := e−t 1[0,+∞[ (t); f4 (t) := .
π(1 + t2 )
Ces exemples entrent tous dans le cadre de ce que nous appellerons le modèle
courant, lequel recouvre toutes les densités classiques.
Modèle courant de densité : f est positive sur son ensemble de définition et
vérifie l’un des deux cas suivants
(i)R f est définie et continue sur R et son intégrale de Riemann généralisée
+∞
−∞
f (t) dt converge et vaut 1. C’est le cas de f4 ci-dessus.
(ii) f est définie sur R privé d’un ensemble fini de points a1 < . . . < an .
Sur chacun des intervalles ouverts ] − ∞, a1 [, ]ai , ai+1 [ (1 ≤ i < n),
]an , +∞[, f est continue et a une intégrale de Riemann (ordinaire ou
généralisée) convergente et la somme de toutes ces intégrales vaut 1.
Les fonctions f1 , f2 et f3 sont dans ce cas.
Pour obtenir des densités d’une forme plus complexe, on peut considérer
le modèle suivant.
Modèle plus sophistiqué de densité : f est définie et positive sur l’ensemble
R \ D où D est une partie dénombrable de R (on peut donc considérer les élé-
ments de D comme les termes d’une suite infinie de réels tous distincts 4 ). De
plus R \ D peut s’écrire comme réunion dénombrable ∪i∈N ]ai , bi [ d’intervalles
ouverts disjoints de R̄. Remarquons que l’on ne suppose pas nécessairement
bn = an+1 . On suppose en outre que pour tout i ∈ N et tout intervalle
[α, β] ⊂]ai , bi [, f est Riemann intégrable sur [α, β] et l’intégrale (ordinaire ou
Rb
généralisée) aii f (t) dt converge. Finalement on suppose aussi que
Z +∞ +∞ Z
X bi
f (t) dt := f (t) dt = 1.
−∞ i=0 ai
où la deuxième intégrale est soit une intégrale de Riemann ordinaire soit une
intégrale généralisée convergente. Cette relation peut aussi s’écrire à l’aide
de F :
lim F (x) − F (a) = F (x0 ) − F (a).
x↑x0
On en déduit par addition de F (a) que F (x) tend vers F (x0 ) quand x tend
vers x0 par valeurs inférieures. L’hypothèse supplémentaire que nous avons
introduite est vérifiée par toutes les densités du modèle courant ci-dessus et
aussi par les densités du modèle plus général lorsque x0 n’est pas un point
d’accumulation de D.
Preuve de (iii) : Puisque f est continue en x0 , elle est définie sur tout un
voisinage de x0 et donc sur tout un intervalle ]a, b[ contenant x0 . La continuité
de f en x0 peut alors s’écrire :
∀ε > 0, ∃]x0 −δ, x0 +δ[⊂]a, b[; ∀t ∈]x0 −δ, x0 +δ[, |f (t)−f (x0 )| < ε. (8.6)
R x +h
Pour tout h tel que 0 < |h| < δ, on a alors F (x0 + h) − F (x0 ) = x00 f (t) dt
d’où
Z x0 +h
|F (x0 + h) − F (x0 ) − hf (x0 )| = f (t) − f (x0 ) dt ≤ hε.
x0
En divisant par h on voit que F a bien une dérivée en x0 et que celle ci vaut
f (x0 ).
Remarques :
– Pour toute densité f (au sens de la définition 8.6), il existe une variable
aléatoire X ayant f pour densité : il suffit d’appliquer le théorème 8.5
en définissant F par (i).
– D’après (ii) toute variable aléatoire à densité a une fonction de répar-
tition continue. La réciproque est fausse : il existe des lois à fonction
de répartition continue sans densité.
– Par ailleurs si X a une densité, sa fonction de répartition n’est pas
forcément dérivable en tout point. Par exemple√la densité f2 ci-dessus
a pour fonction de répartition associée F2 (x) = x1]0,1] (x) + 1]1,+∞[√ (x)
(cette écriture condensée signifie que F2 (x) est nul sur R− , vaut x
entre 0 et 1 et reste constant égal à 1 sur ]1, +∞[). F2 est dérivable en
tout point sauf en 0 et en 1.
La proposition suivante donne une règle pratique permettant de trouver la
densité (lorsqu’elle existe !) à partir de la fonction de répartition dans les cas
les plus courants.
f (t) 6
-
a 0 b t
F (x) 6
1 !
!
! !!
!
!!
!!
!!
! !! -
a 0 b x
Proposition 8.12 Si X suit la loi uniforme sur [a, b], alors pour tout inter-
valle I de R,
`([a, b] ∩ I)
P (X ∈ I) = ,
`([a, b])
où `(J) désigne la longueur de l’intervalle J.
En particulier pour I = [a, b] on voit que P (X ∈ [a, b]) = 1. Ainsi une variable
aléatoire de loi uniforme est bornée. Elle a donc des moments de tout ordre.
Calculons l’espérance et la variance.
Proposition 8.13 Si X suit la loi uniforme sur [a, b], son espérance et sa
variance sont données par :
a+b (b − a)2
IE X = , Var X = .
2 12
La valeur de l’espérance est conforme à l’intuition si l’on se rappelle l’in-
terprétation de l’espérance comme barycentre d’un système de masses : le
centre de gravité d’un fil homogène correspondant au segment [a, b] est bien
le milieu de ce segment.
Preuve :
Z +∞ Z b b
x2
x dx 1 a+b
IE X = xf (x) dx = = = (b2 −a2 ) = .
−∞ a b−a 2(b − a) a 2(b − a) 2
1 (a + b)2 1
Var X = IE X 2 − (IE X)2 = (b2 + ab + a2 ) − = (a2 + b2 − 2ab).
3 4 12
Une des raisons de l’importance de la loi uniforme sur [0, 1] est le théorème
suivant.
`([0, F (x)])
P (Y ≤ x) = P (F −1 (U ) ≤ x) = P (U ≤ F (x)) = = F (x).
`([0, 1])
f (t) 6
a
-
0 1 2 t
F (x) 6
1
-
0 1 2 x
P (X > t + s) G(t + s)
P (X > t + s | X > t) = = . (8.8)
P (X > t) G(t)
e−a(t+s)
P (X > t + s | X > t) = = e−as = P (X > s).
e−at
Preuve de (ii) : Soit X une variable aléatoire dont la loi vérifie (8.7) et
G sa fonction de survie. Comme G = 1 − F (où F désigne la fonction de
répartition de X), G est décroissante et continue à droite et tend vers 0 en
+∞. De plus l’écriture de (8.7) suppose implicitement que G(t) > 0 pour
tout t ≥ 0 car sinon P ( . | X > t) ne serait pas définie. Grâce à (8.8), on voit
que la propriété d’absence de mémoire (8.7) équivaut à
G(t + s)
∀s ∈ R+ , ∀t ∈ R+ , = G(s).
G(t)
A priori la constante G(1) est dans ]0, 1]. On peut écarter la valeur G(1) = 1
car sinon d’après (8.15), la limite en +∞ de G serait 1 alors qu’elle vaut 0.
Finalement, puisque 0 < G(1) < 1, on peut poser G(1) = e−a pour un réel
a > 0 (cela revient à prendre a = − ln G(1)). On peut alors réécrire (8.15)
sous la forme
∀x ∈ R+ , G(x) = e−ax .
La fonction de survie G est donc la même que celle de la loi exponentielle de
paramètre a, donc X suit cette loi (puisque la fonction de survie caractérise
la loi au même titre que la fonction de répartition).
Tous les calculs de probabilités concernant une variable aléatoire de loi N (m, σ)
peuvent se ramener à des calculs sur une variable de loi normale standard.
Proposition 8.18 Si la variable aléatoire X suit la loi N (m, σ), alors Y :=
(X − m)/σ suit la loi N (0, 1).
Preuve : On calcule P (a < Y ≤ b) pour a et b réels quelconques (a < b).
X −m
P a< ≤ b = P (σa + m < X ≤ σb + m)
σ
Z σb+m
(x − m)2
1
= √ exp − dx.
σa+m σ 2π 2σ 2
Il suffit alors de faire le changement de variable y = (x − m)/σ pour obtenir
Z b 2
1 y
∀a ∈ R, ∀b > a, P (a < Y ≤ b) = √ exp − dy.
a 2π 2
Donc Y a bien la densité f0,1 .
En raison de la décroissance rapide de l’exponentielle, il est clair que les
variables gaussiennes ont des moments de tout ordre. L’interprétation des
paramètres m et σ est très simple.
Proposition 8.19 Si la variable aléatoire X suit la loi N (m, σ),
IE X = m, Var X = σ 2 .
2 a Z a
−y 2
2
y y y
I(a) = √ exp − − √ exp − dy
2π 2 −a −a 2π 2
2 Z a 2 2
2a a y y
= √ exp − + √ exp − dy.
2π 2 −a 2π 2
Z +∞ 2 Z +∞ 2 2
1 y y y
1= √ exp − dy = √ exp − dy.
−∞ 2π 2 −∞ 2π 2
6. Pour aller plus vite, on a intégré sur un intervalle symétrique [−a, +a] parce que
l’on sait déjà que les intégrales généralisées concernées sont convergentes. Si l’on voulait
se servir de ce calcul pour montrer leur convergence, il faudrait bien sûr intégrer sur un
intervalle [−a, b] et faire tendre a et b séparément vers +∞.
-
m − 3σ m − 2σ m − σ m m + σ m + 2σ m + 3σ
-
68, 3%
-
95, 4%
-
99, 7%
8.5 Exercices
Ex 8.1. Le temps d’attente (en minutes) pour accéder à des données suit
une loi uniforme U[1, 6].
1) Déterminer la probabilité d’attendre au moins 4 minutes.
2) Déterminer le temps d’attente moyen.
Ex 8.2. Un arrêt de bus est desservi tous les quart d’heures à partir de 7 h
du matin (inclus). Un passager arrive à l’arrêt à un instant aléatoire de loi
uniforme sur [7 h ; 7 h 30]. Quelle est la probabilité qu’il attende moins de
5 mn pour un bus ? plus de 10 mn ?
Ex 8.3. Soit F une fonction de répartition. On définit sur ]0, 1[ son inverse
généralisée F −1 par
u ≤ F (x) ⇒ F −1 (u) ≤ x.
Ex 8.4. Soit X une variable aléatoire de loi uniforme sur [0, 1] et Y := 1−X.
Trouver la fonction de répartition de Y et en déduire sa loi. Ceci fournit
un exemple élémentaire de deux variables à densité dont la somme est une
variable discrète.
Ensembles et dénombrements
A.1 Généralités
Soit Ω un ensemble ; A est un sous-ensemble (ou une partie) de Ω si tout
élément de A est aussi un élément de Ω (∀ω ∈ A, ω ∈ Ω). On note A ⊂ Ω.
On appelle P(Ω) l’ensemble des parties de Ω ce que l’on peut noter 1
∪ Ai par :
i∈I
∩ Ai = {ω; ∀i ∈ I, ω ∈ Ai } et ∪ Ai = {ω; ∃i ∈ I, ω ∈ Ai }.
i∈I i∈I
1. Dans toutes les écritures d’ensembles entre accolades, nous utilisons le point virgule
au sens de « tel que ».
2. Noter cependant la différence de statut de A : dans la première écriture, A est
considéré comme un ensemble, dans la deuxième comme un élément d’un ensemble d’un
type un peu particulier.
211
Annexe A. Ensembles et dénombrements
E × F := {(x, y); x ∈ E, y ∈ F }.
Proposition A.2
(a) Si card E = n et card F = p, l’ensemble F E des applications de E
dans F est fini et a pour cardinal pn , autrement dit :
(b) Comme P(E) est en bijection avec l’ensemble {0, 1}E des applications
de E dans {0, 1},
card P(E) = 2n = 2card E .
Une bijection naturelle entre P(E) et {0, 1}E est l’application ϕ qui à toute
partie A de E associe sa fonction indicatrice :
n!
Apn = n(n − 1)(n − 2) · · · (n − p + 1) = .
(n − p)!
Apn est aussi le nombre d’injections d’un ensemble I de cardinal p (par exemple
{1, . . . , p}) dans E. En particulier pour I = E (et donc p = n), on obtient
le nombre de bijections de E dans lui même (appelées aussi permutations de
E) :
nombre de permutations de E = Ann = n!
n(n − 1)(n − 2) · · · (n − p + 1) n!
Cnp = = .
p(p − 1) · · · 1 p!(n − p)!
215