AgregTP3Scilab2017 2018

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

TP 3 - Représentation graphique d’échantillons


(Scilab) - Illustration de convergences en loi 1

Le but de ce document est de présenter différentes illustrations graphiques possibles per-


mettant de justifier qu’un échantillon simulé avec Scilab provient bien d’une loi donnée. On
présente également les justifications théoriques sous-jacentes. Les mêmes méthodes pourront
être utilisées pour illustrer des convergences en loi.

Soient (Ω, F, P) un espace probabilisé et (X1 , . . . , Xn ) un n−échantillon de variables aléa-


toires réelles sur cet espace suivant une loi de probabilité µ de fonction de répartition F .
On appellera réalisation de la suite de variables (X1 , . . . , Xn ) tout n−uplet (x1 , . . . , xn ) =
(X1 (ω), . . . , Xn (ω)) pour un certain ω ∈ Ω.

1 Mesure empirique d’un échantillon


1.1 Mesure empirique
Définition 1 On définit la mesure empirique µ
bn de l’échantillon (X1 , . . . , Xn ) comme la
mesure aléatoire
n
1X
µ
bn = δXi .
n
i=1
bn est une application de Ω × F dans R+ , telle que
Ainsi, µ
- pour tout ω ∈ Ω, µbn (ω, ·) est uneP
mesure de probabilité sur R,
- pour tout A ∈ F, µbn (·, A) = n−1 ni=1 1Xi ∈A .
Propriétés de la mesure empirique. Pour tout A ∈ F,
1. (b
µn (., A))n est une suite de variables aléatoires qui converge presque sûrement (sous
P) vers µ(A) (Loi forte des grands nombres),
2. la variable nbµn (., A) suit une loi binomiale B(n, µ(A)).

1.2 Fonction de répartition empirique


Définition 2 On définit la fonction de répartition empirique Fbn de l’échantillon (X1 , . . . , Xn )
comme l’application aléatoire sur Ω × R telle que pour tout ω ∈ Ω, Fbn (ω, .) est la fonction de
répartition de la loi µ
bn (ω, .). Ainsi,
n
1X
∀x ∈ R, Fbn (., x) = 1Xi (.)≤x .
n
i=1

Propriétés de la fonction de répartition empirique.


1. La fonction de répartition empirique est une fonction constante par morceaux. Soit
(x1 , . . . , xn ) une réalisation de la suite (X1 , . . . , Xn ), pour un ω ∈ Ω fixé. Alors (faire
un dessin !) 

0 si x < x(1)
i

Fbn (ω, x) = si x(i) ≤ x < x(i+1) (1)
n


1 si x ≥ x(n) ,
1. Enseignant : G. Chagny, bureau M.2.35. [email protected].

1
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

où (x(1) , . . . , x(n) ) est le n−uplet (x1 , . . . , xn ) trié par ordre croissant.


2. La Loi forte des grands nombres assure la convergence presque sûre de la suite de
variables aléatoires (Fbn (., x))n vers F (x) (cas particulier de la Propriété 1 de la mesure
empirique). Le Théorème de Glivencko-Cantelli renforce le résultat :
p.s.
sup |Fbn (., x) − F (x)| −−→ 0.
x∈R

On peut se référer à [? , (7.4) p.59] ou [? , p.71] ou [? , p.116] ou [? , p.85] pour la


démonstration.

1.3 Quantiles empiriques


On rappelle tout d’abord la définition d’un quantile de la loi d’une variable aléatoire X
de loi µ.

Définition 3 On définit un quantile d’ordre p ∈]0; 1[ de la loi de X comme étant un réel


qp tel que P(X ≤ qp ) ≥ p et P(X ≥ qp ) ≥ 1 − p. Pour p = 1/2, on parle de médiane ; pour
p = 1/4, 1/2, 3/4 les quantiles correspondants sont appelés quartiles.
Remarque. On note F (−1) l’inverse généralisée de la fonction de répartition F de X, définie
par
F (−1) (u) = inf{x ∈ R, F (x) ≥ u}, u ∈ [0; 1].
Alors qp = F (−1) (p) est un quantile d’ordre p de la loi de X.

On suppose dans la suite de ce paragraphe que la fonction de répartition F est continue.


Dans ce cas, on peut réordonner l’échantillon (X1 , . . . , Xn ) en un échantillon (X(1) , . . . , X(n) ),
vérifiant X(1) < X(2) < · · · < X(n) (tri par ordre croissant). On parle des statistiques d’ordre
associées à l’échantillon de départ. On peut montrer que les X(i) sont bien des variables
aléatoires définies presque-sûrement, et que, si le n−uplet de départ admet une densité f ,
alors le n−échantillon réordonné aussi -cette densité pouvant alors s’exprimer en fonction de
f (voir [? , Exercice 2.17 p.54]).

Définition 4 Avec les notations précédentes, pour p ∈]0; 1[, on définit le quantile empirique
d’ordre p de l’échantillon (X1 , . . . , Xn ) comme étant qn,p = X([np]+1) ([.] est la partie entière).
Propriétés des quantiles empiriques.
1. Si la loi µ possède un unique quantile d’ordre p ∈]0; 1[, qp = F (−1) (p), alors
p.s.
qn,p −−→ qp .
En terme statistique, qp,n est un estimateur fortement consistant de qp . C’est une consé-
quence du Théorème de Glivencko-Cantelli (voir aussi une autre preuve et d’autres
hypothèses au Théorème 8.13 [? , p.93].
2. Sous des hypothèses plus fortes (existence d’une densité f par rapport à la mesure de
Lebesgue pour la loi µ , et non-annulation de la densité au voisinage du quantile qp ,
on a aussi la normalité asymptotique de qp,n :

 
L p(1 − p)
n (qn,p − qp ) −−→ N 0, 2 .
f (qp )
L’Exercice 16 du polycopié Théorèmes limite en probabilités et statistiques
fournit un exemple de ce résultat (cas de la médiane d’une loi uniforme). La preuve
générale (plus difficile, pouvant être omise) peut être trouvée dans [? ].

2
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

Les différentes manières de tester si un n−échantillon simulé (X1 , . . . , Xn ) provient bien


d’une loi donnée µ présentées dans la suite sont fondées sur la loi empirique de l’échantillon.

2 Illustration graphique par comparaison des fonctions de ré-


partition théorique et empirique

Méthode 1. Pour comparer la loi d’un échantillon avec une loi théorique, on peut illus-
trer le Théorème de Glivencko-Cantelli : on superpose sur un même graphique la fonction
de répartition empirique du n−échantillon simulé (commande plot2d2), et la fonction de
répartition théorique de la loi sous-jacente.

La fonction Scilab permettant de tracer une fonction en escalier comme la fonction de


répartition empirique est plot2d2. On utilise l’expression donnée par (1), et il faut ainsi
commencer par trier l’échantillon X dans l’ordre croissant à l’aide de la commande gsort.

Exemple. Le code suivant permet de tirer un échantillon de loi N (0, 1) et d’illustrer la


convergence annoncée.

//Simulation
n=100;
X=grand(1,n,’nor’,0,1);

//Calcul des répartitions


// pour la FDR empirique
XX=gsort(X,’g’,’i’);
// pour la FDR Theorique
FX=cdfnor(’PQ’,XX,zeros(XX),ones(XX))

//Tracé
scf(1)
clf
plot2d2(XX,(1:n)/n)
xset("line style",2)
xset("thickness",2)
plot2d(XX,FX,style=5)
xtitle(’Convergence de la FDR empirique...
d’’un échantillon de loi N(0,1)’)
legend([’FDR Empirique’;’FDR Theorique’])

3 Illustration graphique par histogramme


On suppose que la loi µ est absolument continue par rapport à la mesure de comptage
sur Z (cas d’une loi discrète) ou par rapport à la mesure de Lebesgue sur R (cas d’une loi
continue). L’histogramme associé à un échantillon de données est un graphique constitué de
barres verticales juxtaposées : chaque barre représente le nombre d’éléments de l’échantillon
appartenant à une classe donnée.

3
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

Précisément, soit (x1 , . . . , xn ) une réalisation de la suite (X1 , . . . , Xn ), et C l’ensemble


des valeurs de l’échantillon. Pour bâtir un histogramme de l’échantillon,
S
1. on se donne une partition (Cj )j∈J de l’ensemble C : C = j∈J Cj , Cj 6= ∅ pour tout
j, et Cj ∩ Cl = ∅ pour j 6= l (on note |Cj | la mesure de Lebesgue ou de comptage de
|Cj |, selon le cas considéré) ;
2. on compte le nombre Nj d’éléments de l’échantillon appartenant à la classe Cj pour
tout j :
X n
Nj = 1xi ∈Cj .
i=1
µn (ω, Cj ) (avec ω ∈ Ω tel que (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω))).
Remarquons que Nj = nb
L’histogramme associé est la fonction constante sur chaque élément de la partition, qui à
x ∈ Cj associe Nj pour tout j. On représente donc des barres de hauteur proportionnelle à
l’effectif de la classe.
On s’intéresse plus souvent à l’histogramme renormalisé H b n,C , fonction toujours constante
sur chaque élément de la partition, qui à x ∈ Cj associe Nj /(n|Cj |) pour tout j. On représente
cette fois des barres d’aire proportionnelle à l’effectif de la classe. On a donc
n
!
1 X Nj Xµ bn (., Cj ) X 1X
Hn,C (x) =
b 1C (x) = 1Cj (x) = 1xi ∈Cj 1Cj (x), x ∈ R.
n |Cj | j |Cj | n
j∈J j∈J j∈J i=1

L’aire totale de l’histogramme vaut 1, autrement dit, l’histogramme est une densité de pro-
babilité.

3.1 Cas d’une loi discrète sur Z


SiPla mesure de probabilité µ est absolument continue par rapport à la mesure de comp-
tage k∈Z δ{k} sur Z, on représente souvent l’histogramme H b n,C associé à la partition C =
({k}, k ∈ Z). On obtient alors un diagramme en bâtons. La hauteur du “bâton” d’abscisse
k est la fréquence de k dans l’échantillon (proportion d’éléments de l’échantillon ayant pour
valeur k) :
n
1X
H bn (ω, {k}) =
b n,C (k) = µ 1Xi =k .
n
i=1
Propriété du diagramme en bâtons. On a la convergence suivante :
p.s.
sup |b
µn (., {k}) − µ(k)| −−→ 0.
k∈Z

C’est une conséquence du Théorème de Glivencko-Cantelli.

Méthode 2 - lois discrètes. Pour illustrer la qualité d’un n−échantillon de loi discrète, on
peut donc représenter le diagramme en bâtons associé, et superposer les “bâtons” de la loi
théorique sous-jacente à l’aide de la fonction plot2d3 de Scilab : ceci revient à superposer
fréquences empiriques dans l’échantillon et fréquences théoriques.

Exemple. Le code suivant permet de tirer un échantillon de loi binomiale B(20, 0.4) et de
représenter les fréquences empiriques obtenues en les comparant aux fréquences théoriques
de la loi B(20, 0.4).

4
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

//Simulation
n=200;
X=grand(1,n,’bin’,20,0.4);

//Calcul des fréquences


FreqTheo=binomial(0.4,20);
[ind, occ]=dsearch(X,0:20,"d");
FreqEmp=occ/n;

//Tracé
scf(2)
clf
plot2d3(0:20,FreqEmp)
xset("thickness",2)
xset("line style",2)
plot2d3((0:20)+0.2,FreqTheo,style=5)
xtitle(’Convergence des fréquences,...
empiriques vers les fréquences,...
théoriques loi B(20,0.4)’)
legend([’Freq. Empiriques’;...
’Freq. Theoriques’])

3.2 Cas d’une loi absolument continue par rapport à la mesure de Le-
besgue sur R
Supposons que µ ait une densité f par rapport à la mesure de Lebesgue sur R, et notons
[a; b] son support. On choisit alors souvent une partition de [a; b] en intervalles de même
longueur hn : C = (C1 , . . . , Crn ). On obtient cette fois un “vrai” histogramme aussi appelé
éventuellement diagramme en barres,
rn
1 X
Hn,C (x) =
b Nj 1Cj (x), x ∈ R.
nhn
j=1

On choisit généralement une largeur hn d’intervalle qui tend vers 0 quand n tend vers ∞.

Propriété de l’histogramme. En faisant des hypothèses sur la vitesse de convergence de


(hn )n vers 0, on pourra montrer que (E[(H b n,C (x) − f (x))2 ])n converge vers 0, ou encore, en
ajoutant des hypothèses
Rb de régularité sur la densité f , que l’on peut choisir une largeur hn
qui minimise E[ a (Hb n,C (x) − f (x))2 dx].

Remarque : en terme statistique, on dira que la fonction H b n,C est un estimateur non pa-
ramétrique de la densité f . Son principal défaut est de ne pas être lui-même régulier quand
parfois la densité à estimer l’est : H
b n,C n’est même pas continu. Une façon de résoudre le
problème consiste à lisser les histogrammes en définissant des estimateurs plus généraux, les
estimateurs à noyaux (voir exemple de texte de modélisation).

Méthode 2 - lois continues. Pour illustrer la qualité d’un n−échantillon de loi continue,
on peut donc représenter un histogramme associé, et superposer la densité de la loi théorique

5
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

sous-jacente. On utilisera la commande histplot, qui fournit directement un histogramme


renormalisé.

Exemple. Le code suivant permet de tirer un échantillon de loi N (0, 1) et de représenter


trois histogrammes (pour trois partitions différentes) ainsi que la densité théorique.

//Simulation xset("thickness",2)
n=10000; plot2d(vect_x,densite_theo,style=5)
X=grand(1,n,’nor’,0,1);

//Calcul de la densité théorique


vect_x=linspace(min(X),max(X),200);
densite_theo=exp(-vect_x.^2/2)/sqrt(2*%pi);

//Tracé
scf(3)
clf
subplot(131)
histplot(5,X)
xset("thickness",2)
plot2d(vect_x,densite_theo,style=5)
subplot(132)
histplot(20,X)
xset("thickness",2)
plot2d(vect_x,densite_theo,style=5)
xtitle(’Histogrammes normalisés,...
d’’un échantillon N(0,1)’)
subplot(133)
histplot(100,X)

4 Illustration graphique par QQ-plot

Méthode 3 - lois de fonctions de répartition continues. On peut justifier graphi-


quement qu’un échantillon provient d’une loi donnée de fonction de répartition continue
en vérifiant que les quantiles empiriques sont proches des quantiles théoriques. On peut
par exemple tracer la courbe passant par les points d’abscisses les quantiles théoriques et
d’ordonnées les quantiles empiriques. Cette courbe devrait être proche d’une droite.

Pour effectuer une telle représentation, on peut commencer par implémenter une fonction
permettant de calculer le quantile empirique d’ordre p d’un échantillon X.

function y=Quantile_emp(X,p)
// X=echantillon, p=vecteur à composantes dans ]0,1]
//retourne les quantiles d’ordre p de X
n=length(X);
XX=gsort(X,’g’,’i’);
y=XX(n*p)

6
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

endfunction

Exemple. Le code suivant permet de tirer un échantillon de loi N (0, 1) et de comparer les
quantiles empiriques et théoriques.

exec(’Quantile_emp’)

//Simulation
n=1000;
X=grand(1,n,’nor’,0,1);

//Calcul des quantiles


p=0.05:0.05:0.95;
q_emp=Quantile_emp(X,p)
q_theo=cdfnor(’X’,zeros(p),ones(p),p,1-p);

//Tracé
scf(4)
clf
plot2d(q_theo, q_emp, style=-1)
plot2d(q_theo,q_theo,style=5)
xtitle(’Quantiles théoriques versus,...
empiriques d’’un échantillon N(0,1)’)

5 Application : illustrations de convergences en loi - Exercices


Exercice 1 Approximation de la loi binomiale. Pour de grandes valeurs de n, les calculs
pratiques des probabilités d’une loi binomiale B(n, p) (p ∈]0; 1[) deviennent quasiment im-
possible, à cause du calcul des coefficients binomiaux nk , k ∈ {0, . . . , n} (voir Exercice 1,
TP1). On utilise en pratique deux types d’approximation.
1. Premier cas. Si n tend vers l’infini, et p = pn dépend de n de telle sorte que
limn→∞ npn = λ > 0, alors la loi B(n, pn ) converge étroitement vers une loi de Poisson
de paramètre λ (voir Exercice 7 du polycopié de cours). En pratique, on remplace la
loi binomiale par une loi de Poisson dès que n > 30 et npn < 5 ou dès que n > 50 et
p < 0.1. Illustrer cette convergence à l’aide de diagrammes en bâtons.
2. Second cas. Si n tend vers l’infini, et si p est fixé, l’approximation est donnée par le
Théorème de Moivre-Laplace (cas particulier historique du Théorème Central Limite
pour les lois binomiales), utilisée en pratique dès que n > 30, np > 5 et n(1 − p) > 5.
En rappeler l’énoncé, et illustrer la convergence étroite associée, via les fonctions de
répartition par exemple.

Exercice 2 Autour du Théorème Central Limite.


1. Illustrer le Théorème Central Limite dans le cas où la suite de variables de départ est
de loi uniforme U[0;1] .
2. Soit (Xn )n≥1 une suite de variables indépendantes de loi de Pareto de paramètre
a ∈]1; 2[, c’est-à-dire de densité x 7→ a/xa+1 1x>1 . Justifier que les Xn admettent une

7
Université de Rouen – Agrégation externe de Mathématiques – Préparation à l’épreuve de modélisation 2017-2018

espérance (et la calculer), mais pas de moment d’ordre 2. Illustrer le fait que dans ce
√ P
cas il n’y a pas convergence en loi de la suite ( n( ni=1 Xi /n − E[X1 ]))n vers une
variable de loi gaussienne. On admettra pour l’instant (jusqu’au TP suivant !), que si
U suit la loi U[0;1] , alors U −1/a suit la loi de Pareto de paramètre a.

Exercice 3 Une autre convergence en loi. Soit (Un )n≥1 une suite de variables aléatoires i.i.d
de loi U[0;1] . Soit Vn = n mini=1,...,n Ui , pour n ≥ 1.
1. Montrer que la suite (Vn )n≥1 converge en loi vers une variable de loi exponentielle de
paramètre 1.
2. Illustrer numériquement cette convergence.

Vous aimerez peut-être aussi