Inférence Chapitre1 Ouazza

Inférence Statistique
Ouazza Ahmed
Institut National de Statistique et d’Economie Appliquée

(INSEA)
2020-2021
1 / 35
Plan
1 Ch I : Introduction à l’inférence statistique
2 Ch II : Estimation ponctuelle
3 Ch III: Estimation par intervalle de confiance
4 Ch IV: Tests Statistiques
2 / 35
Chapitre I:
Introduction à l’inférence statistique
3 / 35
Introduction
4 / 35
Introduction
Statistique descriptive VS Statistique inférentielle
Statistique descriptive
Lorsqu’on dispose une base de données, il convient de synthétiser et de
résumer l’information contenue dans ces données. On utilise pour cela
des représentations des données sous forme de tableaux, de graphiques
ou d’indicateurs numériques comme la moyenne, la variance, la cor-
rélation,... Cette phase est connue sous le nom de statistique descrip-
tive.
⇒ Lorsque on étude une seule variable, on parle de statistique descrip-
tive univariée,
⇒ Lorsque on étude deux variables simultanément, on parle de statis-
tique descriptive bivariée,
⇒ Lorsque on considère p variables, on parle de statistique
descriptive multidimensionnelle (analyse des données).
5 / 35
Introduction
Statistique inférentielle
Son but est d’étendre (d’inférer) les propriétés constatées sur l’échantillon
à la population toute entière, et de valider ou d’infirmer des hypothèses.
Contrairement à la statistique descriptive, des hypothèses

probabilistes sont ici nécessaires : elle suppose un modèle
probabiliste. L’estimation ponctuelle ou par intervalle de confiance et
la théorie des tests d’hypothèses constituent une partie principale de la
statistique inférentielle.
6 / 35
Introduction
Principe de base de l’inférence

L’opération de "remontée" de l’échantillon à la population est appelée
inférence statistique.
L’inférence statistique suppose de prendre en compte l’aspect

aléatoire des données.
L’idée de base est ainsi de considérer les observations comme issues
d’un phénomène aléatoire.
L’inférence statistique s’appuie donc sur des outils probabilistes
7 / 35
Modèle Statistique - Échantillon
8 / 35
Modèle Statistique
Soit X1 , · · · , Xn n variables aléatoires
Les données dont on dispose sont des réalisations de ces variables
aléatoires; elles sont notées x1 , · · · , xn
Si on considère l’expérience aléatoire qui consiste à recueillir une
observation x de la variable aléatoire X, alors:
X est supposée être à valeurs dans un espace X
Généralement, on ne connait pas la loi de probabilité P de X
Hypothèse fondamentale:
On suppose que la loi de probabilité P appartient à une famille P de
lois de probabilités possibles
9 / 35
Modèle Statistique
Définition 0.1
On appelle modèle statistique tout triplet (X, A, P) où
• X est l’espace des observations, c-à-d l’ensemble de tous les
résultats possibles de l’expérience
• A est une tribu sur X
• P est une famille de probabilités sur (X, A)
La définition d’un modèle statistique repose donc sur une hypothèse

concernant la famille d’appartenance de la loi de X
10 / 35
Exemple 1
Soit X ∼ B(p) donc le modèle associé à une observation de X est
(X, A, P)
Avec X = {0, 1} , A = P ({0, 1}) , P = {B(p), p ∈]0, 1[}
Exemple 2
Soit X ∼ N (µ, σ 2 ) donc le modèle associé à une observation de X
est (X, A, P)
Avec X = R , A = B(R) , P = {N (µ, σ2), µ ∈ R, σ ∈ R?+}
11 / 35
• Le modèle est dit discret lorsque X est fini ou dénombrable.

Alors A est la tribu formée par l’ensemble des parties de X:
A = P (X)
• Le modèle est dit continu lorsque X ⊂ Rp et que ∀P ∈ P, P
admet une densité dans pR
Dans ce cas, A est la tribu des boréliens de X : A = B(X)
Dans l’exemple 1, le modèle est discret

Dans l’exemple 2, le modèle est continu
12 / 35
Échantillon
Définition 0.2
Un échantillon de taille n (ou n-échantillon) est une suite
X1 , · · · , Xn de n variables aléatoires indépendantes, de même loi P
(iid).
Le n-échantillon définit un vecteur aléatoire (X1 , · · · , Xn ) de loi

P⊗n
Si M = (X, A, P) est le modèle statistique pour une observation,
donc le modèle associé à un n-échantillon est le modèle produit :
P
Mn = (Xn , An , { ⊗n })
avec An une tribu sur Xn
13 / 35
Les modèles associés à un n-échantillon dans les exemples précédents

sont:
Pour l’exemple 1:
Xn = {0, 1}n , An = P ({0, 1}n ) et P ⊗n = {B(p)⊗n , p ∈]0, 1[}
Pour l’exemple 2:
Xn = Rn , An = B(Rn) et P ⊗n = {N (µ, σ2)⊗n, µ ∈ R, σ ∈ R?+}
14 / 35
Modèle paramétrique
Définition 0.3
• Si la loi de X appartient à une famille de lois indexables par un
nombre fini de paramètres, le modèle est dit paramétrique. On note
P R
alors P = { θ , θ ∈ Θ} où Θ ⊂ p est l’espace des paramètres.
• Si la famille d’appartenance de la loi de X n’est pas indexable par
un nombre fini de paramètres, on parle alors de modèle non
paramétrique
Avec:
• Pθ est la loi de probabilité correspondant à la valeur θ du paramètre.
• Θ est l’espace paramétrique (dans lequel θ peut prendre sa valeur).
• p est la dimension du paramètre (pour p = 1, on parle de paramètre
unidimensionnel, pour p > 1, on parle de paramètre
multidimensionnel ou vectoriel).
15 / 35
Un modèle paramétrique associé à un n-échantillon sera donc noté:
Mn = {Xn , B(Xn ), P⊗n

θ , θ ∈ Θ}
⇒ Ce modèle est appelé modèle d’échantillonnage.
Exemple
P
• Si est une loi normale N (µ, σ 2 ), alors on est dans un cadre
R R
paramétrique bidimensionel, avec Θ = {(µ, σ 2 ), µ ∈ , σ ∈ ?+ }
P
• Si on considère un modèle où peut être n’importe quelle loi de
probabilité continue, alors on est dans un cadre non paramétrique.
16 / 35
Modèle identifiable:
Définition 0.4
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dit identifiable si
l’application θ P
θ est injective (on dit aussi la famille
P
{ θ , θ ∈ Θ} est identifiable)
Donc le modèle est identifiable:

si Pθ = Pθ 0
0 0
⇒ θ = θ ou si θ 6= θ ⇒ Pθ 6= Pθ 0
17 / 35
Exemple:
Soit ε1 , · · · , εn n variables aléatoires iid avec εi ∼ N (0, σε2 )
On pose Xk = aebk + εk ; k = 1, · · · , n
Le modèle associé est
R R P
{ n , B( n ), ⊗n 2 R × R × R?+}
θ , θ = (a, b, σε ) ∈
On a Xk ∼ Pθ avec Pθ = N (aebk , σε2 )

Pour n = 1 le modèle n’est pas identifiable, en effet:
0 0
Soit θ = (a, c, σε2 ) et θ = (aec , 0, σε2 ) donc θ 6= θ , mais
Pθ = N (aec, σε2) et Pθ 0 = N (aec , σε2 ) donc Pθ = Pθ 0
D’où
P
{ θ , θ ∈ Θ} n’est pas identifiable pour n = 1.
18 / 35
Modèle dominé:
Définition 0.5
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dominé s’il existe une
P
mesure σ-finie µ telle que θ est absolument continue par rapport à
P
µ. ( θ < µ)
Remarque:
P
• Si (X, B, θ , θ ∈ Θ) est dominé, alors il existe f (., θ) densité de
P θ par rapport à µ tel que
P P
Z Z
θ = d θ = f (x, θ)dµ(x); ∀θ ∈ Θ
B B
(D’après Radon-Nikodyn)
On dit aussi la famille { Pθ , θ ∈ Θ} est dominée.
• La mesure dominante µ n’est pas unique.
19 / 35
Vraisemblance - Définition d’une statistique
20 / 35
Vraisemblance:
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par la mesure µ
P
σ-finie, d θ = f (., θ)dµ
Définition 0.6
On appelle vraisemblance au point x ∈ X l’application θ f (x, θ)
Remarque:
• Si le modèle est d’échantillonnage:(Xn , B⊗n , ⊗n P θ , θ ∈ Θ), la
vraisemblance auQpoint x est l’application,
θ L(x, θ) = ni=1 f (xi , θ) ; x = (x1 , · · · , xn ) ∈ Xn
Interprétation:
• Le terme de vraisemblance s’interprète en remarquant que plus
L(x, θ) est grand, plus la probabilité d’observer x est grande.
• Si X est dénombrable et Pθ < µ, alors L(x, θ) = Pθ ({x}) , x ∈ X
21 / 35
Définition d’une statistique:
Définition 0.7
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, une statistique S est
une application mesurable de (X, B) vers (Y , F).
Remarque:
P
• Si (Xn , B⊗n , ⊗n θ , θ ∈ Θ) est un modèle d’échantillonnage, une
statistique S sur (Xn , B⊗n ) est une fonction mesurable de n variables
aléatoires X1 , · · · , Xn associées au modèle.
• S une statistique ⇔ ∃g mesurable telle que S = g(X1 , · · · , Xn )
• Une statistique ne doit pas dépendre de θ.
• La statistique S est une variable aléatoire.
22 / 35
Exemple:
Soit X1 , · · · , Xn n variables aléatoires.

• On définit µk par: µk = n1 ni=1 Xik ; k = 1, 2, ...
P
µk sont des statistiques appelées moments empiriques d’ordre k

• (X(1) , · · · , X(n) ) est une statistique appelée statistique d’ordre
23 / 35
Exhaustivité - Complétude - Modèles
exponentiels
24 / 35
Exhaustivité - Complétude - Modèles exponentiels
Exhaustivité:
Définition 0.8
Soit X1 , · · · , Xn un échantillon de taille n, Xi ∼ P⊗n
θ , i = 1, · · · , n
,θ ∈ Θ et S une statistique définie sur (Xn , B⊗n , Pθ , θ ∈ Θ)
S est exhaustive si et seulement si la loi conditionnelle de
X1 , · · · , Xn sachant S ne dépend pas de θ, ou d’une façon
équivalente: Eθ ((X1 , · · · , Xn )/S) est indépendante de θ.
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ B(θ), θ ∈]0, 1[,
on associé alors le modèle ({0, 1}n , P ({0, 1}n ), B ⊗n (θ), θ ∈]0, 1[)
Xn
On pose S = Xi , alors S est une statistique car
i=1
S = g(X1 , · · · , XPn ) et g est mesurable avec
g(x1 , · · · , xn ) = ni=1 xi où x1 , · · · , xn ∈ {0, 1}
25 / 35
La statistique S est exhaustive, en effet:
P (X1 = x1 , · · · , Xn = xn , S = s)
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
n
X
avec s = xi
i=1
Puisque
P (X1 = x1 , · · · , Xn = xn , S = s) = P (X1 = x1 , · · · , Xn = xn )
donc
P (X1 = x1 , · · · , Xn = xn )
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
Pn
Or S = i=1 Xi ∼ B(n, θ)
26 / 35
donc
n
Y
P (Xi = xi )
P (X1 = x1 , · · · , Xn = xn ) i=1
= s s
P (S = s) Cn θ (1 − θ)n−s
P P
xi
θ (1 − θ)n− xi
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s
= s s
Cn θ (1 − θ)n−s
1
= s
Cn
qui est indépendante de θ

D’où la statistique S est exhaustive.
27 / 35
Critère de factorisation:
Théorème 0.1
Soit X1 , · · · , Xn n variables aléatoires iid, Xi ∼ Pθ , θ ∈ Θ.
On suppose que le modèle (X, B, Pθ , θ ∈ Θ) associé est dominé par
P
µ σ-finie ( θ < µ)
La statistique S = S(X1 , · · · , Xn ) est exhaustive si et seulement s’il
existe deux fonctions mesurables gθ et h telles que:
L(x, θ) = gθ (S(x))h(x) , x = (x1 , · · · , xn ), ∀θ ∈ Θ
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid de loi exponentielle,
Xi ∼ E (λ), donc θ = λ ∈ ?+ .R
Le modèle associe est ( Rn, B(Rn), E (λ)⊗n, λ ∈ R?+)
28 / 35
Pn
On pose S(X) = i=1 Xi ,
S est une statistique exhaustive, en effet:

L(x1 , · · · , xn , θ) = ni=1 f (xi , θ)
Q
λe−λxi si xi ≥ 0

avec f (xi , λ) =
0 si xi < 0
Donc
n
Y n
Y
L(x1 , · · · , xn , θ) = f (xi , θ) = λe−λxi
i=1 i=1
n −λ n
P
=λ e i=1 xi
= λn e−λS(x)
= gλ (S(x))h(x)
Avec gλ (S(x)) = λn e−λS(x) et h(x) = 1

D’où S est une statistique exhaustive.
29 / 35
Liberté:
Définition 0.9
Une statistique S est libre si la loi de S est indépendante de θ c-à-d
P P
S = S ∀θ 6= θ 0
θ θ0
Remarque:
Si S = c avec (c ∈ R) alors S est libre.
Exercice:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ N (0, σ 2 ),
σ2 > 0
n n
1X 1X
On pose X = 2
Xi et Sx = (Xi − X)2
n n
i=1 i=1
Monter que la statistique T = rX est libre.

2
Sx
n−1
30 / 35
Complétude:
Définition 0.10 (Modèle complet)

P
Un modèle (X, B, θ , θ ∈ Θ) est completRsi et seulement si
P
∀θ ∈ Θ, ∀g : X → T mesurable telle que X g(x)d θ (x) = 0 Alors
g=0 P θ − ps
Définition 0.11 (Statistique complète)

P
Une statistique S définie sur (X, B, θ , θ ∈ Θ) est complète si et
seulement si R∀θ ∈ Θ, ∀g mesurable telle que
P
Eθ [g(S)] = g(x)d Sθ (x) = 0 Alors g = 0 P
S − ps
θ
Remarque:
Une statistique S définie sur un modèle (X, B, Pθ , θ ∈ Θ) complet
est complète.
Exemple:(Voir TD)
31 / 35
Modèle exponentiel:
Définition 0.12
P
Un modèle (X, B, θ , θ ∈ Θ), Θ ⊂ Rk , k ≥ 1 est exponentiel si et
P
seulement si ∃ µ mesure σ-finie telle que θ < µ et
 
Xk
f (x, θ) = C(θ)h(x) exp  Qj (θ)Tj (x) , ∀x ∈ X, ∀θ ∈ Θ
j=1
avec h ≥ 0 , Tj mesurable, C(θ) et Qj (θ) sont des applications de

θ, C(θ) ≥ 0.
Pθ , θ ∈ Θ} est exponentielle).
(On dit aussi que la famille {
32 / 35
Remarques:
• T = (T1 , · · · , Tk ) est une statistique exhaustive, T est dite
statistique privilégie. (Grâce au théorème de factorisation
f (x, θ) = gθ (T (x))h(x)
P
• Si (X, B, θ , θ ∈ Θ) est exponentiel, alors le modèle
d’échantillonnage (Xn , B⊗n , ⊗n P
θ , θ ∈ Θ) est exponentiel.
33 / 35
Exemple:
On considère la loi de poisson P(θ) de paramètre θ, alors la famille
{P(θ), θ > 0} est exponentielle, en effet:
f (x, θ) = Pθ (X = x) = exp(−θ) θx! , x ∈ N
x
1
donc f (x, θ) = exp(−θ) exp(x log θ) x!
1
On pose C(θ) = exp(−θ), h(x) = x! , Q(θ) = log θ, T (x) = x
alors f (x, θ) = C(θ)h(x) exp(Q(θ)T (x))
D’où la famille {P(θ), θ > 0} est exponentielle.
Exercice:
Vérifier que les lois Binômiales, de Poisson, normales font partie de

la famille exponentielle.
34 / 35
Chapitre II:
Estimation ponctuelle
35 / 35

Inférence Chapitre1 Ouazza

Transféré par

Droits d'auteur :

Formats disponibles

Inférence Chapitre1 Ouazza

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Inférence Chapitre1 Ouazza

Transféré par

Droits d'auteur :

Formats disponibles

Inférence Statistique

Institut National de Statistique et d’Economie Appliquée

1 Ch I : Introduction à l’inférence statistique

3 Ch III: Estimation par intervalle de confiance

4 Ch IV: Tests Statistiques

Introduction à l’inférence statistique

Statistique descriptive VS Statistique inférentielle

Contrairement à la statistique descriptive, des hypothèses

Principe de base de l’inférence

L’inférence statistique suppose de prendre en compte l’aspect

La définition d’un modèle statistique repose donc sur une hypothèse

• Le modèle est dit discret lorsque X est fini ou dénombrable.

Dans l’exemple 1, le modèle est discret

Le n-échantillon définit un vecteur aléatoire (X1 , · · · , Xn ) de loi

Les modèles associés à un n-échantillon dans les exemples précédents

Un modèle paramétrique associé à un n-échantillon sera donc noté:

Mn = {Xn , B(Xn ), P⊗n

⇒ Ce modèle est appelé modèle d’échantillonnage.

Donc le modèle est identifiable:

On a Xk ∼ Pθ avec Pθ = N (aebk , σε2 )

Définition d’une statistique:

Soit X1 , · · · , Xn n variables aléatoires.

µk sont des statistiques appelées moments empiriques d’ordre k

La statistique S est exhaustive, en effet:

qui est indépendante de θ

S est une statistique exhaustive, en effet:

Avec gλ (S(x)) = λn e−λS(x) et h(x) = 1

Monter que la statistique T = rX est libre.

Définition 0.10 (Modèle complet)

Définition 0.11 (Statistique complète)

avec h ≥ 0 , Tj mesurable, C(θ) et Qj (θ) sont des applications de

Vérifier que les lois Binômiales, de Poisson, normales font partie de

Vous aimerez peut-être aussi