Inférence Chapitre1 Ouazza
Inférence Chapitre1 Ouazza
Inférence Chapitre1 Ouazza
Ouazza Ahmed
2020-2021
1 / 35
Plan
2 Ch II : Estimation ponctuelle
2 / 35
Chapitre I:
3 / 35
Introduction
4 / 35
Introduction
Statistique descriptive
Lorsqu’on dispose une base de données, il convient de synthétiser et de
résumer l’information contenue dans ces données. On utilise pour cela
des représentations des données sous forme de tableaux, de graphiques
ou d’indicateurs numériques comme la moyenne, la variance, la cor-
rélation,... Cette phase est connue sous le nom de statistique descrip-
tive.
⇒ Lorsque on étude une seule variable, on parle de statistique descrip-
tive univariée,
⇒ Lorsque on étude deux variables simultanément, on parle de statis-
tique descriptive bivariée,
⇒ Lorsque on considère p variables, on parle de statistique
descriptive multidimensionnelle (analyse des données).
5 / 35
Introduction
Statistique inférentielle
Son but est d’étendre (d’inférer) les propriétés constatées sur l’échantillon
à la population toute entière, et de valider ou d’infirmer des hypothèses.
6 / 35
Introduction
7 / 35
Modèle Statistique - Échantillon
8 / 35
Modèle Statistique - Échantillon
Modèle Statistique
Soit X1 , · · · , Xn n variables aléatoires
Les données dont on dispose sont des réalisations de ces variables
aléatoires; elles sont notées x1 , · · · , xn
Si on considère l’expérience aléatoire qui consiste à recueillir une
observation x de la variable aléatoire X, alors:
X est supposée être à valeurs dans un espace X
Généralement, on ne connait pas la loi de probabilité P de X
Hypothèse fondamentale:
On suppose que la loi de probabilité P appartient à une famille P de
lois de probabilités possibles
9 / 35
Modèle Statistique - Échantillon
Modèle Statistique
Définition 0.1
On appelle modèle statistique tout triplet (X, A, P) où
• X est l’espace des observations, c-à-d l’ensemble de tous les
résultats possibles de l’expérience
• A est une tribu sur X
• P est une famille de probabilités sur (X, A)
10 / 35
Modèle Statistique - Échantillon
Exemple 1
Soit X ∼ B(p) donc le modèle associé à une observation de X est
(X, A, P)
Avec X = {0, 1} , A = P ({0, 1}) , P = {B(p), p ∈]0, 1[}
Exemple 2
Soit X ∼ N (µ, σ 2 ) donc le modèle associé à une observation de X
est (X, A, P)
Avec X = R , A = B(R) , P = {N (µ, σ2), µ ∈ R, σ ∈ R?+}
11 / 35
Modèle Statistique - Échantillon
12 / 35
Modèle Statistique - Échantillon
Échantillon
Définition 0.2
Un échantillon de taille n (ou n-échantillon) est une suite
X1 , · · · , Xn de n variables aléatoires indépendantes, de même loi P
(iid).
13 / 35
Modèle Statistique - Échantillon
14 / 35
Modèle Statistique - Échantillon
Modèle paramétrique
Définition 0.3
• Si la loi de X appartient à une famille de lois indexables par un
nombre fini de paramètres, le modèle est dit paramétrique. On note
P R
alors P = { θ , θ ∈ Θ} où Θ ⊂ p est l’espace des paramètres.
• Si la famille d’appartenance de la loi de X n’est pas indexable par
un nombre fini de paramètres, on parle alors de modèle non
paramétrique
Avec:
• Pθ est la loi de probabilité correspondant à la valeur θ du paramètre.
• Θ est l’espace paramétrique (dans lequel θ peut prendre sa valeur).
• p est la dimension du paramètre (pour p = 1, on parle de paramètre
unidimensionnel, pour p > 1, on parle de paramètre
multidimensionnel ou vectoriel).
15 / 35
Modèle Statistique - Échantillon
Exemple
P
• Si est une loi normale N (µ, σ 2 ), alors on est dans un cadre
R R
paramétrique bidimensionel, avec Θ = {(µ, σ 2 ), µ ∈ , σ ∈ ?+ }
P
• Si on considère un modèle où peut être n’importe quelle loi de
probabilité continue, alors on est dans un cadre non paramétrique.
16 / 35
Modèle Statistique - Échantillon
Modèle identifiable:
Définition 0.4
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dit identifiable si
l’application θ P
θ est injective (on dit aussi la famille
P
{ θ , θ ∈ Θ} est identifiable)
17 / 35
Modèle Statistique - Échantillon
Exemple:
Soit ε1 , · · · , εn n variables aléatoires iid avec εi ∼ N (0, σε2 )
On pose Xk = aebk + εk ; k = 1, · · · , n
Le modèle associé est
R R P
{ n , B( n ), ⊗n 2 R × R × R?+}
θ , θ = (a, b, σε ) ∈
D’où
P
{ θ , θ ∈ Θ} n’est pas identifiable pour n = 1.
18 / 35
Modèle Statistique - Échantillon
Modèle dominé:
Définition 0.5
P
Le modèle statistique (X, B, θ , θ ∈ Θ) est dominé s’il existe une
P
mesure σ-finie µ telle que θ est absolument continue par rapport à
P
µ. ( θ < µ)
Remarque:
P
• Si (X, B, θ , θ ∈ Θ) est dominé, alors il existe f (., θ) densité de
P θ par rapport à µ tel que
P P
Z Z
θ = d θ = f (x, θ)dµ(x); ∀θ ∈ Θ
B B
(D’après Radon-Nikodyn)
On dit aussi la famille { Pθ , θ ∈ Θ} est dominée.
• La mesure dominante µ n’est pas unique.
19 / 35
Vraisemblance - Définition d’une statistique
20 / 35
Vraisemblance - Définition d’une statistique
Vraisemblance:
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique dominé par la mesure µ
P
σ-finie, d θ = f (., θ)dµ
Définition 0.6
On appelle vraisemblance au point x ∈ X l’application θ f (x, θ)
Remarque:
• Si le modèle est d’échantillonnage:(Xn , B⊗n , ⊗n P θ , θ ∈ Θ), la
vraisemblance auQpoint x est l’application,
θ L(x, θ) = ni=1 f (xi , θ) ; x = (x1 , · · · , xn ) ∈ Xn
Interprétation:
• Le terme de vraisemblance s’interprète en remarquant que plus
L(x, θ) est grand, plus la probabilité d’observer x est grande.
• Si X est dénombrable et Pθ < µ, alors L(x, θ) = Pθ ({x}) , x ∈ X
21 / 35
Vraisemblance - Définition d’une statistique
Définition 0.7
P
Soit (X, B, θ , θ ∈ Θ) un modèle statistique, une statistique S est
une application mesurable de (X, B) vers (Y , F).
Remarque:
P
• Si (Xn , B⊗n , ⊗n θ , θ ∈ Θ) est un modèle d’échantillonnage, une
statistique S sur (Xn , B⊗n ) est une fonction mesurable de n variables
aléatoires X1 , · · · , Xn associées au modèle.
• S une statistique ⇔ ∃g mesurable telle que S = g(X1 , · · · , Xn )
• Une statistique ne doit pas dépendre de θ.
• La statistique S est une variable aléatoire.
22 / 35
Vraisemblance - Définition d’une statistique
Exemple:
23 / 35
Exhaustivité - Complétude - Modèles
exponentiels
24 / 35
Exhaustivité - Complétude - Modèles exponentiels
Exhaustivité:
Définition 0.8
Soit X1 , · · · , Xn un échantillon de taille n, Xi ∼ P⊗n
θ , i = 1, · · · , n
,θ ∈ Θ et S une statistique définie sur (Xn , B⊗n , Pθ , θ ∈ Θ)
S est exhaustive si et seulement si la loi conditionnelle de
X1 , · · · , Xn sachant S ne dépend pas de θ, ou d’une façon
équivalente: Eθ ((X1 , · · · , Xn )/S) est indépendante de θ.
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ B(θ), θ ∈]0, 1[,
on associé alors le modèle ({0, 1}n , P ({0, 1}n ), B ⊗n (θ), θ ∈]0, 1[)
Xn
On pose S = Xi , alors S est une statistique car
i=1
S = g(X1 , · · · , XPn ) et g est mesurable avec
g(x1 , · · · , xn ) = ni=1 xi où x1 , · · · , xn ∈ {0, 1}
25 / 35
Exhaustivité - Complétude - Modèles exponentiels
P (X1 = x1 , · · · , Xn = xn , S = s)
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
n
X
avec s = xi
i=1
Puisque
P (X1 = x1 , · · · , Xn = xn , S = s) = P (X1 = x1 , · · · , Xn = xn )
donc
P (X1 = x1 , · · · , Xn = xn )
P (X1 = x1 , · · · , Xn = xn /S = s) =
P (S = s)
Pn
Or S = i=1 Xi ∼ B(n, θ)
26 / 35
Exhaustivité - Complétude - Modèles exponentiels
donc
n
Y
P (Xi = xi )
P (X1 = x1 , · · · , Xn = xn ) i=1
= s s
P (S = s) Cn θ (1 − θ)n−s
P P
xi
θ (1 − θ)n− xi
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s
= s s
Cn θ (1 − θ)n−s
1
= s
Cn
27 / 35
Exhaustivité - Complétude - Modèles exponentiels
Critère de factorisation:
Théorème 0.1
Soit X1 , · · · , Xn n variables aléatoires iid, Xi ∼ Pθ , θ ∈ Θ.
On suppose que le modèle (X, B, Pθ , θ ∈ Θ) associé est dominé par
P
µ σ-finie ( θ < µ)
La statistique S = S(X1 , · · · , Xn ) est exhaustive si et seulement s’il
existe deux fonctions mesurables gθ et h telles que:
L(x, θ) = gθ (S(x))h(x) , x = (x1 , · · · , xn ), ∀θ ∈ Θ
Exemple:
Soit X1 , · · · , Xn n variables aléatoires iid de loi exponentielle,
Xi ∼ E (λ), donc θ = λ ∈ ?+ .R
Le modèle associe est ( Rn, B(Rn), E (λ)⊗n, λ ∈ R?+)
28 / 35
Exhaustivité - Complétude - Modèles exponentiels
Pn
On pose S(X) = i=1 Xi ,
λe−λxi si xi ≥ 0
avec f (xi , λ) =
0 si xi < 0
Donc
n
Y n
Y
L(x1 , · · · , xn , θ) = f (xi , θ) = λe−λxi
i=1 i=1
n −λ n
P
=λ e i=1 xi
= λn e−λS(x)
= gλ (S(x))h(x)
Définition 0.9
Une statistique S est libre si la loi de S est indépendante de θ c-à-d
P P
S = S ∀θ 6= θ 0
θ θ0
Remarque:
Si S = c avec (c ∈ R) alors S est libre.
Exercice:
Soit X1 , · · · , Xn n variables aléatoires iid avec Xi ∼ N (0, σ 2 ),
σ2 > 0
n n
1X 1X
On pose X = 2
Xi et Sx = (Xi − X)2
n n
i=1 i=1
Remarque:
Une statistique S définie sur un modèle (X, B, Pθ , θ ∈ Θ) complet
est complète.
Exemple:(Voir TD)
31 / 35
Exhaustivité - Complétude - Modèles exponentiels
Modèle exponentiel:
Définition 0.12
P
Un modèle (X, B, θ , θ ∈ Θ), Θ ⊂ Rk , k ≥ 1 est exponentiel si et
P
seulement si ∃ µ mesure σ-finie telle que θ < µ et
Xk
f (x, θ) = C(θ)h(x) exp Qj (θ)Tj (x) , ∀x ∈ X, ∀θ ∈ Θ
j=1
32 / 35
Exhaustivité - Complétude - Modèles exponentiels
Remarques:
• T = (T1 , · · · , Tk ) est une statistique exhaustive, T est dite
statistique privilégie. (Grâce au théorème de factorisation
f (x, θ) = gθ (T (x))h(x)
P
• Si (X, B, θ , θ ∈ Θ) est exponentiel, alors le modèle
d’échantillonnage (Xn , B⊗n , ⊗n P
θ , θ ∈ Θ) est exponentiel.
33 / 35
Exhaustivité - Complétude - Modèles exponentiels
Exemple:
On considère la loi de poisson P(θ) de paramètre θ, alors la famille
{P(θ), θ > 0} est exponentielle, en effet:
f (x, θ) = Pθ (X = x) = exp(−θ) θx! , x ∈ N
x
1
donc f (x, θ) = exp(−θ) exp(x log θ) x!
1
On pose C(θ) = exp(−θ), h(x) = x! , Q(θ) = log θ, T (x) = x
alors f (x, θ) = C(θ)h(x) exp(Q(θ)T (x))
D’où la famille {P(θ), θ > 0} est exponentielle.
Exercice:
34 / 35
Chapitre II:
Estimation ponctuelle
35 / 35