8 - Estimation Et Maximum de Vraisemblance

Sciences des données
Cours #8 : Estimation et maximum de vraisemblance
Stéphane Robin
© Équipe enseignante LU1INMA1
Plan du cours
1 Notion d’estimateur
Estimateur / estimation
Propriétés d’un estimateur
2 Exemples d’estimateurs
Estimation de l’espérance
Estimation d’une probabilité
3 Estimation par maximum de vraisemblance

Vraisemblance d’un échantillon
Estimation par maximum de vraisemblance
Estimation d’une probabilité de dépassement
4 Si le temps le permet
Estimateur du maximum de vraisemblance
5 Démonstrations
Stéphane Robin — Cours #8 : Estimation et maximum de vraisemblance — Sciences des données — 2021–2022 1/22
Inférence
Objectif.
Données (souvent) recueillies pour mieux comprendre un processus général.
Analyse des données à visée inférentielle : tirer des conclusions ayant une valeur générale,
qui ne se limite pas aux données observées.
Inférence
Objectif.
Données (souvent) recueillies pour mieux comprendre un processus général.
Analyse des données à visée inférentielle : tirer des conclusions ayant une valeur générale,
qui ne se limite pas aux données observées.
Contre-exemple : Données sur la survie des passagers du Titanic.

Tous les passagers du navire ont été pris en compte → pas d’objectif inférentiel.
Sauf à considérer les passagers du Titanic comme un échantillon d’une population plus
large.
(Par exemple : les passagers des voyages transatlantiques au début du XXème siècle.)
Plan du cours

5 Démonstrations
Exemple : durée de chômage
Durée de chômage
On a relevé la durée de chômage (exprimée en semaines) de n = 452 personnes au chômage
(et ayant retrouvé un emploi, source : États-unis, 1993).
Exemple : durée de chômage
Durée de chômage
On a relevé la durée de chômage (exprimée en semaines) de n = 452 personnes au chômage
(et ayant retrouvé un emploi, source : États-unis, 1993).
Ces 452 personnes constituent un échantillon d’une population plus large (les chômeurs
états-uniens en 1993). On s’intéresse typiquement
à l’espérance de la durée de chômage dans la population,
à sa variance,
à la probabilité que cette durée excède 1 an (= 52 semaines).
Cadre général
Cadre général de l’inférence

On suppose que les données disponibles (x1 , x2 , . . . xn ) constituent une réalisation d’un
échantillon i.i.d. (X1 , X2 , . . . Xn ) issue d’une loi F (de densité f et de fonc. de répartition F ) :
pour tout 1 ≤ i ≤ n : Xi ∼ F .
Il s’agit de décrire la loi F .
Cadre général
Cadre général de l’inférence

On suppose que les données disponibles (x1 , x2 , . . . xn ) constituent une réalisation d’un
échantillon i.i.d. (X1 , X2 , . . . Xn ) issue d’une loi F (de densité f et de fonc. de répartition F ) :
pour tout 1 ≤ i ≤ n : Xi ∼ F .
Il s’agit de décrire la loi F .
Durée de chômage
La durée de chômage de chaque individu 1 ≤ i ≤ n = 452 est une variable Xi ∼ F et on
s’intéresse à
l’espérance de X : µ = E(X ),
la variance de X : σ 2 = V(X ),
la probabilité que X dépasse 52 : π = P{X > 52}
(on peut omettre l’indice i de X car tous les Xi sont de même loi).
Notion d’estimateur (1/2)
Un estimateur est une fonction des observations, dont la réalisation est sensée “bien estimer”
une caractéristique (ou paramètre) d’intérêt.
Exemple : estimation de l’espérance

Paramètre : On souhaite estimer l’espérance µ de la loi F :
Z +∞
µ= x f (x) dx.
−∞
Exemple : estimation de l’espérance

Paramètre : On souhaite estimer l’espérance µ de la loi F :
Z +∞
µ= x f (x) dx.
−∞
Estimateur : On peut se propose d’estimer µ par la moyenne (empirique) de l’échantillon

n
1X
M= Xi .
n i=1
Par nature l’estimateur M est aléatoire.
Exemple : estimation de l’espérance (suite)

R +∞
Paramètre : espérance µ = −∞ x f (x) dx.
n
1X
Estimateur : moyenne de l’échantillon M = Xi .
n i=1

R +∞
n
1X
n i=1
Estimation : réalisation m de l’estimateur M

n
1X
m= xi
n i=1
= estimation de l’espérance µ. On note µ

b = m.

R +∞
n
1X
n i=1
Estimation : réalisation m de l’estimateur M

n
1X
m= xi
n i=1
= estimation de l’espérance µ. On note µ

b = m.
Durée de chômage
On trouve
µ
b = 18.51 semaines (' 4.3 mois).
Propriétés d’une estimateur
Objectif. Etudier la qualité d’un estimateur (ex. : M) en vue de l’estimation d’un paramètre
donné (ex. : µ).
donné (ex. : µ).
Critères. Il s’agit donc de définir des critères de qualité. Par exemple :
Espérance : on souhaite que l’espérance de l’estimateur soit proche de la valeur du

paramètre (absence de biais)
Variance : on souhaite que sa variance soit faible
donné (ex. : µ).
Critères. Il s’agit donc de définir des critères de qualité. Par exemple :
Espérance : on souhaite que l’espérance de l’estimateur soit proche de la valeur du

paramètre (absence de biais)
Variance : on souhaite que sa variance soit faible
Biais d’un estimateur

Le biais de l’estimateur est la différence entre son espérance et la valeur du paramètre θ qu’il
prétend estimer :
B(T ) = E(T ) − θ.
Un estimateur est sans biais si cette différence est nulle : B(T ) = 0.
Plan du cours

5 Démonstrations
On suppose qu’on dispose d’un échantillon i.i.d. (X1 , . . . Xn ) de loi F .
On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

l’échantillon.

l’échantillon.
Absence de biais de la moyenne

La moyenne M d’une échantillon i.i.d. est un estimateur sans biais de l’espérance µ :
E(M) = µ. (1)

l’échantillon.

E(M) = µ. (1)
Variance de la moyenne
En notant σ 2 la variance de la loi F , la moyenne M d’un n-échantillon i.i.d. de F a pour
variance
V(M) = σ 2 /n. (2)

l’échantillon.

E(M) = µ. (1)
variance
V(M) = σ 2 /n. (2)
Remarques.
1 La variance de la moyenne M tend vers 0 quand n tend vers l’infini.

l’échantillon.

E(M) = µ. (1)
variance
V(M) = σ 2 /n. (2)
Remarques.
1 La variance de la moyenne M tend vers 0 quand n tend vers l’infini.
2 La précision d’un estimateur est souvent mesurée par son écart-type : l’écart-type de la
√
moyenne M vaut σ/ n.
Objectif. On considère un échantillon i.i.d. de variables binaires (Xi ∈ {0, 1}), et on cherche à
estimer la probabilité
π = P{Xi = 1}.
La proportion de valeur ’1’ dans l’échantillon
|{i : Xi = 1}|
P=
n
est un estimateur naturel de cette probabilité.
π = P{Xi = 1}.
|{i : Xi = 1}|
P=
n
Absence de biais de la proportion

La proportion de succès dans un échantillon i.i.d. de variables binaires est un estimateur sans
biais de la probabilité de succès π
E(P) = π. (3)
De plus, la variance de cette proportion vaut π(1 − π)/n.
π = P{Xi = 1}.
|{i : Xi = 1}|
P=
n
Absence de biais de la proportion

La proportion de succès dans un échantillon i.i.d. de variables binaires est un estimateur sans
biais de la probabilité de succès π
E(P) = π. (3)
De plus, la variance de cette proportion vaut π(1 − π)/n.
Durée de chômage
Parmi les n = 452 personnes de l’échantillon, 38 d’entre elles ont connu une période de
chômage de plus d’un an (xi > 52). La probabilité que la durée de chômage excède un an est
donc estimée à
38
π
b= = 0.0841.
452
Plan du cours

5 Démonstrations
Estimation par maximum de vraisemblance (1/2)
Objectif. On ne dispose pas toujours d’un estimateur “naturel” pour un paramètre d’intérêt.
Il s’agit donc de définir une méthode générique pour définir un estimateur ou une estimation.
Principe. Une méthode classique pour estimer un paramètre consiste à déterminer la valeur du
paramètre qui maximise la vraisemblance de l’échantillon observé.
Principe. Une méthode classique pour estimer un paramètre consiste à déterminer la valeur du
paramètre qui maximise la vraisemblance de l’échantillon observé.
Vraisemblance d’un échantillon (rappel)

La fonction de vraisemblance de la réalisation d’un échantillon (X1 , . . . Xn ) i.i.d. de loi F (θ) est
si les variables Xi sont discrètes :
n
Y
V (x1 , . . . xn ; θ) = p(xi ; θ),
i=1
si les variables Xi sont continues (réelles) :

n
Y
V (x1 , . . . xn ; θ) = f (xi ; θ).
i=1
Remarques.
Remarques.
1 La vraisemblance est à prendre au sens littéral : elle mesure la plausibilité d’un échantillon
pour une valeur donnée du paramètre.
Remarques.
2 Dans la suite on se concentrera sur le cas des variables continues. Le cas des variables
discrètes se traite de façon analogue.
Remarques.
2 Dans la suite on se concentrera sur le cas des variables continues. Le cas des variables
discrètes se traite de façon analogue.
3 On utilise souvent la log-vraisemblance

n
X
L(x1 , . . . xn ; θ) = log (V (x1 , . . . xn ; θ)) = log (f (xi ; θ))
i=1
plutôt que la vraisemblance V (x1 , . . . xn ; θ).
Vraisemblance d’un échantillon de loi exponentielle (1/2)
La loi exponentielle E(λ) a pour densité
f (x) = λe −λx .
Pn
On connaît la vraisemblance d’un n-échantillon (x1 , . . . xn ) en notant y = i=1 xi :
V (x1 , . . . xn ; λ) = λn exp (−λy ) ⇒ L(x1 , . . . xn ; λ) = n log(λ) − λy .
La loi exponentielle E(λ) a pour densité
f (x) = λe −λx .
Pn
On connaît la vraisemblance d’un n-échantillon (x1 , . . . xn ) en notant y = i=1 xi :
V (x1 , . . . xn ; λ) = λn exp (−λy ) ⇒ L(x1 , . . . xn ; λ) = n log(λ) − λy .
Durée de chômage
On observe
n = 452, y = 8367,
la fonction de vraisemblance est donc
V (x1 , . . . xn ; λ) = λ452 exp (−8367 λ)
et la fonction de log-vraisemblance
L(x1 , . . . xn ; λ) = 452 log(λ) − 8367 λ
Durée de chômage
Fonction de log-vraisemblance L :
L(x1 , . . . xn ; λ) = 452 log(λ) − 8367 λ
Estimation du maximum de vraisemblance

L’estimation du maximum de vraisemblance du paramètre θ est la valeur qui maximise la
vraisemblance de l’échantillon observé
θbMV : ∀θ, V (x1 , x2 , . . . , xn ; θbMV ) ≥ V (x1 , x2 , . . . , xn ; θ).
Estimation du maximum de vraisemblance

L’estimation du maximum de vraisemblance du paramètre θ est la valeur qui maximise la
vraisemblance de l’échantillon observé
θbMV : ∀θ, V (x1 , x2 , . . . , xn ; θbMV ) ≥ V (x1 , x2 , . . . , xn ; θ).
Pour des raisons calculatoires, il est souvent plus simple de manipuler la log-vraisemblance que
la vraisemblance elle-même.
Maximum de log-vraisemblance
L’estimation du maximum de vraisemblance θbMV maximise également la log-vraisemblance de
l’échantillon observé
θbMV : ∀θ, L(x1 , x2 , . . . , xn ; θbMV ) ≥ L(x1 , x2 , . . . , xn ; θ). (4)
Exemple : loi exponentielle
Estimation du maximum de vraisemblance pour la loi exponentielle
Soit (x1 , . . . xn ) la réalisation d’un échantillon i.i.d. de loi exponentielle E(λ). La fonction de
log-vraisemblance L(x1 , . . . xn ; λ) est maximale pour l’inverse de la moyenne
λ
b = n/y = 1/x. (5)
Exemple : loi exponentielle
Estimation du maximum de vraisemblance pour la loi exponentielle
Soit (x1 , . . . xn ) la réalisation d’un échantillon i.i.d. de loi exponentielle E(λ). La fonction de
log-vraisemblance L(x1 , . . . xn ; λ) est maximale pour l’inverse de la moyenne
λ
b = n/y = 1/x. (5)
Durée de chômage
On suppose que les durées suivent une loi exponentielle E(λ).
Fonction de log-vraisemblance : Estimation de λ : Distribution estimée :
b = n = 452
λ
y 8367
= 0.05402 semaines−1 .
Objectif : Estimer d’autres quantités d’intérêt de la loi F (ex. : P{X > t}) à partir de
l’estimation du paramètre θ.
Exemple. Pour la loi exponentielle E(λ), on a

P{X > t} = 1 − P{X ≤ t} = 1 − F (t) = e −λt .
Exemple. Pour la loi exponentielle E(λ), on a

P{X > t} = 1 − P{X ≤ t} = 1 − F (t) = e −λt .
Durée de chômage
On dispose de λ
b = 0.05402, on peut donc esti-
mer P{X > t} par
> t} = e −λt
b
P{X
b
soit
> 52 semaines} = e −52 λ = 0.06026.

b
P{X
b
(Pour mémoire, π
b = 0.0841.)
Cas des seuils élevés
L’hypothèse d’une loi paramétrique est particulièrement utile pour les grandes valeurs de t.
L’hypothèse d’une loi paramétrique est particulièrement utile pour les grandes valeurs de t.
Précipitations maximales annuelles à Fort Collins (USA) au XXème siècle

Données : xi = précipitation maximale pour l’année i (pouces, n = 100)
Données transformées : yi = log(xi )
Données originales xi Données transformées yi
Données : yi = log-précipitation maximale

pour l’année i (pouces, n = 100)

Loi F : loi normale
Y ∼ N (µ, σ 2 )

Loi F : loi normale
Y ∼ N (µ, σ 2 )
Estimation :
µ
b = 5.071, σ
b = 0.438.

Loi F : loi normale
Y ∼ N (µ, σ 2 )
Estimation :
µ
b = 5.071, σ
b = 0.438.
Questions :
Quel estimateur pour µ ?
Quel estimateur pour σ 2 ?

Probabilité de dépassement :
1
Z +∞
(u − µ)2

P{X > t} = P{Y > log(t)} = √ exp − du.
σ 2π log(t) 2σ 2

Probabilité de dépassement :
1
Z +∞
(u − µ)2

P{X > t} = P{Y > log(t)} = √ exp − du.
σ 2π log(t) 2σ 2
Probabilités de dépassement estimées (%) :
t (pouces) 300 400 500 600 441 616

log(t) 5.70 5.99 6.21 6.40 6.09 6.42
proportion 9.00 3.00 0.00 0.00 2.00 0.00
loi normale 7.41 1.77 0.45 0.12 1.00 0.10
Plan du cours

5 Démonstrations
Estimation 6= Estimateur du maximum de vraisemblance
Rappel :
Estimation = valeur fixe (ex. : réel)
Estimateur = variable aléatoire (espérance, biais, variance)
Rappel :
Maximum de vraisemblance :
θbMV = estimation du maximum de vraisemblance = maximum de la fonction
∀θ : b ≥ V (x1 , . . . , x2 ; θ)
V (x1 , . . . , x2 ; θ)
TMV = estimateur du maximum de vraisemblance = maximum de la fonction aléatoire
∀θ : V (X1 , . . . , X2 ; T ) ≥ V (X1 , . . . , X2 ; θ)
Rappel :
Maximum de vraisemblance :
θbMV = estimation du maximum de vraisemblance = maximum de la fonction
∀θ : b ≥ V (x1 , . . . , x2 ; θ)
V (x1 , . . . , x2 ; θ)
TMV = estimateur du maximum de vraisemblance = maximum de la fonction aléatoire
∀θ : V (X1 , . . . , X2 ; T ) ≥ V (X1 , . . . , X2 ; θ)
Étude des propriétés générales de TMV hors programme (pas toujours de forme explicite).
Exemple : loi exponentielle (1/2)
Loi exponentielle
On simule m = 1000 échantillons de taille n = 10 issue d’une loi exponentielle E(1).

Pour chaque échantillon, on calcule l’estimation du maximum de vraisemblance
, 10
X
λ
bMV = 10 xi .
i=1
On obtient 1000 réalisations de l’estimateur ΛMV .
L’estimateur du maximum de vraisemblance vaut

, 10
X
ΛMV = 10 Xi
i=1

, 10
X
ΛMV = 10 Xi
i=1
On peut montrer que
n n2
E(ΛMV ) = λ, V(ΛMV ) = λ2 .
n−1 (n − 1)2 (n − 2)

, 10
X
ΛMV = 10 Xi
i=1
On peut montrer que
n n2
E(ΛMV ) = λ, V(ΛMV ) = λ2 .
n−1 (n − 1)2 (n − 2)
On en conclut, par exemple,

que ΛMV est (légèrement) biaisé :
λ
E(ΛMV ) − λ = .
n−1
que sa variance tend vers 0 :
lim V(ΛMV ) = 0.
n→∞
Plan du cours

5 Démonstrations
Démonstrations
Estimation de l’espérance I
Démonstration de l’équation (1). Il nous faut déterminer l’espérance de la moyenne. Par

définition, on a
n
1X
M= Xi .
n i=1
D’après la propriété de linéarité de l’espérance, l’espérance de M vaut donc

n n n
! !
1X 1 X 1X
E(M) = E Xi = E Xi = E (Xi ) .
n i=1 n i=1
n i=1
Comme les Xi sont i.i.d.de loi F , ils ont chacun pour espérance µ, et donc
n
1X 1
E(M) = µ = nµ = µ.
n i=1 n
Estimation de l’espérance II
Démonstration de l’équation (2). On connait la variance d’une transformation linéaire :
n n
! !
1X 1 X
V(M) = V Xi = V Xi .
n i=1 n2 i=1
Comme les Xi sont indépendants, la variance de leur somme est la somme de leurs variances
(cf TD no 6) :
n
1 X
V(M) = 2 V (Xi ) .
n i=1
Comme les Xi sont i.i.d., ils ont tous pour variance σ 2 :

n
1 X 2 1 σ2
V(M) = σ = 2 nσ 2 = .
n2 i=1 n n
Estimation d’une proportion I
Démonstration de l’équation (3). Il suffit de remarquer que

n
X
|{i : Xi = 1}| = Xi
i=1
et que la proportion P est en fait une moyenne (de variables binaires) :

n
1X
P= Xi
n i=1
où les Xi sont tous de même espérance π et de même variance π(1 − π).
L’équation (1) nous assure lors que P est un estimateur sans biais :
E(P) = E(Xi ) = π
et l’équation (2) nous donne sa variance :
V(P) = V(Xi )/n = π(1 − π)/n.
Maximum de vraisemblance I
Démonstration de l’équation (4). Il suffit de remarquer que la fonction logarithme est

strictement croissante et que donc, pour tout fonction f ,
{u ∗ : ∀u, f (u ∗ ) ≥ f (u)} ⇔ {u ∗ : ∀u, log (f (u ∗ )) ≥ log (f (u))}
Maximum de vraisemblance II
Démonstration de l’équation (5). Il suffit de déterminer le maximum de la log-vraisemblance

de la réalisation (x1 , . . . xn ) d’un échantillon exponentiel, soit
n
X
L(x1 , . . . , xn ; λ) = n log(λ) − λy , où y = xi ,
i=1
dont la dérivée par rapport à λ vaut

n
L0 (x1 , . . . , xn ; λ) = −y
λ
qui s’annule uniquement pour
λ
b = y /n = 1/x
par définition de la moyenne x = y /n.
On vérifie qu’il s’agit bien d’un maximum en vérifiant que la dérivée seconde
L00 (x1 , . . . , xn ; λ) b2
b = −n/λ
est bien négative.

8 - Estimation Et Maximum de Vraisemblance

Transféré par

Droits d'auteur :

Formats disponibles

8 - Estimation Et Maximum de Vraisemblance

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

8 - Estimation Et Maximum de Vraisemblance

Transféré par

Droits d'auteur :

Formats disponibles

Sciences des données

Cours #8 : Estimation et maximum de vraisemblance

3 Estimation par maximum de vraisemblance

Contre-exemple : Données sur la survie des passagers du Titanic.

3 Estimation par maximum de vraisemblance

Cadre général de l’inférence

Il s’agit de décrire la loi F .

Cadre général de l’inférence

Il s’agit de décrire la loi F .

Exemple : estimation de l’espérance

Exemple : estimation de l’espérance

Estimateur : On peut se propose d’estimer µ par la moyenne (empirique) de l’échantillon

Par nature l’estimateur M est aléatoire.

Exemple : estimation de l’espérance (suite)

Exemple : estimation de l’espérance (suite)

Estimation : réalisation m de l’estimateur M

= estimation de l’espérance µ. On note µ

Exemple : estimation de l’espérance (suite)

Estimation : réalisation m de l’estimateur M

= estimation de l’espérance µ. On note µ

Critères. Il s’agit donc de définir des critères de qualité. Par exemple :

Espérance : on souhaite que l’espérance de l’estimateur soit proche de la valeur du

Variance : on souhaite que sa variance soit faible

Critères. Il s’agit donc de définir des critères de qualité. Par exemple :

Espérance : on souhaite que l’espérance de l’estimateur soit proche de la valeur du

Variance : on souhaite que sa variance soit faible

Biais d’un estimateur

3 Estimation par maximum de vraisemblance

On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

Absence de biais de la moyenne

On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

Absence de biais de la moyenne

On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

Absence de biais de la moyenne

On souhaite estimer l’espérance µ au moyen de l’estimateur M défini comme la moyenne de

Absence de biais de la moyenne

Absence de biais de la proportion

Absence de biais de la proportion

3 Estimation par maximum de vraisemblance

Vraisemblance d’un échantillon (rappel)

si les variables Xi sont continues (réelles) :

3 On utilise souvent la log-vraisemblance

plutôt que la vraisemblance V (x1 , . . . xn ; θ).

La loi exponentielle E(λ) a pour densité

V (x1 , . . . xn ; λ) = λn exp (−λy ) ⇒ L(x1 , . . . xn ; λ) = n log(λ) − λy .

La loi exponentielle E(λ) a pour densité

V (x1 , . . . xn ; λ) = λn exp (−λy ) ⇒ L(x1 , . . . xn ; λ) = n log(λ) − λy .

V (x1 , . . . xn ; λ) = λ452 exp (−8367 λ)

L(x1 , . . . xn ; λ) = 452 log(λ) − 8367 λ

L(x1 , . . . xn ; λ) = 452 log(λ) − 8367 λ

Estimation du maximum de vraisemblance

θbMV : ∀θ, V (x1 , x2 , . . . , xn ; θbMV ) ≥ V (x1 , x2 , . . . , xn ; θ).

Estimation du maximum de vraisemblance

θbMV : ∀θ, V (x1 , x2 , . . . , xn ; θbMV ) ≥ V (x1 , x2 , . . . , xn ; θ).

θbMV : ∀θ, L(x1 , x2 , . . . , xn ; θbMV ) ≥ L(x1 , x2 , . . . , xn ; θ). (4)

Fonction de log-vraisemblance : Estimation de λ : Distribution estimée :

Exemple. Pour la loi exponentielle E(λ), on a

Exemple. Pour la loi exponentielle E(λ), on a