5 GLM Slides

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 43

Modèles linéaires généralisés

Catherine Matias

Sorbonne Université - Modélisation Statistique


Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés

Régression logistique

Régression de Poisson - régression loglinéaire


Introduction

• Y = variable réponse
• X = matrice des variables explicatives (quantitatives ou qualitatives)

Principe de la régression
Modéliser ErY | Xs comme une fonction g de X ; ie Y

ãÑ But = retrouver g à partir d’un échantillon pYi , Xi q1ďiďn


• Modèle le plus simple = Modèle linéaire gaussien
ãÑ g linéaire et ε gaussien de variance fixée
ãÑ Y “ aX ` b ` ε
• Hypothèses trop fortes ?
• Forme linéaire de g trop restrictive ?
• Cadre gaussien pas adapté aux données ?
• Hypothèse d’homoscédasticité trop forte ?
ãÑ Modèles linéaires généralisés
Modèles linéaires généralisés ?

But = Relâcher les restrictions précédentes


• Avantages
• Conservation de la simplicité des modèles linéaires
• Possibilité d’une forme plus générale pour la fonction g
• Loi du bruit appartient à une famille exponentielle, pas nécessairement
gaussienne
• Variance du bruit pas forcément homoscédastique (ex : loi de Poisson)
• Inconvénients
• Procédure d’estimation efficace que si la vraie loi appartient à cette famille
exponentielle
• Choix de la fonction g souvent imposé par la famille exponentielle
Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés

Régression logistique

Régression de Poisson - régression loglinéaire


Famille exponentielle
Famille exponentielle
Un modèle statistique pΩ, F, pPθ,ϕ qθPΘ,ϕą0 q est appelé famille exponentielle si
les probabilités Pθ,ϕ admettent une densité f par rapport à une mesure
dominante avec ˆ ˙
yθ ´ apθq
fθ,ϕ pyq “ cϕ pyq exp .
ϕ

• θ = paramètre canonique
• ϕ = paramètre de dispersion, souvent considéré comme un paramètre de
nuisance ;
• apθq ne dépend que de θ ;
• cϕ pyq ne dépend pas de θ.

Attention ! !
• Les lois discrètes peuvent appartenir à une famille exponentielle avec pour mesure
dominante la mesure de comptage.
• Le choix de la paramétrisation n’est pas unique
Espérance et variance I
Propriété
Si Y v.a. réelle est distribuée selon une loi appartenant à une famille
exponentielle avec a de classe C 2 et convexe, alors

E rY s “ a1 pθq , Var rY s “ ϕa2 pθq

Exemples de lois appartenant à une famille exponentielle


• Loi gaussienne,
• Loi exponentielle, loi Gamma,
• Loi de Poisson,
• Loi de Bernoulli, loi binomiale, Loi binomiale négative,
• ...
Exemples de lois n’appartenant pas à une famille exponentielle
• Loi de Cauchy
• Loi de Pareto
• Loi log-normale
• ...
Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés


Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Régression logistique

Régression de Poisson - régression loglinéaire


Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés


Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Régression logistique

Régression de Poisson - régression loglinéaire


Modèle linéaire généralisé
Notations
• Y “ pY1 , . . . , Yn q = variable réponse
1

• X la matrice de taille n ˆ p dont les lignes sont les vecteurs lignes x1i
• β “ pβ1 , . . . , βp q = p paramètres du modèle
1

• µpXq “ E rY | Xs

Hypothèses
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle
2. gpµpXqq “ gpE rY | Xsq “ Xβ où g est une fonction bijective appelée
fonction de lien

• θ “ θpXq dépend de X
• Famille exponentielle ñ µpXq “ E rY | Xs “ a1 pθpXqq
ãÑ
gpµpXqq “ gpa1 pθpXqqq “ Xβ
ãÑ fonction de lien canonique g “ pa1 q´1
ãÑ pour ce choix, on a
θpXq “ Xβ
Exemples de fonctions de lien canoniques

Fonction de lien gpµq Loi


identité µ N pµ, σ 2 q, σ connu
log logpµq Ppµq
inverse 1{µ Γpk, µq avec k connu
logit logpµ{p1 ´ µqq Bpµq

(Au tableau : exemples et notion d’offset).


Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés


Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Régression logistique

Régression de Poisson - régression loglinéaire


Estimation des paramètres
Paramètres à estimer : β et ϕ
• Estimation de ϕ
• ϕ = paramètre de nuisance
ãÑ son estimation est secondaire. N’influence pas l’estimation de β.
• Si besoin, peut-être estimé par maximum de vraisemblance
• Estimation de β
• Estimation par maximum de vraisemblance
• Notons
$
1
&ηi “ Xi β

` ˘
µi “ E rYi | Xi s “ g ´1 Xi1 β “ g ´1 pηi q
’ ` `` ˘˘˘
θi “ pa1 q´1 pµi q “ pa1 q´1 g ´1 Xi1 β “ pa1 q´1 pg ´1 pηi qq
%

• Log-vraisemblance
n n " *
ÿ ÿ Yi θi ´ apθi q
ℓpβq “ log f pYi ; β, ϕq “ log cpYi , ϕq ` .
i“1 i“1
ϕ
Estimation des paramètres
Résumé
” ı
• D = diag 1
g 1 pµi qa2 pθi q
• Alors
Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj

βp est solution de
X 1 DpY ´ g ´1 pXβqq “ 0 .

• si Y | X suit une loi gaussienne, alors g “ Id, D “ In et on retrouve

βp “ pX 1 Xq´1 X 1 Y

• En général, pas de formule explicite


ãÑ Algorithme de Newton-Raphson
• Dans R, on utilise la fonction glm() en choisissant la loi et la fonction de
lien parmi celles proposées.
Algorithmes de Newton-Raphson et Fisher-scoring I

• La quantité ℓpβq
9 “ pBℓpβq{Bβj q1ďjďp est le vecteur gradient de la
log-vraisemblance. Il est appelé score.
• Newton-Raphson est un algo itératif fondé sur le développement de
Taylor à l’ordre 1 du score
• Fait donc intervenir la hessienne de la log-vraisemblance

B 2 ℓpβq
Hjk “
Bβj Bβk

qu’on suppose inversible,


• H dépend de β : Ñ à mettre à jour à chaque étape
Algorithmes de Newton-Raphson et Fisher-scoring II
Algorithme de Newton-Raphson
1. Initialisation : β0
2. Pour tout entier m
¨
βm “ βm´1 ´ rHm´1 s´1 ℓpβm´1 q

3. Arrêt quand
|βm ´ βm´1 | ď ∆
4. On pose βp “ βm

Fisher scoring
• À la place de la hessienne, on peut utiliser la matrice d’information de
Fisher In pβq dont les entrées sont In pβqjk “ ´EpB 2 ℓpβq{Bβj Bβk q.
• Il s’agit alors de l’algorithme de Fisher-scoring.
• Ici aussi on a besoin que In pβq soit inversible.
Loi asymptotique de βp
Théorème

Sous certaines conditions de régularité de la densité, l’EMV vérifie les


propriétés suivantes
• βp converge en probabilité vers β
• βp est un estimateur asymptotiquement normal de β
´ ¯
L
In pβq1{2 βp ´ β ÝÝÝÑ N p0, Ip q
nÑ8

• La statistique de Wald W vérifie


L
W :“ pβp ´ βq1 In pβqpβp ´ βq ÝÝÝÑ χ2 ppq lorsque β P Rp
nÑ8

Remarque La matrice In pβq est inconnue en pratique. Mais en remplaçant β


par βp avec βp qui converge en probabilité vers β,
´ ¯
p 1{2 βp ´ β ÝÝLÝÑ N p0, Ip q
In pβq
nÑ8
Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés


Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Régression logistique

Régression de Poisson - régression loglinéaire


Test de modèles emboîtés : test de rapport de vraisemblance
• 2 modèles M0 et M1 avec M0 un sous-modèle de M1
• dans le modèle M0 , gpµq “ X 0 β 0
• dans le modèle M1 , gpµq “ X 1 β 1
• On veut faire le test

H0 : gpµq “ X 0 β 0 contre H1 : gpµq “ X 1 β 1

• Statistique de test de rapport de vraisemblance


´ ¯
T “ ´2 ℓpβp0 q ´ ℓpβp1 q

βp0 = EMV dans le modèle M0 et βp1 = EMV dans le modèle M1


• Sous certaines conditions, sous H0 ,
L
T ÝÝÝÑ χ2 pp1 ´ p0 q
nÑ8

• p0 = nb de paramètres dans le modèle M0


• p1 = nb de paramètres dans le modèle M1
Déviance

• Test précédent souvent présenté à l’aide de la déviance


• Déviance : écart entre la log-vraisemblance du modèle d’intérêt M et
celle du modèle le plus complet possible Msat , appelé modèle saturé.
• Modèle saturé : modèle contenant autant de paramètres que
d’observations. Il s’obtient en posant µpxi q “ yi .
Ñ Modèle ayant le meilleur ajustement
• La déviance de M s’écrit alors
´ ¯
DpMq “ ´2 ℓpβq
p ´ ℓpβpsat q

• La statistique de test T peut donc se réécrire avec la déviance

T “ DpM0 q ´ DpM1 q
Test de Wald : βj “ 0

On souhaite tester l’hypothèse

H0 : βj “ 0 contre H1 : β j ‰ 0 .

On a ´ ¯2
L
In pβqjj βpj ´ βj ÝÝÝÑ χ2 p1q
nÑ8

En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique
de test de Wald est donc
´ ¯2
Wj “ In pβq
p jj βpj ´ βj

qui converge vers une loi de χ2 p1q sous H0 .


Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés


Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Régression logistique

Régression de Poisson - régression loglinéaire


Pseudo-R2

• Analogie avec le coefficient R2 du modèle linéaire


• Pseudo-R2 = rapport entre DpM0 q ´ DpMq et la déviance DpM0 q du
modèle nul (ne contenant que la constante)

DpM0 q ´ DpMq
pseudo ´ R2 “
DpM0 q

• Il varie entre 0 et 1
• Plus il est proche de 1, meilleur est l’ajustement du modèle.
Le χ2 de Pearson généralisé

• Le χ2 de Pearson généralisé est la statistique définie par


n
ÿ pyi ´ µ̂i q2
X2 “
i“1
Varpµ̂i q

où µ̂i “ g ´1 px1i β̂q est la prédiction pour l’observation xi .


• Sous l’hypothèse que le modèle étudié est le bon modèle, et si
l’approximation asymptotique est valable (ie les estimateurs sont proches
des vraies valeurs),
L
X 2 « χ2 pn ´ pq
• On rejettera le modèle étudié au niveau α si la valeur observée de X 2 est
supérieure au quantile d’ordre 1 ´ α de la loi χ2 pn ´ pq.
Choix de modèle I
• Si deux modèles sont emboîtés
Ñ le test de modèles emboités permet de choisir entre les deux
• Si plusieurs modèles candidats, non emboités, un première critère de
sélection est donné par la déviance
• Modèle qui a la plus mauvaise déviance (la plus forte) = Modèle nul M0
Ñ Il a un seul paramètre
Ñ Aucune utilité car il n’explique rien
• Modèle qui a la meilleure deviance (0) = Modèle saturé Msat
Ñ Il a autant de paramètres que d’observations.
Ñ Pas tjs pertinent car trop de paramètres
• Les déviances de ces deux modèles fournissent les valeurs du pire et du
meilleur ajustement possible
• Bon modèle = sa déviance est proche du modèle saturé (pseudo-R2
proche de 1) et s’il est construit avec un faible de nombre de paramètres
• Critères pénalisés : prendre en compte ces deux contraintes antagonistes
• Critère AIC = ´2ℓpβ̂M q ` 2dimpMq
• Critère BIC = = ´2ℓpβ̂M q ` dimpMq log n
Diagnostics, résidus I
Résidus ’classiques’
• Résidus bruts : ε̂i “ yi ´ µ̂i
Ñ quantifie l’écart entre l’observation yi et sa prédiction µ̂i
Ñ Inconvénient : ils n’ont pas toujours la même variance
• Résidus de Pearson = résidus bruts normalisés :
rpi “ ? yi ´µpi
Varµp i ryi s

où Varµpi ryi s est la variance théorique de yi évaluée en µ


pi
Ñ Même défaut que les résidus standardisés du modèle linéaire : leur
variance dépend de l’influence de l’observation i
• Résidus de Pearson standardisés = normalisation par l’effet levier

yi ´ µ pi
rsi “ a
p1 ´ hii q Varµpi ryi s

où hii désigne le levier, i.e. le terme diagonal de la matrice


H “ XpX 1 Xq´1 X 1 dans le cas où la matrice X est de rang plein.
Diagnostics, résidus II
Résidus de la déviance
• Ñ mesurent à quel point la log-vraisemblance pour l’observation i est loin
de la log-vraisemblance pour cette même observation dans le cas du
modèle saturé
?
• Définis par : rdi “ signpyi ´ µ̂i q di
où di = contribution de l’observation i à la déviance D.
• Pour expliciter di , on note θ̂sat l’estimateur du paramètre du modèle
saturé et θ̂ celui dans le modèle considéré
´ ¯
yi θ̂sat,i ´ θ̂i ` apθ̂sat,i q ´ apθ̂i q
di “ 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q “ 2
ϕ̂
• Pour rendre ces résidus comparables entre eux, il faut prendre en compte
l’influence de chaque observation. On définit donc les résidus de la
déviance standardisés d
rdi 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q
rdsi “ ? “ signpyi ´ µ̂i q
1 ´ hii 1 ´ hii
Diagnostics, résidus III

Diagnostics
• Intuitivement, une observation ayant un résidu de déviance élevé
Ñ Observation ayant une grande influence sur l’estimation des
paramètres du modèle
Ñ A examimer avec soin.
• Vérifier qu’il n’existe pas de structure inattendue dans les résidus, en
moyenne ou en variance
• On peut montrer que les résidus sont asymptotiquement gaussiens si le
modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
qqplot si le nombre de données n est assez grand.
Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés

Régression logistique

Régression de Poisson - régression loglinéaire


Exemple de régression logistique I

But
Expliquer la variable réponse Y Présence (1)/Absence (0) d’une maladie
cardio-vasculaire (Chd) par l’âge des patients
1.0
0.8
0.6
chd

0.4
0.2
0.0

20 30 40 50 60

age
Exemple de régression logistique II

• Exprimer Y linéairement en fonction de X ne semble pas raisonnable


• Idée naturelle : supposer que Y est distribuée selon une loi de Bernoulli
dont le paramètre dépend de X
ãÑ Fonction de lien pour la loi de Bernoulli = logit

ñ Régression logistique
Régression logistique
Régression logistique
1. Y | X „ BpppXqq ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ.
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq

• Odds ou côte
ppXq
1 ´ ppXq
• Dans le modèle logistique (k variables explicatives)

ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq

• Soient i1 et i2 deux observations dont la valeur des covariables ne diffère


que pour la j e variable avec Xij1 ´ Xij2 “ 1,

ppXi1 q ppXi2 q
odds-ratio “ { “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
Prédiction (=classification)

• x‹ = nouvel individu
• Prédire si y ‹ “ 0 ou 1
• Étape 1 : Calculer
expppx‹ q1 βq
p
pppx‹ q “
1 ` expppx‹ q1 βq
p

• Étape 2 : Comparer ppx‹ q au seuil s “ 1{2

pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .

• Le seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle ;
• Dans pleins de situations, les rôles ne sont pas symétriques : par exemple,
il peut être grave de prédire la présence d’une maladie (Ŷ P “ 1) qui
entraînerait par exemple une chirurgie si le patient n’a en fait rien.
Matrice de confusion I
On note YpiP P t0, 1u = prédiction de Yi et on définit les quantités
• Nombre de vrais positifs (true positive)
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1

• Nombre de faux positifs (false positive)


n
ÿ
FP “ 1Yi “0 et Yp P “1 ;
i
i“1

• Nombre de vrais négatifs (true negative)


n
ÿ
TN “ 1Yi “0 et Yp P “0 ;
i
i“1

• Nombre de faux négatifs (false negative)


n
ÿ
FN “ 1Yi “1 et Yp P “0 .
i
i“1
Matrice de confusion II

On a alors
n
ÿ
Nombre de positifs “ P “ 1Yi “1 “ T P ` F N ;
i“1
n
ÿ
Nombre de négatifs “ N “ 1Yi “0 “ T N ` F P.
i“1

La matrice de confusion résume ces quatre indicateurs

Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P

C’est une mesure de la qualité des prédictions, qui distingue les différents
types d’erreurs.
Sensibilité, spécificité, courbes ROC et AUC I
• Sensibilité = le taux de vrais positifs = TP
P
• Spécificité = le taux de vrais négatifs = TN
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le
prédicteur (ou classifieur) Yp P,s de la façon suivante :

pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0

Pour ce prédicteur, on a les quantités associées TPs , TNs , . . . ,


sensibilitys , specificitys .

Définition (Courbe ROC et AUC)


1. Courbe ROC (receiver operating characteristic curve) = la courbe
des points sensibilité contre 1 - la spécificité pour toutes les valeurs du
seuil s entre 0 et 1 ; ie la courbe des points p1 ´ specificitys , sensitivitys q
2. AUC (area under the ROC curve)= aire sous la courbe ROC.
Sensibilité, spécificité, courbes ROC et AUC II
Interprétation
• Courbe ROC idéale : collée au coin supérieur gauche
• Plus l’AUC est grande, meilleur est le classifieur
• Une règle de classification au hasard a une courbe ROC proche de y “ x
et un AUC d’environ 0.5.

Mise en oeuvre
• Il faut des observations pour construire le prédicteur (estimer p̂pxq pour
tout x)
• si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité
du prédicteur sur de nouvelles observations
• Quand c’est possible, on découpe le jeu de données en un échantillon
d’apprentissage (qui va permettre de construire p̂pxq) et un second
échantillon dit de test sur lequel on va mesurer les performances de la
règle.
Plan

Introduction

Familles exponentielles

Modèles linéaires généralisés

Régression logistique

Régression de Poisson - régression loglinéaire


Régression loglinéaire I

But
Expliquer une variable de réponse de comptage Y en fonction de covariables

• Variable de comptage = variable qui compte le nombre de fois qu’un


événement se réalise dans une certaine période de temps
• Exemples : nombre d’accidents sur la route pendant un an, nombre
d’enfants dans une famille, ...
• Modèle linéaire gaussien
Yi “ x1i β ` εi
ãÑ Normalité des résidus pas réaliste
ãÑ Les variables εi étant supposées centrées

λpxi q :“ ErYi | xi s “ x1i β

ãÑ Or rien n’indique que x1i β ą 0


Régression loglinéaire II

• Nécessaire de définir une fonction de lien reliant λpxi q au prédicteur


linéaire ηi “ x1i β
ãÑ Pour garantir que λpxi q “ ErYi | xi s ą 0, on définit le modèle par

λpxi q “ exppx1i βq ô logpλpxi qq “ x1i β

ãÑ Fonction de lien logarithmique, qui est le lien canonique associé à la


loi de Poisson, d’où le terme générique de régression loglinéaire.

Régression de Poisson (loglinéaire)


1. Y | Y „ PpλpXqq, avec λpXq ą 0
2. logpErY | Xsq “ logpλpXqq “ Xβ.
Valeurs ajustées et prédiction
• Une fois le modèle ajusté, on obtient ηpi “ x1i βp et la valeur prédite de la
moyenne
p i q “ exppx1 βq
λpx p P r0, `8q
i

• On définit les valeurs ajustées (prédites) par :


$´ ¯k ,
& λpx
’ p iq /
.
´λpx
p iq
Yi P arg max
p e
kPN ’
% k! /
-

ãÑ Ypi correspond donc à l’entier le plus probable pour la loi de Poisson


de paramètre λpx
p iq
• Nouvel individu décrit par x‹ , le modèle permet de prédire
$´ ¯k ,
’ p ‹q
& λpx /
.
‹ p ‹q
´λpx
Y P arg max
p e .
kPN ’ % k! /
-
Sur-dispersion

• Régression de Poisson ñ hypothèse très restrictive

ErYi | xi s “ VarrYi | xi s

• Sur-dispersion : ErYi | xi s ă VarrYi | xi s


Sous-dispersion : ErYi | xi s ą VarrYi | xi s
Propriétés non autorisées par le modèle de Poisson

ñ Classe plus riche de modèle basée sur la loi binomiale négative


Modèle binomial négatif pour sur-dispersion
• Loi binomiale négative modélise le nombre d’échecs nécessaires avant
l’obtention de n succès lors de la répétition de « tirages » indépendants
de probabilité de succès p
• Elle peut être généralisée au cas n “ r non entier

Régression binomiale négative


1. Yi | Xi “ xi suit une loi binomiale négative de paramètres r et ppxi q, soit
ˆ ˙k ˆ ˙r
Γpr ` kq ppxi q ppxi q
PpYi “ k | Xi “ xi q “ 1´
k!Γprq ppxi q ` r ppxi q ` r

2. logpErYi | xi sq “ logpppxi qq “ x1i β.

• On a alors
` ˘
ErYi s “ ppxi q et VarrYi s “ ppxi q 1 ` ν 2 ppxi q

où ν “ 1{r mesure le degré de sur-dispersion


• Remarque : le cas limite ν “ 0 correspond à la loi de Poisson.

Vous aimerez peut-être aussi