5 GLM Slides
5 GLM Slides
5 GLM Slides
Catherine Matias
Introduction
Familles exponentielles
Régression logistique
• Y = variable réponse
• X = matrice des variables explicatives (quantitatives ou qualitatives)
Principe de la régression
Modéliser ErY | Xs comme une fonction g de X ; ie Y
Introduction
Familles exponentielles
Régression logistique
• θ = paramètre canonique
• ϕ = paramètre de dispersion, souvent considéré comme un paramètre de
nuisance ;
• apθq ne dépend que de θ ;
• cϕ pyq ne dépend pas de θ.
Attention ! !
• Les lois discrètes peuvent appartenir à une famille exponentielle avec pour mesure
dominante la mesure de comptage.
• Le choix de la paramétrisation n’est pas unique
Espérance et variance I
Propriété
Si Y v.a. réelle est distribuée selon une loi appartenant à une famille
exponentielle avec a de classe C 2 et convexe, alors
Introduction
Familles exponentielles
Régression logistique
Introduction
Familles exponentielles
Régression logistique
• X la matrice de taille n ˆ p dont les lignes sont les vecteurs lignes x1i
• β “ pβ1 , . . . , βp q = p paramètres du modèle
1
• µpXq “ E rY | Xs
Hypothèses
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle
2. gpµpXqq “ gpE rY | Xsq “ Xβ où g est une fonction bijective appelée
fonction de lien
• θ “ θpXq dépend de X
• Famille exponentielle ñ µpXq “ E rY | Xs “ a1 pθpXqq
ãÑ
gpµpXqq “ gpa1 pθpXqqq “ Xβ
ãÑ fonction de lien canonique g “ pa1 q´1
ãÑ pour ce choix, on a
θpXq “ Xβ
Exemples de fonctions de lien canoniques
Introduction
Familles exponentielles
Régression logistique
• Log-vraisemblance
n n " *
ÿ ÿ Yi θi ´ apθi q
ℓpβq “ log f pYi ; β, ϕq “ log cpYi , ϕq ` .
i“1 i“1
ϕ
Estimation des paramètres
Résumé
” ı
• D = diag 1
g 1 pµi qa2 pθi q
• Alors
Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj
βp est solution de
X 1 DpY ´ g ´1 pXβqq “ 0 .
βp “ pX 1 Xq´1 X 1 Y
• La quantité ℓpβq
9 “ pBℓpβq{Bβj q1ďjďp est le vecteur gradient de la
log-vraisemblance. Il est appelé score.
• Newton-Raphson est un algo itératif fondé sur le développement de
Taylor à l’ordre 1 du score
• Fait donc intervenir la hessienne de la log-vraisemblance
B 2 ℓpβq
Hjk “
Bβj Bβk
3. Arrêt quand
|βm ´ βm´1 | ď ∆
4. On pose βp “ βm
Fisher scoring
• À la place de la hessienne, on peut utiliser la matrice d’information de
Fisher In pβq dont les entrées sont In pβqjk “ ´EpB 2 ℓpβq{Bβj Bβk q.
• Il s’agit alors de l’algorithme de Fisher-scoring.
• Ici aussi on a besoin que In pβq soit inversible.
Loi asymptotique de βp
Théorème
Introduction
Familles exponentielles
Régression logistique
T “ DpM0 q ´ DpM1 q
Test de Wald : βj “ 0
H0 : βj “ 0 contre H1 : β j ‰ 0 .
On a ´ ¯2
L
In pβqjj βpj ´ βj ÝÝÝÑ χ2 p1q
nÑ8
En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique
de test de Wald est donc
´ ¯2
Wj “ In pβq
p jj βpj ´ βj
Introduction
Familles exponentielles
Régression logistique
DpM0 q ´ DpMq
pseudo ´ R2 “
DpM0 q
• Il varie entre 0 et 1
• Plus il est proche de 1, meilleur est l’ajustement du modèle.
Le χ2 de Pearson généralisé
yi ´ µ pi
rsi “ a
p1 ´ hii q Varµpi ryi s
Diagnostics
• Intuitivement, une observation ayant un résidu de déviance élevé
Ñ Observation ayant une grande influence sur l’estimation des
paramètres du modèle
Ñ A examimer avec soin.
• Vérifier qu’il n’existe pas de structure inattendue dans les résidus, en
moyenne ou en variance
• On peut montrer que les résidus sont asymptotiquement gaussiens si le
modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
qqplot si le nombre de données n est assez grand.
Plan
Introduction
Familles exponentielles
Régression logistique
But
Expliquer la variable réponse Y Présence (1)/Absence (0) d’une maladie
cardio-vasculaire (Chd) par l’âge des patients
1.0
0.8
0.6
chd
0.4
0.2
0.0
20 30 40 50 60
age
Exemple de régression logistique II
ñ Régression logistique
Régression logistique
Régression logistique
1. Y | X „ BpppXqq ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ.
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq
• Odds ou côte
ppXq
1 ´ ppXq
• Dans le modèle logistique (k variables explicatives)
ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq
ppXi1 q ppXi2 q
odds-ratio “ { “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
Prédiction (=classification)
• x‹ = nouvel individu
• Prédire si y ‹ “ 0 ou 1
• Étape 1 : Calculer
expppx‹ q1 βq
p
pppx‹ q “
1 ` expppx‹ q1 βq
p
pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .
• Le seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle ;
• Dans pleins de situations, les rôles ne sont pas symétriques : par exemple,
il peut être grave de prédire la présence d’une maladie (Ŷ P “ 1) qui
entraînerait par exemple une chirurgie si le patient n’a en fait rien.
Matrice de confusion I
On note YpiP P t0, 1u = prédiction de Yi et on définit les quantités
• Nombre de vrais positifs (true positive)
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1
On a alors
n
ÿ
Nombre de positifs “ P “ 1Yi “1 “ T P ` F N ;
i“1
n
ÿ
Nombre de négatifs “ N “ 1Yi “0 “ T N ` F P.
i“1
Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P
C’est une mesure de la qualité des prédictions, qui distingue les différents
types d’erreurs.
Sensibilité, spécificité, courbes ROC et AUC I
• Sensibilité = le taux de vrais positifs = TP
P
• Spécificité = le taux de vrais négatifs = TN
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le
prédicteur (ou classifieur) Yp P,s de la façon suivante :
pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0
Mise en oeuvre
• Il faut des observations pour construire le prédicteur (estimer p̂pxq pour
tout x)
• si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité
du prédicteur sur de nouvelles observations
• Quand c’est possible, on découpe le jeu de données en un échantillon
d’apprentissage (qui va permettre de construire p̂pxq) et un second
échantillon dit de test sur lequel on va mesurer les performances de la
règle.
Plan
Introduction
Familles exponentielles
Régression logistique
But
Expliquer une variable de réponse de comptage Y en fonction de covariables
ErYi | xi s “ VarrYi | xi s
• On a alors
` ˘
ErYi s “ ppxi q et VarrYi s “ ppxi q 1 ` ν 2 ppxi q