5 GLM Slides

Modèles linéaires généralisés
Catherine Matias
Sorbonne Université - Modélisation Statistique

Plan
Introduction
Familles exponentielles
Régression logistique
Régression de Poisson - régression loglinéaire

Introduction
• Y = variable réponse
• X = matrice des variables explicatives (quantitatives ou qualitatives)
Principe de la régression
Modéliser ErY | Xs comme une fonction g de X ; ie Y
ãÑ But = retrouver g à partir d’un échantillon pYi , Xi q1ďiďn

• Modèle le plus simple = Modèle linéaire gaussien
ãÑ g linéaire et ε gaussien de variance fixée
ãÑ Y “ aX ` b ` ε
• Hypothèses trop fortes ?
• Forme linéaire de g trop restrictive ?
• Cadre gaussien pas adapté aux données ?
• Hypothèse d’homoscédasticité trop forte ?
ãÑ Modèles linéaires généralisés
Modèles linéaires généralisés ?
But = Relâcher les restrictions précédentes

• Avantages
• Conservation de la simplicité des modèles linéaires
• Possibilité d’une forme plus générale pour la fonction g
• Loi du bruit appartient à une famille exponentielle, pas nécessairement
gaussienne
• Variance du bruit pas forcément homoscédastique (ex : loi de Poisson)
• Inconvénients
• Procédure d’estimation efficace que si la vraie loi appartient à cette famille
exponentielle
• Choix de la fonction g souvent imposé par la famille exponentielle
Plan
Introduction

Famille exponentielle
Famille exponentielle
Un modèle statistique pΩ, F, pPθ,ϕ qθPΘ,ϕą0 q est appelé famille exponentielle si
les probabilités Pθ,ϕ admettent une densité f par rapport à une mesure
dominante avec ˆ ˙
yθ ´ apθq
fθ,ϕ pyq “ cϕ pyq exp .
ϕ
• θ = paramètre canonique
• ϕ = paramètre de dispersion, souvent considéré comme un paramètre de
nuisance ;
• apθq ne dépend que de θ ;
• cϕ pyq ne dépend pas de θ.
Attention ! !
• Les lois discrètes peuvent appartenir à une famille exponentielle avec pour mesure
dominante la mesure de comptage.
• Le choix de la paramétrisation n’est pas unique
Espérance et variance I
Propriété
Si Y v.a. réelle est distribuée selon une loi appartenant à une famille
exponentielle avec a de classe C 2 et convexe, alors
E rY s “ a1 pθq , Var rY s “ ϕa2 pθq
Exemples de lois appartenant à une famille exponentielle

• Loi gaussienne,
• Loi exponentielle, loi Gamma,
• Loi de Poisson,
• Loi de Bernoulli, loi binomiale, Loi binomiale négative,
• ...
Exemples de lois n’appartenant pas à une famille exponentielle
• Loi de Cauchy
• Loi de Pareto
• Loi log-normale
• ...
Plan
Introduction

Définitions
Estimation
Tests d’hypothèses
Qualité d’ajustement et choix de modèles

Plan
Introduction

Définitions
Estimation

Modèle linéaire généralisé
Notations
• Y “ pY1 , . . . , Yn q = variable réponse
1
• X la matrice de taille n ˆ p dont les lignes sont les vecteurs lignes x1i
• β “ pβ1 , . . . , βp q = p paramètres du modèle
1
• µpXq “ E rY | Xs
Hypothèses
1. Y | X „ PθpXq,ϕ appartient à une famille exponentielle
2. gpµpXqq “ gpE rY | Xsq “ Xβ où g est une fonction bijective appelée
fonction de lien
• θ “ θpXq dépend de X
• Famille exponentielle ñ µpXq “ E rY | Xs “ a1 pθpXqq
ãÑ
gpµpXqq “ gpa1 pθpXqqq “ Xβ
ãÑ fonction de lien canonique g “ pa1 q´1
ãÑ pour ce choix, on a
θpXq “ Xβ
Exemples de fonctions de lien canoniques
Fonction de lien gpµq Loi

identité µ N pµ, σ 2 q, σ connu
log logpµq Ppµq
inverse 1{µ Γpk, µq avec k connu
logit logpµ{p1 ´ µqq Bpµq
(Au tableau : exemples et notion d’offset).

Plan
Introduction

Définitions
Estimation

Estimation des paramètres
Paramètres à estimer : β et ϕ
• Estimation de ϕ
• ϕ = paramètre de nuisance
ãÑ son estimation est secondaire. N’influence pas l’estimation de β.
• Si besoin, peut-être estimé par maximum de vraisemblance
• Estimation de β
• Estimation par maximum de vraisemblance
• Notons
$
1
&ηi “ Xi β
’
` ˘
µi “ E rYi | Xi s “ g ´1 Xi1 β “ g ´1 pηi q
’ ` `` ˘˘˘
θi “ pa1 q´1 pµi q “ pa1 q´1 g ´1 Xi1 β “ pa1 q´1 pg ´1 pηi qq
%
• Log-vraisemblance
n n " *
ÿ ÿ Yi θi ´ apθi q
ℓpβq “ log f pYi ; β, ϕq “ log cpYi , ϕq ` .
i“1 i“1
ϕ
Estimation des paramètres
Résumé
” ı
• D = diag 1
g 1 pµi qa2 pθi q
• Alors
Bℓ
“0 pour tout j “ 1, . . . , p ô X 1 DpY ´ µq “ 0
Bβj
βp est solution de
X 1 DpY ´ g ´1 pXβqq “ 0 .
• si Y | X suit une loi gaussienne, alors g “ Id, D “ In et on retrouve
βp “ pX 1 Xq´1 X 1 Y
• En général, pas de formule explicite

ãÑ Algorithme de Newton-Raphson
• Dans R, on utilise la fonction glm() en choisissant la loi et la fonction de
lien parmi celles proposées.
Algorithmes de Newton-Raphson et Fisher-scoring I
• La quantité ℓpβq
9 “ pBℓpβq{Bβj q1ďjďp est le vecteur gradient de la
log-vraisemblance. Il est appelé score.
• Newton-Raphson est un algo itératif fondé sur le développement de
Taylor à l’ordre 1 du score
• Fait donc intervenir la hessienne de la log-vraisemblance
B 2 ℓpβq
Hjk “
Bβj Bβk
qu’on suppose inversible,

• H dépend de β : Ñ à mettre à jour à chaque étape
Algorithmes de Newton-Raphson et Fisher-scoring II
Algorithme de Newton-Raphson
1. Initialisation : β0
2. Pour tout entier m
¨
βm “ βm´1 ´ rHm´1 s´1 ℓpβm´1 q
3. Arrêt quand
|βm ´ βm´1 | ď ∆
4. On pose βp “ βm
Fisher scoring
• À la place de la hessienne, on peut utiliser la matrice d’information de
Fisher In pβq dont les entrées sont In pβqjk “ ´EpB 2 ℓpβq{Bβj Bβk q.
• Il s’agit alors de l’algorithme de Fisher-scoring.
• Ici aussi on a besoin que In pβq soit inversible.
Loi asymptotique de βp
Théorème
Sous certaines conditions de régularité de la densité, l’EMV vérifie les

propriétés suivantes
• βp converge en probabilité vers β
• βp est un estimateur asymptotiquement normal de β
´ ¯
L
In pβq1{2 βp ´ β ÝÝÝÑ N p0, Ip q
nÑ8
• La statistique de Wald W vérifie

L
W :“ pβp ´ βq1 In pβqpβp ´ βq ÝÝÝÑ χ2 ppq lorsque β P Rp
nÑ8
Remarque La matrice In pβq est inconnue en pratique. Mais en remplaçant β

par βp avec βp qui converge en probabilité vers β,
´ ¯
p 1{2 βp ´ β ÝÝLÝÑ N p0, Ip q
In pβq
nÑ8
Plan
Introduction

Définitions
Estimation

Test de modèles emboîtés : test de rapport de vraisemblance
• 2 modèles M0 et M1 avec M0 un sous-modèle de M1
• dans le modèle M0 , gpµq “ X 0 β 0
• dans le modèle M1 , gpµq “ X 1 β 1
• On veut faire le test
H0 : gpµq “ X 0 β 0 contre H1 : gpµq “ X 1 β 1
• Statistique de test de rapport de vraisemblance

´ ¯
T “ ´2 ℓpβp0 q ´ ℓpβp1 q
βp0 = EMV dans le modèle M0 et βp1 = EMV dans le modèle M1

• Sous certaines conditions, sous H0 ,
L
T ÝÝÝÑ χ2 pp1 ´ p0 q
nÑ8
• p0 = nb de paramètres dans le modèle M0

• p1 = nb de paramètres dans le modèle M1
Déviance
• Test précédent souvent présenté à l’aide de la déviance

• Déviance : écart entre la log-vraisemblance du modèle d’intérêt M et
celle du modèle le plus complet possible Msat , appelé modèle saturé.
• Modèle saturé : modèle contenant autant de paramètres que
d’observations. Il s’obtient en posant µpxi q “ yi .
Ñ Modèle ayant le meilleur ajustement
• La déviance de M s’écrit alors
´ ¯
DpMq “ ´2 ℓpβq
p ´ ℓpβpsat q
• La statistique de test T peut donc se réécrire avec la déviance
T “ DpM0 q ´ DpM1 q
Test de Wald : βj “ 0
On souhaite tester l’hypothèse
H0 : βj “ 0 contre H1 : β j ‰ 0 .
On a ´ ¯2
L
In pβqjj βpj ´ βj ÝÝÝÑ χ2 p1q
nÑ8
En pratique comme précisé plus haut, l’information de Fisher est calculée non
pas en les vrais paramètres qui sont inconnus mais en βp (et ϕ).
p La statistique
de test de Wald est donc
´ ¯2
Wj “ In pβq
p jj βpj ´ βj
qui converge vers une loi de χ2 p1q sous H0 .

Plan
Introduction

Définitions
Estimation

Pseudo-R2
• Analogie avec le coefficient R2 du modèle linéaire

• Pseudo-R2 = rapport entre DpM0 q ´ DpMq et la déviance DpM0 q du
modèle nul (ne contenant que la constante)
DpM0 q ´ DpMq
pseudo ´ R2 “
DpM0 q
• Il varie entre 0 et 1
• Plus il est proche de 1, meilleur est l’ajustement du modèle.
Le χ2 de Pearson généralisé
• Le χ2 de Pearson généralisé est la statistique définie par

n
ÿ pyi ´ µ̂i q2
X2 “
i“1
Varpµ̂i q
où µ̂i “ g ´1 px1i β̂q est la prédiction pour l’observation xi .

• Sous l’hypothèse que le modèle étudié est le bon modèle, et si
l’approximation asymptotique est valable (ie les estimateurs sont proches
des vraies valeurs),
L
X 2 « χ2 pn ´ pq
• On rejettera le modèle étudié au niveau α si la valeur observée de X 2 est
supérieure au quantile d’ordre 1 ´ α de la loi χ2 pn ´ pq.
Choix de modèle I
• Si deux modèles sont emboîtés
Ñ le test de modèles emboités permet de choisir entre les deux
• Si plusieurs modèles candidats, non emboités, un première critère de
sélection est donné par la déviance
• Modèle qui a la plus mauvaise déviance (la plus forte) = Modèle nul M0
Ñ Il a un seul paramètre
Ñ Aucune utilité car il n’explique rien
• Modèle qui a la meilleure deviance (0) = Modèle saturé Msat
Ñ Il a autant de paramètres que d’observations.
Ñ Pas tjs pertinent car trop de paramètres
• Les déviances de ces deux modèles fournissent les valeurs du pire et du
meilleur ajustement possible
• Bon modèle = sa déviance est proche du modèle saturé (pseudo-R2
proche de 1) et s’il est construit avec un faible de nombre de paramètres
• Critères pénalisés : prendre en compte ces deux contraintes antagonistes
• Critère AIC = ´2ℓpβ̂M q ` 2dimpMq
• Critère BIC = = ´2ℓpβ̂M q ` dimpMq log n
Diagnostics, résidus I
Résidus ’classiques’
• Résidus bruts : ε̂i “ yi ´ µ̂i
Ñ quantifie l’écart entre l’observation yi et sa prédiction µ̂i
Ñ Inconvénient : ils n’ont pas toujours la même variance
• Résidus de Pearson = résidus bruts normalisés :
rpi “ ? yi ´µpi
Varµp i ryi s
où Varµpi ryi s est la variance théorique de yi évaluée en µ

pi
Ñ Même défaut que les résidus standardisés du modèle linéaire : leur
variance dépend de l’influence de l’observation i
• Résidus de Pearson standardisés = normalisation par l’effet levier
yi ´ µ pi
rsi “ a
p1 ´ hii q Varµpi ryi s
où hii désigne le levier, i.e. le terme diagonal de la matrice

H “ XpX 1 Xq´1 X 1 dans le cas où la matrice X est de rang plein.
Diagnostics, résidus II
Résidus de la déviance
• Ñ mesurent à quel point la log-vraisemblance pour l’observation i est loin
de la log-vraisemblance pour cette même observation dans le cas du
modèle saturé
?
• Définis par : rdi “ signpyi ´ µ̂i q di
où di = contribution de l’observation i à la déviance D.
• Pour expliciter di , on note θ̂sat l’estimateur du paramètre du modèle
saturé et θ̂ celui dans le modèle considéré
´ ¯
yi θ̂sat,i ´ θ̂i ` apθ̂sat,i q ´ apθ̂i q
di “ 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q “ 2
ϕ̂
• Pour rendre ces résidus comparables entre eux, il faut prendre en compte
l’influence de chaque observation. On définit donc les résidus de la
déviance standardisés d
rdi 2ℓpyi ; θ̂sat , ϕ̂q ´ 2ℓpyi ; θ̂, ϕ̂q
rdsi “ ? “ signpyi ´ µ̂i q
1 ´ hii 1 ´ hii
Diagnostics, résidus III
Diagnostics
• Intuitivement, une observation ayant un résidu de déviance élevé
Ñ Observation ayant une grande influence sur l’estimation des
paramètres du modèle
Ñ A examimer avec soin.
• Vérifier qu’il n’existe pas de structure inattendue dans les résidus, en
moyenne ou en variance
• On peut montrer que les résidus sont asymptotiquement gaussiens si le
modèle est adéquat, et cette hypothèse peut être vérifiée à l’aide d’un
qqplot si le nombre de données n est assez grand.
Plan
Introduction

Exemple de régression logistique I
But
Expliquer la variable réponse Y Présence (1)/Absence (0) d’une maladie
cardio-vasculaire (Chd) par l’âge des patients
1.0
0.8
0.6
chd
0.4
0.2
0.0
20 30 40 50 60
age
Exemple de régression logistique II
• Exprimer Y linéairement en fonction de X ne semble pas raisonnable

• Idée naturelle : supposer que Y est distribuée selon une loi de Bernoulli
dont le paramètre dépend de X
ãÑ Fonction de lien pour la loi de Bernoulli = logit
ñ Régression logistique
1. Y | X „ BpppXqq ;
2. logitpErY | Xsq “ logitpppXqq “ Xβ.
où la fonction logit est définie par : p P r0, 1s ÞÑ logpp{p1 ´ pqq
• Odds ou côte
ppXq
1 ´ ppXq
• Dans le modèle logistique (k variables explicatives)
ppXq
“ exppXβq “ exppβ0 ` β1 X 1 ` . . . ` βk X k q
1 ´ ppXq
• Soient i1 et i2 deux observations dont la valeur des covariables ne diffère

que pour la j e variable avec Xij1 ´ Xij2 “ 1,
ppXi1 q ppXi2 q
odds-ratio “ { “ exppβj q .
1 ´ ppXi1 q 1 ´ ppXi2 q
Prédiction (=classification)
• x‹ = nouvel individu
• Prédire si y ‹ “ 0 ou 1
• Étape 1 : Calculer
expppx‹ q1 βq
p
pppx‹ q “
1 ` expppx‹ q1 βq
p
• Étape 2 : Comparer ppx‹ q au seuil s “ 1{2
pppx‹ q ą 1{2 ñ Yp P “ 1
pppx‹ q ď 1{2 ñ Yp P “ 0 .
• Le seuil s “ 1{2 est un choix par défaut quand les deux prédictions 0, 1
jouent le même rôle ;
• Dans pleins de situations, les rôles ne sont pas symétriques : par exemple,
il peut être grave de prédire la présence d’une maladie (Ŷ P “ 1) qui
entraînerait par exemple une chirurgie si le patient n’a en fait rien.
Matrice de confusion I
On note YpiP P t0, 1u = prédiction de Yi et on définit les quantités
• Nombre de vrais positifs (true positive)
n
ÿ
TP “ 1Yi “1 et Yp P “1 ;
i
i“1
• Nombre de faux positifs (false positive)

n
ÿ
FP “ 1Yi “0 et Yp P “1 ;
i
i“1
• Nombre de vrais négatifs (true negative)

n
ÿ
TN “ 1Yi “0 et Yp P “0 ;
i
i“1
• Nombre de faux négatifs (false negative)

n
ÿ
FN “ 1Yi “1 et Yp P “0 .
i
i“1
Matrice de confusion II
On a alors
n
ÿ
Nombre de positifs “ P “ 1Yi “1 “ T P ` F N ;
i“1
n
ÿ
Nombre de négatifs “ N “ 1Yi “0 “ T N ` F P.
i“1
La matrice de confusion résume ces quatre indicateurs
Yi “ 0 Yi “ 1
YpiP “ 0 TN FN
YpiP “ 1 FP TP
Total N P
C’est une mesure de la qualité des prédictions, qui distingue les différents
types d’erreurs.
Sensibilité, spécificité, courbes ROC et AUC I
• Sensibilité = le taux de vrais positifs = TP
P
• Spécificité = le taux de vrais négatifs = TN
N
On fait maintenant varier le seuil de prédiction s P r0, 1s, ie on définit le
prédicteur (ou classifieur) Yp P,s de la façon suivante :
pppx‹ q ą s ñ Yp P,s “ 1
pppx‹ q ď s ñ Yp P,s “ 0
Pour ce prédicteur, on a les quantités associées TPs , TNs , . . . ,

sensibilitys , specificitys .
Définition (Courbe ROC et AUC)

1. Courbe ROC (receiver operating characteristic curve) = la courbe
des points sensibilité contre 1 - la spécificité pour toutes les valeurs du
seuil s entre 0 et 1 ; ie la courbe des points p1 ´ specificitys , sensitivitys q
2. AUC (area under the ROC curve)= aire sous la courbe ROC.
Sensibilité, spécificité, courbes ROC et AUC II
Interprétation
• Courbe ROC idéale : collée au coin supérieur gauche
• Plus l’AUC est grande, meilleur est le classifieur
• Une règle de classification au hasard a une courbe ROC proche de y “ x
et un AUC d’environ 0.5.
Mise en oeuvre
• Il faut des observations pour construire le prédicteur (estimer p̂pxq pour
tout x)
• si on mesurait la qualité du prédicteur sur les données qui ont servi à le
construire, on aurait un résultat biaisé : il faut toujours mesurer la qualité
du prédicteur sur de nouvelles observations
• Quand c’est possible, on découpe le jeu de données en un échantillon
d’apprentissage (qui va permettre de construire p̂pxq) et un second
échantillon dit de test sur lequel on va mesurer les performances de la
règle.
Plan
Introduction

Régression loglinéaire I
But
Expliquer une variable de réponse de comptage Y en fonction de covariables
• Variable de comptage = variable qui compte le nombre de fois qu’un

événement se réalise dans une certaine période de temps
• Exemples : nombre d’accidents sur la route pendant un an, nombre
d’enfants dans une famille, ...
• Modèle linéaire gaussien
Yi “ x1i β ` εi
ãÑ Normalité des résidus pas réaliste
ãÑ Les variables εi étant supposées centrées
λpxi q :“ ErYi | xi s “ x1i β
ãÑ Or rien n’indique que x1i β ą 0

Régression loglinéaire II
• Nécessaire de définir une fonction de lien reliant λpxi q au prédicteur

linéaire ηi “ x1i β
ãÑ Pour garantir que λpxi q “ ErYi | xi s ą 0, on définit le modèle par
λpxi q “ exppx1i βq ô logpλpxi qq “ x1i β
ãÑ Fonction de lien logarithmique, qui est le lien canonique associé à la

loi de Poisson, d’où le terme générique de régression loglinéaire.
Régression de Poisson (loglinéaire)

1. Y | Y „ PpλpXqq, avec λpXq ą 0
2. logpErY | Xsq “ logpλpXqq “ Xβ.
Valeurs ajustées et prédiction
• Une fois le modèle ajusté, on obtient ηpi “ x1i βp et la valeur prédite de la
moyenne
p i q “ exppx1 βq
λpx p P r0, `8q
i
• On définit les valeurs ajustées (prédites) par :

$´ ¯k ,
& λpx
’ p iq /
.
´λpx
p iq
Yi P arg max
p e
kPN ’
% k! /
-
ãÑ Ypi correspond donc à l’entier le plus probable pour la loi de Poisson

de paramètre λpx
p iq
• Nouvel individu décrit par x‹ , le modèle permet de prédire
$´ ¯k ,
’ p ‹q
& λpx /
.
‹ p ‹q
´λpx
Y P arg max
p e .
kPN ’ % k! /
-
Sur-dispersion
• Régression de Poisson ñ hypothèse très restrictive
ErYi | xi s “ VarrYi | xi s
• Sur-dispersion : ErYi | xi s ă VarrYi | xi s

Sous-dispersion : ErYi | xi s ą VarrYi | xi s
Propriétés non autorisées par le modèle de Poisson
ñ Classe plus riche de modèle basée sur la loi binomiale négative

Modèle binomial négatif pour sur-dispersion
• Loi binomiale négative modélise le nombre d’échecs nécessaires avant
l’obtention de n succès lors de la répétition de « tirages » indépendants
de probabilité de succès p
• Elle peut être généralisée au cas n “ r non entier
Régression binomiale négative

1. Yi | Xi “ xi suit une loi binomiale négative de paramètres r et ppxi q, soit
ˆ ˙k ˆ ˙r
Γpr ` kq ppxi q ppxi q
PpYi “ k | Xi “ xi q “ 1´
k!Γprq ppxi q ` r ppxi q ` r
2. logpErYi | xi sq “ logpppxi qq “ x1i β.
• On a alors
` ˘
ErYi s “ ppxi q et VarrYi s “ ppxi q 1 ` ν 2 ppxi q
où ν “ 1{r mesure le degré de sur-dispersion

• Remarque : le cas limite ν “ 0 correspond à la loi de Poisson.

5 GLM Slides

Transféré par

Droits d'auteur :

Formats disponibles

5 GLM Slides

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

5 GLM Slides

Transféré par

Droits d'auteur :

Formats disponibles

Modèles linéaires généralisés

Sorbonne Université - Modélisation Statistique

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

ãÑ But = retrouver g à partir d’un échantillon pYi , Xi q1ďiďn

But = Relâcher les restrictions précédentes

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

E rY s “ a1 pθq , Var rY s “ ϕa2 pθq

Exemples de lois appartenant à une famille exponentielle

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

Fonction de lien gpµq Loi

(Au tableau : exemples et notion d’offset).

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

• si Y | X suit une loi gaussienne, alors g “ Id, D “ In et on retrouve

• En général, pas de formule explicite

qu’on suppose inversible,

Sous certaines conditions de régularité de la densité, l’EMV vérifie les

• La statistique de Wald W vérifie

Remarque La matrice In pβq est inconnue en pratique. Mais en remplaçant β

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

H0 : gpµq “ X 0 β 0 contre H1 : gpµq “ X 1 β 1

• Statistique de test de rapport de vraisemblance

βp0 = EMV dans le modèle M0 et βp1 = EMV dans le modèle M1

• p0 = nb de paramètres dans le modèle M0

• Test précédent souvent présenté à l’aide de la déviance

• La statistique de test T peut donc se réécrire avec la déviance

On souhaite tester l’hypothèse

qui converge vers une loi de χ2 p1q sous H0 .

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

• Analogie avec le coefficient R2 du modèle linéaire

• Le χ2 de Pearson généralisé est la statistique définie par

où µ̂i “ g ´1 px1i β̂q est la prédiction pour l’observation xi .

où Varµpi ryi s est la variance théorique de yi évaluée en µ

où hii désigne le levier, i.e. le terme diagonal de la matrice

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

• Exprimer Y linéairement en fonction de X ne semble pas raisonnable

• Soient i1 et i2 deux observations dont la valeur des covariables ne diffère

• Étape 2 : Comparer ppx‹ q au seuil s “ 1{2

• Nombre de faux positifs (false positive)

• Nombre de vrais négatifs (true negative)

• Nombre de faux négatifs (false negative)

La matrice de confusion résume ces quatre indicateurs

Pour ce prédicteur, on a les quantités associées TPs , TNs , . . . ,

Définition (Courbe ROC et AUC)

Modèles linéaires généralisés

Régression de Poisson - régression loglinéaire

• Variable de comptage = variable qui compte le nombre de fois qu’un

λpxi q :“ ErYi | xi s “ x1i β

ãÑ Or rien n’indique que x1i β ą 0

• Nécessaire de définir une fonction de lien reliant λpxi q au prédicteur

λpxi q “ exppx1i βq ô logpλpxi qq “ x1i β