Présentation Régression Logistique (Part1)

Télécharger au format pptx, pdf ou txt
Télécharger au format pptx, pdf ou txt
Vous êtes sur la page 1sur 15

Université Dr.

Tahar Moulay Saida


Faculté des Sciences Economiques, de Gestion et des Sciences Commerciales
Option: Economie Quantitative.

La régression logistique binaire

Présenté par: Encadré par:


 Falit Cheikh.  Dr. Rezine

Année Universitaire: 2016 / 2017


Plan
Introduction

Définition

Utilisation de régression logistique

Le passage au logit

Différences avec le modèle linéaire 


: Introduction

La régression logistique est un cas particulier du modèle linéaire


généralisé. L’intérêt majeur de cette technique est de quantifier
la force de l’association (lien) entre chaque variable
indépendante et la variable dépendante, en tenant compte de
l’effet des autres variables intégrées dans le modèle.

 Cette technique est utilisée pour des études ayant pour but de
vérifier si des variables indépendantes peuvent prédire une
variable dépendante dichotomique.
 Cette technique n’exige pas une distribution normale des
prédicteurs ni l’homogénéité des variances.
 Outil majeur en épidémiologie et biostatistique.
: Définition
Dans sa version la plus répandue, la régression
logistique vise à prédire et expliquer les valeurs
d'une variable catégorielle binaire Y (variable
à prédire, variable expliquée, variable dépendante,
attribut classe, variable endogène) à partir d'une
collection de variables X continues ou binaires
(variables prédictives, variables explicatives,
variables indépendantes, descripteurs, variables
exogènes).
: Contexte

Y est une variable binaire:


• 0 en cas de non occurrence de l’évènement.
• 1 si occurrence.
 Y aléatoire et Xk non aléatoires.
 On cherche à expliquer la survenue d’un évènement.
 On cherche la probabilité de succès.
 On travaille en terme d’espérance.
Utilisation de régression logistique
Y = 𝑓(x1 , x2 , …….. , xk)
Quand la variable dépendante est nominale ou ordinale:
 Deux types selon la forme de la variable dépendante:
binaire pour deux catégories. [0,1]
polytomique pour plusieurs catégories:
multinominale ou ordinale.
Quand les variables indépendantes peuvent être de
plusieurs types:
 Nominales (qualitatives)
 Ordinales
 Métriques (quantitatives)
Régression logistique simple (k = 1)
Régression logistique multiple (k > 1)
: Illustration Y = 𝑓(x1 , x2 , …….. , xk)
𝑓 ne peut être une fonction linéaire car Y ne prend que deux
valeurs:
: Fonction logistique
Description
 

 Strictement croissante, monotone.


 Varie de 0 à 1 pour x allant de - à +
 Courbe sigmoïde, point d'inflexion
correspondant à f(x)=1/2.
 Symétrique autour du point d'inflexion.

Formalisation
 

0<<1
 est un paramètre de position.
 est un paramètre de forme.
: Le passage au logit
 
 Définition : logit(z) = ln ()
 Appliqué à la fonction logistique:
1. Z=
2. 1-z =

3. ln()= ln(1) - ln)=


: Différences avec le modèle linéaire
L’analyse des résidus du modèle permet de vérifier si celui-ci
est satisfaisant (en terme de spécification et de qualité
d’ajustement).
Les différences principales avec la régression linéaire sont les
suivantes :

 On ne parle plus de sommes de carrés (OLS, résidus,


variance) mais de déviance (dans le cas gaussien, elle est
équivalente à la somme de carrés de la résiduelle), mais cette
dernière reflète toujours l’écart entre les données et le
modèle.
 En raison de la nature binaire de la variable réponse,
l’analyse classique des résidus en fonction des valeurs
prédites ou la notion d’hétéroscédasticité ne font plus
sens ; en revanche, on s’intéresse toujours à la qualité
d’ajustement du modèle, et à la comparaison de modèles
emboîtés qui permettent d’évaluer l’apport d’un ou
plusieurs prédicteurs par rapport à un modèle de base.
Pour cela, on utilise des tests de rapport de
vraisemblance

Vous aimerez peut-être aussi