23régression Multiple PDF

RÉGRESSION MULTIPLE
Sur SPSS
ANALYSE MULTIVARIÉE
RÉGRESSION LINÉAIRE MULTIPLE
PRÉSENTATION DE LA TECHNIQUE
▪ La régression linéaire multiple (RLM) est une extension de la régression

simple où la variable dépendante est régressée sur un ensemble de variables.
▪ La RLM sert à analyser la relation entre une variable dépendante quantitative

et plusieurs variables indépendantes (catégorielles ou quantitatives).
▪ La RLM est la technique la plus utilisée pour prédire et expliquer. Dans le cas
de l’explication, la régression sert à déterminer l’importance relative de chaque
variable indépendante par sa magnitude et sa direction.
▪ Par exemple: la fréquence d’acheter sur un site de e-commerce peut dépendre

de l’âge du consommateur, de son revenu, de son sexe, etc.
PRÉSENTATION DU MODÈLE MULTIVARIÉ
L’équation de la RLM est en fait la généralisation du modèle de régression

simple :
Yi : (b1X1 + b2X2 + … + bnXn+b0) + εi
Où
▪ Chaque variable indépendante (X) est multipliée par son propre coefficient
bêta (b) qui sous sa forme standardisée correspond à sa contribution
relative dans le modèle.
▪ b0 est l’ordonnée à l’origine (Constante)

FORMULATION DES HYPOTHÈSES
▪ L’hypothèse nulle est qu’il n’y a pas de relation linéaire entre la

combinaison des variables indépendantes (X1, X2, X3… Xn) et la
variable dépendante (Y).
▪ L’hypothèse inverse stipule que la combinaison des variables
indépendantes est associée significativement à la variable
dépendante
PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)

Nous cherchons à savoir si « l’âge », « les années d’éducation » et « Revenu » influencent « le prix de la
première voiture » du ménage. Nous souhaitons déterminer, parmi ces variables explicatives, celles qui
expliquent le mieux la variable dépendante.
Pour obtenir une RLM, allez dans le

menu Analyse/ Régression / Linéaire /
placer la variable à expliquer « prix de
la première voiture » dans Variable
dépendante / placez les 3 variables
explicatives dans « variables
indépendantes »
PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)
Cliquez ensuite sur « statistiques » et

demandez les Tests de colinéarité /
cochez les cases « Qualité
d’ajusement" et « descriptives et
estimations » / Cliquez ensuite sur
Poursuivre et OK
Analyse de l’output SPSS (fichier Tree_car.sav)
0- Descriptives
Analyse de l’output SPSS (fichier Tree_car.sav

1- Corrélations
Existence de corrélations entre le prix du
véhicule et les autres variables
explicatives. Ces corrélations sont
significatives au seuil de 5% (P<0,05)
NB : Des corrélations entre variables

indépendantes proches de 0,9 en valeurs
absolues ===risque de multicolinéarité
Nous aurions introduit deux variables qui
mesurent sensiblement la même chose pour
prédire le salaire actuel. Nous voulons éviter
cette situation
2- Absence de multicolinéarité : tolérance et VIF
• La majorité des études mettent en jeu des variables explicatives qui sont corrélées
• la régression multiple est complexifiée par la présence de multicolinéarité = Quand nous aurions
introduit deux variables qui mesurent sensiblement la même chose pour prédire le salaire actuel :
On doit donc porter attention aux relations entre les variables indépendantes
• Demander des tests de colinéarité : tolérance et facteur d’inflation de la variance (VIF).
• La tolérance est définie comme « la part de variabilité de la variable indépendante qui n’est pas
expliquée par une ou d’autres variables indépendantes ». Une tolérance élevée correspond à un faible
degré de colinéarité.
• Le seuil de 0,3 est recommandé. (tolérance >0,3 signifie absence de colinéarité)
• À l’inverse, le seuil du facteur d’inflation de la variance (VIF) doit être faible (VIF< 3 signifie
absence de colinéarité).
2- Absence de multicolinéarité : tolérance et VIF
• Dans cet exemple, la colinéarité ne
pose pas de problème pour
l’analyse car Tolérances et facteurs
d’inflation de la variance (VIF) sont
largement dans les limites
recommandées (tolérance > 0,3 et
VIF < 3). Les variables
• Les variables explicatives sont donc
peu corrélées entre elles, ce qui est
un indice de qualité du modèle
3 - Évaluation de la qualité du modèle de régression : Analyse de variance – ANOVA
▪ Comme dans le cas de la régression simple, et moyennant une transformation

adéquate, R2 permet de tester l’hypothèse H0
▪ La F(calc) est confrontée à la table de Fisher F (table) selon k degrés de liberté au

numérateur et n – k – 1 degrés de liberté au dénominateur.
▪ Si Fcalc > Ftable : on rejette l’hypothèse H0 que b1 = b2 = ... = bk = 0 et on retient
l’hypothèse H1 (qu’au moins une variable explicative a une incidence sur la variable
dépendante).
4- Évaluation de la qualité du modèle de régression : Analyse de variance – ANOVA
Analyse de variance – ANOVA
F On constate à la lecture du tableau

que selon la valeur F obtenue, on peut
rejeter l’hypothèse nulle. En effet, la
valeur de 3604,275 est significative à
p < 0,005, ce qui indique que nous
pouvons accepter, sans grand risque
(Sig. = 0,000) de se tromper, qu’au
moins une variable explicative a une
incidence sur la variable Prix du
premier véhicule.
ANALYSE DE L’OUTPUT SPSS (FICHIER TREE_CAR.SAV
5- ÉVALUATION DE L’AJUSTEMENT DU MODÈLE DE

RÉGRESSION AUX DONNÉES
Coefficients de détermination : R2
Maintenant que l’on sait que le modèle est R2 prend ses valeurs entre 1 et 0.
significatif, le tableau récapitulatif des modèles
permet de déterminer la contribution des Interprétation de R2 : Les 3 variables prises en
variables indépendantes (prises ensemble) à compte, ensemble, expliquent 77 % des variations
l’explication des variations de la variable du prix du premier véhicule(R2).
dépendante
R2ajusté, plus faible que R2, tient compte de la perte
d’information liée aux degrés de liberté
ANALYSE MULTIVARIÉE Yi = (b1X1 + b2X2 + … + bnXn+b0) + εi
Prix du premier véhicule = 16,996*catégorie de revenu +
Analyse de l’output SPSS (fichier Tree_car.sav 0,384*Nombre d’années d’éducation + 0,141*Âge -19,905.
6- Évaluation des paramètres du modèle
Maintenant que nous savons que notre

modèle est significatif et qu’il explique
77% de variance, il est donc possible de
construire l’équation de régression pour
prédire une valeur de Y. L’équation de
base était la suivante :
NB : Le signe du coefficient nous indique le sens de la relation. Dans notre cas, plus le nombre d’années de
scolarité augmente, plus le prix du premier véhicule augmente. Idem pour l’âge et la tranche de revenu
Conclusion
Nous pouvons conclure que le modèle est satisfaisant, car il explique 77,7 % du
prix du premier véhicule (R2). Il est significatif (voir tableau ANOVA.
Sig.,000), les coefficients de la pente de régression sont significatifs et il n’y a
pas de problème de colinéarité (tolérances > 0,3)

23régression Multiple PDF

Transféré par

Droits d'auteur :

Formats disponibles

23régression Multiple PDF

Transféré par

Informations du document

Description originale:

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

23régression Multiple PDF

Transféré par

Droits d'auteur :

Formats disponibles

RÉGRESSION MULTIPLE

▪ La régression linéaire multiple (RLM) est une extension de la régression

▪ La RLM sert à analyser la relation entre une variable dépendante quantitative

▪ Par exemple: la fréquence d’acheter sur un site de e-commerce peut dépendre

PRÉSENTATION DU MODÈLE MULTIVARIÉ

L’équation de la RLM est en fait la généralisation du modèle de régression

Yi : (b1X1 + b2X2 + … + bnXn+b0) + εi

▪ b0 est l’ordonnée à l’origine (Constante)

FORMULATION DES HYPOTHÈSES

▪ L’hypothèse nulle est qu’il n’y a pas de relation linéaire entre la

PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)

Pour obtenir une RLM, allez dans le

PROCÉDURE DE RLM SOUS SPSS (FICHIER TREE_CAR.SAV)

Cliquez ensuite sur « statistiques » et

Analyse de l’output SPSS (fichier Tree_car.sav

NB : Des corrélations entre variables

▪ Comme dans le cas de la régression simple, et moyennant une transformation

▪ La F(calc) est confrontée à la table de Fisher F (table) selon k degrés de liberté au

Analyse de variance – ANOVA

F On constate à la lecture du tableau

ANALYSE DE L’OUTPUT SPSS (FICHIER TREE_CAR.SAV

5- ÉVALUATION DE L’AJUSTEMENT DU MODÈLE DE

Maintenant que nous savons que notre

Vous aimerez peut-être aussi