Psy1004 12
Psy1004 12
Psy1004 12
Lectures
Suggérée : Howell, chapitre 9.1 à 9.8, et 9.10, puis chapitre 15, 15.1 et 15.5.
Objectifs
Pouvoir réaliser des corrélations entre deux variables et comprendre la signification
d’un indice de corrélation. Pouvoir tester si une corrélation est significativement différente de
zéro; pouvoir faire des tests d’hypothèses sur la pente de la régression.
3.1. Calcule du r
Pour calculer le coefficient de corrélation, il faut premièrement pouvoir calculer la
covariance entre deux échantillons. On se rappelle que la variance (non biaisée) se calcule
comme suit :
Cours 12. Corrélation et régression 3
PSY 1004 Techniques d’analyses en psychologie
1
∑
2 2
X = ( X i − X)
n−1 i
La covariance est une mesure de la variance présente dans deux échantillons
simultanément. L’idée étant que si les deux échantillons covarient, la covariance devrait être
grande, alors que s’ils ne covarient pas, la covariance devrait être modérément faible. Une
façon d’atteindre cette mesure est d’utiliser le produit des différences, comme suit :
1
∑ (X i − X)(Yi − Y)
2
XY =
n −1 i
Dans cette équation, si Xi tend à être très supérieur à sa moyenne en même temps que Yi,
la somme sera grande, indiquant une forte covariation.
La mesure de covariation est exprimée en unité de X fois l’unité de Y. Dans le premier
exemple ci-haut, la covariation serait exprimé en point de Q.I par mots lus. Pour éliminer ces
unités, on peut diviser par les écarts types des échantillons pris individuellement. Cette
division a aussi pour résultat de normaliser la covariance entre –1 et 1, ce qui est donc l’indice
de corrélation souhaité:
XY
2
∑ (X i − X)( Yi − Y )
rXY = = i
X× Y ∑ (X
i
i − X) 2 × ∑ (Y
i
i − Y) 2
Ce que nous avons en fait, c’est un ratio entre combien de variation les deux mesures
ont en commun divisée par la quantité de variation qu’elles pourraient avoir au plus. Si on
élève r au carré, r2 donne la quantité de variance en commun entre les deux échantillons. On
parle aussi souvent de « pourcentage de la variance expliquée », car si on prend le point de
vue que, disons, X explique les résultats obtenus en Y, une certaine quantité de variance en X
explique la variance en Y, et cette quantité est donnée par r2. Autrement dit, si nous
connaissons la variable X, l’incertitude à propos de la variable Y est réduite de moitié.
Une autre façon d’illustrer la variance expliquée est sous la forme d’un diagramme de
Venne. Dans ce cas, on peut voir r2 en terme de superposition de cercles.
r = .25 r = .50
r2 = .06 r2 = .25
Exemple.
Soit une recherche où un chercheur désire examiner la relation qu’il peut exister entre
l’habilité en lecture (X) et le nombre d’heures de lecture par semaine (Y). X est mesuré en
laboratoire à l’aide d’un test d’habilité en lecture alors que Y est estimé par les sujets eux-
mêmes. 10 sujets ont été échantillonnés. Les résultats sont :
Cours 12. Corrélation et régression 4
PSY 1004 Techniques d’analyses en psychologie
sujets Xi Yi
1 20 5
2 5 1
3 5 2
4 40 7
5 30 8
6 35 9
7 5 3
8 5 2
9 15 5
10 40 8
Moyenne 20.0 5.0
Écart type 15.09 2.91
Pour calculer la covariance à l’aide d’une calculatrice, il n’existe malheureusement pas
de touche « covariance ». Il faut donc préparer les données en calculant manuellement les
termes ( X i − X) × (Yi − Y) . Ce que l’on fait dans le tableau suivant :
Dans la dernière colonne, nous ne calculons pas l’écart type car il s’agit déjà de déviations à la
moyenne. Il faut en faire la somme puis diviser par (n – 1) pour obtenir la covariance. Nous
a.1. Postulats
Les scores individuelles se distribuent normalement et la variance entre les scores,
quand Xi s’accroît reste constante.
n−2
rXY
dans lequel la valeur se distribue comme un t avec (n – 2) degrés de liberté.
1 − rXY
2
n−2
Ici, n est le nombre d’observations dans les échantillons X et Y. On soustrait par deux car le
calcul du coefficient rXY nécessite le calcul de deux moyennes. Pour notre exemple précédent,
un regard dans la table t nous donne comme valeur critique s (5%/2) avec 8 degrés de liberté :
2.306.
dans laquelle bXY est la pente de la droite, et a, l’ordonné à l’origine (l’endroit où la droite
coupe l’axe des Y). Il existe une méthode simple pour calculer ces paramètres de la droite de
régression. En effet, la pente (le degré d’élévation de Y en fonction de X) est donnée comme le
rapport de la covariance sur la variance des X. Donc :
2
XY
bXY = 2
X
Si le rXY est déjà disponible, on peut gagner du temps avec la formule équivalente :
Y
bXY = rXY
X
Pour trouver l’ordonnée à l’origine, on note qu’en utilisant les moyennes comme un
couple de valeurs possibles, on obtient :
Y
a = Y − bXY X ou encore a = Y − rXY X
X
2
XY 41.11
Dans notre exemple précédent, on trouve que bXY = 2
= = 0.181 et que
X 15.09 2
a = Y − bXY X = 5.0 − 0.181 × 20.0 = 1.38 . Donc, on trouve que pour chaque point
d’accroissement dans les X, les Y s’accroissent de près de 0.2 unité. De plus, si X est zéro, on
s’attend à ce que Y soit de près de 1.4. Faîtes le graphique des données et de la droite de
régression, et vérifiez que les valeurs sont appropriées.
a.1. Postulats
Avec les mêmes postulats que pour le coefficient de corrélation, on peut construire une
valeur impliquant la différence entre la pente obtenue et la pente attendue par la théorie qui
soit distribuée comme une statistique t. L’utilisation de la table t vient du fait que la vraie
variance des valeurs possibles de la pente n’est pas connue, mais estimée à partir des
données.
X
n−2
| bXY − b0 |
dans lequel la valeur se distribue comme un t avec (n – 2) degrés de liberté.
Y
1 − rXY
2
X
n−2
Ici, n est le nombre d’observations dans les échantillons X et Y. On soustrait par deux car le
calcul du coefficient rXY nécessite le calcul de deux moyennes. Pour notre exemple précédent,
un regard dans la table t nous donne comme valeur critique s(5%) avec 8 degrés de liberté :
2.306.
Z
X rXY = 0.25
rXZ = .50
rYZ = .35
Y
Figure 3 : Représentation d’une corrélation pour trois variables
Une façon de considérer ce diagramme de Venne est de regarder la matrice des corrélations
en prenant les variables deux par deux, ce qu’on appelle une tables d’intercorrélation :
Y Z
X .25 .50
Y .35
Cependant, cette table ne répond toujours pas à notre question puisqu’elle continue à
prendre les prédicteurs un par un. Nous souhaitons prédire Z étant donné un couple X et Y
connu simultanément. Pour y arriver, nous utilisons un indice de corrélation multiple R.
4.1. Calcule du R
L’indice de corrélation multiple (pour plus de deux variables) est représenté par un R
majuscule pour le différencier du cas particulier où il n’y a qu’un total de deux variables.
Tout comme le r, l’indice R va de plus 1 à –1. Pour éviter les confusions, on utilise les indices
Cours 12. Corrélation et régression 9
PSY 1004 Techniques d’analyses en psychologie
tel : RZ,XY pour indiquer que l’on cherche à prédire Z à partir des valeurs simultanée de X et Y.
De la même façon, R2Z,XY indique le pourcentage de la variance de Z expliqué par X et Y.
Prenons comme exemple une étude où l’on veut déterminer la relation entre la qualité
des programmes qu’une personne écoute (selon son évaluation personnelle) X et le prix de
son équipement Y, pour déterminer le nombre d’heure que cette personne va passer devant la
télévision par semaine Z. Nous supposons que le chercheur a déjà obtenu les corrélations
simples rXY , rXZ et rYZ pour chaque pair ( X, Y), ( X, Z ), et ( Y, Z ). Le R multiple se calcule
comme suit :
2
rXZ + rYZ
2
− 2rXZ rYZ rXY
RZ,2 XY =
1 − rXY
2
Une chose importante à voir dans cette équation est que l’effet de X et de Y sont additifs,
c’est à dire que X affecte Z indépendamment de Y. Autrement dit, ce modèle stipule qu’il
n’existe pas d’interaction entre les facteurs X et Y sur la variable dépendante Z. Cet hypothèse
se teste à l’aide d’une ANOVA. Si l’interaction A × B est significative, il faut simplement ne
pas faire de régression multiple linéaire.
Le facteur bXZ,Y est le ratio entre combien d’unité Z change pour chaque unité de
changement dans X quand Y est tenu constant. Parce que chacun de ces coefficients
représente seulement une portion de la prédiction de Z, ils sont appelés coefficients de
corrélation partielle. Les équations pour calculer les pentes des effets de chaque variable
individuelle sont donnés par :
variance (non biaisée) des observations est : X = 2.2 (cote), Y = 88.0 $, Z = 11.8 heures. Il
observe les corrélations simples rXY = .750, rXZ = .894et rYZ = .918. Il regarde en premier le
coefficient de régression multiple R :
2
rXZ + rYZ
2
− 2rXZ rYZ rXY
R 2
=
1 − rXY
Z, XY 2
Étant données ces différentes valeurs, nous pouvons prédire le temps passé devant la
télévision si le prix de la télévision X et la cote des programmes écoutés Y sont connus. Par
exemple, si un individu rapporte écouter des émissions qu’il cote 3 et que son équipement
coûte 100$, on s’attend à ce qu’il passe 0.076 × 100 + 2.51 × 3 –10.13 = 5 heures par semaine
devant la télévision.
Section 5. Conclusion
Exercices
1. Soi une ordonnée à l’origine de –12, une c) Calculer la covariance
pente de 2.5. Calculez la valeur d) Calculer le coefficient de corrélation
attendue de Y si X vaut :
e) La corrélation est-elle significative
a) 0
(α = 5%)?
b) 10
f) Calculer la pente de régression
c) 20
g) Calculer l’ordonnée à l’origine.
2. 45 sujets ont été mesurés sur 2
8. Une recherche menée par un collègue
variables. La somme des produits des
vous apprend que le lien entre la
distances entre chacune de ces valeurs
variable Y et X est : Y = 49 X + 3.
et leur moyenne respective est de 15975.
Pouvez-vous prédire la valeur de la
La covariance est de :
variable X à partir de la valeur de Y?
3. Quel est le pourcentage de la variance
9. Une forte corrélation de Y sur X suggère
de Y expliquée par X si la corrélation est
que Y cause X?
de .70.
4. La pente de régression de Y sur X étant
de 0.443 et la pente de régression de X
sur Y étant de 0.890, calculez le
coefficient de corrélation.
5. La covariance étant de –85, la variance
de X de 96, et la variance de Y 121,
calculez le coefficient de corrélation.
6. Soit X = {255, 100, 307, 150} et Y = {5, 3,
6, 3},
a) Calculer les moyennes
b) Calculer les variances non-biaisées
c) Calculer la covariance
d) Calculer le coefficient de corrélation
e) La corrélation est-elle significative
(α = 5%)?
f) Calculer la pente de régression
g) Calculer l’ordonnée à l’origine.
7. Soit X = {8, 12, 13, 7, 16} et Y = {3, 4, 9, 2,
12},
a) Calculer les moyennes
b) Calculer les variances non-biaisées