Psy1004 06
Psy1004 06
Psy1004 06
PSY 1004
Femmes
total
observ O
35
123
158
attendu a
79
79
158
PSY 1004
Un autre exemple dans lequel le nombre de classe est suprieur deux. Un journal
rapporte que durant la semaine prcdente, il sest produit 427 accidents de la route, rpartis
ainsi pour chaque jour de la semaine :
dim
lun
mar
mer
jeu
ven
sam
total
31
60
46
64
57
82
87
427
61
61
61
61
61
61
61
427
Encore ici, lhypothse que lon veux examiner est une rpartition gale des accidents au
cours des jours de la semaine. Donc, ai vaut 427 / 7 = 61.
2.1. Structure du test
Une approche est de tester si les carts entre les valeurs observes O et attendues a sont
significatives. Si nous utilisons cette approche et faisons la somme des carts, nous avons
cependant un gros problme, car nous avons vu (au cours 2) que la somme des carts donne
toujours zro. Une approche alternative est dutiliser la somme des carts mis au carr. De
cette faon, tous les carts deviennent positifs. Pour bien faire, on peut aussi pondrer lcart
observ par la valeur attendue ai. On obtient une formule gnrale pour valuer lcart aux
valeurs attendues :
(O i ai ) 2
i
ai
Maintenant, il est dmontr que O est normalement distribu quand leffectif observ
est raisonnablement grand. En effet, si ai est, disons, 5, on sattend observer aussi souvent 4
que 6 (symtrie), par pur hasard. De plus, il est dmontr que la variance dans le nombre
deffectifs dune classe dont le rsultat rel est ai est aussi de ai (cest dire quon sattend en
moyenne une diffrence de ai ). Autrement dit, la somme ci-haut est une somme de
scores z, des scores normaliss. Nous avons vu au cours 3 quelle est la distribution thorique
dune somme de scores normaliss, la 2. Nous avons tous les ingrdients pour construire un
test statistique.
a.1. Postulats
Le test est bas sur le postulat que les frquences observes Oi sont normalement
distribu et que chaque frquence attendue est suffisamment grande. Ici, on entend par
grande un ai > 5. Si vous prdisez des classes avec moins de cinq effectifs, vous devez alors les
regrouper pour que leffectif prdit de cette super classe dpasse 5.
a.2. Hypothses et seuil
Dans notre premier exemple, lhypothse nulle prdit une rpartition gale des hommes
et des femmes en psychologie. Nous pouvons alors crire :
H0 :Ohomme = Ofemmes
H1 :Ohomme Ofemmes
Cours 6. Tableaux de contingences et tests du 2
PSY 1004
Dans le cas des accidents automobiles, lide est la mme, mais la formulation formelle
plus longue :
H0 : Odim = 61 et Olun = 61 et Osam = 61
H1 : Odim 61 ou Olun 61 ou Osam 61
Notons quun test des frquences est ncessairement bidirectionnel car il ne peut pas
prvoir un effectif uniquement plus petit (ou uniquement plus grand).
Nous adoptons dans ces exemples un seuil usuel de 5%.
a.3. Chercher le test
Le test de frquence est de la forme :
(O i ai ) 2
> s ( )
Rejet de H0 si
ai
i
(O i ai ) 2
est distribue comme un 2 (nombre de classe 1). Dans notre
i
ai
exemple sur le sexe des futurs psychologues, le nombre de classes est 2, et donc la valeur
critique, aprs inspection dans la table, est s() = 3.841. Pour lexemple des accidents de la
route, il y a 7 classes, et la valeur critique est s() = 12.592.
o la valeur
PSY 1004
Homme
Total
Favorable
30
(49)
33
(14)
63
Dfavorable
93
(74)
(21)
95
Total
123
35
158
Des marges du tableau, nous obtenons linformation prcdente que les femmes sont
nettement majoritaires dans le dpartement de psychologie. De lautre marge, nous obtenons
linformation que prs de 40% sont favorables la psychologie. Est-ce quil en va de mme
pour les hommes, pour les femmes prises sparment.
Lhypothse nulle, qui dit que 40% des femmes sont favorables la statistique prdit
donc que 0.40 123 donne le total de femmes favorables, soit 49. Inversement, 0.60 123
donne 74 femmes dfavorables. Chez les hommes, 0.40 35 donne 14 alors que 0.60 35
donne 21 hommes dfavorables. Nous avons mis ces valeurs entre parenthses dans le
tableau ci-haut. Comme on le voit, il semble exister des dviations importantes (surtout chez
les hommes dfavorables). Peut-on tester formellement cette intuition? Le test du 2 sutilise
aussi avec plusieurs variables classificatoires.
a.1. Postulats
Le test est bas sur le postulat que les frquences observes Oij sont normalement
distribues et que chaque frquence attendue est suffisamment grande. Ici, on entend par
grande un aij > 5. Si vous prdisez des classes avec moins de cinq effectifs, vous devez alors
les regrouper pour que leffectif prdit de cette super-classe dpasse 5.
a.2. Hypothses et seuil
Dans notre exemple, lhypothse nulle prdit une rpartition gale des attitudes des
hommes et des femmes en psychologie. Nous pouvons alors crire :
H0 :Oattitude|homme = Oattitude|femmes = Oattitude
H1 : Oattitude |homme Oattitude |femmes
o la barre verticale | se lit tant donne . Autrement dit, le sexe ninfluence pas lattitude
de la personne face la statistique. Lors du cours sur les ANOVA, nous parlerons dune
"absence dinteraction" entre le sexe et lattitude. Une faon plus courte de noter les
hypothses est:
Cours 6. Tableaux de contingences et tests du 2
PSY 1004
o la valeur
(O ij aii ) 2
aij
(O ij aii ) 2
aij
> s ( )
de classe j 1) ). Nous avons d utiliser une double somme car il faut faire la somme pour les
deux lignes (attitudes favorable et dfavorable) et pour les deux colonnes (hommes et
femmes). Dans notre exemple sur le sexe et l'attitude des futurs psychologues, le nombre de
colonne est 2 et le nombre de ligne, 2 aussi. On utilise donc (2 1) (2 1) = 1 degr de libert
pour rechercher la valeur critique. Elle est, aprs inspection dans la table, s() = 3.841.
a.4. Appliquer le test et conclure
Nous trouvons :
(O ij a ii ) 2
a ij
(O HF a HF ) 2 (O HD a HD ) 2 (O FF a FF ) 2 (O FD a FD ) 2
=
+
+
+
a HF
a HD
a FF
a FD
(33 14) 2 (2 21) 2 (30 49) 2 (93 74) 2
+
+
+
14
21
49
74
361 361 361 361
=
+
+
+
= 55.22
14
21
49
74
=
ce qui montre que les gars ont une attitude significativement diffrentes des filles face aux
statistiques (2 (1) = 55.22. p < .05). Les hommes tendent tre plus favorables aux statistiques
( plus de 90%) alors que l'inverse est vrai pour les femmes, seulement 25% d'entre elles
montrant une attitude favorable aux statistiques.
` crire une interprtation des donnes
L'criture d'une interprtation des rsultats n'est pas chose aise. D'un ct, tout un
travail de statistique a t ralis. Or celui qui va lire votre recherche n'est pas un statisticien
mais un psychologue. Vous devez expliquer les rsultats en termes accessibles et significatifs
pour votre lecteur. Il est probable que H0, , X , etc. ne feront qu'garer votre auditoire. D'un
autre ct, pour des raisons de crdibilit, vous ne pouvez pas faire d'affirmations gratuites.
toutes les fois que vous rapportez une diffrence ou un effet, vous devez mettre dans votre
rapport des signes linguistiques qui disent en substance "je n'affirme pas cela gratuitement,
j'ai pos mes hypothses et fait le test statistique appropri, et l'effet est significatif ou pas."
Cours 6. Tableaux de contingences et tests du 2
PSY 1004
Ces signes linguistiques sont les mmes dans peu prs toutes les disciplines
scientifiques: (1) l'utilisation du mot "significativement", (2) l'inclusion du rsultat du test
entre parenthses, suivi du seuil suivant cette criture trs stricte: "(nom-de-la-stat( degrs
de libert, s'il y a) = rsultat, p < seuil )" si le test est significatif. S'il n'est pas significatif, il
faut aussi rapporter la statistique, mais cette fois, "p > seuil )". Le signe plus petit signifie
que la probabilit d'obtenir ce rsultat par pur hasard est plus petit que , ce qui veut dire
qu'on a rejet H0.
Voici un petit exemple qui reprend la rpartition des sexes en psychologie de la section
1. Je suppose que le chercheur, un tudiant de matrise, tient un cahier, une sorte de journal
personnel dans lequel il note ses observations et commentaires (en physique, l'usage du
cahier est obligatoire). Voici ce qu'il note dans son cahier:
[1 nov 02]
Ne me reste plus que trois semaines pour trouver un projet
[20 nov 02]
Le sexe des aspirants psychologues, a stune bonne ide! Ca peut
tre super utile. Lasso va pouvoir prvoir plus exactement le
nombre de caisses de bire commander au party de fin danne.
Pis si ya moins de gars que de filles, la corpo pourrait faire des
campagnes de recrutement mieux cibles. Cest cool!
[21 nov 02}
Zut, le dpartement ne veut pas me donner les listes des tudiants.
Jpeux quand mme pas faire un recensement complet moi-mme.
Jvais collecter un chantillon. O?
Le cours de stats commence 13h00. Ctun cours obligatoire,
il devrait tre rprsentatif.
[21 nov 02, 12h45]
Dcompte de ceux qui entrent :
homme (code 1):
femme (code 2):
Total : homme 35,
femme 123
Cest pas des moyennes, cest des effectifs test du chi2 avec rp. gale.
Ltudiant entre dans un fichier sexe.dat, que lon voit dans la Figure 1 puis excute la syntaxe
suivante :
PSY 1004
weight by nbre.
npar test
/chisqu=sexe(1,2)
/expected=equal.
Il obtient le listing de la Figure 2 qu'il agrafe dans son cahier:
Chi-Square Test
Frequencies
SEXE
Category Observed N Expected N Residual
1
1.00
35
79.0
-44.0
2
2.00
123
79.0
44.0
Total
158
Test Statistics
SEXE
Chi-Square
49.013
df
1
Asymp. Sig.
.000
a 0 cells (.0%) have expected frequencies less than 5. The
minimum expected cell frequency is 79.0.
PSY 1004
X =
1
( X i X) 2
n 1 i
Or,
( X i ) 2 = [( X i X) + ( X )] 2
= ( X i X) 2 + 2( X i X)( X ) + ( X ) 2
Il sensuit que
PSY 1004
(X
) 2 = ( X i X) 2 + 2 ( X i X)( X ) + ( X ) 2
i
= ( X i X) + 2( X ) ( X i X) + ( X ) 2
2
= ( X i X) + 0 + n( X )
2
(X
i
X) = ( X i ) 2 n( X ) 2
2
(on se rappelle que la somme des carts la moyenne donne toujours zro cours 2). Si lon
divise les deux cts par 02 , o 02 est la variance prdite par la thorie,
1
2
0
(X
X) 2 =
2
0
(X
)2
(X i ) 2
02
2
0
(X ) 2
(X ) 2
02 n
10
PSY 1004
Rejet de H0 si (n 1)
o la valeur (n 1)
02
> s+(/2) ou (n 1)
02
< s-(/2)
2
0
avec 38 degrs de libert (car 39 nest pas tabul). La figure qui suit montre les deux seuils.
0.04
0.03
0.02
2.5%
0.01
10
2.5%
20
30
40
50
60
70
Figure 4 : Placement des valeurs critiques s-( /2) et s+( /2) sur la distribution 2 .
a.4. Appliquer le test et conclure
Le test devient:
(n 1)
2
0
= (40 1)
1200
= 46.8
1000
La valeur obtenue de notre chantillon ntant pas plus grande que la valeur critique, on ne
rejette pas H0; la variance observe est compatible avec la prdiction du modle.
a Postulats exacts vs. postulats asymptotiques
Certaines distributions sont bases sur le postulat que n >> alors que d'autres sont
bases sur une taille n donne. On appelle le premier type de postulat un postulat
asymptotique. La distribution normale, telle que dfinie dans la thorie des erreurs de Gauss,
est base sur un nombre de facteur n non spcifi mais grand. Il s'agit donc d'une thorie
base sur un postulat asymptotique. La distribution de Weibull est aussi base sur un
postulat asymptotique puisque le nombre de comptiteurs n est non spcifi mais doit tre
Cours 6. Tableaux de contingences et tests du 2
11
PSY 1004
grand. l'oppos, la distribution binomiale est base sur un n prcis (il faut connatre le
paramtre n pour lire dans la table B(n, p) ); il s'agit d'un postulat exact.
Les distributions asymptotiques sont plus difficiles dmontrer (le thorme central
limite pris 100 ans dmontrer; le cas gnral pour la Weibull a t prouv en 2002 par moimme). Cependant, ils sont beaucoup plus simples d'utilisation puisqu'on n'a pas connatre
la valeur de n. De plus, les postulats asymptotiques peuvent tre utiliss pour rejeter des
thories de la pense. En effet, comme on ne connat pas le nombre de neurones dans le
cerveau (ou trs approximativement), une thorie de l'esprit ne peut pas tre btie sur un
nombre n de neurones (ou de synapses, selon ce qui sera le plus pertinent).
Voici deux exemples de thorie du fonctionnement cognitif qui font appelle des
arguments asymptotiques: (1) Les rseaux connexionnistes classiques fonctionnent en simulant
un grand nombre de "neurones" qui peuvent, aprs des stimulations, accrotre ou rduire
leurs connections rciproques. Les premiers neurones peuvent tre connects une camra et
les derniers un bras robot. Les connexions de ces neurones simplifis sont donc des
"facteurs" affectant la rponse, ils sont en grand nombre, et peu prs autant excitateur
qu'inhibiteur. Or, suivant la thorie des erreurs de Gauss, il faut que les rponses de ce
systme soit distribues de faon normal (argument asymptotique utilisant le thorme
central limite). Cependant, quand on enregistre les temps de rponse des humains, ils ne sont
jamais symtriques autour du temps de rponse moyen, ce qui invalide le modle normal, et
donc, les rseaux connexionnistes classiques (rejet de H0).
Les rseaux de courses postulent plutt que les neurones vont ragir aussitt qu'un
rcepteur sensoriel ou un neurone antcdent s'active. Il s'agit donc d'un modle de course (le
plus rapide envoie son signal en premier). En utilisant un argument asymptotique, le modle
prdit est la distribution de Weibull qui prdit que les temps de rponse sont asymtriques,
tout comme ceux qu'on observe. Le modle de course n'est donc pas rejet (non rejet de H0).
Section 5. Conclusion
12
PSY 1004
Exercices
1. Un chercheur fait une tude auprs de
deux petits groupes dtudiants
(littrature et optomtrie). Il sintresse
la variable Qualit de vie quil
mesure suivant le revenu annuel.
Lequel, parmi les tests suivant, doit-il
raliser?
a) Test z
b) Test sur la mdiane
c) Test t
d) Test 2
2. En une heure, les nombres dutilisateurs
de 6 guichets automatiques sont les
suivants : 12, 32, 21, 41, 67, 37. Vrifiez
que ces guichets sont uniformment
visits sur la base de votre chantillon
avec un seuil de dcision de 0.01.
3. Un nouveau vaccin a t test sur 150
enfants, dont 70 dans un groupe
contrle. Six enfants traits sont
malades contre 25 dans le groupe
contrle. Choisissez un seuil et vrifiez
lefficacit du vaccin.
4. Un candidat la mairie de Montral
demande un sondage. Effectu auprs
de 111 hommes et 133 femmes, il rvle
que 49 personnes sont contre lui alors
que 171 lui sont favorables, et 24
incertaines. Parmi les femmes, ces
nombres deviennent 35 contre, 80 pour.
Est-ce que le candidat peut compter
galement sur les hommes et les
femmes pour tre lu?
5. Un journal rapporte le nombre de
meurtres commis Montral au cours
des annes 1984 1989 : 34, 27, 41, 25,
18, 35. Vrifiez lhypothse dune
rpartition gale avec un seuil de 5%.
Cours 6. Tableaux de contingences et tests du 2
Observes
Attendues
1.45-1.50
10
1.50-1.55
28
1.55-1.60
67
1.60-1.65
84
1.65-1.70
65
1.70-1.75
34
1.75-1.80
12
300
300
13