Fiche Statistiques1anee
Fiche Statistiques1anee
Fiche Statistiques1anee
La psychologie utilise des méthode expérimentale et des outils logiques et mathématiques. Les
données recueillies vont valider des hypothèses ou théories.
Statistique(s) = science des données, c'est à dire comment les recueillir , les analyser, les traiter, les
représenter et les interpréter. Se divise en 2 grandes sous-parties :
Exemple :
Participant : une femme de 49 ans
Échantillon : des femmes entre 45 et 55 ans
Population : toutes les femmes entre 45 et 55 ans
Dans les expériences, la variabilité peut etre intra-individuelle ou inter-individuelle. Par exemple
les capacités de mémoire sont différentes selon les individus mais aussi pour un même individu à
deux moments différents. Cette variabilité peut être aléatoire. Pour réduire cette variabilité,
l'échantillon doit être le plus grand possible.
Méthode expérimentale : créer/imaginer. Une méthode qui sert a tester quelque chose
– L'approche descriptive : elle a pour but de fournir une image d'un phénomène ou d'une
situation particulière. Mais aussi d'identifier les composantes d'une situation donnée et de
décrire les relations entre ces différentes composantes. C'est une observation naïve car elle
ne part pas d'une hypothèse.
– L'approche systématique : elle se base sur des observations répétées qui aboutissent sur des
données normatives sur une population ou un type de comportement.
La latence : temps écoulé à partir d'un évenement spécifique, par exemple, tps de réaction
Fréquence : nombre de comportements par unité de temps, par exemple « le clignement des yeux se
fait 25 fois par minutes »
2. L'entretien
1) L'entretien libre : il a pour objectif d'explorer un sujet sur une consigne très ouverte.
2) L'entretien semi-directif : la consigne est accompagnée cette fois de thèmes à
aborder (donnés si le patient n'en parle pas de lui-même).
3) L'entretien directif : fait à partir d'un questionnaire structuré toujours avec des
questions ouvertes.
Les données de l'entretien : ce sont des données textuelles « ce qui a été dit par le
patient » Elles sont analysées, grâce à une analyse de corpus. Ex: lorsqu'un psy
extrait les idées redondantes du discours d'un patient.
3. Le questionnaire
Il est composé de questions ouvertes et est proche de l'entretien directif. Souvent est conçu un pré-
questionnaire test qui permet de voir les défauts éventuels (trop long, questions ambiguës...).
questions dichotomiques (oui/non)
QCM non-ordonnés (cocher la case)
QCM ordonnés (donner des numéros selon le degré de vérité des choix par ex) o
échelles d'attitude ou de valeurs (ex: Satisfait ___1___2___ 3____4____5___ Non satisfait)
4. Les taches expérimentales et les test (les tests sont des taches expérimentales)
Tâches expérimentales = le sujet doit faire quelque chose, il a une consigne (c'est donc différent de
l'observation du comportement spontané.
Test = tâches expérimentale effectuée sur un très grand nombre de participants, assez pour
considérer que les données collectées sont si grandes que l'on considère qu'elles représentent
l'ensemble de la population (étalonnage). La tâche expérimentale est standardisée.
1) a) évaluation différentielle : ex : test de QI → test de performance (mauvais/bon). Donnée
obtenue : score.
b) test d'attitude : pas de bonne ou mauvaise réponse, mais évaluation d'une performance
typique. Donnée obtenue : score.
2) a) test de mise en situation (ex: test de gestion du stress de prise de décisions, comparer les
performances individuelles de grands cadres à celle de la population). Donnée obtenue :
appréciations subjectives de l'expérimentateur.
b) test projectif : ex: tâches d'encre de Rorschach. Donnée obtenue : appréciations
subjectives de l'expérimentateur
1. la méthode expérimentales
La méthode expérimentale peut être utilisée avec toutes les techniques de recueil des données :
observation, questionnaire, entretien, tâche expérimentale et test. On peut avoir plusieurs VI et
plusieurs VD. Selon le contexte, une même variable peut être utilisée comme VI ou VD.
Différentes modalités pour une variable. VI comme VD ont des modalités. La nature des modalités
de la VD détermine le niveau de la mesure (ou échelle de mesure)
– Le niveau nominal : Les modalités (différentes formes ou valeurs de la VD) ne peuvent pas
être ordonnées –Pas de réponses plus justes que les autres –Pas de réponses plus négatives
ou plus positives que les autres …
– Le niveau ordinal : Modalités définies sémantiquement (Entourez la bonne réponse),
Modalité ordonnée, mais pas d'intervales. Modalités définies numériquement (Entourez la
bonne réponse) Quand possibilité de réponse « je ne sais pas », la variable n'est plus ordinale
mais nominale car « je ne sais pas » ne peut pas être ordonné
– Le niveau numérique : Modalités sont des nombres entre lesquels on peut quantifier
l’intervalle, Les intervalles entre modalités successives renvoient toujours à la même
quantité. Les échelles d’opinion/d’attitude même définies numériquement ne sont pas des
échelles numériques
Exemples :
Le tableau de protocole
Le tableau de distribution
Tableau de distribution
1. Le diagramme
On l'utilise si les modalité de la VD sont indépendantes les une des des autres. On l'utilise pour une
VD nominale
ex : un psychologue étudie la répartition des patients phobiques recu en consultation depuis 2 ans
Les barres serons séparées, et la forme arbtraire
Autre possibilité pour cet exemple : le diagramme circulaire (« camembert)
2. La courbe
3. L'histogramme
On l'utilise si les intervalles sont mesurables et régulier entre les modalité de la VD. On parle de VD
numérique.
Ressemble à un diagramme en barre sauf que dans l'histogramme ces barres sont accolées (ça
souligne la mesurabilité et la régularité des intervalles entre les modalité de la VD
On n’a pas représenté les effectifs pour QI = 90, QI = 91 etc. Mais pour QI dans [90 ; 99], [100 ;
109], … = classes d’intervalles
ex tableau de distribution
classe 1 2 3 4 5 6
intervalle [xmin ..] [..;xmax]
effectif Nb d'effectif
dans
l'intervalle
Plus de classes : plus d’information retenue des données brutes, mais moins synthétique (moins
lisible) Moins de classes : moins d’information, mais plus synthétique
Continuité entre les classes car intervalles mesurables et réguliers entre modalités de la VD =>
accolement des barres.
La distribution normale
Courbe de Gauss :
Ici : mode = Bleu, car c'est la modalité de la VD dont l'effectif est le plus grand
MODE =/= EFFECTIF
MODE= MODALITE
• Calculer N/2
• Calculer les effectifs cumulés
• Chercher dans les effectifs cumulés quand N/2 est atteint ou dépassé
• La médiane est la valeur de la VD correspondante
Moyenne= x+x+x.../nb de x
formule différente si calculé à partir du protocole ou à partir de la distribution
Tableau de protocole :
Exemple : 11 participants devaient décrire une personne présentée en sélectionnant des adjectifs
qualificatifs parmi 80 proposés. On mesure le nombre d’adjectifs utilisés par chaque participant.
Partici 1 2 3 4 5 6 7 8 9 10 11
pant
Nb 6 7 9 4 4 8 7 9 5 3 4
d'adjec
tif
Ici, M= 6+7+9+4+4+8+7+9+5+3+4 /11 = 6
Tableau de distributions
Nb 3 4 5 6 7 8 9
d'adjecti
f
Effectif 1 3 1 1 2 1 2
partiel
Il faut pondérer chaque modalité par l’effectif partiel : 4 doit être pris 3 fois, etc.
CM5
Ecart interquartile
Etendue
Variance (écart-type)
Comparaisons
Ils permettent :
Indices de tendance centrale : «au centre, où sont les données ?»
Données toujours variables (ex. : différences interindividuelles)
Indices de dispersion : « Quelle est la dispersion des données autour de ce centre ?»
Quantifient le degré d’hétérogénéité observé dans les données
Comme pour les graphes de distribution et les indices de tendance centrale, les indices de dispersion
calculables vont dépendre du niveau de mesure de la VD.
1. L’écart interquartile
Médiane : partage les effectifs en deux.
Ici, on partage les effectifs en quatre quartiles, chacun incluant 1/4 (25%) des données.
Calcul :
– Quand N/4 est atteint ou dépassé dans les effectifs cumulés→ position du 1er quartile
– Quand 3N/4 est atteint ou dépassé dans les effectifs cumulés → position du 3ème quartile
– Ecart interquartile = [position 1er quartile ; position 3ème quartile
– Avec un VD numérique : Ecart interquartile = position 3ème quartile -position 1er quartile.
L’écart interquartile relatif
%RC TR (msec)
Médiane 64 250
Ecart interquartile 10 80
Ecart interquartile relatif 15.7 32.0
On ne peut pas comparer directement l’écart interquartile des % de réponses correctes (10%)
et celui des temps de réponse (80 msec).
Possible avec l’écart interquartile relatif :
- 15,7% pour les %RC
- 32,0% pour les TR
- Les temps de réponse sont donc 2 fois plus variables, relativement, que les % de réponses
correctes.
2. L’étendue
Avec VD numérique
Différence entre la valeur maximale de la VD observée, et sa valeur minimale :
Les limites de l’étendue : Deux distributions très différentes peuvent donner des étendues
identiques.
Avec VD numérique
Indice de dispersion bien plus précis que l’étendue
Même racine dans « variabilité » et « variance ».
L’idée est de faire la moyenne de ces écarts à la moyenne sur toutes les observations.
Comme x peut être plus petit que m, x-m peut être négatif, or on veut que toutes les
contributions d’écarts à la moyenne soient positives, il suffit de prendre le carré :
Puis on moyenne sur toutes les observations, la variance, notée varou s2 est donc :
N termes dans cette somme.
Strictement : variance = moyenne des carrés des écarts à la moyenne.
11 participants devaient décrire une personne présentée à partir d’adjectifs choisis parmi
80 proposés. VD = nombre d’adjectifs utilisés. m= 6
Avec les données précédentes (nombres d’adjectifs utilisés pour décrire quelqu’un), m= 6 et
Ici, les participants ont utilisé en moyenne 6 ±2.04 (6 ±2) adjectifs pour décrire la personne. La
dispersion aurait pu être plus petite (±0.5) ou plus grande (±4).
Calculateurs (logiciels, calculatrices) : attention : elles calculent souvent la variance « corrigée »,
divisent par N–1 au lieu de N.
Ecart-type correspondant. → vérifier avec quelques valeurs.
Cela signifie que la variation typique des données autour de la moyenne est de 35.7%, relativement
à l’amplitude de cette moyenne.
Il permet de comparer les dispersions de 2 VD sur des échelles différentes.
Deux distribution peuvent etre très voisines et avec des étendues très différentes
L'étendu n'est pas adapter pour décrire la dispersion
On doit calculer la variance pour décrire la dispersion
De l’intérêt de l’écart interquartile par rapport à la variance (ou de l’écart-type)
Les avantages et inconvénients respectifs sont les mêmes que pour la médiane et la moyenne
Moyenne et écart-type : les plus précis, mais sensibles aux valeurs extrêmes. Valeur extrême élevée
=> augmentation « artificielle » de la moyenne Valeur extrême basse ou élevée => augmentation
«artificielle» de l’écart-type
Quel indice est le plus pertinent pour résumer des données ? Toujours examiner la distribution
(graphique).
Cm 6 Conclusion CM 4 et 5
VD nominale
-Mode
-Pas d’indice de dispersion
VD ordinale
-Mode et médiane
-Ecart interquartile (EIQ)
Typiquement, on caractérise l’échantillon par sa médiane et son EIQ (rarement par son mode)
Exemple : Des étudiants évaluent une formation sur une échelle en 7 points (de «pas du tout
satisfaisant» à «très satisfaisant») avant modifications, d’autres après. Les modifications apportées
constituentelles une réelle amélioration? 2 conditions expérimentales (avant/après) → 2 échantillons
de données à comparer
Médiane EIQ
Avant 3 [1;5]
Après 6 [5;7]
Texte « L’évaluation de la formation par les étudiants est meilleure après modifications (6; [5; 7])
qu’avant (3; [1; 5]). »
VD numérique
-Mode, médiane, moyenne
-EIQ, étendue, variance/écart-type
Typiquement, on caractérise l’échantillon par sa moyenne m et son écart-type s (ou par ses médiane
et EIQ si valeurs extrêmes, rarement par son mode)
Exemple : même question que précédemment mais mesure différente = note obtenue par les
étudiants à l’examen. Si la formation est améliorée par les modifications apportées, ils devraient
mieux réussir cet examen.
Moyenne Ecart-type
Avant 9 3
Après 12 1,5
« Les étudiants ont obtenu de meilleures notes après les modifications apportées à la formation (12
+ 1,5) qu'avant (9+3)
Graphe de résultats
La variabilité des données mesurée par l'écart type est représentée graphiquement par des barres
d'erreurs
La loi normale :
sur VD numérique
La loi normale est un type particulier de distribution en cloche et symétrique
Les données se répartissent de façon équitable autour de la valeur centrale (=mode, médiane,
moyenne)
Le score z :
m= 50 et s=10
x=60
z= 1 Donc : 1 ecart type dessus de la moyenne
Exemple :
teste mémoire :
z = x – m /s
= 68 – 50 / 10
= 1,8
QI : 110-100/ 15
= 0,7
Relativement, cet individu a mieux réussi le test de mémoire que le test de QI.
Le score z permet aussi de situer une observation par rapport aux autres
Elle sert aussi en probabilité : probabilité d'un evenement : même unité qu'en proprotion, varie etre
0 et 1
Pour une observation issue d’une distribution (d’échantillon ou de population), probabilité qu’elle
se situe entre z = 1 et 2 == proportion d’observations entre z = 1 et 2, notées p
Calcul de p :
Etude sur la mémoire, liste de mots à apprendre, tâche de rappel : Imaginons que nous sachions que
la moyenne de mots rappelés est 7, l’écart-type 1.5, et que les données se répartissent selon une
distribution normale. On souhaite évaluer la probabilité d’apparition de certains scores.
La table bilatérale
donne pour tout z positif la probabilité p qui correspond a la somme des surface au deux extremité
(A+B)
exemple : z= 1
La table unilatérale
ex : z=1
x: 8,5
p= probabilité / z< 1
Lecture de la table unilatérale identique à celle de la table bilatérale, résultat non identique
Pour z = 1,00
p= 0,8413
On souhaite connaître la valeur de l'écart à la moyenne en unité d'écart-type pour une probabilité
donnée
Remarque : On ne peut pas calculer la probabilité d’une valeur exacte de z à l’aide de la loi normale
centrée-réduite, on peut déterminer la proportion de valeurs supérieures ou inférieures à cette valeur
(une surface). (la probabilité d’obtenir exactement un z est nulle : dans le cas contraire, la surface
sous la courbe serait infinie)
CM 7
Variable et facteurs :
Notion de facteur de contrôle : d'autes facteurs que la VI peuvent avoir un effet sur la VD.
On déduit leur influence en les controlant :
– Maintenus constants
– Neutralité par contrebalancement
La VI est le plus souvent un facteur systématique. Le facteur sujets (participants) est un exemple typique de
facteur aléatoire.
Facteur principal / secondaire : Fonction des objectifs de l’expérience
exemple : Expérience 1 sur l’effet de l’âge sur la mémoire : 40 participants, 20 jeunes (m= 20 ans) et 20 âgés
(m= 70 ans), apprennent une liste de mots. Ils ont pour tâche de restituer le plus de mots possible, puis
d’essayer de les reconnaître parmi une liste.
VD :
Nombre (ou proportion) de mots correctement rappelés
Nombre (ou proportion) de mots correctement reconnus
Facteurs aléatoires :
Sujets : S40
participants apprennent deux listes de 30 mots différentes, l’une présentée pêle-mêle (liste 1) et l’autre
organisée par catégories sémantiques (liste 2). On présente à la moitié des participants la liste 1 puis la liste
2, et à l’autre moitié la liste 2 puis la liste 1.
Relation d’emboîtement
Un facteur A est emboîté dans un facteur B
si chacune des modalités de A n’est combinée
qu’avec une seule des modalités de B.
Cette relation est notée :
A < B > (A est emboîté dans B)
Elle n’est pas symétrique
A< B> ≠ B <A>
Exemple d’une relation d’emboîtement
Expé 2, effet de l’organisation du matériel sur le rappel
2 facteurs : Sujets : S28
Organisation de la liste : O2= {o1; o2}
o1 = pêle-mêle et o2 = organisée
Pour la moitié des participants, la liste était pêle-mêle, pour l’autre moitié organisée
S14 < O2>
Chaque modalité du facteur S est combinée avec une seule modalité du facteur O, ils passent la liste 1 OU 2
On parle de groupes indépendants
Relation de croisement
Un facteur A est croisé avec un facteur B si chacune des modalités de A est combinée avec chacune
des modalités de B.
Plans d'expérience :
CM 8 Méthodologie expérimentale
Différence entre les valeurs moyennes de la VD obtenues pour chacune des modalités de ce facteur
Exemple : Expérience 2 CM7 sur l’effet de l’organisation du matériel sur le rappel S14 < O2 > Effet du
facteur Organisation ?
Liste de 60 mots à apprendre. 14 participants dans chaque groupe donc m sur 14 observations.
mo2 > mo1
mo2 – mo1 = 45 – 22 = + 23
Si on a plusieurs facteurs, on calcule l’effet global de chaque facteur en faisant une moyenne sur l’ensemble
des modalités de l’autre facteur
ex :
A1 (20ans) A2 (70ans) Moyenne facteur R
R1 (rappel) 0,65 0,35 0,5
R2 (reconnaissance) 0,9 0,88 0,89
Moyenne facteur A 0,78 0,62
Effet de A : ma1 >ma2 Les jeunes restituent 16% de mots de plus que les âgés.
Effet de R : mr2 >mr1 39% de mots en plus sont restitués dans la tâche de reconnaissance par rapport à la
tâche de rappel.
On dit qu’il existe une interaction entre deux facteurs lorsque l’effet de l’un des facteurs varie en fonction
des modalités de l’autre facteur
Calcul des effets intras d’un facteur : Effet de ce facteur séparément pour chaque modalité de l’autre facteur
L'analyse de l'interaction
Absence d’interaction
Les effets intra d’un facteur sont les mêmes pour chacune des modalités de l’autre facteur
Les effets intra sont différents en valeur absolue mais restent de même signe.
Représentation graphiques :
cm9 :
faire des inférences : tirer des conclusions a partir des données obtenues.
Il y a une différence entre déduction et induction (inférence) : dans une inférence, toujours un risque
d'erreur : probabilité p de s tromber en faisant une inférence
Loi normale :
Des données suivent une distribution normale (m= 7 ; s= 1,5 ) quel est le x/ surface blanche ?
Utiliser table unilatérale : pour tout z, la table unilatérale donne la surface rouge
c'est ce que l'on appelle la lecture inverse de la table de z
Donc inférence statistique : • Avec les données obtenues, quelle inférence peut être faite avec un
risque d’erreur de 5% ? • Certains tests (statistiques) sont unilatéraux (le test du χ2, 5% à droite),
d’autres bilatéraux (le test t, le test F : 2,5% de part et d’autres)
x2 : comparaison d'effectifs
La variabilité dans les données présente toujours une part aléatoire : Différences inter-individuelles,
intra-individuelles, etc. ⇒Quand on répète les mesures, résultat potentiellement différent.
Oui Non
42 58
Hypothèse nulle H0 :
Pas d’effet, pas de différence Les réponses « Oui » ne diffèrent pas significativement des réponses «
Non ». La différence entre 42 et 58 est due au hasard.
Hypothèse alternative H1 :
Un effet, une différence Les réponses « Oui » diffèrent significativement des réponses « Non ». La
différence entre 42 et 58 est statistiquement significative (à 5%)
On commence par considérer H0 comme vraie (pas d’effet, pas de différence).
On récolte des données.
On détermine la probabilité p qu’on avait d’obtenir ces données si H0 est vraie, c.à.d. la probabilité
que ces données soient dues au hasard
– p < 0,05, on considère que c’est suffisamment petit pour que H0 soit fausse (les données
sont ce qu’elles sont) : on rejette H0, on accepte H1 (il y a un effet, une différence).
- p ≥ 0,05, on considère que c’est trop grand pour rejeter H0 : l’effet, la différence observée
n’est pas statistiquement significative, Il n’y a pas d’effet, pas de différence.
Effectif observée ni: données récoltées => Pour voir si la differences entre les effectif observée est
due au hasard, on met en place H0 (si H0 est vrai ; effectif théorique : données absoluments
similaires)
Plus la difference entre effectifs observé et effectifs théoriques est grande, plus nous allons rejeté
H0 : les données ne sont pas due au hasard
Comment calculé X²
Oui Non
N observé (ni) 42 58
N théorique 50 50
Oui Non
(42-50)²/50=1,28 (58-50)²/50=1,28
Total= 2,56. Donc X²= 2,56
Est-ce suffisamment grand pour rejeter H0 ?
La loi du X² est caractérisée par un paramètre dit degré de liberté à valeur dans l'ensemble des entiers
naturels (non nuls).
Sur une courbe, Le χ2 calculé (2,56) peut être positionné ( en abscisse) et son p associé déterminé (surface
sous la courbe à droite du trait bleu). 2,56 si p < 0,05, on considère que ce χ2 calculé est issu d’une autre
distribution, on rejette H0 (plus de Non que de Oui) si p ≥ 0,05, ce χ2 calculé peut provenir de cette
distribution, il peut être dû à des fluctuations d’échantillonnage, on ne peut pas rejeter H0
Le test du χ2 indique si une distribution observée est identique à une distribution théorique.
Ou si deux distributions observées sont différentes. Il quantifie l’écart entre les deux
Effectifs provenant d’une échelle nominale, ordinale ou numérique.
H0 : les deux distributions (observée et théorique) sont identiques (strictement : elles sont issues de la même
population)
H1 : les deux distributions sont différentes (strictement : elles sont issues de deux populations différentes)
Ce X² calculé est ensuite comparé à un X² critique. (tel que p=0,05). Elle dépend du ddl (degré de liberté)
Comment calculé le degré de liberté : A- 1= ddl
(A= nombre de modalité de la VD)
La distribution du χ2 dépend du ddl => le χ2 critique dépend du ddl -> utilisation d’une table de χ2
Seuil = p
ddl= 1-> χ2 critique = 3,84