Fiche Statistiques1anee

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 25

FICHES STATISTIQUES

La psychologie utilise des méthode expérimentale et des outils logiques et mathématiques. Les
données recueillies vont valider des hypothèses ou théories.

Statistique(s) = science des données, c'est à dire comment les recueillir , les analyser, les traiter, les
représenter et les interpréter. Se divise en 2 grandes sous-parties :

Statistiques descriptives : Statistiques inférentielles :


Analyse et traitement des données. Interprétations des données
Étude du recueil des données, leur Inférence = presque opposé de déduct°
présentation et leur interprétation ici, on part du particulier vers le général.

Échantillonnage = extraire un échantillon d'une population.

Participant/sujet = individu participant à l'expérience.


Échantillon = ensemble d'individus participant à l'expérience (ensemble de sujets). Nombre limité.
Il doit être représentatif de la population (par exemple : les surdoués ne participent pas).
Population = ensemble d'individus que l'expérience prétend décrire.

Exemple :
Participant : une femme de 49 ans
Échantillon : des femmes entre 45 et 55 ans
Population : toutes les femmes entre 45 et 55 ans

Dans les expériences, la variabilité peut etre intra-individuelle ou inter-individuelle. Par exemple
les capacités de mémoire sont différentes selon les individus mais aussi pour un même individu à
deux moments différents. Cette variabilité peut être aléatoire. Pour réduire cette variabilité,
l'échantillon doit être le plus grand possible.

Méthode expérimentale : créer/imaginer. Une méthode qui sert a tester quelque chose

Les techniques de receuil de données :

1. Observation = mesure et étude du comportement spontané (sans consignes) en milieu naturel


mais aussi en laboratoire. C'est un processus qui requiert un plan d'observation, un type
d'enregistrement.

– L'approche descriptive : elle a pour but de fournir une image d'un phénomène ou d'une
situation particulière. Mais aussi d'identifier les composantes d'une situation donnée et de
décrire les relations entre ces différentes composantes. C'est une observation naïve car elle
ne part pas d'une hypothèse.

– L'approche systématique : elle se base sur des observations répétées qui aboutissent sur des
données normatives sur une population ou un type de comportement.

• L'observation directe : Observer sans théorie de base. Neccessite materiel de receuil de


données
• L'observation indirecte : Basée sur une inférence hypothétique => présence d’une théorie
Les étapes de l'observation :

Les mesures du comportement :

La latence : temps écoulé à partir d'un évenement spécifique, par exemple, tps de réaction

Fréquence : nombre de comportements par unité de temps, par exemple « le clignement des yeux se
fait 25 fois par minutes »

Durée : temps entre l'apparition (onset) et la disparition (offset) d'un comportements

Comportement : considéré comme un evement ou un état

2. L'entretien

Entretien = approche qualitative de phénomènes psychologiques. Étant qualitative, il est difficile


d'en faire des statistiques. Les données récoltées en entretient sont des paramètres non-observables
Un entretien est classé selon son niveau de directivité : Libre, Semi-directif, directif

1) L'entretien libre : il a pour objectif d'explorer un sujet sur une consigne très ouverte.
2) L'entretien semi-directif : la consigne est accompagnée cette fois de thèmes à
aborder (donnés si le patient n'en parle pas de lui-même).
3) L'entretien directif : fait à partir d'un questionnaire structuré toujours avec des
questions ouvertes.

Les données de l'entretien : ce sont des données textuelles « ce qui a été dit par le
patient » Elles sont analysées, grâce à une analyse de corpus. Ex: lorsqu'un psy
extrait les idées redondantes du discours d'un patient.

3. Le questionnaire

Il est composé de questions ouvertes et est proche de l'entretien directif. Souvent est conçu un pré-
questionnaire test qui permet de voir les défauts éventuels (trop long, questions ambiguës...).
questions dichotomiques (oui/non)
QCM non-ordonnés (cocher la case)
QCM ordonnés (donner des numéros selon le degré de vérité des choix par ex) o
échelles d'attitude ou de valeurs (ex: Satisfait ___1___2___ 3____4____5___ Non satisfait)

4. Les taches expérimentales et les test (les tests sont des taches expérimentales)

Tâches expérimentales = le sujet doit faire quelque chose, il a une consigne (c'est donc différent de
l'observation du comportement spontané.

Test = tâches expérimentale effectuée sur un très grand nombre de participants, assez pour
considérer que les données collectées sont si grandes que l'on considère qu'elles représentent
l'ensemble de la population (étalonnage). La tâche expérimentale est standardisée.
1) a) évaluation différentielle : ex : test de QI → test de performance (mauvais/bon). Donnée
obtenue : score.
b) test d'attitude : pas de bonne ou mauvaise réponse, mais évaluation d'une performance
typique. Donnée obtenue : score.
2) a) test de mise en situation (ex: test de gestion du stress de prise de décisions, comparer les
performances individuelles de grands cadres à celle de la population). Donnée obtenue :
appréciations subjectives de l'expérimentateur.
b) test projectif : ex: tâches d'encre de Rorschach. Donnée obtenue : appréciations
subjectives de l'expérimentateur

La représentation des données

1. la méthode expérimentales

• Variable indépendante (VI) = facteur expérimental, facteur explicatif


• Variable dépendante (VD) = données = mesure → Sa valeur est expliquée par la VI.
L’expérimentateur fait varier une VI, il observe (ou pas) une variation correspondante de la VD.

La méthode expérimentale peut être utilisée avec toutes les techniques de recueil des données :
observation, questionnaire, entretien, tâche expérimentale et test. On peut avoir plusieurs VI et
plusieurs VD. Selon le contexte, une même variable peut être utilisée comme VI ou VD.

2. les différents niveaux de mesure

Différentes modalités pour une variable. VI comme VD ont des modalités. La nature des modalités
de la VD détermine le niveau de la mesure (ou échelle de mesure)

3 niveaux, du plus qualitatif au plus quantitatif : –Nominal –Ordinal –Numérique

– Le niveau nominal : Les modalités (différentes formes ou valeurs de la VD) ne peuvent pas
être ordonnées –Pas de réponses plus justes que les autres –Pas de réponses plus négatives
ou plus positives que les autres …
– Le niveau ordinal : Modalités définies sémantiquement (Entourez la bonne réponse),
Modalité ordonnée, mais pas d'intervales. Modalités définies numériquement (Entourez la
bonne réponse) Quand possibilité de réponse « je ne sais pas », la variable n'est plus ordinale
mais nominale car « je ne sais pas » ne peut pas être ordonné
– Le niveau numérique : Modalités sont des nombres entre lesquels on peut quantifier
l’intervalle, Les intervalles entre modalités successives renvoient toujours à la même
quantité. Les échelles d’opinion/d’attitude même définies numériquement ne sont pas des
échelles numériques

Exemples :

Questionnaire : VD = réponse a la question : mesure ordinale ?


Observation : VD= Nombre de clignement de paupière en 10mn : mesure numérique
Tache expérimentale : Freiner le plus vite possible a un signal. VD : tps de réaction, mesure
numérique

Le tableau de protocole

• Tableau contenant les données “brutes”


• Données brutes = aucun traitement n’a été effectué
• Présente pour chaque participant la mesure faite(ou les mesures faites)

Le tableau de distribution

Première étape du traitement des données


présentation des résultats obtenus pour chaque modalité de la VD
Distribution des effectifs, des proportions, ou des pourcentages (partiels)

on regarde comment se distribuent les participants en fonction des différentes modalités de la VD


Quel est le nombre de participants pour chaque modalité de la VD ?

Tableau de distribution

Xi Modalité 1 Modalité 2 Modalité 3 Modalité 4


Ni

i = indice de la modalité de la VD, qui varie de 1 à 4 ici, xi signifie la modalité de i de la VD, ni


signifie effectif pour la modalité i, donc x3 = modalité 3, et n4 = effectif de la modalité 4

Distribution des proportions

Xi Bleu Rouge Vert Jaune


Ni 25 30 26 19
Pi 0,25 0,3 0,26 0,19

Si 25 personnes préfèrent le bleu, 30 le rouge, 26 le vert et 19 le jaune

Distribution des pourcentages

Xi Bleu Rouge Vert Jaune


Ni 25 30 26 19
Pi 0,25 0,3 0,26 0,19
%i 25,00% 30,00% 26,00% 19,00%

Graphe de distrinution : La diagramme, la courbe, l'histogramme

Nominal Ordinale Numérique


Diagramme X X X
Courbe X X
Histogramme X

Tableau ci-dessus : graphe de distribution possible en fonction du niveau de mesure de la VD

1. Le diagramme

On l'utilise si les modalité de la VD sont indépendantes les une des des autres. On l'utilise pour une
VD nominale
ex : un psychologue étudie la répartition des patients phobiques recu en consultation depuis 2 ans
Les barres serons séparées, et la forme arbtraire
Autre possibilité pour cet exemple : le diagramme circulaire (« camembert)

2. La courbe

On l'utilise si les modalités de la VD présentent un ordre (la forme de la courbe a du sens,


contrairement au diagramme), Pour les VD ordinales (effectif normal)
effectif cumulé : ordinale/ numérique : forme de la courbe change

3. L'histogramme

On l'utilise si les intervalles sont mesurables et régulier entre les modalité de la VD. On parle de VD
numérique.
Ressemble à un diagramme en barre sauf que dans l'histogramme ces barres sont accolées (ça
souligne la mesurabilité et la régularité des intervalles entre les modalité de la VD

On n’a pas représenté les effectifs pour QI = 90, QI = 91 etc. Mais pour QI dans [90 ; 99], [100 ;
109], … = classes d’intervalles

Si la VD varie dans un intervalle [15;36] (x max etant 36, xmin 15)


Si 1 barre toute les milisecondes, histogramme illisible.
On parle donc de détermination de classes d'intervalles [min;max], qui gradue l'intervalle total
Nb de classes( = nb de barres) : l'usage est de 5mn, 15max, donc en general 10.

Cependant on préfère nb de classe impaire, pour avoir une classe centrale

On définit l'intervalle de variation : xmax – xmin +1


On calcul le nombre de modalité par classes : nb modalité / nb de classes
On peut déterminé les classes

ex tableau de distribution

classe 1 2 3 4 5 6
intervalle [xmin ..] [..;xmax]
effectif Nb d'effectif
dans
l'intervalle

Plus de classes : plus d’information retenue des données brutes, mais moins synthétique (moins
lisible) Moins de classes : moins d’information, mais plus synthétique

Continuité entre les classes car intervalles mesurables et réguliers entre modalités de la VD =>
accolement des barres.

La distribution normale

Courbe de Gauss :

Distribution de très nombreux phénomènes naturels : physiques, biologiques, psychiques...)

Les indices de description statistiques :


Indices de tendences centrales : mode, médiane, moyenne

Nominal Ordinale Numérique


Mode x x x
Mediane x x
Moyenne x

– Le mode : modalités de la VD peuvent etre indépendantes : possible avec une VD nominale


(donc ordinale et numérique aussi. On peut calculer le monde quelque soit le niveau de
mesure de la VD

Mode : modalité de la VD la plus représenté. Ex tableau :

Xi bleu vert rose rouge


Ni effectif partiel 5 3 2 2

Ici : mode = Bleu, car c'est la modalité de la VD dont l'effectif est le plus grand
MODE =/= EFFECTIF
MODE= MODALITE

– La médiane : ces modalité doivent etre ordonnées : possible avec un VD numérique

Médiane = valeur de la VD qui partage en deux la série de données.


Au préalable, ordonner les données dans l’ordre croissant
Le calcul des effectifs cumulés permet de déterminer la position de la médiane

Pour calculer la médiane : N/2

• Calculer N/2
• Calculer les effectifs cumulés
• Chercher dans les effectifs cumulés quand N/2 est atteint ou dépassé
• La médiane est la valeur de la VD correspondante

– La moyenne Calcul arithmétique, seulement possible avec un VD numérique

Moyenne= x+x+x.../nb de x
formule différente si calculé à partir du protocole ou à partir de la distribution

Tableau de protocole :
Exemple : 11 participants devaient décrire une personne présentée en sélectionnant des adjectifs
qualificatifs parmi 80 proposés. On mesure le nombre d’adjectifs utilisés par chaque participant.

Partici 1 2 3 4 5 6 7 8 9 10 11
pant
Nb 6 7 9 4 4 8 7 9 5 3 4
d'adjec
tif
Ici, M= 6+7+9+4+4+8+7+9+5+3+4 /11 = 6

Tableau de distributions

Nb 3 4 5 6 7 8 9
d'adjecti
f
Effectif 1 3 1 1 2 1 2
partiel

Il faut pondérer chaque modalité par l’effectif partiel : 4 doit être pris 3 fois, etc.

CM5

Les indices de dispersion :

 Ecart interquartile
 Etendue
 Variance (écart-type)
 Comparaisons

Nominal Ordinal Numérique


Ecart interquartile X X
Etendue X
Variance (écart-type) X

Ils permettent :
 Indices de tendance centrale : «au centre, où sont les données ?»
 Données toujours variables (ex. : différences interindividuelles)
 Indices de dispersion : « Quelle est la dispersion des données autour de ce centre ?»
 Quantifient le degré d’hétérogénéité observé dans les données

Comme pour les graphes de distribution et les indices de tendance centrale, les indices de dispersion
calculables vont dépendre du niveau de mesure de la VD.

VD nominale : aucun indice de dispersion ne peut être déterminé.

Nominal Ordinal Numérique


Ecart interquartile X X
Etendue X
Variance (écart-type) X

1. L’écart interquartile
Médiane : partage les effectifs en deux.
Ici, on partage les effectifs en quatre quartiles, chacun incluant 1/4 (25%) des données.

Possible avec une VD ordinale ou numérique.


Ecart interquartile = 50% des données autour de la médiane = écart entre le 1er et le 3ème quartile.

Calcul :

– Quand N/4 est atteint ou dépassé dans les effectifs cumulés→ position du 1er quartile
– Quand 3N/4 est atteint ou dépassé dans les effectifs cumulés → position du 3ème quartile
– Ecart interquartile = [position 1er quartile ; position 3ème quartile
– Avec un VD numérique : Ecart interquartile = position 3ème quartile -position 1er quartile.
L’écart interquartile relatif

 Effectifs = mesure absolue → mesures relatives : proportions ou pourcentages (on


normalise avec N).
 Ecart interquartile → écart interquartile relatif, pour comparer des dispersions issues
d’échelles différentes. (Unités différentes, ou identiques mais médianes différentes.

La VD doit être numérique, on normalise avec la médiane.

Exemple : dans une tâche expérimentale, on recueille typiquement le % de réponses


correctes et les temps de réponse 2 VD numériques. Laquelle est la plus variable ?
Comparaison directe impossible : % vs. msec
→ Ecart interquartile relatif (% de la médiane) :

On obtient par exemple :

%RC TR (msec)
Médiane 64 250
Ecart interquartile 10 80
Ecart interquartile relatif 15.7 32.0
 On ne peut pas comparer directement l’écart interquartile des % de réponses correctes (10%)
et celui des temps de réponse (80 msec).
 Possible avec l’écart interquartile relatif :
- 15,7% pour les %RC
- 32,0% pour les TR
- Les temps de réponse sont donc 2 fois plus variables, relativement, que les % de réponses
correctes.

2. L’étendue
Avec VD numérique
Différence entre la valeur maximale de la VD observée, et sa valeur minimale :

Indice de dispersion qui manque de précision.

Les limites de l’étendue : Deux distributions très différentes peuvent donner des étendues
identiques.

3. La variance et l’écart type

Avec VD numérique
Indice de dispersion bien plus précis que l’étendue
Même racine dans « variabilité » et « variance ».

Idée : quantifer l'écart à la moyenne observé dans les données

3.1. Calcul de la variance :


 Pour chaque observation x, on calcule son écart à la moyenne x-m (plus il est grand,
plus la dispersion est grande)

 L’idée est de faire la moyenne de ces écarts à la moyenne sur toutes les observations.
Comme x peut être plus petit que m, x-m peut être négatif, or on veut que toutes les
contributions d’écarts à la moyenne soient positives, il suffit de prendre le carré :

 Puis on moyenne sur toutes les observations, la variance, notée varou s2 est donc :
N termes dans cette somme.
Strictement : variance = moyenne des carrés des écarts à la moyenne.

Calcul a partir d'un protocole :

11 participants devaient décrire une personne présentée à partir d’adjectifs choisis parmi
80 proposés. VD = nombre d’adjectifs utilisés. m= 6

3.3. Calcul à partir d’une distribution


Comme avec le calcul de la moyenne, il faut bien penser à pondérer chaque terme par l’effectif
partiel :

Autant de termes dans cette somme que la VD a de modalités.

3.4 L'écart type :

Avec les données précédentes (nombres d’adjectifs utilisés pour décrire quelqu’un), m= 6 et

Le sens : écart typique des données autour de la moyenne.

Ici, les participants ont utilisé en moyenne 6 ±2.04 (6 ±2) adjectifs pour décrire la personne. La
dispersion aurait pu être plus petite (±0.5) ou plus grande (±4).
Calculateurs (logiciels, calculatrices) : attention : elles calculent souvent la variance « corrigée »,
divisent par N–1 au lieu de N.
Ecart-type correspondant. → vérifier avec quelques valeurs.

3.5. Le coefficient de variation


Comme pour l’écart interquartile relatif, Mesure relative de l’écart-type (qui le ramène à la
moyenne, au lieu de la médiane) :

Avec les données précédentes :

Cela signifie que la variation typique des données autour de la moyenne est de 35.7%, relativement
à l’amplitude de cette moyenne.
Il permet de comparer les dispersions de 2 VD sur des échelles différentes.

4. Comparaison des indices de dispersion

4.1 De l’intérêt de la variance (ou de l’écart-type) par rapport à l’étendue


Etendue : simple, rapide & utile de repérer le max et le min dans les données.
Mais reprenons les deux exemples déjà vus montrant les limites de l’étendue : L’avantage de la
variance est de prendre en compte toutes les données.

Deux distribution peuvent etre très voisines et avec des étendues très différentes
L'étendu n'est pas adapter pour décrire la dispersion
On doit calculer la variance pour décrire la dispersion
De l’intérêt de l’écart interquartile par rapport à la variance (ou de l’écart-type)

Les avantages et inconvénients respectifs sont les mêmes que pour la médiane et la moyenne
Moyenne et écart-type : les plus précis, mais sensibles aux valeurs extrêmes. Valeur extrême élevée
=> augmentation « artificielle » de la moyenne Valeur extrême basse ou élevée => augmentation
«artificielle» de l’écart-type
Quel indice est le plus pertinent pour résumer des données ? Toujours examiner la distribution
(graphique).

Cm 6 Conclusion CM 4 et 5

VD nominale

-Mode
-Pas d’indice de dispersion

VD ordinale

-Mode et médiane
-Ecart interquartile (EIQ)

Typiquement, on caractérise l’échantillon par sa médiane et son EIQ (rarement par son mode)

Exemple : Des étudiants évaluent une formation sur une échelle en 7 points (de «pas du tout
satisfaisant» à «très satisfaisant») avant modifications, d’autres après. Les modifications apportées
constituentelles une réelle amélioration? 2 conditions expérimentales (avant/après) → 2 échantillons
de données à comparer

Tableau résumant les résultats :

Médiane EIQ
Avant 3 [1;5]
Après 6 [5;7]

Texte « L’évaluation de la formation par les étudiants est meilleure après modifications (6; [5; 7])
qu’avant (3; [1; 5]). »

L’indice de dispersion est parfois omis, ce n’est pas correct :


Quelle confiance avoir dans l’indice de tendance centrale si la variabilité (dispersion) est énorme ?
Dans ce cas un autre échantillon (tiré de la même population) aurait pu donner un résultat tout autre
(une médiane différente).

VD numérique
-Mode, médiane, moyenne
-EIQ, étendue, variance/écart-type

Typiquement, on caractérise l’échantillon par sa moyenne m et son écart-type s (ou par ses médiane
et EIQ si valeurs extrêmes, rarement par son mode)

Exemple : même question que précédemment mais mesure différente = note obtenue par les
étudiants à l’examen. Si la formation est améliorée par les modifications apportées, ils devraient
mieux réussir cet examen.

Moyenne Ecart-type
Avant 9 3
Après 12 1,5

« Les étudiants ont obtenu de meilleures notes après les modifications apportées à la formation (12
+ 1,5) qu'avant (9+3)

Graphe de résultats

La variabilité des données mesurée par l'écart type est représentée graphiquement par des barres
d'erreurs

Si m= 9 et s= 3 , la barre d'erreur délimite l'intervalle entre la note 6 et la note 12


(signifie que pour cet échantillon « avant », une grande partie des notes se situent dans cette zone).

La loi normale :

sur VD numérique
La loi normale est un type particulier de distribution en cloche et symétrique
Les données se répartissent de façon équitable autour de la valeur centrale (=mode, médiane,
moyenne)
Le score z :

Des données suivent la loi normale


Dans le graphe ci-dessus, x varie de 20 à 80 environs, avec m= 50 s= 10

On peut transformer les données brutes x en score z :


z= x-m/s

Pour tout x, z indique l'écart à la moyenne en unité d'écart type

m= 50 et s=10
x=60
z= 1 Donc : 1 ecart type dessus de la moyenne

création d'un nouvel axe :

Note : La transformation x → z ne change pas la forme de la distribution.

Le score z permet la comparaison de scores obtenues a des echelles différentes.

Exemple :

– Un participant a obtenu le score 68 à un test de mémoire (m = 50 ; s = 10)


– Il a obtenu le score 110 au test de QI (m = 100 ; s = 15)
Comparer les scores bruts et dire qu’il a mieux réussi le test de QI que le test de mémoire serait faux
: il faut comparer les scores z

teste mémoire :
z = x – m /s
= 68 – 50 / 10
= 1,8

QI : 110-100/ 15
= 0,7
Relativement, cet individu a mieux réussi le test de mémoire que le test de QI.

Le score z permet aussi de situer une observation par rapport aux autres

Elle sert aussi en probabilité : probabilité d'un evenement : même unité qu'en proprotion, varie etre
0 et 1

Sexe d’un enfant à venir : p(fille) = p(garçon) = 0,5


Probabilité de faire 6 avec un dé à 6 faces = 1/6 = 0,17

Pour une observation issue d’une distribution (d’échantillon ou de population), probabilité qu’elle
se situe entre z = 1 et 2 == proportion d’observations entre z = 1 et 2, notées p

Calcul de p :

A la main : utilisation de tables statistiques


– Table de z unilatérale
– Table de z bilatérale

Utilisation de la table des z :

Etude sur la mémoire, liste de mots à apprendre, tâche de rappel : Imaginons que nous sachions que
la moyenne de mots rappelés est 7, l’écart-type 1.5, et que les données se répartissent selon une
distribution normale. On souhaite évaluer la probabilité d’apparition de certains scores.

La table bilatérale
donne pour tout z positif la probabilité p qui correspond a la somme des surface au deux extremité
(A+B)

exemple : z= 1

p= probabilité/ z < -1 et z > +1 = A+B = 2A = 2B (symétrie)


si on prend une donnée au hasard, probabilité p d’avoir une valeur supérieure à + 1 ou inférieure à
-1 écart-type de la moyenne ? ↔ proportion p de données au-dessus de + 1 ou en dessous de -1
écart-type de la moyenne ?

Pour z = 1,00, on a trouvé p= 0,31731


Pour arriver a z= 100, on bouge la virgule de deux cran autant pour z que pour p
Pour trouver le poucentage de donné situé entre 5,5 et 8,5, on calcul : 100- 31,731= 68,27%

Donc 68,27% des données sont entre 5,5 et 8,5


ce qui veut dire que 15,87% des données sont supérieures à 8,5, et 15,87% des donnérs sont inféreur
a 5,5

La table unilatérale

Donne pour tout z positif la probabilité p qui correspond a la surface à gauche

ex : z=1
x: 8,5
p= probabilité / z< 1

Lecture de la table unilatérale identique à celle de la table bilatérale, résultat non identique

Pour z = 1,00
p= 0,8413

On calcul : 1- 0,8413= 0,1587, soit 15,87% des données supérieures à 8,5

Donc : 84,13% des données inférieurs à 8,5

Lecture inverse de la table :

jusqu'ici, on connaissait z, maintenant on cherche p

On souhaite connaître la valeur de l'écart à la moyenne en unité d'écart-type pour une probabilité
donnée

Question : Les 5 % de la population se situent à un écarttype de combien de la moyenne ?

Remarque : On ne peut pas calculer la probabilité d’une valeur exacte de z à l’aide de la loi normale
centrée-réduite, on peut déterminer la proportion de valeurs supérieures ou inférieures à cette valeur
(une surface). (la probabilité d’obtenir exactement un z est nulle : dans le cas contraire, la surface
sous la courbe serait infinie)

CM 7

Retour sur la méthode expérimentale :

 On fait varier une VI (facteur expérimental),


 On observe un effet éventuel sur une VD
 Ex. : tester l’efficacité d’un médicament.
 Méthode expérimentale utilisable quelle que soit la technique de recueil des données
(observation, questionnaire, entretien, tâche expérimentale et test)

Variable et facteurs :

Variable dépendante : VD : ce que l'on mesure, indicateur du comportement : dépend du sujet


Variable indépendante : VI : ou facteur expérimentaux : ce que l'expérimentateur fait varier pour en
étudier l'effet sur le comportement : indépendant du sujet

Notion de facteur de contrôle : d'autes facteurs que la VI peuvent avoir un effet sur la VD.
On déduit leur influence en les controlant :
– Maintenus constants
– Neutralité par contrebalancement

Facteur systématique / aléatoire :


– -Modalités choisies systématiquement en fonction de l’hypothèse, conclusions pour ces modalités
– -Modalités tirées au hasard, conclusions pour l’ensemble des modalités possibles

La VI est le plus souvent un facteur systématique. Le facteur sujets (participants) est un exemple typique de
facteur aléatoire.
Facteur principal / secondaire : Fonction des objectifs de l’expérience

exemple : Expérience 1 sur l’effet de l’âge sur la mémoire : 40 participants, 20 jeunes (m= 20 ans) et 20 âgés
(m= 70 ans), apprennent une liste de mots. Ils ont pour tâche de restituer le plus de mots possible, puis
d’essayer de les reconnaître parmi une liste.

Facteurs expérimentaux (VI) :


Age : A2= {a1; a2} a1 = 20 ans et a2 = 70 ans
Mode de Restitution : R 2= {r1; r2} r1 = rappel et r2 = reconnaissance

VD :
Nombre (ou proportion) de mots correctement rappelés
Nombre (ou proportion) de mots correctement reconnus

Facteurs aléatoires :
Sujets : S40

participants apprennent deux listes de 30 mots différentes, l’une présentée pêle-mêle (liste 1) et l’autre
organisée par catégories sémantiques (liste 2). On présente à la moitié des participants la liste 1 puis la liste
2, et à l’autre moitié la liste 2 puis la liste 1.

 Facteur expérimental (VI) :


 Organisation de la liste : O2= {o1; o2} o1 = pêle-mêle et o2 = organisée
 Facteur contrôlé neutralisé par contrebalancement :
 Ordre de présentation : P2= {p1; p2} p1 = liste 1 puis 2 et p2 = liste 2 puis 1
 Facteur aléatoire :
 Sujets : S28
 VD :
 Nombre de mots correctement rappelés

Relation entre les facteurs

 Relation d’emboîtement
Un facteur A est emboîté dans un facteur B
si chacune des modalités de A n’est combinée
qu’avec une seule des modalités de B.
Cette relation est notée :
A < B > (A est emboîté dans B)
Elle n’est pas symétrique
A< B> ≠ B <A>
Exemple d’une relation d’emboîtement
Expé 2, effet de l’organisation du matériel sur le rappel
2 facteurs : Sujets : S28
Organisation de la liste : O2= {o1; o2}
o1 = pêle-mêle et o2 = organisée
Pour la moitié des participants, la liste était pêle-mêle, pour l’autre moitié organisée
S14 < O2>
Chaque modalité du facteur S est combinée avec une seule modalité du facteur O, ils passent la liste 1 OU 2
 On parle de groupes indépendants

Relation de croisement

Un facteur A est croisé avec un facteur B si chacune des modalités de A est combinée avec chacune
des modalités de B.

Cette relation est notée : A * B


Elle est symétrique A * B = B * A

Exemple d’une relation de croisement

les participants apprennent 2 listes de mots,


une pêle-mêle et une autre organisée.
2 facteurs : Sujets : S28
Organisation de la liste : O2= {o1; o2}
o1 = pêle-mêle et o2 = organisée
Chaque participant apprend les deux types de liste
S28 * O2
On parle de groupes appariés ou mesure répétées
Expérience 1 : effet de l’âge sur la mémoire
A2= {a1; a2} a1 = 20 ans et a2 = 70 ans
R2= {r1; r2} r1 = rappel et r2 = reconnaissance
S40
Relation entre S et A ? S< A>
Relation entre S et R ? S* R
Relation entre A et R ? A * R
Plan d’expérience : S20< A2 > * R2
(On parle de plan mixte.)

Plans d'expérience :

Le plan d’expérience formalise la structure de l’expérience (facteurs et leur relation)


Il comporte tous les facteurs intervenant dans l’expérience (à l’exclusion des facteurs maintenus
constants)

Facteurs maintenu constant : temps d'apprentissage d'une liste de mots

CM 8 Méthodologie expérimentale

Effet d'un facteur (effet global)

Différence entre les valeurs moyennes de la VD obtenues pour chacune des modalités de ce facteur

Exemple : Expérience 2 CM7 sur l’effet de l’organisation du matériel sur le rappel S14 < O2 > Effet du
facteur Organisation ?

o1 (pele-mele) O2 (oganisé) Effet de O= o2-o1


Moyenne 22 45 23

Liste de 60 mots à apprendre. 14 participants dans chaque groupe donc m sur 14 observations.
mo2 > mo1
mo2 – mo1 = 45 – 22 = + 23
Si on a plusieurs facteurs, on calcule l’effet global de chaque facteur en faisant une moyenne sur l’ensemble
des modalités de l’autre facteur

ex :
A1 (20ans) A2 (70ans) Moyenne facteur R
R1 (rappel) 0,65 0,35 0,5
R2 (reconnaissance) 0,9 0,88 0,89
Moyenne facteur A 0,78 0,62

Effet global du facteur A : ma1 - ma2 = 0,78 – 0,62 = 0,16


Effet global du facteur R : mr2 -mr1 = 0,89 – 0,5 = 0,39

Effet de A : ma1 >ma2 Les jeunes restituent 16% de mots de plus que les âgés.
Effet de R : mr2 >mr1 39% de mots en plus sont restitués dans la tâche de reconnaissance par rapport à la
tâche de rappel.

Interaction entre deux facteurs :

On dit qu’il existe une interaction entre deux facteurs lorsque l’effet de l’un des facteurs varie en fonction
des modalités de l’autre facteur

Y a-t-il une interaction entre les facteurs A et R ?


Formulation :
1) L’effet de l’âge est-il le même dans la tâche de reconnaissance et dans la tâche de rappel ?
2) L’effet du mode de restitution est-il le même chez les jeunes et personnes âgées ?

Calcul des effets intras d’un facteur : Effet de ce facteur séparément pour chaque modalité de l’autre facteur

A1 (20ans) A2 (70ans) Effet intra A


R1 (rappel) 0,65 0,35 0,65-0,35= +0,30
R2 (reconnaissance) 0,9 0,88 0,90 – 0,88= +0,02
Effet intra R 0,90- 0,65= +0,25 0,88 – 0,35= +0,53 Attention au signes.
Calculer les différence
dans le meme sens.

Les effets intra de A ou de R sont différents


Donc il y a une interaction entre les facteurs A et R

L'analyse de l'interaction

Les différents cas possibles :

Absence d’interaction

Les effets intra d’un facteur sont les mêmes pour chacune des modalités de l’autre facteur

Interaction ordonnée (amplification ou atténuation de l’effet)

Les effets intra sont différents en valeur absolue mais restent de même signe.

Interaction croisée (inversion de l’effet)


Les effets intra d’un facteur changent de signe suivant les modalités de l’autre facteur.

Représentation graphiques :
cm9 :

comparaison d'effectifs : le test de x2

x2 sert a comparer des effectifs

faire des inférences : tirer des conclusions a partir des données obtenues.

Il y a une différence entre déduction et induction (inférence) : dans une inférence, toujours un risque
d'erreur : probabilité p de s tromber en faisant une inférence

en psychologie, on fixe le taux d'erreur tolérable à p= 0,05 . Parfois 1% seulement (p=0,01)

Illustration avec la loi normale :

Loi normale :

Des données suivent une distribution normale (m= 7 ; s= 1,5 ) quel est le x/ surface blanche ?
Utiliser table unilatérale : pour tout z, la table unilatérale donne la surface rouge
c'est ce que l'on appelle la lecture inverse de la table de z

Donc inférence statistique : • Avec les données obtenues, quelle inférence peut être faite avec un
risque d’erreur de 5% ? • Certains tests (statistiques) sont unilatéraux (le test du χ2, 5% à droite),
d’autres bilatéraux (le test t, le test F : 2,5% de part et d’autres)

L'inférence statistique est comme un pari

x2 : comparaison d'effectifs

La variabilité dans les données présente toujours une part aléatoire : Différences inter-individuelles,
intra-individuelles, etc. ⇒Quand on répète les mesures, résultat potentiellement différent.

Le teste de x2 va nous dire si la différence entre deux données est statistiquement


significative(fiable) ou non significative : (due au hasard) avec un risque de 5% de se tromper

Notion d'hypothèse nulle/ hypothèse alternative :

Ex données : « cette année etait-elle a la hauteur ? »

Oui Non
42 58

Hypothèse nulle H0 :

Pas d’effet, pas de différence Les réponses « Oui » ne diffèrent pas significativement des réponses «
Non ». La différence entre 42 et 58 est due au hasard.

Hypothèse alternative H1 :

Un effet, une différence Les réponses « Oui » diffèrent significativement des réponses « Non ». La
différence entre 42 et 58 est statistiquement significative (à 5%)
On commence par considérer H0 comme vraie (pas d’effet, pas de différence).
On récolte des données.
On détermine la probabilité p qu’on avait d’obtenir ces données si H0 est vraie, c.à.d. la probabilité
que ces données soient dues au hasard
– p < 0,05, on considère que c’est suffisamment petit pour que H0 soit fausse (les données
sont ce qu’elles sont) : on rejette H0, on accepte H1 (il y a un effet, une différence).
- p ≥ 0,05, on considère que c’est trop grand pour rejeter H0 : l’effet, la différence observée
n’est pas statistiquement significative, Il n’y a pas d’effet, pas de différence.

Effectif observée ni: données récoltées => Pour voir si la differences entre les effectif observée est
due au hasard, on met en place H0 (si H0 est vrai ; effectif théorique : données absoluments
similaires)

Plus la difference entre effectifs observé et effectifs théoriques est grande, plus nous allons rejeté
H0 : les données ne sont pas due au hasard

Le X² quantifie cette différence

Comment calculé X²

Oui Non
N observé (ni) 42 58
N théorique 50 50

X² = [(Nobservé – Nthéorique)² / nthéorique]

Oui Non
(42-50)²/50=1,28 (58-50)²/50=1,28
Total= 2,56. Donc X²= 2,56
Est-ce suffisamment grand pour rejeter H0 ?

La loi du X² est caractérisée par un paramètre dit degré de liberté à valeur dans l'ensemble des entiers
naturels (non nuls).

Distribution du X² pour ddl (degré de liberté) = 1

Sur une courbe, Le χ2 calculé (2,56) peut être positionné ( en abscisse) et son p associé déterminé (surface
sous la courbe à droite du trait bleu). 2,56 si p < 0,05, on considère que ce χ2 calculé est issu d’une autre
distribution, on rejette H0 (plus de Non que de Oui) si p ≥ 0,05, ce χ2 calculé peut provenir de cette
distribution, il peut être dû à des fluctuations d’échantillonnage, on ne peut pas rejeter H0

(comment trouver p?)

Comparaison avec un X² critique :

On compare le X² calculé avec un X² critique, tel que p= 0,05


Si X² calculé suppérieur X2 critique, cela signifie que p inférieur à 0,05, on rejette H0
Si X² calculé inférieur ou égal à X² critique, on ne peut pas rejeter H0 (avec un risque de 5%)

Le test du χ2 indique si une distribution observée est identique à une distribution théorique.
Ou si deux distributions observées sont différentes. Il quantifie l’écart entre les deux
Effectifs provenant d’une échelle nominale, ordinale ou numérique.

Explication claires parce que la ca va plus hein :

Le test du X² compare deux distribution (une théorique et une observée)

H0 : les deux distributions (observée et théorique) sont identiques (strictement : elles sont issues de la même
population)
H1 : les deux distributions sont différentes (strictement : elles sont issues de deux populations différentes)

Calcul du X² : (n.observé – n. théorique)² / n.théorique


on applique ce calcul pour chaque modalité de la VD

Ce X² calculé est ensuite comparé à un X² critique. (tel que p=0,05). Elle dépend du ddl (degré de liberté)
Comment calculé le degré de liberté : A- 1= ddl
(A= nombre de modalité de la VD)

La distribution du χ2 dépend du ddl => le χ2 critique dépend du ddl -> utilisation d’une table de χ2

On utilise une table de X² pour trouver X² critique

Seuil = p
ddl= 1-> χ2 critique = 3,84

Si χ2 calculé >χ2 critique, H0 est rejetée


Les deux distributions sont différentes (au risque consenti de 5%)

Si χ2 calculé ≤χ2 critique, H0 ne peut pas être rejetée


Les données ne nous permettent pas de dire que les deux

Vous aimerez peut-être aussi