CM Psychométrie
CM Psychométrie
CM Psychométrie
08/02/13
•Introduction
La psychologie différentielle nait à la fin du 19ème siècle, surtout en Angleterre, dans le cadre de
la théorie des facultés.
Franz Josef Gall → Phrénologie : facultés mentales ayant chacune leur siège dans une région du
cerveau. Plus la capacité est développée, plus la région du cerveau l'est également.
La différentielle est aussi influencé par l'empirisme anglo-saxon : l'esprit de l'être humain est une
table rase sur laquelle se sont les sensations qui viennent s'inscrire. Les sensations ne sont pas des
connaissances mais ce qu'on ressent. C'est en associant plusieurs sensations qu'on abouti à des
connaissances.
Le grand théoricien de l'évolution reste Darwin, avec l'idée que les éspèces non adaptés
disparaissent de l'environnement. C'est une évolution lente sur des siècles et cette évolution
s'exerce à partir d'une variabilité aléatoire des caractères héréditaires.
Les principes de bases de ce contexte scientifique : la psychologie a pour objet les états de
conscience.
Ces états de conscience peuvent être plus ou moins intenses, avec une tonalité affective. Ils
tendent à s'objectiver et à s'associer.
1
L'individu ne fait rien et c'est l'environnement extérieur qui fait qu'il y a modification,
changement de ses sensations.
•Montrer que cette variabilité est héréditaire. Il invente le coefficient de corrélation : permet de
mesurer la ressemblance entre enfants et parents. Il commence a utiliser la méthode des jumeaux.
•Tirer les implications quant à l'amélioration de l'espèce humaine, faire de l'espèce la meilleure
espèce possible.
CATELL (EU, 1860-1944) considère qu'en mesurant les processus élémentaires, on évalue les
processus supérieurs de l'intelligence.
Il fait une recherche en 1890, il prend tout les étudiants de première année de l'université de
Columbia. Il leur fait passer une batterie de tests (pression dynamométrique, perception de poids
différents, temps réactifs auditifs, dénommer des couleurs, dissection ligne de 50 cm,
reproduction d'un son d'une durée de 10 sec, empan mémoriel, douleur, etc). Une fois les données
récoltées, il vérifie ensuite la réussite ultérieure des étudiants pendant leur étude. Il postule que
plus les étudiants réussissent les tests, plus ils vont réussir leurs études.
Les résultats prouvent qu'il n'y a aucune corrélation. Il n'y a aucun lien entre les capacités
sensorielles et la réussite à l'université.
2
SPEARMAN (1863-1945, Angleterre) présente la théorie de la fidélité et des modalités de
correction des corrélations agin de tenir compte de leur infidélité. Selon lui, il y a une corrélation
entre les processus élémentaires et l'intelligence. Personne n'a jamais reproduit les corrélations
que Spearman avait trouvées.
•Thématique et méthode
•Dans l'éducation
15/02/13
→ Approche KSAO (Knowledge Skill Ability Other Caracteristic), ils étudient également les
autres caractéristiques, comme les valeurs.
•Motivation
Quand on évalue la personnalité, le psychologue n'est pas spécialiste dans tout ces domaines, et
est spécialisé dans généralement un domaine.
3
Modèle de la prédiction
A un moment donné, un test évalue quelque chose, ce qu'on cherche à mesurer. On se base au
niveau théorique, sur les caractéristiques personnelles.
Les théories vont permettre de déterminer le comportement de l'individu dans sa vie de tous les
jours mais également dans sa vie professionnelle.
On parle de prédicteur : un test (questionnaire, entretien, etc.) pour évaluer les caractéristiques
personnelles de l'individu.
Notre test doit normalement prédire la performance : par exemple, le WAIS, le WISC est un
prédicteur. Le score donné est le prédicteur.
Exercice :
Premier exemple : ce n'est pas un test, les intervalles de quotation ne sont pas standardisés (de 1 à
4 ou de 1 à 10 par exemple). Les 3 questions sont trop différents, ils n'évaluent pas la même
chose.
Pour la définition des tests, ça fait quelques années que l'on en parle.
Binet en 1895 définit le test : « Les tests sont des expériences arrêtées d'avance, qui permettent
d'obtenir des résultats relatifs aux différences individuelles pour plusieurs processus
psychiques. »
Reuchlin, 1991 : « Épreuve permettant de décrire le comportement d'un sujet dans une situation
définie avec précision, par référence au comportement d'un groupe défini de sujet placés dans la
même situation. »
4
→ Standardisation : même situation, lire le manuel est important pour répliquer les conditions
dans lesquelles a été validé le test
→ Population de référence : il faut pouvoir situer le sujet pour l'évaluer, il est important de faire
un test sur un grand nombre de personnes, en précisant les caractéristiques précises.
Huteau, 1995 : « Les tests sont des instruments d'observation qui possèdent les propriétés de
standardisation de la situation, de la consigne et de l'évaluation de la conduite. »
→ Il est très difficile pour les juges de s'accorder sur les réponses, notamment sur les questions
ouvertes. Il est important de préciser quelles sont les réponses attendues, et les notes qu'on met
précisément dans chaque cas.
Huteau et Lautrey, 2006 : « Un test est un dispositif d'observation des individus qui présente 4
propriétés : il est standardisé, il permet de situer la conduite de chaque sujet dans un groupe de
référence ; le degré de précision des mesures qu'il permet est évalué (fidelité), la signification
théorie ou pratique de ces mesures est précisée (validité). »
Il manque a cette définition la question de la sensibilité. C'est le fait que le test ne donne pas la
même note à tous les individus.
•Instruments de mesure : avec des caractéristiques précises, que nous verrons plus tard (qualité ?,
sensibilité, fidélité )
•Standardisation de l'évaluation
•Étalonnage
Test et échelle :
Échelle de mesure : elle est établie lorsque l'on définit l'ensemble des valeurs possibles
susceptibles d'être attribuées durant le processus de mesure et que l'on établit une règle explicite
d'attribution de ces valeurs.
Une échelle est un ensemble de possibilités (exemple : échelle de Lickert). On oblige le sujet à
choisir une réponse, l'individu est obligé de répondre et de trouver sa propre réponse.
5
Les tests permettent de mesurer une performance à l'aide d'exercices pratiques.
Les questionnaires :
•Règles d'utilisation
•Dépouillement méthodique
Tout ces outils ne sont pas une vérité en soi, mais une indication du comportement de l'individu,
on ne peut pas partir sur des conclusions hatives juste à partir d'un test, d'un chiffre.
Il faut nécessaire, en tant que psychologue, compléter les résultats par d'autres tests, par des
entretiens, etc.
6
Chapitre 2 : Création de tests et standardisation
→ Notion de mesure
Définition : « Évaluation d'une grandeur avec une autre grandeur de même espèce prise comme
référence. ». Le processus de mesure est une démarche visant à établir la correspondance entre
les propriétés des objets étudiés et celles des nombres, selon des règles explicites.
La conception d'un outil psychométrique est quelque chose qui demande du temps, cela prend
entre 5 à 6 ans. C'est une démarche planifiée comprenant plusieurs étapes, plusieurs phases
successives pour élaborer un outil définitif.
Il y a une part importante réservée aux statistiques (analyse de données), pour savoir si le test et
valide, sensible. Il faut beaucoup de rigueur, pour le choix de l'échantillon, la population de
référence. La rigueur est nécessaire également dans l'analyse des résultats.
•Il faut d'abord identifier les raisons et objectifs de l'utilisation des scores au test.
•Il faut après identifier les comportements qui représentent le construit ou définissent le domaine.
•Tester les items sur un large échantillon de sujets représentatif de la population visée par le test.
•Déterminer les propriétés statistiques des scores d'items : si nécessaire, éliminer les items qui ne
satisfont pas aux critères statistiques préétablis.
•Planifier et réaliser les études de fidélité et de validité pour la version finale du test.
•Rédiger les consignes par l'administration, la cotation et interprétation des scores tests.
Il faut fournir premièrement la définition explicite du concept. Ce concept est ancré dans une
théorie nécessaire. Pour créer des items, il est important de savoir d'abord à quel public on va
s'adresser.
7
Étape 2 : création des items
Il y a plusieurs moyens de créer un item en fonction du test que l'on crée. Il y a plusieurs
moyens :
•Approche en facette : l'objectif est de définir l'univers des items et de les classer dans un modèle
en tenant compte des questions de représentativité.
•Banque d'items : fichier informatisé qui est organisé de manière rationnelle et où les items sont
classés en fonction de leurs propriétés. Elle peut être utilisée pour la construction sur-mesure
d'épreuves répondant à certains paramètres. Les banques d'items sont assez fournies.
•L'item ne doit pas être ambigu par rapport à la consigne et la formulation mais également par
rapport à la réponse
•Principe d'unidimensionnalité : il évalue qu'une seule dimension sur une catégorie qu'on cherche
à évaluer. Éviter d'avoir plusieurs informations à traiter
•Principe d'économie : tout les items doivent être rédigés de la façon la plus simple, la plus
directe, éviter les négations, les doubles négations, etc.
•Principe d'exactitude : items écrits en bons français, relecture des fautes orthographiques.
•Il faut choisir un dispositif de réponse, ouvert ou fermé, les échelles sont généralement supérieur
à 5.
→ Échelle nominale : échelle qui permet de dire si les objets sont identiques ou différents. Elle
est composée d'un ensemble de classes. ]
→ Échelle ordinale : elle répond à des questions, objets identiques ou différents mais avec
également une idée de classement, on classe les objets par rapport aux autres. On a ici un
ensemble de classes ordonnées.
→ Échelle d'intervalle : objets identiques ou différents, idée de classement mais les distances
entre chaque classes sont identiques (ex : poids, taille). En psychologie, on trouve la fréquence
des comportements, mais également la construction en étalonnage.
8
Étape 3 : collecte des observations
Il faut faire passer les items à tous les sujets ou à une sélection de sujet. Il faut un échantillonnage
des sujets, pour valider des items, il faudrait un échantillonnage de 300 et 500 personnes.
Il y a une relation inextricable entre les caractéristiques des deux composantes : il faut avoir en
tête les caractéristiques de la population qui semblent importante, il faut ensuite mettre en place
un échantillonnage.
Un échantillonnage : c'est un groupe moins nombreux que la population dont il est issu mais
dont la composition est en tout point identique bien que réduite à celle de la population parente.
Il y a deux méthodes :
•Méthode des quotas : construire un échantillon dont la structure est identique à celle de la
population parente. Il faut prendre les variables les plus pertinentes (on ne peut prendre toutes les
variables) sur ce qu'on est en train de mesurer. Dans cette méthode des quotas, cet échantillon
n'est représentatif que pour les critères choisis.
•Échantillonnage aléatoire : on tire au hasard dans la population parente, les personnes qui
constituent l'échantillon. Les caractéristiques de l'échantillon devraient être représentatives de la
population parent.
L'analyse ne porte jamais directement sur les observations mais sur leur interprétation. Une fois
toutes les données obtenues, on a l'application des modèles de mesures. On vérifie que les
données correspondent aux modèles théoriques choisis. Parfois, cela ne correspond pas.
Ce qu'on évalue du sujet n'est qu'une estimation du sujet, de son score. L'estimation est entachée
par les erreurs de mesure : plusieurs choses peuvent venir changer le score observé (cf. plus tard
fidélité).
Principe de standardisation
Elle permet de comparer les performances des individus les uns avec les autres.
Les différences de réponse de réponses dans les tests doivent refléter seulement les différences
individuelles pour la dimension mesurée.
9
Il faut contrôler (maintenir constantes) les autres sources de variation :
•Matériel
•Consigne de passation
[→ Définition Huteau & Lautrey : La standardisation porte sur la situation d'observation sur
les consignes et sur la cotation. Cette standardisation à une fonction unique.]
Le matériel doit être le même pour tout le monde, la standardisation fait parti de la construction
du test.
Au niveau des consignes, la standardisation est établie lors de l'administration du test (les
consignes précises sont dans le manuel). Les consignes écrites sont les mêmes pour tous, mais les
consignes orales sont souvent différentes entre les différents psychologues (il est utile de faire
une formation supplémentaire pour être au clair avec les consignes demandées).
•Sensibilité
•Si items de difficultés homogène, on retient ceux pour lesquels les sujets répondent
correctement entre 40 et 60 % des cas (quand la difficulté est la même tout au long du test
•Possibilité de choisir des items de difficultés graduelle pour atteindre une population plus large,
pour atteindre un plus grand nombre de sujet choix d'item plus simple par exemple.
•Sujets : 30 % des meilleurs (groupe fort) et 30 % des plus faibles (groupe faible)
•On compare le pourcentage de réussite à chaque item pour ces deux groupes, si le pourcentage
de réussite est le même pour le groupe fort et pour le groupe faible, on ne garde pas l'item.
10
•La différence entre le pourcentage de réussite est appelé pouvoir discriminant de l'item.
(l'indice min est généralement de 0,5).
•Fidélité
La fidélité « définit le degré selon lequel les scores au test sont consistants (consistent), fiables
(dependable), reproductibles (repeatable), c'est-à-dire le degré selon lequel ils sont libre d'erreurs
de mesure », In Standard for Educ. & Psycho. Testing, 1985.
Pour être considéré comme fiable, un instrument de mesure doit pouvoir donner les mêmes
résultats quels que soient :
•l'évaluateur
→ Postulat 1 de la fidélité :
Pour une personne donnée, le score observé est constitué de deux composantes additives :
Pour avoir le score vrai de l'individu, il faut faire de nombreuses mesures à plusieurs moments.
→ Postulat 2 :
Les erreurs suivent une distribution normale. L'espérance mathématique de l'erreur est nulle, les
erreurs se compenseraient sur plusieurs résultats.
→ Postulat 3 :
Il n'y a donc pas de corrélation entre l'errer de mesure et le score vrai (il existe un nombre infini
de mesures).
Si nous supposons que les individus différents sont choisis au hasard, alors v devient à son tour
une variable aléatoire.
11
→ Tout ça n'est vrai qu'en théorie, mais on se base tout de même dessus pour construire les tests.
•Forme parallèle
•Test/re-test
•Inter-observateurs ou inter-juges
Mesure parallèle :
Il faut que chaque sujet (au moins 200-300 sujets) ait au moins deux scores pour faire ensuite les
corrélations (degré de liaisons entre les performances) entre les deux notes obtenus du sujet.
Le degré de significativité de la corrélation ne peut pas être inventé, il se fait grâce aux données
statistiques.
•6 « tests » de 10 items
•3 « tests » de 20 items
•Etc
Dans tout ces cas, création de tests parallèles si chaque ensemble d'items a les 4 propriétés
suivantes :
•Tous ces ensembles d'items auraient la même corrélation avec n'importe quelle autre variable ne
faisant pas partie de cet ensemble.
Néanmoins, si on faisait ça pour chaque test, cela prendrait trop de temps : on ne fait jamais tout
ça pour un test. C'est en fait la représentation de la mesure parfaite.
Formes parallèles :
Procédure :
12
•Construire deux tests parallèles : versions différentes (au moins) d'un même test
•Estimer la fidélité à partir des corrélations entre les scores des différentes versions.
Commentaires :
•On ne fait qu'une seule passation mais deux tests sont à construire et à faire passer.
•L'une des techniques les plus rigoureuses de la fidélité (correspond exactement au modèle) :
mais peu utilisée dans la pratique, trop couteux de développer deux tests.
Erreurs estimées :
Celles associées à la sélection d'un ensemble particulier d'items (erreur d'échnantilloagne des
items).
•Apprentissage de la tâche
Pour les tests d'efficience, on utilise les formes parallèles (pour l'apprentissage de la tâche), mais
pas pour les tests de personnalités (trop de lassitude).
Test/re-test
•On administre deux fois de suite le même test aux mêmes sujets dans les mêmes conditions
Commentaires :
13
•Suppose que l'on puisse re-tester tout les sujets
•Vieiller a bien contrôler les biais susceptibles de changer les réponses du sujet (ex : période de
passation)
•Technique utilisée pour évaluer les dimensions stables (intelligence, personnalité), du moins
durant la période concernée par l'évaluation. Ne convient pas lorsqu'il s'agit d'évaluer des
caractéristiques qui changent, plus ou moins rapidement au fil de l'humeur.
•bruits soudains
•autres distractions
La procédure test/re-test est aussi appelé validité du test, puisqu'on est sensé obtenir les mêmes
résultats au temps 1 et 2.
Inconvénients Test/re-test :
•Obligation de choix d'un intervalle de temps, ni trop court (soucis de la répétion, de la pratique,
de lassitude, d'apprentissage, etc) , ni trop long (évolution instable du trait contrôlé). Quel est le
délai pertinent ? Seul un plan expérimental complexe (cohorte de sujets testés pour des délais
qui augmentent) pourrait trancher cette question.
•Effet de répétion (pour les délais courts) : on ne sais jamais vraiment quelle est l'influence du
test 1 sur les résultats du test 2 (apprentissage ou autre).
14
Procédure :
•Première partie vs seconde partie : mais cela pose un problème quand il y a des difficultés
croissantes, comme dans le WISC par exemple, dans les tests d'efficience notamment.
•Estimer la fidélité pour le test entier : cela permet d'expliquer la fidélité pour le test entier, cela
pose le problème d'une corrélation élaborée avec une moitié de test
Commentaires :
Procédure :
•Faire évaluer tous les protocoles par plusieurs juges différents, indépendamment : très long, ils
ne doivent pas avoir les mêmes données dans le même ordre
•Calculer la corrélation entre les notes attribuées par les différents juges
Commentaires :
•Mais plusieurs juges qui doivent être experts : difficiles à recruter, leurs demande du temps
L'erreur Standard de Mesure (ESM) : écart-type multiplié par la racine carré de 1 moins la
fidélité
•La fidélité est la proportion de variance vraie des scores observés pour un groupe d'individus
•Mais ce qui intéresse le praticien, c'est plutôt la part d'erreur qui affiche l'estimation du score de
la personne qu'il vient de tester. Ce qui ne permet pas de faire la théorie classique de la fidélité.
15
•Mais elle permet d'estimer (bien qu'indirectement) la dispersion des scores observés d'une
personne (E-T) autour de son score vrai pour une infinité d'évaluation (postulat).
•On calcule en fait l'erreur standard de mesure qui est la moyenne de tous ces écart-types
individuels (calculé pour un groupe donné et qui fournit une estimation de ce qui pourrait être,
pour chaque personne, la dispersion des scores autour de leurs scores vrais respectifs).
Limites de l'ESM :
•Elle est calculée à partir d'une estimation de la fidélité des mesures : quelle sorte de coefficient
de fidélité utiliser ( test/retest, formes parallèles, consistance interne) ? L'ESM varie selon la
valeur de fidélité utilisée pour l'estimer et il faut être pertinent dans le choix de coefficient (selon
les situations).
•Elle est calculée à partir de la fidélité des mesures, telle qu'elle a été établie pour un groupe de
sujets donné : quelle est la (recopier fin de diapo sur cours en ligne).
05.04.2013
16