CM Psychométrie

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 16

CM Psychométrie

08/02/13

•Introduction

La psychologie différentielle nait à la fin du 19ème siècle, surtout en Angleterre, dans le cadre de
la théorie des facultés.

Franz Josef Gall → Phrénologie : facultés mentales ayant chacune leur siège dans une région du
cerveau. Plus la capacité est développée, plus la région du cerveau l'est également.

La différentielle est aussi influencé par l'empirisme anglo-saxon : l'esprit de l'être humain est une
table rase sur laquelle se sont les sensations qui viennent s'inscrire. Les sensations ne sont pas des
connaissances mais ce qu'on ressent. C'est en associant plusieurs sensations qu'on abouti à des
connaissances.

A ce moment là nait une psychologie générale expérimentale.

On commence à s'intéresser aux différences individuelles, qui ne sont intéressantes que si on


retrouve une certaine stabilité dans les groupes.

On a également une influence de la théorie de l'évolution, avec Lamarck : la matière vivante à


une tendance à se perfectionner (on devient meilleurs de générations en générations).

Le grand théoricien de l'évolution reste Darwin, avec l'idée que les éspèces non adaptés
disparaissent de l'environnement. C'est une évolution lente sur des siècles et cette évolution
s'exerce à partir d'une variabilité aléatoire des caractères héréditaires.

Au niveau du contexte scientifique, l'objectif était de se démarquer de la psychologie


philosophique et essayer de constituer une psychologie objective.

Les principes de bases de ce contexte scientifique : la psychologie a pour objet les états de
conscience.

Deuxième principe : on s'intéresse principalement aux états de conscience élémentaires, qui


doivent être accessibles à la mesure (on s'intéresse déjà à la mesure au 19ème siècle) et
scientifiquement abordables.

Ces états de conscience peuvent être plus ou moins intenses, avec une tonalité affective. Ils
tendent à s'objectiver et à s'associer.

Ce contexte va donner le courant de l'associationnisme. Dans cet associationnisme on retrouve


des principes empiristes, réductionnistes (les phénomènes psychologiques les plus complexes
sont réductibles à des phénomènes élémentaires) et mécanistes (association par la combinaison de
sensations, de connaissances du psychisme).

1
L'individu ne fait rien et c'est l'environnement extérieur qui fait qu'il y a modification,
changement de ses sensations.

Il y a au 19ème siècle un contexte social particulier, avec la révolution industrielle. C'est la


division du travail qui est accentué et a un moment donné on observe un bouleversement des
modalités habituelles de la reproduction du travail.

Il apparaît alors la question sociale avec « l'apparition » de la classe ouvrière, et notamment


comment sélectionner les individus pour faire en sorte qu'ils correspondent le plus à la tâche
particulière qui leur est demandé.

On se pose également la question de la formation et de l'orientation professionnel.

GALTON (1822-1911, cousin de Darwin) est le créateur de la psychologie différentielle. Ses


objectifs :

•Décrire et mesurer la variabilité psychologique individuelle : on devrait retrouver la variabilité


des animaux chez les individus. Pour lui la description ne suffit pas, il commence donc à inventer
des tests mentaux qui sont des épreuves standardisées et adaptées de tâches expérimentales de
laboratoire. Ces tests mesurent les processus élémentaires (il se base sur les sentations). C'est lui
qui propose de transformer la valeur observée en un rang : on classe les sujets dans des catégories
du plus faible au plus fort.

•Montrer que cette variabilité est héréditaire. Il invente le coefficient de corrélation : permet de
mesurer la ressemblance entre enfants et parents. Il commence a utiliser la méthode des jumeaux.

•Tirer les implications quant à l'amélioration de l'espèce humaine, faire de l'espèce la meilleure
espèce possible.

CATELL (EU, 1860-1944) considère qu'en mesurant les processus élémentaires, on évalue les
processus supérieurs de l'intelligence.

Il fait une recherche en 1890, il prend tout les étudiants de première année de l'université de
Columbia. Il leur fait passer une batterie de tests (pression dynamométrique, perception de poids
différents, temps réactifs auditifs, dénommer des couleurs, dissection ligne de 50 cm,
reproduction d'un son d'une durée de 10 sec, empan mémoriel, douleur, etc). Une fois les données
récoltées, il vérifie ensuite la réussite ultérieure des étudiants pendant leur étude. Il postule que
plus les étudiants réussissent les tests, plus ils vont réussir leurs études.

Les résultats prouvent qu'il n'y a aucune corrélation. Il n'y a aucun lien entre les capacités
sensorielles et la réussite à l'université.

2
SPEARMAN (1863-1945, Angleterre) présente la théorie de la fidélité et des modalités de
correction des corrélations agin de tenir compte de leur infidélité. Selon lui, il y a une corrélation
entre les processus élémentaires et l'intelligence. Personne n'a jamais reproduit les corrélations
que Spearman avait trouvées.

BINET (France, 1857-1911) échelle de développement de l'intelligence de l'enfant pour repérer


les enfants déficients mentaux pour adapter un système de formation à leurs besoins et leurs
possibilités. Il dépasse l'associationnisme.

•Thématique et méthode

La psychologie différentielle s'intéresse à de grands champs comme :

•l'aspect cognitif des conduites

•l'aspect affectif des conduites (émotions)

Ces applications se retrouvent :

•Dans l'éducation

•En psychopathologie : tests pour détecter la personnalité de l'individu

•Orientation et sélection professionnelle : questionnaires de personnalité, questionnaires d'intérêts


professionnels, etc.

15/02/13

La psychométrie peut se baser sur l'évaluation des caractéristiques personnelles.

→ Approche KSAO (Knowledge Skill Ability Other Caracteristic), ils étudient également les
autres caractéristiques, comme les valeurs.

→ Également les caractéristiques psychologies récurrentes

•Intelligence et aptitudes intellectuelles

•Dimensions ou types de personnalité

•Intérêts, attitude, valeurs,...

•Motivation

•Compétences professionnelles (grands champs d'application de la psychométrie du travail)

Quand on évalue la personnalité, le psychologue n'est pas spécialiste dans tout ces domaines, et
est spécialisé dans généralement un domaine.

3
Modèle de la prédiction

A un moment donné, un test évalue quelque chose, ce qu'on cherche à mesurer. On se base au
niveau théorique, sur les caractéristiques personnelles.

Les théories vont permettre de déterminer le comportement de l'individu dans sa vie de tous les
jours mais également dans sa vie professionnelle.

Au niveau empirique, on tente de d'opérationnaliser la théorie.

On parle de prédicteur : un test (questionnaire, entretien, etc.) pour évaluer les caractéristiques
personnelles de l'individu.

Ce prédicteur permet de caractériser le comportement face au critère.

Notre test doit normalement prédire la performance : par exemple, le WAIS, le WISC est un
prédicteur. Le score donné est le prédicteur.

Exercice :

Premier exemple : ce n'est pas un test, les intervalles de quotation ne sont pas standardisés (de 1 à
4 ou de 1 à 10 par exemple). Les 3 questions sont trop différents, ils n'évaluent pas la même
chose.

Le format de réponse doit être identique tout au long du questionnaire.

Deuxième exemple : questionnaire

Troisième exemple : test de trauma suite à des événements traumatiques

Pour la définition des tests, ça fait quelques années que l'on en parle.

Binet en 1895 définit le test : « Les tests sont des expériences arrêtées d'avance, qui permettent
d'obtenir des résultats relatifs aux différences individuelles pour plusieurs processus
psychiques. »

→ Même consigne pour tous les enfants.

→ L'individu est situé dans sa population de référence (étalonnage).

→ Évaluation des processus psychique supérieur dans l'échelle métrique de l'intelligence

Reuchlin, 1991 : « Épreuve permettant de décrire le comportement d'un sujet dans une situation
définie avec précision, par référence au comportement d'un groupe défini de sujet placés dans la
même situation. »

4
→ Standardisation : même situation, lire le manuel est important pour répliquer les conditions
dans lesquelles a été validé le test

→ Population de référence : il faut pouvoir situer le sujet pour l'évaluer, il est important de faire
un test sur un grand nombre de personnes, en précisant les caractéristiques précises.

Huteau, 1995 : « Les tests sont des instruments d'observation qui possèdent les propriétés de
standardisation de la situation, de la consigne et de l'évaluation de la conduite. »

→ Il est très difficile pour les juges de s'accorder sur les réponses, notamment sur les questions
ouvertes. Il est important de préciser quelles sont les réponses attendues, et les notes qu'on met
précisément dans chaque cas.

Huteau et Lautrey, 2006 : « Un test est un dispositif d'observation des individus qui présente 4
propriétés : il est standardisé, il permet de situer la conduite de chaque sujet dans un groupe de
référence ; le degré de précision des mesures qu'il permet est évalué (fidelité), la signification
théorie ou pratique de ces mesures est précisée (validité). »

Il manque a cette définition la question de la sensibilité. C'est le fait que le test ne donne pas la
même note à tous les individus.

Caractéristiques des tests :

•Instruments de mesure : avec des caractéristiques précises, que nous verrons plus tard (qualité ?,
sensibilité, fidélité )

•Standardisation de l'évaluation

•Étalonnage

Test et échelle :

On utilise régulièrement la notion de test ou d'échelle de mesure.

Test : procédure standardisée permettant d'obtenir un échantillon de comportements à partir d'un


domaine spécifié.

Échelle de mesure : elle est établie lorsque l'on définit l'ensemble des valeurs possibles
susceptibles d'être attribuées durant le processus de mesure et que l'on établit une règle explicite
d'attribution de ces valeurs.

Une échelle est un ensemble de possibilités (exemple : échelle de Lickert). On oblige le sujet à
choisir une réponse, l'individu est obligé de répondre et de trouver sa propre réponse.

Mais il y a des ambigüités car certains tests sont appelés échelles.

5
Les tests permettent de mesurer une performance à l'aide d'exercices pratiques.

Ils peuvent aussi mesurer le niveau d'aptitude dans un domaine particulier.

Le « test de personnalité » est une erreur de langage, on parle plutôt de questionnaire de


personnalité.

Les questionnaires :

•Méthodologie de construction et de validation

•Règles d'utilisation

•Dépouillement méthodique

•Questionnaires thématiques (choix réfléchi) composés d'une liste de questions et/ou


d'affirmations

Tout ces outils ne sont pas une vérité en soi, mais une indication du comportement de l'individu,
on ne peut pas partir sur des conclusions hatives juste à partir d'un test, d'un chiffre.

Il faut nécessaire, en tant que psychologue, compléter les résultats par d'autres tests, par des
entretiens, etc.

6
Chapitre 2 : Création de tests et standardisation
→ Notion de mesure

Définition : « Évaluation d'une grandeur avec une autre grandeur de même espèce prise comme
référence. ». Le processus de mesure est une démarche visant à établir la correspondance entre
les propriétés des objets étudiés et celles des nombres, selon des règles explicites.

→ Conception d'un outil

La conception d'un outil psychométrique est quelque chose qui demande du temps, cela prend
entre 5 à 6 ans. C'est une démarche planifiée comprenant plusieurs étapes, plusieurs phases
successives pour élaborer un outil définitif.

Il y a une part importante réservée aux statistiques (analyse de données), pour savoir si le test et
valide, sensible. Il faut beaucoup de rigueur, pour le choix de l'échantillon, la population de
référence. La rigueur est nécessaire également dans l'analyse des résultats.

•Il faut d'abord fait un choix théorique du concept à mesurer.

•Il faut d'abord identifier les raisons et objectifs de l'utilisation des scores au test.

•Il faut après identifier les comportements qui représentent le construit ou définissent le domaine.

•Ensuite on préparer un ensemble de spécifications pour le test, déterminer la proportion d'items


qui devront viser chaque type de comportement identifiés.

•Construire un pool d'items initial (prototype de test).

•Tester les items sur un large échantillon de sujets représentatif de la population visée par le test.

•Déterminer les propriétés statistiques des scores d'items : si nécessaire, éliminer les items qui ne
satisfont pas aux critères statistiques préétablis.

•Planifier et réaliser les études de fidélité et de validité pour la version finale du test.

•Étalonner les notes du test.

•Rédiger les consignes par l'administration, la cotation et interprétation des scores tests.

Étape 1 : choix théorique du concept

Il faut fournir premièrement la définition explicite du concept. Ce concept est ancré dans une
théorie nécessaire. Pour créer des items, il est important de savoir d'abord à quel public on va
s'adresser.

7
Étape 2 : création des items

Il y a plusieurs moyens de créer un item en fonction du test que l'on crée. Il y a plusieurs
moyens :

•Approche en facette : l'objectif est de définir l'univers des items et de les classer dans un modèle
en tenant compte des questions de représentativité.

•Banque d'items : fichier informatisé qui est organisé de manière rationnelle et où les items sont
classés en fonction de leurs propriétés. Elle peut être utilisée pour la construction sur-mesure
d'épreuves répondant à certains paramètres. Les banques d'items sont assez fournies.

•Rédaction formelles des items

Il y a plusieurs principes à respecter :

•L'item ne doit pas être ambigu par rapport à la consigne et la formulation mais également par
rapport à la réponse

•Principe d'unidimensionnalité : il évalue qu'une seule dimension sur une catégorie qu'on cherche
à évaluer. Éviter d'avoir plusieurs informations à traiter

•Principe d'économie : tout les items doivent être rédigés de la façon la plus simple, la plus
directe, éviter les négations, les doubles négations, etc.

•Principe d'exactitude : items écrits en bons français, relecture des fautes orthographiques.

•Il faut choisir un dispositif de réponse, ouvert ou fermé, les échelles sont généralement supérieur
à 5.

Les dispositifs de mesure

→ Échelle nominale : échelle qui permet de dire si les objets sont identiques ou différents. Elle
est composée d'un ensemble de classes. ]

→ Échelle ordinale : elle répond à des questions, objets identiques ou différents mais avec
également une idée de classement, on classe les objets par rapport aux autres. On a ici un
ensemble de classes ordonnées.

Les ordres ne sont pas classés forcément à la même distance.

Exemple : échelle de Likert

→ Échelle d'intervalle : objets identiques ou différents, idée de classement mais les distances
entre chaque classes sont identiques (ex : poids, taille). En psychologie, on trouve la fréquence
des comportements, mais également la construction en étalonnage.

8
Étape 3 : collecte des observations

Il faut faire passer les items à tous les sujets ou à une sélection de sujet. Il faut un échantillonnage
des sujets, pour valider des items, il faudrait un échantillonnage de 300 et 500 personnes.

Il y a une relation inextricable entre les caractéristiques des deux composantes : il faut avoir en
tête les caractéristiques de la population qui semblent importante, il faut ensuite mettre en place
un échantillonnage.

Un échantillonnage : c'est un groupe moins nombreux que la population dont il est issu mais
dont la composition est en tout point identique bien que réduite à celle de la population parente.

L'échantillon doit être représentatif de la population dont il est extrait.

Il y a deux méthodes :

•Méthode des quotas : construire un échantillon dont la structure est identique à celle de la
population parente. Il faut prendre les variables les plus pertinentes (on ne peut prendre toutes les
variables) sur ce qu'on est en train de mesurer. Dans cette méthode des quotas, cet échantillon
n'est représentatif que pour les critères choisis.

•Échantillonnage aléatoire : on tire au hasard dans la population parente, les personnes qui
constituent l'échantillon. Les caractéristiques de l'échantillon devraient être représentatives de la
population parent.

Étape 4 : transformation des observations en données

L'analyse ne porte jamais directement sur les observations mais sur leur interprétation. Une fois
toutes les données obtenues, on a l'application des modèles de mesures. On vérifie que les
données correspondent aux modèles théoriques choisis. Parfois, cela ne correspond pas.

Ce qu'on évalue du sujet n'est qu'une estimation du sujet, de son score. L'estimation est entachée
par les erreurs de mesure : plusieurs choses peuvent venir changer le score observé (cf. plus tard
fidélité).

Principe de standardisation

Elle permet de comparer les performances des individus les uns avec les autres.

Les différences de réponse de réponses dans les tests doivent refléter seulement les différences
individuelles pour la dimension mesurée.

9
Il faut contrôler (maintenir constantes) les autres sources de variation :

•Matériel

•Consigne de passation

•Cotation des réponses

[→ Définition Huteau & Lautrey : La standardisation porte sur la situation d'observation sur
les consignes et sur la cotation. Cette standardisation à une fonction unique.]

Le matériel doit être le même pour tout le monde, la standardisation fait parti de la construction
du test.

Les tests doivent être régulièrement révisés.

Au niveau des consignes, la standardisation est établie lors de l'administration du test (les
consignes précises sont dans le manuel). Les consignes écrites sont les mêmes pour tous, mais les
consignes orales sont souvent différentes entre les différents psychologues (il est utile de faire
une formation supplémentaire pour être au clair avec les consignes demandées).

Au niveau de la cotation, la standardisation est établie lors de l'administration du test. La cotation


de questions fermés ou d'échelles est facile, mais les cotations de questions libres sont plus
difficiles. Dans le cas de réponses libres, ils y a des instructions précises et des exemples, mais
c'est le psychologue qui doit coter.

•Sensibilité

•Sensibilité des items :

•Si items de difficultés homogène, on retient ceux pour lesquels les sujets répondent
correctement entre 40 et 60 % des cas (quand la difficulté est la même tout au long du test

•Possibilité de choisir des items de difficultés graduelle pour atteindre une population plus large,
pour atteindre un plus grand nombre de sujet choix d'item plus simple par exemple.

La méthode de l'indice de discrimination de chaque item :

•Lié à la difficulté de l'item

•Sujets : 30 % des meilleurs (groupe fort) et 30 % des plus faibles (groupe faible)

•On compare le pourcentage de réussite à chaque item pour ces deux groupes, si le pourcentage
de réussite est le même pour le groupe fort et pour le groupe faible, on ne garde pas l'item.

10
•La différence entre le pourcentage de réussite est appelé pouvoir discriminant de l'item.
(l'indice min est généralement de 0,5).

•Fidélité

La fidélité « définit le degré selon lequel les scores au test sont consistants (consistent), fiables
(dependable), reproductibles (repeatable), c'est-à-dire le degré selon lequel ils sont libre d'erreurs
de mesure », In Standard for Educ. & Psycho. Testing, 1985.

La fidélité c'est l'art de réduire au maximum les erreurs de mesures.

Pour être considéré comme fiable, un instrument de mesure doit pouvoir donner les mêmes
résultats quels que soient :

•le moment d'administration

•la partie appliquée

•l'évaluateur

→ Postulat 1 de la fidélité :

Pour une personne donnée, le score observé est constitué de deux composantes additives :

•Une composante vraie (« score vrai »)

•Une composante d'erreur (« erreur de mesure »)

xi = vi (score vrai) + e (erreur de mesure)

La différence entre les valeurs théoriques et empiriques s'apparente à une corrélation.

Pour avoir le score vrai de l'individu, il faut faire de nombreuses mesures à plusieurs moments.

→ Postulat 2 :

Les erreurs suivent une distribution normale. L'espérance mathématique de l'erreur est nulle, les
erreurs se compenseraient sur plusieurs résultats.

→ Postulat 3 :

La valeur de E étant aléatoire, elle est indépendante de la valeur de v.

Il n'y a donc pas de corrélation entre l'errer de mesure et le score vrai (il existe un nombre infini
de mesures).

Si nous supposons que les individus différents sont choisis au hasard, alors v devient à son tour
une variable aléatoire.
11
→ Tout ça n'est vrai qu'en théorie, mais on se base tout de même dessus pour construire les tests.

Les différentes techniques d'estimation :

•Forme parallèle

•Test/re-test

•Découpage en deux parties : split-half, pair/impair, consistance interne

•Inter-observateurs ou inter-juges

Mesure parallèle :

Il faut que chaque sujet (au moins 200-300 sujets) ait au moins deux scores pour faire ensuite les
corrélations (degré de liaisons entre les performances) entre les deux notes obtenus du sujet.

Le degré de significativité de la corrélation ne peut pas être inventé, il se fait grâce aux données
statistiques.

Exemple d'un test qui comprend 60 items :

•6 « tests » de 10 items

•3 « tests » de 20 items

•20 « tests » de 3 items

•Etc

Dans tout ces cas, création de tests parallèles si chaque ensemble d'items a les 4 propriétés
suivantes :

•Mêmes moyennes, égales à la moyenne du score « vrai »

•Mêmes variances, égales à la variance des scores vrais + variance Erreur

•Les corrélations entre chaque tests sont identiques

•Tous ces ensembles d'items auraient la même corrélation avec n'importe quelle autre variable ne
faisant pas partie de cet ensemble.

Néanmoins, si on faisait ça pour chaque test, cela prendrait trop de temps : on ne fait jamais tout
ça pour un test. C'est en fait la représentation de la mesure parfaite.

Formes parallèles :

Procédure :

12
•Construire deux tests parallèles : versions différentes (au moins) d'un même test

•Administrer les formes équivalentes (contrôler l'effet de séquence)

•Vérifier l'équivalence statistique des différentes formes du test.

•Estimer la fidélité à partir des corrélations entre les scores des différentes versions.

Commentaires :

•On ne fait qu'une seule passation mais deux tests sont à construire et à faire passer.

•L'une des techniques les plus rigoureuses de la fidélité (correspond exactement au modèle) :
mais peu utilisée dans la pratique, trop couteux de développer deux tests.

Erreurs estimées :

Celles associées à la sélection d'un ensemble particulier d'items (erreur d'échnantilloagne des
items).

Inconvénients des formes parallèles :

Est-ce des formes réellement parallèles ?

•équivalence formelle des tests (par construction à

•équivalence statistique : mêmes moyenne, variance et covariance.

Effet de la répétions/ de la pratique :

•Lassitude et fatigue des sujets

•Apprentissage de la tâche

Pour les tests d'efficience, on utilise les formes parallèles (pour l'apprentissage de la tâche), mais
pas pour les tests de personnalités (trop de lassitude).

Test/re-test

•On construit d'abord un jeu de test, avec un intervalle de temps pertinent

•On administre deux fois de suite le même test aux mêmes sujets dans les mêmes conditions

•On calcule la corrélation entre la mesure et sa répérition.

Commentaires :

•Un seul test à construire, mais deux passation :

13
•Suppose que l'on puisse re-tester tout les sujets

•Vieiller a bien contrôler les biais susceptibles de changer les réponses du sujet (ex : période de
passation)

•Technique utilisée pour évaluer les dimensions stables (intelligence, personnalité), du moins
durant la période concernée par l'évaluation. Ne convient pas lorsqu'il s'agit d'évaluer des
caractéristiques qui changent, plus ou moins rapidement au fil de l'humeur.

Sources d'erreur prises en compte

•Les fluctuations aléatoires de la performance au cours du temps

•Les conditions de test insuffisamment contrôlés (problèmes de standardisation)

•Changements météorologiques extrêmes

•bruits soudains

•autres distractions

•La variation aléatoire des facteurs internes

•Maladie, fatigue, tension émotionnelle, inquiétude, expériences récentes

La procédure test/re-test est aussi appelé validité du test, puisqu'on est sensé obtenir les mêmes
résultats au temps 1 et 2.

Inconvénients Test/re-test :

•Obligation de choix d'un intervalle de temps, ni trop court (soucis de la répétion, de la pratique,
de lassitude, d'apprentissage, etc) , ni trop long (évolution instable du trait contrôlé). Quel est le
délai pertinent ? Seul un plan expérimental complexe (cohorte de sujets testés pour des délais
qui augmentent) pourrait trancher cette question.

•Changement d'état des individus (facteurs internes) : variance aléatoire ou systématique ?

•Effet de répétion (pour les délais courts) : on ne sais jamais vraiment quelle est l'influence du
test 1 sur les résultats du test 2 (apprentissage ou autre).

•Effet de la pratique : Certaines compétences s'améliorent avec la pratique (dextérité manuelle de


changement de nature de la tâche → exemple du PM38)

•S'il s'agit d'effets différentiels : r diminue (fidélité baissé)

Découpages en deux parties

14
Procédure :

•Administrer le test à un échantillon représentatif, en une seule fois

•Découpage du test en deux parties équivalentes, soit :

•Items pairs vs items impairs

•Première partie vs seconde partie : mais cela pose un problème quand il y a des difficultés
croissantes, comme dans le WISC par exemple, dans les tests d'efficience notamment.

•Calculer la corrélation entre les 2 sous scores

•Estimer la fidélité pour le test entier : cela permet d'expliquer la fidélité pour le test entier, cela
pose le problème d'une corrélation élaborée avec une moitié de test

Commentaires :

•Une seule passation

Technique d'estimation Inter-observateurs

Procédure :

•Administrer le test à un échantillon représentatif de sujets

•Faire évaluer tous les protocoles par plusieurs juges différents, indépendamment : très long, ils
ne doivent pas avoir les mêmes données dans le même ordre

•Calculer la corrélation entre les notes attribuées par les différents juges

Commentaires :

•Une seule passation

•Mais plusieurs juges qui doivent être experts : difficiles à recruter, leurs demande du temps

Très peu de tests utilisent cette technique.

L'erreur Standard de Mesure (ESM) : écart-type multiplié par la racine carré de 1 moins la
fidélité

•La fidélité est la proportion de variance vraie des scores observés pour un groupe d'individus

•Mais ce qui intéresse le praticien, c'est plutôt la part d'erreur qui affiche l'estimation du score de
la personne qu'il vient de tester. Ce qui ne permet pas de faire la théorie classique de la fidélité.

15
•Mais elle permet d'estimer (bien qu'indirectement) la dispersion des scores observés d'une
personne (E-T) autour de son score vrai pour une infinité d'évaluation (postulat).

•On calcule en fait l'erreur standard de mesure qui est la moyenne de tous ces écart-types
individuels (calculé pour un groupe donné et qui fournit une estimation de ce qui pourrait être,
pour chaque personne, la dispersion des scores autour de leurs scores vrais respectifs).

Limites de l'ESM :

•Elle est calculée à partir d'une estimation de la fidélité des mesures : quelle sorte de coefficient
de fidélité utiliser ( test/retest, formes parallèles, consistance interne) ? L'ESM varie selon la
valeur de fidélité utilisée pour l'estimer et il faut être pertinent dans le choix de coefficient (selon
les situations).

•Elle est calculée à partir de la fidélité des mesures, telle qu'elle a été établie pour un groupe de
sujets donné : quelle est la (recopier fin de diapo sur cours en ligne).

05.04.2013

16

Vous aimerez peut-être aussi