Bupsy 0007-4403 1965 Num 18 238 7504

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 30

Bulletin de psychologie

Méthodologie générale des tests mentaux


Pierre Pichot

Citer ce document / Cite this document :

Pichot Pierre. Méthodologie générale des tests mentaux. In: Bulletin de psychologie, tome 18 n°238, 1965. pp. 652-680;

doi : https://doi.org/10.3406/bupsy.1965.7504;

https://www.persee.fr/doc/bupsy_0007-4403_1965_num_18_238_7504;

Fichier pdf généré le 12/09/2023


P. PICHOT

Méthodologie générale
des tests mentaux

DEFINITION DES TESTS MENTAUX 3) Le comportement ainsi


enregistré soit
évalué statistiquement par rapport à celui d’un
L’association internationale de psychotech¬ groupe d’individus. Cette comparaison est in¬
nique a adopté la définition suivante, reprise dispensable, et toute épreuve qui n’y a pas
par le Vocabulaire de psychologie de H. Pié recours n’est pas un test mental. Pour illus¬
ron : « C’est une épreuve définie, impliquant trer ce point supposons que nous donnions à
une tâche à remplir, identique pour tous les un sujet une division à effectuer en 5 mi¬
sujets examinés, avec une technique précise nutes. Au bout de ce temps, le sujet donnera
pour l’appréciation du succès et de l’échec, ou un résultat qui sera correct ou non. Cette
pour la notation numérique de la réussite. 7 a opération ne sera un test que si nous savons
tâche peut comporter une mise en œuvre, soit d’autre part que, dans un groupe de n sujets,
de connaissances acquises (test pédagogique), dont nous connaissons les caractéristiques
soit de fonctions sensori-motrices ou mentales (âge, sexe, niveau socio culturel, etc.), l’opéra¬
(test psychologique).» tion a été réussie dans x % des cas.
Cette définition, trop restreinte, ne s’ap¬ 4. Le classement du sujet examiné par rap¬
plique qu’à une catégorie particulière de tests, port au groupe de référence est le but final
ceux qui apprécient l’intelligence, les apti¬ du test. Dans l’exemple précédent, si le sujet
tudes et les connaissances.
a donné une réponse correcte à sa division,
Nous avons proposé une définition plus nous dirons que, pour l’épreuve considérée (la
large : « On appelle test mental une situation division), il se classe dans le sous-groupe com¬
expérimentale standardisée, servant de sti¬
prenant les x % des n sujets de référence.
mulus à un comportement. Ce comportement
est évalué par une comparaison statistique Cette définition nous permet de voir les dif¬
avec celui d’autres individus placés dans la férences qui existent entre un test mental et
même situation, permettant ainsi de classer 1) Une épreuve clinique ou un entretien
le sujet examiné, soit quantitativement, soit non structuré. Dans l’examen clinique tel qu’il
typologiquement. » est pratiqué en médecine, aussi bien que dans
Cette définition implique donc quatre condi¬ l’entretien non structuré ou semi-structuré
tions : tels qu’ils sont pratiqués en psychologie so¬
1) La situation expérimentale (c’est-à-dire ciale, il arrive souvent que l’on pose au sujet
les éléments suivants : milieu dans lequel se des questions qui ne sont nullement diffé¬
déroule l’expérience, matériel du test, attitude rentes de celles que pose le psychologue dans
et consignes données par l’examinateur pour certains tests. Mais, d’une part, les conditions
l’utilisation du matériel) soit parfaitement dé¬ d’administration ne sont pas rigoureusement
finie et reproduite identique dans tous les standardisées et, d’autre part, la réponse n’est
cas. pas comparée statistiquement et explicitement
2) L’enregistrement du comportement dé¬ à celles données par un groupe de sujets. En
clenché chez le sujet soit aussi précis et ob¬ médecine par exemple la comparaison existe,
jectif que possible. Ce comportement est sui¬ mais reste implicite. Elle est liée à «l’expé¬
vant les cas très différent : il consiste pour le rience clinique » du médecin, et n’est pas
sujet à écrire une réponse, à exécuter une cer¬ exprimée en termes statistiques. Il faut cepen¬
taine tâche manuelle, à dessiner, à parler. De dant remarquer qu’en psychologie sociale on
toute manière les conditions d’enregistrement utilise dans les entretiens dirigés des ques¬
doivent être définies et observées rigoureuse¬ tionnaires qui ont pratiquement tous les ca¬
ment. ractères des tests.
P. PICHOT : LES TESTS MENTAUX 653

2) Les échelles d’appréciation ou de juge¬ ché. Mais elles en diffèrent par leur but. Alors
ment (rating scales). Ce sont des instruments que les tests visent à un classement du sujet
utilisables soit avec des sujets normaux, soit examiné, les épreuves de psychologie expéri¬
avec des cas pathologiques, et qui visent à mentale s’intéressent à l’établissement de lois
quantifier l’observation du comportement. générales. Dans ces conditions la comparai¬
L’observateur est par exemple prié, sur une son avec un groupe de référence, élément fon¬
échelle en 5 points, d’indiquer où se situe le damental des tests (étalonnage) n’y existe pas.
sujet en ce qui concerne par exemple son Les tests mentaux visent donc en définitive
activité motrice, son débit verbal, son anxiété, à définir le comportement d’un sujet dans une
etc. La différence avec le test mental vient
situation expérimentale, c’est-à-dire fonda¬
essentiellement du fait que dans le cas des mentalement artificielle.
échelles d’appréciation il n’y a pas de stimulus
proprement dit. L’observation se situe dans le Quels sont les raisons qui justifient l’emploi
des tests ?
cadre d’une situation relativement bien défi¬
nie (par exemple au cours d’un entretien indi¬ Sur un plan relativement superficiel on peut
viduel, dans le cadre d’une situation de dire, et nous l’avons rappelé dans la définition,
groupe, pendant le travail professionnel) mais que les tests mentaux visent à classer les su¬
l’examinateur n’introduit pas dans cette si¬ jets. Ce sont les instruments essentiels de la
tuation un stimulus standardisé. Il se con¬ psychologie différentielle. On sait que précisé¬
tente d’observer le comportement Il global. ment la psychologie différentielle s’oppose à
faut signaler qu’il est possible d’utiliser des la psychologie générale, cette dernière se
échelles d’appréciation en conjonction avec préoccupant d’établir les lois du fonctionne¬
des tests mentaux : dans ce cas on note sur ment psychologique, la première de mettre en
l’échelle, suivant le schéma standardisé, le évidence les différences interindividuelles dans
comportement global du sujet et ses éléments ce fonctionnement psychologique. Il faut noter
au cours de la passation du test. On dispose en passant que le terme psychologie générale
dans ces conditions de deux séries d’éléments est ambigu. On l’emploie non seulement comme
qui permettent deux classements du sujet : les opposé à la psychologie différentielle, mais
résultats au test ; les observations faites sur aussi comme opposé à la psychologie sociale.
le comportement du sujet au cours du test. On trouve par exemple dans le livre de Jean
3) Les examens scolaires. Ils se rapprochent, Stoetzel une excellente discussion sur les rap¬
au moins en ce qui concerne certains d’en¬ ports entre psychologie sociale et psychologie
tre eux, des conditions du test mental. Néan¬ générale. Il est dificile d’éclaircir la termino¬
moins dans leur forme habituelle le système de logie. On pourrait employer le terme « psycho¬
notation des résultats n’a pas la rigidité de logie individuelle » pour désigner ce qui s’op¬
celui des tests. Il exige cependant actuelle¬ pose à la psychologie sociale. Malheureusement
ment des examens scolaires particuliers, dont le terme a déjà un sens précis, puisqu’il dé¬
les plus connus se présentent sous formes de signe une doctrine psychologique particulière
questionnaires à choix multiple, et qui sous (et non une branche de la psychologie), doc¬
tous les aspects peuvent être considérés comme trine développée par un disciple dissident de
des tests mentaux. Freud, Alfred Adler.
4) Les épreuves utilisées en psychologie La discussion est d’importance. En effet la
expérimentale. La plupart des épreuves de psy¬ méthode des tests, instruments de la psycho¬
chologie expérimentale ont une partie des ca¬ logie différentielle, peut être employée dans
ractères des tests, spécialement la standardi¬ des recherches se rapportant au contexte indi¬
sation de la situation expérimentale et celle viduel ou au contexte social, suivant le schéma
de l’enregistrement du comportement déclen¬ suivant :

Psychologie générale
sens 2 Psychologie sociale
Abord général (individuelle)
(Psychologie générale sens 1) A B

Abord différentiel
(Psychologie différentielle) C D

On voit dans ce schéma que la méthode des blème. Paraphrasant la formule d’Auguste
tests mentaux, élément de l’abord différentiel, Comte : savoir c’est prévoir, pour pouvoir on
trouve sa place dans le cadre de la psycho¬ pourrait dire : le test mental permet de classer
logie générale (en C) aussi bien que dans ce¬ les individus, c’est-à-dire de faire des prévi¬
lui de la psychologie sociale (en D). sions afin de prendre des décisions.
L’emploi des tests pour permettre un abord En effet le test mental est avant tout un
différentiel du fonctionnement psychologique instrument de prédiction. Les développements
n’est qu’une première formulation du pro¬ de la méthode proviennent de ce caractère. A
654 BULLETIN DE PSYCHOLOGIE

partir du comportementd’un individu dans tement ou dans le même comportement à un


une situation artificielle, celle de test, il est autre moment.
possible de prédire quel sera le comportement Considérons un test de reconnaissance vi¬
du même individu dans une série d’autres si¬ suelle. Nous projetons une série de lettres sur
tuations de la vie courante avec une certaine l’écran pendant un instant, et le sujet indique
probabilité. Certes pour savoir comment un ce qu’il a vu. Certains sujets reconnaissent
individu se comportera dans une certaine si¬ quatre lettres. D’autres en reconnaissent 7 dans
tuation, la méthode la plus efficace et celle le même intervalle de temps. La différence est
qui donne les résultats les plus certains est curieuse, mais elle est sans importance jus¬
de le placer dans cette situation et de l’y ob¬ qu’à ce que nous ayons été capables de la
server. Mais cette méthode n’est pas toujours mettre en liaison avec quelque autre comporte¬
possible, et surtout elle est très coûteuse. Par ment. Le spécialiste de la psychologie appli¬
exemple pour savoir si un sujet aura un com¬ quée se rend compte que cette tâche a peut
portement satisfaisant dans une tâche indus¬ être quelque chose en commun avec la recon¬
trielle, il est possible de pratiquer ce qu’on ap¬ naissance des types d’avion et avec la percep¬
pelle un essai. Mais ceci est long et surtout tion au cours de la lecture. Il étudie alors si le
très dispendieux. Dans ces conditions le test, test de perception tachystoscopique prédira la
qui permet une prévision, offre des avantages réussite dans ces activités. Si oui il peut aider
d’ordre économique considérable. Et surtout la l’aviation à sélectionner des observateurs, ou
prévision faite à partir des résultats aux tests aider l’instituteur dq cours élémentaire à éla¬
ne porte pas en général sur le comportement borer un programme d’apprentissage de la lec¬
dans une situation spécifique, mais sur celui ture.
que le sujet manifestera dans toute une classe
de comportements
La prédiction est également impliquée dans
l’utilisation clinique des tests. Un clinicien peut
On a distingué deux variétés de tests, les utiliser la technique tachtstoscopique pour voir
testes pronostiques et les tests diagnostiques. si un sujet a une difficulté spéciale à perce¬
Alors que les premiers correspondraient au voir des mots à tonalité émotionnelle tels que
processus que nous venons d’envisager, les se¬ « coupable » ou « échec », ceci pouvant être
conds auraient pour but de déterminer l’état une indication de trouble émotionnel. Un tel
actuel de l’individu. Cette distinction est tout
test n’est utile que si le résultat anormal fait
à fait artificielle. En effet établir un diagnostic prévoir un comportement déviant dans le fu¬
implique nécessairement porter un pronostic. tur. Le clinicien n’aurait pas besoin de déce¬
Prenons l’exemple des tests d’intelligence, qui ler l’inadaptation émotionnelle s’il s’agissait
sont généralement considérés comme le type d’un état interne qui n’aurait jamais de mani¬
même des tests diagnostiques. Dire qu’un sujet festations extérieures. La signification du test
a un niveau intellectuel (mesuré par exemple clinique est contenue dans le fait que certaines
par son quotient intellectuel), qui permet de réponses permettent de prédire un comporte¬
porter le diagnostic de débilité, signifie fina¬ ment qu’il est nécessaire d’éviter ou d’encou¬
lement que ce sujet aura un certain comporte¬ rager.
ment dans une série de situations, scolaires, L’homme de science peut ne pas se soucier
professionnelles, et plus généralement sociales, si les tests ont une valeur pour des décisions
c’est-à-dire finalement porter un diagnostic. pratiques. Il peut même ne pas être intéressé
La même remarque peut être faite dans tous dans le problème des différences individuelles.
les cas, si bien que la notion qu’un test est un Mais lui aussi doit posséder des tests qui pré¬
instrument de pronostic du comportement doit disent. Le test tachystoscopique est un bon
être considérée comme absolument générale. instrument de mesure de laboratoire parce
Mais cette prédiction aboutit finalement à que ses résultats sont stables. Si les conditions
une décision. Cronbach a fort clairement
ne sont pas modifiées, un sujet aura à peu près
exprimé ce point : le même résultat chaque fois qu’il sera exa¬
« Toute personne qui travaille avec des hom¬ miné : ainsi le test d’aujourd’hui prédira le
mes prend continuellement des décisions. Un résultat de demain. Si le résultat change lors¬
directeur du personnel décide qui engager ; un que l’expérimentateur change l’éclairage, nous
professeur décide si chacun de ses élèves doit saurons que cette modification est due à
passer dans la clases supérieure ; un médecin l’éclairage et non pas au hasard. L’expérimen¬
décide comment un malade doit être traité. tateur peut ainsi étudier systématiquement
Si celui qui prend une décision obtient une comment la perception tachystoscopique est
meilleure information avant de prendre sa dé¬ liée à l’éclairage. Quand cette relation sera
cision, il aura une meilleure chance d’obtenir parfaitement comprise, il aura une loi géné¬
les résultats qu’il désire. rale qui prédira quelles modifications de la
Toutes les décisions impliquent des prévis perception accompagneront les modifications
sions. Tout test nous indique des différences de l’éclairage. Si le test n’avait pas été capable
entre le comportement des individus au mo¬ de prédire le résultat de demain à partir du
ment actuel. Ce résultat serait inutile à con¬ résultat d’aujourd’hui (toutes choses étant
naître si l’on ne pouvait prédire que ces indi¬ égales d’ailleurs), il n’aurait été d’aucune uti¬
vidus différeront dans quelque autre compor¬ lité pour le psychologue expérimental». Tel
P. PICHOT : LES TESTS MENTAUX 65S

est le passage que je désirais vous citer de part, en français, les terme correspondant
Cronbach. On voit que l’ensemble des remar¬ « tests d’aptitudes » ne nous paraît devoir être
ques de cet auteur sont directement appli¬ retenu car il est déjà employé pour désigner
cables au cas particulier de la psychologie so¬ une sous-classe des tests d’efficience (sous
ciale. Dans ce domaine le test mental peut être classe désignée par Cronbach sous le nom de
employé aussi bien pour faire des prédictions tests de «special abilities»).
empiriques, que pour faire des diagnostics, Les tests d’efficience sont définis par le fait
qu’enfin pour des recherches expérimentales que l’on peut définir a priori et objectivement
visant à découvrir des lois générales. Dans tous un bon et un mauvais résultat. Par exemple
les cas le test apporte une information, à par¬ à la question : « Combien font 2 et 2 ? », la
tir de laquelle peut être faite une prévision, réponse 4 peut, a priori, et objectivement, être
base elle-même d’une décision. définie comme meilleure que n’importe quelle
autre réponse. Dans ces conditions le classe¬
CLASSIFICATION DES TESTS MENTAUX ment d’individus que permet le test d’efficience
est un classement de valeur. Si la distribution
Il existe de nombreuses manières de classer des sujets se fait suivant une courbe de Gauss,
les tests mentaux. La plupart des méthodes de ce qui est le cas le plus général, les sujets « les
classement utilisent comme critère des élé¬ meilleurs » se situent à l’extrémité de la courbe
ments extérieurs. Ces classements restent donc correspondant aux notes les plus élevées.
très superficiels, bien qu’ils aient un intérêt Cronbach adopte une position voisine de la
pratique certain. De ce point de vue on peut nôtre. Pour lui «l’élément qui définit cette
distinguer : classe de tests est que le sujet est encougagé
1. Suivant le mode d’administration à obtenir le meilleur résultat qu’il peut».
— les tests individuels, Cronbach rappelle en effet que le mot apti¬
— les tests collectifs. tude a été défini par
1958 McClelland en
Suivant ce en quoi consiste la réponse
comme «une réponse soumise au contrôle vo¬
2.
lontaire ».
— les tests crayon papier où le sujet a à ré¬
pondre par écrit à des questions qui lui sont
posées, Les tests de personnalité
— les tests « de performance » où il doit constituent la deuxième grande classe de
effectuer un certain travail de manipulation. tests. Le terme n’est pas à l’abri de critiques.
Il faut indiquer que, en général, les tests En effet nous verrons qu’il existe, à l’inté¬
de performance sont individuels, et les tests rieur de ces tests de personnalité, une sous
crayon-papier sont collectifs, bien que la liai¬ classe de tests de personnalité au sens étroit.
son ne soit pas absolue. D’autre part la personnalité est habituelle¬
Ces distinctions ont un intérêt pratique. ment considérée comme l’organisation dyna¬
Lorsque par exemple on doit obtenir dans un mique des aspects cognitifs (c’est-à-dire in¬
temps limité des informations sur un grand tellectuels), affectifs, conatifs (c’est-à-dire
nombre de sujets, les tests collectifs sont obli¬ pulsionnels et volitionnels) , physiologiques et
gatoirement employés. Le test individuel est morphologiques de l’individu. Dans ces condi¬
beaucoup plus coûteux. tions les tests d’efficience essen¬ qui explorent
En fait il existe deux classifications essen¬ tiellement les aspects cognitifs de la personna¬
tielles des tests mentaux qui prétendent l’une lité, sont donc eux aussi des tests de person¬
et l’autre être fondées sur des éléments fonda¬ nalité. On peut donc dire que le terme « tests
mentaux : la première, qui nous paraît en de personnalité» pour désigner la deuxième
effet la plus importante, nous retiendra grande classe de tests, bien que consacré par
d’abord : c’est ce que nous pourrions appeler l’usage, n’est guère satisfaisant. Peut-être vau¬
la classification fonctionnelle des tests men¬ drait-il mieux utiliser le terme de «tests de
taux. Nous ne dirons ensuite qu’un mot de la performance typique» (Test of typical per¬
seconde, qui oppose tests psychométriques et formance) proposé par Cronbach.
tests projectifs, car nous aurons l’occasion d’y Quoiqu’il en soit, cette classe de tests est
revenir dans la suite de ce cours. caractérisée par le fait qu’il est impossible
a priori de déterminer objectivement quelle
sera la meilleure réponse au test. Par exemple
LA CLASSIFICATION FONCTIONNELLE
DES TESTS MENTAUX à la question : « Préférez vous vous distraire
au milieu de nombreuses
connaissances ou
Les tests mentaux peuvent se diviser en avec un ou deux bons amis ? », il n’y a pas de
deux grandes classes que nous avons proposé bonne réponse objective : les deux réponses
d’appeler tests d’efficience et tests de per¬ possibles sont aussi bonnes que possible. La
sonnalité. bonne réponse au test de «personnalité» ne
peut être définie a priori, elle ne peut être dé¬
Les tests d’efficience finie que par rapport à un critère extérieur
(par exemple l’adaptation au milieu) .
Cronbach a proposé de désigner cette classe Cronbach expose les mêmes idées sous une
sous le nom de tests d’ « ability ». Pour notre forme un peu différente. Pour lui les tests de
656 BULLETIN DE PSYCHOLOGIE

« performance typique » sont utilisés pour étu¬ titude dépend, au moins en partie, des cir¬
dier, non pas ce qu’une personne peut faire, constances auxquelles l’individu a été exposé.
mais ce qu’elle fait. « Il est de peu de valeur, D’autre part, les connaissances que l’on explore
écrit-il, de déterminer le degré de courtoisie n’ont pu être acquises par l’individu que si
qu’une jeune fille désirant être engagée comme celui-ci posédait les aptitudes correspondantes.
vendeuse dans un magasin peut atteindre ; la Les connaissances mathématiques par exemple
plupart des gens, élevés normalement, ont ne peuvent exister qu’à deux conditions : que
l’aptitude à être poli. Le test pour déterminer le sujet ait eu l’occasion de les acquérir, c’est
si l’employée est engageable est de savoir si à-dire qu’il ait suivi l’enseignement correspon¬
elle maintient cette courtoisie au cours de son dant, mais aussi qu’il ait disposé des aptitudes
travail quotidien, même lorsqu’elle ne se mon¬ nécessaires pour bénéficier de l’enseignement.
tre pas sous son meilleur jour. Pour prendre On peut donc dire d’une manière très géné¬
un autre exemple, tout inspecteur, posédant rale que la variance totale des tests d’efficience
une vision et ayant suivi un apprentissage nor¬ peut être divisée en deux parts : une part de
maux, doit être capable de reconnaître dans variance aptitude et une part de variance
un atelier les pièces défectueuses. Un test qui connaissances. Si la première domine on parle
détermine avec quelle précision il découvre les de test d’aptitudes, si c’est la seconde, on parle
défauts quand il fait tous ses efforts mesure¬ de tests de connaissances. On voit donc que
rait plutôt l’acuité visuelle que le soin. La dif¬ cette classification pose le problème général
férence principale entre le bon et le mauvais de l’inné et de l’acquis dans le comportement.
inspecteur est que le second se laisse aller à Il m’est évidemment impossible de traiter ici
être distrait et négligent dans son travail de ce problème. Il suffit pour notre sujet de rap¬
routine... » peler que de toute manière les rapports entre
Cronbach ajoute : « Dans un test d’aptitude les deux sources de variation ne sont pas ceux
(ce que nous appelons tests d’efficience»), une d’une combinaison additive, qu’il y a entre
note élevée est désirable, mais dans la plupart elles des interactions, et que dans la pratique
des testes de performance typique (ce que concrète on peut effectuer une classification
nous appelons «tests de personnalité»), au¬ suivant les lignes que je vous ai indiquées. A
cune réponse particulière ne peut être désignée l’intérieur des tests d’aptitudes il est tradition¬
comme «bonne». Par exemple il n’y a rien nel de distinguer deux sous-catégories, les tests
de bon ou de mauvais dans le fait de s’intéres¬ d’aptitude générale, plus communément ap¬
ser à être ingénieur. Un individu qui possède pelés tests d’intelligence, et les tests d’apti¬
ce type d’intérêts peut les utiliser, mais un tudes spéciales, auxquels dans le langage cou¬
individu qui ne les a pas peut trouver des rant on réserve souvent le nom de tests d’apti¬
activités tout aussi valables. De la même ma¬ tudes. Il n’est pas nécessaire ici de préciser en
nière, les individus présentent de grandes dif¬ détail ce qui distingue l’aptitude générale, ou
férences individuelles dans leurs relations so¬ intelligence, et les aptitudes spéciales, sur quels
ciales en ce qui concerne la domination sou¬ critères on fonde cette distinction, puisque
mission. Mais nous ne pouvons dire qu’un cer¬ nous aurons l’occasion d’y revenir en détail à
tain degré de domination est meilleur, car propos de l’analyse factorielle dans le cours
notre monde a de la place pour les individus suivant. Il suffira d’indiquer que l’aptitude
de tous les types. » générale peut être considérée comme l’élément
commun à toutes les aptitudes, auquel les
Subdivision des tests d’efficience aptitudes spéciales, tout en gardant un certain
Nous avons retenu deux grandes classes de degré d’indépendance, restent subordonnées.
tests : les tests d’efficience (d’aptitudes dans Nous verrons que l’analyse factorielle nous
la terminologie de Cronbach) et les tests de fournit un modèle conceptuel précis pour se
représenter ces rapports.
personnalité (de performance typique de
Cronbach). La première classe peut se diviser
Subdivision des tests de « personnalité »
en deux catégçries : les tests d’aptitudes et les
tests de connaissances. La subdivision des tests de « personnalité »
Théoriquement les premiers atteignent les ou de « performance typique » comme les ap¬
dispositions «innées» de l’individu qui condi¬ pelle Cronbach est beaucoup plus difficile que
tionnent son efficience, les seconds les méca¬ celle des tests d’efficience. Il est en effet pos¬
nismes « acquis » qui correspondent aux mê¬ sible d’envisager soit les principes mêmes de
mes opérations,. Il existe par exemple des tests leur construction, soit le domaine de la per¬
d’ « aptitude aux mathématiques » et des tests sonnalité qu’ils explorent.
de « connaissances mathématiques ». Bien en¬ Suivant le principe de leur construction, on
tendu cette distinction est théorique, et il distingue trois grandes variétés : les question¬
existe un continuum entre les uns et les au¬ naires, les tests objectifs, et les tests projec¬
tres. D’une part la plupart des aptitudes ne tifs.
sont pas complètement innées ; si cela reste, Les questionnaires sont, comme leur nom
vrai de certaines aptitudes proches du domaine l’indique, composés de questions posées habi¬
physiologique, par exemple l’acuité visuelle, tuellement par écrit au sujet, auquel il doit
plus on s’écarte de la physiologie et plus l’ap¬ répondre. Pratiquement il s’agit souvent de
P. PICHOT : LES TESTS MENTAUX 657

propositions au sujet desquelles le sujet doit lisation les Labyrinthes de Porteus sont un test
adopter une attitude, par exemple déclarer objectif de personnalité.
qu’il est d’accord ou non. Dans certains cas
Les tests projectifs de personnalité posent
la question ne comporte que deux possibilités
des problèmes très complexes de définition et
de réponse oui ou non.
D’autre fois on laisse
de limites, aussi bien d’ailleurs que des pro¬
une troisième possibilité : ?, je ne sais pas, blèmes plus fondamentaux sur leur position
pas d’opinion. D’autres fois encore il existe un par rapport aux autres tests mentaux. Je vous
nombre plus élevé de possibilités entre les¬ ai indiqué qu’à côté de la classification fonc¬
quelles le sujet doit choisir celle qui lui con¬ tionnelle opposant tests d’efficience et tests
vient le mieux: questions à choix multiple. de personnalité, il existait une autre classifi¬
Voici par exemple des types de ces différentes cation qui opposait tests projectifs à toutes les
formes : autres épreuves (c’est-à-dire tests d’efficience
+ questionnaires + tests objectifs de person¬
Je suis plus nerveux que la plupart des nalité) qualifiés de tests psychométriques. En
gens oui ijon ? raison de l’importance du problème nous con¬
sacrerons deux cours à son examen particu¬
lier.
Si j’avais le choix, l’activité professionnelle
que je préférerais est a) ingénieur b) Mais à côté de cette classification des tests
médecin c) artiste d) commerçant. de personnalité, il en existe une seconde basée
sur le secteur de la personnalité explorée.
Nous aurons plus tard l’occasion de discu¬ Schématiquement on peut distinguer :
ter de certain aspects des questionnaires au
a) Les tests de sens éthique. Il s’agit d’une
point de vue méthodologique. Ces instruments
catégorie très particulière, que certains auteurs
jouent un rôle considérable en psychologie so¬
ciale, et certaines variétés des questionnaires américains ont proposé d’appeler tests de ca¬
ractère. Cette dernière dénomination doit être
d’atitude sont spécifiques de la psychologie
absolument rejetée car le mot caractère a des
sociale. Je signalerai en terminant que vous
trouverez parfois dans la littérature de langue sens tellement différents et contestés en psy¬
anglaise le mot d’inventaire (inventory) em¬
chologie qu’il est préférable de l’éviter. Ils ex¬
ployé comme synonyme de questionnaire. plorent les aspects éthiques, moraux de la con¬
duite.

Les tests objectifs de ‘personnalité peuvent b) Les tests d’intérêts, d’attitudes, et de va¬
être définis comme étant par leurs caractéris¬ leurs. Particulièrement importants en psy¬
tiques extérieures des tests d’efficience, tout en chologie sociale, et également dans d’autres
étant utilisés fonctionnellement comme des domaines comme la psychologie industrielle.
tests de personnalité. Un exemple précis vous c) Les tests de personnalité au sens res¬
fera saisir ce point. treint, que certains appellent tests de dyna¬
mique de la personnalité. Us explorent l’en¬
H existe une épreuve, les « Labyrinthes de semble de la personnalité sous ses aspects
Porteus » composée d’une série de labyrinthes descriptifs et dynamiques, à l’exclusion des
dessinés, de difficulté graduée, que le sujet domaines explorés par les tests de sens éthique
doit parcourir avec la pointe d’un crayon, sans et par les tests d’intérêts, attitudes et valeurs.
jamais s’engager dans une voie sans issue et
sans jamais revenir en arrière. Cette épreuve Cette classification est évidemment quelque
peu artificielle. Elle répond surtout à des con¬
est sous l’angle formel un test de performance,
tingences pratiques. Les intérêts, les attitudes
sous l’angle fonctionnel un test d’aptitude, et
plus spécialement d’aptitude générale ou d’in¬ et les valeurs, aussi bien que l’aspect éthique
telligence, dans la mesure où l’on utilise comme du comportement ne peuvent que très artifi¬
ciellement être séparés de l’ensemble de la
note le labyrinthe le plus difficile qu’a réussi
à parcourir le sujet. Mais il est possible de structure et de la dynamique de la personna¬
lité.
coter le comportement du sujet d’une autre
manière. On tient compte, non plus du résultat Cette deuxième classification |pe combine
final, mais de la manière dont le sujet accom¬ avec la première, en ce sens que théoriquement
plit la tâche. On note si son trait est droit ou les intérêts d’un sujet peuvent être explorés
ondulé, s’il tend à toucher les limites du che¬ par des questionnaires, des tests projectifs, ou
min qu’il suit, etc. On obtient ainsi une note des tests projectifs. Cependant certaines mo¬
dont on a montré qu’elle fournissait une indi¬ dalités se prêtent mieux que d’autres à l’ex¬
cation de l’adaptation sociale de l’individu : les ploration : dans le cas particulier, et dans l’or¬
sujets ayant une note élevée (c’est-à-dire qui dre, les questionnaires, les tests objectifs, les
ont un comportement impulsif, négligent, etc., tests projectifs.
au cours du test) étaient plus fréquemment dé¬
linquants, s’adaptaient moins facilement aux Le tableau suivant résume l’ensemble des
situations industrielles, etc. que les sujets qui classifications dont nous avons jusqu’à pré¬
obtenaient des notes basses. Dans cette uti¬ sent parlé :
658 BULLETIN DE PSYCHOLOGIE

Tests d’ intelligence
(aptitude générale =
Cronbach)
Tests d’ aptitudes
Tests d’efficience —
(aptitudes î Cronbach) aies.
(aptitudes s langage
. courant)

JTests de connaissances

Questionnaires
(Inventaires)
Tests de personnalité - • Tests objectifs
(performance typique
Cronbach) Tests projectifs

QUELQUES POINTS DE VOCABULAIRE

Avant d’envisager le problème de l’enregis¬ bituellement un test est constitué par un nom¬
trement des résultats et celui des unités de bre plus ou moins grand d’items. A chaque
mesure dans les tests, il est nécessaire de rap¬ item correspond une réponse. La réponse au
peler quelques points importants de vocabu¬ test est constituée par une combinaison (habi¬
laire. tuellement une addition) des réponses aux
items individuels.
Il est rare qu’un test ne comprenne qu’un
1.
seul stimulus. La raison en est simple: la ré¬ 2. Il est possible de distinguer
deux grandes
ponse à un stimulus défini est déterminée variétés de réponses que l’on peut appeler ré¬
d’une part par la variable psychologique qui ponses libres et réponses de reconnaissance.
intéresse l’examinateur, mais aussi par une a) les réponses libres. Dans les réponses
série de variables contingentes qui sont liées libres le sujet n’a pas à choisir entre un
au hasard. Si on présente successivement au nombre limité de réponses possibles qui lui
sujet une série de stimulus dont les réponses sont toutes présentées. Il doit créer une ré¬
dépendent toutes de la même variable psycho¬ ponse. En fait les problèmes posés par l’enre¬
logique, nous pouvons espérer, en faisant la gistrement et la cotation des réponses libres
somme (ou la moyenne) des réponses à tous sont de niveau de difficulté très variable. Une
les stimulus, d’éliminer le rôle des variables question du type : Combien font 2 fois 2 est
contingentes, liées au hasard, et dont chaque un item à réponse libre. Si nous donnons 1
combinaison, propre à un stimulus, est unique. point lorsque la réponse est 4, 0 point pour
La probabilité est que les variations entraînées toute autre réponse, la cotation est parfaite¬
par ces variables contingentes sur la réponse à ment objective et n’offre aucune difficulté. Par
chaque stimulus se distribuent au hasard, contre, une question du type suivant : Définis¬
alors qu’évidemment les variations produites sez une automobile (item que l’on emploie
par la variable psychologique étudiée se feront, dans certains tests de vocabulaire) offre bien
dans tous les cas, dans la même direction. Si davantage de difficultés.
Si, dans un item du
l’on additionne les résultats, on annulera le type précédent, le critère est la compréhen¬
rôle des variables contingentes, et le résultat sion du sens du mot, l’auteur du test prépare
final sera lié uniquement à la variable psycho¬ une liste de définitions proposées, et indique
logique intéressante. Nous aurons l’occasion celles qui doivent être considérées comme cor¬
de revenir sur ce problème qui se rattache rectes, et celles qui sont incorrectes. Bien en¬
étroitement à la question de la fidélité des tendu il est impossible de prévoir toutes les
tests. Du point de vue de la terminologie on réponses possibles et l’examinateur doit, si la
appelle chaque élément du test un ITEM. Ha¬ réponse donnée par le sujet est originale, cher
P. PICHOT : LES TESTS MENTAUX 659

cher dans la liste des réponses types celle qui un ordre quelconque, de manière à ce qu’elles
se rapproche le plus afin d’orienter sa cota¬ soient mélangées dans la présentation, il est
tion. Ainsi la cotation des réponses libres n’of¬ nécessaire d’avoir un moyen pratique de re¬
fre jamais une parfaite objectivité. Cependant pérer les items appartenant à chaque série,
en pratique elle est, dans les tests bien cons¬ de manière à calculer la note correspondante.
truits, satisfaisante. Nous verrons qu’il est pos¬ On emploie habituellement des grilles soit en
sible d’en apprécier la qualité grâce au calcul carton perforé, soit en matière plastique trans¬
de la « fidélité inter correcteurs ». parente, permettant de repérer facilement les
b) Les réponses de reconnaissance. Dans les items de chaque série. H est évident que l’em¬
réponses de reconnaissance le sujet doit seule¬ ploi de ces grilles est plus facile lorsque les
ment reconnaître parmi les réponses qu’on lui réponses sont portées sur une feuille de ré¬
propose en même temps que le stimulus celle ponse unique.
qui lui convint. Par exemple dans une Ques¬
tion de Questionnaire, il devra choisir entre la 3) L’automatisation do la correction
réponse oui et la réponse non, ou bien encore
Il existe actuellement
une tendance, surtout
dans une question avec réponses à choix mul¬
pour les tests appliqués à des groupes nom¬
tiple entre les 4 ou 5 propositions proposées breux de sujets, à supprimer dans la mesure
comme réponse possible. Les réponses de re¬
du possible l’élément humain dans la corres
connaissance offrent évidemment une parfaite
objectivité dans leur enregistrement et dans
tion, afin d’éviter les causes d’erreur que l’em¬
leur cotation. ploi de grilles diminue, mais n’élimine pas
complètement, et surtout afin d’accélérer la
correction.
L’ENREGISTREMENT ET LA COTATION La première feuille de réponse à correction
DES REPONSES automatique est due à International Business
Machines. Elle a été introduite juste avant
Les remarques suivantes concernent essen¬ 1940. Il s’agit d’une feuille de réponses per¬
tiellement les tests avec réponses de reconnais¬ mettant d’enregistrer les réponses à 150 items
sance.
(si le test en comporte un plus grand nombre
Les nécessité .pratiques conduisent dans de on utilise plusieurs feuilles de réponse par su¬
nombreuses applications à utiliser des tests jet). Les 150 items sont disposés en 5 colonnes
collectifs et il est utile dans ce cas de trouver
de 30. En face de chaque numéro d’item sont
des méthodes d’enregistrement
et de cotation placés sur un rang 5 doubles traits verticaux
aussi économiques et aussi peu soumises à des pointillés, numérotés de 1 à 5. Si par exemple
risques d’erreur que possible. le sujet doit répondre à chaque item par oui
ou par non ,on donne les consignes suivantes
1 ) L’emploi de feuilles de réponse au sujet : « Si vous désirez répondre oui à
Dans les tests collectifs il est fréquent que l’item 1 vous tracez avec un crayon spécial en
face du chiffre 1 un trait noir entre les deux
l’on demande au sujet de marquer ses répon¬
ses, non sur le cahier de test lui-même (qui traits pointillés
de la colonne 1. Si vous dési¬
comprend les items) mais sur une feuille sé¬ rez répondre non, vous tracez en face du chif¬
parée. L’avantage du procédé est double : fre 1, un trait noir entre les deux traits poin¬
a) les cahiers de test sont en principe indé¬ tillés de la colonne 2, et ainsi de suite pour
finiment réutilisables. tous les items ». La feuille I.B.M. standard a 5
b) La cotation des réponses est rendue plus possibilités de réponse par item. Lorsque la
facile puisqu’elles sont toutes rassemblées sür réponse se fait par oui ou non, on n’utilise
une seule feuille (qu’il est plus facile d’autre que 2 colonnes. Lorsqu’il y a 3 possibilités
part de manipuler et de conserver). (par exemple oui, non, je ne sais pas) on en
utilise 3. Dans certains cas d’items avec ré¬
L’emploi de feuilles de réponses a cependant
un inconvénient. Le sujet doit inscrire sa ré¬ ponse à choix multiples on donne au sujet
ponse en face d’un numéro de la
feuille de la possibilité de choisir entre 5 réponses pos¬
réponse correspondant au numéro de l’item sibles qui lui sont proposées (et qui sont, dans
le cahier de test numérotées de 1 à 5). Dans
du cahier de test. Il y a là un risque d’erreur
ce cas on utilise les 5 colonnes de la feuille
si le sujet ne vérifie pas soigneusement la cor¬
de réponse.
respondance.
La feuille est ensuite introduite dans la
machine de correction. Celle-ci est pourvue
2) L’emploi de grilles de correction
de «doigts» qui repèrent où les marques au
Il arrive fréquemment qu’un test soit com¬ crayon apparaissent. Ce repérage utilise sim¬
posé d’items appréciant diverses dimensions plement le fait que le trait de crayon au gra¬
psychologiques. Si un test comprend 500 items, phite porté par le sujet conduit le cornant
il sera constitué par exemple de 5 séries de électrique. Chaque fois où le « doigt » constitué
100 items, chaque série appréciant une dimen¬ par deux balais passe sur un trait de graphite,
sion psychologique différente, aboutissant ain¬ le courant électrique passe et est enregistré
si à 5 notes différentes. Comme habituelle¬ par un compteur d’impulsions. La machine est
ment les items des 5 séries seront placées dans programmée de manière à compter par exem
660 BULLETIN DE PSYCHOLOGIE

pie le nombre de bonnes réponses, le nombre tur l’enregistrement des résultats, et éven¬
de mauvaises, la différence entre le nombre tuellement leur évaluation.
de bonnes et de mauvaises, etc. Elle peut être
aussi programmée de manière à donner des LES UNITES DE MESURE
notes indépendantes pour diverses séries 1. La note brute (raw score)
d’items (dans la mesure où le test est com¬
posé d’items appréciant diverses dimensions
La plupart des tests aboutissent à un résul¬
tat qui s’exprime en un nombre. Par exemple
psychologiques) .
si nous possédons un test d’efficience cons¬
En principe la machine ne commet aucune titué par 50 items, si la réponse à chaque item
erreur. Elle corrige 500 feuilles de réponse par est classée en bonne ou mauvaise, si le sujet
heure. En fait elle a un inconvénient : son reçoit 1 point par bonne réponse et 0 point
fonctionnement n’est parfait qu’à la condition par mauvaise réponse, la note brute totale va¬
que 1) le sujet utilise un crayop. gras spécial; riera entre 0 et 50. Une telle note n’a en soi
2) qu’il remplisse complètement l’espace situé aucune signification. Elle ne prendra une si¬
entre les deux lignes pointillées ; 3) au cas gnification que lorsqu’elle sera comparée aux
où il a fait une erreur il efface parfaitement notes obtenues par les sujets appartenant à
à la gomme sa réponse fausse et ne laisse un groupe de référence. Il va donc être néces¬
aucune trace de graphite. En raison de ces saire de transformer cette note brute, c’est-à
conditions on peut dire de la remplacer par une nouvelle valeur
— ou bien faire revoir les feuilles de répon¬ numérique, qui indiquera, d’une manière ou
se par un manipulateur qui noircit les traits d’une autre,
comment le sujet se situe, par
insuffisants et efface les traces incomplète¬ ses résultats à ce test particulier, à l’intérieur
ment éliminées; du groupe de référence.
— ou bien faire transformer les feuilles de La transformation de la note brute est ren¬

réponse par des mécanographes en fiches per¬ due nécessaire par un autre fait. Les notes à
forées. Ce dernier procédé est employé par des tests psychologiques ne peuvent être inter¬
exemple dans les examens des premières an¬ prétées comme des mesures physiques. Les me¬
nées de médecine, qui sont en fait des tests sures physiques ont des unités additionnables.
de connaissance. Si nous ajoutons à une tige de 1 mètre une
seconde tige de 1 mètre, la tige résultante
L’un et l’autre procédé augmentent le coût aura deux mètres. Corrélativement une diffé¬
de l’opération. Il semble cependant que, si les rence de mètre est identique où qu’elle se
1
sujets ont été soumis à des instructions pré¬ situe : la différence de longueur entre un câble
cises, il est possible d’obtenir des résultats très de 125 mètres et un câble de 120 mètres est
satisfaisants sans avoir recours ni à des révi¬
la même qu’entre un câble de 10 mètres et un
sions, ni à des conversions en fiche perforées. câble de 5 mètres. Bien entendu les mêmes
La technique d’ailleurs a fait en ce domaine opérations ne peuvent être effectuées en psy¬
des progrès considérables. L’Université d’Iowa chologie. Les unités psychologiques ne sont pas
a mis au point une feuille de réponse sur la¬ additionnables : suivant une expression classi¬
quelle peuvent être inscrites les réponses à que deux imbéciles, n’ont jamais fait un
960 items. La lecture se fait par un procédé homme intelligent. D’autre part la distance
photo-électrique, et les impulsions sont en¬ entre deux individus exprimées en notes brutes
voyées dans un compteur et un calculateur ne représentent pas forcément des distances
électronique. La machine corrige 6.000 feuilles psychologiquement constantes. Si au test d’in¬
de réponse à l’heure, et imprime en même telligence mentionné Pierre obtient 15 points,
temps les résultats bruts des sujets, et opère Paul 25 points et Jacques 35 points, nous
également une série d’opérations sur ces ré¬ n’avons pas le droit de dire que la distance
sultats ( transformation
en notes pondérées, psychologique entre Pierre et Paul est égale
calcul de notes partielles et de notes combi¬ à celle entre Paul et Jacques, pas plus que
nées, etc.). nous ne pouvons dire que Pierre est deux fois
Depuis quelques années foncitonne à la plus éloigné psychologiquement de Jacques
Mayo Clinic à Rochester, une machine qui, à qu’il ne l’est de Paul. Nous verrons que en fait
partir de la feuille de réponse à un question¬ les notes transformées permettent de se rap¬
naire de personnalité, le M.M.P.I. non seule¬ procher de certaines mesures physiques. Certes
ment donne l’ensemble des notes correspon¬ elles ne sont pas non plus additionnables.
dant aux différents groupes d’items, mais in¬ Mais il existe certaines mesures physiques qui
terprète ces notes suivant un programme pré¬ ne le sont pas non plus, celles qui correspon¬
établi, et fournit ainsi imprimé un portrait de dent à ce qu’on appelle des repérages : par
la personnalité du sujet qui a rempli la feuille exemple la température. Deux fois un litre
de réponse. d’eau à 20° font deux litres d’eau à 20°. Par
Nous ne pouvons entrer dans le détail de contre dans les notes transformées, ou au
ces techniques qui prennent aujourd’hui de moins dans certaines d’entre elles, on peut ad¬
plus en plus d’importance. Elles ont l’intérêt mettre que la distance psychologique entre
essentiel de rendre aussi indépendants que deux individus séparés par la même différence
possible des erreurs éventuelles de l’examina de notes est constante.
P. PICHOT : LES TESTS MENTAUX 661

2) La table de prévision entendu qu’on utilise le même mode de trans¬


formation et le même groupe de sujets comme
(Expectancy table) référence.
Un moyen souvent employé pour rapporter
la note brute d’un individu aux résultats du a) LES GRANDES CATEGORIES DE
groupe d’étalonnage, dans certaines applica¬ TRANSFORMATION.
tions pratiques, est d’établir une table indi¬
quant la probabilité qu’un individu ayant ob¬ On peut représenter graphiquement une
tenu une note x aura dans l’avenir un com¬
transformation en utilisant des coordonnées
portement y. Voici par exemple un extrait rectangulaires. On porte en abcisses les notes
d’une telle table. Elle a été établie aux Etats brutes et en ordonnées
les notes transformées.
Unis pour
des sujets entrant dans une école La courbe constituée par les points ayant des
d’apprentissage de mécaniciens d’aviation. A abcisses et des ordonnées correspondantes dé¬
l’entrée de l’école les sujets étaient soumis à finit le type de transformation. Si cette cour¬
une série de tests dont l’un est appelé Test be est une droite on dit qu’il s’agit d’une
transformation linéaire, si elle est autre chose
d’Aptitudes mécaniques. Les notes brutes peu¬
vent s’étaler entre 0 et 200. On a établi la table qu’une droite, on dit qu’il s’agit d’une trans¬
de prévision suivante montrant la probabilité formation non linéaire. Voici deux exemples
pour qu’un sujet, ayant à l’entrée une certaine graphiques de ces deux variétés :
note au test, obtienne au moins la moyenne
à l’examen de sortie de l’école.
ï
Probabilité d’obtenir
Note brute
la moyenne
au test à l’entrée
à l’examen final
140 91 %
120 70 %
100 39 %
80 14 %
60 3 %

Assez souvent on présente ces tables sous


forme graphique. Cette forme a l’avantage
considérable d’être facilement comprise par
des utilisateurs non psychologues.
Les pourcentages correspondant aux proba¬
bilités sont en fait des transformations des
notes brutes.

3. Les notes transformées proprement dites


On réserve cependant habituellement le nom
de notes transformées (standardized scores)
ou de notes dérivées (derived scores) à des
valeurs numériques différentes. Ces notes
transformées ont, outre les avantages que nous
avons énumérés, celui de permettre d’obtenir
des mesures comparables, permettant une
comparaison directe entre les résultats du mê¬
me sujet à différents tests, à la condition bien

Les tables correspondantes de transformation seraient :

Transformation linéaire Transformation non linéaire


Note brute Note transformée Note brute Note transformée

1 0,5 1 0,2
2 1 2 0,8
3 1,5 3 2
4 2 4 3,2
5 2,5 5 3,8
6 3 6 4,2
7 3,5 7 4,4
662 BULLETIN DE PSYCHOLOGIE

La transformation linéaire peut s’exprimer jet qui, dans l’échantillon de standardisation,


par une équation du premier degré du type avait 15. Dans la pratique on a décidé d’ajou¬
y = ax + d ter aux sujets ayant une note inférieure, la
dans laquelle y est la note transformée et x moitié des sujets ayant la même
note. Dans
la note brute, a et b étant des constantes. Dans le cas particulier le calcul ne doit pas se faire
le cas pris comme exemple a = 0,5 et b = 0. sur 12, mais sur 12 + 1/2, soit 12,5 ou 31 %
La transformation non linéaire correspond à des sujets. On dira que la note brute 15 cor¬
une équation de rang supérieur au premier de¬ respond au percentile (ou au centile) 31.
gré.
On voit donc finalement que la transfor¬
Dans la pratique il existe deux grandes va¬ mation en percentiles équivaut à peu près à
riétés de notes transformées — les notes en
donner au sujet son classement
dans un grou¬
percentiles, qui correspondent à une transfor¬ pe d’étalonnage qui comprendrait 100 sujets.
mation non linéaire, et les notes en écart Mais à la différence des classements habituels
réduit qui correspondent à une transforma¬ le percentile est d’autant plus élevé que le
tion linéaire. Nous envisagerons pour termi¬ résultat est meilleur (alors que dans les clas¬
ner une unité, l’âge mental, dont l’emploi est sements scolaires c’est l’inverse). Le percen¬
limité, contrairement aux deux précédentes, tile 50 correspond à la médiane de la distri¬
aux tests d’efficience appliqués aux enfants bution (puisqu’il y a exactement autant de
en période de développement. sujets ayant des notes brutes inférieures que
de sujets ayant des notes brutes supérieures
b) LES PERCENTILES. à cette valeur).

Les notes percentiles (on dit aussi centües) On appelle généralement les percentiles 25
sont exprimées en pourcentage de l’échantil¬ et 75 les quartiles. Dans les conditions habi¬
lon de standardisation qui se trouvent situées tuelles, la distribution des notes brutes d’un
au-dessous d’une note brute déterminée. Sup¬ test est gaussienne. Dans ces conditions la
posons qu’un individu a passé un test com¬ transformation en centiles est une distribution
posé de 50 items. Il a réussi 15 items et sa non linéaire. La courbe de transformation cor¬
note brute est 15. Supposons que le groupe de respond en effet la courbe des pourcentages
comparaison (groupe d’étalonnage) soit cons¬ cumulés, qui, dans le cas d’une distribution
titué par 40 sujets. Parmi ces 40 sujets 27 ont gaussienne des notes brutes, a la forme de
une note brute supérieure à 15,1 a 15, et 12 l’intégrale de la courbe de Gauss, c’est-à-dire
ont une note brute inférieure à 15. On peut l’ogive de Galton. Le schéma suivant donne
donc dire que 12/40 sujets, soit 30 % des su¬ une représentation graphique de cette trans¬
jets ont une note inférieure à lui, et que par formation. Vous pourrez vous exercer à dres¬
conséquent il se situe au percentile 30. En fait ser la courbe à partir du tableau de chiffres
dans ce calcul on ne tient pas compte du su¬ suivants :

Notes brutes Fréquence Fréquence cumulée % cumulé

75 100
50-54 5 70 93
45-49 2 68 90
40-44 12 56 75
35-39 17 39 52
30-34 14 25 33
25-29 10 15 20
20-24 10 5 7
15-19 3 2 3
10-14 0 2 3
5-9 2 0 0

La courbe correspondante est


P. PICHOT : LES TESTS MENTAUX 663

Il existe un cas où la transformation des


notes brutes en percentiles correspond à une
transformation linéaire, c’est le cas exception¬
nel où la distribution des notes brutes est rec¬
tangulaire.

C) NOTES BASEES SUR L’ECART TYPE.

Nous rappellerons qu’on appelle


variance la moyenne de la somme des carrés
des distances des éléments de la distribution
à la moyenne ;
écart type la racine carrée de la variance,
suivant la formule

S (x— m)2

La variance et l’écart type sont des indices


de dispersion permettant de caractériser une
distribution.
Premier cas : Echelles en écart type corres¬
pondant à une transformation linéaire.
l9S Zk,<. -Î3,S iutS 38, S H-f 43,1 Lorsque la distribution des notes brutes est
gaussienne, on peut transformer linéairement
ces notes brutes en notes transformées basées
Les avantages de la transformation en per¬ sur l’écart type.
centiles sont
Le principe est de préciser la place du sujet
— qu’elle est facile à comprendre, examiné par rapport à la moyenne des résul¬
— applicable à tous les tests donnant com¬ tats des sujets du groupe de référence, la
me résultat une note brute.
distance à la moyenne utilisant comme unité
Ses inconvénients proviennent du caractère de mesure l’écart type. On dira par exemple
non linéaire de la transformation. Le percen¬ que tel sujet se situe à 2,5 écarts types au
tile donne une image correcte du rang d’un dessus de la moyenne. La transformation se
individu dans l’échantillon, mais une image fait suivant la formule simple suivante
incorrecte de la différence entre une note
x — moyenne
et une autre. Les échelons sont inégaux au
y = -
point de vue psychologique. Dans le cas habi¬ écart type
tuel d’une distribution normale des notes bru¬
tes, il y a 7 fois plus de différence entre Po et dans laquelle y est la note transformée (appe¬
Pio qu’entre P40 et P50. lée note variable réduite, ou note z) et x la
note brute.
Nous signalerons qu’il est rare qu’on ait be¬
Cette note transformée a l’avantage par rap¬
soin de notes aussi fines que le percentillage.
On se contente souvent du décilage. port au percentilage de respecter les distances
psychologiques (à la condition bien entendu
On appelle le décile la mesure d’un élément
que la distribution des notes brutes soit gaus¬
qui aurait avant lui 10 % de l’ensemble des sienne). Il y a la même distance psychologique
éléments. D’une manière générale on appelle entre le sujet situé à — 3 sigmas et le sujet
n ème décile la mesure d’un élément qui aurait situé à — 2 sigmas de la moyenne, qu’entre
avant lui 10 n % de l’ensemble des éléments.
le sujet situé à — 0,5 sigma et celui situé
Il faut remarquer que dans cette définition à + 0,5 sigma de la moyenne.
on adopte la disposition inverse du centilage : En pratique cette réduction a deux incon¬
le premier décile correspond au percentile 90, vénients : a) il y a des valeurs négatives et
le deuxième décile correspond au percentile positives ; b) il est nécessaire d’avoir des va¬
80, etc. H y a là une confusion dans la termi¬ leurs avec décimales si l’on veut atteindre une
nologie qui n’a jamais été correctement fixée. certaine précision.
De la même manière le Quartile supérieur Pour éliminer ces objections on adopte le
(troisième quartile) correspond au percentile procédé suivant : On fixe de manière arbi¬
75, le Quartile inférieur (premier quartile) au traire la moyenne et l’écart type de la variable
percentile 25. transformée. On s’arrange pour que la moyen¬
Finalement deux remarques accessoires doi¬ ne arbitraire soit au moins égale à trois fois
vent être faites à propos des percetniles : (dans certains cas par prudence on prend 5
Il y a 99 percentiles, puisque le percentilage fois) l’écart type arbitraire, de manière que
correspond à la division de la distribution en la probabilité pour un sujet d’avoir Une note
100 classes d’effectif égal, et que le percentile transformée négative soit infime. On fixe d’au¬
correspond à la limite de classe. tre part la valeur de l’écart type en fonction
664 BULLETIN DE PSYCHOLOGIE

de la finesse discriminative qu’on veut donner à la nouvelle échelle.

Moyenne Ecart type


arbitraire arbitraire

Notes z (surtout utilisées en théorie statis


0 1 tique, incommodes en pratique)
5 2 Stanine
10 3 Utilisées dans les sub-tests des échelles d’in
telligence de Wechsler.
50 10 Notes T. Les plus fréquemment utilisées.
Beaucoup de tests d’intelligence. Généralement
100 15-16 appelé improprement Quotient Intellectuel
de déviation.
100 20 Tests de l’U.S. Employment Service et AGCT.

La transformation est très simple. Dans le Deuxième cas: Echelles en écart type cor¬
cas des notes T la formule de transformation respondant à une transformation non linéaire.
est Lorsque la distribution des notes brutes ne
10 (x — m) peut être assimilée à une distribution normale,
y = 50 + - on doit procéder à ce qu’on appelle la norma¬
lisation de la distribution. On connaît le pour¬
<T
centage de sujets se situant dans les zones de
Dans laquelle y est la note T, x la note brute, la courbe normale dont les limites sont définies
m la moyenne de l’étalonnage et sigma son en écarts types. Par exemple il y a en dessous
écart type (exprimés en notes brutes). de :

V — 3 sigmas 0,14 %
2,14
2,28 %
( — 2

13,59
_1 15,87 %

34,13
50,00 %
f °
99,72 34,13
84,13 %
( + 1
13,59
97,72 %

2,14

r
1
"+3 99,86 % des sujets
0,14

On peut calculer à l’aide de ces valeurs, une de fréquences à l’aide des notes z, on constate
table de conversion pour la courbe normale, que l’on obtient une courbe normale, même
des notes en z en centiles. si l’histogramme obtenu à partir des notes
Lorsqu’on veut normaliser une distribution brutes était très éloigné de la courbe normale.
on procède aux opérations suivantes : Cette normalisation fait que la transformation
a) on transforme les notes brutes de la dis¬ n’est pas linéaire. Par contre les notes z obte¬
tribution initiale en centiles. nues gardent leur propriété fondamentale de
b) Utilisant la table de conversion établie respecter les distances psychologiques.
sur la courbe normale, on transforme les cen¬ Comme il est fréquent que les distributions
tiles en notes z. de notes brutes ne soient pas absolument nor¬
On obtient ainsi une transformation des no¬ males, il est tentant de normaliser toutes les
tes brutes en notes z. distributions. Nous citerons à ce sujet le pas¬
Les notes z ainsi obtenues sont dites norma¬ sage suivant d’un auteur spécialisé : « Bien
lisées. En effet si on établit un histogramme que les notes en écart réduit normalisées soient
P, PICHOT LES TESTS MENTAUX 665

le type le plus satisfaisant de notes dans la duire plusieurs items pour chaque niveau. Dans
majorité des cas, il y a cependant certaines ces conditions, après plusieurs variations, on
objections techniques à normaliser automati¬ aboutit à des échelles du type suivant : elles
quement toutes les distributions. Une telle sont composées d’un nombre plus ou moins
transformation ne se justifie que lorsque élevé d’items de difficulté graduée. La réussite
l’échantillon est étendu et représentatif, et à chaque item donne un crédit de 1 (ou 2
lorsqu’il y a des raisons de croire que la dé¬ points). On a établi d’autre part la distribu¬
viation de la normalité résulte d’un défaut tion des résultats à ce test pour les différents
du test plutôt que des caractéristiques de âges chronologiques, et on a ainsi une table de
l’échantillon, ou d’autres facteurs affectant le conversion des notes brutes en âges mentaux.
comportement considéré... D’une manière gé¬ (L’âge mental 8 ans correspond au nombre de
nérale et toutes les fois que c’est possible, il points moyens obtenus par les enfants d’âge
est préférable de normaliser les distributions chronologique 8 ans). Dans l’échelle de Ter
des notes brutes par une modification des man (nouvelle révision Stanford) il y a par
items que de créer des notes normalisées ». exemple 6 items par niveau d’âge, et chaque
item donne droit à 2 points (ce qui fait qu’on
d) L’AGE MENTAL ET SES DERIVES. dit que chaque item donne un crédit de 2
L’âge mental est une unité de mesure appli¬ mois en unités d’âge mental).
cable uniquement aux tests d’efficience lors¬ La transformation que réalise ce procédé
est non linéaire. En effet les « unités » se ré¬
qu’ils sont passés par des sujets en période de
développement (c’est-à-dire en pratique jus¬ trécissent à mesure que l’âge s’élève (en raison
du ralentissement de la croissance intellec¬
qu’à 14-15 ans). C’est une unité qui paraît
tuelle) .
très simple mais qui pose en fait des problè¬
Pour tenter d’éviter cette difficulté Stern
mes très complexes au point de vue métro
logique. Son intérêt est actuellement surtout a introduit le Quotient Intellectul défini par
historique, car, même pour les tests d’intelli¬ âge mental x 100
gence pour enfants, on tend aujourd’hui à
employer des échelles en écart type. âge chronologique
Il existe plusieurs échelles en âge mental. pensant qu’un sujet garderait le même Q.I. au
Alfred Binet, qui a introduit cette notion, cours de tout son développement. En fait pour
est partie de l’idée qu’il était possible d’avoir que le Q.I. reste constant il faudrait que l’uni¬
une série d’items de difficultés graduées tels té d’âge mental se rétrécisse en proportion di¬
qu’un sujet normal d’un âge déterminé (par recte avec l’âge, ou en d’autres termes que la
exemple de 8 ans) réussirait un item x et tous dispersion des notes soit directement propor¬
les items inférieurs, et aucun des items supé¬ tionnelle à l’âge. C’est ce qu’on a essayé dans
rieurs. L’item x caractérise l’âge mental de la Révision Stanford du Binet Simon, mais
8 ans. On peut ainsi théoriquement établir qu’il est très difficile d’obtenir. En fait les
une échelle comprenant 1 item par année échelles modernes (en particulier les échelles
d’âge mental. En fait ceci est impossible pour de Wechsler pour adultes WAIS et pour en¬
deux raisons : d’une part la notion d’enfant fants WISC) ont conservé le terme Quotient
normal est une fiction, les aptitudes intellec¬ intellectuel, mais celui-ci recouvre en réalité
tuelles des enfants d’un âge chronologique dé¬ des échelles en écarts réduits de moyenne 100
terminé se répartissant autour d’une valeur et d’écart type 15. De cette manière on repro¬
moyenne, d’autre part parce que l’emploi d’un duit à peu près les répartitions qu’on obtenait
seul item par année d’âge enlève toute fidé¬ avec les Quotients Intellectuels calculés sui¬
lité au test. Il a donc été nécessaire d’intro¬ vant la technique classique.

LA FIDELITE

1. DEFINITIONS. GENERALITES Il ne faut pas confondre la fidélité d’un test


avec la fidélité des mesures statistiques.
La fidélité d’un test est la propriété en rap¬ La fidélité d’une mesure statistique, par
port avec la constance des notes obtenues par exemple d’une moyenne, se réfère essentielle¬
le même individu au cours d’une série de ment aux erreurs d’échantillonnage.
mesures. Ces mesures peuvent être obtenues La fidélité d’un test se rapporte à la cons¬
soit avec le même instrument, soit avec des tance des résultats quand les observations sont
instruments identiques (formes parallèles). répétées sur les mêmes individus, la fidélité
D’autre part la fidélité concerne aussi la cons¬ des mesures statistiques quand les opérations
tance de la note obtenue par le même individu sont répétées sur différents individus.
au cours d’une seule mesure, mais enregistrée Les résultats d’un même individu varient
par deux examinateurs différents (double cor¬ d’une occasion à l’autre, si bien que Ton peut
rection) . établir, pour un individu donné, la répartition
666 BULLETIN DE PSYCHOLOGIE

de ses résultats au même test, chacun des de la personnalité correspondant au type


résultats étant une estimation du résultat ou les habitudes existant habituellement dans
vrai. On sait que l’écart type de cette distri¬ d’items dont est composé le test.
bution est l’erreur type sur la mesure.
d) Les attitudes, les réactions émotionnelles
Si l’on utilise comme groupe de référence des situations analogues, à la situation de test
un ensemble de sujets auquel on applique le (par exemple la confiance en soi, la méfiance).
test, on calcule sur cet ensemble la moyenne
et l’écart type, et on établit à partir de ces II. Les caractéristiques permanentes et spé¬
valeurs l’étalonnage, par exemple en écarts cifiques de l’individu:
réduits. a) Les caractéristiques psychologiques spéci¬
Le problème qui se pose est de savoir dans fiques nécessaires pour répondre à certains
quelle mesure on peut se fier au classement items du test (par exemple si un item contient
du sujet par rapport à l’ensemble, puisque ce un mot que le sujet ne connaît pas).
classement est fait à partir d’une seule me¬ b) Les attitudes, les réactions émotionnelles
sure, et que nous avons vu que nous ne possé¬ et les habitudes liées à des stimulus spécifi¬
dons avec cette mesure qu’une estimation du ques du test (par exemple si dans un ques¬
résultat du sujet, estimation affectée d’une tionnaire de personnalité un item concerne
erreur (l’erreur type). Cette erreur sur l’esti¬ la peur éprouvée lorsqu’on est sur un lieu éle¬
mation est de qui caractérise la fidélité. vé, si le sujet a précisément cette peur).
Dans un test d’efficience très utilisé le TMC III. Les caractéristiques temporaires et gé¬
on sait par exemple que l’erreur type sur une nérales de l’individu ; c’est-à-dire affectant
mesure individuelle est de l’ordre de 3,7 points, systématiquement tous les items d’un test â
alors que l’écart type de la distribution des un moment déterminé.
notes du groupe d’étalonnage est de 10,4 points. a) L’état de santé, de fatigue, et la tension
On voit par cet exemple que le manque de émotionnelle.
fidélité du test fait que le même sujet peut, b) La motivation et le rapport avec l’exa¬
suivant le hasard, se trouver classé très diffé¬ minateur.
remment par rapport au groupe d’étalonnage. c) L’effet de la chaleur, de l’éclairage, de la
On a intérêt à posséder en principe des tests ventilation, etc., du local ou est appliqué le
aussi fidèles que possible. Nous verrons toute¬ test.
fois que cette affirmation demande à être qua¬ d) L’apprentissage éventuel que le sujet a
lifiée.
eu de ce type de test.
e) Les attitudes, les réaction sémotionnelles;
ou la force des habitudes actuelles dans la me¬
du. Gjxn—U. d
sure où elles dévient des éléments caractéris¬
- e--foX\ r
tiques permanents de l’individu : par exemple
U fc£r Iffl'yU1*
les attitudes politiques au cours d’une cam¬
pagne électorale.
IV. Les caractéristiques temporaires et spé¬
**oGe • cifiques de l’individu.
£/VC4_T J**. 'Krf a) Les modifications dans l’état de fatigue,
ou de la motivation en face des différents
items (par exemple le découragement résul¬
2. LES SOURCES OE VARIATION DANS tant de l’échec à un item peut entraîner une
LES RESULTATS D’UN INDIVIDU AU attitude particulière en face de l’item suivant).
COURS D’UNE SERIE DE MESURES b) Les fluctuations de l’attention, de la coor¬
dination ou des standards de jugement.
Lorsqu’on fait passer un test à un certain c) Fluctuation de la mémoire pour diffé¬
groupe d’individus, auquel on veut comparer rents faits.
les résultats d’un individu donné, on peut dé¬ d) Le niveau de pratique ou de connaissance
finir la distribution des notes du groupe par en rapport avec un item spécial.
l’écart type de cette distribution, ou mieux e) Des états émotionnels temporaires, liés
par son carré la variance. Cette variance est à un stimulus particulier (par exemple le
un indice de la variation entre personnes. contenu d’un item peut rappeler un cauchemar
Quelles sont les sources de la variance ? On récent) .

peut, avec Cronbach, envisager quatre séries f) La chance de la sélection des réponses
de facteurs : en répondant au hasard.
I. Les caractéristiques permanentes et géné¬ Au total donc la variance d’un test résulte
rales de l’individu. de l’addition de quatre variances partielles :
a) Des aptitudes générales (par exemple être celle qui dépend des caractéristiques perma¬
capable de lire). nentes et générales de l’individu, facteurs qui
b) L’aptitude générale du sujet à compren¬ sont en jeu à chaque application du test, et
dre les instructions et l’aptitude générale à qui en affectent tous les items ; celle qui dé¬
passer les tests (testwiseness). pend des caractéristiques permanentes et spé¬
c) La présence et le degré de la dimension cifiques, facteurs qui sont aussi en jeu à
P. PICHOT : LES TESTS MENTAUX 667

chaque application du test, mais qui n’affec¬ lité. Elle concerne le fait que tous les items
tent qu’un nombre limité d’items, et parfois du test se rapportent à la même caractéris¬
un seul ; celle qui dépend des caractéristiques tique psychologique.
temporaires et générales de l’individu, facteurs L’homogénéité des items doit être opposée
qui affectent tous les items du test, mais seu¬ à l’adéquation de l’échantillonnage d’items
lement au cours d’une passation particulière ; avec laquelle elle est souvent confondue. Il est
celle enfin qui dépend des caractéristiques possible de concevoir un test ayant une adé¬
temporaires et spécifiques, qui n’affectent quation parfaite des items et une homogé¬
qu’un petit nombre ou un seul item, et seule¬ néité nulle. Supposons par exemple que nous
ment au cours d’une passation particulière. construisons un test d’aptitude à la profes¬
sion de comptable, et supposons que cette ap¬
3. LES DIFFERENTS TYPES titude dépende de deux facteurs .absolument
indépendants l’un par rapport à l’autre, la
DE FIDELITE DES TESTS connaissance de la tenue des livres comptables,
et ce qu’on appelle le caractère obsessionnel,
Au sens large la fidélité d’un test indique c’est-à-dire le goût de la précision. Nous cons¬
dans quelle mesure les différences individuelles truirons un test comprenant des items se rap¬
dans les résultats à un test sont attribuables
portant aux deux éléments. Si les deux séries
à des erreurs de mesure, dues au hasard, et d’items sont bien choisis, le test aura une
dans quelle mesure elles sont attribuables à excellente adéquation de l’échantillonnage
des différences vraies des caractéristiques d’items, mais par contre une homogénéité très
considérées.
faible.

a) La stabilité dans le temps d) La fidélité des correcteurs


Elle concerne les fluctuations de hasard des
Il s’agit d’une variété très particulière de fi¬
comportements au test (et par conséquent des délité, qui n’est rattachée qu’assez artificiel¬
résultats) souvenant d’une séance de test à
lement aux précédentes. C’est elle qui con¬
d’autre. D’après ce que nous venons de dire, cerne le fait que, devant une certaine réponse
deux séries de caractéristiques sont à l’origine d’un sujet à un test, le sujet recevra la même
de ces fluctuations :les caractéristiques tempo¬ note ou une note différente de deux correc¬
raires et générales, et les caractéristiques tem¬ teurs travaillant indépendamment. Nous avons
poraires et spécifiques. dit comment, en cette matière, les procédés
La notion de stabilité dans le temps est évi¬ mécanographiques permettent une solution.
demment une abstraction. On doit parler de Cependant dans les tests à « réponses libres »
stabilité pour un intervalle de temps donné, le problème de la fidélité des correcteurs est
et il y a donc une infinité possible de stabilité fort important.
dans le temps pour un test donné, correspon¬
dant à tous les intervalles de temps possibles
4. LES TECHNIQUES DE MESURE
entre deux passations. Dans la pratique tou¬
tefois on est amené à envisager des durées qui DE LA FIDELITE
vont de quelques heures à quelques mois. Nous
verrons quelles difficultés implique le choix a) L’interprétation générale
d’une durée particulière. des coefficients de fidélité
La variation entre personnes est décrite par
b) L’adéquation de ('échantillonnage l’écart type, sigma, de la distribution, ou par
d’items son carré, la variance. Cette variation repré¬
Les items qui constituent un test consti¬ sente une combinaison des différences que
tuent un échantillon limité de la population nous désirons apprécier et de la variation as¬
sociée avec une mesure particulière. La «note
de tous les items possibles qui se rapportent à
la caractéristique psychologique étudiée. Sup¬ vraie » du sujet reste théoriquement constante
posons par exemple que nous désirions cons¬ d’une application du test à l’autre, mais la
« note observée » varie dans une certaine me¬
truire un test de connaissance du vocabulaire.
sure. On définit la « note vraie » la note
Nous prélèverons, en tirant au hasard, un
échantillon de 60 mots dans un dictionnaire. moyenne d’un sujet s’il était possible d’obser¬
Le problème est de savoir si cet échantillon ver son comportement au cours d’une répé¬
tition indéfinie du test (à la condition bien
est représentatif de l’ensemble du vocabulaire,
en d’autres termes si les résultats obtenus au entendu que n’interviendraient pas des effets
test nous permettront de prédire les résultats d’apprentissage). On appelle l’erreur la varia¬
qu’aurait eu le sujet si on lui avait demandé de tion ou la fluctuation de la note du sujet au
définir tous les mots du dictionnaire. cours de la série des applications.
L’étendue de l’erreur sur la mesure est dé¬
crite par l’erreur type sur la mesure <;„ ou par
c) L’homogénéité des items la variance erreur de la mesure «V La note
L’homogénéité des items doit être soigneu¬ observée au cours d’une application particu¬
sement distinguée des autres variétés de fidé¬ lière du test à un sujet est une combinaison
6*8 BULLETIN DE PSYCHOLOGIE

de la note vraie et de l’erreur concernant cette brutes (distribution normale et symétrique ou


application particulière. La variance des notes au contraire distribution dissymétrique (ske¬
observées sur un groupe de sujets est égale à wed), correspondant à un test « trop facile » ou
la somme de la variance des notes vraies et de à un test « trop difficile » pour le groupe) . Un
la variance erreur. exemple simple montrera le rôle de ce fac¬
teur. Si nous prenons un test d’intelligence
On peut définir le coefficient de fidélité Tu préparé pour des enfants de 11 ans, en ce qui
par la formule suivante :
concerne le niveau de difficultés, et si nous
<r2e ô2 — a2» Variance vraie l’appliquons à des enfants de 7 ans, la plupart
Tu = 1 - = - = - - des questions seront trop difficiles pour eux,
a2 a2 Variance totale et ils répondront à ces questions au hasard.
Dans ces conditions la fidélité du test pour les
D’après les valeurs que nous avons données enfants de 7 ans sera très faible, alors qu’elle
dans l’exemple précédent. sera éventuellement bien meilleure pour les
Ecart type de la distribution du groupe enfants de 11 ans. La remarque ne vaut pas
de sujets ............................ 10,4 seulement pour les tests d’efficience (où les
Erreur type sur la mesure concernant réponses sont objectivement
ou mau¬ bonnes
un sujet .................. .......... 3,7 vaises). Si nous considérons en psychologie so¬
Variance totale ....................... 108,2 ciale un test d’attitudes, et si nous l’appliquons
Variance erreur ....................... 13,7 à un groupe de sujets n’ayant pas d’attitude
Variance vraie ........................ 94,5 marquée dans le domaine envisagé, la fidélité
sera très faible, car les sujets auront là aussi
Coefficient de fidélité du test :
tendance à répondre au hasard aux différents
108,2 items. Le même test, étalonné sur un groupe
- = 0,87 de sujets pour lesquels ces attitudes ont une
94,5 grande importance, aura une bien meilleure
fidélité. Un test sur l’attitude vis-à-vis du re¬
Le coefficient de fidélité indique quelle pro¬ membrement dans les campagnes, aura une
portion de la variance est due à des différences bien plus mauvaise fidélité sur un échantillon
individuellesvraies, et non à des facteurs d’er¬ de citadins que sur un échantillon rural. Dans
reurs. Dans le cas particulier 87 % de la va¬ un autre domaine on sait que dans les en¬
riance est « vraie » et 13 % est « erreur ».
quêtes d’opinion publique, portant sur le com¬
portement aux élections, les fluctuations ob¬
b) La fidélité et la longueur du test servées (c’est-à-dire le manque de fidélité) dé¬
Il est important qu’un test soit suffisam¬ pend surtout des sujets n’ayant pas d’opinions
ment long, car à chaque addition d’un nouvel politiques définies.
item, l’échantillonnage des comportements de¬
vient un meilleurs index du comportement d) La mesure de la fidélité
du sujet par rapport à tous les items possibles par la méthode test-retest
de même nature. L’augmentation du nombre On peut mesurer la fidélité en appliquant le
d’items diminue la probabilité d’obtenir un même test au même groupe de sujets à deux
certain résultat en répondant au hasard. D’une occasions successives.
manière générale, plus le test est long, moins La corrélation entre les deux séries de notes
les facteurs de chance jouent un rôle impor¬ est un coefficient de fidélité particulier appelé
tant. coefficient de stabilité.
A la condition que tous les items du test Le coefficient de stabilité indique quelle part
soient de même nature, il existe une formule de la variance provient des caractéristiques
dite de Spearman Brown qui permet de pré¬ permanentes de l’individu, qu’elles soient gé¬
dire la fidélité d’un test lorsqu’on augmente nérales ou spécifiques. Sa différence par rap¬
ou qu’on diminue sa longueur. port à 1, c’est-à-dire la « variance erreur » cor¬
nr respond à la part de la variance qui dépend
r„ = - des caractéristiques temporaires de l’individu,
1 + (n — 1) r qu’elles soient générales ou spécifiques, sui¬
vant le schéma suivant :
dans laquelle r est le coefficient de fidélité
original,
r„ est le coefficient de fidélité du test n fois P T
plus long que le test original.

c) La fidélité à différents niveaux de note


En général on donne un seul coefficient de
fidélité pour un test. En fait le coefficient
de fidélité est assez étroitement lié aux carac¬ Le coefficient de stabilité mesure
la stabi¬
téristiques du groupe d’étalonnage, et en par¬ lité temporelle. Comme nous l’avons vu à ce
ticulier à la forme de la répartition des notes propos, il y a théoriquement une infinité de
P. PÎCHOT : LES TESTS MENTAUX 669

coefficients de stabilité possibles, en fonction f) La mesure de la fidélité


de la durée de la période séparant les deux oc¬ par la méthode du partage par moitié
casions. En général, plus l’intervalle est long, (Split half)
plus la fidélité ainsi appréciée est faible. On peut mesurer la fidélité en appliquant
un test en une seule occasion à un groupe
d’individus, et en calculant les deux notes
e) La mesure de la fidélité correspondant respectivement à deux moitiés
par la méthode des formes parallèles du test.
La corrélation entre les deux séries de notes
On peut mesurer la fidélité en appliquant au ainsi obtenues est une variété de coefficient
même groupe de sujets, deux tests équivalents, de fidélité. Elle obtient un coefficient d’équi¬
ou formes parallèles du même test, c’est-à valence. En fait le procédé est une astuce
dire deux tests composés l’un et l’autre d’un pour éviter d’avoir à construire des formes
échantillon d’items représentatifs du même en¬ parallèles, puisque les deux moitiés du test
semble parent. peuvent être considérées comme des formes
parallèles de longueur deux fois moindre que
En général, les deux formes parallèles sont celle du test initial, et que l’intervalle de temps
appliquées immédiatement à la suite l’une de entre les applications de ces formes parallèles
l’autre. Dans ce cas, le coefficient de corréla¬ est nul.
tion entre les deux séries de notes est appelé Cette méthode aboutit donc aussi à mesurer
coefficient d’équivalence. Parfois l’intervalle l’adéquation de l’échantillonnage d’items.
séparant les applications est plus long. Cependant il faut tenir compte du fait que
le coefficient est calculé sur un test deux fois
Dans le premier cas, on peut admettre que moins long que le test initial. On corrige donc
le coefficient d’équivalence mesure essen¬ habituellement le coefficient trouvé par la for¬
tiellement l’adéquation de l’échantillonnage mule de Spearman-Brown en mettant dans
d’items. Dans ce cas également le coefficient la formule n = 0,5 ce qui donne
d’équivalence indique quelle part de la va¬ 0,5 r orig.
riance provient des caractéristiques générales r demi test = -
de l’individu, qu’elles soient temporaires ou 1 + (0,5 — l)r orig.
permanentes. Sa différence par rapport à 1, d’où
c’est-à-dire la «variance erreur» correspond 2 r demi test
à la part de la variance qui dépend des carac¬ r orig. = -
téristiques spécifiques de l’individu, qu’elles + r demi-test
1
soient temporaires ou permatentes, suivant le
schéma suivant : Le test original étant deux fois plus long
que le test sur lequel est calculé le coefficient,
la corrélation de Spearman Brown aboutit à
augmenter le coefficient observé.
On peut utiliser, pour corriger pour la lon¬
gueur le coefficient de fidélité la formule de
Guttman
2 _i_ _ e
(Ta * (Jb

r orig. = 2 (1 - )
<St
Lorsque l’intervalle entre les applications
des deux formes parallèles est sensible, le coef¬ dans laquelle <7t2 est la variance du test total,
da2 et (7b2 la variance des deux demi-tests. Cette
ficient (qu’on ne peut plus appeler ici coeffi¬
méthode a l’avantage d’éviter le calcul du
cient d’équivalence) mesure l’adéquation de
coefficient de corrélation.
l’échantillonnage d’items plus la stabilité dans
le temps. Dans ces conditions le coefficient En principe on peut couper de n’importe
obtenu indique quelle part de la variance pro¬ manière le test, à la condition que les deux
vient des caractéristiques générales et perma¬ moitiés soient de longueur égale. En pra¬
nentes de l’individu, la « variance erreur » re¬ tique on constitue souvent une moitié avec les
items pairs, l’autre moitié avec les items im¬
présentant la contribution des caractéristiques
générales et temporaires, et des caractéris¬ pairs (méthode pair-impair, «odd-even»).
tiques spécifiques, permanentes et tempo¬
raires : g) La mesure de la fidélité
par la méthode de la consistance inter-item
La méthode de la consistance inter-items
est en fait une extension de la méthode du
$ partage par moitié. Le coefficient obtenu par
ces méthodes mesure à la fois l’adéquation de
l’échantillonnage d’items et l’homogénéité. A
la vérité la méthode de partage par moitié
670 BULLETIN DE PSYCHOLOGIE

dépend aussi dans une certaine mesure de groupe. La plupart du temps KR 20 et KR 21


l’homogénéité, mais son rôle est là moins im¬ donnent des résultats très voisins.
portant, en particulier dans des tests longs En principe les coefficients KR sont plus
avec la méthode pair-impair. faibles que les coefficients obtenus par la mé¬
Les formules qui permettent d’obtenir ce thode partage par moitié, sauf dans le cas où
coefficient sont des approximations de l’opé¬ le test est parfaitement homogène.
ration suivante : on calcule tous les coeffi¬ On a suggéré que la différence
cients de partage par moitié possibles pour un r partage par moitié — r Kuder-Richardson
test, et on fait la moyenne de ces coefficients. donnait une mesure de l’homogénéité du test.
Bien entendu l’opération ne peut être faite Note importante. — Les coefficients obtenus
directement, la progression du nombre des soit par la méthode de partage par moitié,
partages par moitié possibles étant très rapide soit par les méthodes de Kuder-Richardson
à mesure que le nombre des items du test aug¬ ne sont applicables que pour les tests sans
mente. temps limité. (Dans les tests d’efficience en
Les formules d’approximation ont été éta¬ temps limité, les réponses aux items ne sont
blies par Kuder et Richardson. Elles sont va¬ pas indépendantes, d’où l’obtention de coeffi¬
lables uniquement lorsque les réponses aux cients faussement élevés).
items sont cotées por 0 ou 1.
La formule KR20 de Kuder Richarr son h) La mesure de la fidélité
ou coefficient alpha par la méthode de la double correction
Elle est donnée par la formule : Si l’on applique un test à un groupe de su¬
n at2 — 23 pq jets, si l’on fait corriger chaque résultat par
r KE 20 — (- ) - deux correcteurs travaillant indépendamment,
n — 1 <rt2 et si l’on calcule la corrélation entre les deux
dans laquelle r KB 20 est le coefficient de fidélité, séries de résultats, le coefficient de corrélation
n le nombre d’items du test, obtenu donne une mesure de la fidélité inter -
correcteurs.
dta la variance des notes totales au test,
23 pq est obtenu en additionnant le produit
pour chaque item du % des sujets ayant 1 5. Conclusions et discussion
point (p) et % des sujets ayant 0 point (q). Nous pouvons rassembler dans un tableau
La formule KR21
de Kuder Richardson est
les différentes variétés de fidélité, les diffé¬
une approximation de la formule KR 20. Elle
rentes méthodes de mesure, et indiquer quelles
a l’avantage d’exiger des calculs beaucoup sont les correspondances entre les deux pers¬
moins longs.
pectives. Nous pouvons également ajouter à ce
n
M (n — M)
tableau quelles classes de facteurs (permanents
r KR 21 — (- ) -
ou temporaires, généraux ou spécifiques) cor¬
n — 1 cta
respondent aux différentes méthodes de me¬
dans laquelle M est la moyenne des notes du sure.

stabilité adéquat!-: homogéné-: fidélité


dans le on de 1’ é ité des des cor¬
temps chantillo items recteurs
nage d’i¬
tems

P
Méthode test-retest
C. de stabilité -h

appliquées immédia¬
Méthode
des
tement
C.d’
en succession
éaui valence
4 m
formes
P T
parallèles appliquées avec un
intervalle long 4 4
c, g|
Méthode d<3 partage par moitié
C. d’éauii /alêne e 4
El
Méthodes de consistance inte:
ne 4 4
Coefficient Alüha KR 20/KRXl

Méthode de la double correct


tion. 4
P. PICHOT : LES TESTS MENTAUX 671

On notera que pratiquement les deux pre¬ américains, a inventé une technique spéciale
mières colonnes correspondent à la fidélité d’échelles d’attitudes, appelée méthode du sca
proprement dite, la troisième à l’homogénéité, logramme. L’idée en a été de construire une
la quatrième à la fidélité des correcteurs. échelle rigoureusement standardisée, c’est-à
Lorsqu’on dispose pour un test de plusieurs dire que l’adhésion à un item (une proposi¬
coefficients, il est possible de calculer la part tion) implique nécessairement l’adhésion aux
de la variance du test qui provient des quatre items du niveau inférieur, d’où le nom d’ana¬
sources. Par exemple on dispose d’un test A lyse hiérarchique. Ainsi les 5 items suivants
avec une forme parallèle B. On a les résultats sont hiérarchisés : Etes-vous agrégé ? ; êtes
suivants : vous licencié ? ; êtes-vous bachelier ? ; avez
1) Forme A et Forme B passée immédia¬ vous fréquenté un établissement secondaire ? ;
tement après (ou méthode de partage avez vous fréquenté une école? La technique
par moitié sur A) : Coefficient d’équi de Guttmann permet, dans un ensemble
valence ............................. 0,85 d’items, de constituer des groupements homo¬
2) Forme A puis retest (avec la forme A) gènes, constitués d’items « scalables ». En pra¬
après 3 ans. Coefficient de stabilité . . 0,73 tique toutefois on n’obtient pas généralement,
même dans un ensemble d’items comme ceux
3) Forme A puis retest avec la forme B
après 3 ans. Equivalence plus stabilité donnés en exemple, un scalogramme parfait
temporelle .......................... 0,65 du type suivant :
On voit que, si la variance totale est 100 %
oui non
(GP + GT + SP + ST)
Rang Sujet 1 2 3 4 5 1 2 3 4 5
1) Variance GP + GT = 85 %
2) Variance GP + SP = 73 %
5 1 X X X X X
3) Variance GP = 65 %
4 2 X X X X X
D’où on extrait facilement : 3 X X X X X
Variance liée 3 4 X X X X X
à des facteurs généraux et permanents 65 % 5 X X X X X
à des facteurs généraux et temporaires 20 % 6 X X X X X
à des facteurs spécifiques et
permanents 8 % 2 7 X X X X X
à des facteurs spécifiques et
temporaires 7 % 1 8 X X X X X
H resterait à discuter ce qu’on demande d’un 9 X X X X X
test. En général on désire que la part de la 10 X X X X X
variance liée aux facteurs généraux et perma¬ 11 X X X X X
9 12 X X X X X
nents soit aussi grande que possible. Cepen¬
dant dans de nombreux cas on désire des tests
qui apprécient avec sensibilité les variations En pratique on n’arrive qu’approximative
des caractéristiques psychologiques de l’indi¬ ment à un schéma de ce type. On appelle
vidu (par exemple si l’on étudie les variations reproductibilité le degré d’exactitude avec le¬
des opinions ou des attitudes sous l’influence quel les sujets suivent l’ordre de l’échelle : c’est
de divers facteurs). Dans ces conditions il faut la précision avec laquelle on peut reproduire
faire en sorte de choisir un test pour lequel la toutes les réponses du sujet d’après son rang
à l’échelle.
contribution des facteurs généraux et tempo¬
raires soit aussi grande que possible. Dans une La formule
perspective classique, un test fidèle est celui
E
du premier type. Il faut bien se rendre compte
R = 1 --
que, dans certains cas, tout au contraire, les
facteurs généraux et temporaires sont ceux QXS
qui nous intéressent, et qu’il serait une op¬ est le coefficient de reproductibilité dans le¬
tique absurde de les considérer comme cons¬ quel E est le nombre d’erreurs total, Q le
tituant T « erreur ». nombre de questions du scalogramme, et S le
nombre de sujets. On admet qu’un scalo¬
gramme est valable si ce coefficient est au
6. REMARQUE SUR L'HOMOGENEITE
moins de 90 %. On voit donc que le coeffi¬
Louis Guttmann, dans le cadre d’études ac¬ cient de reproductibilité est, dans un cas très
complies pendant la guerre sur des soldats particulier, une mesure de l’homogénéité.

LA VALIDITE
1. DEFINITION. GENERALITES mesure effectivement ce qu’il est censé mesu¬
rer. On ne peut parler de validité dans l’ab¬
La validité d’un test est probablement son
caractère métrologique essentiel. La validité solu, puisque la validité doit être rapportée à
concerne ce que le test mesure, et comment « ce que le test est censé mesurer », c’est-à
il le mesure. On dit qu’un test est valide s’il dire à un critère.
672 BULLETIN DE PSYCHOLOGIE

2. LES GRANDES VARIETES en va de même dans toutes les variétés de


DE VALIDITE tests à l’exception d’un seul, celui des tests de
connaissance, sur lequel nous reviendrons.
a) La Validité apparente (face validity) Dans le domaine de la psychologie sociale, le
Si les items d’un test sont du type suivant : problème des rapports entre les réponses aux
tests d’attitudes par exemple (tests qui ont
Je suis plus nerveux que la plupart des
une validité apparente) et le comportement
gens VRAI FAUX il s’agira d’un test, qui,
du sujet entre dans ce cadre. Si un sujet mani¬
apparemment apprécie la nervosité du sujet. feste dans un test de ce type une certaine atti¬
Si par contre ils sont du type suivant :
tude, la seule conclusion qu’on en puisse tirer,
J’aime jouer au football
FAUX VRAI
à défaut d’autres informations, est le fait brut
il s’agira d’un test qui, apparemment, appré¬
qu’il s’est comporté de cette manière dans la
cie l’intérêt pour les sports.
situation de test. Bien entendu les remarques
On appelle validité apparente la concor¬
qui précèdent ne signifient pas qu’un test
dance apparente entre l’aspect du test et ce
ayant une validité apparente n’a automatique¬
qu’il est censé mesurer. Pendant longtemps ment aucune validité empirique dans le même
beaucoup de tests n’ont eu autre chose qu’une
domaine. Mais avant de pouvoir affirmer cette
validité apparente. Ainsi une épreuve consis¬
validité empirique, il faut la prouver, et non
tant à demander à un sujet d’indiquer ce qu’il
se contenter de la prédire à partir de la vali¬
se souvenait d’un texte qu’on venait de lui
dité apparente.
lire était appelé test de mémoire.
Or il est rapidement apparu que la validité Il est cependant des domaines où la fidélité
apparente était de valeur très contestable. apparente (ou son absence) a son utilité.
Ainsi par exemple l’épreuve de « mémoire d’un Tout d’abord il peut être intéressant qu’un
texte » est très étroitement liée à l’intelligence, test ait une validité apparente (en même temps
beaucoup plus en tout cas qu’à une dimension qu’une validité empirique) afin d’être bien ac¬
hypothétique de la personnalité qui serait la cepté par les sujets auxquels il s’adresse. Ainsi
mémoire. En effet sa corrélation avec les tests dans l’industrie un candidat acceptera, pour
d’intelligence est beaucoup plus élevée qu’avec être sélectionné, de passer un test qui lui
d’autres tests qui, apparemment, mesuraient paraît en rapport avec l’activité pour laquelle
également la mémoire. Dans certains cas on il est sélectionné. Il acceptera beaucoup moins
a même pu montrer que la validité apparente facilement un test sans validité apparente
donnait des indications inverses des autres (par exemple un test papier crayon lorsqu’il
méthodes d’appréciation de la validité. On s’agit d’une sélection pour un métier manuel).
sait par exemple que la personnalité dite hys¬ D’autre part, et inversement, il est des cas
térique a, comme une de ses caractéristiques où il est utile que le test n’ait pas de validité
essentielles,
l’égocentrisme. Le sujet à per¬ apparente. Si par exemple le sujet a intérêt
sonnalité hystérique a tendance à se placer à cacher ses caractéristiques psychologiques,
au centre de la scène, à attirer l’attention, à il peut être utile de les explorer sans qu’il
se rendre « intéressant
Dans un question¬
». s’en aperçoive. C’est spécialement le cas en
naire de personnalité très utilisé, le M.M.F.I., psychologie pathologique, et à ce titre l’emploi
il existe la question suivante : de questionnaires comme le M.M.P.I., dont
«Je pense que beaucoup de gens exagèrent nous avons donné un exemple d’item, composé
leur misère afin d’obtenir la sympathie et de questions sans validité apparente (questions
l’aide d’autrui». VRAI FAUX. dites subtiles), est d’un grand intérêt. Si cette
Les sujets présentant
une personnalité hys méthode est justifiée dans un cadre médical,
tériique répondent beaucoup plus souvent que elle pose évidemment des problèmes éthiques
les sujets normaux FAUX à cette question, la dans d’autres domaines.
différence étant
hautement significative. On
peut donc dire dans ce cas que la réponse VRAI b) La validité de contenu
aurait une validité apparente, alors que la ré¬ (content validity)
ponse FAUX aura une validité que nous quali¬
fierons ultérieurement d’empirique. Naturelle¬ On peut la définir comme la validité appa¬
ment en la circonstance, la réponse peut s’ex¬ rente des tests de connaissance. Un test com¬
pliquer a posteriori par le fait qu’un des élé¬ posé d’items concernant les connaissances en
ments probablement centraux de la personna¬ mathématiques aura une validité de contenu
lité hystérique est le manque de conscience de par rapport aux connaissances en mathéma¬
sa propre personnalité, le manque d’ insight ». tiques. Bien que ce problème ne nous intéresse
Dans ces conditions les sujets non seulement que très accessoirement, il faut cependant si¬
ne reconnaissent pas qu’ils possèdent un fort gnaler que la validité de contenu, de même
égocentrisme, mais croient même que ce com¬ que la validité apparente n’est pas sans danger
portement psychologique est rare ou inexis¬ même lorsqu’elle paraît évidente. Les spécia¬
tant. listes comme Gulliksen conseilent de la con¬
Quoiqu’il en soit, cet exemple illustre bien trôler par une série de procédés : calcul de cor¬
le caractère dangereux de la validité appa¬ rélations entre tests ayant des contenus appa¬
rente dans le domaine des questionnaires. H remment du même domaine, comparaison
P. PICHOT ; LES TESTS MENTAUX 673

entre les résultats avant et après apprentis¬ prédiction. L’erreur type sur la prédiction est
sage dans la matière, etc. en effet donnée par la formule :
Cronbach, qui ne parle pas de la validité
apparente, définit la validité de contenu de la (T est — tir ~\J I Txy2
manière suivante.
dans laquelle rxy est le coefficient de validité,
Question posée : ce test donne-t-il une me¬ (Test l’erreur type sur la prévision (estimation),
sure correcte de la performance dans une a y l’écart type des valeurs du critère. On voit
série importante de tâches? que si la validité est parfaite, l’erreur type sur
Technique : comparer logiquement les items la prévision est nulle, si la validité est nulle,
au contenu supposé être mesuré. l’erreur type sur la prévision est égale à l’écart
Il donne comme exemple un test de sténo¬ type du critère ; la prévision est aussi grande
graphie, qui est examiné pour voir si le contenu que la distribution des notes du critère.
est typique de la correspondance de bureau. D’après cette formule on voit que le terme

c) Les validités empiriques V I r*y2

Les validités empiriques se réfèrent à la sert à indiquer la taille de l’erreur par rap¬
liaison entre les résultats du test et un critère port à l’erreur qui résulterait d’une prédiction
extérieur, ce dernier étant indépendant du test faite au hasard. Ce terme est connu sous le
et constituant une mesure de ce que le test nom de coefficient d’aliénation
(k). C’est un
est censé prédire. moyen d’interpréter le coefficient de validité
en insistant sur la précision de la valeur pré¬
1. LES INDICES DE VALIDITE dictive des notes individuelles. Si le coeffi¬
EMPIRIQUE cient de validité est de 0, le coefficient d’alié¬
Les indices utilisés indiquent dans quelle nation est de 1, si le coefficient de validité est
mesure les résultats au test sont liés au cri¬ de + 1, le coefficient d’aliénation est de 0.
tère. Pratiquement on peut employer trois va¬ Si le coefficient de validité est de + 0,50, le
riétés d’indices : coefficient d’aliénation est de 0,87.
— Les tables de 'prévision. Nous en avons 2. LA VALIDITE PREDICTIVE.
déjà parlé à propos des méthodes de trans¬
formation des notes brutes. Faciles à com¬ Suivant la formulation de Cronbach, la défi¬
prendre, elles donnent une représentation par¬ nition de la validité prédictive est la suivante :
lante de la validité empirique. Leur inconvé¬ Question posée : Les notes au test permet¬
nient est de ne pas rassembler toute l’infor¬ tent-elles de prédire une certaine performance
mation dans un indice unique. future importante?
Technique : Donner le test et l’utiliser pour
— Les coefficients de corrélation.
prédire le résultat. Un certain temps plus tard,
La méthode la plus courante pour définir la obtenir une mesure du résultat. Comparer la
validité d’un test par rapport à un critère est prédiction avec le résultat.
de calculer un coefficient de corrélation entre
Le calcul de la validité prédictive est sur¬
les deux variables.
tout indiqué pour les tests utilisés dans des
Il existe de nombreux coefficients de corré¬
décisions de sélection et de classification.
lation mis au point par les statisticiens. Le
plus courant est le coefficient r de Bravais Le calcul de la validité prédictive, indépen¬
damment des difficultés inhérentes aux vali¬
Pearson. Je rappelle qu’un coefficient de + 1
indique une liaison positive parfaite, de 0 une dités empiriques sur lesquelles nous revien¬
absence totale de liaison, de — 1 une liaison drons, offre une difficulté supplémentaire. Il
est nécessaire d’obtenir des informations pré¬
négative parfaite. Suivant les cas on peut uti¬
liser d’autres coefficients (par exemple le coef¬ cises sur les sujets auxquels a été appliqué le
ficient par rangs, p de Spearman). Je rap¬ test un temps plus ou moins long après cette
pelle également que le carré du coefficient de application. Or il est souvent difficile en pra¬
corrélation correspond à la variance commune tique de recueillir ces informations, en tout
aux deux variables. Ainsi si un test corréle à cas sur tous les individus, et ceci d'autant plus
+ 0,50 avec un critère, ceci signifie que test qui l’intervalle qui sépare les deux moments
et critère ont en commun environ 50 % de est plus long.
leur variance respective, et que 50 % de la 3. LA VALIDITE SIMULTANEE (également
variance du test et du critère n’ont aucun
appelée validité concurrente). Suivant Cron¬
rapport entre elles. Les coefficients de corré¬ bach, elle se formule ainsi :
lation ainsi calculés sont appelés coefficients
de validité. Question posée : Les notes au test permet¬
tent-elles une estimation d’une performance
— Le coefficient d'aliénation. actuelle ?

Dans la mesure où un test est utilisé pour Technique: Administrer le test. Obtenir une
faire une prédiction sur le comportement d’un mesure directe de l’autre performance. Com¬
individu, le coefficient de validité peut être parer les deux.
interprété en termes de l’erreur type sur la Ce type de validité doit être appliqué aux
674 BULLETIN DE PSYCHOLOGIE

tests utilisés en substitution d’un procédé variable, un indice de leur rendement profes¬
moins commode. sionnel. Cet indice est très divers. Thorndike
a classé ces indices en deux types :
4. PROBLEMES POSES PAR LES VALIDI¬
— mesures de la performance dans un échan¬
TES EMPIRIQUES (PREDICTIVE ET SIMUL¬ tillon limité de comportement, par exemple
TANEE).
une durée limitée de travail,
— évaluations basées sur une synthèse de
a) Le critère rendement professionnel. Il peut dans ce cas
Qu’il s’agisse de validité empirique prédic¬ s’agir du nombre de pièces produites pour un
tive ou simultanée, le choix du critère est le ouvrier, du montant des ventes pour un voya¬
temps capital de l’opération. Ce n’est qu’en geur de commerce, des notations par les supé¬
terme de ces critères que l’on peut définir rieurs, et de décisions administratives telles
opérationnellement ce que le test en fait me¬ que promotion ou renvoi.
sure. Il faut à nouveau souligner qu’il est im¬ 5. LES ESTIMATIONS (ratings). Des esti¬
prudent de se contenter d’accepter le nom des mations peuvent être utilisées dans le cadre
tests comme une indication de ce que le test des autres critères (scolaires, enseignements
mesure. On arriverait autrement au paradoxe spécialisés, réussite «sur le tas»). On peut y
d’Alfred Binet qui, prié de définir l’intelli¬ ajouter les estimations par les officiers dans
gence, répondit «l’intelligence est ce que me¬ un cadre militaire, par des pairs (étudiants,
sure mon test». Nous énumérerons rapide¬ collègues, etc.). Dans certains cas l’estimation
ment quelques critères employés, soit pour les constitue le critère
essentiel. Ces estimations
tests d’efficience, soit pour les tests de person¬ peuvent couvrir la gamme des aspects psycho¬
nalité.
logiques de l’individu mesurés par les tests,
aussi bien de personnalité que d’efficience. On
LA MATURATION. C’est un critère qui a
1. peut par exemple obtenir des estimations par
été souvent employé pour la validation des leurs camarades de traits de personnalité, d’at¬
tests d’intelligence chez l’enfant. Le concept titudes, etc., et utiliser ces estimations comme
même d’âge mental implique que l’intelligence critères. Ces estimations sont très souvent
est ce qui croît avec l’âge chrnonlogique. En employées comme critères pour les tests de
fait, ce critère employé seul est insuffisant, car personnalité, car des critères objectifs sont
la taille ou le poids augmentent aussi chez beaucoup plus difficiles à découvrir en ce do¬
l’enfant avec l’âge, bien qu’ils ne sauraient maine. C’est particulièrement le cas pour les
évidemment être considérés comme des expres¬ traits de comportement social, pour lesquels
sions de l’intelligence. les estimations basées sur un contact person¬
nel avec le sujet constituent le critère le plus
2. LES RESULTATS SCOLAIRES. Les pre¬ naturel.
miers tests d’intelligence, ceux de Binet et
Simon, avaient été construits pour prédire U est généralement nécessaire de suivre des
quels sujets étaient capables et quels sujets règles précises pour recueillir les estimations.
étaient incapables de suivre l’enseignement H est généralement désirable d’obtenir simul¬
tanément des estimations sur le même sujet
primaire normal. Bien que les auteurs de tests
d’intelligence affirment le plus souvent que par plusieurs observateurs indépendants, afin
le critère de l’intelligence ne saurait être seu¬ d’éliminer les biais
individuels des observa¬
lement la réussite scolaire (Binet, le premier, teurs. L’exactitude des estimations peut être
disait qu’il voulait mesurer l’intelligence considérablement améliorée par l’emploi
d’échelles d’estimation (rating
scales) bien
«toute nue»), en pratique le critère scolaire
a été le plus employé pour la validation des construites, contenant des définitions précises
tests d’intelligence. De ce fait beaucoup de et sans ambiguïté des caractéristiques à es¬
tests d’intelligence (et en premier lieu le test timer. Les échelles d’estimation constituent en
de Binet et Simon) sont d’abord des tests pré¬ outre une précaution contre 1’ « effet de halo »,
disant la réussite scolaire. c’est-à-dire la tendance pour l’observateur à
être influencé dans toutes ses estimations des
3. LES RESULTATS DANS LES ENSEIGNE¬ caractéristiques psychologiques diverses d’un
MENTS SPECIALISES. Le critère est souvent individu, par un jugement favorable ou défa¬
employé pour la validation prédictive des tests vorable porté sur une caractéristique, qui ainsi
d’aptitude. Ainsi pour valider un test d’apti¬ colore les jugements portés sur les autres.
tudes mécaniques, on l’appliquera à l’entrée Enfin l’observateur doit avoir pu observer le
d’un cours d’élève mécanicien, et le critère sujet dans des siutations mettant en jeu les
sera la note obtenue à l’examen terminal. caractéristiques psychologiques dont il a à
faire l’estimation.
4. LA REUSSITE « SUR LE TAS ». C’est pro¬
6. LES GROUPES CONTRASTES.
bablement le meilleur critère pour la valida¬
tion prédictive des tests d’aptitude. La tech¬ La méthode consiste à utiliser comme cri¬
nique consiste à appliquer le test aux sujets tère le fait d’appartenir à un groupe ou d'en
avant qu’ils entrent dans leur emploi, et à être éliminé. Par exemple, Binet avait pris,
prendre comme critère, au bout d’un délai comme critère de ses items d’intelligence, le
P. PICHOT : LES TESTS MENTAUX 675

fait d’être réussis par


des enfants dits nor¬ dité. Ce sont des techniques d’homogénéisation
maux, et d’être impossibles à résoudre par des des tests, à l’aide de l’analyse d’items.
enfants hospitalisés dans une institution pour
débiles mentaux. Bien entendu la méthode des b) Combinaison de la validité de plusieurs
groupes contrastées se combine souvent avec tests
un des précédents critères. P'ar exemple le
Dans certains cas on calcule la validité de
groupe des sujets hospitalisés l’avait été sur
la base de l’estimation de psychiatres. Néan¬ plusieurs tests par rapport à un même cri¬
moins on peut admettre que le véritable cri¬ tère. Comme chaque coefficient de validité est
tère de groupes contrastés concerne des inférieur à l’unité (c’est-à-dire n’est pas par¬
groupes qui «se sont différenciés graduelle¬ fait) il y a intérêt à combiner les résultats de
ment en fonction de facteurs multiples de plusieurs tests afin d’obtenir un résultat total
la vie de tous les jours ». De ce fait le critère qui ait une validité supérieure à celle de
est généralement complexe. chaque test pris isolément. L’ensemble de
La méthode des groupes contrastés est uti¬ tests ainsi constitué s’appelle une batterie de
lisée fréquemment pour la validation de tests tests. Les principaux procédés employés sont :
de personnalité. On a utilisé comme groupes 1. L’EQUATION DE REGRESSION MUL¬
TIPLE. Elle est de la forme
par exemple des groupes professionnels, des
groupes d’opinion, etc. En psychologie sociale y = axi + bx2 + ... + z
le critère est souvent employé pour valider par dans laquelle Xi, x2, etc. sont les notes aux
exemple des tests d’attitudes. On compare les différents tests de la batterie ; a, b, etc. des
résultats de deux groupes ayant des diffé¬ valeurs appelées pondérations, z une cons¬
rences dans l’attitude étudiée (ces deux grou¬ tante ; et y la note composite servant à la
pes étant par exemple les adhérents de deux prédiction. Le problème est de calculer a, b,
partis politiques). On peut aussi citer comme etc. et z de manière que y ait la corrélation
groupes contrastés les sujets avant un certain la plus élevée possible avec le critère. On dis¬
diagnostic psychiatrique. pose pour ce faire de procédés statistiques qui
tiennent compte à la fois des corrélations de
7. CORRELATIONS AVEC D’AUTRES TESTS. chaque test avec le critère, et de la corréla¬
Le critère est représenté par un autre test, tion des tests entre eux (il est en effet évi¬
ayant une validité reconnue. On détermine, dent qu’il est inutile d’inclure dans la batte¬
en appliquant successivement le test critère rie un test ayant une corrélation nulle avec
et le test à valider aux mêmes sujets, la corré¬ le critère, ou un test ayant une corrélation
lation entre les deux séries de résultats. On parfaite avec un autre test de la batterie,
obtient ainsi une variété de validité simulta¬ puisque dans les deux cas on n’ajouterait rien
née. Le procédé est légitime à deux conditions: à la valeur prédictive de la note y). D’une
a) que le test critère ait effectivement une manière générale on donne des pondérations
bonne validité ; b) que le test à valider soit en proportion directe de la corrélation avec
une version abrégée ou simplifiée du test cri¬ le critère, et en proportion inverse de la corré¬
tère. Dans tous les autres cas le procédé est lation avec les autres tests. Le poids le plus
indéfendable. Cependant sa facilité fait qu’il grand est donné au test ayant la meilleure va¬
est souvent employé. lidité et le plus faible recouvrement avec le
reste de la batterie.
8. CONSISTANCE INTERNE. 2. LES FONCTIONS DISCRIMINANTES.
Nous avons dit que la mesure de la consis¬ L’équation de régression multiple est utili¬
tance interne permettait l’appréciation de cer¬ sable lorsque la batterie est employée pour
taines variétés de fidélité. Dans la descrip¬ prédire la position d’un sujet dans un groupe.
tion de nombreux tests de personnalité, on En effet une batterie
de tests d’intelligence
lit que la validité du test a été confirmée « par valide permet d’obtenir une note qui classe au
la méthode de la consistance interne ». On em¬ mieux le sujet par rapport à son intelligence
ploie généralement l’une des deux méthodes dans le groupe d’étalonnage. Dans certains
suivantes : cas le problème est différent. Nous pouvons
a) après avoir appliqué le test à un groupe vouloir savoir quelle probabilité le sujet a
de sujets, on constitue deux sous groupes, com¬ d’appartenir à plusieurs groupes de sujets. Par
posés par les sujets ayant les notes les plus exemple considérons un groupe de sujets mon¬
élevées et par ceux ayant les notes les plus trant des attitudes
racistes, et un groupe de
basses. On compare alors les résultats des deux sujets montrant des atitudes anti racistes.
groupes pour chaque item, et on retient comme Nous pouvons chercher à construire une bat¬
items valides les items montrant des diffé¬ terie de tests nous permettant de situer un
rences significatives. sujet par rapport à ces deux groupes, indi¬
b) On calcule un coefficient de corrélation quant sa distance par rapport à eux. Le même
entre le résultat à chaque item et la note problème peut éventuellement se poser par
totale au test. On retient comme items «va¬ rapport à un nombre plus élevé de groupes. La
lides» ceux pour lesquels le coefficient est méthode permettant de combiner les notes aux
suffisamment élevé. Ces méthodes ne sont tests de la batterie de manière à avoir une
pas des méthodes d’appréciation de la vali¬ valeur prédictive optimale est dite méthode
676 BULLETIN DE PSYCHOLOGIE

des fonctions discriminantes. Une fonction validation) est une analyse de la signification
discriminante se présente comme une équa¬ des notes au test en terme de concepts psycho¬
tion de régression multiple. Nous prendrons logiques. Parfois l’examinateur part d’un test
un exemple simple comportant deux tests et qu’il désire comprendre mieux. Parfois il part
deux groupes. La représentation graphique d’un concept pour lequel il désire un instru¬
des sujets est la suivante : ment de mesure. L’interprétation d’un test est
construite très graduellement, et probablement
n’est jamais complète.
Une connaissance se
développe, nous arrivons à une délimitation
plus précise des influences qui affectent les
notes au test, et nous sommes capables d’esti¬
f x mer la force et le caractère de chaque in¬
fluence... Alors que la validité prédictive est
examinée au cours d’une seule expérience, la
validité de « construct » est établie à travers
une longue suite de relations réciproques, entre
observations, raisonnements, et imagination.
D’abord, peut-être, l’imagination suggère que
la théorie (construct) A rend compte du ré¬
sultat au test, Le chercheur fait le raisonne¬
ment suivant : « S’il en est ainsi, les sujets
ayant des notes élevées doivent avoir la carac¬
Chaque point représente un sujet (les coor¬ téristique X ». U fait une expérience, et si son
données étant les notes aux deux tests). Gra¬ hypothèse est confirmée, l’interprétation re¬
phiquement la solution consiste à déterminer çoit un argument en sa faveur. Mais, à me¬
le centre de gravité de chacun des deux grou¬ sure que différentes prédictions sont testées,
certaines d’entre elles se montrent inexactes.
pes de points, et à tracer la droite qui joint
ces deux centres de gravité. On projette alors L’interprétation proposée doit être modifiée
chacun des points sur cette droite, et on déter¬ ou bien en évoquant un concept différent, en
mine ainsi la distance de chaque point pro¬ introduisant un concept additionnel, ou en
jeté par rapport aux deux centres de gravité. altérant la théorie du concept lui-même. Le
Dans la solution algébrique, la valeur y de processus de la validation de construct est
l’équation de régression multiple correspond à le même que celui par lequel les théories scien¬
la projection de l’individu-point sur la droite tifiques sont établies. Certains constructs
joignant les centres de gravité, qui est la droite sont «jeunes» et pas beaucoup de théories
discriminante. Le procédé peut être étendu à n’ont été développées autour d’eux. Des con¬
plus de deux tests et à plus de deux groupes. cepts plus anciens (par exemple l’intelligence
On a ainsi un moyen de combinaison opti¬ ou la force du moi) sont intriquées dans les
théories élaborées.
male des résultats pour indiquer les probabi¬
lités respectives du sujet d’appartenir à cha¬ Il y a trois parties dans la validation de
« construct » :
cun des groupes envisagés.
Dans une fonction discriminante la pondé¬ — Suggérer quel « construct » pourrait ren¬
ration d’un test est d’autant plus forte que dre compte de la performance au test. C’est
cette note contribue davantage à distinguer un acte d’imagination, basé sur l’observation
les groupes. ou l’étude logique du test.
— Dériver des hypothèses testables de la
c) Rapports entre la validité empirique théorie entourant le «construct». C’est une
et la fidélité opération purement logique.
Un test ayant une fidélité faible ne peut — Effectuer une étude empirique pour tes¬
donner une prédiction précise : il aura donc ter cette hypothèse. »
une validité faible. Il existe une règle à ce La notion de validité de « construct » a fait
sujet : l’objet de nombreuses discussions récentes, à
La corrélation entre le test et un critère in¬ vrai dire d’ordre philosophique. Certains au¬
dépendant ne peut dépasser la racine carrée teurs estiment qu’il ne s’agit pas de validité
de la fidélité mesurée par la méthode des au sens habituel du mot, et qu’en tout cas la
formes parallèles. Si, par exemple, la fidélité série de procédés que recouvre le terme n’a
est de 0,64, la validité ne peut dépasser 0,80. rien d’original.
Cette relation dérive directement de la rela¬ e) La validité factorielle
tion entre fidélité et longueur du test.
La validité factorielle est définie par la
d) La validité de « construct » saturation du test dans un facteur. Pour en
Cette quatrième variété de validité a été dé¬ comprendre le sens il est nécessaire mainte¬
crite pour la première fois en 1955 par Cron nant d’envisager les principales méthodes de
bach et Meehl. Us la définissent de la manière structuration des résultats aux tests, dont pré¬
suivante : cisément l’analyse factorielle est actuellement
«La validation de «construct» (construct la plus employée.
P. PICHOT : LES TESTS MENTAUX 677

LES METHODES DE STRUCTURATION DES RESULTATS

L’ANALYSE FACTORIELLE ment la plupart


des corrélations observées
s’échelonnent entre 0 et 4 1. Généralement
L’analyse
factorielle est line méthode mathé¬ elles sont données avec deux décimales, par
matique qui sert à examiner la signification exemple r = + 0,45 (habituellement bienqu’in
d’un test par l’étude de ses corrélations avec correctement en principe exprimé par r =
d’autres variables. 4 -45).
Le carré de la corrélation entre deux tests
a) La corrélation
est égal à la variance cormrmne aux deux
Nous rappellerons que le coefficient de cor¬ tests.

rélation est un indice numérique qui mesure Si deux tests A et B ont entre eux une cor¬
le degré de co-variation de deux variables. Si rélation de 4 .70, ceci signifie que 49 % de la
l’on applique deux tests A et B à un groupe variance de A et 49 % de la variance de B
de sujets, nous pouvons calculer le coefficient sont communes. On voit donc que le coeffi¬
de corrélation entre les deux séries de notes. cient de corrélation permet de dire qu’il y a
Si nous employons, comme il est habituel, le un ou plusieurs éléments communs à la réus¬
coefficient r de Bravais-Fearson, nous appelle¬ site aux deux tests, et de préciser dans quelle
ra le coefficient de corrélation entre les deux proportion ces éléments communs jouent dans
tests A et B. Ce coefficient indique avec quelle la réussite aux deux tests.
probabilité on peut prédire pour un sujet
donné la note au test B à partir de sa note b) La matrice de corrélation
au test A. Le coefficient r varie entre — 1 et
+ 1. Un coefficient de 0 indique qu’aucune Lorsqu’on applique au groupe de Sujets plus
prédiction n’est possible. Un coefficient de — 1 de deux tests, on peut calculer les coefficients
ou de 4-1 indique qu’une prédiction parfaite de corrélations pour les tests deux à deux. On
est possible (dans le cas d’une corrélation peut disposer ces résultats sous la forme d’une
positive, les sujets ayant les meilleures notes matrice de corrélations. Celle-ci est évidem¬
à A ont aussi les meilleures notes à B, dans ment symétrique. Théoriquement la diagonale
le cas d’une corrélation négative, les sujets devrait contenir les coefficients de fidélité des
ayant les meilleures notes à A ont les moins tests. Pratiquement les matrices de corrélation
bonnes notes à B et inversement). Pratique¬ se présentent de la manière suivante :

Raisonnement Vissage Assemblage


A B C arithmétique
A r&s Tac Vocabulaire .66 .06 .14
B tbc Raisonnement
arithmétique .03 .16
C Vissage .38
Assemblage

(A gauche une matrice théorique à 3 tests, à droite une matrice réelle de tests d’efficience
employés dans l’industrie, concernant 4 tests) .

c) Principe de l’analyse factorielle Pour illustrer graphiquement le principe nous


C’est à partir de cette matrice d’intercorré¬ représentons la variance de chaque test par
lation que l’on pratique l’analyse factorielle. un losange.
Cas n° 1

A B C
A 0 0
B 0

La variance de chaque test est indépendante. On peut dire que le résultat à chaque test est
déterminé par un facteur spécifique.
678 BULLETIN DE PSYCHOLOGIE

Approxivativement 50 % de la variance de A 50 % par le facteur général, et à 50 % par le


et de B sont communes, 50 % de la variance facteur spécifique à A ;
de B_ et de C, et 50 % de la variance de A et
de C. Le triangle central représente la part — la variance du test B sera expliquée à 50 %
de la variance commune aux trois tests. On par le facteur général et à 50 % par le facteur
peut donc lire que cette part de la variance spécifique à B ;
est expliquée par l’existence d’un facteur géné¬ — la variance du test C sera expliquée à
ral Ainsi 50 % par le facteur général et à 50 % par le
— la variance du test A sera expliquée à facteur spécifique de C.
A
Cas n° 3

A B C
A .6 .6
B .4

36 % de la variance de A et B est commune, moins la zone correspondant au facteur géné¬


36 % de la variance de A et C, 16 % de la va¬ ral.
riance de B et C. La représentation graphique Facteur de groupe AC et Facteur de groupe
montre l’existence de 3 ordres de facteurs : BC définis de la même manière.
2. Trois facteurs spécifiques (A, B et C) cor
1. Facteur général. C’est la zone où les trois
pourront être représentés dans le tableau sui
losanges sont superposés.
respondant aux zones où les losanges restent
2. Trois facteurs de groupe : sans superposition.
Facteur de groupe AB correspondant à la Ainsi les résultats de l’analyse factorielle
zone où les losanges A et B sont superposés, vant :

Facteurs

de groupe spécifiques
Tests général AB BC AD ABC
h2

A ............ + + + + 1
B ............ + + + + 1
C .. ........... + + + + 1

Les croix indiquent que le facteur de la co¬ culier dépend de la décision du psychologue.
lonne influe sur le résultat au test. Cette in¬ Schématiquement on peut distinguer :
fluence est exprimée par un chiffre qui est 1. Le modèle dit bi factoriel de Spearman.
la saturation du test dans le facteur . Le carré
Il a été développé pour les tests d’efficience,
de cette saturation indique la fraction de la
variance expliquée par le facteur. La somme
mais peut éventuellement s’appliquer à d’au¬
tres domaines. En général dans les tests d’ef¬
des carrés des saturations est en principe
ficience toutes les corrélations sont positives
égale à 1. Elle est désignée par h2. En fait h2
et non milles, ce qui suggère l’existence d’un
n’est pas égal à 1 pour deux raisons : 1) On facteur général. Le modèle bi-factoriel aboutit
ne tient pas compte dans les analyses facto¬
à l’isolement d’un facteur général et de fac¬
rielles des facteurs spécifiques qui, du fait
teurs de groupe, suivant le schéma donné anté¬
même de leur caractère spécifique, ne sont pas
rieurement (cas n° 3). Dans le domaine des
intéressants pour l’analyse. 2) Le schéma
donné correspond au cas théorique où les tests tests d’efficience, le facteur général appelé g
est assimilé par Spearman à l’intelligence gé¬
auraient une fidélité parfaite. En fait donc
nérale, les facteurs de groupe aux attitudes
h2 représente uniquement la somme des carrés
spéciales. Du fait de sa structure le modèle
des saturations du test dans le facteur général
et dans les facteurs de groupe. On a est généralement appelé hiérarchique.
2. Les modèles multifactoriels de Thurstone.
h2 + carré de la saturation en facteur spé¬
Dans le schéma précédent on peut, si l’on
cifique + (1 — coefficient de fidélité) = 1.
veut, ne pas tenir compte du facteur général.
d) Variétés d’analyses factorielles Les intercorrélations entre les trois tests peu¬
vent être expliquées par seulement 3 facteurs
A partir d’une matrice d’intercorrélation il de groupe correspondant aux zones communes
y existe de nombreux précédés mathématiques aux tests considérés deux à deux.
d’analyse factorielle. Tous sont mathématique¬ Ces trois facteurs de groupe ont en réalité
ment corrects et le choix d’un procédé parti¬ une zone commune (celle qui correspond au
P. PICHOT : LES TESTS MENTAUX 679

facteur général de Spearman). Dans le schéma programmes pour ordinateurs qui donnent
de Thurstone, cette liaison entre les facteurs automatiquement la structure orthogonale la
de groupe, est exprimée par le fait que les fac¬ plus « simple ».
teurs sont eux-mêmes intercorrélés entre eux. Thurstone a montré sur un exemple concret
En général la représentation des facteurs se à quoi correspondait son modèle à quoi corres¬
faisant par des vecteurs, le fait que les fac¬ pondait son modèle multifactoriel en structure
teurs sont intercorrélés s’exprime par le fait simple avec facteurs obliques. Il rassemble une
que les vecteurs représentant les facteurs sont collection de boîtes parallélipipédiques de
obliques les uns par rapport aux autres. tailles et de proportions variées. H définit en¬
Du fait que ces facteurs sont intercorrélés suite une série de mesures, par exemple la
entre eux, il est possible de pratiquer une ana¬ diagonale de la plus grande Jace, la diagonale
lyse factorielle portant sur les corrélations de la plus petite face, la diagonale de la face
entre facteurs, dite analyse factorielle de moyenne, la grande diagonale de la boîte, etc.
deuxième ordre. Dans le cas pris comme exem¬ Il calcule, dans sa population de boîtes, les
ple, on mettrait en évidence le facteur général corrélations entre ces différentes mesures
qui est alors dit de deuxième ordre. considérées deux à deux. Il obtient ainsi une
La différence entre les deux solutions est la matrice de corrélations, tous les coefficients
suivante : étant d’ailleurs positifs et non nuis (ceci pro¬
— Dans la méthode de Spearman on extrait vient du fait que, en moyenne, une boîte plus
d’abord la variance du facteur général, puis longue est aussi plus large et plus haute, bien
on recherche dans la variance restante celle que la population contienne des boîtes de
qui peut être expliquée par les facteurs de proportions très diverses). H pratique alors
groupe. une analyse factorielle et découvre que la
— Dans la méthode de Thurstone on chërche structure simple correspond à trois facteurs
à expliquer le maximum de la variance par les de groupe obliques, qui peuvent être inter¬
facteurs de groupe. prétés comme correspondant respectivement
Cependant l’analyse multifactorielle permet à la longueur, la largeur et la hauteur. Une
théoriquement un nombre indéfini de solu¬ mesure comme la longueur
- est uniquement
tions. Le choix d’une solution particulière est saturée dans le facteur longueur, une mesure
fixé par les conditions que l’on se pose : comme la diagonale de la grande face dans
a) On peut admettre que les facteurs soient les deux facteurs longueur et largeur, une me¬
obliques les uns par rapport aux autres (solu¬ sure comme la grande diagonale dans les trois
tion oblique) ou au contraire maintenir les facteurs longueur, largeur et hauteur, etc.
facteurs indépendants (solution orthogonale). Les trois facteurs sont obliques, c’est-à-dire
b) Généralement on retient le critère de la intercorrélés entre eux. Si on pratique une
«structure simple» proposé par Thurstone. analyse factorielle de deuxième ordre, on met
Celui-ci impose que l’on retienne la solution en évidence l’existence d’un facteur général
qui donne le maximum de saturations milles, de deuxième ordre, qu’on peut interpréter com¬
c’est-à-dire qui fasse que la variance de chaque me le volume. En effet dans une telle popu¬
test soit expliquée par le nombre le plus petit lation de boîtes, et malgré les variations indi¬
possible de facteurs. viduelles de proportions, en moyenne n’impor¬
En général en psychologie la solution oblique te quelle mesure prise sur une boîte est liée
donne des structures plus « simples » que la so¬ au volume de cette boîte : ainsi la diagonale
lution orthogonale. En contre-partie les calculs de la grande face aura d’autant plus de chan¬
concernant la solution orthogonale plussont ces d’être plus longue que le volume de la
faciles, d’autant qu’il existe actuellement des boîte est plus grand.
680 BULLETIN DE PSYCHOLOGIE

3. Facteurs uni et bi-polaires. mation telle que tous les facteurs deviennent
uni-polaires (c’est-à-dire que les tests n’aient
On peut mettre en évidence par l’analyse que des saturations positives).
factorielle des facteurs bi-polaires, c’est-à-dire
des facteurs pour lesquels les tests ont des Un schéma grossier des solutions de Spear¬
saturations soit positives, soit négatives. Le man (bifactorielle) et de Thurstone (multi¬
plus souvent la notion de saturation négative factorielle) est le suivant :
n’a pas beaucoup de sens en psychologie. Dans Les tableaux de saturation se présenteraient
ces conditions on peut effectuer une transfor¬ dans les deux cas de la manière suivante :

Analyse bifactorielle
Facteurs
Tests g de groupe de groupe de groupe
G1 G2 G3
Tl X X
T2 X X X
T3 X X

Analyse multifactorielle
Facteurs
Tests de groupe de groupe de groupe de groupe de groupe
G1 G2 G3 G4 G5
Tl X X X
T2 X X X
T3

4. Signification des facteurs. des tests ayant une saturation très forte en
Les facteurs sont invariants c’est-à-dire facteur g et une saturation minime en un
qu’à la condition d’inclure dans l’analyse fac¬ facteur de groupe.
torielle des tests qui leur correspondent, on Dans ces conditions on peut considérer que
doit toujours retrouver les mêmes facteurs. la saturation du test dans le facteur constitue
Les facteurs peuvent être considérés à deux un indice de sa validité. Ce type de validation
niveaux. Au simple niveau descriptif ils sont peut être appelé validation factorielle.
un système de variables plus simples et en On a beaucoup discuté pour savoir si les
principe moins nombreux que les tests. Lors¬ facteurs ainsi isolés étaient
seulement des di¬
qu’on a effectué une analyse factorielle il est mensions de la personnalité de pures entités
possible de calculer pour chaque sujet une mathématiques ou s’ils correspondaient à des
note à chaque facteur isolé (à partir des notes réalités psychologiques. H semble que dans
obtenues aux
tests saturés en ce facteur, et certains cas on peut admettre qu’effectivement
en pondérant ces notes en fonction de la satu¬ ils sont sous-tendus par des mécanismes psy¬
ration). Ces notes factorielles mesurent en chologiques homogènes.
principe dès « dimensions » de la personnalité
plus pures que les notes aux tests. 5. Les résultats de Vanalyse factorielle.
Un deuxième moyen consiste à choisir parmi On trouvera dans les ouvrages consacrés
les tests pour «mesurer» un facteur un test aux tests mentaux des indications sur les prin¬
fortement saturé en ce facteur, et n’ayant de cipaux facteurs isolés dans les différents do¬
saturation que faibles ou nulles dans les autres maines. Si dans le cadre de l’intelligence et des
facteurs. Par exemple dans l’analyse multifac¬ aptitudes il y a un accord à peu près général,
torielle donnée en exemple le test T3 mesu¬ qui fait qu’il est possible pour un test donné
rera le facteur G5. Bien entendu dans les ana¬ de préciser sa composiiton factorielle, dans le
lyses type Spearman, tout test mesurant un domaine de la personnalité, malgré de nom¬
facteur de groupe mesure en même temps le breux travaux, on n’est pas encore arrivé à
facteur g. Mais dans ce cas on peut choisir un résultat parfaitement satisfaisant.

Vous aimerez peut-être aussi