Evaluer La Production
Evaluer La Production
Evaluer La Production
Le texte est en effet le lien extérieur objectif existant entre l’utilisateur et le lecteur, mais chacun
sait que la construction du sens qui s’effectue chez l’un n’est pas forcément la même que celle
qui se construit chez l’autre. Ainsi non seulement l’utilisateur devra-t-il en production se soucier
de ce qu’il veut dire, mais il devra également porter une attention toute particulière au comment
le dire, au comment il pourrait être compris et même aux effets que son discours produira sur
l’auditoire. Cela suppose une réflexion et une maîtrise métalinguistiques complexes, des
compétences particulières sur le plan cognitif (prévoir, organiser), linguistique (formuler,
écrire) et moteur (écrire, transcrire, typographier, voire dicter), ainsi que la mobilisation de
stratégies de production ad hoc :
Les textes ont des fonctions différentes et nombreuses dans la vie en société, ce qui se reflète
dans leur structure et leur présentation. Il nous semble donc, à la suite de Weigle (2002), citée
par Alderson (2005 : 154) qu’une entrée judicieuse dans la mise en performance de la production
écrite réside justement dans la fonction sociale des genres discursifs. En tant qu’enseignants de
langue, nous sommes amenés à former des citoyens (ou de futurs citoyens) qui ont tous besoin de
maîtriser les différentes formes du discours en fonction d’objectifs sociaux pertinents. Socialiser,
actionnaliser, donner du sens et problématiser en fonction de contextes donnés, cela passe en
production écrite par une sorte de référentialisation, que l’on voudrait consensuelle, des types et
des genres de textes. Le texte narratif, qu’il s’agisse d’un fait divers, d’une histoire drôle, d’un
film, d’un reportage, d’un message publicitaire ou d’un discours politique, tente de faire croire
quelque chose à ses lecteurs, et celui qui le produit doit avoir la préoccupation de se faire
entendre. Il doit en avoir également les moyens. Hélas, il existe presqu’autant de listes que de
chercheurs et aucune terminologie exhaustive ne fait aujourd’hui l’unanimité, sans doute parce
que beaucoup d’auteurs à succès recourent souvent à des procédés représentatifs de genres
différents dans un même texte. Faisons à la suite de Goffard (1997, : 94-98) un bref panorama de
la situation, et tentons d’éviter la querelle des genres littéraires en nous appuyant sur une idée
née de Bakhtine qui considérait que les productions langagières se construisent en situation et
qu’elles ont pour but de participer à un échange socialisé en vue de résultats plus ou moins bien
définis. Selon Bakthtine, ces productions présentent fondamentalement trois caractéristiques,
l’alternance (des limites nettes et observables qui mettent le sujet en alternance dans le rôle du
producteur et/ou du récepteur), l’exhaustivité (nous cherchons, vainement mais nous cherchons
tout de même, à produire un tout cohérent et complet) et l’interaction (nous avons un dessein
discursif qui tente de concilier les éléments subjectifs et objectifs de l’objet de sens. « Celui qui
produit un énoncé le fait avec, dans sa mémoire, tous les autres énoncés qu’il a entendus ou lus.
Il leur répond en prenant une position, en assumant un point de vue. Le producteur est donc un
répondant qui s’inscrit dans une chaîne humaine d’énoncés en interagissant avec eux. Son écrit
est une réponse à d’autres énoncés, il est construit en fonction de ceux-ci. Dans le même temps,
il projette d’obtenir une réponse de ses interlocuteurs, qui eux-mêmes ont une expérience des
échanges et réagissent au sien à partir de cette expérience qui leur permet d’évaluer la situation
de communication actuelle et l’énoncé qu’ils reçoivent » Goffard, 1997 :96).
Selon que l’on retienne une évaluation globale ou une évaluation critériée, les choix opérés ici
devront se retrouver en amont dans la tâche et en aval dans son évaluation.
Actes de langage et performance
Austin (1970) avait proposé une classification des actes de langage en trois catégories :
les actes locutoires sans lesquels il n’y aurait aucune mise en œuvre du langage
(concevoir des phrases, choisir des mots…).
Les actes illocutoires, les actes contenus dans le langage, dont la liste est par essence
infinie : décrire, interroger, répondre, ordonner, juger, promettre, prêter serment, certifier,
parier, s’excuser, pardonner, condamner, féliciter, blâmer, remercier, saluer, inviter,
accepter, insulter, menacer, argumenter, conclure, avouer, présenter une requête, nommer
à un poste…Ces énoncés ont une force, dite illocutoire, autrement dit l’acte ou les actes
que dans une énonciation donnée il servent à accomplir (et l’on remarquera que dans
certains cas ils peuvent s’accomplir sans recours au langage verbal : le geste de la main
pour saluer…).
Les actes perlocutoires, également en nombre illimité, qu’on cherche à accomplir au
moyen du langage : faire comprendre, persuader, consoler, instruire, tromper, intéresser,
impressionner, mettre en colère, calmer, faire peur, rassurer, se concilier, influencer,
troubler…
La différence entre les actes illocutoires et perlocutoires est parfois délicate et nous ramène à la
pragmatique. Les premiers pourraient en effet être définis comme ne pouvant échouer : il suffit
d’avoir dit pour avoir fait, au contraire des seconds qui, comme la plupart des activités humaines
connaissent couramment l’échec. Ainsi puis-je dire « j’ordonne » et exiger l’obéissance, et un
ordre est donné ce qui est en soi illocutoire, tandis qu’obtenir cette obéissance ne l’est pas
forcément. Mais ce critère est simpliste ne fonctionne pas toujours, entre autre parce que certains
actes illocutoires ne peuvent être valablement accomplis que par des personnes qualifiées (par
exemple seules des personnes investies d’une autorité particulière peuvent décréter, présidents de
la République, préfets…). Ceci nous amène à la performativité, terme issu de l’anglais to
perform, qui définit selon les pragmaticiens tantôt «qui réalise effectivement tel acte par voie
verbale », tantôt « qui est susceptible de réaliser l’acte par voie verbale ».
Sont donc classés dans cette catégorie tous les verbes qui désignent un acte performatif mais qui
en même temps peuvent servir à l’accomplir, à la condition d’être à la première personne s’ils
ont une forme active. Ainsi il t’invite à aller au cinéma n’est pas un énoncé performatif, alors
que viens au cinéma ou je t’invite à aller au cinéma sont performatifs. Cette notion aura une
grande importance dans l’appréciation et la mesure que nous ferons des performances des
apprenants, et ils appellent à la plus grande prudence, aussi bien dans la conception des tâches
(validité) que dans l’appréciation univoque des performances (fiabilité).
On peut aussi partir d’une compétence de calcul interprétatif du sens que certains linguistiques
nomment compétence rhétorico-pragmatique, qui nous permet d’attribuer à certains énoncés au
sens implicite une interprétation et pour laquelle des lois du discours ont été établies. Ainsi,
l’énoncé la poubelle est pleine qui ressemble à une simple constatation peut en fait être une
sollicitation pour que quelqu’un vide la poubelle, voire un reproche si cette tâche a déjà été
attribuée à quelqu’un, ou un simple rappel. Ducrot (Ducrot 1979, Ducrot 1980) propose
quelques lois qui auront un effet non négligeable sur l’appréciation des performances et doivent
être prises en compte dans la conception de tâches appelant à l’interaction et / ou à
l’argumentation (particulièrement importante par exemple au niveau B2 du Cadre) dans des
contextes d’évaluation des performances en situation. Ces lois doivent être entendues au sens où
cet ethno linguistique anthropologue les définit, c’est-à-dire des règles du jeu de la
communication ; la première loi proposée par Ducrot est la loi de sincérité : on est tenu de ne
dire que ce qu’on croit vrai et même que ce qu’on a des raisons suffisantes de tenir pour tel, faute
de quoi on s’expose de parler à la légère. Sans cette convention aucune espèce de
communication, même le mensonge, ne serait possible. C’est pour répondre à son application
que les éditeurs font porter la mention Nouvelle ou Roman sur les couvertures des ouvrages.
C’est cette même règle qui peut entraîner de fâcheux quiproquos si l’auditeur prend au sérieux ce
qui n’était qu’une plaisanterie.
La seconde loi est celle d’intérêt. On est en droit de parler à quelqu’un que de ce qui est
susceptible de l’intéresser. Cette loi explique entre autres la difficulté qu’il y a à parler à un
inconnu, et le recours aux thèmes les plus généraux sans violer la convention d’intérêt (la pluie,
le beau temps…). Il faut noter qu’a priori les dépositaires de l’autorité ne sont pas soumis à cette
loi, leur parole étant de facto intéressante. C’est le cas des enseignants qui ne souffrent pas
l’inattention. Cette loi est à mettre sur le même plan que celle dite d’informativité qui veut
qu’un énoncé doive apporter à son destinataire des informations qu’il ignore, et que la loi
d’exhaustivité qui stipule que le locuteur est tenu de donner, dans un domaine donné,
l’information maximale compatible avec la vérité. Ces lois, que nous pourrions compléter avec
les maximes conversationnelles de Grice (Grice, 1979), sont donc autant d’éléments à prendre
en compte dans la conception de tâches actionnellement valides.
Le Cadre établit que « l’usage d’une langue, y compris son apprentissage, comprend les actions
accomplies par des gens qui, comme individus et comme acteurs sociaux, développent un
ensemble de compétences générales et, notamment une compétence à communiquer
langagièrement. Ils mettent en œuvre les compétences dont ils disposent dans des contextes et
des conditions variés et en se pliant à différentes contraintes afin de réaliser des activités
langagières permettant de traiter (en réception et en production) des textes portant sur des
thèmes à l’intérieur de domaines particuliers, en mobilisant les stratégies qui paraissent le
mieux convenir à l’accomplissement des tâches à effectuer » ( : 15).
Afin de respecter au plus près les différents critères relatifs à une démarche qualité en évaluation,
il conviendrait de concevoir des grilles propres à chaque compétence ou comportant des critères
permettant au correcteur d’isoler les compétences à évaluer. Il est important de rappeler que
seules les performances observables et mesurables d’un candidat ou d’un apprenant peuvent être
évaluées, la performance observable se définissant par son adéquation avec le niveau de
compétence et la compétence visés. Il n’appartient pas, enfin, à l’examinateur de porter un
jugement sur une compétence pour laquelle il n’existerait pas de critère définissable.
Pendant de nombreuses années, par exemple, dans les grilles d’évaluation des examens du DELF
et du DALF, un critère, pour certaines épreuves, intitulé « points bonus » ou « prime de risque »
était intégré aux grilles de correction. Ces 2 points étaient en fait confiés aux bons soins des
examinateurs afin qu’ils puissent exprimer leur jugement sur l’ensemble de la production qu’ils
venaient de lire. Il était fort difficile, cependant, pour ces correcteurs répartis dans plus de 170
pays à travers le monde, de définir ce qu’on attendait, de la part du candidat, de ces « points
bonus ». Comment les interpréter ? A quoi correspondaient-ils ? Par ailleurs, aucun outil
d’harmonisation n’était communiqué aux centres d’examen afin que ce critère soit interpréter
selon des normes communes.
Les candidats étaient alors livrés à la totale subjectivité des examinateurs-correcteurs qui
distribuaient ces points, ou en faisaient la rétention, en fonction du sens qu’ils donnaient à ce
critère. Certains examinateurs attribuaient ces points bonus lorsque le candidat, lorsque son
niveau était censé le lui permettre, faisait preuve d’humour, ou lorsque le travail était jugé
suffisamment original, ou encore lorsque le niveau de compétence était supérieur à celui
attendu… Bref, diverses interprétations permettaient à certains candidats, plus drôles, plus
originaux, plus téméraires, de bénéficier de ces points bonus, ce qui revenait à pénaliser des
étudiants moins inventifs…pour quelque chose que l’on ne leur avait pas demandé de faire. Ce
n’est donc pas l’idée en soi qui est ici critiquable, mais sa mise en place. Parce que cette
attribution de points se faisait sans que le construit évalué ne soit clairement déterminé et sans
que le candidat n’en soit clairement informé dans la consigne, on créait un biais qui remettait en
question la fiabilité de la notation et pouvait créer une inégalité de traitement.
Lors de la profonde réforme, menée par le département évaluation et certifications du CIEP, que
les examens du DELF et du DALF ont connue en septembre 2005 afin de les harmoniser sur les
niveaux du CECR, ce principe de « points bonus » a été abandonné.
Cet exemple, comme nous le verrons ultérieurement avec des grilles de correction proposées
dans le cadre d’autres certifications en FLE, illustre l’importance de concevoir ou d’utiliser des
grilles d’évaluation comportant des critères d’évaluation de performances observables et
mesurables. Ces critères correspondent, comme nous l’avons mentionné plus haut, à des
compétences spécifiques. Il sera donc nécessaire de prévoir des grilles d’évaluation critériée pour
chacune des compétences prévues dans le Cadre européen commun de référence si l’on souhaite
inscrire son évaluation dans une perspective actionnelle ou la mettre en cohérence avec un
parcours d’enseignement/apprentissage qui répondrait à la même philosophie didactique. Les
critères retenus devraient reposer, d’une façon générale sur les activités langagières (si nous
faisons référence à l’appellation utilisée dans le Cadre) ou compétences suivantes :
En réception :
o Réception orale
o Réception écrite
En production :
o Production orale
o Production écrite
En interaction :
o Interaction orale
o Interaction écrite
En médiation :
o Médiation orale
o Médiation écrite
Les critères
Les critères qui figurent dans une grille d’évaluation actuelle du DELF et du DALF
correspondent, d’une façon générale, à deux composantes : les critères linguistiques et les
critères pragmatiques. Les critères sociolinguistiques sont souvent absents des grilles
d’évaluation en tant que tels car souvent fondus ou sens-entendus dans les deux critères déjà
cités. Il serait possible, cependant, d’isoler des critères portant sur les niveaux de langue ou sur
l’adéquation du message au contexte (dans le cas d’une interaction orale ou écrite) en prenant en
compte le ton, le choix du lexique… Ce choix appartient à chaque organisme qui décide
d’élaborer ses grilles d’évaluation et comporte l’avantage de structurer un dispositif de manière
plus cohérente tant qu’un poids ou une valeur identique est donné à chacune des trois
composantes linguistiques, pragmatiques et sociolinguistiques.
Ces critères varient, d’une compétence à une autre, d’un niveau à un autre. Ils ne peuvent, pour
des raisons évidentes, être similaires, par exemple, en compréhension orale et en compréhension
écrite. En production orale, les critères relatifs à la phonologie et au débit ne peuvent être pris en
compte pour des compétences de l’écrit.
Les critères vont également varier d’un type de tâche à un autre : on ne peut évaluer selon des
modalités identiques, pour un même niveau et pour la même compétence, une lettre formelle et
un essai argumentatif. Si des critères linguistiques peuvent être similaires d’une tâche à une
autre, pour la lettre formelle, par exemple, les critères liés à la mise en page (présence de la date,
de l’objet, du nom de l’expéditeur, emplacement de la signature…) et aux aspects
sociolinguistiques (formules d’appel et de congé, choix du lexique…) ne seront pas pris en
compte pour l’essai argumentatif.
Le Cadre européen commun de référence fait figure d’outil désormais incontournable en matière
d’évaluation (rappelons-nous que le sous-titre du Cadre européen commun de référence
est Apprendre, enseigner, évaluer). Il suffit de se pencher sur les descripteurs par niveau,
compétence et type de tâche pour en extraire les critères qui doivent figurer dans une grille
d’évaluation.
La fidélité de la notation
Les grilles ont également pour objet de garantir la fidélité de la notation, destinée à réduire autant
que possible la subjectivité de l’évaluation, et à assurer la stabilité de la notation pour une
version d’épreuve et un niveau de compétence donnés :
Même si les grilles évaluation répondent avec une grande précision aux descripteurs du Cadre
européen commun de référence et peuvent, ainsi, être intégrées à une conception de
l’enseignement/apprentissage répondant aux principes de l’approche actionnelle et, plus
précisément, de la notion de tâche, les correcteurs/examinateurs n’en sont pas moins confrontés à
certaines difficultés posées par la notation.
Si l’évaluation pondérée est la plus répandue à travers le monde (que ce soit sur 10, 20 ou 100
points ou par le biais d’une correspondance points-lettres à l’anglo-saxonne : A, B, C, D, E),
l’attribution de points, à partir de critères, génère certains problèmes.
Pour illustrer ces difficultés, nous pouvons prendre l’exemple des grilles du DELF et du DALF
qui répondent, élaborés conformément aux critères définis par le Cadre européen commun de
référence et à la notion de tâche. Les difficultés qui pourraient être rencontrées sont liées, non
pas aux grilles et à la façon dont elles ont été élaborées, mais à l’attribution même de points.
Voici deux exemples de grilles utilisées, en production écrite, pour les niveaux B1 et B2 :
Exemples de critères de niveau B2 ; production écrite ►
A partir de ces exemples, nous pouvons établir que les difficultés qui pourraient être constatées
seraient liées :
à la différence d’échelle entre deux critères pour un même niveau, pour une même
compétence (par exemple, pour le niveau B2, 3 points sont à attribuer pour la capacité à
argumenter et 4 points pour la cohérence/cohésion) ► pour le premier critère la moyenne
se situe à 1,5 point alors que pour l’autre elle se situe à 2 points : le correcteur devra
naviguer entre deux échelles de valeur à l’intérieur d’une même grille) ;
à la différence de pondération entre deux niveaux de compétence pour une même
compétence et pour le même critère (par exemple, au niveau B2, 3 points sont attribués
au critère cohérence/cohésion alors qu’il y en a 4 pour le niveau B2 ► le correcteur devra
ne devra jamais perdre de vue qu’il navigue entre des valeurs différentes pour des critères
identiques.
Afin de garantir la fidélité de la notation d’une épreuve à une autre, d’un niveau à un autre, d’un
correcteur à un autre, d’une session à une autre, le CIEP, gestionnaire du DELF et du DELF hors
de France, a mis en place un système d’habilitation des correcteurs/examinateurs de ces
examens. Cette formation à l’habilitation, placée sous la responsabilité des services culturels des
ambassades de France, se déroule sur 4 ou 5 jours et couvre l’ensemble des niveaux du dispositif
DELF DALF, du niveau A1 au niveau C2 ; valable 5 ans, renouvelable, cette habilitation permet
aux correcteurs/examinateurs d’exercer au sein d’équipe d’évaluation dans l’ensemble du
monde.
Dans le cas des tests de langue, linéaires ou adaptatifs, il possible d’avoir recours à des grilles de
correction non pondérées qui permettent d’éviter les difficultés liées à l’attribution de points.
Dans le cas de certains tests, comme par exemple le TCF, les équipes de
correcteurs/examinateurs, également formés et habilités, ont recours à des grilles de correction
reliées, pour chacun des niveaux et pour chacune des compétences de production (production
orale et production écrite), à des descripteurs extraits directement du Cadre européen commun de
compétence. Ces grilles, critériées, ne sont toutefois pas pondérées.
Le correcteur doit évaluer, dans le cadre du TCF, les tâches, correspondant à chacun des 6
niveaux du CECR, pour chacun des candidats. Il va évaluer la tâche correspondant au niveau 1,
puis au niveau 2, et ainsi de suite jusqu’au niveau C2 si le candidat a eu le niveau de compétence
nécessaire pour atteindre ce dernier niveau. Chaque tâche est donc évaluée puis une moyenne est
faite entre les différentes tâches pour établir le niveau général obtenu par le candidat pour une
compétence donnée.
Le correcteur, pour chacun des critères, ne dispose pas de points mais d’indicateurs de niveau. Il
indique, en fonction du descripteur de critère (voir plus bas) et du niveau de compétence de la
copie pour ce critère donné, si le candidat :
n’a pas atteint le niveau ;
a partiellement atteint le niveau ;
a atteint le niveau ;
a dépassé le niveau visé.
Vous trouverez ci-dessous, un exemple de grille utilisée par les correcteurs du TCF à associer,
pour le niveau B1 en production écrite, aux descripteurs du CECR pour chacun des critères :
• Respect des consignes : donne assez d’éléments d’information pour répondre à la tâche
demandée et respecte la consigne de longueur.
• Respect des registres de langue : rédige un texte en adéquation avec le destinataire et/ou
le contexte en respectant le registre de langue correspondant.
• Adéquation des fonctions discursives : Utilise les fonctions discursives relatives au
sujet proposé.
• Enonciation, articulation du texte : peut rédiger une suite de paragraphes en un texte
cohérent et structuré, articulé simplement et correctement, faisant appel à différents types
d’articulateurs.
• Lexique : possède un vocabulaire suffisant sur les sujets relatifs à la vie quotidienne et à
la vie professionnelle, montre une bonne maîtrise du vocabulaire élémentaire.
• Orthographe : orthographie correctement les mots du répertoire utilisé.
• Morphosyntaxe : peut utiliser correctement les tournures et les expressions relatives à la
situation exposée, fait peu d’erreurs dans les structures complexes et maîtrise le système
des temps utilisés pour la narration.
Ce système, ces modalités et ces procédures de correction ne sont valables, pour le moment, pour
le TCF étant donné qu’il s’agit d’une évaluation linéaire : lorsqu’un correcteur constate qu’un
niveau est atteint par un candidat, il a, à sa disposition, d’autres tâches, de niveaux supérieurs, à
évaluer ; ce qui n’est pas le cas dans le cadre d’un diplôme où toutes les épreuves qui composent
l’examen ont le même niveau, toutes compétences confondues.
Que l’on soit en contexte d’évaluation pondérée, critériée, de type sommatif ou formatif,
conduisant ou non à une certification (attestation ou diplôme), d’autres facteurs peuvent avoir
une influence sur la fidélité de la note. Ces facteurs, humains, échappent souvent à la
standardisation de l’évaluation qui, pourtant, renforce la stabilité de la note en uniformisant les
grilles, les modalités et les procédures de correction.
Ces facteurs sont appelés « parasites de l’évaluation » et menacent tous les correcteurs et les
candidats. Il est important que les enseignants impliqués dans des dispositifs d’évaluation
formelle (d’autant plus lorsque ces évaluations conduisent à la délivrance d’une certification)
aient connaissance de ces parasites et du fait qu’ils peuvent avoir une incidence directe sur
l’attribution d’un résultat. Il est nécessaire que des dispositions et des mesures correctives soient
prises par les individus eux-mêmes ainsi que par les institutions qui encadrent ces évaluations.
Voici la liste de parasites de l’évaluation tels qu’ils ont été répertoriés par C. Tagliante (2005) :