CARNETS DESCARTES

Utiliser les QCM pour évaluer les étudiants

Leclercq (2005, 2006) propose des techniques pour réaliser des QCM qui évaluent les différents niveaux de la taxonomie de Bloom (1956) et qui évitent de tomber dans les travers classiques des QCM :

Evaluer les connaissances des étudiants

Le premier reproche fait aux QCM, c’est qu’ils évaluent plus la reconnaissance que le rappel : il est évidemment plus facile d'identifier une bonne réponse lorsqu'elle est écrite ! D’autre part, un étudiant qui ne connait pas la solution à une question a une chance (rapportée au nombre de réponses) de donner la bonne réponse seulement en répondant au hasard. Cet effet est encore plus flagrant pour les questions à réponses Vrai/Faux. Le dernier argument à l’encontre des QCM est de dire que l’étudiant, lorsqu’il est confronté aux choix de réponses, va évaluer la probabilité de chacune pour sélectionner la réponse la plus probable. Dans ce cadre, l’étudiant ne mobilise alors pas vraiement de connaissance.

Ainsi, comment évaluer le plus finement possible les connaissances qu'ont les étudiants ? Plusieurs solutions sont proposées pour éviter les biais énnoncés :

  • éviter les questions vrai/faux
  • utiliser les questions à choix et à réponses multiples
  • ou ajouter les réponses possibles "Aucune" et "Autres"
  • proposer un large choix de réponses (on peut imaginer que toutes les réponses de toutes les questions du test soient mélangées)
  • ajouter les réponses possibles "Toutes" et "Absurdité" (de l'énoncé) qui demandent à l'étudiants d'évaluer chaque propositions et, au lieu de choisir la réponse la plus probable, doit plutôt se demander si chaque réponse est probable.
  • demander le degrés de certitude : cette technique incite l'étudiant à prendre du recul sur ses propres connaissances et l'aident ainsi à s'auto-évaluer et préparer son travail ; cette technique permet aussi à l'enseignant de repérer les difficultés ressenties par les étudiants et, par exemple, revenir sur une des notions, la ré-expliquer, compléter par certaines références ...
  • concevoir un système de notation adapté : dans le cas des questions à réponses multiples, le concepteur des questions peut choisir :
    • une bonne réponse est noté 1 et une mauvaise 0 (ou -1)
    • ou bien la question est considérée bonne quand toutes les réponses et uniquement les réponses sont bonnes
    • par ailleurs, certaines questions peuvent être plus importantes que d'autres et avoir un poids plus important dans la note du test...

Evaluer la compréhension

Pour mesurer la compréhension (et non la connaissance) des étudiants sur un concept, l'auteur propose tout d'abord de définir ce qu'est "comprendre". Selon lui, comprendre, c'est juger l'équivalence entre deux propositions ; le résultat de ce jugement étant vrai ou faux. Par exemple, si on demande : "la ville de paris :

  1. est une source de pollution
  2. est un lieux où la langue majoritairement parlée est le français
  3. ...

L’étudiant évalue la relation entre le concept "la ville de Paris" et chacune des propositions.

D'autres auteurs proposent aussi d'évaluer la compréhension d'un concept en comparant différents modes de représentations :

  • du texte
  • des nombres (ou tableaux)
  • des équations (ou formules)
  • des graphiques (ou cartes)

Dans ce cas, l'enseignant peut proposer un graphique de données et 4 propositions d'interprétations.

Evidemment, pour évaluer réellement la compréhension et non la connaissance, les éléments de la question (la consigne et les réponses) ne doivent pas avoir été présentés auparavant.

Ce genre de tests peut notamment être très utiles en début d'enseignement : ils permettent à l'enseignant de connaitre le niveau des étudiants dans un domaine et s'appuyer dessus pour organiser son enseignement ; ils permettent aussi aux étudiants de repérer leurs difficultés dès le début et de bien préparer leur travail.

Evaluer l'application

Une fois que l'enseignant a identifié le niveau de connaissance et de compréhension de ses étudiants, comment peut-il mesurer leur capacité à appliquer ces connaissances ? Rappelons qu'appliquer une connaissance consiste à utiliser une règle, une opération, un concept, une méthode... dans un contexte qui n'a jamais été vu lors de l'enseignement. Deux niveaux d'applications sont proposés :

  • évaluer la conceptualisation : c'est-à-dire la capacité des étudiants à extraire, identifier le concept général ou la règle à utiliser à partir d'exemplaires : "une poussée, une traction, une attraction sont des"... cela nécessite évidement que la réponse n'ait jamais été formulée telle quel lors de l'enseignement car cela reviendra à évaluer la connaissance.
    En revanche, les processus mentaux de catégorisation impliquent des modes de présentation spécifiques (voir les études de F. Cordier), cela a alors des impacts sur la formulation des questions et surtout des réponses proposées.
  • évaluer l'application d'une règle : c'est-à-dire poser un problème nécessitant de faire appel à une règle mais aussi de l'utiliser dans un contexte qui n'a jamais été vu auparavant : "quelle est la surface d'un triangle rectangle dont les côtés font 2 et 5 cm"

L'auteur évoque un 3ème niveau d'analyse la résolution de problème, créativité qui, selon lui ne peut s'évaluer uniquement par questions à réponses ouvertes longues.

Evaluer les capacités d'analyse

Il est souvent évoqué que les étudiants ne sont pas capables de faire preuve de recul, d'analyse d'une situation, d'esprit critique. Le fameux problème du Dr Fox illustre que les modalités d'enseignement et d'évaluation des étudiants ne les incite pas à l'analyse, nous n'aidons pas le étudiants à relever les pièges ou incohérences.

Pour éviter ce biais et pousser les étudiants à identifier les incohérences d’une situation, l'auteur propose tout d'abord de produire des énoncés qui ne permettent pas de répondre à la question : il manque un élément ou l'énoncé est absurde : "Quel âge avait Rimbaut : -2, -10, -20 ans". Si l’étudiant donne une réponse, c’est qu’il n'a pas analysé le problème.

L'auteur propose aussi la technique des questions "double faces". Il explique que la technique repose sur un système de questions à tiroirs :

  • une première question dont l'énoncé est "absurde" (par exemple "Calculer le périmètre d'un triangle dont les cotés sont 2, 3 et 6 cm").
    Cette première question révèle la capacité de l'étudiant à identifier un problème.
  • une autre question sur l'analyse de l'absurdité : "Quelque chose était absurde dans la question précédente, pouvez-vous indiquer de quoi il 'agissait : -un triangle n'a pas 3 cotés, -ce triangle ne peut exister car la somme de 2 côtés est plus petite que le 3ème..."
    Cette seconde question révèle sa capacité à analyser proprement dit.

Pour ma part, je trouve que cette technique est assez proche de la méthode des tests de concordance des scripts qui consiste à mettre à l'épreuve une hypothèse avec une seconde donnée fournie à l'étudiant. D’ailleurs, cette technique aide les enseignants à évaluer les capacités des étudiants à analyser un diagnostique et à produire un raisonnement clinique. 

 

En conclusion, la création de QCM est d'abord difficile pour l'équipe enseignante car elle doit connaitre et anticiper les biais naturels des QCM. Cela implique forcément un gros travail en amont pour déterminer les objectifs de l'évaluation, ce travail est important car il aide à créer des questions qui répondent à ces objectifs. Ce travail permettra aussi à l'équipe d'intégrer les tests aux moments les plus propices (en début d'enseignement pour se positionner, en cours d'enseignement pour voir sa progression, en fin pour préparer ses révisions ou bien encore pendant toutes ces phases).
Par ailleurs, les QCM n'évaluent pas toutes les composantes de la taxonomie de Bloom, les capacités de synthèse et de jugement seront plutôt évaluées avec des questions ouvertes (courtes ou longues) qui nécessitent une analyse longue et plus fastidieuse.
Ensuite, comme l'explique l'auteur, le modèle de Bloom n'est pas forcément précis ou unique. D'autres modèles spécifient des sous-catégories qui pourraient aussi être évaluées par les enseignants.

Même si les techniques proposées ne permettent pas « d’ouvrir le cerveau » des étudiants pour savoir ce qu’ils connaissent, ce qu’ils sont capables de faire, elles donnent tout de même quelques pistes pour l’évaluation des étudiants. Dans ce cadre, l'utilisation des TICE facilite la passation des tests ainsi que l’analyse des réponses des étudiants et permettent alors aux équipes enseignantes d'adapter, ajuster leurs enseignements et faciliter les apprentissages des étudiants. Je conseillerais aussi les équipes d'évaluer leurs propres tests et les améliorer au fur et à mesure : une banque de questions peut se constituer et s'alimenter dans le temps, les questions peuvent être améliorées grâce à des indicateurs faciles à consulter.

 

 

Références :

Leclercq, D. (2005). Édumétrie et docimologie. Liège: STE-ULG. Consulté à l’adresse http://www.labset.net/~georges/des_toise_leclercq.pdf
Leclercq, D. (2006). L’évolution des QCM. Recherches sur l’évaluation en Education. Consulté à l’adresse http://orbi.ulg.ac.be/handle/2268/10124

Commentaires

  • Laure Guitton 13/09/2013

    Bonne nouvelle : avec la nouvelle version de Moodle2, il est possible d'intégrer très facilement la notion de degrès de certitude. En un clic, on peut demander aux étudiants leur degrès de certitude sur toutes les questions !