Quel protocole pour évaluer le CNEC ?

Matthieu Cisel

Identifier des éléments pertinents pour un protocole expérimental

Le CNEC est composé d’une multitude de modules, qui, s’ils sont certes interconnectés, ont des fonctions bien distinctes. Nous nous sommes alors posé la question : Quelle partie de l’artefact évalue-t-on précisément ?

Le « Générateur d’idées » vise à permettre d’instrumenter le travail d’idéation, et s’apparente à un padlet. Le « Corpus » vise à outiller la recherche documentaire. La « Fiche-Recherche » et les « Brouillons » afférents visent à structurer, étayer la démarche des élèves grâce à un certain nombre de consignes et d’aides comme des ouvreurs de phrase. Le « Formulaire de séance » peut jouer le rôle de fiche d’activité interactive, et être utilisé notamment pour structurer une recherche documentaire.

Il est manifeste que ces différents modules ne se prêtent pas de manière équivalente, pour l’évaluation de leur utilité, à la mise en œuvre d’une méthode expérimentale. Comme pour tout projet d’évaluation d’application numérique, il faut faire un choix des modules sur lesquels se concentrer l’évaluation.

Considérations méthodologiques

Pour saisir les raisons pour lesquelles la fiche-recherche et les brouillons de recherche ont été choisis pour le protocole expérimental, quelques éclairages méthodologiques sont nécessaires.

Premièrement, il fallait atteindre un échantillon statistiquement significatif d’élèves ou de classes, afin que les conditions de validité des tests statistiques mobilisés soient respectées. Mobiliser plusieurs centaines d’élèves pour réaliser le test d’une application est un défi en soi.

Mais c’est parfois la dynamique d’une classe dans son ensemble qui intéresse le chercheur, et non les performances individuelles d’élèves. Par exemple, dans le cas du « Générateur d’idées », on peut vouloir s’intéresser au nombre d’idées produites par la classe dans son ensemble, ou à la proportion d’élèves passifs, ne produisant pas d’idées. Dans cette configuration, l’unité d’analyse n’est plus l’individu mais la classe. Il faudrait dès lors plusieurs dizaines voire plusieurs centaines de classes pour pouvoir raisonner de manière statistique, ce qui est une tâche impossible à mener sans une armada d’expérimentateurs.

Ces considérations nous ont amené à préférer nous centrer sur les modules qui permettent de mesurer de manière pertinente des performances individuelles. Et qui dit test de performances individuelles, dit tâches individuelles. Il faut du moins se centrer sur des tâches qui ont un certain sens à être réalisées de manière individuelle. Cela donc exclut très vite un module comme le générateur d’idée, où tout l’intérêt de l’artefact est de mutualiser des idées à l’échelle du groupe puis de la classe. Avec ce genre d’artefact, les indicateurs d’intérêt sont d’un tout autre ordre. Bien sûr, on peut revenir à des indicateurs individuels, comme le nombre d’idées produites par élève, mais cela contrevient à l’esprit dans lequel l’outil a été créé.

Par ailleurs, si l’on s’intéresse à des apprentissages sur le moyen terme, il est pertinent de mettre en place un protocole de type pré-test/post-test. En d’autres termes, on mesure une performance avant l’intervention impliquant la pratique pédagogique instrumentée, et la performance après cette même intervention. On met généralement en place un groupe témoin d’élèves pour lequel il n’y a pas d’intervention de quelque nature que ce soit. Cela permet de contrôler un certain nombre de variables. Cette logique de pré-test/post-test n’est pas incontournable même si elle est souvent considérée comme la voie royale ; on peut se focaliser sur les performances immédiates d’une classe, en faisant la différence entre la pratique avec la technologie, et la pratique sans la technologie, ou avec une autre technologie.

Le choix du témoin est déterminant. Il peut être par exemple discutable de choisir comme témoin l’équivalent de l’activité réalisée avec l’application, mais avec cette fois uniquement du papier ou d’autres éléments tangibles. En effet, d’autres facteurs entrent alors dans la balance que les seules caractéristiques de l’application, comme la facilité avec laquelle les élèves utilisent l’appareil sur lequel est testée l’application.

Il peut alors être préférable de choisir une autre application numérique si l’on s’intéresse à l’impact sur les performances d’une fonctionnalité précise de l’application. Néanmoins, dans ce dernier cas on ne s’intéresse aux apprentissages des élèves, mais à l’impact de la technologie sur leurs performances. Dans un cas comme dans l’autre, il faut identifier un module où l’on peut identifier facilement ce qui relève d’une performance individuelle. Le problème du corpus comme du formulaire de séance réside dans le fait qu’ils peuvent être utilisés à des fins particulièrement variées. En un sens, il faut choisir en amont le type de scénario dans lequel on veut tester l’outil : recherche documentaire, etc. Cela peut avoir un sens, mais cela suppose de savoir en amont pour quel type de tâche l’enseignant souhaitera utiliser l’outil.

Il est un outil pour lequel ce type d’incertitude est minime : les étayages du brouillon de recherche. Ils ont été conçus pour structurer la production d’écrits scientifiques : questions, hypothèses, etc. De plus, il est aisé, avec cet outil, de définir ce qui constitue une performance individuelle ; il suffit de définir des indicateurs de qualité de la production écrite. Certes, cela demande de déterminer ce que signifie produire une bonne hypothèse, ou une bonne question de recherche, mais il existe des travaux en didactique des sciences comme en épistémologie qui peuvent nous aider à cette fin.

S’inspirer de travaux sur l’évaluation des étayages

Pour mémoire, nous nous sommes inspirés d’environnements comme le Knowledge Forum (Scardamelia et Bereiter, 2006), le LabNbook (Girault et d’Ham, 2014 ; Wajeman et al., 2015) ou l’Hypothesis Scratchpad (XX), pour produire des étayages visant à aider les élèves à formuler des hypothèses, des questions, etc. Le principe est assez simple, au lieu de laisser les élèves partir d’une page blanche, nous proposons des ouvreurs de phrase qui aident, en plus des consignes, à mieux faire comprendre ce qui est attendu. Par exemple, pour la rédaction d’une question, nous pouvons proposer un ouvreur de phrase comme : Nous cherchons à savoir pourquoi, ou Nous cherchons à savoir comment, selon le type de question que l’on se pose. Pour un protocole, on pourra proposer un étayage comme La première étape du protocole consiste à … pour indiquer qu’il s’agit de dresser une liste d’actions, comme une recette de cuisine. Lorsque l’élève clique sur l’étayage, celui-ci s’affiche alors dans le champ texte situé en-dessous, champ qu’il complète en fonction des particularités de sa propre expérience.

Derrière cette approche fondée sur les étayages numériques, il y a plusieurs théories de l’apprentissage, et notamment celle du scaffolding-fading dans la littérature anglo-saxonne. Nous nous sommes penchés de près sur les recherches françaises mettant en œuvre une évaluation de tels étayages, et en particulier sur celles menées par l’équipe qui a conçu un outil nommé le Lab Book. Deux thèses de doctorat (Savedra, 2016 ; Bonnat, 2017), ont porté précisément sur l’évaluation expérimentale de l’utilité des étayages du Lab Book (Girault et D’Ham, 2014), application étayant la conception de protocoles dans des disciplines scientifiques. Le nombre de classes mobilisées dans ces expériences est évidemment limité.

Les auteurs définissent des critères de qualité pour les productions des élèves, et s’attachent à montrer que les étayages proposés améliorent la qualité des productions écrites. Dans notre cas : les indicateurs de qualité peuvent être les suivants : est-ce qu’une hypothèse correspond effectivement à une solution à la question posée, est-ce qu’elle contient une conséquence vérifiable, c’est-à-dire une manière de la tester ? Le protocole d’évaluation de l’étayage est classique. On constitue un groupe témoin qui n’utilise pas l’application, un groupe qui l’utilise, et on compare les caractéristiques des productions des uns et des autres. Si tout se passe comme on l’espère, les élèves utilisant l’outil réalisent des productions de meilleure qualité, quels que soient les critères que l’on mobilise pour la définir.

Il y a plusieurs façons de voir la question de la performance, selon que l’on s’intéresse ou non à l’évolution des performances des élèves sur le long terme ou que l’on se contente du court terme. Le plus simple est de raisonner sur du court terme, en se concentrant sur l’impact immédiat de l’artefact sur la performance. On va tester en classe, on sollicite les enseignants volontaires un nombre limité de fois. Le problème réside dans le fait qu’on ne sait pas si l’on a induit des apprentissages sur le long terme. Et, sans aller dans les détails, selon la logique de scaffolding-fading, fading fait référence au fait que les étayages finissent par disparaître.

En somme, on veut que les élèves soient toujours capables de produire des écrits de qualité une fois les étayages disparus. Évaluer des apprentissages sur du long terme est tout de suite beaucoup plus compliqué, car il faut du suivi sur du long terme, avec des tâches équivalentes, mais cette fois-ci espacées sur plusieurs semaines souvent. Sur le plan logistique, les obstacles sont multiples, mais c’est la seule manière de faire véritablement du pré-test post-test. Soit dit en passant, une quantité considérable de la littérature anglo-saxonne repose sur ce principe (refs). Dans l’immédiat du moins, je ne souhaitais mettre en place des expériences que sur du court terme.

Maintenant que nous avons fourni une idée plus précise de l’expérience envisagée, nous allons présenter les biais contre lesquels nous avons lutté et qui ont fini par nous convaincre de l’intérêt des méthodes qualitatives.

Bibliographie

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *