Mettre en place une approche expérimentale ?

Matthieu Cisel

Etre chercheur et enseignant, une tension à gérer

Les problèmes rencontrés pour mettre en place un protocole expérimental de recherche sont de plusieurs ordres. Comment par exemple mesurer les performances des élèves de manière rigoureuse ? Il suffirait qu’ils copient les uns sur les autres pendant le test, et toute l’expérience serait mise en péril.

Il faut aussi que les tests réalisés se déroulent dans des conditions comparables. Vaste programme. De même, au nom de la comparabilité des conditions de l’expérience, on ne peut pas aider un élève davantage que les autres, même si cela a du sens sur le plan pédagogique. Enfin, il faudrait constituer un groupe témoin, c’est-à-dire un groupe avec lequel on ne testera pas l’application. Et non, on ne peut pas juste dire, cette classe sera mon groupe témoin, celle-là sera celle avec qui je testerai l’application. Problèmes de logistique en perspective. C’est sur ce point particulier que nous commencerons notre récit.

Constituer des groupes expérimentaux : un casse-tête logistique

De l’importance de la randomisation

Un protocole classique est fondé sur la constitution d’un groupe témoin et d’un groupe expérimental. L’un utiliserait l’application numérique, l’autre non. Premier problème : la constitution de ces groupes.

Utiliser une classe comme témoin, et l’autre comme groupe expérimental pose problème sur le plan scientifique : on irait à l’encontre de certains principes de base de la méthode expérimentale comme le principe de randomisation que l’on doit suivre lors de la constitution de l’échantillon ; le problème est le même si l’on a dix classes ou si l’on en a deux. Pour être rigoureux, il faudrait diviser chaque classe en deux de manière aléatoire pour produire deux sous-groupes, chacun réalisant des activités différentes. La logique sous-tendant une telle démarche est assez simple, comme nous allons le voir dans la section qui suit.

Des effets confondants qui mettent en péril la validité de l’expérience

Tout enseignant sait que les classes dont il a la charge ne sont pas de niveau équivalent, nul besoin d’une démonstration fondée sur la littérature scientifique pour étayer ce propos. Par exemple, les classes ayant pour seconde langue l’allemand rassemblent généralement les meilleurs éléments. C’était d’ailleurs la situation à laquelle je faisais face en tant qu’enseignant, avec une classe dominée par les germanistes, et une autre dont ce n’était pas le cas. Pour des contrôles équivalents, j’ai pu observer deux points de moyenne de différence entre mes deux classes au premier trimestre.

Imaginons maintenant que l’on réalise l’activité censée améliorer les performances avec la meilleure des deux classes. Les performances de la classe expérimentale seront sans doute très supérieures à celle de la classe témoin. Mais on ne pourra pas déterminer si cette différence de performance est due à la pratique mise en place, qu’elle implique ou non du numérique, ou si elle est simplement due au fait que l’expérience a été menée avec la meilleure des deux classes. C’est ce que l’on appelle un effet confondant.

Lorsque l’on modifie deux variables à la fois, une pratique pédagogique d’une part, et le niveau d’une classe d’autre part, il est impossible de déterminer lequel des deux paramètres a eu l’impact le plus important sur la performance de la classe. Une bonne classe, ce n’est pas juste une classe qui a de bonnes performances, c’est une classe qui est capable de bénéficier davantage d’une activité. Car elle est plus attentive, car on perd moins de temps à faire de la discipline, etc. Cela affecte également les gains d’apprentissage, dont l’on aura du coup bien du mal à attribuer l’origine, à la pratique instrumentée en cours d’évaluation, ou à la bonne écoute de la part des élèves.

Des obstacles pratiques à la randomisation

Comment diviser les classes ?

Il aurait donc fallu trouver un moyen de faire des demi-groupes de manière aléatoire au sein d’une classe, et non choisir une classe qui ferait l’expérience, et une autre qui ne la ferait pas. Et c’est là que les choses se sont compliquées. Un chercheur qui ne travaille pas au quotidien dans un établissement scolaire peut sous-estimer les problèmes logistiques qu’une partition aléatoire de la classe représente. Il se trouve que mon collège, comme beaucoup d’autres établissements en France, avait vu sa dotation pour les heures supplémentaires diminuer sensiblement l’année de ma prise de fonction. La quatrième était le seul niveau où nous n’avions pas les budgets en SVT pour diviser la classe ; il fallait procéder autrement. Mais quand bien même aurions-nous eu le budget pour payer des heures supplémentaires, la division aléatoire en demi-groupes n’a rien de naturel.

Comment aménager les emplois du temps ?

Les classes sont généralement divisées en deux sur la base soit du classement alphabétique, soit pour des raisons de calendrier. Cela peut poser nombre de problèmes logistiques qu’un algorithme coupe aléatoirement en deux la classe pour créer ces demi-groupes. Si pendant qu’un demi-groupe suit votre cours, l’autre moitié de la classe a un trou – comprendre chez elle ou en permanence, cela ne pose pas de problème. Mais cela fonctionne rarement ainsi. Pendant qu’un demi-groupe est en SVT, l’autre est généralement dans un autre cours. Du coup il aurait fallu que j’explique à mon collègue enseignant de physique pourquoi je coupe la classe en deux de la manière la plus étrange qui soit, et qu’on ne peut pas suivre les divisions classiques utilisées habituellement.

Par ailleurs, il eut fallu que j’intervienne plus en amont, en juin, au moment de la mise en place des emplois du temps, pour expliquer à la direction de l’établissement la démarche pour qu’elle entre dans les algorithmes de gestion des emplois du temps. Ou au moins leur demander qu’il y ait un trou pour l’autre demi-groupe, ce qui n’est pas de nature à plaire aux élèves, surtout s’ils doivent passer l’heure en permanence au nom de la rigueur expérimentale d’un protocole.

Travailler en classe entière, une solution envisageable mais compliquée

On aurait pu couper aléatoirement la classe en deux, chacune des deux moitiés se consacrant à une activité différente. C’est le principe de la différenciation pédagogique. Certes, c’est une solution, mais c’est plus facile à dire qu’à faire. Le problème réside surtout dans le fait de suivre simultanément deux activités séparées, l’une mobilisant l’application, l’autre non. Mettre en place une activité généralement réalisée en demi-groupes – utiliser un outil digital peut être chronophage – dans une classe à trente élèves constitue déjà un défi en soi. En tant qu’enseignant, gérer par-dessus le marché deux activités distinctes dans un même environnement, c’est compliqué. Mais admettons qu’avec un peu d’expérience, cela soit faisable. Le principal obstacle réside alors dans le fait que les activités des deux demi-groupes ainsi constitués doivent suivre un chronométrage précis pour que les conditions de test soient comparables – et encore le chronométrage ne constitue qu’une seule des variables.

Si un groupe peut travailler pendant 45 minutes pendant que l’autre n’a que 20 minutes, la validité de l’expérience est remise en cause. Pour le moment, nous n’avons fait qu’effleurer le problème des contraintes et des aléas de l’activité enseignantes, n’évoquant que les problèmes logistiques et les aléas des coupes budgétaires. Nous allons voir maintenant comment d’autres formes d’aléas peuvent affecter la mise en œuvre de l’expérience, mais aussi comment la conscience professionnelle de l’enseignant va entrer en contradiction avec la conscience professionnelle du chercheur. Il faut parfois déroger au protocole au nom de l’intérêt de ses élèves, mettant l’expérimentateur qui est en nous dans une position délicate.

Autres difficultés à résoudre

La conception de l’activité que doit réaliser le groupe témoin ne va pas de soi ; on ne peut pas s’en tirer en disant, on va faire quelque chose de complètement différent de l’activité du groupe expérimental. Ensuite, si l’on souhaite être rigoureux, il faut respecter scrupuleusement des questions de temporalités – durée des activités, mais aussi parfois écart temporel entre deux activités. C’est là que les aléas de la vie scolaire interviennent pour mettre en danger presque systématiquement votre protocole. Enfin, si l’on compare des performances individuelles, on ne peut pas aider un élève sans aider toute la classe. La rigueur expérimentale veut qu’on y renonce souvent, même si cela signifie renier certaines des valeurs que l’on porte en tant qu’enseignant.

La comparabilité des conditions de l’expérience à l’épreuve des aléas de la vie scolaire

Concevoir une activité pertinente pour le groupe témoin

Concentrons-nous maintenant sur la question de la pratique que l’on souhaite évaluer. Rappelons qu’il nous faut un groupe expérimental, où l’on teste l’application en question, et un groupe témoin, qui sert de comparaison. En ce qui concerne le groupe expérimental, il s’agissait de tester la technologie que nous développions, le système d’étayage. Tout le problème consiste à déterminer l’activité à réaliser avec le groupe témoin. C’est au moins aussi important que ce que l’on réalise avec le groupe expérimental, car c’est ce qui déterminera ce que l’on est en train de démontrer.

Le problème du temps de connexion à l’application

On ne teste jamais juste l’outil numérique, mais aussi toute la logistique qui va avec. A commencer par un détail pragmatique, le temps de connexion à l’application. Il faut pour se connecter des identifiants spécifiques. Cela prend généralement plus d’un quart d’heure avant que tout le monde soit connecté, et le désordre qu’impliquent les inévitables difficultés à se connecter impacte le bon déroulé de l’activité. Tous les élèves ne mettent pas le même temps, ce qui est un obstacle aigu sur le plan expérimental.

Les plus désengagés, qui prennent l’activité à la légère, mettront parfois le double du temps. On entend alors de manière récurrente : « Monsieur, j’ai oublié ma tablette chez moi », ou « ma tablette est déchargée ». J’avais la chance d’avoir une classe mobile en plus de leurs tablettes individuelles, mais cela voulait dire perdre du temps à noter à qui j’avais prêté une tablette, qu’ils se reconnectent à leur compte et tout ce qui va avec. Théoriquement, il faudrait attendre que les derniers élèves se soient connectés pour laisser les premiers commencer l’activité. Sinon les conditions dans lesquelles les élèves réalisent l’activité ne sont pas comparables. Or, 20 minutes sur une séance de 45, c’est conséquent. Les uns auront travaillé 25 minutes là où les mêmes y auront passé 45.

Les aléas de la connectivité

Avec le premier groupe expérimental, les choses se sont bien passées, et j’estime à environ 30 minutes d’activité, avec des écarts réduits au sein du groupe d’élèves, quelques minutes tout au plus. Et je commence à faire la même chose sur le deuxième groupe d’élèves. Et voilà que la connexion devient beaucoup plus lente au fil de la matinée. La bande passante de l’établissement est encore limitée. Un autre enseignant avait également décidé d’utiliser les tablettes pour l’une de ses activités, et voilà que cela affectait la capacité de mes élèves à naviguer sur Internet. Pendant 20 minutes, l’application était inutilisable et les élèves ont disposé de facto de moitié moins de temps. Alors bien sûr j’ai l’option de reporter le test, en espérant que cette fois ce type de problème n’apparaisse plus. Mais rien ne dit qu’il ne se reproduira pas.

En définitive, j’ai préféré mettre la main à la poche pour résoudre ce problème, en utilisant la connexion de mon propre téléphone portable, ou en employant un galet dédié pour ne plus avoir ce type de problème. J’ai financé une partie de ces tests avec mon forfait, pratique répandue, comme j’ai pu réaliser par la suite en échangeant avec des collègues. Néanmoins, c’est une stratégie qui ne marche que ponctuellement, il est délicat de la généraliser à plusieurs dizaines de classes.

Mesurer des performances dans des conditions comparables : un casse-tête

Le contrôle comme lieu privilégié de la mesure de la performance

Quand on est un expérimentateur extérieur, on ne s’émeut pas de demander à un enseignant de nous prêter une ou deux séances pour réaliser des tests évaluatifs ; certains de mes collègues chercheurs, dans la même situation, ont procédé de la sorte (Savedra, 2016 ; Bonnat, 2017). Mais si ce type de démarche se répète, l’enseignant peut à juste titre arguer du fait qu’il a un curriculum à suivre, et qu’il ne peut sacrifier son programme à l’autel de la recherche. Dans la mesure où je voulais réaliser de nombreux tests pour mesurer la capacité de mes élèves à produire des hypothèses, je pris la décision de faire d’une pierre deux coups, et de me servir des contrôles comme lieu privilégié de mesure de leurs performances. Lors d’un contrôle, il y a un enjeu pour l’élève, il souhaite être au mieux de ses performances. Si l’on organise une activité qui ne pèse pas sur sa scolarité, on mesure autant sa capacité de réflexion que son sérieux à réaliser des activités non notées. Par ailleurs, pendant les contrôles, l’on arrive a priori à faire en sorte que les élèves n’interagissent pas entre eux.

Concevoir des activités équivalentes

Le premier problème auquel j’ai été confronté a été de concevoir ces contrôles comparables. Il est minime si l’on réalise des exercices nombreux et interchangeables : du calcul mental par exemple. On réalise avec les élèves une batterie de tests en septembre, puis une série équivalente en janvier, et on regarde le gain d’apprentissage selon la pratique suivie. Dans ce cas, cela ne pose aucun problème de poser, à quatre mois d’intervalle, strictement les mêmes exercices. Le fait qu’on ait posé le problème 9+5 en septembre n’empêche pas de reposer la même question quatre mois plus tard. Il est par ailleurs possible de concevoir une batterie d’une centaine d’exercices pour lisser ce type de problème.

Il n’en va pas de même pour notre cas d’étude, quand l’on s’intéresse à la rédaction d’hypothèses. Tout d’abord, la démarche n’est pas aussi binaire que le calcul mental ; la réponse n’est pas juste ou fausse. Les critères d’évaluation sont bien moins objectifs, et surtout, il n’est pas pertinent de répéter les mêmes problèmes. Si l’on pose exactement le même problème à quatre mois d’intervalle, beaucoup des élèves risquent de se souvenir des réponses, ou du moins de la réflexion, des échanges et des éventuelles recherches personnelles qui auront suivi le contrôle.

Or la nature du problème posé déterminera sensiblement les performances des élèves. Ils étaient très à l’aise lorsque les problèmes portaient sur des objets de leur quotidien. Typiquement, ils devaient réfléchir aux causes de l’érosion de la biodiversité, et proposer des mécanismes pour expliquer la disparition de telle ou telle espèce : blanchiment des coraux, raréfaction des moineaux en région parisienne, surmortalité des batraciens en Amazonie. Dès lors que l’on abordait des problèmes analogues, mais impliquant des microorganismes – abstraits pour eux, la réflexion tournait court. Leurs capacités de raisonnement ne s’étaient pas effondrées du jour au lendemain, mais les conditions d’évaluation des performances n’étaient pas comparables. Du coup, il est nécessaire que les problèmes soumis aux élèves soient équivalents d’un test sur l’autre, et, dans l’idéal, à un instant T, absolument identiques pour tous les élèves du groupe témoin et du groupe expérimental. C’est là que l’on se heurte à un nouveau problème : la taille des salles de classes.

Contraintes des établissements scolaires : l’exemple de la taille des salles de classes

Dans le collège dans lequel j’exerçais, il n’existait pas de salle destinée spécifiquement à la passation des contrôles, avec des tables suffisamment éloignées les unes pour empêcher la triche. On se heurte du coup au problème suivant : soit on leur donne le même sujet et l’on accepte que certains élèves copient sur leurs voisins, c’est inévitable. Ils se communiquent les sujets des contrôles entre classes dès qu’ils le peuvent. Si une classe passe à 9h30, et la suivante à 10h30, vous pouvez être sûr que les sujets des contrôles auront circulé entre temps et potentiellement biaisé l’expérience. Deuxième option, qui ne fait qu’atténuer le problème : on utilise la parade on ne peut plus classique qui consiste à donner des sujets sensiblement différents. Mais là on retombe sur la question de la nature des problèmes posés : un élève aura beaucoup d’idées pour expliquer pourquoi les moineaux disparaissent, mais il sera complètement démuni si on lui soumet le problème de la disparition des anguilles dans les rivières françaises.

Tiraillé entre deux consciences professionnelles

Continuons sur le problème de la similitude des conditions dans lesquelles les élèves sont amenés à réaliser leurs performances. Le problème qui suit est en théorie parfaitement évitable ; il illustre en revanche parfaitement le tiraillement qu’implique parfois la double casquette expérimentateur et enseignant : il s’agit de la question de l’aide aux élèves en difficulté. Il est magnifié par le fait que j’avais choisi de faire d’une pierre deux coups, les tests servant pour les expériences servant également de base à l’évaluation des élèves, mais concerne en pratique tout type de test où l’on mesure des performances individuelles. En principe, si l’on veut que les conditions expérimentales soient exactement les mêmes pour tous les élèves, il n’est pas question d’intervenir pendant le test pour apporter de l’aide à tel ou tel individu, sauf à donner strictement la même aide à tout le monde.

Du coup, si un élève est en véritable difficulté et qu’il a besoin d’un simple coup de pouce pour se lancer, comment lui refuser au nom du suivi strict du protocole d’évaluation ? A titre personnel, j’ai craqué, et je suis allé aider ceux qui étaient en plus grande difficulté, des coups de pouce personnalisés, fondés sur des dialogues que je ne pouvais répéter avec l’ensemble de la classe au risque de les perturber inutilement pendant le contrôle. Et j’ai réussi à faire comprendre des choses qu’ils n’avaient pas comprises pendant les travaux dirigés, et qu’ils n’ont compris que pendant le contrôle.

De petits aléas peuvent biaiser les expériences

Dernier point relatif à la question de la comparabilité des conditions de passation des tests : la question du calendrier. Il n’est guère besoin d’une longue expérience dans l’enseignement pour savoir que ce n’est pas la même chose, en termes d’attention des élèves, de faire un contrôle le lundi matin ou le vendredi après-midi, avant les vacances ou après les vacances, à 9h30 lorsqu’ils sont fraîchement débarqués, ou à 11h30, juste avant la pause déjeuner. Parfois, on n’a guère le choix, et on peut estimer que l’expérience ne sera pas totalement faussée s’il y a une heure d’écart entre le groupe témoin et le groupe expérimental. En revanche, si elle se déroule sur plusieurs semaines, le problème est tout autre, et vous avez sans doute biaisé considérablement votre expérience.

L’exemple qui suit illustrera à nouveau les aléas de la vie scolaire qui viennent fausser les résultats. J’avais fait un contrôle avec un premier groupe la veille des vacances. Lorsque vient le moment de faire passer le second groupe, je découvre que la moitié de la classe est absente car dans un atelier organisé ce jour-là. L’annonce avait peut-être circulé en amont, mais pour une raison ou pour une autre, je n’avais pas été au courant. Bien sûr, on peut reporter le contrôle du deuxième groupe – faire faire une seconde fois le contrôle au premier groupe après les vacances n’est pas envisageable. Mais cela signifie plus de temps pour réviser. Et mon expérience montre que les résultats étaient bien meilleurs quand les contrôles étaient réalisés au retour des vacances. Et je vous passe le problème des élèves qui sont absents au contrôle, et qui doivent le repasser par la suite et peuvent donc dès lors être considérés comme des cas particuliers. Ce type d’effet est peut-être lissé si l’on mobilise des dizaines de classes, mais cela reste à démontrer.

En conclusion

Des biais pas si lissés

En endossant simultanément le rôle de l’enseignant et celui du chercheur, posture assez classique au demeurant, j’avais en théorie davantage de contrôle sur les variables d’intérêt. Je pouvais en principe produire des résultats plus rigoureux que si j’avais eu à composer avec des enseignants sans doute réfractaires à appliquer un protocole contraignant et à modifier leurs pratiques habituelles au nom de la rigueur scientifique. Cette expérience m’a permis de prendre la mesure de la difficulté de la tâche. J’étais au fait des nombreuses critiques sur l’introduction des approches expérimentales en sciences humaines, mais rien de tel pour l’illustration de ces problèmes qu’une expérience de première main.

Défaut de généricité des résultats

La seconde frustration que nous avons redoutée est, en définitive, la faible généricité des résultats que nous pouvons obtenir via l’approche expérimentale, et le risque de s’être trompé d’indicateur. Suivre une telle démarche implique que les variables d’intérêt sont clairement identifiées à l’avance, et que les chercheurs savent précisément ce qu’ils souhaitent collecter. Dans le cas des étayages du CNEC, on peut vouloir changer d’indicateur de qualité des productions écrites, et regarder par exemple la richesse du vocabulaire utilisé par les élèves. Si ces productions sont bien archivées, cela ne pose pas de problème particulier. Mais s’il faut collecter les données à la volée – comme par exemple le temps que les élèves mettent à réaliser leur première production, il est trop tard pour revenir en arrière.

Par ailleurs, dans quelle mesure le résultat n’est-il pas contingent de l’application qu’on a utilisée ? Une petite modification des interfaces, et tout d’un coup, on chute brutalement. On ne peut pas affirmer de but en blanc que ce sont les étayages numérisés qui font gagner du temps, mais les étayages tels que pensés dans le cadre du CNEC. Il suffit qu’il évolue un peu et les résultats changent. On se situe alors plus dans une perspective d’évaluation d’une version éphémère d’une application que dans une logique de recherche dont les résultats sont susceptibles d’intéresser l’ensemble des praticiens et de la communauté scientifique.

Ces diverses considérations mettent à l’épreuve la pertinence de la mise en œuvre d’une approche quantitative pour l’évaluation. Nous avons écarté les approches quantitatives pour leur préférer des approches plus qualitatives : observations en classes, entretiens individuels et collectifs avec des enseignants sur la manière dont ils s’approprieraient l’application. Nous avons à bien des égards produit des résultats plus intéressants pour la communauté scientifique et éducative, pour un investissement en ressources somme toute inférieur.

Bibliographie

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *