Projet MULCE (ANR Corpus et outils en SHS)

Titre Mulce : MUltimodal contextualized Learner Corpus Exchange ; échange de corpus d’apprentissage multimodaux
Reconnu par ANR Corpus et outils en SHS, projet : ANR-06-CORP-006
Durée 2007-2010
Axe du LRL DALI
Coordinateur LRL Thierry Chanier
Participants LRL Thierry Chanier, Qingrui Zeng
Partenariat LIFC, Univertsité de Franche-Comté ; CREET (Centre for Research in Education and Educational Technology), The Open University, Royaume-Uni
Toile http://mulce.org

Texte écrit en 2006 et définissant la problématique du projet ANR Mulce

Etudier l’apprentissage en ligne, que cela soit à des fins de compréhension de cette forme d’apprentissage humain situé, d’évaluation des scénarios et dispositifs pédagogiques associés ou encore d’amélioration des environnements technologiques, requiert la disponibilité de données d’interaction provenant des différents acteurs, apprenants et formateurs, participant aux situations d’apprentissage.

Les publications et évènements scientifiques en rapport avec ce sujet ne manquent pas en France ou dans le monde. Mais les communautés pluridisciplinaires de chercheurs impliqués dans cette thématique n’ont pas encore réussi à caractériser un véritable objet d’étude scientifique, ni une démarche méthodologique en rapport. Les données sont inaccessibles à d’autres que les auteurs des écrits originaux. Elles sont parcellaires, donc décontextualisées, en regard des éléments constitutifs du dispositif de formation, ou encore inextricablement imbriquées au sein des environnements technologiques sous des formats propriétaires. Du coup le débat des chercheurs se déroule dans un espace où des conclusions contradictoires peuvent surgir sans que le jeu de la démarche scientifique soit véritablement convoqué. Souvent on cherche à comparer des objets aux contours mal définis, en fait différents. On ne peut réanalyser, répliquer, vérifier ni infirmer, étendre les résultats, toute chose pourtant à la base de la démarche scientifique.

Pour sortir de cette impasse, nous proposons la création et la diffusion de corpus d’un nouveau type, que nous appellerons "corpus d’apprentissage" (LETEC - Learning and Teaching Corpus -). Cet ensemble de données doit rassembler, non seulement les données résultats d’une formation mais également son contexte, c’est-à-dire les données caractérisant le dispositif de formation, ainsi que celles provenant du dispositif de recherche.

Ces données sont fortement multimodales : les productions des participants peuvent utiliser des modes variés ; les nouveaux environnements synchrones ouvrent des espaces de production et de communication dans des modes interreliés. Mais les vidéogrammes issus des dispositifs de recherche donnent une représentation à plat des espaces interactifs, dont il faut restaurer la multidimensionnalité avant toute analyse. Avec la notion de corpus d’apprentissage apparaît donc la problématique des retranscriptions, annotations, analyses multimodales, rencontrée dans d’autres champs des sciences humaines et sociales mais qui doit ici être repensée dans le cadre spécifique d’humains participant à des groupes d’apprentissage et interagissant dans des environnements technologiques appropriés.

La constitution de corpus d’apprentissage n’a d’intérêt que si ceux-ci peuvent faire l’objet d’échanges entre les communautés de chercheurs, ce qui oblige à : 1) les structurer et les formater suivant un modèle (à inventer) compatible avec les standards existants pour les corpus et les langages de conception pédagogique ; 2) les déposer sur un serveur répondant aux principes d’interopérabilité et d’accès libre ; 3) élaborer une charte éthique (car nous travaillons sur des productions d’individus) et des contrats de cession des droits et d’utilisation en rapport.

Mais faire du corpus d’apprentissage un objet d’études scientifiques nécessite aussi de le doter d’une méthodologie d’exploitation en rapport. C’est pourquoi une partie du projet Mulce s’intéresse à toute la chaîne de traitement, retranscription, annotations, étiquetages, analyses, et aux outils associés. Les résultats des traitements successifs doivent bien sûr ajouter des niveaux de descriptions complémentaires au corpus d’origine.

Avec la mise à disposition de ces corpus, ainsi que les outils et services associés, s’ouvre alors la perspective de faire réanalyser des données par des équipes non initiatrices des projets de recherche initiaux, ou bien de comparer des analyses de données prises dans des corpus différents, voire d’étalonner des outils de traitement / analyse.