Axe 4 – Transversalité des humanités numériques

Présentation

Historique et perspectives d’évolution

L’UMR Litt&Arts est à l’origine d’un des grands projets de l’établissement autour des humanités numériques – en l’occurrence, le projet des manuscrits de Stendhal en ligne, qui a été le précurseur méthodologique et technologique de nombreux projets de corpus numériques.

Les humanités numériques sont comprises ici comme l’ensemble des méthodes et outils des sciences des données appliquées aux sciences des lettres et des arts, ainsi l’ensemble des questionnements qu’ils soulèvent. C’est donc la place du numérique dans la recherche en lettres et arts qui intéresse l’axe « Transversalité des humanités numériques ».

Par définition, cet axe n’a pas de rattachement à une matérialité des sources (manuscrits, œuvres publiées, fonds de bibliothèques, arts de la scène, etc.), ni à des périodes littéraires. Il vient en appui aux trois axes du laboratoire et s’appuie sur les projets des chercheurs pour enrichir ses interrogations fondamentales.

L’axe s’appuie sur les quatre grandes étapes du cycle des données :

Production : littératie numérique, interfaces, production contributive et collaborative
Exploitation : méthodes numériques de traitement des données littéraires et artistiques
Exposition : open research data et principes FAIR, éditions numériques
Pérennisation : préservation à long terme des données

Production

Contrairement à des disciplines telles les sciences du langage où la donnée source est souvent disponible préalablement au projet de recherche, les lettres et arts sont souvent confrontés à la tâche fastidieuse et techniquement complexe de production de la donnée pour mener à bien ses recherches.

Afin de remédier à la complexité de la tâche, il est nécessaire de développer des outils de production (transcription et annotation) de corpus en adéquation avec la littératie numérique des utilisateurs, tout en améliorant cette littératie. Il s’agit donc d’une part de produire des interfaces accessibles, tout en diffusant une culture numérique afin que les chercheurs disposent d’une meilleure appréhension de la donnée, de sa structure et des potentiels d’une donnée structurée.

Afin de remédier à la lourdeur de la tâche de production de donnée, les plateformes contributives semblent être une solution – elles nécessitent néanmoins d’être étudiées minutieusement. Au delà de l’engouement Web 2.0, nous souhaitons interroger qualitativement et quantitativement les données produites dans le cadre de telles plateformes et étudier les impacts de la qualité des données sur la recherche.

Exploitation

Les données de la recherche en lettres et arts n’atteignent pas, du moins dans les pratiques de l’UMR, les seuils requis pour des analyses de type « deep learning ». C’est un choix délibéré de se détacher de ces approches, largement traitées par ailleurs, pour nous concentrer sur des approches symboliques et statistiques qui permettent de faire émerger de nouvelles connaissances par des mécanismes traçables et interprétables.

Nous exploitons les données littéraires et artistiques avec des méthodes issues du traitement automatique des langues. Cependant, les modèles de langue de ces outils ne sont pas toujours adaptés aux données de la recherche : formes orthographiques et grammaticales imparfaites des manuscrits, formes surannées de la langue française, langues anciennes peu dotées, etc. Les démarches de l’axe impliquent donc de reconsidérer les outils, les adapter et les évaluer.

Exposition

Les humanités numériques se positionnent sur le principe selon lequel les résultats de la recherche doivent être reproductibles. À cet effet, le respect des principes FAIR Data (Findable, Accessible, Interoperable, Reusable) nous semble un enjeu fondamental afin d’une part de valoriser nos objets de recherche, mais surtout de les ouvrir à la controverse scientifique. Ces principes fondateurs restent néanmoins à mettre en pratique, non seulement d’un point de vue éthique au sein de la communauté scientifique, mais d’un point de vue technologique.

L’autre versant de l’exposition de la donnée est la question de sa valorisation. Si de nombreux projets ont tiré profit d’éditions numériques, voire d’éditions hybrides papier-numérique, les nouvelles formes de mise à disposition des objets de la recherche, aussi bien auprès de publics experts que du grand public, restent à inventer.

Pérennisation

Afin de répondre aux points précédents (exploitation et reproductibilité expérimentale d’une part, exposition d’autre part), il est nécessaire d’interroger la question de la pérennisation des données, pérennisation à long terme, donc non seulement un problème de matérialité des supports, mais aussi et surtout de réutilisabilité des données à long terme.

Cette question porte bien entendu sur les données produites (thème 1), au delà de leur interopérabilité, il s’agit de définir les méthodes de caractérisation des encodages afin de rendre ces données réutilisables et transposables vers d’autres formats. Ces problématiques touchent par ailleurs les outils (outils de production et d’exploitation) afin de garantir, là encore à long terme, la reproductibilité des observations et des analyses. Enfin ces problématiques se propagent sur les formes innovantes d’éditions (ou de muséalisation) des données, car dépendant à la fois des données et des outils.

Si la pérennisation des données est en cours de concrétisation grâce au travail de collaboration entre la TGIR Huma-Num et le CINES, les autres points restent malheureusement en suspens.

Projets financés

Programme Démarre SHS !, WP3 de l’Institut des Données, IDEX Grenoble, porté par T. Lebarbé
Projet Dramabase, financement IRS, porté par M. Douguet
Projet BasNum, financement ANR, porté par G. Williams
Projet ARGILES, financement Démarre SHS !, porté par P. Soutrenon et T. Lebarbé
Projet ComonImage, thèse CIFRE, société Comongo, Grenoble

Responsable

Geoffrey Williams

Membres

Consulter la liste des membres