Le projet BASNUM | UMR Litt&Arts

Recherche

Numérisation et analyse du Dictionnaire universel d’Antoine Furetière, dans la version de 1701 revue et corrigée par Basnage de Beauval : décryptage du projet BASNUM.

Geoffrey Williams, Professeur en Sciences du Langage à l'Université Bretagne Sud et membre de Litt&Arts - Groupe Humanités numériques de l'axe 1, est responsable de ce projet monté en partenariat avec LATTICE et Inria Paris. Il vient d'obtenir un financement de l'ANR, sachant que le taux de projets retenus en 2018 n'est que de 14,1% dans le cadre du comité 38 (CE 38) de l'ANR, « La révolution numérique : rapports à savoirs et à la culture ».

L’objectif principal du projet BASNUM est de numériser le Dictionnaire universel (DU) d’Antoine Furetière, dans la version de 1701 revue et corrigée par Basnage de Beauval, et de l’analyser avec des outils numériques, afin de faire apparaître l’importance de cet ouvrage pour l’évolution des sciences et des mentalités au XVIIIe siècle. Le projet vise également à contribuer au mouvement actuel de conception de méthodes innovantes de numérisation, encodage et analyse des textes.

Jusqu’à présent, aucune étude n’a cherché à évaluer l’étendue des transformations et des ajouts apportés par l’émigré français à l’ouvrage initial d’Antoine Furetière. Or, entre 1690 et 1701, le volume du dictionnaire triple ; par ailleurs, il connaît de nombreux et importants changements qualitatifs. L’hypothèse de travail est que, à la différence de Furetière qui le précède, mais aussi des membres de la compagnie de Jésus impliqués dans l’écriture du Trévoux (1704), Basnage conçoit son travail dans un esprit plus scientifique. Le résultat est un ouvrage descriptif, encyclopédique, et qui par endroits peut être vu aussi comme un dictionnaire d’apprentissage.

Au-delà de l’analyse de la méthode lexicographique de Basnage, le projet cherche à explorer la vision linguistique à partir de laquelle le DU est construit, et qu’il conforte en retour. Dans quelle mesure l’identité sociale et religieuse de Basnage affecte-t-elle son travail ? Peut-on voir dans la conception du dictionnaire non seulement une entreprise encyclopédique d’un membre de la « république des lettres », mais aussi un moyen de garder le lien avec la France, pour soi-même mais surtout pour la communauté émigrée qui cherche à préserver son identité culturelle en dépit de l’éloignement de sa patrie natale ?

Le projet cherche à tester ces hypothèses et à répondre à ces questions à travers une exploration systématique de l’ouvrage, c’est-à-dire assistée par ordinateur. Ceci implique, en premier lieu, la préparation du texte dans un format structuré XML/TEI. Compte tenu du volume à traiter, le projet aura recours à GROBID, un outil d’extraction automatique d'informations à partir de texte semi-structuré, à l’amélioration duquel il contribuera en retour. Une fois le document source numérisé, et structuré grâce à des travaux de nettoyage et d’encodage supplémentaires, le DU va être comparé à des dictionnaires antérieurs et postérieurs. En troisième lieu, le texte sera interrogé par une série de requêtes, afin d’extraire de l’information à propos des domaines scientifiques, techniques et professionnels couverts par Basnage ; de même, ces extractions vont permettre de mieux comprendre la position auctoriale de Basnage. Enfin, le projet cherchera à identifier le « corpus » lexicographique de Basnage, ainsi que les réseaux scientifiques et littéraires dans lesquels le DU s’inscrit. Pour ce faire, le projet aura recours à NERD, un outil de reconnaissance d’entités nommées (par ex. les noms propres) développé par INRIA et mis à la disposition de la communauté scientifique via HUMA-NUM.

En résumé, BASNUM va :

créer une édition numérique, en accès ouvert, d’un dictionnaire historique des plus importants, respectant les standards définis par l’action COST eNel (European Network of e-Lexicography) ;
permettre de mieux comprendre la contribution de Basnage à l’avancement de la lexicographie, ainsi que son rôle dans la « république des lettres » au début du XVIIIe siècle ;
ouvrir la voie d’une analyse numérique du « corpus » lexicographique et des réseaux de connaissance impliqués par son entreprise ;
faire avancer l’automatisation de l’acquisition des textes, notamment en ce qui concerne les documents semi-structurés ;
contribuer à la mise en place de bonnes pratiques pour l’annotation de l’information sémantique et bio-bibliographique, en reliant ces informations à d’autres ressources disponibles sur la toile ;
permettre d’améliorer les méthodes et techniques pour générer des connaissances linguistiques et historiques à partir de textes numérisés, et avec des outils numériques.

Contact

williams

licorn-research.fr (Geoffrey Williams)

Partenaires

LATTICE

Inria Paris