Skip to main content

NEWTextMining 2 : État de l’art pour la fouille et l’analyse des corpus textuels

Recherche

Cette école thématique et interdisciplinaire sur les nouvelles méthodes de fouille et d’analyse des corpus textuels aura lieu du 30 septembre au 4 octobre 2024 au domaine du Lazaret à Sète. Organisée pour le compte de l'IFSeM (Service mutualisé d'Ile-de-France) et du CNRS, elle sera animée notamment par Anne Garcia-Fernandez, ingénieure de recherche CNRS et chargée de traitement et analyse des données au sein d’ELAN, le pôle d’ingénierie en humanités numériques de Litt&Arts.

Après une première édition en 2022, l'édition 2024 sera orientée sur l'utilisation – ou pas – du langage Python[1] pour la fouille textuelle, resituant ainsi son usage face aux demandes actuelles.

Ayant considérablement augmenté ces dernières années, la production de corpus textuels pour les SHS a rendu interrogeable par API[2] le gigantesque fond documentaire de Gallica, ou encore par les corpus de tweets ou les bases d'archives patrimoniales. Parallèlement, en particulier grâce à l'intelligence artificielle (machine learning, deep learning), des méthodes originales de fouille textuelle (text mining) et des outils logiciels beaucoup plus accessibles ont modifié les problématiques principales que sont la recherche d’information, la classification des textes, l’annotation linguistique et sémantique, et l’extraction d’information et analyse quantitative. L'analyse des données textuelles en masse est donc désormais possible par de multiples moyens : plateformes (GarganTex), outils individuels (le logiciel R et ses bibliothèques), instruments (Google Ngram Viewer). Et ce sont les nouvelles perspectives pour la recherche offertes par ces solutions et ces corpus que cette école souhaiterait explorer. La possibilité accrue de fouilles de textes est aussi en train d'impacter de nombreuses disciplines scientifiques travaillant sur des corpus de sources. Il s’agit alors d’ancrer dans ces disciplines des habitudes de méthodes d’analyse et d’exploitation de grandes masses de corpus textuels, tout en intégrant les attendus des principes FAIR[3] et de la science ouverte, tant dans la mise à disposition de ces corpus que des résultats de la recherche.

Alternant entre présentations théoriques et ateliers pratiques d’expérimentation des outils, le programme aura pour objectif de proposer un état de l’art de techniques novatrices pour les pratiques et les outils d’analyse des données textuelles ; un questionnement sur l'utilisation de langages informatiques comme Python pour répondre aux besoins actuels de fouilles de textes ; un espace de rencontres et de controverses entre spécialistes des techniques et spécialistes des contenus.

Cette école thématique est ouverte aux chercheur·euses, enseignant·es-chercheur·euses, ingénieur·es d’étude et de recherche, doctorant·es, post-doctorant·es, CNRS ou universitaires, français·es ou étranger·es, intéressé·es par les problématiques de la recherche d’information, la classification, l’annotation et l’extraction d’informations propres aux Humanités numériques. Des connaissances de base sur l’encodage des documents, les principes généraux de la programmation et un premier contact avec le langage Python sont recommandés.

 

[1] Python est un langage de programmation puissant et facile à apprendre. Il dispose de structures de données de haut niveau et permet une approche simple mais efficace de la programmation orientée objet. Parce que sa syntaxe est élégante, que son typage est dynamique et qu'il est interprété, Python est un langage idéal pour l'écriture de scripts et le développement rapide d'applications dans de nombreux domaines et sur la plupart des plateformes. (source : docs.python.org)

[2] Une API (application programming interface ou « interface de programmation d’application ») est une interface logicielle qui permet de « connecter » un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et des fonctionnalités. (source : cnil.fr)

[3] Les principes FAIR (Findable, Accessible, Interoperable, Reusable) décrivent comment les données doivent être organisées pour être plus facilement accessibles, comprises, échangeables et réutilisables. (source : ccsd.cnrs.fr)

Contact

anne.garcia-fernandezatuniv-grenoble-alpes.fr (Anne Garcia-Fernandez)

Submitted on 21 June 2024

Updated on 28 August 2024