Partager cette page

Annotation automatique d’un corpus zoologique ancien (AUTOMAZOO)

En quelques mots

L’objectif général de ce projet est d’adopter, adapter et combiner des méthodes de traitement automatique de la langue, de représentation des connaissances et raisonnement et d’apprentissage automatique pour analyser, classifier et automatiser l’annotation sémantique de textes anciens.

Projet de recherche de l'Axe 1

DATE : 2023

RESPONSABLES : Marco Corneli, CEPAM, EUR CREATES et ODYSSÉE et Catherine Faron, I3S, EUR DS4H

DISCIPLINES : littérature ancienne, biologie, informatique, statistiques, intelligence artificielle et archéozoologie, histoire des sciences

MOTS-CLÉS : transmission des savoirs, histoire des sciences, thesaurus, graphes de connaissances, annotation sémantique automatique, transmission des connaissances

Description du projet

CONTEXTE

Ce projet s'inscrit dans le cadre des actions scientifiques menées par le réseau international de recherche Zoomathia porté par le CEPAM, qui vise l’étude de la constitution et de la transmission des connaissances zoologiques de l’Antiquité jusqu’au Moyen-Âge, et du projet Arch-AI-story, qui a reçu un soutien du Ministère de l’enseignement supérieur, de la recherche et de l’innovation et d’Université Côte d'Azur (explorant le potentiel des mathématiques appliquées et de l’IA pour l’archéologie et l’histoire).
Dans le cadre de Zoomathia, le thésaurus TheZoo des concepts zoologiques rencontrés dans l’Histoire Naturelle de Pline l’Ancien (livres VIII-XI) a été produit précédemment, formalisé dans le langage SKOS et publié (entre autres) sur opentheso.huma-num.fr. Un post-doc financé par la fondation UNICE et plusieurs stages préparatoires ont été conduits en coopération avec I3S.
Les chercheurs du CEPAM utilisent TheZoo pour annoter des textes anciens : chaque paragraphe d’un texte est associé aux concepts de TheZoo auxquels il fait référence.
Ce projet vise à créer une représentation des annotations sémantiques permettant de mettre en relation le texte annoté avec le thésaurus de manière automatique, afin de mieux répondre aux besoins des chercheurs (littéraires et archéozoologues).

OBJECTIFS

L'objectif est de produire un corpus de ressources textuelles annotées sémantiquement par un graphe de connaissances zoologiques anciennes respectant les standards du web sémantique, interopérable et publié sur le web de données ouvertes.

MÉTHODE

Pour y parvenir, il faudra passer par une vectorisation de mots/paragraphes en latin, ce qui apporte un deuxième niveau d’originalité, et utiliser des techniques de classification de texte. Ce faisant, nous souhaitons investiguer l’injection de connaissances de domaine (issues du thésaurus TheZoo) dans la représentation vectorielle des paragraphes et évaluer l’impact sur la qualité des résultats des algorithmes d’annotation automatique.
Le projet se développe en cinq étapes :

- Proposer un modèle RDF (Resource Description Framework) de représentation des annotations sémantiques des textes qui repose sur le modèle Open Annotation recommandée par le World Wide Web Consortium (W3C)
- Lifter la base d’annotations existantes en RDF selon ce modèle
- Recueiller les besoins des chercheurs du CEPAM en termes d’exploitation du graphe de connaissances construit et de les traduire en requêtes SPARQL
- Aborder le thème de l’annotation automatique à travers la représentation vectorielle des paragraphes de l’Histoire Naturelle
- Aborder le thème de l’annotation automatique à travers l'entraînement d’un classifieur qui associe, à un paragraphe, un ou plusieurs concepts de TheZoo.

En fonction de l’avancement des travaux, le développement d’une interface graphique pourra être élaboré.

Interdisciplinarité et partenariats

RESPONSABLES DU PROJET

Marco Corneli, Professeur Junior en intelligence artificielle pour l’archéologie et l’histoire, membre du laboratoire CEPAM et membre associé de l’équipe projet Inria-UCA MAASAI (modèles et algorithmes d’IA). Il s’intéresse à des problèmes d’apprentissage statistique et automatique avec application aux données hétérogènes, graphes en particulier.

Catherine Faron, Professeure en informatique, Université Côte d’Azur, vice-responsable de l’équipe de recherche Wimmics, commune entre I3S et Inria-UCA, qui s’intéresse aux algorithmes d'intelligence artificielle et aux modèles de données hétérogènes.

COLLABORATION

Ce projet implique Arnaud Zucker (CEPAM) par une consultation régulière pour recueillir les besoins des chercheurs humanistes et leurs attentes vis-à-vis du rendu des différents algorithmes et valider la pertinence desdits rendus, notamment évaluer la pertinence d’un ensemble d’annotations suggérées par la machine pour un paragraphe de texte.

Résultats et valorisation

Ce projet renforce des partenariats entre les recherches conduites en sciences humaines (relevant de l’Académie 5 et des EUR CREATES et ODYSSÉE) et des recherches en intelligence artificielle et informatique (relevant de l’Académie 1 et de l’EUR DS4H). Proposé dans le cadre de la première chaire de IA pour l'archéologie et l’histoire à Université Côte d'Azur (UCA), il fait partie d’un programme de renouvellement des méthodes en sciences humaines et sociales (SHS).
Cette passerelle unit deux approches dont la corrélation est nécessaire et mutuellement profitable pour le développement scientifique orienté des technologies du numérique et le renouvellement des méthodes et des outils en SHS. Outre sa transversalité au niveau d’UCA, ce projet peut jouer un rôle pionnier et servir de modèle pour d’autres projets SHS d’annotation automatique de corpus complexes. La problématique de l’annotation automatique de corpus concerne, en effet, la plupart des laboratoires de sciences humaines et sociales.
Une démonstration sera proposée aux collègues du secteur à l’issue du projet.

Conférences

Molka Tounsi Dhouib, Quentin Merilleau, Carla Guerrero, Marco Corneli, Catherine Faron, et al.. Automatic Semantic Classification of Ancient Zoological Texts. IAMAHA 2023 - 1st Symposium in Artificial Intelligence and Applied Mathematics for History and Archaeology, Nov 2023, Nice, France. ⟨hal-04210669⟩
Arnaud Barbe, Molka Tounsi Dhouib, Catherine Faron, Marco Corneli, Arnaud Zucker. Construction d'un graphe de connaissance à partir des annotations manuelles de textes de zoologie antique. IC 2023 - 34es Journées francophones d'Ingénierie des Connaissances @ Plate-Forme Intelligence Artificielle (PFIA 2023), Jul 2023, Strasbourg, France. ⟨hal-04156996⟩
Arnaud Barbe, Molka Tounsi Dhouib, Catherine Faron, Marco Corneli, Arnaud Zucker. Zoo-KG: A knowledge graph of zoological data. AIUCD 2023 - Associazione per l'Informatica Umanistica e la Cultura Digitale, 5-7 juin 2023, Siena (Italy), Italy. ⟨hal-04235805⟩

Académie d'Excellence "Homme, Idées et Milieux"