Mots-Clés
Ontologies
Bioinformatique
Métabolomique végétale
Apprentissage automatique (Machine Learning)
Modèles de langage (LLM, SBERT)
Description
Annotation et contextualisation de la littérature scientifique pour la métabolomique végétale
Contexte de travail
L’unité IGEPP (Institut de Génétique, Environnement et Protection des Plantes) est un laboratoire de recherche associant l’Université de Rennes, INRAE et l’Institut Agro, regroupant 250 personnes réparties sur plusieurs sites en Bretagne. Ses recherches visent à comprendre le fonctionnement des plantes, des organismes associés et des agroécosystèmes, afin de développer des méthodes durables de protection végétale, respectueuses de l’environnement. La plateforme P2M2, intégrée à l’IGEPP, est labellisée IBiSA, membre du GIS Biogenouest et certifiée ISO9001. Elle fournit un service analytique en chimie métabolomique, avec un parc informatique spécialisé et des équipements comme des spectromètres de masse.
Problématique
La littérature scientifique contient une masse d’informations sur le rôle déterminant de certains métabolites dans les produits végétaux, influençant aussi bien la résistance aux maladies que les interactions environnementales ou les qualités organoleptiques. Ces connaissances sont essentielles pour comprendre les mécanismes qui façonnent les caractéristiques des plantes, leur réponse aux stress et leur potentiel de transformation.
Parallèlement, le domaine végétal s’appuie déjà sur des ontologies de référence, telles que la Plant Ontology, la Trait Ontology ou encore la Plant Experimental Conditions Ontology, développées dans le cadre du projet Planteome. Dans le domaine de la transformation des bioressources, l’ontologie TransformON, conçue à INRAE, constitue une ressource complémentaire permettant de représenter de façon structurée les procédés. Mobilisées au-delà de leurs usages actuels, ces ontologies pourraient aussi servir à annoter la littérature scientifique selon des standards sémantiques, favorisant l’intégration et la réutilisation des connaissances.
Ces éléments soulignent l’enjeu central : développer des méthodes et outils normalisés permettant d’annoter, structurer et interconnecter les informations issues des publications. Une telle approche ouvrirait la voie à des bases de connaissances interopérables, facilitant la veille scientifique et l’acquisition de connaissances nouvelles via l’interdisciplinarité.
Objectifs du stage
Construire un jeu de données fondé sur l’annotation MeSH (Medical Subject Headings) couvrant le corpus de littérature scientifique de PubMed Central, et établir un recouvrement entre MeSH et les ontologies des domaines végétal (Planteome) et alimentaire (TransformON).
Spécialiser un modèle de langage (LLM) sur la comparaison sémantique des résumés scientifiques (abstracts) et des termes issus des ontologies.
Résultats attendus
Sources logicielles destinées à produire le jeu de données d’annotations des ontologies du projet Planteome, couvrant le corpus de littérature scientifique de PubMed Central.
Développement d’un encodeur SBERT spécialisé dans la reconnaissance et la classification des termes ontologiques, appliqué à l’étude des matrices végétales et des procédés de transformation alimentaire, à partir du jeu de données produit.
Compétences mobilisées / acquises
- Traitement automatique du langage (NLP) et apprentissage automatique (machine learning).
- Dialoguer avec les scientifiques du domaine.
- Exploitation d’ontologies (Planteome, TransformON).
- Développement et spécialisation de modèles de langage (LLM, SBERT).
- Approche interdisciplinaire à l’interface biologie végétale, bioinformatique et intelligence artificielle.
Profil recherché
Contact
Olivier Filangi : olivier.filangi@inrae.fr