Workflow d’annotation de la littérature scientifique ISTEX

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRAE/La Plateforme de Profilage Métabolique et de Métabolomique (P2M2) · Le Rheu (France)  600 euros/mois

 Date de prise de poste : 5 janvier 2026

Mots-Clés

Ontologies Annotation sémantique Graphe de connaissances Bioinformatique Métabolomique végétale Big Data TAL/NLP

Description

Workflow d’annotation de la littérature scientifique ISTEX

Contexte de travail

L’unité IGEPP (Institut de Génétique, Environnement et Protection des Plantes) est un laboratoire de recherche associant l’Université de Rennes, INRAE et l’Institut Agro, regroupant 250 personnes réparties sur plusieurs sites en Bretagne. Ses recherches visent à comprendre le fonctionnement des plantes, des organismes associés et des agroécosystèmes, afin de développer des méthodes durables de protection végétale, respectueuses de l’environnement. La plateforme P2M2, intégrée à l’IGEPP, est labellisée IBiSA, membre du GIS Biogenouest et certifiée ISO9001. Elle fournit un service analytique en chimie métabolomique, avec un parc informatique spécialisé et des équipements comme des spectromètres de masse.
Problématique

La littérature scientifique contient une masse d’informations sur le rôle déterminant de certains métabolites dans les produits végétaux, influençant aussi bien la résistance aux maladies que les interactions environnementales ou les qualités organoleptiques. Ces connaissances sont essentielles pour comprendre les mécanismes qui façonnent les caractéristiques des plantes, leur réponse aux stress et leur potentiel de transformation.

Parallèlement, le domaine végétal s’appuie déjà sur des ontologies de référence, telles que la Plant Ontology, la Trait Ontology ou encore la Plant Experimental Conditions Ontology, développées dans le cadre du projet Planteome. Dans le domaine de la transformation des bioressources, l’ontologie TransformON, conçue à INRAE, constitue une ressource complémentaire permettant de représenter de façon structurée les procédés. Mobilisées au-delà de leurs usages actuels, ces ontologies pourraient aussi servir à annoter la littérature scientifique selon des standards sémantiques, favorisant l’intégration et la réutilisation des connaissances.

Ces éléments soulignent l’enjeu central : développer des méthodes et outils normalisés permettant d’annoter, structurer et interconnecter les informations issues des publications. Une telle approche ouvrirait la voie à des bases de connaissances interopérables, facilitant la veille scientifique et l’acquisition de connaissances nouvelles via l’interdisciplinarité.

Objectifs du stage

L’objectif du stage est d’enrichir un workflow existant dédié à la production d’un graphe de connaissances pour la contextualisation des données issues des études du métabolome. Ce graphe repose actuellement sur le corpus de littérature scientifique PubMed ainsi que sur les ontologies du projet Planteome.

Le stage consistera à intégrer l’ontologie TransformON, développée à INRAE et centrée sur les procédés de transformation alimentaire, ainsi qu’à exploiter le corpus ISTEX (socle de la bibliothèque scientifique numérique nationale). Ces apports permettront d’étendre et de renforcer le graphe de connaissances produit par le workflow.

Résultats attendus

  • Création d’un module d’import du corpus ISTEX (socle de la bibliothèque scientifique numérique nationale) dans le gestionnaire de workflows Airflow, utilisé par l’e-infrastructure “Semantic Metabolomics Data Lake”. Cette dernière repose sur une architecture distribuée intégrant les couches technologiques Spark/Hadoop.
  • Intégration de l’ontologie TransformON (portant sur les procédés de transformation) et du corpus ISTEX dans le workflow d’annotation de la littérature scientifique.

Compétences mobilisées / acquises

  • Maîtrise des outils et environnements de gestion de workflows scientifiques (Airflow).
  • Connaissance et manipulation de corpus scientifiques à grande échelle (PubMed, ISTEX).
  • Pratique des technologies Big Data et distribuées (Spark, Hadoop).
  • Développement logiciel et mise en œuvre de modules d’import et de transformation de données.
  • Acquisition et approfondissement des notions de Web sémantique appliqué à la bioinformatique ainsi qu’aux sciences végétales et alimentaires.

Profil recherché

  • Étudiant(e) de Master 2 ou école d’ingénieur avec spécialisation en Bioinformatique ou développement d’application. intérêt marqué pour les technologies Spark/Hadoop/NLP.

Durée et localisation

  • Durée : 5 à 6 mois
  • Lieu : IGEPP – Plateforme P2M2, Rennes (Bretagne) - La Motte au Vicomte BAT 301, 35650 Le Rheu

Contact

Olivier Filangi : olivier.filangi@inrae.fr

Candidature

Procédure : Envoyer un mail

Date limite : 15 décembre 2025

Contacts

 Olivier Filangi
 olNOSPAMivier.filangi@inrae.fr

 Magalie Weber
 maNOSPAMgalie.weber@inrae.fr

Offre publiée le 20 octobre 2025, affichage jusqu'au 16 décembre 2025