Mots-Clés
Ontologies
Annotation sémantique
Graphe de connaissances
Bioinformatique
Métabolomique végétale
Big Data
TAL/NLP
Description
Workflow d’annotation de la littérature scientifique ISTEX
Contexte de travail
L’unité IGEPP (Institut de Génétique, Environnement et Protection des Plantes) est un laboratoire de recherche associant l’Université de Rennes, INRAE et l’Institut Agro, regroupant 250 personnes réparties sur plusieurs sites en Bretagne. Ses recherches visent à comprendre le fonctionnement des plantes, des organismes associés et des agroécosystèmes, afin de développer des méthodes durables de protection végétale, respectueuses de l’environnement. La plateforme P2M2, intégrée à l’IGEPP, est labellisée IBiSA, membre du GIS Biogenouest et certifiée ISO9001. Elle fournit un service analytique en chimie métabolomique, avec un parc informatique spécialisé et des équipements comme des spectromètres de masse.
Problématique
La littérature scientifique contient une masse d’informations sur le rôle déterminant de certains métabolites dans les produits végétaux, influençant aussi bien la résistance aux maladies que les interactions environnementales ou les qualités organoleptiques. Ces connaissances sont essentielles pour comprendre les mécanismes qui façonnent les caractéristiques des plantes, leur réponse aux stress et leur potentiel de transformation.
Parallèlement, le domaine végétal s’appuie déjà sur des ontologies de référence, telles que la Plant Ontology, la Trait Ontology ou encore la Plant Experimental Conditions Ontology, développées dans le cadre du projet Planteome. Dans le domaine de la transformation des bioressources, l’ontologie TransformON, conçue à INRAE, constitue une ressource complémentaire permettant de représenter de façon structurée les procédés. Mobilisées au-delà de leurs usages actuels, ces ontologies pourraient aussi servir à annoter la littérature scientifique selon des standards sémantiques, favorisant l’intégration et la réutilisation des connaissances.
Ces éléments soulignent l’enjeu central : développer des méthodes et outils normalisés permettant d’annoter, structurer et interconnecter les informations issues des publications. Une telle approche ouvrirait la voie à des bases de connaissances interopérables, facilitant la veille scientifique et l’acquisition de connaissances nouvelles via l’interdisciplinarité.
Objectifs du stage
L’objectif du stage est d’enrichir un workflow existant dédié à la production d’un graphe de connaissances pour la contextualisation des données issues des études du métabolome. Ce graphe repose actuellement sur le corpus de littérature scientifique PubMed ainsi que sur les ontologies du projet Planteome.
Le stage consistera à intégrer l’ontologie TransformON, développée à INRAE et centrée sur les procédés de transformation alimentaire, ainsi qu’à exploiter le corpus ISTEX (socle de la bibliothèque scientifique numérique nationale). Ces apports permettront d’étendre et de renforcer le graphe de connaissances produit par le workflow.
Résultats attendus
- Création d’un module d’import du corpus ISTEX (socle de la bibliothèque scientifique numérique nationale) dans le gestionnaire de workflows Airflow, utilisé par l’e-infrastructure “Semantic Metabolomics Data Lake”. Cette dernière repose sur une architecture distribuée intégrant les couches technologiques Spark/Hadoop.
- Intégration de l’ontologie TransformON (portant sur les procédés de transformation) et du corpus ISTEX dans le workflow d’annotation de la littérature scientifique.
Compétences mobilisées / acquises
- Maîtrise des outils et environnements de gestion de workflows scientifiques (Airflow).
- Connaissance et manipulation de corpus scientifiques à grande échelle (PubMed, ISTEX).
- Pratique des technologies Big Data et distribuées (Spark, Hadoop).
- Développement logiciel et mise en œuvre de modules d’import et de transformation de données.
- Acquisition et approfondissement des notions de Web sémantique appliqué à la bioinformatique ainsi qu’aux sciences végétales et alimentaires.
Profil recherché
- Étudiant(e) de Master 2 ou école d’ingénieur avec spécialisation en Bioinformatique ou développement d’application. intérêt marqué pour les technologies Spark/Hadoop/NLP.
Durée et localisation
- Durée : 5 à 6 mois
- Lieu : IGEPP – Plateforme P2M2, Rennes (Bretagne) - La Motte au Vicomte BAT 301, 35650 Le Rheu
Contact
Olivier Filangi : olivier.filangi@inrae.fr