Stage de M1 ou M2 - Benchmark d’outils d’intelligence artificielle pour l’extraction de métadonnées

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRAE Grand Est-Colmar - Equipe GMV (Génomique et Métabolisme de la Vigne) · Colmar (France)

 Date de prise de poste : 1 mars 2026

Mots-Clés

Bioinformatique RNAseq Métadonnées LLM RAG Intelligence artificielle Méta-analyse

Description

Le projet Text2Meta vise à développer un workflow innovant d’extraction et de structuration des métadonnées issues de publications scientifiques afin de faciliter la méta-analyse de données de séquençage d’ARN (RNAseq) publiques.

Actuellement, plus de 10 000 échantillons RNAseq de vigne sont disponibles dans les bases de données publiques, mais leurs métadonnées sont souvent incomplètes ou mal renseignées. Ces informations existent toutefois dans les publications scientifiques (articles PDF, fichiers complémentaires au format CSV/Excel). Le volume de publications rend cependant impossible une extraction manuelle exhaustive par un humain. Les métadonnées sont pourtant essentielles pour décrire précisément les échantillons afin de pouvoir les analyser (par exemple pour la vigne : cépage, organe, stade de développement, traitement appliqué, etc.).

L’automatisation de cette extraction ouvrirait la voie à de véritables méta-analyses à grande échelle. Cette approche est généralisable à toutes les espèces disposant de données -omiques (RNA-seq, métabolomique, DNA-seq, …) publiques. Il s’agit d’un défi scientifique majeur, devenu envisageable grâce aux avancées récentes en intelligence artificielle.

Dans le cadre de ce projet, l’étudiant·e de M1 ou M2 participera au benchmark (comparaison) d’outils d’extraction automatisée de métadonnées issues de publications scientifiques (bases de données publiques, PDF, fichiers complémentaires). Ces métadonnées concerneront en priorité des expériences RNAseq publiques de vigne.

Le/la stagiaire aura pour missions principales :
– évaluation comparative d’outils d’intelligence artificielle appliqués à l’analyse de texte scientifique (LLM, RAG, vectorisation) ;
– validation des performances des outils sur un corpus de référence (2 500 échantillons RNAseq de Vitis vinifera dont les métadonnées ont été curées manuellement) ;
– développement d’un workflow reproductible permettant le lancement du ou des outils sélectionnés et le stockage des métadonnées extraites dans des formats standards (JSON/CSV).

Ce stage est ouvert à un(e) étudiant(e) de Master 1 ou Master 2 (bioinformatique, informatique, data science ou disciplines proches), disposant de bases en programmation (Python) et d’un intérêt marqué pour l’intelligence artificielle appliquée aux données scientifiques. Des notions de Bash et/ou une expérience de travail sur cluster de calcul seront appréciées, sans être obligatoires.

Ce stage s’inscrit pleinement dans les thématiques INRAE liées à l’open data et aux principes FAIR (Findable, Accessible, Interoperable, Reusable), en valorisant les jeux de données -omiques déjà existants plutôt que d’en générer de nouveaux. Cette approche contribue à une recherche plus durable, en favorisant la réutilisation des données publiques et en limitant l’empreinte écologique liée au stockage massif et au reséquençage.

Candidature

Procédure : Pour candidater, envoyez un e-mail à Amandine Velt (amandine.velt@inrae.fr) en joignant votre CV et une lettre de motivation.

Date limite : 31 janvier 2026

Contacts

 Amandine Velt
 amNOSPAMandine.velt@inrae.fr

Offre publiée le 21 novembre 2025, affichage jusqu'au 31 janvier 2026