Mots-Clés
Bioinformatique
RNAseq
Métadonnées
LLM
RAG
Intelligence artificielle
Méta-analyse
Description
Le projet Text2Meta vise à développer un workflow innovant d’extraction et de structuration des métadonnées issues de publications scientifiques afin de faciliter la méta-analyse de données de séquençage d’ARN (RNAseq) publiques.
Actuellement, plus de 10 000 échantillons RNAseq de vigne sont disponibles dans les bases de données publiques, mais leurs métadonnées sont souvent incomplètes ou mal renseignées. Ces informations existent toutefois dans les publications scientifiques (articles PDF, fichiers complémentaires au format CSV/Excel). Le volume de publications rend cependant impossible une extraction manuelle exhaustive par un humain. Les métadonnées sont pourtant essentielles pour décrire précisément les échantillons afin de pouvoir les analyser (par exemple pour la vigne : cépage, organe, stade de développement, traitement appliqué, etc.).
L’automatisation de cette extraction ouvrirait la voie à de véritables méta-analyses à grande échelle. Cette approche est généralisable à toutes les espèces disposant de données -omiques (RNA-seq, métabolomique, DNA-seq, …) publiques. Il s’agit d’un défi scientifique majeur, devenu envisageable grâce aux avancées récentes en intelligence artificielle.
Dans le cadre de ce projet, l’étudiant·e de M1 ou M2 participera au benchmark (comparaison) d’outils d’extraction automatisée de métadonnées issues de publications scientifiques (bases de données publiques, PDF, fichiers complémentaires). Ces métadonnées concerneront en priorité des expériences RNAseq publiques de vigne.
Le/la stagiaire aura pour missions principales :
– évaluation comparative d’outils d’intelligence artificielle appliqués à l’analyse de texte scientifique (LLM, RAG, vectorisation) ;
– validation des performances des outils sur un corpus de référence (2 500 échantillons RNAseq de Vitis vinifera dont les métadonnées ont été curées manuellement) ;
– développement d’un workflow reproductible permettant le lancement du ou des outils sélectionnés et le stockage des métadonnées extraites dans des formats standards (JSON/CSV).
Ce stage est ouvert à un(e) étudiant(e) de Master 1 ou Master 2 (bioinformatique, informatique, data science ou disciplines proches), disposant de bases en programmation (Python) et d’un intérêt marqué pour l’intelligence artificielle appliquée aux données scientifiques. Des notions de Bash et/ou une expérience de travail sur cluster de calcul seront appréciées, sans être obligatoires.
Ce stage s’inscrit pleinement dans les thématiques INRAE liées à l’open data et aux principes FAIR (Findable, Accessible, Interoperable, Reusable), en valorisant les jeux de données -omiques déjà existants plutôt que d’en générer de nouveaux. Cette approche contribue à une recherche plus durable, en favorisant la réutilisation des données publiques et en limitant l’empreinte écologique liée au stockage massif et au reséquençage.