Maintenance

Due to a planned maintenance at our hosting facility, the SFBI website will be stopped from October 6 to October 8

Développement d’un outil de décontamination in silico pour les données métagénomiques

 Stage · Stage M2  · 6 mois    Bac+5 / Master   MetaGenoPolis · Jouy-en-Josas (France)  Gratification stage

 Date de prise de poste : Feb. 2, 2026

Mots-Clés

séquençage métagénomique cross-contamination développement logiciel bioinformatique machine learning

Description

CONTEXTE ET OBJECTIF DU STAGE

Le séquençage métagénomique a révolutionné la microbiologie en permettant de caractériser des communautés microbiennes complexes sans culture préalable. Cette technologie a permis des avancées scientifiques majeures dans le domaine de la santé humaine en mettant en lumière les associations entre le microbiote intestinal et des maladies aussi diverses que l’obésité, le diabète, le cancer ou les maladies cardio-vasculaires. Dans ce contexte, plusieurs initiatives internationales de grande envergure ont été lancées pour mieux caractériser la diversité du microbiote humain. Parmi elles, le projet French Gut, co-porté par notre laboratoire MetaGenoPolis, représente une initiative phare visant à explorer, par séquençage métagénomique, le microbiote intestinal de la population française, avec l’ambition d’atteindre à terme 100 000 échantillons séquencés.

Malgré sa puissance, le séquençage métagénomique demeure sensible à divers biais techniques et expérimentaux, parmi lesquels la cross-contamination représente un enjeu critique. Ce phénomène, qui survient lorsque des échantillons sont accidentellement mélangés lors des traitements en laboratoire (extraction d’ADN, création des librairies), constitue une source de biais majeure pour les analyses bioinformatiques et biostatistiques. Le développement de méthodes robustes pour le détecter et le corriger est donc indispensable afin d’assurer la fiabilité des résultats.

À MetaGenoPolis (INRAE), nous avons récemment conçu CroCoDeEL, un outil d’aide à la décision qui détecte et quantifie finement la cross-contamination. Il identifie non seulement l’échantillon contaminé mais aussi l’échantillon source, tout en estimant précisément le taux de contamination. Nos travaux ont mis en évidence que ce problème est fréquent mais encore largement sous-estimé, soulignant la nécessité d’intégrer systématiquement sa détection dans les procédures de contrôle qualité.

C’est précisément dans ce contexte que s’inscrit ce stage, dont l’objectif sera de développer un logiciel de décontamination in silico d’échantillons cross-contaminés en mettant en œuvre des approches basées sur l’intelligence artificielle. Cet outil permettra de corriger les biais liés à la cross-contamination afin de maximiser le nombre d’échantillons exploitables et la robustesse des analyses. Au-delà de l’amélioration de la fiabilité scientifique, ces outils auront un impact économique significatif: ils réduiront les coûts liés au retraitement des échantillons et limiteront la perte de données précieuses, un enjeu majeur pour des projets de l’envergure du French Gut.

VOS MISSIONS

  • S’approprier la méthodologie de CroCoDeEL pour la détection d’échantillons cross-contaminés.
  • Développer une méthode capable de soustraire le signal contaminant d’un échantillon en se basant sur le profil de l’échantillon source identifié.
  • Implémenter cette méthode sous la forme d’un outil bioinformatique robuste et efficace, visant à reconstruire un profil microbien corrigé.
  • Générer des données simulées pour tester et évaluer l’outil.
  • Évaluer, comparer et améliorer les méthodes de décontamination à partir de données simulées et réelles.
  • Définir le domaine de validité de l’approche en précisant les conditions dans lesquelles la décontamination est fiable et pertinente (ex.: taux de contamination, similitude des profils).
  • Documenter le logiciel et le rendre accessible à la communauté scientifique via la mise à disposition du code source et d’outils pour faciliter son installation et son déploiement.
  • Présenter les résultats à l’équipe et contribuer à la valorisation scientifique du projet lors de congrès.

PROFIL SOUHAITÉ

  • Master 2 ou dernière année d’école d’ingénieur en Data Science / Bioinformatique / Biostatistiques.
  • Solides compétences en programmation (Python et R).
  • Bonne maîtrise de la ligne de commande (bash).
  • Connaissances en apprentissage supervisé et non supervisé, idéalement avec une expérience sur des bibliothèques de machine learning ou d’intelligence artificielle.
  • Intérêt pour le traitement de données de séquençage; bases en microbiologie appréciées.
  • Bon niveau d’anglais scientifique écrit et oral.

RÉFÉRENCES

  1. Ehrlich, Stanislav Dusko. “The human gut microbiome impacts health and disease.” Comptes rendus biologies 339.7-8 (2016): 319-323.
  2. Minich, Jeremiah J., et al. “Quantifying and understanding well-to-well contamination in microbiome research.” MSystems 4.4 (2019): 10-1128.
  3. Goulet, Lindsay et al. “CroCoDeEL: accurate control-free detection of cross-sample contamination in metagenomic data”. https://www.biorxiv.org/content/10.1101/2025.01.15.633153v1.
  4. https://github.com/metagenopolis/CroCoDeEL.

Candidature

Procédure : Envoyer par mail votre CV et lettre de motivation motivations

Date limite : Nov. 30, 2025

Contacts

 Florian Plaza Oñate
 flNOSPAMorian.plaza-onate@inrae.fr

 Lindsay Goulet
 liNOSPAMndsay.goulet@inrae.fr

Offre publiée le Oct. 8, 2025, affichage jusqu'au Nov. 30, 2025