Stage en data science

 Stage · Stage M2  · 6 mois    Bac+5 / Master   MetaGenoPolis · Jouy-en-Josas (France)  Gratification

Mots-Clés

Métagénomique, détection d'anomalie, microbiote intestinal, apprentissage supervisé et non supervisé

Description

Début du stage entre janvier et mars 2022

Contexte et objectif du stage

L’avènement du séquençage métagénomique a révolutionné la microbiologie en permettant la caractérisation de communautés microbiennes complexes sans culture préalable. Ainsi, cette technologie a permis des avancées scientifiques majeures dans le domaine de la santé humaine en mettant en lumière les associations entre le microbiote intestinal et des maladies aussi diverses que l’obésité, le diabète, le cancer ou les maladies cardiovasculaires [1].


Au sein de l’unité MetaGenoPolis, l’équipe InfoBioStat développe une expertise pointue dans le traitement et l’analyse de données de séquençage métagénomique pour la découverte et la caractérisation de biomarqueurs microbiens associés à des pathologies.


La qualité des échantillons est un élément crucial pour permettre des analyses pertinentes et des interprétations précises. Cependant, il arrive que des incidents lors des traitements en laboratoire (extraction d’ADN ou création des librairies de séquençage) conduisent à une contamination croisée de certains échantillons. Il est donc essentiel d'être capable d'identifier les échantillons problématiques ainsi que la nature de la contamination (unidirectionnelle, bidirectionnelle, lot d'échantillons, etc.).


Cette question se situe dans le cadre théorique de la détection d'anomalie pour lequel de nombreuses méthodes ont été développées [2]. Deux points de vue pourront être abordés durant ce stage : (1) la détection d'anomalie supervisée, à partir des données déjà labélisées comme correctes ou contaminées. Le principal challenge réside ici dans le déséquilibre des classes qui devra être résolu avant d'utiliser les algorithmes usuels de classification binaire [3]. (2) la détection d'anomalies non supervisée, afin d'évaluer l'incohérence d'une observation par rapport à l'ensemble des autres observations. Ce travail nécessitera le calcul d'une distance appropriée au problème posé.


L’objectif de ce stage est d'explorer les approches qui semblent les plus prometteuses et de développer une méthode automatisée et fiable pour la détection d’échantillons contaminés.

Vos missions

  • „ Comprendre et prendre en main la procédure existante pour la détection des échantillons contaminés (qui repose sur une inspection visuelle des cas potentiellement problématiques)
  • „ Concevoir, implémenter et valider une méthode de détection d’anomalies supervisée ou non supervisée
  • „ Recenser des échantillons contaminés dans les bases de données publiques et générer des données simulées pour la phase d’apprentissage
  • „ Rédiger de la documentation et présenter l’outil aux membres de l’équipe InfoBioStat

Profil souhaité

  • Formation en Data Science ou en Bioinformatique/Biostatistiques niveau Master 2 ou dernière année d’école d’ingénieur
  • Programmation en R et/ou Python et connaissance des packages pour l’apprentissage supervisé et non supervisé
  •  Connaissance des outils bioinformatiques pour le traitement des données de séquençage
  • Anglais scientifique et technique
  • Des connaissances générales en microbiologie seraient un plus

Références

[1] Ehrlich, Stanislav Dusko. "The human gut microbiome impacts health and disease." Comptes rendus biologies 339.7-8 (2016): 319-323.

[2] http://wikistat.fr/pdf/st-m-app-anomalies.pdf

[3] Haixiang, Guo, et al. "Learning from class-imbalanced data: Review of methods and applications." Expert Systems with Applications 73 (2017): 220-239.


Candidature

Procédure : Envoyer un mail à Magali Berland (magali.berland@inrae.fr), Florian Plaza Oñate (florian.plaza-onate@inrae.fr) et Emmanuelle Le Chatelier (emmanuelle.lechatelier@inrae.fr) avec votre CV et en expliquant vos motivations pour ce stage.

Date limite : 15 décembre 2021

Contacts

Magali Berland

 maNOSPAMgali.berland@inrae.fr

Offre publiée le 5 octobre 2021, affichage jusqu'au 15 décembre 2021