Mots-Clés
Biostatistiques
Séquençage métagénomique shotgun
Microbiome intestinal
Benchmark
Rarefying
Normalisation
Compositionalité
Description
CONTEXTE ET OBJECTIF DU STAGE
Le microbiome intestinal joue un rôle important dans la santé humaine en participant à la digestion, en stimulant les défenses immunitaires ou en produisant des molécules d’intérêt pour l’hôte. L’essor récent de la métagénomique a permis des avancées scientifiques majeures dans le domaine de la santé humaine en étudiant rôle du microbiome intestinal dans diverses maladies (1).
Étudier le rôle du microbiome intestinal passe notamment par le séquençage de l’ADN bactérien, ce qui permet d’identifier les micro-organismes présents, les gènes et fonctions qu’ils portent, et de faire le lien avec les données cliniques de l’hôte. L’équipe InfoBioStat de l’unité INRAE MetaGenoPolis (MGP) (https://mgps.eu/) est spécialisée dans l’analyse des données métagénomiques shotgun.
L’obtention des matrices d’abondances des espèces microbiennes est une étape clé qui permet l’analyse des différences entre le microbiome intestinal des personnes en bonne santé et des personnes malades. Cependant, il existe un large panel de prétraitements possibles, qui proposent tous de répondre à certaines spécificités statistiques des données métagénomiques. Par exemple, un rarefying peut être proposé pour contrebalancer la différence du nombre de lectures produites par échantillon, des normalisation FPKM ou en couverture sont utilisées pour comparer des gènes de tailles différentes et la CLR-transformation adresse le problème de compositionnalité des données. Chacun de ces choix impacte les analyses biostatistiques menées par la suite (tests univariés, analyses multivariées, métriques d’écologie).
Le ou la stagiaire recruté·e travaillera sur trois projets publics complémentaires, dont les données sont disponibles. Le premier objectif du stage consiste, à partir du pipeline des prétraitements et analyses menées à MGP, à identifier les principales limites de ces approches, puis mener une revue bibliographique des alternatives disponibles dans la littérature (2). Le deuxième objectif vise à définir un protocole rigoureux pour tester différentes combinaisons de pré-traitements et comparer leur impact sur les résultats obtenus par différentes méthodes d’analyse, en s’inspirant d’évaluations déjà publiées (3,4). Le troisième objectif consiste à appliquer ce protocole sur les données des trois projets, afin de pouvoir identifier pour chaque méthode d’analyse le ou les pré-traitements les plus adaptés. Enfin, le quatrième objectif consiste à incorporer dans l’évaluation précédente de nouveaux pré-traitements et/ou méthodes d’analyses préalablement identifiés dans la littérature.
Ce travail pourra faire l’objet de valorisations (poster de conférence, publication scientifique, communication orale).
PROFIL SOUHAITÉ
• Formation M2 ou école d’ingénieur en biostatistiques/ bioinformatique
• Maîtrise du langage R
• Familiarité avec linux, bash, RStudio, GitHub/GitLab
• Compétences en statistiques uni-/bi-variées (tests de Wilcoxon, ANOVA) et multi-variées (ACP, régressions PLS)
• Connaissances générales en microbiologie et éventuellement sur les problématiques liées aux données microbiennes / métagénomiques
• Bon niveau d’anglais (lu, parlé, écrit)
RÉFÉRENCES
(1) Fan, Y.; Pedersen, O. Gut Microbiota in Human Metabolic Health and Disease. Nat. Rev. Microbiol. 2021, 19 (1), 55–71. https://doi.org/10.1038/s41579-020-0433-9.
(2) Xia, Y. Statistical Normalization Methods in Microbiome Data with Application to Microbiome Cancer Research. Gut Microbes 2023, 15 (2), 2244139. https://doi.org/10.1080/19490976.2023.2244139.
(3) Pereira, M. B.; Wallroth, M.; Jonsson, V.; Kristiansson, E. Comparison of Normalization Methods for the Analysis of Metagenomic Gene Abundance Data. BMC Genomics 2018, 19 (1), 274. https://doi.org/10.1186/s12864-018-4637-6.
(4) Yang, L.; Chen, J. A Comprehensive Evaluation of Microbial Differential Abundance Analysis Methods: Current Status and Potential Solutions. Microbiome 2022, 10 (1), 130. https://doi.org/10.1186/s40168-022-01320-0.
Le stage pourra débuter entre janvier et mars 2026.