Mots-Clés
biostatistique
association pangénomique
Campylobacter
benchmark
Description
Contexte
L’étude d’association pangénomique ou GWAS (genome-wide association study) vise à identifier des associations entre des variants génétiques et des phénotypes. De nombreux outils et méthodes existent et sont décrits par exemple dans deux revues bibliographiques récentes (1, 2). Ce stage porte sur l’identification des biomarqueurs de stress chez la bactérie Campylobacter jejuni (responsable d’environ 90% des cas de gastro-entérite humaine) en lien avec sa survie aux procédés de transformation de la volaille en utilisant des approches bioinformatiques et statistiques de GWAS. Il s’inscrit dans le cadre d’une collaboration entre les unités MaIAGE et SECALIM de INRAE.
Objectifs
L’objectif principal du stage est de réaliser une étude comparative de méthodes GWAS à partir d’une pré-sélection d’outils implémentant ces méthodes et disponibles sur la plateforme bioinformatique Migale. Cette pré-sélection de quelques outils, les plus pertinents et adaptés à la problématique, sera effectuée en amont du stage. La mise en œuvre de ces méthodes GWAS nécessitera plusieurs étapes.
Une première étape d’analyse bioinformatique consistera à construire les matrices de données de variants génétiques (SNP, gène, k-mer, unitig) à partir d’une collection de génomes séquencés de Campylobacter jejuni. L’étude de l’association entre les variants génétiques et les phénotypiques sera ensuite basée sur des modèles statistiques comme par exemple le test de Fisher, le modèle linéaire, le modèle mixte, des méthodes d’apprentissage automatique ou des approches phylogénétiques.
Les chaînes de traitement développées dans le cadre du stage pourront être utilisées sur des données de la littérature. Ce stage contribuera également à guider les utilisateurs dans leur prise de décision sur le choix des méthodes et outils, en bioinformatique et statistique, en fonction des caractéristiques des jeux de données phénotypiques et génotypiques.
Bibliographie
[1] San, James Emmanuel, Shakuntala Baichoo, Aquillah Kanzi, Yumna Moosa, Richard Lessells, Vagner Fonseca, John Mogaka, Robert Power, and Tulio de Oliveira. 2020. Current Affairs of Microbial Genome-Wide Association Studies: Approaches, Bottlenecks and Analytical Pitfalls. Frontiers in Microbiology Volume 10 - 2019. https://doi.org/10.3389/fmicb.2019.03119.
[2]Yang Q, Wang X, Han M, Sheng H, Sun Y, Su L, Lu W, Li M, Wang S, Chen J, Cui S, Yang B. 2025. Bacterial genome-wide association studies: exploring the genetic variation underlying bacterial phenotypes. Appl Environ Microbiol 91:e02512-24. https://doi.org/10.1128/aem.02512-24
Profil
Étudiant-e en Master 2 de Bioinformatique/Biostatistique
Compétences
Maîtrise de l’environnement Linux, utilisation et interprétation de logiciels d’analyse bio-informatique sont demandés.
Maîtrise d’un langage de programmation, R et/ou python
Maîtrise des notions de tests statistiques et d’analyse multivariée (régression, régression logistique)
Intérêt pour les applications en biologie
Une connaissance des données génomiques sera appréciée
La faculté à travailler en équipe, à communiquer avec des interlocuteurs variés, la rigueur, l’autonomie et la curiosité sont des qualités indispensables à la réussite du stage.
Equipe d’accueil
Le-la stagiaire sera accueilli-e au sein de la plateforme de bioinformatique Migale (https://migale.inrae.fr/), dans l’unité de recherche MaiAGE sur le campus INRAE à Jouy-en-Josas. L’équipe est composée d’une dizaine de personnes avec des compétences pluridisplinaires (bioinformatique, statistique, gestion des données, développement informatique).
Encadrement
christelle.Hennequet-Antier@inrae.fr (statistique) ; sophie.schbath@inrae.fr (statistique) ; valentin.loux@inrae.fr (bioinformatique)
Période début courant janvier / mars 2026 et fin courant juin / septembre 2026 (selon la formation)