Stage M2 Caractériser les régions hypervariables de pangénomes

 Stage · Stage M2  · 6 mois    Bac+5 / Master   GenPhySE - INRAE Toulouse · Castanet-Tolosan (France)

Mots-Clés

Pangénomes Graphe de variations Variations de struvture

Description

Contexte
Les assemblages de référence jouent un rôle central dans toutes les analyses fonctionnelles du génome et pour la caractérisation de la variabilité génétique.
La première étape de ces analyses consiste généralement à aligner des séquences produites sur cette séquence de référence (le plus souvent des courtes lectures et aujourd’hui également des longues lectures). La présence de variations de structure au sein des populations, par exemple de grandes insertions ou délétions, se traduit par une difficulté à aligner des lectures issues de chromosomes portant ces variations sur l’assemblage de référence. Un phénomène que l’on nomme biais de référence. Les assemblages que l’on peut produire aujourd’hui en routine, grâce aux technologies longues lectures, permettent d’envisager de remplacer l’assemblage de référence par un ensemble d’assemblages qui correspondent à plusieurs génomes, c’est à dire un pangénome (Liao et al. 2023). Ces graphes de pangénome, ou graphes de variations, fournissent une meilleure représentation du patrimoine génétique de l’espèce et permettent de réduire le biais de référence (Sirén et al. 2021).
La construction d’un graphe de variations est cependant un problème complexe qui s’apparente à un alignement multiple impliquant des dizaines de séquences, chacune de la taille d’un chromosome (~100 millions de nucléotides). Cette construction fait appel à de nombreuses heuristiques qui compliquent la compréhension de l’impact de la méthode de construction sur la graphe obtenu. Des travaux récents ont montré que les graphes produits par des approches différentes pouvaient présenter des différences significatives (Andreace et al. 2023, Dubois et al. 2025). Ces différences ne se distribuent pas de manière uniforme sur le graphe, mais sont concentrées dans des régions avec une forte densité de répétitions tels les centromères et les télomères. L’objectif du stage est de caractériser la variabilité dans ces régions du graphe, et d’aborder le problème de l’origine des variations observées. Est-ce qu’elles correspondent à une réalité biologique ou proviennent-elles plutôt d’erreurs d’alignements ou de problèmes d’assemblage ?

Objectifs et méthode
L’objectif de ce stage est de développer des méthodes et algorithmes pour aborder cette question. Il s’agira de :

  • Caractériser les régions du graphe associées à cette forte variabilité. Que peut-on apprendre de la topologie du graphe dans ces régions ?
  • Comparer les graphes construits avec des données réelles et des graphes construits à partir de données simulées afin de pouvoir tester l’hypothèse des erreurs d’assemblage. Le travail portera sur des graphes construits localement afin de pouvoir circonscrire le problème aux régions problématiques identifiées.
  • Etudier la relation entre les variants identifiés et les caractéristiques des répétitions des régions à l’étude.
  • Ces différentes analyses seront d’abord réalisées sur des données humaines et de levures qui ont fait l’objet de travaux précédents (Dubois et al. 2025) et pourront être étendues à d’autres espèces.

Profil souhaité

  • Maitrise du language Python
  • Intérêt pour la biologie algorithmique

Candidature

Procédure : Candidater par mail (CV et lettre de motivation) auprès de Thomas Faraut (Thomas.Faraut@inrae.fr) et Claire Lemaitre (Claire.Lemaitre@inria.fr)

Contacts

 Thomas Faraut
 ThNOSPAMomas.Faraut@inrae.fr

 Claire Lemaitre
 ClNOSPAMaire.Lemaitre@inria.fr

Offre publiée le Oct. 6, 2025, affichage jusqu'au Dec. 2, 2025