Inférence d’évènements de migration et de changement de taille de populations à partir de données de polymorphisme génomique actuel et/ou fossile.

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

Musée de l'Homme, 17 Place du Trocadéro
75116 Paris
France

Contacts
Frédéric Austerlitz
Email du/des contacts
frederic.austerlitz@mnhn.fr
Description

Stage de master 2

- Objectifs du stage :
L’objectif du stage est de tester la capacité des méthodes d’Approximate Bayesian Computation (ABC, Beaumont et al 2002, Csillery et al 2010) à inférer des éléments de l’histoire démographiques des populations en se basant sur du polymorphisme haut débit de séquences d’individus actuels et/ou fossiles, en s’intéressant plus particulièrement aux phénomènes de séparation entre populations et de migration qui s’ensuivent potentiellement entre ces populations, ainsi qu’à leur évolution au cours du temps. Les méthodes ABC consistent à réaliser un grand nombre de simulations dans plusieurs scenarios avec des paramètres tirés dans des lois a priori, et de comparer les données simulées aux données réelles afin de déterminer quel scenario est le plus compatible avec les données, et de déterminer la loi a posteriori des paramètres de ce scénario. La comparaison entre données réelles et données simulées se fait sur la base de statistiques résumées calculées sur ces données, selon plusieurs méthodes possibles. L’objectif sera de déterminer quelles sont les méthodes ABC les plus efficaces, en comparant notamment les méthodes basées sur la régression, sur les réseaux de neurones ou les forets aléatoires. Un autre objectif sera de déterminer les statistiques résumées les plus efficaces dans ce cadre et le nombre de simulations nécessaires pour parvenir à une estimation correcte. Enfin le stage étudiera l’apport de données fossiles sur la qualité des estimations.

- Contexte scientifique ou opérationnel, valeur ajoutée du stage dans ce contexte :
Nous avons développé des méthodes pour inférer l’histoire démographique de populations (Boitard et al, 2016, Jay et al 2019, principalement dans le contexte de populations isolées, sans tenir compte d’éventuelles migrations entre populations. Par ailleurs, nous nous situions dans le cadre où tous les échantillons étaient pris à l‘époque présente. Le stage consistera donc à explorer des situations où des populations se séparent entre elles à un instant donné et continue à échanger des migrants, tout en connaissant des évènements de changement d’effectif (expansions, contractions, goulots d’étranglement…). Le stage permettra aussi de déterminer quel est l’apport des données fossiles sur la qualité des estimations, une question peu étudiée à l’heure actuelle.

- Méthodes et techniques employées
Les méthodes sont basées sur l’Approximate Bayesian computation (ABC) qui consiste à simuler un très grand nombre de jeux de données afin de les comparer à des données réelles. Ceci permet de déterminer quel scénario démographique est le plus cohérent avec les données et d’inférer ensuite les paramètres de ce scénario (par exemple des tailles de populations, des taux de migration, etc.). La méthode nécessite de formater correctement les données génomiques afin de calculer les statistiques résumées avec des packages R (hierFstat, ade4, …) ou des scripts Python comme ceux de demoSEQ (Jay et al, 2019) ou popsizeABC (Boitard et al, 2016). Ensuite de nombreuses simulations sont réalisées et des statistiques résumées sont calculées sur ces données afin de réaliser le choix de scénario et l’inférence des paramètres. Ceci est fait grâce à des package R existant dénommés abc (Csillery et al, 2012) et abcrf (Raynal et al, 2019) permettant de réaliser l’ABC. On utilisera une approche de validation croisée, à savoir que des données simulées seront analysées comme si elles étaient des données réelles, pour déterminer dans quelle mesure les différentes méthodes ABC permettent de retrouver le scenario avec lequel ont été simulées ces données simulées et les paramètres de la simulation en particulier.

- Rôle du.de la stagiaire dans le déroulement du projet
Le rôle du.de la stagiaire consistera dans un premier temps à développer des scripts afin de calculer les statistiques résumées obtenues à partir des données simulées et réelles. Il.elle procédera notamment aux simulations nécessaires dans des scénarios de populations se séparant au cours du temps et échangeant des migrations et à l’application des scripts précédemment développés pour calculer les statistiques résumées. Il.elle pourra ainsi mener une approche de validation croisée qui permettra de déterminer quelle méthode et quelles statistiques sont les plus efficaces, en utilisant les fonctions de validation croisée disponibles dans les packages R abc et abcrf.

Références
Beaumont MA, Zhang W, Balding DJ. 2002. Genetics 162:2025-2035.
Boitard S, Rodriguez W, Jay F, Mona S, Austerlitz F. 2016. PLoS Genetics 12:e1005877.
Csillery, K., Blum, M. G., Gaggiotti, O. E., & Francois, O. (2010). Approximate Bayesian Computation (ABC) in practice. Trends in Ecology and Evolution, 25(7), 410-418.
Csillery K, Francois O, Blum MGB. 2012. abc: an R package for approximate Bayesian computation (ABC). Methods in Ecology and Evolution 3:475-479.
Jay F, Boitard S, Austerlitz F. 2019. Molecular Biology and Evolution 36:1565-1579.
Raynal L, Marin JM, Pudlo P, Ribatet M, Robert CP, Estoup A. 2019. Bioinformatics 35:1720-1728.

Equipe adhérente personne morale SFBI
Equipe Non adhérente