Machine Learning for Population Genetics and Ancient DNA

Type de poste
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

<p>LRI, Bât 650 Ada Lovelace, Université Paris Sud, 91405 Orsay Cedex France</p>
Paris Saclay
France

Contacts
Jay Flora
François Olivier
Email du/des contacts
flora.jay@lri.fr
olivier.francois@univ.grenoble-alpes.fr
Description

Réduction de dimension et imputation pour la paléogénomique

Flora Jay (LRI, Paris saclay) et Olivier François (TIMC-IMAG, Grenoble)

Depuis l’apparition des premières extractions ADN à partir de fossiles et le bond des techniques de séquençage dans les années 2000, les données génomiques d’échantillons anciens ne cessent d’augmenter. Elles sont extrêmement précieuses puisqu’elles ouvrent une fenêtre directe sur l’histoire passée. Par exemple, pour étudier les processus à l’oeuvre dans les différentes transitions culturelles de l’Histoire humaine, les paléogénéticiens séquencent des individus ayant vécu avant/pendant/après une transition et analysent les similarités génétiques entre ceux-ci pour comprendre la structure cachée des données (la structure de populations).

Les méthodes de réduction de dimension classiquement utilisées en génétique des populations, type PCA,  permettent la détection et visualisation de la structure mais ne tiennent pas compte de l’hétérogénéité temporelle des données de paléogénomique. Or il a été montré que, tout comme l’autocorrélation spatiale, l’autocorrélation temporelle a un impact sur la construction des axes de PCA ou de méthodes de factorisation matricielle [1]. Nous avons donc développé une nouvelle méthode, tDR, reposant entre autre sur LFMM (Latent Factor Mixed Model [2]) pour tenir compte explicitement de l’autocorrelation temporelle lors de la réduction de dimension de données paléogénomiques (Figure) [3]. Cependant nous avons montré que cette méthode est peu robuste aux données manquantes, point problématique puisque l’ADN ancien est généralement très dégradé et les génomes séquencés sont loin d’être complets.

Plus précisément les données nous intéressant sont constituées d’environ 1000 génomes d’individus modernes (1000 Genomes database) séquencés à 4X en moyenne (plus de 70M de marqueurs) et d’une cinquantaine d’individus anciens provenant des principales études sur l’Europe et l’Asie pendant les périodes Néolithique, Âge du Bronze et Âge du Fer.

Les objectifs du stage seront de:

(1) Déterminer un critère d’évaluation de performance objectif pour comparer différentes versions de tDR et estimer les hyperparamètres.

(2) Evaluer les performances de tDR sur le jeu de données imputé et publié par [4]. C’est-à-dire un jeu de 30M de marqueurs génétiques, où les génotypes anciens manquants sont prédits à partir d’une base de référence de génomes contemporains et du logiciel GATK. En particulier évaluer le biais introduit par ce type d’imputation sur les axes de tDR.

(3) Implémenter et évaluer des méthodes intégrant les données manquantes. En particulier, comparer les performances d’algo de type IPCA [5] avec des approches venant du collaborative filtering, avec ou sans pré-filtrage des individus et marqueurs les moins bien représentés.

(4) Appliquer aux données réelles humaines pour une meilleure compréhension du paysage génétique

Fig. A. Demographic scenario with ancient and contemporary individuals. A gene flow event occurred 500 generations ago. There is a discontinuity between squares and triangles but not between triangles and circles.  B. A PCA on genetic data wrongly identifies 3 clusters. C. A PCA corrected for temporal drift should show two clusters gathering (i) individuals before admixture (squares) (ii) individuals after admixture (triangles and circles).

[1] Duforet-Frebourg and Slatkin. “Isolation-by-Distance-and-Time in a Stepping-Stone Model.” TPB 108 (2016): 24–35.  [2] Frichot et al. "Testing for associations between loci and environmental gradients using latent factor mixed models." MBE 30.7 (2013): 1687-1699. [3] Liegeois et al. “Dimension Reduction Adapted to Paleogenomics.” Poster at JDSE2018 Paris-Saclay. [4] Martiniano et al. "The population genomics of archaeological transition in west Iberia: Investigation of ancient substructure using imputation and haplotype-based methods." PLoS genetics 13.7 (2017): e1006852. [5] Josse, J. & Husson, F. Handling missing values in exploratory multivariate data analysis methods. JSFS 79–99 (2012)