Mots-Clés
Génétique animale
imputation de genotypes
calcul scientifique
reproductibilité
benchmark
Description
Présentation INRAE
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
Environnement de travail, missions et activités
Vous serez accueilli(e) au sein du laboratoire de recherche GenPhySE (Génétique, Physiologie et Systèmes d’Elevage), sur le campus INRAE de Toulouse à Auzeville, dans l’équipe Chamade.
Contexte et objectifs
Le génotypage précis de grandes cohortes d’individus est essentiel pour
mener des études d’association avec des traits phénotypiques ou
reconstituer l’histoire évolutive de populations.
Pour cela, le génotypage par puce SNP représente une solution abordable
comparativement au séquençage tout génome, mais limitée à un ensemble
restreint de variants pré-sélectionnés. Une approche plus récente, le
séquençage à faible profondeur (“low-pass”), consiste à séquencer un
grand nombre d’individus avec une couverture très faible (Lou et al.
2021). Bien que la qualité du génotypage par individu soit moindre,
l’utilisation de méthodes d’imputation permet d’obtenir un génotypage de
haute résolution à un coût compétitif par rapport aux puces de
génotypage, ce qui en fait une stratégie particulièrement adaptée aux
études génomiques de grande envergure. Cette approche exige toutefois
des algorithmes spécialisés et une puissance de calcul importante.
Des méthodes se sont spécialisées dans l’imputation de ce type de
données (Davies et al. 2016; Browning and Yu 2009; Rubinacci et al.
2021). Sur ces méthodes, une pipeline d’imputation ainsi qu’un benchmark
a été développé (Guyomar et al. 2025) dans le laboratoire sur un jeu de
données réel de de 1 050 porcs issus de 12 fondateurs, dont les données
de séquençage ont été sous-échantillonnées à différentes profondeurs.
Les résultats montrent de très bonne performances même à très faible
profondeur, mais les ressources en calculs et en stockage sont
extremement élevés. De plus, l’information du pedigree qui est
disponible dans nos données entre les individus n’est jamais prise en
compte pendant l’imputation.
Au court de ce stage, nous proposons d’implémenter une méthode bien
connue de la littérature, le peeling (Kerr and Kinghorn 1996;
Fernando, Stricker, and Elston 1993), permettant d’estimer les
probabilités génotypiques de chaque membre d’un pedigree en prenant en
compte l’ensemble des relations de parenté. Cette méthode intègre
également l’incertitude liée au séquençage et offrirait ainsi la
possibilité d’exploiter l’information du pedigree pour imputer des
données de séquençage low-pass.
La technique du peeling s’appplique à chaque polymorphisme de manière
indépendante. Pour pouvoir considérer l’ensemble des polymorphismes de
manière conjointe, elle sera donc intégrée dans un deuxième temps à un
outil d’estimation des transmissions d’haplotypes dans un pedigree
génotypé développé au sein du laboratoire (Servin 2025). Il faudra alors
évaluer dans quelle mesure ceci permet d’améliorer la qualité de
l’imputation et constituer une alternative viable, moins coûteuse, aux
méthodes actuelles reposant sur l’association entre données de puces de
génotypage et information de pedigree, grâce à l’utilisation du
séquençage low-pass.
Au cours de ce stage, le/la stagiaire aura l’occasion de se former à
l’analyse statistique de données génétiques en grande dimension, à la
programmation python pour le calcul scientifique (NumPy, Dask) et à
l’optimisation de l’execution de programmes de calcul intensif sur un
cluster de calcul notamment en utilisant des systèmes de gestion de
pipeline de traitement de données (Nextflow, snakemake, conda).
Vous serez plus particulièrement en charge de :
- Travailler sur l’implémentation python de la méthode du peeling et
tester son bon fonctionnement.
- Intégrer cette implémentation au package python existant proposant
l’estimation des haplotypes (phasage).
- Appliquer la méthode au benchmark existant.
- Intégrer ce benchmark à la pipeline existante.
Le profil que nous recherchons
- Diplôme minimum requis : Master/Ingénieur (Bac +5)
- Formation recommandée : Bioinformatique, statistique, génétique,
data-science
- Connaissances souhaitées : Programmation python (expérience en calcul
scientifique bienvenue), Bash?
- Aptitudes recherchées : Autonomie, rigueur, sens de l’initiative, et
intérêt pour l’analyse de données en sciences animales.
Références
Browning, Brian L., and Zhaoxia Yu. 2009. “Simultaneous Genotype Calling
and Haplotype Phasing Improves Genotype Accuracy and Reduces
False-Positive Associations for Genome-Wide Association Studies.”
American Journal of Human Genetics 85 (6): 847–61.
https://doi.org/10.1016/j.ajhg.2009.11.004.
Davies, Robert W., Jonathan Flint, Simon Myers, and Richard Mott. 2016.
“Rapid Genotype Imputation from Sequence Without Reference Panels.”
Nature Genetics 48 (8): 965–69. https://doi.org/10.1038/ng.3594.
Fernando, R. L., C. Stricker, and R. C. Elston. 1993. “An Efficient
Algorithm to Compute the Posterior Genotypic Distribution for Every
Member of a Pedigree Without Loops.” Theoretical and Applied Genetics
87 (1): 89–93. https://doi.org/10.1007/BF00223750.
Guyomar, Cervin, Denis Milan, Christophe Klopp, Cécile Donnadieu,
Bertrand Servin, and Julie Demars. 2025.
“<span class=”nocase”>Evaluating low-pass genotyping strategies using
PARSEC, a scalable and modular Nextflow pipeline</span>.” Intelligent
Systems for Molecular Biology/European Conference on Computational
Biology. https://hal.inrae.fr/hal-05163312.
Kerr, R. J., and B. P. Kinghorn. 1996. “An Efficient Algorithm for
Segregation Analysis in Large Populations.” Journal of Animal Breeding
and Genetics 113 (1–6): 457–69.
https://doi.org/10.1111/j.1439-0388.1996.tb00636.x.
Lou, Runyang Nicolas, Arne Jacobs, Aryn P. Wilder, and Nina Overgaard
Therkildsen. 2021. “A Beginner’s Guide to Low-Coverage Whole Genome
Sequencing for Population Genomics.” Molecular Ecology 30 (23):
5966–93. https://doi.org/10.1111/mec.16077.
Rubinacci, Simone, Diogo M. Ribeiro, Robin J. Hofmeister, and Olivier
Delaneau. 2021. “Efficient Phasing and Imputation of Low-Coverage
Sequencing Data Using Large Reference Panels.” Nature Genetics 53 (1):
120–26. https://doi.org/10.1038/s41588-020-00756-0.
Servin, Bertrand. 2025. “YAPP.” https://hal.science/hal-04783986.