Mots-Clés
Génomique
Génétique
Machine learning
ancient DNA
Wheat
Description
L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 268 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France. INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.
VOTRE MISSION ET VOS ACTIVITÉS
Au sein de l’équipe PaléoEVO de l’UMR UCA-INRAE 1095 GDEC, nous menons des recherches en paléogénomique pour étudier la diversité génétique passée chez le blé via l’analyse d’ADN ancien (aDNA) de restes archéologiques. Adossé à cette équipe de recherche, PALEOLAB est un laboratoire confiné, dédié à l’analyse de restes archéo-botaniques (urlr.me/YhGkvK, Pont et al. 2019 doi : 10.1186/s13059-019-1627-1). Le/la candidat(e) participera au programme DATA (UCA/I-Site) dans le domaine de l’exploitation de l’IA (Intelligence Artificielle) pour la génomique pour retracer l’adaptation passée des blés et ouvrir des pistes sur la conception des blés de demain adaptés aux changements globaux. Ce projet associe 2 laboratoires : (1) UMR 1095 UCA – INRAE GDEC – Clermont-Ferrand. (Caroline Pont, Pierre-Louis Stenger et Jérôme Salse) et (2) LIMOS UCA – Clermont-Ferrand. (Engelbert Mephu Nguifo, professeur à l’ISIMA). L’équipe d’accueil (UMR GDEC) assure l’accès aux outils bio- informatiques nécessaires à la pleine réalisation du projet (https://hub.mesocentre.uca.fr/docs/cluster/hpc2/). Il/elle sera sous la responsabilité de Caroline Pont, et entouré(e) d’ingénieurs, doctorants et post doctorants spécialisés en paléogénomique.
Vous serez plus particulièrement en charge de :
Le candidat aura en charge du benchmarking et du développement d’outils d’intelligence artificielle pour la génomique permettant l’analyse de la diversité génétique ancienne des blés, de sa comparaison avec la diversité génétique mondiale des blés modernes et l’identification de diversités génétiques anciennes et modernes plus particulièrement associées à des origines géographiques particulières et leurs contraintes environnementales associées. Les données d’ADN ancien restant très parcellaires et hétérogènes (données incomplètes, fragmentées, de faible couverture génomique) l’utilisation de deep learning ou l’élaboration de réseaux de neurones artificiels notamment (Graph Neural Network, GNN) peut permettre de prédire les types de blé, en fonction de leur nature génétique, adaptées à des environnements donnés. Des outils sont maintenant disponibles (Sun et al. 2024 ; Zhang et al. 2023) démontrant le potentiel de l’application du machine learning pour la reconstruction d’arbres phylogénétiques à l’aide du jeu d’apprentissage moderne.
Les données d’entraînement disponibles correspondent à (1) 1 420 accessions modernes de blés (couvrant 6 espèces dont T. aestivum, T. durum et T. timopheevii) apportant des données génétiques (3 923 023 polymorphismes de séquences) et des données « passeport » (pays d’origine, date d’enregistrement du cultivar) définissant une structuration géographique de la diversité génétique des espèces (cf publication Sow et al. 2025, doi.org/10.1038/s41477-025-02128-0), (2) des données phénotypiques associées (Heading Date, Plant Height, Grain Weight), (3) des données climatiques disponibles sur ClimateDT (https://www.ibbr.cnr.it//climate-dt/) correspondant à 19 variables bioclimatiques et la grille altitudinale disponibles dans la base de données Worldclim (Hijmans et al. 2005, Fick et al. 2017), et enfin (4) des données archéologiques d’échantillons anciens de blés (T. aestivum, T. dicoccum, T. durum, T. timopheevii, T. monococcum…) couvrant 5 000 ans de domestication-sélection, et provenant principalement de sites palafittiques UNESCO de France (cf projet ArkaoAG, https://anr.fr/Projet-ANR-20-CE27-0013.
• Pont et al. 2019 doi: 10.1186/s13059-019-1627-1
• Sow MD et al. 2025 doi: 10.1038/s41477-025-02128-0. Epub 2025 Nov 17.
• Secomandi et al. 2025 doi.org/10.1038/s41588-024-02029-6
• Hijmans et al. 2025 doi.org/10.1002/joc.1276
• Stephen et al. 2017 doi.org/10.1002/joc.5086
• Sun et al. 2024 doi: 10.1371/journal.pcbi.1011351
• Zhang et al. 2023 arXiv :2302.08840v1.
Conditions particulières d’activité :
Vous serez potentiellement amené à travailler sur 2 sites distants de 5 kilomètres. Travail sur ordinateur.
LE PROFIL QUE NOUS RECHERCHONS
Formation recommandée : Phd dans le domaine de la Bioinformatique / Intelligence Artificielle / Modélisation-Intégration des Données / Génomique-Génétique.
Connaissances souhaitées :
-Maîtrise de langages de programmation (Bash, Python, R, Gitlab, Conda, Snakemake, cluster de calcul type HPC en environnement Unix, …) ainsi que des outils d’interfaçage appliqués aux systèmes d’exploitation en génomique (Galaxy).
-Exploration des séquences et gestion des NGS (variant calling/comparaison/mapping de séquences/ identification de barcode via Kmer/Blast/BWA/bowtie et utilisation de banque de données génomiques NCBI, nt core, etc. Alignement de séquences et phylogénie/phylogénomique, analyse de structure (Megan, Structure), génétique des populations.
-Biostatistique (machine learning, glm, modèles multivariés, etc.).
-Génomique comparative et génomique évolutive des populations.
Expérience appréciée : Bioinformatique / Intelligence Artificielle / Modélisation-Intégration des Données / Génomique-Génétique
Aptitudes recherchées : rigueur scientifique, autonomie, motivation, communication.
VOTRE QUALITE DE VIE À INRAE
En rejoignant INRAE, vous pourrez bénéficier selon le type de contrat :
jusqu’à 30 jours de congés + 15 RTT par an (pour un temps plein)
d’un soutien à la parentalité : CESU garde d’enfants, prestations pour les loisirs ;
de dispositifs de développement des compétences : formation, conseil en orientation professionnelle ;
d’un accompagnement social : conseil et écoute, aides et prêts sociaux ;
de prestations vacances et loisirs : chèque-vacances, hébergements à tarif préférentiel ;
d’activités sportives et culturelles ;
d’une restauration collective.
Modalités d’accueil
Unité : UMR Génétique Diversité et Ecophysiologie des Céréales
Code postal + ville : 63000 Clermont-Ferrand
Type de contrat : CDD
Durée du contrat : > 6 mois renouvelable
Date d’entrée en fonction : 01/05/2026
Rémunération : 2 815 € à 3 615 € brut/mois (selon expérience)
Modalités pour postuler
Transmettre une lettre de motivation et un CV à :
Caroline Pont
caroline.pont@inrae.fr
Date limite pour postuler : 30/09/2026