Prédiction génomique multivariée par méthodes d’apprentissage ensemblistes

 CDD · Stage M2  · 6 mois    Bac+5 / Master   INRAE, Laboratoire MIA Paris-Saclay · Palaiseau (France)

 Date de prise de poste : 6 mars 2023

Mots-Clés

AI, Machine Learning, Ensemble Methods, Quantitative Genetics

Description

Contexte
En génétique animale, on s’intéresse à la sélection de vaches laitières présentant les meilleurs
caractères de production à partir d’informations génétiques, ou génotypage. Les génotypes
sont caractérisés par un marquage dense du génome, en général avec des marqueurs molécu-
laires de type SNP (jusqu’à 100,000 par génome). Les caractères d’intérêt - ou phénotypes -
sont généralement des variables continues. Les généticiens utilisent traditionnellement des
méthodes de statistiques prédictives capables de valoriser l’information de tous les mar-
queurs simultanément, telles que le BLUP (modèles linéaire à effets mixtes), des méthodes
régularisées (régression Lasso, Ridge, ...) ou des approches bayésiennes. Le modèle est ca-
libré sur une population d’apprentissage pour prédire les phénotypes d’intérêt à partir du
génotype des individus. [3].


Sujet
L’objectif du stage est d’utiliser les données de génotypage pour prédire les caractères
phénotypiques des animaux grâce au machine learning. Nous disposons à cet effet d’un
premier jeu de données de l’ordre de 100,000 individus, génotypés avec une densité de
l’ordre de 50K à 700K SNP. Ce jeu de données a été entièrement pré-traité et normalisé
par des partenaires généticiens. Un deuxième jeu de données est en cours d’acquisition
auprès de l’UK Biobank pour compléter le premier. Au cours d’un premier stage, nous avons démontré que le gradient boosting, correctement calibré, permettait d’obtenir des performances prédictives similaires aux méthodes de
l’état de l’art, notamment grâce à l’excellente implémentation fourni dans la bibliothèque Catboost.
Au cours de ce stage, nous voulons proposer des améliorations de cette méthode. Tout
d’abord, nous voulons approfondir le processus de sélection de variables dans le gradient
boosting, celui-ci étant pour l’instant intégré naïvement. D’autre part, un protocole de
validation croisée est à mettre en place pour évaluer les incertitudes sur les performances
de test (nous n’utilisons jusqu’à présent qu’une estimation "hold-out"). Enfin, un point
méthodologique important sera la gestion de l’aspect multivarié du problème de prédiction.
On étudiera en particulier si la prédiction simultanée de plusieurs caractères améliore
les performances par rapport à une approche univariée, où chaque caractère est traité
séparément. La sélection d’un sous-ensemble de caractères phénotypiques pour lesquels
une amélioration est possible est une piste, couplée avec l’implémentation d’une fonction
de coût appropriée.
Le stagiaire aura accès à un serveur de calcul haute performance mise en place dans le
cadre du projet genIAlearn du metaprogramme DIGIT-BIO finançant le stage.

Profil du/de la candidat(e)
— Master ou école d’ingénieur en apprentissage statistique/mathématique appliquée,
— Développement Python et expérience avec des librairies de machine learning (scikit-
learn ou autre),
— Intérêt pour les applications en sciences du vivant.

Conditions d’exercise
— Financement : projet genIAlearn du Metaprogramme DIGIT-BIO
— Lieu : MIA Paris-Saclay, Université Paris Saclay, AgroParisTech INRAE, Paris
— Collaborateurs : Julien Chiquet, Joon Kwon, Tristan Mary-Huard
— Durée : 5 à 6 mois à partir du printemps 2022

Références
[1] Pedregosa, Fabian, et al. "Scikit-learn : Machine learning in Python." the Journal of
machine Learning research 12 (2011) : 2825-2830.
[2] Prokhorenkova, Liudmila et al. CatBoost : unbiased boosting with categorical features
Neurips, 2018.
[3] Wikipedia, https://fr.wikipedia.org/wiki/S%C3%A9lection_g%C3%A9nomique
[4] Harnessing multivariate, penalized regression methods for genomic prediction and
QTL detection to cope with climate change affecting grapevine. Brault, Charlotte,
Doligez, Agnès, Le Cunff, Loïc, Coupel-Ledru, Aude, Simonneau, Thierry, Chiquet,
Julien, This, Patrice, and Flutre, Timothée, G3 : Genes|Genomes|Genetics, 2021
 

Candidature

Procédure : Nous contacter par mail en envoyant un CV.

Date limite : 1 avril 2023

Contacts

Julien Chiquet

 juNOSPAMlien.chiquet@inrae.fr

Offre publiée le 7 décembre 2022, affichage jusqu'au 1 avril 2023