Stage M2 : Utilisation du kmer dans l'intégration de données OMICs chez les plantes

 Stage · Stage M2  · 5 mois    Bac+5 / Master   IRD Institute for Research and Development · Montpellier (France)

Mots-Clés

intégration, kmers, association, machine learning

Description

Utilisation du kmer dans l'intégration de données OMICs chez les plantes

Avec le but de modéliser et de prédire le caractères phénotypiques intéressants chez les plantes, dans l'unité DIADE, on s'intéresse aux méthodes d’intégration de données génomiques, transcriptomiques et phénotypiques par l’usage des approches d’association ou de machine learning. 

La simplicité du kmer offre un avantage pour l'intégration de multiples types de données, et pourrait potentiellement être utilisée pour les prédictions de caractères d’adaptation aux variations climatiques par exemple.

Des études d’association avec des kmers ont montré une précision de prédiction au moins aussi élevée que celle de la méthode standard basée sur les SNP.  Pour des études d’association dans les organismes non-modèles dont le génome de référence est incomplet ou inexistant, un certain nombre de méthodes sans alignement sont développées. Ils se basent sur l'identification des kmers associés au phénotype1. 

En plus de ça, les modèles d'apprentissage sont des méthodes efficaces et populaires de modélisation prédictive dans de nombreux domaines scientifiques. Récemment, He et al, 20212 ont prédit des caractères quantitatifs chez le maïs. De multiples stratégies de machine learning tel que le NLP (“bag of words”) ont été implémentés et testés pour prédire le temps de floraison, l’angle de la feuille à partir des données kmers. 

L’objectif principal du stage sera d’identifier des méthodes/outils qui permettraient de prédire de phénotypes en utilisant les kmers comme unité d'intégration.  Les méthodes pourront être identifiées dans un premier temps lors d’un stage bibliographique, et pourront être testées/développées, dans un deuxième temps lors d’un stage M2, sur des données du palmier dattier, modèle pour lequel des études d'association génotype-phénotype ont été déjà publiées. 
 
Le financement du master 2 est prévu dans le cadre du projet Km-Xplore de l’unité DIADE. 

Compétences requises :

Programmation : bash, python, R
Maîtrise des systèmes Git et Unix
Bases en statistique
Curiosité scientifique

Encadrement

Julie Orjuela (julie.orjuela@ird.fr), Bioinformaticienne
Yves Vigouroux (yves.vigouroux@ird.fr) Directeur de recherche
UMR DIADE
IRD - Institut de Recherche pour le Développement
Montpellier


Bibliographie:

(1)    Rahman, A.; Hallgrímsdóttir, I.; Eisen, M.; Pachter, L. Association Mapping from Sequencing Reads Using K-Mers. eLife 2018, 7, e32920. https://doi.org/10.7554/eLife.32920.
(2)    He, C.; Washburn, J. D.; Hao, Y.; Zhang, Z.; Yang, J.; Liu, S. Trait Association and Prediction Through Integrative K-Mer Analysis. bioRxiv November 19, 2021, p 2021.11.17.468725. https://doi.org/10.1101/2021.11.17.468725.


 

Candidature

Procédure : Merci bien d'envoyer un mail à julie.orjuela@ird.fr avec un CV et une lettre de motivation.

Contacts

 Julie ORJUELA

 juNOSPAMlie.orjuela@ird.fr

Offre publiée le 3 octobre 2022, affichage jusqu'au 29 novembre 2022