Intégration de données hétérogènes en lien avec la résistance des légumineuses aux insectes ravageurs dans une base de données orientée graphe.

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

17 rue Sully
21000 Dijon
France

Contacts
Jonathan Kreplak
Nadim Tayeh
Email du/des contacts
jonathan.kreplak@inrae.fr
nadim.tayeh@inrae.fr
Description

Contexte général

Au sein de l’unité mixte de recherche Agroécologie de l’INRAE de Dijon, l’équipe Espèces Cibles Protéagineuses (ECP) travaille sur la génétique et la génomique des légumineuses à graines riches en protéines. De nombreuses ressources génétiques, génomiques et -omiques ont été développées chez le pois. Notamment, l’équipe a décrypté dans le cadre d’une collaboration internationale la séquence du génome de cette espèce (https://doi.org/10.1038/s41588-019-0480-1). Outre le pois, l’équipe ECP travaille sur la féverole et depuis peu sur la lentille, qui sont deux espèces phylogénétiquement proches du pois.
Ces ressources ont pour objectif de servir des programmes de recherche tels que les projets d’Investissement d’Avenir PeaMUST (https://www.peamust-project.fr/), SusCrop ERA-NET ProFaba ou CasDAR ResiLens, qui visent à favoriser la stabilité du rendement et à améliorer la qualité des graines chez ces différentes espèces. Plusieurs facteurs rentrent en jeu dans ces caractères tels que la résistance à divers stress biotiques (maladies, ravageurs) et abiotiques (stress hydrique, stress thermique et autres). Croiser les connaissances fournies par la séquence du génome du pois, avec celles fournies par des approches de génétique quantitative, de détection de polymorphismes et de transcriptomique, permet par exemple de mettre en évidence les déterminants génétiques et moléculaires sous-jacents à des caractères d’intérêt. Et, s’il y a conservation de déterminisme entre espèces, les données exploitables pour une première espèce seront rapidement exploitables pour la deuxième espèce permettant ainsi d’accélérer les avancées en recherche et en sélection.
Il y a actuellement un réel besoin pour développer des outils qui permettent (1) d’interroger et de croiser les données acquises en génétique et en -omiques chez les différentes espèces de protéagineux de manière intelligente et efficiente et (2) d’explorer les limites entre synténie structurale et fonctionnelle. Ces outils serviront pour l’amélioration variétale qui doit répondre à de nouveaux enjeux comme le réchauffement climatique et la transition agro-écologique.

Objectifs du stage

Le stage aura pour objectif d’intégrer des données hétérogènes produites pour diverses espèces de légumineuses, dans une base de données de type « graphe » (Neo4j) pour ensuite pouvoir les interroger. Dans un premier temps, le(a) candidat(e) se familiarisera d’une part avec les données sur les légumineuses disponibles au sein de l’équipe ECP et dans la littérature, et d’autre part avec les différentes approches de génomique comparative combinant, entre autres, synténie et alignements. Il(Elle) réalisera ensuite une base pilote sur la thématique de la résistance aux insectes en utilisant un corpus de données multi-espèces produit au laboratoire ainsi que des données complémentaires issues de bases de données publiques. Le but de ce pilote sera principalement orienté vers le transfert de données d’une espèce végétale à l’autre. Ce corpus de données sera constitué à la fois de données acquises (RNA-seq, matrice de variations) et de données à construire par des méthodes bioinformatiques et statistiques (réseau de gènes, QTL, GWAS...). Le(a) candidat(e) devra enfin pouvoir proposer une automatisation de l’insertion des données en base et des visualisations permettant une interrogation accessible et reproductible. Le stage pourrait potentiellement déboucher sur une thèse.

L’encadrement scientifique sera assuré par Jonathan Kreplak, ingénieur bioinformaticien et Nadim Tayeh, chargé de recherche en génétique et génomique.

Compétences

Le(a) candidat(e) devra être en cours de Master 2 en bioinformatique et/ou biostatistique et être familier(e) avec un environnement linux. De bonnes notions en biologie végétale, en génomique, en génétique, en transcriptomique, et en biostatistiques sont souhaitées. Les langages de programmation utilisés pourront être adaptés en fonction du(de la) candidat(e) mais une connaissance en R, python et SQL serait appréciée.

Equipe adhérente personne morale SFBI
Equipe Non adhérente