Stage de M2 : Exploitation de données hétérogènes dans une base de données orientée graphe

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Unité de recherche en Génomique Info, INRAE, Université Paris-Saclay · Versailles (France)  3,9 euros de l'heure soit environ 550 euros / mois

 Date de prise de poste : 2 janvier 2023

Mots-Clés

Génomique pangénomique éléments transposables système d'information base graphe traitement de données pipeline

Description

Contexte :

Une base de données orientée graphe a été construite au sein de l’URGI sur 2 espèces modèles de plante : une monocotyledone (Brachypodium distachyon) et une dicotyledone (Arabidopsis thaliana). Elle intègre de nombreuses données hétérogènes en génomique: annotations de génome (annotations structurale et fonctionnelles de gènes, éléments transposables (ET), séquences non codantes conservées (CNS), site de fixation de facteur de transcription (TFBS), relations d’homologie et d’orthologie.

Les TFBS (Transcription Factor Binding Site) sont les éléments clés de la régulation des gènes. Tout comme les gènes, les ET portent aussi des TFBS pour leur régulation. Certains ET qui portent des TFBS sont connus pour être activés en réponse à certains stress abiotique comme ONSEN/ATCOPIA78 qui est activé par la température chez Arabidopsis thaliana :

https://doi.org/10.1371/journal.pgen.1004115

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1072-3

La base graphe permet d’identifier quelles sont les familles d’ET spécifiquement liées à des TFBS. Une analyse approfondie sur ces familles d’ET et leurs relations avec les gènes et réseaux de gènes impliqués dans des traits d’adaptation permettra d’améliorer la prédiction de leur impact fonctionnel chez leur hôte.

Ce stage s’inscrit dans cette dynamique et plus particulièrement sur le rôle des éléments transposables dans l’adaptation au changement climatique.

Objectifs :

Construction d’un catalogue de TFBS liés à des familles d’éléments transposables.

Prédiction de l’impact fonctionnel des copies d’ET qui portent un/des TFBS sur les gènes à proximité, à l’aide de données de méthylome et de transcriptome.

Travail demandé :

Le(a) candidat(e) devra analyser des données -omiques disponibles pour notamment extraire des informations de co-localisation entre différentes sources de données.

Il(elle) travaillera à insérer de nouvelles données qui pourraient être nécessaires dans la base graphe pour répondre à la problématique posée.

Le(a) stagiaire acquerra des compétences en développement de pipelines ainsi que sur les systèmes de gestion de données basé sur les graphes.

Compétences techniques recherchées :

• Maitrise des commandes UNIX (shell) et de la programmation python.

• Connaissance en SGBD souhaitable notamment NoSQL (neo4J).

• Connaissance de la technologie Docker souhaitable

 

Ce sujet constitue un premier pas vers un travail de thèse : Oui

Candidature

Procédure : envoyer par mail votre CV + lettre de motivation

Date limite : 16 décembre 2022

Contacts

Johann Confais & Nicolas Francillonne

 joNOSPAMhann.confais@inrae.fr

 https://urgi.versailles.inrae.fr/About-us/News/Stage-analyse

Offre publiée le 10 octobre 2022, affichage jusqu'au 16 décembre 2022