Stage de M2 : Exploitation de données hétérogènes dans une base de données orientée graphe
Stage · Stage M2 · 6 mois Bac+5 / Master Unité de recherche en Génomique Info, INRAE, Université Paris-Saclay · Versailles (France) 3,9 euros de l'heure soit environ 550 euros / mois
Date de prise de poste : 2 janvier 2023
Mots-Clés
Génomique pangénomique éléments transposables système d'information base graphe traitement de données pipeline
Description
Contexte :
Une base de données orientée graphe a été construite au sein de l’URGI sur 2 espèces modèles de plante : une monocotyledone (Brachypodium distachyon) et une dicotyledone (Arabidopsis thaliana). Elle intègre de nombreuses données hétérogènes en génomique: annotations de génome (annotations structurale et fonctionnelles de gènes, éléments transposables (ET), séquences non codantes conservées (CNS), site de fixation de facteur de transcription (TFBS), relations d’homologie et d’orthologie.
Les TFBS (Transcription Factor Binding Site) sont les éléments clés de la régulation des gènes. Tout comme les gènes, les ET portent aussi des TFBS pour leur régulation. Certains ET qui portent des TFBS sont connus pour être activés en réponse à certains stress abiotique comme ONSEN/ATCOPIA78 qui est activé par la température chez Arabidopsis thaliana :
https://doi.org/10.1371/journal.pgen.1004115
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-016-1072-3
La base graphe permet d’identifier quelles sont les familles d’ET spécifiquement liées à des TFBS. Une analyse approfondie sur ces familles d’ET et leurs relations avec les gènes et réseaux de gènes impliqués dans des traits d’adaptation permettra d’améliorer la prédiction de leur impact fonctionnel chez leur hôte.
Ce stage s’inscrit dans cette dynamique et plus particulièrement sur le rôle des éléments transposables dans l’adaptation au changement climatique.
Objectifs :
Construction d’un catalogue de TFBS liés à des familles d’éléments transposables.
Prédiction de l’impact fonctionnel des copies d’ET qui portent un/des TFBS sur les gènes à proximité, à l’aide de données de méthylome et de transcriptome.
Travail demandé :
Le(a) candidat(e) devra analyser des données -omiques disponibles pour notamment extraire des informations de co-localisation entre différentes sources de données.
Il(elle) travaillera à insérer de nouvelles données qui pourraient être nécessaires dans la base graphe pour répondre à la problématique posée.
Le(a) stagiaire acquerra des compétences en développement de pipelines ainsi que sur les systèmes de gestion de données basé sur les graphes.
Compétences techniques recherchées :
• Maitrise des commandes UNIX (shell) et de la programmation python.
• Connaissance en SGBD souhaitable notamment NoSQL (neo4J).
• Connaissance de la technologie Docker souhaitable
Ce sujet constitue un premier pas vers un travail de thèse : Oui
Candidature
Procédure : envoyer par mail votre CV + lettre de motivation
Date limite : 16 décembre 2022
Contacts
Johann Confais & Nicolas Francillonne
joNOSPAMhann.confais@inrae.fr
https://urgi.versailles.inrae.fr/About-us/News/Stage-analyse
Offre publiée le 10 octobre 2022, affichage jusqu'au 16 décembre 2022