Stage M2 - Graphes de connaissances pour l’intégration de données de génomique fonctionnelle

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRAE Toulouse - GenPhySE · Castanet-Tolosan (France)

 Date de prise de poste : 1 janvier 2024

Mots-Clés

intégration de données, régulation, miRNAs, graphes de connaissances

Description

Contexte du projet : 

La compréhension de la régulation de l’expression des gènes est un enjeu fondamental avec des conséquences en agronomie et en santé humaine. Cette régulation passe par différents mécanismes souvent médiés par une grande diversité d’acteurs (micro ARNs, ARNs longs non codants, facteurs de transcription, etc). L’essor des techniques de génomique fonctionnelle permet de mieux appréhender ces mécanismes en fournissant des informations sur l’expression des gènes (mRNA-seq, smRNA-seq), l’accessibilité de la chromatine (ATAC-seq) ou la conformation tridimensionnelle de la chromatine (Hi-C). 

Pour intégrer et interroger ces données, nous proposons une approche basée sur la construction d’un multi-graphe coloré (graphe de connaissances) utilisant pour noeuds des molécules ou des régions génomiques d’intérêt (gènes, régions régulatrices, etc) et comme arrêtes des propriétés issues de données fonctionnelles (corrélations d’expression, proximités génomiques, etc) ou de connaissances a priori. Cette structure de données pourra ensuite être exploitée pour rechercher différents mécanismes de régulation, caractérisés par des motifs à identifier dans le graphe.

Au cours de ce stage, nous proposons de construire des graphes de ce type, et d’évaluer la possibilité d’y rechercher des patrons de régulation, dans un premier temps grâce à des systèmes de bases de données tels que Neo4j/Cypher. Nous proposons aussi de travailler d’abord sur les interactions miRNA-mRNA.

Pour développer cette approche, nous travaillerons dans un premier temps sur des données générées dans le cadre du projet européen GENE-SWitCH, qui ont l’avantage de réunir différentes techniques de génomique fonctionnelle appliquées aux mêmes échantillons dans deux espèces différentes (poulet et porc).

Nous souhaitons que la personne recrutée poursuive en thèse (concours de l'école doctorale).

Vous serez plus particulièrement en charge de : 

  • Vous approprier des données de séquençage haut débit (RNA-seq, smRNA-seq)
  • Définir les entités et les relations qui permettront de construire un graphe de connaissances pour intégrer ces données à l’aide de l’outil Neo4j
  • Utiliser l’outil Cypher pour interroger ce graphe dans le cadre de la recherche d’interactions miRNA-mRNA

Environnement d’accueil 

Vous serez accueilli·e au sein de l’unité GenPhySE (Génétique, Physiologie, et Systèmes d’élevages), une Unité Mixte de Recherche (UMR) INRAE-Université de Toulouse-ENVT située au sud de Toulouse. GenPhySE regroupe plus de 150 personnes travaillant sur des espèces animales d’élevages (porc, mouton, chèvre, lapin, caille, abeille). Vous serez plus particulièrement intégré·e à l’équipe Dynagen (Dynamique évolutive des génomes). Vous serez encadré·e par un ingénieur de recherche de l’équipe et une chercheuse INSERM.

Le profil que nous recherchons

  • Diplôme minimum requis : Master/Ingénieur (Bac+5)    
  • Formation recommandée : Bioinformatique
  • Connaissances souhaitées :
    • Linux et Bash, Python et/ou R
    • Travail sur cluster de calcul
    • Bon niveau d’anglait à l’écrit (lecture d’articles scientifiques)

Conditions d’accueil

  • Début du stage : janvier 2024
  • Durée : 6 mois
  • Rémunération : 4.05 €/heure (35h par semaine)


 

Candidature

Procédure : Merci d’envoyer CV et lettre de motivation à cervin.guyomar@inrae.fr avant le 15 octobre 2023.

Date limite : 15 octobre 2023

Contacts

Cervin Guyomar

 ceNOSPAMrvin.guyomar@inrae.fr

Offre publiée le 31 août 2023, affichage jusqu'au 30 octobre 2023