Optimisation d'un pipeline d'identification des ARN circulaires à partir de données RNA-Seq

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

Campus Université Paul Sabatier
118 route de Narbonne
31062 Toulouse
France

Contacts
Didier Trouche
Marion Aguirrebengoa
Email du/des contacts
marion.aguirrebengoa@univ-tlse3.fr
didier.trouche@univ-tlse3.fr
Description

Sujet de stage de M2 Bioinfo  : Optimisation d'un pipeline d'identification des ARN circulaires à partir de données RNA-Seq

Contexte:
Parmi les différentes espèces d'ARN produites à partir d'un gène, les ARN circulaires semblent particulièrement importants. Ils sont produits à partir d'événements d'épissage inverse (où un site donneur d'épissage est épissé avec un site accepteur situé en amont, et non pas en aval comme dans l'épissage classique). Ces ARN circulaires sont beaucoup plus stables que les ARN linéaires car ils ne peuvent pas être dégradés par des exonucléases, et sont ainsi des marqueurs cliniques très prometteurs. Leurs fonctions commencent à être connues : ils peuvent ainsi jouer un rôle d'éponge à miRNAs, mais aussi dans certains cas être traduits.
L'équipe d'accueil s'intéresse à l'expression du génome dans les cellules qui progressent vers la sénescence, qui est un mécanisme anti-cancer majeur. Nous avons ainsi montré l'importance d'ARN non-codants dans ce processus. Nous avons en particulier montré que des changements de l'expression du génome associés à la sénescence peuvent être dus à la modification d'un paramètre de la transcription, la vitesse d'élongation. Or, il est connu que ce paramètre est déterminant dans la production d'ARN circulaires. En étudiant un ARN circulaire spécifique exprimé en sénescence, nous avons montré qu'il est important pour la régulation transcriptionnelle de gènes situés à proximité de son site de transcription.
Il est ainsi tout particulièrement important d'être capable d'identifier les ARN circulaires à l'échelle du génome et de les corréler avec les données d'expression des gènes et de vitesse d'élongation de l'ARN PolII.

Objectif :
L'objectif du stage est d'optimiser un pipeline d'identification des ARN circulaires à partir de données RNA-Seq (le pipeline a déjà été développé par un étudiant en master dans l'équipe) et de l'utiliser pour identifier les ARN circulaires exprimés en sénescence. Il s'agira ensuite de corréler ces données avec les changements d'expression des gènes et de vitesse de l’ARN PolII. Les données utilisées proviendront de données obtenues dans l'équipe, de données publiées, et de données simulées.

Compétences recherchées :
Maîtrise du langage R et bases solides sur Unix (scripting bash)
Connaissance des principaux outils dédiés aux données NGS
Une expérience d’utilisation de Docker et snakemake serait un plus

Contacts :
Le stagiaire sera co-encadré par l'équipe de Didier Trouche (partie biologique, didier.trouche@univ-tlse3.fr) et Marion Aguirrebengoa (partie bioinformatique, marion.aguirrebengoa@univ-tlse3.fr).

Equipe adhérente personne morale SFBI
Equipe Non adhérente