Stage M2: Vers un portrait moléculaire du cancer par le transcriptome

 Stage · Stage M2  · 5 mois    Bac+5 / Master   I2BC, CNRS, CEA, Université Paris-Saclay · Gif sur Yvette (France)  550€/mois

 Date de prise de poste : 28 février 2022

Mots-Clés

Transcriptome cancer ARN non codant ARNm big data modèles prédictifs apprentissage automatique

Description

La technologie RNA-seq capture une grande diversité d'informations sur un échantillon biologique: de l'expression des gènes aux mutations génétiques, fusions de gènes, variants d'épissage et toutes les formes de transcrits aberrants [1]. La capacité de capturer ces informations dans leur intégralité est essentielle pour comprendre les processus moléculaires en jeu dans les tissus biologiques. Pour cette raison, la recherche médicale a séquencé les ARN de millions d'échantillons de patients, dans l'espoir de découvrir les événements à l'origine de nombreuses maladies.

Cependant, des obstacles majeurs empêchent une analyse approfondie et rigoureuse de ces données. Premièrement, les données RNA-seq prétraitées disponibles sont généralement limitées aux tableaux d'expression génique, ignorant toutes les autres informations. Deuxièmement, les données prétraitées dépendent de bases de données géniques de référence et ne sont donc pas stables dans le temps. Troisièmement, récupérer et réanalyser localement les fichiers RNA-seq de milliers de patients dépasse la capacité de calcul et de stockage de la plupart des laboratoires.

Pour surmonter ces limitations, notre laboratoire développe des outils informatiques pour l'indexation et l'exploration de bases de données RNA-seq utilisant la décomposition des séquences en k-mer [2,5,6]. Cette technique présente plusieurs avantages, notamment une économie d'espace, un temps de requête plus rapide et la possibilité d'analyser l'expression des gènes sans référence. Combinés à des protocoles d'apprentissage automatique, ces outils peuvent produire des modèles prédictifs intégrant de nouveaux biomarqueurs ARN, notamment pour le diagnostic du cancer et la prédiction de la réponse aux traitements [3,4].

Nous recherchons un.e stagiaire de M2 spécialité bioinformatique ou biostatistique intéressé.e à contribuer à cet effort en nous aidant à découvrir ce qu'est un ARN "anormal" ("disease-specific") dans un échantillon d'ARN de patient. Le projet impliquera d'analyser les distribution des k-mers possibles dans les séquences "normales". A cette fin, le.la stagiaire s'appuiera sur nos outils logiciels existants [2,5,6] et notre accès à des milliers d'échantillons normaux tels que ceux des projets HPA et GTEX [7,8].

Les candidats devront pouvoir développer des scripts shell, R et Python rigoureux et reproductibles et avoir une connaissance de base des pipelines bioinformatiques NGS. Surtout, nous attendons que les candidats soient disposés à comprendre en profondeur à la fois les objectifs biomédicaux et les aspects statistiques du projet.

Le projet sera réalisé à l'I2BC, Gif sur Yvette (https://www.i2bc.paris-saclay.fr) dans l'équipe Séquence, Structure et Fonctions de ARN (https://www.i2bc.paris-saclay.fr/equipe-rna-sequence-structure-function/).

Le projet pourra donner lieu à une candidature pour une thèse à l'école doctorale SDSV de Paris-Saclay (http://www.ed-sdsv.universite-paris-saclay.fr)

References

[1] Morillon A, Gautheret D. (2019). Bridging the gap between reference and real transcriptomes. Genome Biol. 20:112. https://doi.org/10.1186/s13059-019-1710-7

[2] Audoux J, Philippe N, Chikhi R, Salson M, Gallopin M, Gabriel M, Le Coz J, Commes T, Gautheret D. (2017) DE-kupl: Exhaustive capture of biological variation in RNA-seq data through k-mer decomposition. Genome Biol. 18: 243. https://doi.org/10.1186/s13059-017-1372-2

[3] Pinskaya M, Saci Z, Gallopin M, Nguyen NH, Gabriel M, Firlej V, Descrimes M, de la Taille A, Londono Vallejo JA, Allory Y, Gautheret D, Morillon A. (2019) Reference-free transcriptome exploration reveals novel RNAs for prostate cancer diagnosis. Life Sci Alliance. 2:e201900449. http://doi.org/10.26508/lsa.201900449

[4] Nguyen Ha TN, Xue H, Firlej V, Ponty Y, Gallopin M, Gautheret D. (2021) Reference-Free Transcriptome Signatures for Prostate Cancer Prognosis. BMC Cancer. 12:394. https://doi-org.insb.bib.cnrs.fr/10.1186/s12885-021-08021-1

[5] Marchet C, Iqbal Z, Gautheret D, Salson M, Chikhi R. (2020) REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets Bioinformatics. 36(suppl.). i177-i185.

[6] Wang Y, Xue H, Aglave M, Lainé A, Gallopin M, Gautheret D. (2021) The contribution of uncharted RNA sequences to tumor identity in lung adenocarcinoma. BioRxiv, https://doi.org/10.1101/2021.07.28.454105

[7] Uhlen, M., Oksvold, P., Fagerberg, L., Lundberg, E., Jonasson, K., Forsberg, M., ... & Ponten, F. (2010). Towards a knowledge-based human protein atlas. Nature biotechnology, 28(12), 1248-1250.

[8] GTEx Consortium. (2020). The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science, 369(6509), 1318-1330. 

Candidature

Procédure : Par mail au contact

Date limite : 16 janvier 2022

Contacts

Daniel Gautheret

 daNOSPAMniel.gautheret@i2bc.paris-saclay.fr

Offre publiée le 5 novembre 2021, affichage jusqu'au 31 décembre 2021