M2: Modèles pronostics à partir de données RNA-seq

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Adresse

Batiment 400
91400 Orsay
France

Contacts
Daniel Gautheret
Email du/des contacts
daniel.gautheret@u-psud.fr
Description

Contexte

Notre équipe analyse des données de séquence à haut débit, notamment des données de type RNA-seq de tissus cancéreux afin d'établir un portrait détaillé de l'expression des gènes d'une tumeur. Ces données permettent de développer des modèles prédictifs, par exemple de la survie ou de l'issue d'un traitement, au moyen de différentes méthodes d'apprentissage [1]. Un objectif important pour ces modèles est actuellement la prédiction de la réponse aux immunothérapies, un traitement efficace mais qui ne bénéficie qu'à une certaine fraction des patients.
Une limitation des modèles prédictifs actuels est qu'ils n'exploitent qu'une partie des informations disponibles dans les données RNA-seq en réduisant l'analyse à une liste de gènes. Nous travaillons donc sur de nouveaux protocoles capables d'extraire un volume d'information du RNA-seq dépassant d'un ou deux ordres grandeurs une simple liste de gènes. Nous avons démontré que ces informations contiennent de puissants biomarqueurs diagnostiques et pronostiques [2,3]. Toutefois, ces nouvelles données nécessitent d'adapter les processus d'apprentissage en termes notamment de réduction de dimension.

L'objectif du stage est double:

Premièrement il s'agira d'appliquer notre système d'analyse sans référence sur des données de cancers métastatiques produites à l'institut Gustave Roussy afin d'identifier de nouveaux déterminants de la réponse aux immunothérapies. Le travail consistera en pratique à exécuter sur un cluster de calcul des analyses d'expression différentielle et de construction de modèles sur des données RNA-seq de cancer et à analyser les résultats.
Deuxièmement, selon les compétences du stagiaire, plusieurs développements seront possibles: (a) nous pourrons approfondir l'analyse des résultats sur les aspects biologiques (par exemple pour tenter d'expliquer la présence de certains ARN dans la signature de réponse), (b) nous pourrons développer de nouvelles procédures de réduction de dimension, telles qu'un modèle de survie de type Cox-PH qui sera intégrée dans le pipeline complet pour obtenir un prédicteur de survie, ou (c) nous pourrons poursuivre l'intégration des différentes "briques" du pipeline dans un code C plus efficace et plus portable que le code R actuel.

L'objectif du stage est double:
Premièrement il s'agira d'appliquer notre système d'analyse sans référence sur des données de cancers métastatiques produites à l'institut Gustave Roussy afin d'identifier de nouveaux déterminants de la réponse aux immunothérapies. Le travail consistera en pratique à exécuter sur un cluster de calcul des analyses d'expression différentielle et de construction de modèles sur des données RNA-seq de cancer et à analyser les résultats.

Deuxièmement, selon les compétences du stagiaire, plusieurs développements seront possibles: (a) nous pourrons approfondir l'analyse des résultats sur les aspects biologiques (par exemple pour tenter d'expliquer la présence de certains ARN dans la signature de réponse), (b) nous pourrons développer de nouvelles procédures de réduction de dimension, telles qu'un modèle de survie de type Cox-PH qui sera intégrée dans le pipeline complet pour obtenir un prédicteur de survie, ou (c) nous pourrons poursuivre l'intégration des différentes "briques" du pipeline dans un code C plus efficace et plus portable que le code R actuel.

Compétences techniques recherchées :
Compétences nécessaires: Les candidat(e)s devront posséder une formation de base en bioinformatique des NGS, en programmation Unix, Python/Perl et C++, et connaître les bonnes pratiques de développement et de reproducibilité des codes. Les candidat(e)s devront avoir un intérêt pour apprendre les notions de transcriptomique et de signature diagnostique qui leur permettront d'appréhender tous les enjeux biomédicaux du projet.
Compétences facultatives: une connaissance en apprentisssage (méthodes d'apprentissage supervisées ou non) mise en pratique avec des outils standard R ou Python sera un atout. Dans le cadre d'une activité de développement, l'aspect optimisation sera important, le code devant être implémenté de façon suffisamment performante pour pouvoir traiter plusieurs millions de variables en temps et en espace raisonnables.

Références
1. Nguyen Ha TN, Xue H, Firlej V, Ponty Y, Gallopin M, Gautheret, D. A Comparative Analysis of Reference-Free and Conventional Transcriptome Signatures for Prostate Cancer Prognosis. 2020. https://hal.inria.fr/hal-02948844/
2. Pinskaya M, Saci Z, Gallopin M, Nguyen NH, Gabriel M, Firlej V, Descrimes M, de la Taille A, Londono Vallejo JA, Allory Y, Gautheret D*, Morillon A. (2019) Reference-free transcriptome exploration reveals novel RNAs for prostate cancer diagnosis. Life Sci Alliance. 2:e201900449.
3. Audoux J, Philippe N, Chikhi R, Salson M, Gallopin M, Gabriel M, Le Coz J, Commes T, Gautheret D. (2017) DE-kupl: Exhaustive capture of biological variation in RNA-seq data through k-mer decomposition. Genome Biol. 18: 243.

Equipe adhérente personne morale SFBI
Equipe Non adhérente