Thèse financée en fouille de données de séquences d'ARN, Gif sur Yvette.

 CDD · Thèse  · 36 mois    Bac+5 / Master   Institut de Biologie Intégrative de la Cellule (I2BC) · Gif sur Yvette (France)  Taux standard thèse

 Date de prise de poste : 15 octobre 2022

Mots-Clés

ARN modèles prédictifs IA k-mers cancer vieillissement

Description

TITREFouille de grandes bases de données de séquences pour la découverte de signatures ARN prédictives du phénotype

PROJET SCIENTIFIQUE

Le séquençage d'ARN à haut débit (RNA-seq) est un outil unique pour la découverte de biomarqueurs médicaux et de cibles pharmaceutiques. Cependant, alors que plus d'un million de banques RNA-seq humaines sont publiquement disponibles, ce trésor d'information médicale ne peut réaliser son plein potentiel car il est impossible d'interroger directement cette ressource pour mesurer l'expression d'un ARN d'intérêt. Plusieurs projets bioinformatiques ont abordé cette question, mais ils reposent sur des ARN de référence "normaux" qui ne capturent pas toute la diversité des transcrits qu'on oberve dans les maladies.

Dans le cadre d'un projet nouvellement financé, nous développons des structures d'indexation capables de traiter des requêtes quantitatives sans référence dans des dizaines de milliers de bibliothèques RNA-seq [1]. Notre équipe s'intéresse à l'exploitation de ces grandes bases de données pour la découverte de nouveaux ARNs significativement associés à des traits qualitatifs ou quantitatifs liés au phénotype des patients [2,3]. Ces ARN peuvent être des biomarqueurs, des cibles thérapeutiques ou vaccinales ou des signatures prédictives. Nous visons en particulier des applications dans le domaine de l'oncologie et du vieillissement/sénescence. Notre consortium est composé de bioinformaticiens de quatre institutions, avec une forte expérience en informatique, structure de données, analyse RNA-seq à haut débit et transcriptomique de la santé.

 

L'étudiant(e) participera au développement d'outils pour découvrir des séquences d'ARN associées à des caractéristiques biologiques (pathologie, type de cellule, âge/sénescence), pour générer des modèles prédictifs à partir de ces ARN, et pour tester ces modèles. L'activité sera co-encadrée par un biostatisticien de l'I2BC.  Au cours de cette thèse, l'étudiant(e) développera une solide experience en IA appliquée à la santé, tout en ayant l'opportunité unique de faire avancer les connaissances sur le vieillissement et le cancer.

PRE-REQUIS

Les candidats devront détenir un diplôme équivalent au master 2 en bioinformatique ou biostatistiques, avec une expérience en analyse de séquences NGS, une connaissance des bonnes pratiques de développement de code (gestion de version, gestionnaires de workflow, containers) et une bonne compréhension des méthodes d'apprentissage statistique. La capacité de comprendre les aspects biologiques du projet (biologie moléculaire, génomique, épigénétique, cancer, vieillissement) est indispensable.

 ENVIRONNEMENT

L'équipe d'accueil, spécialisée en bioinformatique, est composée de 5 chercheurs et enseignants chercheurs permanents. L'étudiant(e) sera intégré à un consortium composé de 4 laboratoires d'informatique et de bioinformatique. Il/elle participera aux réunions de consortium et bénéficiera de nos collaborations au sein de ce groupe.

References

  1. Marchet, C., Iqbal, Z., Gautheret, D., Salson, M. & Chikhi, R. REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets. Bioinformatics. 36, i177–i185 (2020).https://doi.org/10.1093/bioinformatics/btaa487
  1. Wang Y, Xue H, Aglave M, Lainé A, Gallopin M, Gautheret D. (2022) The contribution of uncharted RNA sequences to tumor identity in lung adenocarcinoma. NAR Cancer. 4:1. https://doi.org/10.1093/narcan/zcac001 
  2. Nguyen Ha TN, Xue H, Firlej V, Ponty Y, Gallopin M, Gautheret D. (2021) Reference-Free Transcriptome Signatures for Prostate Cancer Prognosis. BMC Cancer. 12:394. https://doi-org.insb.bib.cnrs.fr/10.1186/s12885-021-08021-1

Candidature

Procédure : Envoyer CV et brève lettre de motivation par email.

Date limite : 1 octobre 2022

Contacts

Pr. Daniel Gautheret

 daNOSPAMniel.gautheret@universite-paris-saclay.fr

Offre publiée le 2 septembre 2022, affichage jusqu'au 1 octobre 2022