Mots-Clés
RNA-seq
analyse d'expression différentielle
détection de ruptures
Description
Détection de ruptures pour la recherche automatique de régulations différentielles à partir de données transcriptomiques
Contacts : arnaud.liehrmann@universite-paris-saclay.fr, guillem.rigaill@inrae.fr et benoit.castandet@universite-paris-saclay.fr
Résumé
Pour obtenir une image globale de la régulation des gènes, il faut connaître en détail le transcriptome ainsi que les activités enzymatiques et les activités de liaison à l'ARN qui le façonnent. Plusieurs stratégies fondées sur le RNA-Seq ont récemment été développées pour déchiffrer sa complexité. Cependant, la plupart des outils développés ne comptent que l'abondance des lectures de séquençage des gènes et négligent donc de possibles événements régulateurs qui sont dans les régions dites intergéniques [1]. Dans le contexte de l'analyse d'expression différentielle, ces événements dans les régions intergéniques entraînent des changements locaux du log2 fold-change le long du génome et l’utilisation d'un algorithme de détection de ruptures multiples comme Fpop [2] rend alors possible l’identification des frontières des régions différentiellement exprimées sans a priori sur les annotations pré-existantes.
La méthode DiffSegR, développée par notre équipe, implémente cette stratégie pour découvrir systématiquement les différences transcriptomiques entre deux conditions biologiques à partir d'une expérience RNA-Seq. Nous avons montré que sur le chloroplaste (qui contient un génome d’environ 150 000 pb) DiffSegR identifie des maturations différentielles en accord avec nos validations moléculaires.
Nous souhaitons étendre la méthode DiffSegR à l’analyse de plus grands génomes que celui du chloroplaste et proposons un sujet de stage niveau master 2 en bioinformatique/biostatistique.
Nous recherchons un(e) étudiant(e) ayant des notions de :
- modélisation statistique ;
- algorithmie ;
ainsi que de bonnes aptitudes en programmation R.
Le projet est une collaboration interdisciplinaire entre une équipe de bioinformatique et une équipe de biologie de l'IPS2. Vous serez amené à discuter et présenter vos résultats avec les différentes équipes. Nous avons une très bonne expérience des analyses des données de séquençage à haut débit ainsi que des méthodes de détection de ruptures multiples et pourrons vous aider dans vos choix d'analyse et méthodologiques. Cependant, la capacité à travailler de manière indépendante vers des objectifs définis et à résoudre les problèmes de programmation avec les ressources en ligne est essentielle.
Références
[1] Morillon, A., Gautheret, D. Bridging the gap between reference and real transcriptomes. Genome Biol, 20, 112 (2019). doi:10.1186/s13059-019-1710-7
[2] Maidstone, R., Hocking, T., Rigaill, G. et al. On optimal multiple changepoint algorithms for large data. Stat Comput, 27, 519–533 (2017). doi: 10.1007/s11222-016-9636-3
[3] Berge, K., Hembach, K., Soneson, C., et al. RNA Sequencing Data: Hitchhiker's Guide to Expression Analysis. Annual Review of Biomedical Data Science, 2, 1, 139-173 (2019). doi:10.1146/annurev-biodatasci-072018-021255