Statistical methods and software for the analysis of transcriptomic data

TitreStatistical methods and software for the analysis of transcriptomic data
Type de publicationThèse
Nouvelles publications2017
AuteursRAU, Andrea
RapporteursCauseur, David, Boulesteix Anne-Laure, VILLA-VIALANEIX Nathalie
ExaminateursRobin, Stéphane, Picard Franck, Ambroise Christophe
Université et/ou école doctoraleUniversité d’Evry-Val-d’Essonne
DiplômeHabilitation à Diriger des Recherches
RésuméAu cours des dernières années, le séquençage à haut débit (high-throughput sequencing, HTS) est devenu un outil essentiel pour les études génomiques et transcriptomiques. En particulier, l'utilisation de la technologie HTS pour séquencer directement des molécules d'ARN rétro-transcrites, dite séquençage d'ARN (RNA-seq), a révolutionné l'étude de l'expression génique. Une quantité importante de recherche méthodologique s’est concentrée sur l’élaboration de pipelines d’analyse bien adaptés aux caractéristiques des données RNA-seq. Dans ce travail, je me concentre sur des contributions méthodologiques visant trois objectifs analytiques: (1) la détection puissante de gènes différentiellement exprimés à partir de données RNA-seq, en particulier à travers un filtre automatique pour les gènes faiblement exprimés et une approche de combinaison de P-valeurs pour des données provenant de plusieurs études connexes; (2) l'identification de groupes de gènes co-exprimés à partir de données RNA-seq en utilisant des modèles de mélange fini, des transformations de données, et des critères de sélection de modèle adaptés; et (3) l'inférence de réseaux de gènes à partir de données transcriptomiques observationnelles ou interventionnelles (e.g., les invalidations géniques). Je discuterai également de certains des logiciels libres que j'ai développés et continue à maintenir pour la mise en œuvre de nos méthodes statistiques. Enfin, je discuterai de quelques perspectives de recherche concernant les développements méthodologiques pour l'intégration de données multi-omiques.
English AbstractIn recent years, high-throughput sequencing (HTS) has become an essential tool for genomic and transcriptomic studies. In particular, the use of HTS to directly sequence reverse-transcribed RNA molecules, known as RNA sequencing (RNA-seq), has revolutionized the study of gene expression. In turn, a great deal of methodological research has focused on developing analysis pipelines that are well suited to the characteristics of RNA-seq data. In this work, I focus on methodological contributions to three analytical goals: (1) the powerful detection of differentially expressed genes from RNA-seq data, in particular through a data-based filter for weakly expressed genes and a P-value combination approach for data arising from multiple related studies; (2) the identification of clusters of co-expressed genes from RNA-seq data using finite mixture models, appropriately chosen transformations, and adapted model selection criteria; and (3) the inference of gene regulatory networks from observational RNA-seq data or arbitrarily complex gene knockout expression data. In addition, I will present some of the open-source software packages I have developed and continue to maintain for the implementation of our proposed statistical methods. Finally, I will discuss some related research perspectives regarding methodological developments for multi-omics data integration.