Statistical methods and software for the analysis of transcriptomic data

Informations générales
Nom
RAU
Prénom
Andrea
Diplôme
HDR
Année
2017
Détails de la thèse/HDR
Jury
David Causeur
Anne-Laure Boulesteix
Nathalie VILLA-VIALANEIX
Stéphane Robin
Franck Picard
Christophe Ambroise
Résumé en français
Au cours des dernières années, le séquençage à haut débit (high-throughput sequencing, HTS) est devenu un outil essentiel pour les études génomiques et transcriptomiques. En particulier, l'utilisation de la technologie HTS pour séquencer directement des molécules d'ARN rétro-transcrites, dite séquençage d'ARN (RNA-seq), a révolutionné l'étude de l'expression génique. Une quantité importante de recherche méthodologique s’est concentrée sur l’élaboration de pipelines d’analyse bien adaptés aux caractéristiques des données RNA-seq. Dans ce travail, je me concentre sur des contributions méthodologiques visant trois objectifs analytiques: (1) la détection puissante de gènes différentiellement exprimés à partir de données RNA-seq, en particulier à travers un filtre automatique pour les gènes faiblement exprimés et une approche de combinaison de P-valeurs pour des données provenant de plusieurs études connexes; (2) l'identification de groupes de gènes co-exprimés à partir de données RNA-seq en utilisant des modèles de mélange fini, des transformations de données, et des critères de sélection de modèle adaptés; et (3) l'inférence de réseaux de gènes à partir de données transcriptomiques observationnelles ou interventionnelles (e.g., les invalidations géniques). Je discuterai également de certains des logiciels libres que j'ai développés et continue à maintenir pour la mise en œuvre de nos méthodes statistiques. Enfin, je discuterai de quelques perspectives de recherche concernant les développements méthodologiques pour l'intégration de données multi-omiques.
Résumé en anglais
In recent years, high-throughput sequencing (HTS) has become an essential tool for genomic and transcriptomic studies. In particular, the use of HTS to directly sequence reverse-transcribed RNA molecules, known as RNA sequencing (RNA-seq), has revolutionized the study of gene expression. In turn, a great deal of methodological research has focused on developing analysis pipelines that are well suited to the characteristics of RNA-seq data. In this work, I focus on methodological contributions to three analytical goals: (1) the powerful detection of differentially expressed genes from RNA-seq data, in particular through a data-based filter for weakly expressed genes and a P-value combination approach for data arising from multiple related studies; (2) the identification of clusters of co-expressed genes from RNA-seq data using finite mixture models, appropriately chosen transformations, and adapted model selection criteria; and (3) the inference of gene regulatory networks from observational RNA-seq data or arbitrarily complex gene knockout expression data. In addition, I will present some of the open-source software packages I have developed and continue to maintain for the implementation of our proposed statistical methods. Finally, I will discuss some related research perspectives regarding methodological developments for multi-omics data integration.