Statistique multivariée pour l'analyse de données de séquençage à haut débit

Informations générales
Nom
Durif
Prénom
Ghislain
Diplôme
Thèse
Année
2016
Détails de la thèse/HDR
Université
Jury
Jean-Michel Marin
Sylvain Sardy
Mark WIEL
Marie-Agnès Dillies
Cédric Févotte
Anne-Laure Fougères
Directeur (pour les thèses)
Franck Picard
Sophie Lambert-Lacroix
Résumé en français
L'analyse statistique de données de séquençage à haut débit (NGS) pose des challenges computationnelles concernant la modélisation et l'inférence. Les technologies à haut débit permettent maintenant d'enregistrer l'expression de milliers de gènes tout en considérant un nombre croissant d'individus, par exemple des centaines de cellules individuelles. Malgré cette augmentation du nombre d'observations, les données de génomiques sont toujours caractérisées par leur grande dimension. Les orientations de recherche qui seront explorées dans ce manuscrit portent sur des méthodes de réductions de dimension hybrides qui sont basées sur des approches de compression (représentation des données dans un espace de faible dimension) et de sélection de variables. Des développements sont menés concernant: i) la régression Partial Least Squares parcimonieuse dans le contexte de la classification supervisée, et ii) les méthodes de factorisation parcimonieuse de matrices dans le contexte de l'exploration de données non supervisée. Dans chaque situation, notre principal objectif sera de se concentrer sur les problématiques de reconstruction et de visualisation des structures complexes organisant les données.

Dans cette optique, nous abordons des défis particuliers quant au développement de méthodes pour l'analyse de données en grande dimension. En effet, les questions de dimensionnalité interfèrent directement avec les procédures d'optimisation. Dans une première partie, nous développerons une approche de type PLS parcimonieuse, basée sur une pénalité adaptative, dans le contexte de la régression logistique, c-a-d pour prédire le label d'une réponse discrète. Cette approche sera par exemple utilisée pour des problèmes de prédiction (devenir de patients ou type cellulaire de cellules uniques) à partir de profils d'expression de gènes. La principale problématique dans ces circonstances est de prendre en compte la réponse pour écarter les variables non intéressantes. Nous mettrons en avant le lien direct qu'il existe entre la dérivation des algorithmes et la fiabilité des résultats.

Dans une seconde partie, motivés par des questions relatives à l'analyse de données "single-cell", nous considérerons des méthodes de factorisation parcimonieuse de matrices pour des données de comptages. Nous proposerons une approche à base de modèles statistiques qui est très flexible et qui prend en compte la sur-dispersion et l'amplification des zéros ("zero-inflation") lesquelles caractérisent les données "single-cell". Notre méthode de factorisation de matrices est fondée sur un modèle hiérarchique pour lequel nous dérivons une procédure d'estimation basée sur l'inférence variationnelle. Dans ce schéma, nous considérons une procédure de sélection de variables basée sur un modèle "spike-and-slab" approprié pour les données de comptage. L'intérêt d'une telle méthode pour la reconstruction, la visualisation et le clustering de données est illustré par des simulations et par la présentation de résultats préliminaires concernant une étude en cours sur des données "single-cell". Par ailleurs, toutes les méthodes proposées sont implémentées dans deux packages R: "plsgenomics" et "CMF".
Résumé en anglais
The statistical analysis of Next-Generation Sequencing (NGS) data has raised many computational challenges regarding modeling and inference. High-throughput technologies now allow to monitor the expression of thousands of genes while considering a growing number of individuals, such as hundreds of individual cells. Despite the increasing number of observations, genomic data remain characterized by their high-dimensionality. The research directions that will be explored in this manuscript concern hybrid dimension reduction methods that rely on both compression (representation of the data into a lower dimensional space) and variable selection. Developments are made concerning: i) the sparse Partial Least Squares (PLS) regression framework for supervised classification, and ii) the sparse matrix factorization framework for unsupervised exploration. In both situations, our main purpose will be to focus on the reconstruction and visualization of the complex organization of the data.

In this regard, we tackle particular challenges that concern the development of methods to analyze high-dimensional data, since the dimensionality directly interferes with the optimization procedures. In a first part, we will develop a sparse PLS approach, based on an adaptive sparsity-inducing penalty, that is suitable for logistic regression, i.e. to predict the label of a discrete outcome. For instance, such a method will be used for prediction (fate of patients or specific type of unidentified single cells) based on gene expression profiles. The main issue in such framework is to account for the response to discard irrelevant variables. We will highlight the direct link between the derivation of the algorithms and the reliability of the results.

In a second part, motivated by questions regarding single-cell data analysis, we consider the framework of sparse matrix factorization for count data. We propose a model-based approach that is very flexible, and that accounts for over-dispersion as well as zero-inflation (both characteristic of single-cell data). Our matrix factorization method relies on a hierarchical model for which we derive an estimation procedure based on variational inference. In this scheme, we consider variable selection based on a spike-and-slab model suitable for count data. The interest of our procedure for data reconstruction, visualization and clustering will be illustrated in simulation experiments and by presenting preliminary results of an on-going analysis of single-cell data. All proposed statistical methods were implemented into two R packages plsgenomics and CMF based on high performance computing.