Modèles à variables latentes pour des données issues de tiling arrays. Applications aux expériences de ChIP-chip et de transcriptome

Informations générales
Nom
Bérard
Prénom
Caroline
Diplôme
Thèse
Année
2011
Détails de la thèse/HDR
Université
Jury
Philippe Besse
Gilles Celeux
Christophe Ambroise
Anne-Laure Boulesteix
Laurent Journot
Sébastien Aubourg
Directeur (pour les thèses)
Stéphane Robin
Marie-Laure Martin-Magniette
Résumé en français
Les puces tiling arrays sont des puces à haute densité permettant l’exploration des génomes à grande échelle. Elles sont impliquées dans l’étude de l’expression des gènes et de la détection de nouveaux transcrits grâce aux expériences de transcriptome, ainsi que dans l’étude des mécanismes de régulation de l’expression des gènes grâce aux expériences de ChIP-chip. Dans l’objectif d’analyser des données de ChIP-chip et de transcriptome, nous proposons une modélisation fondée sur les modèles à variables latentes, en particulier les modèles de Markov cachés, qui sont des méthodes usuelles de classification non supervisée. Les caractéristiques biologiques du signal issu des puces tiling arrays telles que la dépendance spatiale des observations le long du génome et l’annotation structurale sont intégrées dans la modélisation. D’autre part, les modèles sont adaptés en fonction de la question biologique et une modélisation est proposée pour chaque type d’expériences. Enfin, une modélisation semi-paramétrique autorisant des distributions plus flexibles pour la loi d’émission est envisagée. Dans un objectif de classification, nous proposons un contrôle de faux-positifs dans le cas d’une classification à deux groupes et pour des observations indépendantes. Puis, nous nous intéressons à la classification d’un ensemble d’observations constituant une région d’intérêt, telle que les gènes. Les différents modèles sont illustrés sur des jeux de données réelles de ChIP-chip et de transcriptome issus d’une puce NimbleGen couvrant le génome entier d’Arabidopsis thaliana.
Résumé en anglais
Tiling arrays make possible a large scale exploration of the genome with high resolution. Biological questions usually addressed are either the gene expression or the detection of transcribed regions which can be investigated via transcriptomic experiments, and also the regulation of gene expression thanks to ChIP-chip experiments. In order to analyse ChIP-chip and transcriptomic data, we propose latent variable models, especially Hidden Markov Models, which are part of unsupervised classification methods. The biological features of the tiling arrays signal, such as the spatial dependence between observations along the genome and structural annotation are integrated in the model. Moreover, the models are adapted to the biological question at hand and a model is proposed for each type of experiment. Finally, a semi-parametric modeling is considered, allowing more flexible emission distributions. With the objective of classification, we propose a false-positive control in the case of a two-cluster classification and for independent observations. Then, we focus on the classification of a set of observations forming a region of interest such as a gene. The different models are illustrated on real ChIP-chip and transcriptomic datasets coming from a NimbleGen tiling array covering the entire genome of Arabidopsis thaliana.