Dimensionality reduction and pathway network analysis of transcriptomic data: Application to T-cell characterization

Informations générales
Nom
Bécavin
Prénom
Christophe
Diplôme
Thèse
Année
2010
Détails de la thèse/HDR
Jury
Alain Arnéodo
Lars Rogge
Jean-Marc Victor
Sylviane Pied
Andrei Zinovyev
Directeur (pour les thèses)
Arndt Benecke
Résumé en français
Dans le contexte de l'étude pan-génomique de données d'expression des gènes (transcriptome), différents outils existent déjà. Parmi eux, les techniques de réduction de dimensionnalité cherchent les formes remarquables et les composants importants du système qui peuvent aider à résumer les données. Après une présentation de l'état de l'art des techniques de réduction de dimensionnalité linéaire et non-linéaire, je présenterai l'approche que nous avons développé, basée sur la combinaison de la décomposition en valeurs singulières (Singular Value Decomposition) et le Multidimensional Scaling. Nous avons prouvé son utilité et sa précision. En plus des outils d'analyse de données spécifiques à l'étude de l'expression des gènes, nous avons développé un logiciel qui permet de corréler l'expression des gènes à des réseaux d'interactions protéine-protéine. Et ceci afin de lier l'information sur l'expression des gènes à celle des interactions entre protéines (protéome) qui ont lieu au sein de la cellule. Tous les outils venant d'être décrits et de nombreux autres ont été utilisés afin d'analyser différents types de données biologiques. La première application a été de corréler l'expression d'auto-anticorps et de cytokines dans le corps humain lors d'une infection au paludisme. Nous avons déterminé des marqueurs spécifiques du paludisme cérébral, permettant à termes de prévenir et détecter plus tôt la maladie. La plus grande analyse que nous avons réalisée visait à définir le profil du transcriptome des cellules T régulatrices (Treg). Ces cellules sont détruites au cours d'une infection par le VIH, une bonne caractérisation moléculaire de celles-ci permettrait par exemple de mieux suivre l'évolution des Treg au cours des traitements pour le SIDA. Parmi les nouveaux marqueurs moléculaires de Treg que nous avons étudié, un nouveau facteur de transcription FOXLF a été découvert, qui pourrait jouer un rôle important dans l'apparition du caractère de "régulation" chez les Treg.
 
In the context of whole-genome expression (transcriptome) data analysis, different tools already exist today. One class of tools, called dimensionality reduction techniques, seeks for general patterns and important components of the system which can help to summarize the data. During my thesis I extensively studied the different state-of-the-art techniques existing in this field. We then developed our own approach based on the combination of Singular Value Decomposition and Multidimensional Scaling. We proved its usefulness and accuracy. In addition to gene expression-specific data analysis tools, we developed a software which allows to map different gene expression patterns to protein-protein networks. In order to link the gene expression scale to the protein scale (proteome). Those protein-protein networks are built based on curated ontology-based pathway models. The tools developed here and many others were used in order to analyze different "omics" data. The first application was on the analysis of experiments measuring autoantibodies and cytokine expression in the human body during Malaria infection. We determined specific markers of Cerebral Malaria, which will help to better detect the disease. The larger analysis we have performed, consisted in defining the transcriptome profile of regulatory T-cell subsets (Treg). These cells are depleted during HIV infection, for this reason a good molecular characterization of the different subsets would help find more accurate markers to, for example, follow their evolution during the treatment with novel drugs to fight AIDS. Among the new molecular markers of Treg we identified, a new transcription factor FOXLF was discovered which may play an important rôle in the regulation of the "regulatory" function of those cells.