Analyse de données -omiques : clustering et inférence de réseaux

Informations générales
Nom
Hulot
Prénom
Audrey
Diplôme
Thèse
Année
2020
Détails de la thèse/HDR
Jury
Henri-Jean GARCHON PU-PH Université Paris-Saclay Directeur de thèse
Florence JAFFREZIC Directrice de recherche Université Paris-Saclay - INRAE Jouy-en-Josas CoDirectrice de thèse
Julien CHIQUET Directeur de recherche Université Paris Saclay - AgroParisTech, INRAE Co-encadrant de thèse
Nathalie VIALANEIX Directrice de recherche MIAT - INRAE Toulouse Rapportrice
Grégory NUEL Directeur de recherche CNRS - Sorbonne Université Rapporteur
Guillaume ASSIE PU-PH Université de Paris - INSERM Examinateur
Guillemette MAROT Maître de conférences Université de Lille Examinatrice
Marie-Laure MARTIN-MAGNIETTE Directrice de recherche INRAE - Institut des Sciences des Plantes Paris Saclay Examinatrice
Directeur (pour les thèses)
Henri-Jean GARCHON
Florence JAFFREZIC
Julien Chiquet
Résumé en français
Le développement des méthodes de biologie haut-débit
(séquençage et spectrométrie de masse) a permis de générer de grandes
masses de données, dites -omiques, qui nous aident à mieux comprendre
les processus biologiques.
Cependant, isolément, chaque source -omique ne permet d'expliquer que
partiellement ces processus. Mettre en relation les différentes
sources de donnés -omiques devrait permettre de mieux comprendre les
processus biologiques mais constitue un défi considérable.
Dans cette thèse, nous nous intéressons particulièrement aux méthodes
de clustering et d’inférence de réseaux, appliquées aux données
-omiques.
La première partie du manuscrit présente trois méthodes. Les deux
premières méthodes sont applicables dans un contexte où les données
peuvent être de nature hétérogène.
La première concerne un algorithme d’agrégation d’arbres, permettant
la construction d’un clustering hiérarchique consensus. La complexité
sous-quadratique de cette méthode a fait l’objet d’une démonstration,
et permet son application dans un contexte de grande dimension. Cette
méthode est disponible dans le package R mergeTrees, accessible sur
le CRAN.
La seconde méthode concerne l’intégration de données provenant
d’arbres ou de réseaux, en transformant les objets via la distance
cophénétique ou via le plus court chemin, en matrices de distances.
Elle utilise le Multidimensional Scaling et l’Analyse Factorielle
Multiple et peut servir à la construction d’arbres et de réseaux
consensus.
Enfin, dans une troisième méthode, on se place dans le contexte des
modèles graphiques gaussiens, et cherchons à estimer un graphe, ainsi
que des communautés d’entités, à partir de plusieurs tables de
données. Cette méthode est basée sur la combinaison d’un Stochastic
Block Model, un Latent block Model et du Graphical Lasso.
Cette thèse présente en deuxième partie les résultats d’une étude de
données transcriptomiques et métagénomiques, réalisée dans le cadre
d’un projet appliqué, sur des données concernant la Spondylarthrite
ankylosante.
Résumé en anglais
The development of biological high-throughput technologies
(next-generation sequencing and mass spectrometry) have provided
researchers with a large amount of data, also known as -omics, that
help better understand the biological processes.
However, each source of data separately explains only a very small
part of a given process. Linking the different -omics sources between
them should help us understand more of these processes.
In this manuscript, we will focus on two approaches, clustering and
network inference, applied to omics data.
The first part of the manuscript presents three methodological
developments on this topic. The first two methods are applicable in a
situation where the data are heterogeneous.
The first method is an algorithm for aggregating trees, in order to
create a consensus out of a set of trees. The complexity of the
process is sub-quadratic, allowing to use it on data leading to a
great number of leaves in the trees. This algorithm is available in an
R -package named mergeTrees on the CRAN.
The second method deals with the integration of data from trees and
networks, by transforming these objects into distance matrices using
cophenetic and shortest path distances, respectively. This method
relies on Multidimensional Scaling and Multiple Factor Analysis and
can also be used to build consensus trees or networks.
Finally, we use the Gaussian Graphical Models setting and seek to
estimate a graph, as well as communities in the graph, from several
tables. This method is based on a combination of Stochastic Block
Model, Latent Block Model and Graphical Lasso.
The second part of the manuscript presents analyses conducted on
transcriptomics and metagenomics data to identify targets to gain
insight into the predisposition of Ankylosing Spondylitis.