Enrichissement de profils transcriptomiques par intégration de données hétérogènes : annotation fonctionnelle de gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress

Informations générales
Nom
Zaag
Prénom
Rim
Diplôme
Thèse
Année
2016
Détails de la thèse/HDR
Université
Jury
Patrick Meyer
Brigitte Mangin
Françoise Monéger
Mohamed Elati
Directeur (pour les thèses)
Marie-Laure Martin-Magniette
Etienne Delannoy
Résumé en français
À l'ère de la biologie computationnelle, l'annotation fonctionnelle reste un défi central. Les méthodes d'annotation récentes reposent sur l'hypothèse d'association par culpabilité et s'appuient sur l'intégration de données pour la recherche de partenaires fonctionnels. Cependant, la majorité de ces méthodes souffrent de l'hétérogénéité des données et du manque de spécificité du contexte biologique ce qui expliquerait un taux élevé de faux positifs parmi les prédictions. Ce travail de thèse développe une approche intégrative de données moléculaires contrôlant leur hétérogénéité pour annoter des gènes d'Arabidopsis thaliana impliqués dans la réponse aux stress. Les contributions majeures de cette thèse sont: (1) l'annotation fonctionnelle de groupes de gènes coexprimés par l'intégration de données omiques (2) la construction d'un réseau de corégulation par une analyse transversale des groupes coexprimés qui renforce les liens fonctionnels entre les gènes. (3) le développement
d'une méthode d'apprentissage supervisé pour l'inférence de fonction centrée sur les termes de la GO Slim en contrôlant le FDR. En identifiant une règle de décision par terme, cette méthode a permis de prédire la fonction de 49 gènes orphelins ou partiellement annotés.
Résumé en anglais
In the era of computational biology, functional annotation remains a major challenge. Recent annotation methods are based on the guilt by association assumption and rely on data integration to identify functional partners. However, most of these methods suffer from data heterogeneity and a lack of biological context specificity which would probably explain the high rate of false positives among predictions. This thesis develops an approach of molecular data integration controlling their heterogeneity in order to annotate Arabidopsis thaliana genes involved in stress response. The major contributions of this thesis are: (1) functional annotation of groups of co-expressed genes by omics data integration (2) the construction of a coregulatory gene network through a cross-analysis of the coexpressed groups strengthening the functional links between genes (3) the development of a supervised learning method for the inference of gene function centered on the GO Slim terms with a con
trol of the FDR. By identifying a decision rule by term, this method was used to predict the function of 49 orphan or partially annotated genes.