Découverte et exploration des modules conservés de transformations chimiques dans le métabolisme

Informations générales
Nom
Sorokina
Prénom
Maria
Diplôme
Thèse
Année
2016
Détails de la thèse/HDR
Jury
Christine Froidevaux
Daniel Kahn
Bernard LABEDAN
Jean-Loup Faulon
Ludovic Cottret
Directeur (pour les thèses)
Claudine Médigue
David Vallenet
Résumé en français
La proportion de séquences protéiques dont la fonction est inconnue dans les bases de données publiques est encore très importante (42% de séquences dans UniProt sont étiquetées comme "hypothetical", "uncharacterized", "unknown" ou encore "putative"). D’autre part, de nombreuses d’activités enzymatiques (environ 30%) demeurent orphelines de séquences. L’identification de modules fonctionnels conservés dans le métabolisme est une piste pour améliorer l’annotation fonctionnelle des protéines par la découverte de nouvelles réactions enzymatiques et voies métaboliques. C’est dans ce contexte que s’inscrit mon travail de thèse qui propose une nouvelle représentation d’un réseau métabolique global où les réactions partageant le même type de transformation chimique sont regroupées en signatures moléculaires de réactions (RMS). La signature d’une réaction est la différence des descripteurs moléculaires de signatures stéréochimiques (Carbonell et al. 2013, http://molsig.sourceforge.net) des produits et des substrats qui interviennent dans celle-ci. Ces RMS sont calculées pour toutes les réactions présentes dans au moins une voie métabolique, bien équilibrées et dont substrats et les produits sont identifiés et possèdent une structure moléculaire. Les RMS permettent de classifier les réactions d’une façon automatique et expert-indépendante et ont une couverture plus importante de l’ensemble des réactions enzymatiques que la classification de la Commission Enzymatique (EC numbers).
En partant d’un réseau orienté de réactions, les nœuds-réactions partageant la même RMS sont regroupés dans un seul nœud et les arêtes conservent la connectivité initiale entre les réactions. Plusieurs scores sont ensuite calculés pour chaque chemin dans le réseau de RMS dans le but d’évaluer la conservation des voies métaboliques connues et afin d’en découvrir des nouvelles. Le premier de ces scores, le scoreRea, est calculé en utilisant le nombre moyen de réactions par RMS, et représente la conservation chimique des chemins dans tout le métabolisme. Le deuxième, scoreProt, est basé sur le nombre de protéines associées à chaque RMS et reflète la conservation enzymatique du chemin au travers de l’arbre du vivant. Le score suivant, scoreTopo, est basé sur la centralité PageRank et illustre l’importance topologique d’un enchainement de RMS dans le réseau métabolique. La dernière métrique, le Pathway Concervation Index (PCI) est le nombre de chemins de réactions différents parmi les voies métaboliques connues regroupés dans un chemin de RMS et représente la conservation des transformations chimiques dans la partie connue du métabolisme. Les chemins de RMS les plus conservés sont ensuite identifiés pour comprendre le lien entre les différents types de conservation (chimique, enzymatique et topologique) et le type de processus des voies métaboliques (comme la biosynthèse ou la dégradation).
Cette représentation du métabolisme possède un potentiel prédictif intéressant et peut être utilisée pour identifier les parties les plus conservées du métabolisme, ainsi que pour découvrir de nouveaux modules métaboliques. De plus, la combinaison des différents scores peut être utilisée pour prédire le rôle métabolique des nouvelles voies en utilisant des approches d’apprentissage artificiel. Associés aux données de contexte génomique comme les opérons, les chemins conservés de transformations chimiques seront un outil utile pour l’annotation fonctionnelle des gènes et de groupes de gènes de fonction inconnue.
Résumé en anglais
The proportion of protein sequences of unknown function in public databases stills very important (42% of UniProt sequences are labelled as "hypothetical", "uncharacterized", "unknown" or "putative"). On the other hand, a number of enzyme activities (about 30%) remain orphan (i.e. there is any known sequence that is linked to this activity). Conserved functional modules identification in the metabolism is one of the possible ways to improve protein functional annotation, by discovering new enzyme reactions and new metabolic pathways. It is in this context that has been developed my PhD thesis, proposing a new representation of the global metabolic network, where reactions sharing the same chemical transformation type are grouped in reaction molecular signatures (RMS). A reaction signature is the difference of its products and substrates stereo signatures molecular descriptors involved in this reaction (Carbonell et al. 2013, http://molsig.sourceforge.net). These RMS are computed for all well balanced reactions involved in at least one metabolic pathway, for which all substrates and products are identified and have an available structure. RMS allow reaction classification in an automatic and expert-independent way and a greater coverage of all enzymatic reactions that the classification of the Enzyme Commission (EC numbers).
Starting from a directed reaction network, reaction nodes sharing the same RMS are grouped in a single node, and edges conserve the initial connectivity between reactions. Several scores are then computed for each path in the RMS network in order to assess known metabolic pathways conservation and to discover new ones. The first score, scoreRea, is computed using the average reaction number by RMS and represents the chemical conservation of the path in the whole metabolism. The second one, scoreProt, is based on the protein number associated to each RMS and reflects the enzyme conservation of the path through the tree of life. The next score, scoreTopo, is based on the PageRank centrality and depicts the topological importance of an RMS sequence in the metabolic network. The last metric, the Pathway Conservation Index (PCI) is the number of different reaction paths among known metabolic pathways grouped in a same RMS path. It represents the conservation of chemical transformation sequences in the known part of the metabolism. Most conserved RMS paths are next identified in order to understand the linkage between different conservation types (chemical, enzymatic and topologic) and the biological processes type of metabolic pathways (like biosynthesis or degradation).
This metabolism representation has an interesting predictive potential and can be used to identify most conserved parts of the metabolism and to discover new metabolic modules. Moreover, combination of different scores can be used to predict the metabolic role of new pathways using machine learning approaches. Conserved paths of chemical transformations associated to genomic context data will be a useful tool for functional annotation of genes and groups of genes of unknown function.