Identification des motifs de voisinage conservés dans des contextes métaboliques et génomiques

Informations générales
Nom
ZAHARIA
Prénom
Alexandra
Diplôme
Thèse
Année
2018
Détails de la thèse/HDR
Jury
Marie Beurton-Aimar
Jérémie Bourdon
Alessandra Carbone
Jean-Loup Faulon
Directeur (pour les thèses)
Christine Froidevaux
Alain Denise
Résumé en français
Cette thèse s'inscrit dans le cadre de la biologie des systèmes et
porte plus particulièrement sur un problème relatif aux réseaux
biologiques hétérogènes. Elle se concentre sur les relations entre le
métabolisme et le contexte génomique, en utilisant une approche de
fouille de graphes.

Il est communément admis que des étapes enzymatiques successives
impliquant des produits de gènes situés à proximité sur le chromosome
traduisent un avantage évolutif du maintien de cette relation de
voisinage au niveau métabolique ainsi que génomique. En conséquence,
nous choisissons de nous concentrer sur la détection de réactions
voisines catalysées par des produits de gènes voisins, où la notion de
voisinage peut être modulée en autorisant que certaines réactions
et/ou gènes soient omis. Plus spécifiquement, les motifs recherchés
sont des trails de réactions (c'est-à-dire des séquences de réactions
pouvant répéter des réactions, mais pas les liens entre elles)
catalysées par des produits de gènes voisins. De tels motifs de
voisinage sont appelés des motifs métaboliques et génomiques.

De plus, on s'intéresse aux motifs de voisinage métabolique et
génomique conservés, c'est-à-dire à des motifs similaires pour
plusieurs espèces. Parmi les variations considérées pour un motif
conservé, on considère l'absence/présence de réactions et/ou de gènes,
ou leur ordre différent.

Dans un premier temps, nous proposons des algorithmes et des méthodes
afin d'identifier des motifs de voisinage métabolique et génomique
conservés. Ces méthodes sont implémentées dans le pipeline libre
CoMetGeNe (COnserved METabolic and GEnomic NEighborhoods). À l'aide de
CoMetGeNe, on analyse une sélection de 50 espèces bactériennes, en
utilisant des données issues de la base de connaissances KEGG.

Dans un second temps, un développement de la détection de motifs
conservés est exploré en prenant en compte la similarité chimique
entre réactions. Il permet de mettre en évidence une classe de modules
métaboliques conservés, caractérisée par le voisinage des gènes
intervenants.
Résumé en anglais
This thesis fits within the field of systems biology and addresses a
problem related to heterogeneous biological networks. It focuses on
the relationship between metabolism and genomic context through a
graph mining approach.

It is well-known that succeeding enzymatic steps involving products of
genes in close proximity on the chromosome translate an evolutionary
advantage in maintaining this neighborhood relationship at both the
metabolic and genomic levels. We therefore choose to focus on the
detection of neighboring reactions being catalyzed by products of
neighboring genes, where the notion of neighborhood may be modulated
by allowing the omission of several reactions and/or genes. More
specifically, the sought motifs are trails of reactions (meaning
reaction sequences in which reactions may be repeated, but not the
links between them). Such neighborhood motifs are referred to as
metabolic and genomic patterns.

In addition, we are also interested in detecting conserved metabolic
and genomic patterns, meaning similar patterns across multiple
species. Among the possible variations for a conserved pattern, the
presence/absence of reactions and/or genes may be considered, or the
different order of reactions and/or genes.

A first development proposes algorithms and methods for the
identification of conserved metabolic and genomic patterns. These
methods are implemented in an open-source pipeline called CoMetGeNe
(COnserved METabolic and GEnomic NEighborhoods). By means of this
pipeline, we analyze a data set of 50 bacterial species, using data
extracted from the KEGG knowledge base.

A second development explores the detection of conserved patterns by
taking into account the chemical similarity between reactions. This
allows for the detection of a class of conserved metabolic modules in
which neighboring genes are involved.