Statistical Modeling of Bacterial Promoter Sequences for Regulatory Motif Discovery

Informations générales
Nom
Sultan
Prénom
Ibrahim
Diplôme
Thèse
Année
2019
Détails de la thèse/HDR
Jury
Denis Thieffry
Grégory Nuel
Juliette Martin
Stéphane Robin
Directeur (pour les thèses)
Sophie Schbath
Pierre Nicolas
Ecole Doctorale (pour les thèses)
Résumé en français
Les facteurs de transcription jouent un rôle clé dans la médiation de
l'adaptation des bactéries aux conditions environnementales. Des
algorithmes et des approches puissants ont été développés pour la
découverte de leurs sites de liaison à l’ADN, mais l'identification de
novo automatique des principaux régulons d'une bactérie à partir des
données du génome et du transcriptome reste un défi. L'approche que
nous proposons ici pour traiter cette tâche est fondée sur un modèle
probabiliste de la séquence d'ADN qui peut utiliser des informations
précises sur la position des sites de départ de la transcription et
des profils de transcription mesurés dans une collection de conditions
expérimentales. Les principales nouveautés introduites consistent à
permettre les chevauchements d'occurrences de motifs et à incorporer
des covariables résumant les profils de transcription dans la
probabilité d'occurrence dans une région promotrice donnée. Chaque
covariable peut correspondre à la coordonnée du gène sur un axe
(obtenu par exemple par PCA ou ICA) ou à sa position dans un arbre
(obtenue par exemple par un regroupement hiérarchique). Tous les
paramètres sont estimés dans un cadre bayésien à l'aide d'un
algorithme MCMC trans-dimensionnel dédié. Cela permet d’ajuster
simultanément, pour de nombreux motifs et avec de nombreuses
covariables de transcription, la largeur des matrices de
poids-position correspondantes, le nombre de paramètres permettant de
décrire les positions par rapport au site de début de la
transcription, et la sélection des covariables pertinentes.
Résumé en anglais
Transcription factors play a key role in mediating the adaptation of
bacteria to environmental conditions. Powerful algorithms and
approaches have been developed for the discovery of their binding
sites but automatic de novo identification of the main regulons of a
bacterium from genome and transcriptome data remains a challenge. The
approach that we propose here to address this task is based on a
probabilistic model of the DNA sequence that can make use of precise
information on the position of the transcription start sites and of
condition-dependent transcription profiles. Two main novelties of our
model are to allow overlaps between motif occurrences and to
incorporate covariates summarising transcription profiles into the
probability of occurrence in a given promoter region. Each covariate
may correspond to the coordinate of the gene on an axis (e.g. obtained
by PCA or ICA) or to its position in a tree (e.g. obtained by
hierarchical clustering). All the parameters are estimated in a
Bayesian framework using a dedicated trans-dimensional MCMC algorithm.
This allows simultaneously adjusting, for many motifs and with many
transcription covariates, the width of the corresponding position
weight matrices, the number of parameters to describe positions with
respect to the transcription start site, and the covariates that are
relevant.