Modélisation statistique et analyse de données, du génome au transcriptome

Informations générales
Nom
Nicolas
Prénom
Pierre
Diplôme
HDR
Année
2018
Détails de la thèse/HDR
Jury
Christophe Ambroise
Philippe Bouloc
Sylvain Brisse
Alessandra Carbone
Daniel Gautheret
Jean-Michel Marin
Marie-France Sagot
Résumé en français
Ce mémoire a pour objectif d'éclairer les choix et le contexte de mon
travail de recherche et d'en reprendre certains détails. Les thèmes
abordés vont d'aspects méthodologiques de la bioinformatique à l'analyse
de jeux de données biologiques. Je donne en particulier des précisions
sur le développement de modèles statistiques à variables latentes, dont
des chaînes de Markov cachées. Combinés à une inférence non-supervisée,
ces modèles visent à permettre l'analyse de données de séquences
biologiques sous divers angles : segmentation de l'ADN selon sa
composition, détection de gènes et de motifs, analyse de polymorphisme
et lissage de données d'expression le long du génome. Les questions de
l'estimation des paramètres et du choix de la dimension sont abordées
par des algorithmes de types Expectation Maximization et Monte-Carlo par
chaînes de Markov. Je retrace ensuite ma contribution à l'analyse de
deux grandes catégories d'objets biologiques. Le premier est
l'architecture des transcriptomes bactériens que j'ai étudiée par des
approches de transcriptomique globale (tiling arrays) chez la bactérie
modèle à Gram positif Bacillus subtilis et chez l'une des ses cousines
pathogène de l'homme, Staphylococcus aureus. Le second concerne la
structure des populations et les mécanismes évolutifs que j'ai analysés
par des approches génétiques (Multi-Locus Sequence Typing) et de
comparaison de génomes chez les bactéries pathogènes des poissons
appartenant à l'espèce Flavobacterium psychrophilum et au genre voisin
Tenacibaculum.