The Statistical Fate of Genomic DNA: Modelling Match Statistics in Different Evolutionary Scenarios

Informations générales
Nom
Massip
Prénom
Florian
Diplôme
Thèse
Année
2015
Détails de la thèse/HDR
Université
Jury
Laurent Duret
Philipp Messer
Christine Dillmann
Amaury Lambert
Directeur (pour les thèses)
Peter Arndt
Sophie SCHBATH
Résumé en français
Le but de cette thèse est d'étudier la distribution des tailles des répétitions au sein
d'un même génome, ainsi que la distribution des tailles des appariements obtenus
en comparant différents génomes. Ces distributions présentent d'importantes
déviations par rapport aux prédictions des modèles probabilistes existants. Etonnamment, les déviations observées sont distribuées selon une loi de puissance.
Pour d'étudier ce phénomène, nous avons développé des modèles mathématiques
prenant en compte des mécanismes évolutifs plus complexes, et qui permettent d'expliquer les distributions observéees. Nous avons aussi implémenté des modèles d'évolution de séquences in silico générant des séquences ayant les mêmes propriétés que les génomes étudiés. Enfin, nous avons montré que nos modèles permettent de tester la qualité des génomes récemment séquencés, et de mettre en évidence la prévalence de certains mécanismes évolutifs dans les génomes eucaryotes.
Résumé en anglais
In this thesis, we study the length distribution of maximal exact matches within
and between eukaryotic genomes. These distributions strongly deviate from what
one could expect from simple probabilistic models and, surprisingly, present a
power-law behavior. To analyze these deviations, we develop mathematical frameworks
taking into account complex evolutionary mechanisms and that reproduce
the observed deviations. We also implemented in silico sequence evolution models
that reproduce these behaviors. Finally, we show that we can use our framework
to assess the quality of sequences of recently sequenced genomes and to highlight
the importance of unexpected biological mechanisms in eukaryotic genomes.