Optimisation de potentiels statistiques pour un modèle d'évolution soumis à des contraintes structurales

Informations générales
Nom
Bonnard
Prénom
Cécile
Diplôme
Thèse
Année
2010
Détails de la thèse/HDR
Jury
Asger Hobolth
Thomas Simonson
Jérôme Gracy
Yann Guermeur
Directeur (pour les thèses)
Olivier Gascuel
Nicolas Lartillot
Résumé en français
Ces dernières années, plusieurs modèles d'évolution moléculaire, basés sur l'hypothèse que les séquences des protéines évoluent sous la contrainte d'une structure bien définie et constante au cours de l'évolution, ont été développés. Cependant, un tel modèle repose sur l'expression de la fonction représentant le lien entre la structure et sa séquence. Les potentiels statistiques proposent une solution intéressante, mais parmi l'ensemble des potentiels statistiques existants, lequel serait le plus approprié pour ces modèles d'évolution ? Dans cette thèse est développé un cadre probabiliste d'optimisation de potentiels statistiques, dans le contexte du maximum de vraisemblance, et dans une optique de protein design. Le potentiel statistique utilisé ici est composé d'un terme de contact entre deux acides aminés et un terme d'accessibilité au solvant, mais le cadre statistique peut être très facilement généralisé à des formes plus complexes de potentiel. Ce cadre intègre différentes méthodes d'optimisation, incluant la prise en compte de structures alternatives (decoys) pour l'optimisation des potentiels, et utilise une amélioration algorithmique permettant l'obtention rapide de potentiels statistiques adaptés au contexte. Tout cela nous fournit un cadre robuste et des tests statistiques (à la fois dans le contexte de l'optimisation des potentiels et dans le contexte de l'évolution moléculaire), permettant de comparer différentes méthodes d'optimisation de potentiels statistiques pour les modèles soumis à des contraintes structurales.
 
In the field of molecular evolution, so called Structurally constrained (SC) models have been developped. Expressed at the codon level, they explicitely separe the mutation (applied to the nucleotide sequence) and the selection (applied to the encoded protein sequence) factors. The selection factor is described as a function between the structure and the sequence of the protein, via the use of a statistical potential. However, the whole evolutionary model depends on the expression of this potential, and one can ask wether a potential would be better than another. In this thesis, is developped a probabilistic framework to optimize statistical potentials especially meant for protein design, using a maximum likelihood approach. The statistical potential used in this thesis is composed by a contact potential and a solvent accessibility potential, but the probabilistic framework can easily be generalized to more complex statistical potentials. In a first part, the framework is defined, and then an algorithmical enhancement is proposed, and finally, the framework is modified in order to take into account misfolded structures (decoys). The framework defined in this thesis and in other works allows to compare different optimization methods of statistical potentials for SC models, using cross-validation and Bayes factor comparisons.