Défis algorithmiques pour les simulations biomoléculaires et la conception de protéines

Informations générales
Nom
DRUART
Prénom
Karen
Diplôme
Thèse
Année
2016
Détails de la thèse/HDR
Jury
Anne­Claude CAMPROUX
Juan CORTES
Annick Dejaegere
Yann Ponty
Directeur (pour les thèses)
Edouard AUDIT
Thomas Simonson
Résumé en français
Le dessin computationnel de protéine, ou CPD, est une technique qui permet de modifier
les protéines pour leur conférer de nouvelles propriétés, en exploitant leurs structures
3D et une modélisation moléculaire. Pour rendre la méthode de plus en plus prédictive,
les modèles employés doivent constamment progresser. Dans cette thèse, nous avons abordé
le problème de la représentation explicite de la flexibilité du squelette protéique.
Nous avons développé une méthode de dessin "multi-états", qui se base sur une bibliothèque
discrète de conformations du squelette, établie à l'avance. Dans un contexte de simulation
Monte Carlo, le paysage énergétique d'une protéine étant rugueux, les changements de squelettes
ne peuvent etre acceptés que moyennant certaines précautions. Aussi, pour explorer ces
conformations, en même temps que des mutations et des mouvements de chaînes latérales,
nous avons introduit un nouveau type de déplacement dans une méthode Monte Carlo existante.
Il s'agit d'un déplacement "hybride", où un changement de squelette est suivi d'une courte
relaxation Monte Carlo des chaînes latérales seules, après laquelle un test d'acceptation
est effectué. Pour respecter une distribution de Boltzmann des états, la probabilité doit
avoir une forme précise, qui contient une intégrale de chemin, difficile à calculer en
pratique. Deux approximations sont explorées en détail: une basée sur un seul chemin de
relaxation, ou chemin "générateur" (Single Path Approximation, ou SPA), et une plus complexe
basée sur un ensemble de chemins, obtenus en permutant les étapes élémentaires du chemin
générateur (Permuted Path Approximation, ou PPA). Ces deux approximations sont étudiées et
comparées sur deux protéines. En particulier, nous calculons les énergies relatives des
conformations du squelette en utilisant trois méthodes différentes, qui passent réversiblement
d'une conformation à l'autre en empruntent des chemins très différents. Le bon accord entre
les méthodes, obtenu avec de nombreuses paramétrisations différentes, montre que l'énergie
libre se comporte bien comme une fonction d'état, suggérant que les états sont bien échantillonnés
selon la distribution de Boltzmann. La méthode d'échantillonnage est ensuite appliquée à une boucle dans le site
actif de la tyrosyl-ARNt synthétase, permettant d'identifier des séquences qui favorisent
une conformation, soit ouverte, soit fermée de la boucle, permettant en principe de contrôler
ou redessiner sa conformation. Nous décrivons enfin un travail préliminaire visant à augmenter
encore la flexibilité du squelette, en explorant un espace de conformations continu et non plus
discret. Ce changement d'espace oblige à restructurer complètement le calcul des énergies et
le déroulement des simulations, augmente considérable le coût des calculs, et nécessite une
parallélisation beaucoup plus agressive du logiciel de simulation.

Résumé en anglais
Computational protein design is a method to modify proteins and obtain
new properties, using their 3D structure and molecular modelling. To make
the method more predictive, the models need continued improvement. In this
thesis, we addressed the problem of explicitly representing the
flexibility of the protein backbone. We developed a "multi-state" design
approach, based on a small library of backbone conformations, defined
ahead of time. In a Monte Carlo framework, given the rugged protein energy
landscape, large backbone motions can only be accepted if precautions are
taken. Thus, to explore these conformations, along with sidechain mutations
and motions, we have introduced a new type of Monte Carlo move. The move
is a "hybrid" one, where the backbone changes its conformation, then a
short Monte Carlo relaxation of the sidechains is done, followed by an
acceptation test. To obtain a Boltzmann sampling of states, the acceptation
probability should have a specific form, which involves a path integral that
is difficult to calculate. Two approximate forms are explored: the first is
based on a single relaxation path, or "generating path" (Single Path Approximation
or SPA). The second is more complex and relies on a collection of paths, obtained
by shuffling the elementary steps of the generating path (Permuted Path
Approximation or PPA). These approximations are tested in depth and compared
on two proteins. Free energy differences between the backbone conformations are
computed using three different approaches, which move the system reversibly from
one conformation to another, but follow very different routes. Good agreement
is obtained between the methods and a wide range of parameterizations, indicating
that the free energy behaves as a state function, as it should, and strongly
suggesting that Boltzmann sampling is verified. The sampling method is applied to the
tyrosyl-tRNA synthetase enzyme, allowing us to identify sequences that prefer
either an open or a closed conformation of an active site loop, so that in
principle we can control, or design the loop conformation. Finally, we describe
preliminary work to make the protein backbone fully flexible, moving within a
continuous and not a discrete space. This new conformational space requires a
complete reorganization of the energy calculation and Monte Carlo simulation scheme,
increases simulation cost substantially, and requires a much more aggressive
parallelization of our software.