Prédiction de structures secondaires d’ARN et de complexes d’ARN avec pseudonoeuds - Approches basées sur la programmation mathématique multi-objectif

Informations générales
Nom
Legendre
Prénom
Audrey
Diplôme
Thèse
Année
2019
Détails de la thèse/HDR
Jury
Peter Clote, Professeur, Boston College, Rapporteur
Jérôme Waldispühl, Professeur associé, School of Computer Science McGill University, Rapporteur
Alain Denise, Professeur, Université Paris-Sud / Paris-Saclay, LRI and I2BC, Examinateur
Patrice Perny, Professeur, Responsable équipe Décision, LIP 6, Examinateur
Yann Ponty, Chercheur CNRS, LIX, École polytechnique, Examinateur
Bruno Sargueil, Directeur de Recherche CNRS, CiTCoM, Université Paris Descartes, Examinateur
Fariza Tahi, Professeur, IBISC, Université d’Evry Val d’Essonne, Directrice de thèse
Eric Angel, Professeur, IBISC, Université d’Evry Val d’Essonne, Co-encadrant de thèse
Directeur (pour les thèses)
Fariza Tahi
Eric Angel
Ecole Doctorale (pour les thèses)
Résumé en français
Dans cette thèse, nous proposons de nouveaux algorithmes et outils pour la prédiction de structures secondaires d'ARN et de complexes d'ARN, incluant des motifs particuliers, difficiles à prédire, comme les pseudonoeuds.
La prédiction de structures d'ARN reste une tâche difficile, et les outils existants, pourtant nombreux, ne donnent pas toujours de bonnes prédictions.
Afin de prédire plus précisément ces structures, nous proposons ici des algorithmes qui :
i) prédisent les k-meilleures structures;
ii) combinent plusieurs modèles de prédiction, afin de bénéficier des avantages de chacun;
iii) sont capables de prendre en compte des contraintes utilisateurs et des données biologiques structurales telles que le SHAPE.
Nous avons développé trois outils: BiokoP pour la prédiction de structures secondaires d'un ARN, et RCPred et C-RCPred pour la prédiction de structures secondaires de complexes d'ARN.
L'outil BiokoP propose plusieurs structures optimales et sous-optimales grâce à la combinaison de deux modèles de prédiction, le modèle énergétique MFE et le modèle probabiliste MEA.
Cette combinaison est réalisée grâce à la programmation mathématique multi-objectif, où chaque modèle est assimilé à une fonction objectif.
A cet effet, nous avons développé un algorithme générique retournant les k-meilleures courbes de Pareto d'un programme linéaire en nombres entiers bi-objectif.
L'outil RCPred, basé sur le modèle MFE, propose plusieurs structures sous-optimales.
Il tire parti des nombreux outils existants pour la prédiction de structures secondaires d'ARN seuls et d'interactions ARN-ARN, en prenant en compte des structures secondaires et interactions déjà prédites en entrée.
L'objectif de RCPred est de trouver les meilleures combinaisons possibles parmi ces entrées.
L'outil C-RCPred est une nouvelle version de RCPred, prenant en compte des contraintes utilisateurs et des données biologiques structurales (SHAPE, PARS et DMS).
C-RCPred est basé sur un algorithme multi-objectif, où les différents objectifs correspondent au modèle MFE, au respect des contraintes utilisateurs et à l'accord avec les données biologiques structurales.
Résumé en anglais
In this thesis, we propose new algorithms and tools to predict RNA and RNA complex secondary structures, including particular RNA motifs, difficult to predict, like pseudoknots.
RNA structure prediction stays a difficult task, and the numerous existing tools don't always give good predictions.
In order to predict structures that are as close as possible to the real ones, we propose to develop algorithms that:
i) predict the k-best structures;
ii) combine several models of prediction to take advantage of each;
iii) are able to take into account user constraints and structural data like SHAPE.
We developed three tools: BiokoP for predicting RNA secondary structures and RCPred and C-RCPred for predicting RNA complex secondary structures.
The tool BiokoP proposes several optimal and sub-optimal structures thanks to the combination of two prediction models, the energy model MFE and the probabilistic model MEA.
This combination is done with multi-objective mathematical programming, where each model is associated to an objective function.
To this end, we developed a generic algorithm returning the k-best Pareto curves of a bi-objective integer linear program.
The tool RCPred, based on the MFE model, proposes several sub-optimal structures.
It takes advantage of the numerous existing tools for RNA secondary structure prediction and for RNA-RNA interaction prediction, by taking as input predicted secondary structures and RNA-RNA interactions.
The goal of RCPred is to find the best combination among these inputs.
The tool C-RCPred is a new version of RCPred, taking into account user constraints and structural data (SHAPE, PARS, DMS).
C-RCPred is based on a multi-objective algorithm, where the different objectives are the MFE model, the fulfillment of the user constraints and the concordance with the structural data.