Apprentissage à partir de données diversement étiquetées pour l’étude du rôle de l’environnement local dans les interactions entre acides aminés

Informations générales
Nom
Magnan
Prénom
Christophe
Diplôme
Thèse
Année
2007
Détails de la thèse/HDR
Jury
Florence d’Alché-Buc
Antoine Cornuéjols
Alain Guénoche
Yann Guermeur
Directeur (pour les thèses)
Cécile Capponi
François Denis
Résumé en français
Nous étudions le problème bioinformatique de la prédiction de contacts ponctuels entre résidus distants sur la séquence d’une protéine, tels que les ponts disulfures ou salins, une étape encore non résolue du problème plus général de la prédiction de la structure 3D d’une protéine à partir de sa séquence primaire. L’étude de l’état de l’art sur ce problème a fait ressortir des questions sur la modélisation de ce problème ainsi que sur le rôle de l’environnement local des acides aminés appariés dans la formation de ces contacts. Plusieurs considérations biologiques d’une part, et des expérimentations d’autre part, montrent la nécessité d’étudier des contextes d’apprentissage jusqu’ici peu connus et peu étudiés pour répondre à ces questions. Le premier est un cas particulier de l’apprentissage semi-supervisé binaire dans lequel on suppose que les exemples classés dont on dispose appartiennent uniquement à une seule classe, nous l’appelons apprentissage semi-supervisé asymétrique. Le second cadre d’apprentissage étudié est une extension de l’apprentissage avec bruit de classification, noté CN, dans lequel on suppose que les données de chacune des deux classes sont corrompues par un bruit de classification constant par classe avant d’être observées, nous notons ce modèle de bruit CCCN. Nous montrons que ces deux contextes d’apprentissage sont mal posés dans le cadre général de l’apprentissage statistique, mais que certaines hypothèses sur les distributions sous-jacentes permettent de les rendre bien posés, comme par exemple l’hypothèse que les distributions conditionnelles à chacune des classes sont des distributions produits. Des adaptations de méthodes connues de l’apprentissage à ces contextes sont proposées : l’algorithme naïf de Bayes et l’algorithme du perceptron. Ces nouveaux algorithmes ont été expérimentés puis utilisés pour tenter de répondre aux questions biologiques initialement posées.