Modèles Markoviens graphiques pour la fusion de données individuelles et d’interactions : applications à la classification de gènes

Informations générales
Nom
Vignes
Prénom
Mathieu
Diplôme
Thèse
Année
2007
Détails de la thèse/HDR
Jury
Stéphane Robin
Jean-Philippe Vert
Olivier François
Didier PIAU
Directeur (pour les thèses)
Florence Forbes
Gilles Celeux
Résumé en français
Les recherches que nous présentons dans ce mémoire s’inscrivent dans le cadre de l’intégration statistique de données post-génomiques hétérogènes. La classification non supervisée de gènes vise à regrouper en ensembles significatifs les gènes d’un organisme, vu comme un système complexe, conformément aux données expérimentales afin de dégager des actions concertées de ces gènes dans les mécanismes biologiques mis en jeu. Nous basons notre approche sur des modèles probabilistes graphiques. Plus spécifiquement, nous utilisons l’outil de champs de Markov cachés qui permet la prise en compte simultanée de données propres à chacun des gènes grâce a des distributions de probabilités et de données traduisant un réseau d’interaction au sein de l’organisme à l’aide d’un graphe non-orienté entre les gènes. Apres avoir présenté la problématique et le contexte biologique, nous décrivons le modèle utilisé ainsi que les stratégies algorithmiques d’estimation des paramètres (i.e. approximations de type champ moyen). Puis nous nous intéresserons à deux particularités des données auxquelles nous avons été confrontés et qui amènent des développements du modèle utilisé, notamment la prise en compte de l’absence de certaines observations et la haute dimensionnalité de celles-ci. Enfin nous présenterons des expériences sur données simulées ainsi que sur données réelles sur la levure qui évaluent le gain apporté par notre travail. Notamment, nous avons voulu mettre l’accent sur des interprétations biologiques plausibles des résultats obtenus.