Etude et conception d’une plate-forme d’intégration et de visualisation de données génomiques et d’outils bioinformatiques

Informations générales
Nom
Gros
Prénom
Pierre-Emmanuel
Diplôme
Thèse
Année
2006
Détails de la thèse/HDR
Université
Jury
Philippe Bessières
Mohand-Said Hacid
Philippe Gesnouin
William Saurin
Philippe Tarroux
Directeur (pour les thèses)
Rachid Gherbi
Résumé en français
L’Acide Desoxyribo Nucléique suspend la recherche dans les filets de son langage complexe et la plonge dans un domaine guidé par les données. Ce guidage fait a fait naître le champ de la bio-informatique. L’aire de cette nouvelle science est en relation avec la récupération, l’organisation, l’analyse et la modélisation de la masse des données biologiques. La partie la plus visible pour l’utilisateur averti est la création de bases/banques de données dont la taille fait frémir :
- Séquence d’ADN : 16 giga bases qui représentent hors annotations 16 giga octets de données,
- Séquence protéique : 130 000 protéines annotées,
- Structure protéique : plus de 25 000 structures tridimensionnelles,
- Littérature : plus de 14 millions de résumés, sans compter les articles disponibles. Ces différentes sources de données conduisent à l’envie de vouloir fédérer des bases de données de séquences, de protéines et de réseaux de régulation entre elles. De cette intégration est attendue une accélération de la compréhension du rôle des gènes, un des objectifs des processus d’acquisition de connaissances à partir de la séquence génomique. Cette thèse s’attache donc au problème de l’intégration des données issues du monde de la biologie moléculaire. Cette problématique est complexe dans la mesure où sa résolution nécessite de prendre en compte au moins trois facettes. Les deux premières étant une intégration syntaxique des outils bioinformatiques et des données issues des bases de données biologiques. Enfin, cette thèse propose un outil d’intégration sémantique appelé « Lysa ». Cet outil est un des premiers qui propose à l’utilisateur d’explorer une base de données non pas via la structure de la base mais via les données contenues. Cette exploration a pour but de permettre à l’utilisateur de retrouver les liens « sémantiques » qui existent entre les données. Cette thèse aborde donc suivant trois facettes conjointes de la problématique d’intégration de données bioinformatiques. A travers l’intégration d’outils bioinformatiques, l’intégration de base de données distantes et l’intégration sémantiques des données, nous explorerons un domaine de recherche qui se situe à l’intersection des bases de données, des architectures distribuées et des représentations des connaissances. Nous nous sommes attachés dans ce mémoire à explorer chacune des facettes à la fois d’un point de vue conceptuel et technique.