Développements théoriques et méthodes numériques pour les analyses comparatives de génomes et protéomes biaisés. Application a la comparaison des génomes et protéomes de Plasmodium falciparum et d’Arabidopsis thaliana

Informations générales
Nom
Bastien
Prénom
Olivier
Diplôme
Thèse
Année
2006
Détails de la thèse/HDR
Jury
Emmanuel Douzery
Jean-Loup Risler
Jean-Jacques Codani
Jean-Paul Comet
Johannes Geiselmann
Directeur (pour les thèses)
Eric Maréchal
Résumé en français
Le paludisme, ou malaria, est une maladie infectieuse qui touche plus de 350 millions d’êtres humains et qui tue chaque année 2,5 millions de personnes a travers le monde. Les parasites responsables de la malaria sont des apicomplexes du genre Plasmodium, essentiellement P. falciparum. Le génome de P. falciparum, est séquencé depuis octobre 2002, et présente un des taux les plus faibles de gènes annotés, avec 60 % de gènes sans fonction attribuée. Il est difficile, voire impossible, d’identifier dans le génome de P. falciparum, certains gènes, responsables de fonctions mesurées biochimiquement chez le parasite, par similarité avec des séquences homologues caractérisées dans d’autres organismes. Cette difficulté est une limite a tout projet exploratoire du génome malarial fonde sur la phylogénie moléculaire. En particulier, l’inventaire des séquences héritées de l’algue ancestrale, qui a réalisé l’endosymbiose secondaire qui caractérise le phylum des Apicomplexa (sous génome d’origine algale dans lequel il est possible de rechercher des cibles pour des médicaments herbicides), peut être rendu incomplet. Les caractéristiques atypiques du génome et du protéome de Plasmodium, résumées sous le terme de « biais compositionnel » (en particulier un % adenine + thymidine > 80%), ont été soupçonnées d’être un cas limite pour les outils d’analyse de séquences existants. L’objet de cette thèse a donc été d’examiner l’influence possible de ce type de biais sur les méthodologies de comparaisons de séquences et de façon plus approfondie sur leurs statistiques. Nous avons proposé des développements théoriques nouveaux, associés a la statistique de la Z-value introduite par Lipman et Pearson pour évaluer la significativité d’un score d’alignement de deux séquences protéiques : (1) le théorème TULIP permettant de déduire un majorant de la probabilité d’un score d’alignement de séquences (i.e. la P-value) par la valeur 1/Z-value^2 et (2) la déduction des propriétés remarquables de la distribution des Z-values a partir de quelques hypothèses sur l’évolution des protéines dans le contexte de la théorie de la fiabilité des systèmes. Ces développements théoriques ont permis certaines avancées sur le plan pratique de l’identification de séquences homologues initialement non détectées par le théorème de Karlin-Altchul et d’étayer la relation entre les scores d’alignements et l’information mutuelle, au sens de la théorie de l’information. En construisant un espace de configuration des protéines homologues, permettant une expression du théorème TULIP et ayant une cohérence avec la théorie synthétique de l’évolution, nous avons déduit une méthode de reconstruction de phylogénies de séquences protéiques à l’aide des Z-values. Les phylogénies moléculaires reconstruites par cette méthode sont concordantes avec celles obtenues à partir d’alignements multiples et permettent par ailleurs de résoudre certaines incohérences rapportées avec les méthodes de reconstruction phylogéniques classiques. En prenant en compte le modèle statistique que nous avons élabore, nous avons entrepris une première analyse de l’évolution du biais en acides aminés chez Plasmodium correlativement à l’évolution du biais en acides nucléiques et de la divergence évolutive, établie en prenant le génome non biaisé d’Arabidopsis thaliana comme référence. Nous avons observe que le biais des séquences malariales était corrélé au pourcentage de divergence avec leurs homologues végétaux. Nos analyses suggèrent de plus que le biais est vraisemblablement la conséquence d’une évolution au niveau nucléique. Nous avons examiné la possibilité de construire une famille de matrices tenant compte de cette dissymétrie dans le cas de la comparaison de Plasmodium et d’Arabidopsis. Ces matrices appelées DirAtPf, possèdent (1) une sensibilité théorique et (2) une spécificité supérieure aux familles de matrices existantes. Les perspectives incluent une progression de l’annotation automatique de Plasmodium falciparum et la mise en place d’une procédure statistiquement robuste et phylogénétiquement cohérente pour caractériser le sous-génome algal du parasite malarial.