Evolution des séquences protéiques: signature structurale hydrophobe et réseaux d'acides aminés co-évolués
| Titre | Evolution des séquences protéiques: signature structurale hydrophobe et réseaux d'acides aminés co-évolués |
| Type de publication | Thèse |
| Nouvelles publications | 2008 |
| Auteurs | Baussand, Julie |
| Directeurs | Carbone, Alessandra |
| Rapporteurs | Gouy, Manolo, Poupon Anne |
| Examinateurs | Chretienne, Philippe, Grange Thierry, Guénoche Alain, Risler Jean-Loup |
| Université et/ou école doctorale | Ecole Doctorale Biochimie et Biologie Moléculaire |
| Diplôme | Doctorat |
| Temp | Université Paris VI |
| Résumé | De nombreuses études mettent en évidence l’importance de la conservation des résidus hydrophobes entre les protéines homologues divergentes pour le maintien du repliement des protéines. La détection automatique des blocs hydrophobes (bh) dans les séquences protéiques est basée sur la périodicité particulière des résidus hydrophobes dans les structures secondaires régulières à l’interface du coeur hydrophobe des protéines. L’analyse des blocs hydrophobes montre une forte corrélation aux structures secondaires régulières et aux régions enfouies ainsi qu’une meilleure conservation de ces régions par rapport au reste de la séquence au cours de l’évolution. Une approche modifiant l’algorithme de référence de Needleman et Wunsch est proposée considérant la séquence protéique non plus seulement comme un simple enchaînement d’acides amines (aa) mais comme une structure combinatoire (aa/bh). Des paramètres d’alignement plus adaptés aux différences de pressions évolutives au sein des séquences protéiques ont été développés. Plus précisément, deux matrices de substitution complémentaires spécifiques de l’évolution des acides aminés au sein et hors des blocs hydrophobes ont été sélectionnées parmi un ensemble de 90 paires de matrices correspondant à différentes hypothèses qui ont été testées. Egalement un espace à 4 dimensions de gaps est introduit permettant une pénalisation spécifique des insertions/délétions des acides aminés selon la région considérée, soit des pénalisations d’ouverture et d’extension de gaps dans et hors des blocs hydrophobes. La méthode a été comparée dans un espace 2 dimensions et 4 dimensions de pénalités de gap à d’autres matrices de substitution issues de la littérature ainsi qu’à la méthode d’alignement de séquences HMMSUM. Cette analyse montre l’importance de considérer le contexte hydrophobe pour l’alignement des protéines de moins de 30% d’identité de séquence. L’introduction de ces nouveaux paramètres d’alignement a permis d’une part une nette amélioration des alignements des séquences très divergentes, et d’autre part une augmentation de la stabilité du système par rapport aux variations des coûts de gaps. La seule information des blocs hydrophobes ne s’est pas montrée suffisante pour la discrimination des protéines homologues divergentes, mais pourrait se révéler pertinente pour décrire l’environnement structural des motifs fonctionnels de famille. Une analyse des protéines homologues alignées de façon multiple, des arbres phylogénétiques associés et de la combinatoire de leurs sous-arbres a été initiée. Cette analyse, développée sur la ligne de la méthode de détection des sites d’interaction Evolutionary Trace, permet dans un premier temps de hiérarchiser les positions des séquences selon leur distribution dans l’arbre phylogénétique. Contrairement à la méthode Evolutionary Trace, la hiérarchisation n’est pas basée sur la distance à la racine des sous-arbres conservant un résidu à une position donnée mais sur la topologie de ces sous-arbres. De cette classification, les positions sélectionnées comme 'conservées' sont analysées afin d’identifier les positions les plus conservées au cours de l’évolution, mais également les positions co-évoluées au sein des protéines. Cette approche est une alternative combinatoire à l’approche statistique de R. Ranganathan et al., pour la détection des réseaux de positions co-évoluées, qui est moins contraignante en terme de quantité de données nécessaire et également plus adaptée à la description des motifs fonctionnels des familles de protéines. |
