Mots-Clés
états chromatiniens
lactylation
histone
apprentissage profond
ChromHMM
Description
Projet : Modèle d’apprentissage profond pour décrypter le code histone
Equipe encadrante : Delphine Pflieger (DR CNRS, épigénétique), Thomas Fortin (CR CEA, mathématiques appliquées), Christophe Battail (DR CEA, bioinformatique de données génomiques).
Contacts : delphine.pflieger@cea.fr; thomas.fortin@cea.fr
Contexte du projet
Dans les cellules d’un organisme eucaryote, l’ADN s’enroule autour de protéines appelées histones pour former la structure de base des chromosomes que l’on nomme chromatine. La modification dynamique des histones par diverses structures chimiques, en particulier sur leurs lysines, permet de réguler précisément l’expression des gènes par des mécanismes épigénétiques. Par exemple, l’acétylation des lysines est bien caractérisée comme induisant l’expression des gènes. Depuis quelques années, un grand nombre de structures semblables à l’acétylation, appelées acylations, ont été décrites comme pouvant modifier les histones. Les métabolites servant de substrats pour acyler les lysines d’histones sont généralement les acyls-Coenzyme A correspondants. Ainsi, il apparaît que le programme d’expression des gènes est régulé de façon très subtile par le métabolisme cellulaire. Néanmoins, les effets sur la transcription des acylations par rapport à l’acétylation restent largement à explorer. Acquérir la compréhension détaillée des mécanismes de régulation de l’expression génique par le métabolisme énergétique permettrait de proposer des leviers pour corriger les dérégulations métaboliques et épigénétiques à l’œuvre dans de nombreuses pathologies, telles que les maladies métaboliques, les cancers et des maladies neurodégénératives.
Nous avons récemment mis en lumière par analyse protéomique que la lactylation des lysines, nouveau type d’acylation découvert en 2019, modifie un grand nombre de lysines des histones H3 et H4 au cours de la spermatogénèse. Afin d’étudier les fonctions cellulaires de la lactylation par rapport à l’acétylation, nous avons établi la distribution sur tout le génome de ces deux marques sur trois résidus lysines, à deux stades de différentiation successifs de la spermatogenèse. Nous avons aussi retraité de façon homogène des données publiques de cartographie sur tout le génome d’une quinzaine de marques d’histones et de protéines liées à la chromatine, ainsi que des données d’expression de gènes à ces mêmes stades.
Objectif du travail confié
Ce stage vise à positionner les marques lactylées dans le paysage complexe des modifications formant le “code histone”. Ce langage, par sa combinatoire aux promoteurs des gènes et dans les régions de régulation intergéniques, module finement l’expression des gènes dans chaque cellule.
Nous utiliserons le modèle d’apprentissage profond du logiciel ChromHMM [1] pour localiser et identifier des états chromatiniens incluant des lysines lactylées, au sein d’un grand nombre de modifications d’histones plus classiques, comme des sites acétylés et méthylés. Ces états, qui sont des combinaisons chimiques spécifiques de la chromatine, influencent l’accessibilité et l’état de transcription des gènes. Nous les appréhenderons aux stades spermatocytes et spermatides rondes, et chercherons à étudier l’association entre ces états et les niveaux d’expression des gènes. Ce travail consistera donc en la découverte et le positionnement génomique d’états chromatiniens, incluant des marques lactylées, dans des régions fonctionnelles du génome connues et assez bien caractérisées en termes de co-existence de marques d’histones, tels que les promoteurs de gènes actifs, réprimés ou bivalents (i.e. porteurs à la fois de marques actives et répressives de la transcription).
Des données de distribution sur le génome de marques d’histones acétylées, méthylées et lactylées ont déjà été pré-traitées. Elles sont donc prêtes à être modélisées par ChromHMM pour identifier des états chromatiniens. Les effets respectifs de ces états sur la transcription seront appréhendés par intégration avec des données d’expression de gènes. Nous nous inspirerons du travail de Galle et al. sur la lactylation de la lysine 18 de l’histone H3 (H3K18lac), qui représente un rare exemple d’utilisation de ChromHMM sur des données de lactylation d’histone. Ainsi, nous commencerons par positionner nos données originales de lactylations par rapport à deux marques actives (lysine 27 de l’histone H3 acétylée, H3K27ac, et lysine 4 de l’histone H3 triméthylée, H3K4me3), aux promoteurs de gènes et aux régions régulatrices distantes [2]. Dans un deuxième temps, nous incrémenterons le nombre de marques d’histones considérées pour affiner la définition d’états chromatiniens. Enfin, l’intérêt d’autres outils plus récents que ChromHMM sera appréhendé.
Références
[1]] Ernst, J.; Kellis, M. Chromatin-State Discovery and Genome Annotation with ChromHMM. Nat. Protoc. 2017, 12 (12), 2478–2492. https://doi.org/10.1038/nprot.2017.124.
[2] Galle, E.; Wong, C.-W.; Ghosh, A.; Desgeorges, T.; Melrose, K.; Hinte, L. C.; Castellano-Castillo, D.; Engl, M.; de Sousa, J. A.; Ruiz-Ojeda, F. J.; De Bock, K.; Ruiz, J. R.; von Meyenn, F. H3K18 Lactylation Marks Tissue-Specific Active Enhancers. Genome Biol. 2022, 23 (1), 207. https://doi.org/10.1186/s13059-022-02775-y.