Mots-Clés
LLM
plantes
éléments cis-régulateurs
plastes
Description
Les approches utilisant les grands modèles de langage (LLM) sont en train de révolutionner les
analyses génomiques (Karollus et al., 2024; Nguyen et al., 2024) pour l’annotation structurale,
fonctionnelle et bien plus. Cependant, il n’est pas sûr que les modèles déjà entrainés soient
directement applicables à nos modèles biologiques. Néanmoins, les LLM produits par ces études
constituent des modèles de fondation qui peuvent être ajustés (fine-tuning) à nos questions.
Dans ce projet, nous proposons de tester l’utilisation de ces LLM pour l’étude des génomes du plaste.
Ce sont de petits génomes (50kb à 300kb codant pour une centaine de gènes) présents dans les
plastes de tous les organismes photosynthétiques (des algues aux plantes terrestres) qui dérivent
d’ancêtres procaryotiques. Plusieurs dizaines de milliers de génomes sont disponibles dans les
bases de données publiques. Leur expression est régulée à plusieurs niveaux transcriptionnels et
post-transcriptionnels principalement par des protéines codées dans le noyau et venant se fixer à
l’ADN ou aux ARN. Paradoxalement, alors que les régulateurs sont relativement bien identifiés
(ils appartiennent à quelques familles de gènes), leurs sites de fixation (ie séquences régulatrices)
sont relativement peu connus même si nous disposons de nombreux exemples qui constituent un bon set
d’entrainement pour l’ajustement des LLM. Ce système biologique semble donc très adapté à
l’utilisation des LLM pour l’identification de séquences régulatrices.
Dans ce projet, vous allez
(i) tester l’approche développée par Karollus et al. (2024) pour la recherche
de séquences régulatrices dans les séquences 5’ (promoteur + UTR) et 3’ des gènes de champignons
en utilisant l’architecture DNABert.
(ii) utiliser les approches décrites par Karollus et al. (2024) pour identifier de novo les séquences
régulatrices.
(iii) comparer les performances à celles de la méthode PLMDetect qui a prouvé son efficacité dans la
détection de motifs régulateurs dans les mitochondries (Tran et al., 2023) ou dans le génome
nucléaire (Rozière et al., 2022).
Compte tenu de l’extrême dynamisme du domaine (par exemple Zhai et al., 2024), si d’autres
modèles plus pertinents sont publiés d’ici là, vous les utiliserez à la place de ceux mentionnés cidessus.