Mots-Clés
LLM
Genomique
GNN
GRN
Machine Learning
TFBS
CRE
Description
1.Contexte
Les éléments cis-régulateurs (CRE), courtes séquences d’ADN non codantes, interagissent avec les facteurs de transcription pour contrôler l’expression des gènes et généralement s’organisent en modules cis-régulateurs (CRM). Comprendre comment les CREs/CRMs contrôlent l’expression génique est un enjeu majeur pour la biologie végétale et la prédiction de phénotypes complexes. En 2025, un premier travail a permis d’évaluer plusieurs modèles de langage ADN (basés sur des LLM) pour la détection de TFBS/CREs dans les génomes d’Arabidopsis et du riz. Le stage 2026 propose d’aller plus loin : établir le lien entre CREs/CRMs, expression spatio-temporelle des gènes et structure des réseaux de régulation (GRN), en s’appuyant sur des modèles IA avancés.
2.Objectifs
Développer un pipeline reproductible permettant de prédire les associations CREs/CRMs→ expression chez Arabidopsis thaliana et Oryza sativa, et d’évaluer l’apport de différents modèles (ML classiques, LLM, GNN ) dans cette tâche. Le stage comprends plusieurs étapes:
- Construire un benchmark CREs→expression à partir de séries temporelles de données transcriptomiques sur le developpement racinaire du riz et d’Arabidopsis (Lavarenne et al. 2020).
- Annoter les CREs/CRMs, proximaux et distaux (enhancers), en mobilisant les ressources existantes telles que PlantRegMap, JASPAR, PLMDetect et les prédictions du travail de 2025.
- Tester plusieurs familles de modèles : baselines ML (LR, RF, XGBoost, MLP), embeddings de séquence issus de LLM ADN (AgroNT, BERT-TFBS, Evo2), modèles fine-tunés sur données végétales.
- Comparer les modèles pour prédire la spécificité tissulaire, la réponse au stress, ou les patrons spatio-temporels d’expression.
- Option avancée (selon profil et temps) : prototype d’intégration GRN + CRE via un GNN ou Graph Transformer.
3.Programme de travail
T1. Revue bibliographique et prise en main des jeux de données.
T2. Construction des jeux de données CRE/CRM - gène - expression.
T3. Benchmark ML et LLM : extraction d’embeddings, classification/régression, métriques.
T4. Fine-tuning ciblé de LLM pour tâches CRE-expression.
T5 (optionnel). Intégration du réseau de régulation : prototype GNN / Graph Transformer.
T6. Analyse, visualisation, rédaction du rapport et documentation du pipeline.
4.Compétences recherchées
-Très bonne maîtrise de Python, bases solides en machine learning / deep learning.
-Connaissances souhaitées : PyTorch, scikit-learn, Git, Linux, analyse de données.
-Intérêt pour la génomique, les séquences biologiques, les modèles de langage et/ou les graphes.