Evaluation de LLM pour l’intégration CRE–expression–réseaux de régulation chez les plantes

Revenir à la liste des offres d'emplois

Stage · Stage M2 · 6 mois Bac+5 / Master DIADE - Diversité, adaptation, développement des plantes · Montpellier cedex 5 (France) Indemnité légale (~639 €/mois)

Date de prise de poste : 2 mars 2026

Mots-Clés

LLM Genomique GNN GRN Machine Learning TFBS CRE

Description

1.Contexte
Les éléments cis-régulateurs (CRE), courtes séquences d’ADN non codantes, interagissent avec les facteurs de transcription pour contrôler l’expression des gènes et généralement s’organisent en modules cis-régulateurs (CRM). Comprendre comment les CREs/CRMs contrôlent l’expression génique est un enjeu majeur pour la biologie végétale et la prédiction de phénotypes complexes. En 2025, un premier travail a permis d’évaluer plusieurs modèles de langage ADN (basés sur des LLM) pour la détection de TFBS/CREs dans les génomes d’Arabidopsis et du riz. Le stage 2026 propose d’aller plus loin : établir le lien entre CREs/CRMs, expression spatio-temporelle des gènes et structure des réseaux de régulation (GRN), en s’appuyant sur des modèles IA avancés.

2.Objectifs
Développer un pipeline reproductible permettant de prédire les associations CREs/CRMs→ expression chez Arabidopsis thaliana et Oryza sativa, et d’évaluer l’apport de différents modèles (ML classiques, LLM, GNN ) dans cette tâche. Le stage comprends plusieurs étapes:
- Construire un benchmark CREs→expression à partir de séries temporelles de données transcriptomiques sur le developpement racinaire du riz et d’Arabidopsis (Lavarenne et al. 2020).
- Annoter les CREs/CRMs, proximaux et distaux (enhancers), en mobilisant les ressources existantes telles que PlantRegMap, JASPAR, PLMDetect et les prédictions du travail de 2025.
- Tester plusieurs familles de modèles : baselines ML (LR, RF, XGBoost, MLP), embeddings de séquence issus de LLM ADN (AgroNT, BERT-TFBS, Evo2), modèles fine-tunés sur données végétales.
- Comparer les modèles pour prédire la spécificité tissulaire, la réponse au stress, ou les patrons spatio-temporels d’expression.
- Option avancée (selon profil et temps) : prototype d’intégration GRN + CRE via un GNN ou Graph Transformer.

3.Programme de travail
T1. Revue bibliographique et prise en main des jeux de données.
T2. Construction des jeux de données CRE/CRM - gène - expression.
T3. Benchmark ML et LLM : extraction d’embeddings, classification/régression, métriques.
T4. Fine-tuning ciblé de LLM pour tâches CRE-expression.
T5 (optionnel). Intégration du réseau de régulation : prototype GNN / Graph Transformer.
T6. Analyse, visualisation, rédaction du rapport et documentation du pipeline.

4.Compétences recherchées
-Très bonne maîtrise de Python, bases solides en machine learning / deep learning.
-Connaissances souhaitées : PyTorch, scikit-learn, Git, Linux, analyse de données.
-Intérêt pour la génomique, les séquences biologiques, les modèles de langage et/ou les graphes.

Candidature

Procédure : Envoyer un seul PDF (CV + lettre + relevé M1) à : firstname.lastname@ird.fr (Pierre Larmande) et (Mikael Lucas). Stage basé à l’IRD-Occitanie / UMD DIADE, Montpellier

Date limite : 21 janvier 2026

Contacts

PIERRE LARMANDE
piNOSPAMerre.larmande@ird.fr

Mikael Lucas
miNOSPAMkael.lucas@ird.fr

Offre publiée le 25 novembre 2025, affichage jusqu'au 21 janvier 2026