Maintenance

Une opération de maintenance aura lieu sur le site de la SFBI le 31 octobre 2025. Cette opération pourra entraîner une interruption de service.

Stage M2 / 5A ingénieur : Impact of pangenome variants on Resource balance analysis (RBA)

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Unité de Mathématiques et Informatique Appliquées de Toulouse · Auzeville-Tolosane (France)

Mots-Clés

Resource balance analysis (RBA) pangenome gene variations

Description

Stage M2 ou 3A Ingénieur en bioinformatique.
Durée : 5 à 6 mois, débutant entre janvier et avril 2026.

Contexte

L’agriculture mondiale est aujourd’hui confrontée à des défis majeurs (changement climatique, croissance démographique et multiplication des pressions biotiques et abiotiques) et nécessite de sélectionner des variétés végétales plus résistantes et mieux adaptées à des conditions environnementales changeantes. Cette problématique nécessite de mieux comprendre (voire de prédire) l’impact de variations génétiques sur le phénotype de la plante. Jusqu’à présent, l’étude des liens entre génotype et phénotype est traditionnellement faite par des approches statistiques de génétique d’association et intègrent peu les récentes avancées :

  • en pangénomique i.e un graphe contenant l’intégralité des variations génétiques au sein d’un groupe de génotypes d’une même espèce,
  • en modélisation systémique (i.e. Modélisation sous contraintes) où les liens connus entre génotype et phénotype sont explicitement pris en compte (Goelzer et al. 2024).

Objectifs du stage

L’objectif du stage est de déterminer s’il est possible de prédire un changement dans la dynamique du réseau moléculaire (phénotype) d’une plante depuis la diversité génétique (à travers un graphe de pangénome), soit une approche « de bout en bout » du variant génétique au comportement cellulaire. Il n’existe pas à ce jour de pipeline tentant d’aller directement de diversité génétique à variation phénotypique prédite via réseau. Le pipeline envisagé serait le suivant :

  1. Exploiter un graphe de pangénome annoté
  2. Détécter des variations génétiques, notamment structurales et/ou de motifs de régions régulatrices de l’ADN ou du nombre de copies de gènes
    3.Prédire leur impact sur la spécificité de l’accrochage du régulateur sur la région régulatrice (modèle d’énergie basé sur séquence) et par extension sur la variation de l’expression du gène (en tenant compte autant que possible du nombre de copies de gènes)
  3. Evaluer l’impact de la variation d’expression du (ou des gènes) sur le phénotype cellulaire via l’utilisation de modèles RBA (réseaux cellulaires)

La faisabilité de cette approche sera évaluée sur la plante modèle Arabidopsis thaliana, plante pour laquelle (i) les encadrants du stage possèdent une expertise importante, et (ii) un modèle systémique existe (Goelzer et al. 2024) et a montré de bonnes capacités de prédiction de phénotypes cellulaires pour Arabidopsis. Les points 1 et 2 seront faits sur la base d’outils existants (dans l’axe BioComp du MIAT et la littérature). La partie exploratoire sur laquelle se centrera le stage stage se centrera précisément sur l’évaluation des points 3 et 4.

Plus précisément vous aurez en charge de :

  • Mener une étude bibliographique sur les modèles passant de la séquence des gènes et éléments régulateurs à une différence d’énergie de liaison, ou directement à une une différence d’expression du gène (e.g. en utilisant les framework du type FamilyCode (Liu et al, 2025) ou la
    librairie R rCLAMPs (Wetzel et al, 2022)).
  • Les moyens de traduire ces variations d’expression de gène sur les modèles systémiques (e.g. Tong et al. 2020, Sarkar et al. 2020)

Sur la base de l’analyse bibliographique, traduire cette différence en une sur ou sous-expression du ou des gènes associés : si la littérature est peu adaptée, nous développerons un modèle simple et exploratoire. Par exemple, sur la base de Tong et al. 2020, Sarkar et al. 2020, cela consisterait à trouver une solution pour passer de l’énergie à l’activité à un niveau d’expression. Évaluer l’impact de cette expression différentielle sur un critère d’intérêt (comme la croissance cellulaire) grâce au modèle systémique (Goelzer et al. 2024) et en utilisant les logiciels RBApy/RBAtool (cf. https://github.com/SysBioInra ; Bulovic et al. 2019 ; Bodeit et al. 2023).

Livrables attendus du stage :

– Sur la base de ces données, une bibliographie et un test des modèles existants et permettant de passer des variations génétiques à une variation en terme de variation de l’énergie de liaison aux protéines régulatrices, et/ou en une modulation de variable
d’expression (cœur du stage).
– L’intégration de cette modulation dans les modèles RBA existant, gène par gène, afin de le rendre modulable selon l’accession considéré (cœur du stage).
– Selon avancement, un premier prototype de pipeline intégrant ces opérations pour une approche « de bout en bout » dédiée à l’évaluation des variations structurales sur le phénotype cellulaire.

Compétences recherchées

  • Ingénieur agronome ou équivalent, master de bioinformatique, ayant suivi des cours ou avec une expérience en biologie des systèmes, et/ou machine learning.
  • Maîtrise de Python indispensable.
  • Des connaissances en génétique ou biologie végétale seront appréciées.
  • Intérêt pour les contextes multidisciplinaires et appliqués.
  • Autonomie et capacité de travail en équipe, de rédaction, de synthèse.

Encadrement

Le stage sera encadré par Anne Goelzer et Benjamin Linard (MIAT, INRAE, Toulouse), spécialisés dans le développement de méthodes pour les pangénomes et les modèles de réseaux, et Olivier Loudet (IJPB, INRAE) spécialisé en biologie végétale et génétique quantitative. Le ou la stagiaire sera hébergé.e au sein de l’unité MIAT (Mathématique et Informatique Appliqués de Toulouse), à l’INRAE Occitanie-Toulouse (24, Chemin de Borde Rouge 31320 Auzeville-Tolosane).

References

Bodeit O, Ben Samir, I., Karr, J. R., Goelzer, A., & Liebermeister, W. (2023). RBAtools: a programming interface for Resource
Balance Analysis models. Bioinformatics Advances, 3(1), vbad056. https://doi.org/10.1093/bioadv/vbad056
Bulović, A., Fischer, S., Dinh, M., Golib, F., Liebermeister, W., Poirier, C., … & Goelzer, A. (2019). Automated generation of
bacterial resource allocation models. Metabolic engineering, 55, 12-22. https://doi.org/10.1016/j.ymben.2019.06.001
Goelzer, A., Rajjou, L., Chardon, F., Loudet, O., & Fromion, V. (2024). Resource allocation modeling for autonomous prediction of
plant cell phenotypes. Metabolic Engineering, 83, 86-101. https://doi.org/10.1016/j.ymben.2024.03.009
Liu et al. Predicting the DNA binding specificity of transcription factor mutants using family-level biophysically interpretable machine
learning. Nucleic Acids Research, Volume 53, Issue 16, 9 September 2025, gkaf831 https://doi.org/10.1101/2024.01.24.577115
Sarkar, D., & Maranas, C. D. (2020). SNPeffect: identifying functional roles of SNPs using metabolic networks. The Plant Journal,
103(2), 512-531. https://doi.org/10.1111/tpj.14746
Tong, H., Küken, A., Razaghi-Moghadam, Z., & Nikoloski, Z. (2021). Characterization of effects of genetic variants via genome-
scale metabolic modelling. Cellular and Molecular Life Sciences, 78(12), 5123-5138. https://doi.org/10.1007/s00018-021-03844-4
Wetzel, J. L., Zhang, K., & Singh, M. (2022). Learning probabilistic protein–DNA recognition codes from DNA-binding specificities
using structural mappings. Genome Research, 32(9), 1776-1786. https://doi.org/10.1101/gr.276606.122.

Candidature

Procédure : Envoyer un email avec motivation + CV.

Date limite : 31 décembre 2025

Contacts

 Anne Goelzer
 anNOSPAMne.goelzer@inrae.fr

 Benjamin Linard
 beNOSPAMnjamin.linard@inrae.fr

Offre publiée le 27 octobre 2025, affichage jusqu'au 31 décembre 2025