Développement d’une base de connaissances pour des graphes de variations pangénomiques

 Stage · Stage M2  · 6 mois    Bac+5 / Master   UMR AGAP Institut - Cirad · Montpellier (France)  Indemnité légale (~ 640 €/mois)

 Date de prise de poste : 2 février 2026

Mots-Clés

graphes de pangénomes graphes de connaissances API LLM

Description

Contexte

Ce stage s’inscrit dans le cadre d’une thèse en bioinformatique [1] portant sur l’étude des mécanismes de pathogénie [2] du champignon Ganoderma, responsable de la pourriture basale du stipe (Basal Stem Rot) du palmier à huile par une approche pangénomique et transcriptomique [3] comparative d’isolats africains et asiatiques.
Le projet vise à intégrer et exploiter des données complexes (génomiques et transcriptomiques) au sein d’une base de connaissances de type graphe et à développer des outils de requêtes avancées, des outils de visualisation et des outils d’intelligence artificielle, afin de faciliter l’exploration de ces données.

Objectifs du stage

Les objectifs du stage sont :

  1. Optimiser une base de connaissances de type graphe (Neo4j) [4,5] pour intégrer des données génomiques et transcriptomiques, en utilisant des requêtes Cypher complexes.
  2. Développer une API REST pour exposer les fonctionnalités de la base Neo4j, permettant une interrogation sécurisée et flexible des données.
  3. Créer une interface d’interrogation intuitive, incluant un ChatBot basé sur un modèle de langage naturel (LLM) [6,7] pour simplifier l’accès aux données.
  4. Explorer des solutions d’IA [8] pour enrichir et automatiser l’analyse des données, comme le fine-tuning de modèles de langage ou la génération de requêtes Cypher à partir de questions en langage naturel.

Missions détaillées

Les missions pourront être redéfinies ou approfondies selon les compétences et les aspirations du stagiaire.

  1. Intégration de données : Ajouter des couches de données (alignements génomiques, réseaux de régulation de gènes) au graphe existant, en optimisant le schéma pour des requêtes performantes.
  2. Développement de requêtes complexes : Créer des requêtes Cypher pour répondre à des questions spécifiques, comme l’identification de gènes candidats en fonction de critères multidimensionnels.
  3. Conception et développement d’une API REST : Définir et implémenter des endpoints pour interroger et manipuler les données du graphe (ex: recherche de gènes, exploration de réseaux de régulation).
  4. Création d’une interface utilisateur : Développer une interface web (idéalement avec un ChatBot) pour faciliter l’interrogation de la base de connaissances, en s’appuyant sur l’API REST.
  5. Exploration de solutions d’IA : Étudier comment des modèles de langage (LLM) peuvent être adaptés pour générer des requêtes Cypher ou analyser les données du graphe. Cela inclut le fine-tuning de modèles existants et la création de pipelines d’entraînement.

Environnement de travail

A son arrivée, le stagiaire disposera de différents jeux de test de l’équipe Génome et sélection des pérennes (GSP) et d’un environnement de développement logiciel au sein du plateau de bioinformatique. Les développements se feront en collaboration avec des spécialistes des pangénomes, du développement logiciel et de l’intelligence artificielle.

Contribution à différents livrables

  • Une base de connaissances Neo4j optimisée, enrichie de nouvelles couches de données.
  • Une API REST fonctionnelle, documentée et sécurisée, permettant d’interagir avec la base Neo4j.
  • Un ensemble de requêtes Cypher complexes, documentées et testées.
  • Une interface web (ou prototype de ChatBot) pour interroger la base de connaissances, intégrant l’API REST.
  • Une boîte à outils pour l’intégration de l’IA, incluant des scripts pour le fine-tuning de modèles de langage et des pipelines d’entraînement.

Compétences recherchées

  • Compétences en bases de données (la connaissance de Neo4j et du langage de requête Cypher serait un plus).
  • Compétences en développement backend (Java ou Python, API REST).
  • Compétences en développement frontend (javascript).
  • Connaissances en IA (Machine Learning, LLM, ChatBot).
  • Autonomie, rigueur et curiosité pour les projets innovants en recherche scientifique.
  • Aucune connaissance en biologie n’est requise, mais un intérêt pour l’application de l’informatique à des problématiques scientifiques est un plus.

Conditions

Note importante : nous sommes prêts à considérer un niveau autre que Master, comme par exemple un.e étudiant.e en IUT, selon son affinité avec le développement. Le stage peut-être prolongé selon les possibilités.
Le stage se déroulera à Montpellier, sur le site du CIRAD Lavalette. Un encadrement technique et scientifique sera assuré tout au long du stage, avec des points d’avancement réguliers. Selon l’organisation du travail et les préférences du/de la stagiaire, un télétravail partiel pourra être envisagé.
Les dates de prise de fonction sont modulables selon votre formation et vos dates de stage programmées.

Références

[1] Gomes M, Thèse sur la pangénomique et transcriptomique d’un champignon phytopathogène. https://www.sfbi.fr/emplois/offre/202409110512-cdd-pangenomique-et-transcriptomique-dun-champignon-phytopathogene
[2] Bazin A, et al. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. Bioinformatics. 2020;36: i651–i658. https://doi.org/10.1093/bioinformatics/btaa792
[3] Machine learning methods for gene regulatory network inference. https://doi.org/10.1093/bib/bbaf470
[4] Development of a knowledge graph framework to ease and empower translational approaches in plant research: a use-case on grain legumes. https://doi.org/10.3389/frai.2023.1191122
[5] Integrating Complex Pangenome Graphs. https://ieeexplore.ieee.org/document/10555072
[6] A Platform for the Biomedical Application of Large Language Models. https://doi.org/10.1038/s41587-024-02534-3
[7] Text2Cypher: Bridging Natural Language and Graph Databases.
https://arxiv.org/html/2412.10064v1
[8] SeedLLM⋅Rice: A large language model integrated with rice biological knowledge graph. https://doi.org/10.1016/j.molp.2025.05.013

Candidature

Procédure : Envoyer un seul PDF (CV + lettre de motivation + relevé M1) aux contacts.

Date limite : 18 janvier 2026

Contacts

 Michel Gomes
 miNOSPAMchel.gomes@cirad.fr

 Stéphanie Bocs
 stNOSPAMephanie.sidibe-bocs@cirad.fr

 Stéphanie Bocs
 stNOSPAMephanie.sidibe-bocs@cirad.fr

Offre publiée le 3 décembre 2025, affichage jusqu'au 3 mai 2026