Stage "NLP / informatique médicale"

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Inserm Sorbonne Université - Centre de Recherche en Myologie · Paris 13 (France)  gratification stage M2

 Date de prise de poste : 1 janvier 2026

Mots-Clés

Systematic literature review, rare disease treatment treatabolome NLP RAG

Description

Laboratoire d’Accueil : Centre de recherche en Myologie UMRS974 Inserm- Sorbonne Université
Equipe d’accueil : Recherche translationnelle sur la matrice extracellulaire et le noyau du muscle - TREASURE

Titre du Projet : Développement d’un outil d’intelligence artificielle pour l’extraction automatisée des données sur les traitements spécifiques aux maladies rares à destination de la base de données Treatabolome.

Projet : Les maladies rares constituent un enjeu majeur en santé publique en Europe, touchant collectivement plus de 30 millions de personnes. Des traitements existent pour certaines maladies rares, cependant, malgré l’existence de nombreuses données thérapeutiques, celles-ci restent fragmentées dans des publications scientifiques dispersées et restent peu accessibles.
Aussi, pour limiter les délais d’accès aux traitements pour les patients atteints de maladies rares, dans le cadre du projet européen Solve-RD, nous avons créé le Treatabolome, une base de données et un portail web permettant d’interroger, au moment du diagnostic moléculaire, les traitements disponibles au niveau des gènes/variants (https://treatabolome.org/#/). Cette base de données est actuellement alimentée via des revues systématiques de la littérature (SLR) des traitements existants des maladies rares. Nous avons établi un guide pour la rédaction de ces SLR afin de générer des ensembles de données FAIR conformes à notre base Treatabolome (Atalaia et al. 2020). Cependant ces SLR sont extrêmement chronophages et il est nécessaire de développer une solution automatisée via l’intelligence artificielle (IA), combinant le traitement automatique du langage naturel (NLP) et la génération augmentée par extraction (RAG), répondant précisément à la nécessité d’améliorer l’accès rapide, précis et évolutif à ces données thérapeutiques.
L’objectif du projet est donc d’automatiser efficacement l’extraction et la validation de données thérapeutiques spécifiques aux maladies rares issues de la littérature scientifique pour leur intégration rapide et fiable dans la base de données Treatabolome, grâce à une méthodologie NLP avancée, de renforcer la précision des données extraites par l’utilisation de modèles RAG, de concevoir une plateforme facilitant leur validation par des experts, et enfin, d’assurer leur intégration conforme aux principes FAIR dans la base Treatabolome pour faciliter l’accès des professionnels de santé.
Le projet se structurera autour de la collecte initiale et de la préparation d’un corpus représentatif d’articles scientifiques traitant des traitements spécifiques aux maladies rares, avec 1) le développement et l’évaluation du pipeline NLP, incluant les techniques de reconnaissance d’entités nommées (NER) et d’extraction relationnelle, 2) l’intégration et l’évaluation de modèles RAG pour affiner l’extraction des données contextuelles et 3) l’élaboration d’une interface intuitive de curation, permettant aux experts de vérifier et de valider les données extraites avant leur intégration dans la base Treatabolome.

Ce projet s’inscrit dans le cadre du projet Européen ERDERA (https://erdera.org/) pour lequel l’équipe d’accueil est en charge du développement de la base de données Treatabolome, en étroite interaction avec des équipes européennes, expertes en intelligence artificielle, traitement automatique du langage naturel, bioinformatique et maladies rares.

Publications encadrants :
-Atalaia A, Thompson R, Corvo A, Carmody L, Piscia D, Matalonga L, Macaya A, Lochmuller A, Fontaine B, Zurek B, Hernandez-Ferrer C, Rheinard C, Gómez-Andrés D, Desaphy JF, Schon K, Lohmann K, Jennings MJ, Synofzik M, Riess O, Ben Yaou R, Evangelista T, Ratnaike T, Bros-Facer V, Gumus G, Horvath R, Chinnery P, Laurie S, Graessner H, Robinson P, Lochmuller H, Beltran S, Bonne G. A guide to writing systematic reviews of rare disease treatments to generate FAIR-compliant datasets: building a Treatabolome. Orphanet J Rare Dis. 2020 Aug 12;15(1):206. doi: 10.1186/s13023-020-01493-7.
- Bonne G. The Treatabolome, an emerging concept. J Neuromuscul Dis. 2021;8(3):337-339. doi: 10.3233/JND-219003.
- Atalaia A, Ben Yaou R, Wahbi K, De Sandre-Giovannoli A, Vigouroux C, Bonne G. Laminopathies’ treatments systematic review: a contribution towards a ‘treatabolome’. J Neuromuscul Dis. 2021;8(3):419-439. doi: 10.3233/JND-200596.
- Ben Yaou R, Yun P, Dabaj I, Norato G, Donkervoort S, Xiong H, Nascimento A,Maggi L, Sarkozy A, Monges S, Bertoli M, Komaki H, Mayer M, Mercuri E, Zanoteli E, Castiglioni C, Marini-Bettolo C, D’Amico A, Deconinck N, Desguerre I, Erazo- Torricelli R, Gurgel-Giannetti J, Ishiyama A, Kleinsteuber K, Lagrue E, Laugel V, Mercier S, Messina S, Politano L, Ryan M, Sabouraud P, Schara U, Siciliano G,Vercelli L, Voit T, Yoon G, Alvarez R, Muntoni F, Pierson TM, Gómez-Andrés D, Foley AR, Quijano-Roy S£, Bönnemann CG£, Bonne G£. International Retrospective Natural History Study of LMNA-related Congenital Muscular Dystrophy Brain Commun. 2021 Apr 11;3(3):fcab075. doi: 10.1093/braincomms/fcab075. eCollection 2021 Jul.. £, co-last authors
-Hathazi D, Cox D, D’Amico A, Tasca G, Charlton R, Carlier RY, Baumann J, Kollipara L, Zahedi RP, Feldmann I, Deleuze JF, Torella A, Cohn R, Robinson E, Ricci F, Jungbluth H, Fattori F, Boland A, O’Connor E, Horvath R, Barresi R, Lochmüller H, Urtizberea A, Jacquemont ML, Nelson I, Swan L, Bonne G#, Roos A#. INPP5K and SIL1 associated pathologies with overlapping clinical phenotypes converge through dysregulation of PHGDH. Brain. 2021 Sep 4;144(8):2427-2442. doi: 10.1093/brain/awab133. #, co-last authors.

Candidature

Procédure : Envoyer un mail à Gisèle Bonne et/ou Antonio Atalaia

Date limite : 30 novembre 2025

Contacts

 Gisele BONNE
 giNOSPAMsele.bonne@inserm.fr

 Gisele BONNE
 giNOSPAMsele.bonne@inserm.fr

Offre publiée le 20 octobre 2025, affichage jusqu'au 30 novembre 2025