Traduction du site en cours

Le site de la SFBI est en cours de traduction en anglais.

Stage M2, Myo-GPT : Intégration de l’IA et des LLM pour l'étude des maladies musculaires rares

 Stage · Stage M2  · 6 mois    Bac+5 / Master   I-Stem · Corbeil-Essonnes (France)

Mots-Clés

LLM IA GPT maladies musculaires rares Base de données data science

Description

Projet Myo-GPT : Intégration de l’IA et des LLM pour l'étude des maladies musculaires rares

Durée du stage (Master2) : 6 mois

Né en 2005 sous l’impulsion de l’AFM-Téléthon et de l’INSERM, I-Stem est un centre de recherche et développement de référence internationale dédié à l’élaboration de traitements innovants en utilisant des cellules souches pluripotentes (ES et IPS) pour les maladies rares d’origine génétique.

La recherche médicale connait un tournant décisif avec l’intégration de l’intelligence artificielle et l’émergence des Modèles de Langage à grande échelle (LLM). Ces outils révolutionnaires ouvrent des perspectives inédites pour l’analyse et l’interprétation de données complexes. Dans cette dynamique d’innovation, I-Stem a choisi d’intégrer l’intelligence artificielle au sein de ses programmes de recherches. Le projet exploratoire Myo-GPT auquel vous participerez vise à mettre en place un modèle de langage naturel spécialisé dans les maladies musculaires. Le projet vise à construire une base de données de nature diverses, sélectionnées et validées par des scientifiques, puis à entraîner le modèle sur cette dernière. La preuve de principe se basera sur la mise en place de ce modèle sur une maladie unique, afin d’évaluer la faisabilité technique et méthodologique du projet, ainsi que sa pertinence en termes d’exploitation. Myo-GPT vise non seulement à simplifier l'accès et l'analyse de vastes ensembles de données hétérogènes, mais aussi à soutenir les scientifiques dans leurs décisions et à stimuler l'émergence de nouvelles hypothèses de recherche.

Au sein d’une task force exploratoire centralisée sur le sujet de l’intelligence artificielle, vous collaborerez étroitement avec le responsable de plateforme Imagerie ainsi que deux bio-informaticiens.

Vos missions :

  • Prétraitement des données : Extraction des informations pertinentes à partir de données publiques et privées et construire une base de données

  • Etat de l’art des modèles LLM : Identification d’un LLM parmi les plus performants en étudiant leur performance.

  • Implémentation du modèle : Mettre en place le modèle sur les données collectées, le tester et l’optimiser.

Profil recherché :

  • Etudiant en d’école d’ingénieur ou en M2 spécialisé en Intelligence artificielle, data science ou bioinformatique.

  • Vous êtes à l’aise avec les langages de programmation Bash et Python (la connaissance des suites TensorFlow, PyTorch ou LangChain est un plus).

  • Vous êtes capable de programmer en utilisant des méthodes reproductibles et standardisées (Versionning : Git, Github). Des connaissances en outils de conteneurisations seraient appreciées (Singularity, docker, ..) .

  • Vous avez de solides connaissances en gestion et manipulation de grands jeux données ainsi que la Création & Gestion de base de données (SQL et vectorielle) d’origines diverses (images, data numériques, texte)

 

Vous possédez un bon sens de la communication et un bon relationnel, vous êtes autonome, impliqué et dynamique.

Candidature

Procédure : Contacter par courriel à Jérôme Polentes à l'adresse jpolentes@istem.fr

Date limite : 1 mars 2024

Contacts

 Jérôme Polentes

 jpNOSPAMolentes@istem.fr

Offre publiée le 21 décembre 2023, affichage jusqu'au 1 mars 2024