Revenir à la liste des offres d'emplois Modèles d'Intelligence Artificielle pour la génération de séquences de protéines Stage · Stage M2 · 6 mois Bac+5 / Master Laboratoire Biosciences et bioingénierie pour la santé - IRIG - CEA Grenoble · Grenoble (France) Date de prise de poste : 7 janvier 2026 Mots-Clés Intelligence Artificielle Deep Learning LLMs Génomique Fonctionnelle Protéines Thérapeutiques Description Description Les avancées en technologies de synthèse d’oligonucléotides, de phénotypage haut débit et de séquençage profond ont permis des progrès majeurs dans le criblage des variations génétiques porteuses d’impacts phénotypiques. Ces approches permettent de concevoir des protéines aux fonctionnalités spécifiques qui sont essentielles en médecine de précision, notamment pour le développement d’anticorps monoclonaux, de capsides virales modifiées ou de nanosystèmes peptidiques. Bien que la quantité de données générées par ces approches soit massive, les banques de variants testables expérimentalement ne représentent néanmoins qu’une fraction minime de l’ensemble des variations génétiques possibles. Il est par conséquent crucial de pouvoir développer des modèles d’intelligence artificielle (IA) prédictifs capables d’extrapoler la fonctionnalité des variants à partir de banques existantes de mutants. Le défi principal réside dans l’entraînement efficace de ces modèles d’IA à partir des données de criblage pour la conception de protéines thérapeutiques. Programme de travail Le/la stagiaire travaillera sur les tâches suivantes : Une revue de la littérature sur l’utilisation des modèles IA en génomique fonctionnelle, en particulier pour l’embedding des séquences d’acides aminés avec de grand modèles de language (LLMs). Une recherche sur les LLMs pré-entraînés disponibles et leurs spécificités pour les représentations vectorielles de séquences La mise au point d’un plan d’utilisation des LLMs sur des jeux de données La mise en œuvre du plan et l’évaluation des résultats Objectifs Développer une familiarité avec les concepts du Deep Learning et leurs applications en génomique fonctionnelle Acquérir une expérience pratique avec Julia ou Python et leurs frameworks de deep learning (Flux, PyTorch, Keras) Identifier et sélectionner les outils les plus performants pour l’analyse de séquences protéiques - Mettre en œuvre des modèles d’apprentissage pour l’identification et la prédiction de fonctionnalités protéiques Compétences recherchées Bonnes connaissances en programmation Julia ou Python Connaissances de base en biologie moléculaire Curiosité et volonté d’apprendre dans un domaine interdisciplinaire en évolution Familiarité avec les concepts du Deep Learning et de l’IA Générative Candidature Procédure : Envoyer un mail à guido.uguzzoni@cea.fr Date limite : 30 novembre 2025 Contacts Guido Uguzzoni guNOSPAMido.uguzzoni@gmail.com Offre publiée le 18 septembre 2025, affichage jusqu'au 30 novembre 2025