Stage M2 Bioinformatique

 Stage · Stage M2  · 6 mois    Bac+5 / Master   BIAM · Saint-Paul-lez-Durance (France)  1300

 Date de prise de poste : 1 octobre 2025

Mots-Clés

Deep-Learning LLM pLM Protein annotation

Description

Résumé du projet

Comme d’autres domaines, la bioinformatique a beaucoup bénéficié des dernières avancées en Intelligence Artificielle. Plusieurs études ont ainsi été menées [1,2] sur l’utilisation de modèles de type Transformer [3] pour la génération d’embeddings de séquences. Ces embeddings sont maintenant largement utilisés dans la communauté bioinformatique pour développer de nombreux outils: prédiction de segments transmembranaires [4], de structures de protéines [5], etc. Les embeddings de séquences, bien que riches en informations, peuvent être difficiles à manipuler du fait de leur grande dimensionnalité.
Quelques études se sont intéressées à l’utilisation d’embeddings de domaines protéiques [6,7]. Un embedding de domaines d’une protéine repose sur son architecture en domaines construite à partir d’annotations de séquence (domaines PFAM ou InterPro, régions désordonnées, …). L’avantage des embeddings de domaines comparés à ceux de séquences est leur faible complexité (moins de dimensions, vecteur de plus petites tailles). Cependant il n’existe aucune étude sur la qualité des embeddings de domaines ou sur une comparaison entre embeddings de domaines et de séquences.
Ce projet a donc pour objectif de combler ce gap en mettant en place un benchmark sur une idée similaire aux benchmarks FLIP et TAPE [8,9]. Ce benchmark sera construit de manière à évaluer la qualité des embeddings de domaines au regard de différentes problématiques biologiques, le but étant d’évaluer le type d’information (structurelle, biochimique, …) contenu dans les embeddings de domaine. Il est aussi envisagé de comparer ces derniers aux embeddings de séquences.

Objectifs

La durée du stage est de 6 mois avec un démarrage début janvier 2026 et les objectifs du projet sont les suivants :

  • Entraînements de modèles pour la génération d’\textit{embeddings} de domaines. Le/la stagiaire ré-entraînera sur des données récentes des modèles pré-existants et pourra être amené.e à designer de nouveaux modèles.
  • Design du benchmark. Cela consistera en la recherche de tâches d’évaluation biologiquement pertinentes, sur des jeux de données pré-existants ou non.
  • Application du benchmark, seulement sur des embeddings de domaines et sur un mix embeddings de domaines/embeddings de séquences.

Profil recherché

Le profil recherché correspond à un.e étudiant.e en deuxième année de Master Bioinformatique. De bonnes connaissance en programmation sont demandées, notamment en Python. Des expériences sur des projets de Machine/Deep Learning et/ou un intérêt pour ces domaines seraient fortement appréciées. Le connaissance d’outils d’annotation de protéines (InterproScan, DeepTMHMM, …) serait un plus.
L’étudiant.e rejoindrait le BIAM, institut de Biosciences et biotechnologies d’Aix-Marseille associé au CEA de Cadarache, au sein de l’équipe BEAMM. L’étudiant.e sera encadré.e par un chercheur ainsi qu’un doctorant en 3ème année.

[1] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning, bioRXiv, DOI: 10.1101/2020.07.12.199554

[2] ProstT5: Bilingual Language Model for Protein Sequence and Structure, bioRXiv, DOI: 10.1101/2023.07.23.550085

[3] Attention is All you Need, Advances in Neural Information Processing Systems, DOI: 10.5555/3295222.3295349

[4] DeepTMHMM predicts alpha and beta transmembrane proteins using deep neural networks, bioRXiv, https://doi.org/10.1101/2022.04.08.487609

[5] Simulating 500 million years of evolution with a language model, Science, DOI: 10.1126/science.ads0018

[6] Capturing Protein Domain Structure and Function Using Self-Supervision on Domain Architectures, Algorithms, DOI: 10.3390/a14010028

[7] Learning a functional grammar of protein domains using natural language word embedding techniques, PROTEINS, https://doi.org//10.1002/prot.25842

[8] FLIP: Benchmark tasks in fitness landscape inference for proteins, BioRXiv, https://doi.org/10.1101/2021.11.09.467890

[9] Evaluating Protein Transfer Learning with TAPE, arXiv, https://doi.org/10.48550/arXiv.1906.08230

Candidature

Procédure : Pour toutes candidatures, envoyer un mail à philippe.ortet@cea.fr et louison.silly@cea.fr détaillant vos motivations. Veuillez joindre un CV à votre candidature

Date limite : 30 novembre 2025

Contacts

 Philippe Ortet
 phNOSPAMilippe.ortet@cea.fr

 Louison Silly
 loNOSPAMuison.silly@cea.fr

Offre publiée le 13 octobre 2025, affichage jusqu'au 30 novembre 2025