Mots-Clés
Deep-Learning
LLM
pLM
Protein annotation
Description
Résumé du projet
Comme d’autres domaines, la bioinformatique a beaucoup bénéficié des dernières avancées en Intelligence Artificielle. Plusieurs études ont ainsi été menées [1,2] sur l’utilisation de modèles de type Transformer [3] pour la génération d’embeddings de séquences. Ces embeddings sont maintenant largement utilisés dans la communauté bioinformatique pour développer de nombreux outils: prédiction de segments transmembranaires [4], de structures de protéines [5], etc. Les embeddings de séquences, bien que riches en informations, peuvent être difficiles à manipuler du fait de leur grande dimensionnalité.
Quelques études se sont intéressées à l’utilisation d’embeddings de domaines protéiques [6,7]. Un embedding de domaines d’une protéine repose sur son architecture en domaines construite à partir d’annotations de séquence (domaines PFAM ou InterPro, régions désordonnées, …). L’avantage des embeddings de domaines comparés à ceux de séquences est leur faible complexité (moins de dimensions, vecteur de plus petites tailles). Cependant il n’existe aucune étude sur la qualité des embeddings de domaines ou sur une comparaison entre embeddings de domaines et de séquences.
Ce projet a donc pour objectif de combler ce gap en mettant en place un benchmark sur une idée similaire aux benchmarks FLIP et TAPE [8,9]. Ce benchmark sera construit de manière à évaluer la qualité des embeddings de domaines au regard de différentes problématiques biologiques, le but étant d’évaluer le type d’information (structurelle, biochimique, …) contenu dans les embeddings de domaine. Il est aussi envisagé de comparer ces derniers aux embeddings de séquences.
Objectifs
La durée du stage est de 6 mois avec un démarrage début janvier 2026 et les objectifs du projet sont les suivants :
- Entraînements de modèles pour la génération d’\textit{embeddings} de domaines. Le/la stagiaire ré-entraînera sur des données récentes des modèles pré-existants et pourra être amené.e à designer de nouveaux modèles.
- Design du benchmark. Cela consistera en la recherche de tâches d’évaluation biologiquement pertinentes, sur des jeux de données pré-existants ou non.
- Application du benchmark, seulement sur des embeddings de domaines et sur un mix embeddings de domaines/embeddings de séquences.
Profil recherché
Le profil recherché correspond à un.e étudiant.e en deuxième année de Master Bioinformatique. De bonnes connaissance en programmation sont demandées, notamment en Python. Des expériences sur des projets de Machine/Deep Learning et/ou un intérêt pour ces domaines seraient fortement appréciées. Le connaissance d’outils d’annotation de protéines (InterproScan, DeepTMHMM, …) serait un plus.
L’étudiant.e rejoindrait le BIAM, institut de Biosciences et biotechnologies d’Aix-Marseille associé au CEA de Cadarache, au sein de l’équipe BEAMM. L’étudiant.e sera encadré.e par un chercheur ainsi qu’un doctorant en 3ème année.
[1] ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning, bioRXiv, DOI: 10.1101/2020.07.12.199554
[2] ProstT5: Bilingual Language Model for Protein Sequence and Structure, bioRXiv, DOI: 10.1101/2023.07.23.550085
[3] Attention is All you Need, Advances in Neural Information Processing Systems, DOI: 10.5555/3295222.3295349
[4] DeepTMHMM predicts alpha and beta transmembrane proteins using deep neural networks, bioRXiv, https://doi.org/10.1101/2022.04.08.487609
[5] Simulating 500 million years of evolution with a language model, Science, DOI: 10.1126/science.ads0018
[6] Capturing Protein Domain Structure and Function Using Self-Supervision on Domain Architectures, Algorithms, DOI: 10.3390/a14010028
[7] Learning a functional grammar of protein domains using natural language word embedding techniques, PROTEINS, https://doi.org//10.1002/prot.25842
[8] FLIP: Benchmark tasks in fitness landscape inference for proteins, BioRXiv, https://doi.org/10.1101/2021.11.09.467890
[9] Evaluating Protein Transfer Learning with TAPE, arXiv, https://doi.org/10.48550/arXiv.1906.08230