Mots-Clés
virus
métagénomique
deep learning
hôte
jeu de données
Description
Construction et curation d’un jeu de données annoté de séquences virales pour la prédiction de l’hôte
Contexte du stage
L’étude des virus constitue un défi majeur en génomique, notamment en raison de l’absence de gène universel permettant leur identification et leur classification. Cette particularité complique l’analyse taxonomique des virus, en particulier dans des contextes cliniques et écologiques [1]. Pour pallier cette difficulté, les approches utilisant la métagénomique appliquée à l’étude des virus ont connu un essor important. Toutefois, ces approches restent limitées notamment par le manque d’information sur l’hôte du virus [2].
Afin de tenter de répondre à ces problématiques, de nouveaux outils computationnels ont été développés, notamment ceux s’appuyant sur du deep learning [2-4]. Leur mise en œuvre nécessite cependant la disponibilité de jeux de données contenant des séquences virales associées à leurs hôtes. Or, la constitution de tels jeux de données se heurte à plusieurs difficultés, parmi lesquelles (par exemple, liste non exhaustive):
- L’annotation incomplète ou imprécise des hôtes dans les bases de données publiques.
- Le déséquilibre présent entre les différentes espèces ou les différents hôtes pouvant biaiser l’apprentissage des modèles.
Ces limitations freinent la constitution de jeux de données suffisamment robustes et équilibrés pour entraîner et évaluer efficacement des modèles de deep learning de prédiction de l’hôte.
Objectif du stage
L’objectif principal de ce stage est de recenser les différentes méthodes de classification de l’hôte utilisant du deep learning ou non, ainsi que de construire d’une base de données de séquences virales pour différents hôtes (par exemple vertébrés, non vertébrés,).
Les principales étapes sont :
1. Identification des outils disponibles permettant cette tâche.
2. Compiler des séquences virales issues de bases publiques avec assignation des hôtes afin de constituer un jeu de données d’apprentissage pour un modèle de deep learning.
3. Analyse statistique descriptives du jeu de données ainsi obtenu.
4. Comparaison des différents outils (si le temps le permet) sur ce jeu de données.
Compétences développées
- Manipulation de bases de données publiques de séquences virales.
- Analyse statistique et visualisation
- Familiarisation avec la bioinformatique métagénomique appliquée à l’étude des virus.
- Préparation de datasets pour le deep learning.
- Si le temps, comparaison d’outils.
Profil recherché
- Étudiant(e) en bioinformatique de niveau Master 1.
- Bonnes compétences en Python, gestion de fichiers et manipulation de bases de données et de séquences.
- Intérêt pour la virologie et la métagénomique. Un intérêt pour le deep learning serait un plus.
Stage d’une durée de 3 - 5 mois rémunéré.
Références
- [1] Koonin EV, Krupovic M, Dolja VV. The global virome: How much diversity and how many independent origins? Environmental Microbiology. janv 2023;25(1):40-4.
- [2] Ming Z, Chen X, Wang S, Liu H, Yuan Z, Wu M, et al. HostNet: improved sequence representation in deep neural networks for virus-host prediction. BMC Bioinformatics. 1 déc 2023;24:455.
- [3] Shang J, Peng C, Guan J, Cai D, Wang D, Sun Y. Computational approaches for virus host prediction: A review of methods and applications [Internet]. arXiv; 2025 [cité 8 sept 2025]. Disponible sur: http://arxiv.org/abs/2509.00349.
- [4] Mock F, Viehweger A, Barth E, Marz M. VIDHOP, viral host prediction with deep learning. Bioinformatics. 20 avr 2021;37(3):318-25.
Candidature
Procédure : Envoyer un CV ainsi qu'une lettre de motivation à Emma SOUFIR : emma.soufir@cirad.fr
Date limite : 1 février 2026
Contacts
Emma SOUFIR
emNOSPAMma.soufir@cirad.fr
Serafin Gutierrez
seNOSPAMrafin.gutierrez@cirad.fr