Mots-Clés
IA
metadata
Description
Contexte :
Dans le cadre du projet Virome@tlas, nous développons une plateforme cloud pour la surveillance virale, intégrant des données de séquençage et des informations géographiques à large échelle afin de suivre la diversité des virus, leurs hôtes et leurs environnements.
Une étape clé du projet consiste à extraire et valider les métadonnées biologiques, écologiques et géographiques issues des bases de données publiques telles que NCBI Sequence Read Archive (SRA), BioSample (NCBI, ENA ou DDBJ) ou GenBank. Or, ces métadonnées sont en partie remplies à la main par les opérateurs lors de leur dépôt. Ainsi, malgré les efforts d’harmonisation (Yilmaz et al. 2011; Cernava et al. 2022), elles sont souvent incomplètes, mal annotées ou comportent des erreurs (Bas et al. 2024; Leigh et al. 2024; Bernstein et al. 2017). La qualité variable de ces métadonnées, aux potentiels pourtant massifs, limite fortement leur exploitation par des approches biogéographiques à large échelle. Au sein du laboratoire, nous avons constaté que certaines informations manquantes ou incorrectes peuvent être retrouvées automatiquement à l’aide de techniques d’intelligence artificielle, notamment le text mining et de grands modèles de langage (LLM). Diverses méthodes sont déjà développées dans ce contexte, principalement des Named Entity Recognition (NER) et LLM (Klie et al. 2021; Ikeda et al. 2025).
L’objectif du stage sera de développer un pipeline automatisé permettant d’extraire et de valider certaines métadonnées d’intérêt, notamment la localisation géographique, le biome, l’environnement d’échantillonnage, ou encore la taxonomie de l’organisme hôte échantillonné. L’extraction des organismes hôtes et de la géolocalisation a déjà été réalisée (en python) avec des méthodes plus classiques (e.g., rule-based, Named Entity Recognition). Ces métadonnées pourront servir à la validation, ou du moins, à la comparaison de méthodes basées sur les LLM. Par exemple, le champ “Location” dans les métadonnées est souvent vide ou incohérent, alors que l’information de localisation peut se trouver dans d’autres attributs ou peut même se déduire. Les LLM permettraient d’inférer une localisation correcte à partir de l’ensemble des métadonnées disponibles. Les LLM permettraient également d’identifier le type de biome à partir des métadonnées disponibles et/ou de la localisation puis de les traduire en termes d’ontologies (e.g., ENVO) afin de permettre leur interopérabilité auprès de futurs utilisateurs. Ce type de méthode pourrait être appliqué plus largement à d’autres bases de données à la structure similaire telle que Global Biodiversity Information Facility (GBIF).
L’étudiant.e sera co-encadré·e par un géomaticien, une bioinformaticienne et un ingénieur en déploiement IA/HPC dans le cadre d’une collaboration IFB / PRABI.
Ce travail pourra faire l’objet de valorisations (poster de conférence, publication scientifique, communication orale).
Objectifs du stage :
- Mener une veille scientifique afin d’identifier des méthodes d’IA efficaces pour traiter ces métadonnées;
- Concevoir un pipeline automatisé permettant l’extraction de métadonnées d’intérêt;
- Créer un fichier de validation et réaliser un benchmark des différentes méthodes d’IA.
Localisation du stage :
Pôle Rhône-Alpes de Bioinformatique (PRABI-AMSB)
16 rue Raphaël Dubois. Bâtiment Mendel (2ème étage)
69622 Villeurbanne
Profil recherché :
- Étudiant·e en IA/Data science, bioinformatique, géomatique, science de l’Information ou domaine similaire.
- Forte appétence pour l’IA et le développement.
- Compétences : python; analyse et gestion de données; IA; travail d’équipe; anglais scientifique.
Personnes à contacter :
Pour candidater, merci d’envoyer un CV et une lettre de motivation avant le 20 Décembre à :
Liens supplémentaires :
Posters sur le projet à l’occasion de JOBIM 2025 - n°180 et n°189: https://nextcloud.inrae.fr/s/oJe89krwM5GGoRw
Site du PRABI : http://amsb.prabi.fr/
Virome@tlas: https://www.shape-med-lyon.fr/projets/structurants-vague-1/virometlas/