Enrichissement et automatisation des sources utilisées dans l’application Omnicrobe

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRAE - Unité MaIAGE · Jouy-en-Josas (France)

Mots-Clés

text-mining banques de données publiques pipelines API publications scientifiques phénotypes et habitats microbiens

Description

Contexte :

L’unité Mathématiques et Informatique Appliquées du Génome à l’Environnement (MaIAGE) est située sur le centre INRAE de Jouy-en-Josas. Cette unité de recherche regroupe des mathématiciens, des informaticiens, des bioinformaticiens et des biologistes qui développent des méthodes pour répondre à des questions de biologie et agro-écologie, allant de l'échelle moléculaire à l'échelle du paysage en passant par l'étude d'individus, de populations ou d'écosystèmes. MaIAGE est structurée en cinq équipes dont l’équipe Acquisition et formalisation des connaissances à partir de textes (Bibliome), et l’équipe Bioinformatique et statistique des données “omiques” (StatInfOmics). et la plateforme bioinformatique Migale. Bibliome développe des méthodes de traitement automatique des langues (TAL) et d'apprentissage automatique (ML) pour extraire des informations de textes par des ontologies dans le domaine de la biologie. StatInfOmics développe et met en œuvre des méthodes statistiques et bioinformatiques dédiées à l’analyse de données “omiques”. Migale fournit des services à la communauté des sciences de la vie. Cette proposition de stage s’inscrit dans un projet commun aux trois équipes.

Missions :

L’unité MaIAGE développe l’application Omnicrobe qui collecte et intègre des informations sur les habitats, les phénotypes et les usages des micro-organismes. Ces informations sont actuellement extraites automatiquement des sources d’information textuelles et des bases de données bioinformatiques suivantes : PubMed, GenBank, DSMZ, CIRM. Les informations sont ensuite traitées à l’aide de pipelines spécialisés d’analyse de données (traitement automatique des langues et apprentissage machine) avant d’être stockées dans une base de données centralisées et rendues disponibles via des interfaces web et programmatique (API). Le stage portera sur l’enrichissement et l’extension des sources de données de l’application Omnicrobe. Le travail consistera à étudier les sources de données potentielles (BioSample, EPMC, MIRRI, GCM, etc.) et ensuite en l’implémentation des solutions (pipelines) permettant d’automatiser la collecte et l’intégration des informations pertinentes provenant des sources sélectionnées vers la base de données d’Omnicrobe.

Profil du candidat :

Master 2 / dernière année d’école d’ingénieur en bio-informatique.

Compétences souhaitées :

  • Python

  • Snakemake

  • Des connaissances sur les banques de données bioinformatiques seraient un plus

Références :

- Unité MaIAGE, https://maiage.inrae.fr/ 

- INRAE, https://www.inrae.fr/ 

- Equipe Bibliome, https://maiage.inrae.fr/fr/bibliome  

- Equipe StatInfOmics, https://maiage.inrae.fr/fr/statinfomics 

- Plateforme Migale, https://migale.inrae.fr 

- Dérozier S et al. Omnicrobe, an open-access database of microbial habitats and phenotypes using a comprehensive text mining and data fusion approach. bioRxiv. 2022. DOI: https://doi.org/10.1101/2022.07.21.500958

https://www.ncbi.nlm.nih.gov/biosample/

http://europepmc.org/

https://webservices.bio-aware.com/mirri/index.html

https://gcm.wdcm.org/

Candidature

Procédure : Envoyer votre candidature (CV et lettre de motivation) par mail à mouhamadou.ba@inrae.fr et robert.bossy@inrae.fr.

Date limite : None

Contacts

Mouhamadou Ba

 moNOSPAMuhamadou.ba@inrae.fr

 https://maiage.inrae.fr/fr/node/2578

Offre publiée le 18 novembre 2022, affichage jusqu'au 31 mars 2023