Automatisation et généralisation d‘intégration de données issues de fouille de texte dans un SI
Stage · Stage M2 · 6 mois Bac+4 INRAE-URGI · Castanet Tolosan (France) ~500€
Date de prise de poste : 3 janvier 2022
Mots-Clés
Fouille de texte graphe de connaissances ontologies Neo4j Python RDF Docker/Singularity GNU/Linux Shell
Description
Un des enjeux de la biologie végétale est d’étudier, voire de prédire, le phénotype d’une plante et sa capacité à s’adapter à des stress à partir de données génétiques, génomiques et environnementales. Ce lien entre génotype et phénotype s’effectue via des approches de détection de QTL ou de GWAS, souvent complétées par une approche gène candidat. De nombreuses connaissances existent déjà chez des espèces modèles ainsi que dans la littérature scientifique.
GnpIS (https://urgi.versailles.inrae.fr/gnpis/) est une base de données INRAE qui permet de stocker des jeux de données de génétique, de phénomique et de génomique chez les plantes . En complément, des données de ce type se trouvent de façon non structurée dans la bibliographie.
L’URGI développe un graphe de connaissances permettant d’intégrer des données hétérogènes dans l’optique d’apporter un appui efficace et rapide en terme d’exploration de données à la communauté scientifique, en particulier en lien avec des approches de biologie translationnelle.
Une preuve de concept a été réalisée sur le blé pour développer et automatiser un pipeline de fouille de texte (AlvisNLP développé par l’équipe Bibliome de l’UMR MaIAGE) permettant de collecter ce type d’information dans des articles et de les annoter sémantiquement.
Objectifs :
- Un premier objectif du stage consiste à adapter et utiliser le pipeline de fouille de texte sur un corpus bibliographique étendu en s’appuyant notamment sur des identifiants de gènes d’intérêt, d’ontologies de référence (gene ontology, phenotype, ...) et bases de données de référence (PFAM, UniProt, classification Wicker).
- Un second objectif sera d’intégrer ces données annotées au sein d’un graphe de connaissances (basé sur Neo4J) afin de pouvoir en enrichir les connaissances et permettre de répondre à des questions scientifiques en mettant en œuvre une approche de biologie translationnelle.
- Le dernier objectif consistera à exposer les données intégrées sous la forme d’un graphe en représentation RDF permettant ainsi leur publication sous une forme rendant possible leur réutilisation par la communauté scientifique.
Candidature
Procédure : Les candidatures (CV + lettre de motivation) doivent être adressées au plus tard jusqu’au 31/10/2021 par courriel à raphael.flores@inrae.fr avec l’objet suivant : [2022-stage-graph-text-mining]
Date limite : 31 octobre 2021
Contacts
Raphaël FLORES
raNOSPAMphael.flores@inrae.fr
https://urgi.versailles.inrae.fr/About-us/Jobs/6-months-M2-internship-position-at-INRAE-Toulouse
Offre publiée le 19 août 2021, affichage jusqu'au 31 décembre 2021