Mots-Clés
Data management
Qualité des données
FAIR
Python
Talend
Web services REST
SQL
JSON
R
Nextflow
Description
GnpIS est un système d’information (SI) développé par l’URGI qui permet de stocker et d’intégrer des jeux de données de génétique et de génomique des plantes (https://urgi.versailles.inrae.fr/gnpis/). Il met à disposition des données de qualité suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable), ce qui lui permet de participer aux efforts pour la science ouverte, pour laquelle INRAE est moteur.
L’URGI propose un stage de Master en développement de workflow de data management. Il vise à améliorer et automatiser les différents outils utilisés pour valider les jeux de données soumis à GnpIS afin de garantir la qualité des données. Il s’agit par exemple de vérifier que les traits observés dans le cadre d’une expérience de phénotypage sont bien rattachés à une ontologie de référence et que les valeurs mesurées sont bien cohérentes entre elles. Cette étape de vérification et de curation des données est essentielle pour la FAIRification des données et pour faciliter l’intégration de jeux de données hétérogènes, donc améliorer leur valorisation et enrichissement.
Pour répondre à ce besoin, le/la stagiaire améliorera les outils existants (utilisation de Talend, web services REST, Python, SQL) et en développera de nouveaux (R, ou autre potentiellement proposé par le/la stagiaire). Si possible, la personne recrutée explorera également des solutions innovantes reposant sur l’utilisation du dataverse d’INRAE (data.inrae.fr) ou de Framework comme CSV for Web ou Frictionless Data.