Mots-Clés
                    
                        
                            Data management 
                        
                             Qualité des données 
                        
                             FAIR 
                        
                             Python 
                        
                             Talend 
                        
                             Web services REST 
                        
                             SQL 
                        
                             JSON 
                        
                             R 
                        
                             Nextflow
                        
                    
                    Description
                    
                        
                            
GnpIS est un système d’information (SI) développé par l’URGI qui permet de stocker et d’intégrer des jeux de données de génétique et de génomique des plantes (https://urgi.versailles.inrae.fr/gnpis/). Il met à disposition des données de qualité suivant les principes FAIR (Findable, Accessible, Interoperable, Reusable), ce qui lui permet de participer aux efforts pour la science ouverte, pour laquelle INRAE est moteur.
L’URGI propose un stage de Master en développement de workflow de data management. Il vise à améliorer et automatiser les différents outils utilisés pour valider les jeux de données soumis à GnpIS afin de garantir la qualité des données. Il s’agit par exemple de vérifier que les traits observés dans le cadre d’une expérience de phénotypage sont bien rattachés à une ontologie de référence et que les valeurs mesurées sont bien cohérentes entre elles. Cette étape de vérification et de curation des données est essentielle pour la FAIRification des données et pour faciliter l’intégration de jeux de données hétérogènes, donc améliorer leur valorisation et enrichissement.
Pour répondre à ce besoin, le/la stagiaire améliorera les outils existants (utilisation de Talend, web services REST, Python, SQL) et en développera de nouveaux (R, ou autre potentiellement proposé par le/la stagiaire). Si possible, la personne recrutée explorera également des solutions innovantes reposant sur l’utilisation du dataverse d’INRAE (data.inrae.fr) ou de Framework comme CSV for Web ou Frictionless Data.