Stage Intégration de données de légumineuses dans un système d’information

 Stage · Stage M2  · 5 mois    Bac+5 / Master   INRAE-URGI · Versailles (France)  500

 Date de prise de poste : 3 janvier 2022

Mots-Clés

Data management FAIR Talend base de données NoSQL ontologie Nextflow

Description

Le projet ResiLens aborde des questions en rapport avec la culture de la lentille en France. La demande du marché est forte pour cette légumineuse mais il manque des connaissances et un support pour la sélection des variétés pour aider les chercheurs et accompagner les agriculteurs. Le projet a permis de recenser une collection de ressources génétiques sur cette espèce permettant d’organiser et caractériser une base de travail à partir de laquelle a été identifiée l’identité de pathogènes fongiques et des bruches impactant la quantité et la qualité de production.

Cela a permis de révéler les génotypes montrant des réponses différentes face à ces menaces et les caractères phénotypiques associés. Ce stage se situe dans le cadre de la dernière action du projet, la mise en place d’une base de données pour la lentille permettant d’intégrer les données générées durant le projet. Le stagiaire devra travailler à l’insertion des données de ressources génétiques et l’insertion de données phénotypiques dans la base de données de GnpIS (Système d’information dédié aux plantes). Le candidat devra également travailler à l’intégration d’une ontologie dédiée aux lentilles dans le système d’information permettant de décrire les traits phénotypiques relatifs.

Ce travail d’insertion des données et de l’ontologie se fera en étroite relation avec la communauté scientifique du projet ResiLens et notamment les scientifiques de l’UMR Agroécologie. Les ressources mises en place permettront aux différents acteurs du projet et aux parties prenantes, d’interroger et d’accéder aux informations qui ont été générées pendant le projet ResiLens.

Objectifs :

• Insertion de données de ressources génétiques dans une base de données dédiée pour les données de plantes (GnpIS - FAIDARE)

• Insertion de données d’ontologie dans une interface permettant le requêtage d’informations phénotypiques • Insertion de données phénotypiques dans une base de données (GnpIS – Ephesis)

• Optionnel : Mise en place d’un référencement des jeux de données de génotypage dans le dépôt de data.inrae

Travail demandé : Le(a) stagiaire devra insérer à l’aide des outils ETL (Extract-Transform-Load) mis à sa disposition des données dans la base de données GnpIS (SGBD : PostgreSQL).

Il devra ainsi réaliser un contrôle qualité des données et faire des modifications le cas échéant des fichiers de données sources afin de répondre à un format de soumission. Une fois ces données de ressources génétiques insérées, il s’agira de renseigner des données phénotypiques décrivant ces ressources génétiques en travaillant sur le format de soumission des données phénotypiques en accord avec les termes ontologiques décrits dans l’ontologie de la lentille ou à rajouter.

Il faudra ensuite réaliser un travail d’indexation de ces données avec l’outil ElasticSearch (NoSQL) pour rendre ces données plus accessibles et interopérable.


Compétences techniques recherchées :

• Maitrise des commandes UNIX (shell) et des programmations python/JAVA.

• Maitrise de la technologie SGBD et NoSQL (postgresql et Elasticsearch)

• Maitrise d’outils ETL (Talend)

• Capacité à traiter d’importants volumes de données

• Traitement de données (Excel, csv)


Candidature

Procédure : Envoyer un mail à l'adresse contact avec en objet "Candidature stage Resilens"

Date limite : 17 décembre 2021

Contacts

Nicolas Francillonne

 niNOSPAMcolas.francillonne@inrae.fr

 https://urgi.versailles.inra.fr/About-us/Jobs/M2-Resilens

Offre publiée le 20 octobre 2021, affichage jusqu'au 17 décembre 2021