Evolutions sur application web de gestion de données génomiques

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

Campus de Baillarguet
34398 Montpellier Cedex 05
France

Contacts
Guilhem Sempéré
Email du/des contacts
guilhem.sempere@cirad.fr
Description

Sujet de stage : Evolutions sur application web de gestion de données génomiques

————————————————————————————————————————————————————————————

Contexte

La gestion structurée de données volumineuses est un challenge majeur dans le quotidien des laboratoires de recherche travaillant avec des données génomiques (agronomie, santé, etc...). Si certains chercheurs ont acquis la double compétence biologie / informatique, une bonne partie d’entre eux restent en difficulté face à des jeux de données grandissants, et manquent souvent de solutions pour les gérer sur le long terme.

Depuis quelques années au sein du CIRAD, des applications web sont développées dans le but de répondre à cette problématique, en offrant des interfaces conviviales permettant d’importer de grands volumes d’informations dans des bases de données NoSQL, de les garder à disposition sous une forme centralisée, interrogeable et partageable, et ainsi de les ré-exploiter de manière efficace. Le stage proposé s’inscrit dans le contexte du développement de Gigwa (1,2), une plateforme de gestion de données de génotypage haute densité, déjà en production et utilisée par des laboratoires de recherche en France comme à l’étranger, que ce soit pour mettre en avant des données déjà publiées ou pour faciliter les analyses sur des projets en cours.

 

Description du stage

La personne sélectionnée pour ce stage sera amenée à intervenir en priorité sur les aspects suivants :

- Le développement et l’intégration d’une solution de backup. Cette tâche consistera à développer une interface (Javascript, HTML, Java) permettant de sélectionner une base de données MongoDB, la faire basculer dans un mode verrouillé, lancer et suivre la sauvegarde via des appels système (ligne de commande). Ce module devra également être capable de réimporter une sauvegarde existante vers la base MongoDB.

- Intégration du visualitateur de génome IGV.js (3) : implémentation de webservices (Java) permettant à Gigwa de fournir au besoin les données de variants à afficher dans IGV.js, adaptation du code de ce dernier (Javascript) pour lui permettre de lire ces données et les transcrire dans un format qu’il soit capable d’afficher.

En fonction du temps restant pourront éventuellement être abordées les tâches complémentaires suivantes :

- En vue du déploiement de la future structure de données (version 3), l’écriture d’un script (Javascript / JSON) de migration de données de la structure v2 vers la v3.

- Déploiement d’un cluster de shards (base de données répartie sur 3 serveurs différents) pour optimiser les temps de réponse sur la base SNP des 3000 génomes du riz (29,635,224 marqueurs * 3028 échantillons).

Le stage se déroulera dans un environnement technique motivant et pluridisciplinaire, encadré par une équipe d’informaticiens et de bioinformaticiens. Les technologies principalement utilisées seront Java, Javascript et MongoDB.

 

Profil recherché

  • Elève ingénieur 5e année ou Master 2 en informatique ou bioinformatique ;

  • Expérience significative en programmation Java et/ou Javascript ;

  • Autonomie et bon relationnel ;

  • Une expérience dans l’utilisation de certains de ces outils serait un plus : MongoDB, Eclipse, Spring Framework ;

  • Des connaissances en bioinformatique seraient bienvenues mais non indispensables.

 

Gratification: oui

Durée : 5 à 6 mois

Date de début : Mars 2021

Lieu : Campus de Baillarguet, Montferrier sur Lez (Hérault)

Dossier de candidature : CV et lettre de motivation

Encadrement:

 

(1) https://doi.org/10.1186/s13742-016-0131-8
(2) https://doi.org/10.1093/gigascience/giz051
(3) https://www.biorxiv.org/content/10.1101/2020.05.03.075499v1

 

Equipe adhérente personne morale SFBI
Equipe Non adhérente