Développement web sur données génomiques

Type de poste
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

<div>Campus de Baillarguet</div><div>&nbsp;</div><div>34980 Montferrier sur Lez (Hérault)</div><div>&nbsp;</div>
Montpellier
France

Contacts
Sempéré Guilhem
Email du/des contacts
guilhem.sempere@cirad.fr
Description

Contexte

Consolidation et évolutions sur une application web de gestion de variations génomiques.

La compréhension de la structure des génomes et de leur évolution est une approche fondamentale dans l’analyse de l’adaptation des êtres vivants à leurs écosystèmes. Dans cette optique, l’exploitation des données de variations génétiques (SNP, INDEL ...) en relation avec les données fonctionnelles (expression des gènes et protéines), phénotypiques et environnementales est essentielle. Les résultats des analyses de détection de variations génomiques sont généralement stockés dans des fichiers au format VCF (Variant Call Format1). Or, ces fichiers peuvent atteindre des volumes très importants (de l’ordre du Tera Octet).

Comme alternative aux outils disponibles en ligne de commande (VCFTools2, etc.) et aux workflows de transformation, nous avons développé Gigwa, une application web ayant pour vocation de stocker dans une base de données NoSQL (MongoDB) des volumes importants de génotypes (issus de fichiers VCF ou autres), et d’offrir une interface permettant d’appliquer des filtres sur ceux-ci. Le système permet alors de naviguer dans les résultats, de les visualiser de différentes manières, et de réexporter les sous-jeux de données sous divers formats courants.

Les objectifs du stage seront focalisés sur deux aspects :

  • La consolidation de l’existant, par le développement de tests unitaires et l’investigation de solutions de backup;

  • L’ajout de nouvelles fonctionnalités visant à permettre à tout utilisateur d’appréhender chaque jeu de données d’une façon personnelle.

Le stage se déroulera dans un environnement technique motivant et pluridisciplinaire, encadré par une équipe d’informaticiens et de bioinformaticiens. Les technologies principalement utilisées seront Java, Javascript et MongoDB.

 

Description du stage

  • Familiarisation avec les fonctionnalités de Gigwa et son architecture logicielle ;

  • Développement de tests unitaires visant à garantir la cohérence des résultats des requêtes au fil des évolutions apportées au système;

  • Création d’une interface permettant aux utilisateurs authentifiés de « mémoriser » une combinaison de filtres ;

  • Création d’une interface leur permettant d’annoter un jeu de données avec leurs propres métadonnées (éventuellement à travers un service REST) ;

  • Adaptation des fonctionnalités d’export pour prise en compte de règles d’agrégation définies en fonction de ces métadonnées ;

  • En fonction de l’avancement des points précédents, réflexion sur la mise au point d’une solution de backup qui pourrait être mise en œuvre dans le système.

 

Profil recherché

  • Licence 3 ou Master en informatique ou bioinformatique ;

  • Expérience significative en programmation Java ;

  • Des notions de développement web (HTML / Javascript) ;

  • Autonomie ;

  • Bon relationnel ;

  • Une expérience dans l’utilisation de certains des outils suivants seraient un plus : MongoDB, Spring Framework, Apache Maven, jQuery, Bootstrap ;

  • Des connaissances en bioinformatique seraient bienvenues mais non indispensables.

Gratification: oui

Durée : 5 à 6 mois

Date de début : Mars ou avril 2019

Lieu : Campus de Baillarguet, Montferrier sur Lez (Hérault)

Dossier de candidature : CV et lettre de motivation

Encadrement:

 

1http://samtools.github.io/hts-specs/VCFv4.3.pdf

2http://vcftools.sourceforge.net/