Développement d’un pipeline d’analyse automatisé de données de NGS

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Adresse

Ecole des Sages Femmes 2ème étage
Place Amélie Raba-Léon
33076 Bordeaux
France

Contacts
Dr Caroline Rooryck-Thambo, PU-PH
M. Christophe Hubert, assistant ingénieur
Dr Laetitia Gaston, bio-informaticienne
Email du/des contacts
caroline.rooryck-thambo@chu-bordeaux.fr
christophe.hubert@u-bordeaux.fr
laetitia.gaston@chu-bordeaux.fr
Description

Contexte
     Dans le cadre de ses différentes thématiques de recherche le laboratoire INSERM 1211 utilise des données issues des technologies de séquençage à haut débit, et ce, pour différentes applications (DNAseq, RNAseq, …). Actuellement, l’analyse bioinformatique de ces données est externalisée. Cependant, ces prestations de service ne permettent pas de répondre de manière exhaustive aux spécificités des thématiques de recherche et ne peuvent pas être adaptées à façon. Le développement d’un pipeline bioinformatique local permettra donc de répondre à cette demande, et d’envisager des approches d’analyse innovantes.


Objectifs
     Le(a) candidat(e) travaillera dans une équipe pluridisciplinaire à la conception,  au développement et à l’implémentation du pipeline d’analyses des données NGS du laboratoire. Ce pipeline devra intégrer les outils déjà développés par le laboratoire aux outils « open source » utilisés par la communauté et gérer l’ensemble de chaque étape de manière automatique, du dépôt des fichiers bruts à analyser aux fichiers finaux de résultats. Pour cela le(a) candidat(e) utilisera les ressources mises à sa disposition au centre de calcul intensif aquitain (MCIA) en s’assurant de l’intégrité et de la sécurité des données au cours des transferts et des analyses extériorisées. 
     Dans un second temps, le(a) candidat(e) mettra en application son pipeline afin d’analyser des données générées dans différents projets de recherche du laboratoire (Albinisme, syndrome de Goldenhar, Métabolisme mitochondrial, etc…).
     Le plan d’implémentation du projet sera établi en collaboration avec les chercheurs, ingénieurs et bioinformaticiens de l’équipe. Le(a) candidat(e) assurera son exécution et la production de rapports d’avancement. 


Méthodologies
     Le travail sera exécuté dans un environnement unix, sur des serveurs HPC. Le(a) candidat(e) devra maîtriser de façon indispensable les systèmes unix et le langage bash, ainsi que le langage python utilisé pour l’implémentation de certains outils du laboratoire.
     Le pipeline bio-informatique devra répondre aux caractéristiques suivantes :
          -    Application en DNA-seq (panel de gènes, Whole-Exome et Whole-Genome) et RNA-seq
          -    Prendre en charge différents génomes de référence : Homo sapiens, Danio rerio, …
          -    Prendre en charge différents types de fichiers en entrée : .bcl, .fastq ou .bam
          -    Détecter des variants ponctuels, des variants structuraux, des transcrits de fusion
          -    Générer et exploiter des données d’expression et d’épissage pour le RNA-seq
          -    Intégrer les outils bio-informatiques développés au laboratoire
          -    Lancer automatiquement les analyses dès réception des données
     Ce pipeline devra être basé sur ceux correspondant aux « GATK Best Practices », disponibles en open source, et publiés par le Broad Institute. Celui-ci devra être automatisé dans sa globalité afin de permettre une utilisation simple et intuitive à partir de machines sous système d’exploitation Windows.


Prérequis
     Issu d’un Master en Bio-informatique, le  candidat devra maîtriser les terminologies de la génétique, génomique et de la transcriptomique afin d’être en mesure d’interagir rapidement avec l’équipe de recherche. Il affichera une capacité d’organiser son propre plan d’activité, de documenter  et rendre compte de l’évolution de son travail. 
     Des connaissances en SGBD et mySQL seraient un plus.

Mots-clés
1    bash, python
2    Linux, windows
3    NGS, ExomeSeq, RnaSeq, Génétique, génomique et transcriptomique 
4    svn
5    Travail en équipe, autonomie 
6     Démarche qualité


Spécialité(s)
1     Bioinformatique (Requis)
2     Génétique (Apprécié)

Equipe adhérente personne morale SFBI
Equipe Non adhérente