Stage Master2 Bioinformatique

 Stage · Stage M2  · 6 mois    Bac+5 / Master   INRA PACA UR 1052 GAFL · Avignon (France)  600€/mois

 Date de prise de poste : 9 janvier 2023

Mots-Clés

Pipeline reproductible, Snakemake, Containers, QTLseq

Description

Projet de stage :

Développement d’un pipeline pour lanalyse de données issues de QTL-seq.

Dans le cadre du projet projet PPR CapZeroPhyto visant à étudier la résistance à différents bio agresseurs, nous avons obtenu des données NGS de nouvelles générations (Illumina, PacBio et Hi-C) de la tomate sauvage Solanum habrochaites. Des bulks d’individus résistants et sensibles ont été séquencé en short reads (Illumina) et seront analysés par QTL-seq1 (Takagi et al. 2013 Plant J). L’étudiant construira un pipeline permettant de traiter les séquences illumina obtenues sur les bulks (pools d’individus), allant du contrôle de qualité des séquences à la détection des locus impliqués dans la variation du phénotype. Il s’agira d’implémenter et de comparer deux méthodologies d’analyse QTL-Seq (qtlseqR2 et Bypass3). De plus, le stagiaire devra implémenter ce pipeline en utilisant Singularity et le gestionnaire de workflow Snakemake. Ce pipeline sera in fine utilisé par des non bio-informaticiens.
Le stagiaire aura accès au serveur Linux de calcul de l’unité GAFL et aux plateformes HPC de l’INRA.
L’étudiant/e sera co-encadré par un ingénieur en bio-informatique et un ingénieur en génétique. Maîtrise de l'environnement Linux et du Bash, l’utilisation et interprétation de logiciels d'analyse bio-informatique sont demandés. De plus, des notions de bases sur les techniques d’assemblage de novo de génome, d’outils de packaging (Singularity) et de management de workflow (Snakemake) seraient un plus. Des connaissances et/ou une pratique du calcul sur cluster seraient appréciées.

Références

Vollger MR et al. Improved assembly and variant detection of a haploid human genome using single-molecule, high-fidelity long reads. Ann Hum Genet. 2020 Mar;84(2):125-140. doi: 10.1111/ahg.12364. Epub 2019 Nov 11. PMID: 31711268; PMCID: PMC7015760.

Nurk S, Walenz BP, Rhiea A, Vollger MR, Logsdon GA, Grothe R, Miga KH, Eichler EE, Phillippy AM, Koren S. HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. biorXiv. (2020)

https://www.pacb.com/blog/pag-2020-hifi/

Mansfeld BN, Grumet R. QTLseqr: An R Package for Bulk Segregant Analysis with Next-Generation Sequencing. Plant Genome. 2018 Jul;11(2). doi: 10.3835/plantgenome2018.01.0006. PMID: 30025013.

Candidature

Procédure : Envoyer un mail à: Bernard Caromel (IE) et Jacques Lagnel (IE) bernard.caromel@inrae.fr, jacques.lagnel@inrae.fr

Date limite : 31 décembre 2022

Contacts

Jacques Lagnel, Bernard Caromel

 jaNOSPAMcques.lagnel@inra.fr

Offre publiée le 11 octobre 2022, affichage jusqu'au 31 décembre 2022