Stage Master2 Bioinformatique
Stage · Stage M2 · 6 mois Bac+5 / Master INRA PACA UR 1052 GAFL · Avignon (France) 600€/mois
Date de prise de poste : 9 janvier 2023
Mots-Clés
Pipeline reproductible, Snakemake, Containers, QTLseq
Description
Projet de stage :
Développement d’un pipeline pour l’analyse de données issues de QTL-seq.
Dans le cadre du projet projet PPR CapZeroPhyto visant à étudier la résistance à différents bio agresseurs, nous avons obtenu des données NGS de nouvelles générations (Illumina, PacBio et Hi-C) de la tomate sauvage Solanum habrochaites. Des bulks d’individus résistants et sensibles ont été séquencé en short reads (Illumina) et seront analysés par QTL-seq1 (Takagi et al. 2013 Plant J). L’étudiant construira un pipeline permettant de traiter les séquences illumina obtenues sur les bulks (pools d’individus), allant du contrôle de qualité des séquences à la détection des locus impliqués dans la variation du phénotype. Il s’agira d’implémenter et de comparer deux méthodologies d’analyse QTL-Seq (qtlseqR2 et Bypass3). De plus, le stagiaire devra implémenter ce pipeline en utilisant Singularity et le gestionnaire de workflow Snakemake. Ce pipeline sera in fine utilisé par des non bio-informaticiens.
Le stagiaire aura accès au serveur Linux de calcul de l’unité GAFL et aux plateformes HPC de l’INRA.
L’étudiant/e sera co-encadré par un ingénieur en bio-informatique et un ingénieur en génétique. Maîtrise de l'environnement Linux et du Bash, l’utilisation et interprétation de logiciels d'analyse bio-informatique sont demandés. De plus, des notions de bases sur les techniques d’assemblage de novo de génome, d’outils de packaging (Singularity) et de management de workflow (Snakemake) seraient un plus. Des connaissances et/ou une pratique du calcul sur cluster seraient appréciées.
Références
Vollger MR et al. Improved assembly and variant detection of a haploid human genome using single-molecule, high-fidelity long reads. Ann Hum Genet. 2020 Mar;84(2):125-140. doi: 10.1111/ahg.12364. Epub 2019 Nov 11. PMID: 31711268; PMCID: PMC7015760.
Nurk S, Walenz BP, Rhiea A, Vollger MR, Logsdon GA, Grothe R, Miga KH, Eichler EE, Phillippy AM, Koren S. HiCanu: accurate assembly of segmental duplications, satellites, and allelic variants from high-fidelity long reads. biorXiv. (2020)
https://www.pacb.com/blog/pag-2020-hifi/
Mansfeld BN, Grumet R. QTLseqr: An R Package for Bulk Segregant Analysis with Next-Generation Sequencing. Plant Genome. 2018 Jul;11(2). doi: 10.3835/plantgenome2018.01.0006. PMID: 30025013.
Candidature
Procédure : Envoyer un mail à: Bernard Caromel (IE) et Jacques Lagnel (IE) bernard.caromel@inrae.fr, jacques.lagnel@inrae.fr
Date limite : 31 décembre 2022
Contacts
Jacques Lagnel, Bernard Caromel
jaNOSPAMcques.lagnel@inra.fr
Offre publiée le 11 octobre 2022, affichage jusqu'au 31 décembre 2022