Mots-Clés
génome humain,variations structurales,séquençage « longues lectures »,maladies rares,annotation,bases de données,AnnotSV
Description
Contexte général
Le Centre National de Recherche en Génomique Humaine (CNRGH/CEA), situé au Genopole d’Evry et acteur du plan France Médecine Génomique 2025, a pour mission de produire des données pour participer au développement de la recherche sur la génétique des maladies humaines. Le CNRGH possède des laboratoires et des plateformes qui utilisent des technologies de pointe en génomique, telles que le génotypage à haut débit et le séquençage de nouvelle génération, qui permettent respectivement, de réaliser des études d’association pan-génomiques et de faire du séquençage de génomes complets de population. Dans ce cadre, les variations structurales (SVs) ([1]) de chacun des génomes séquencés sont identifiées grâce à la comparaison des lectures produites lors du séquençage, à une séquence de référence ([2], [3]) ou bien après l’assemblage des lecture et l’alignement des contigs contre la séquence de référence. Cela permet de produire un profil de variations sur l’intégralité du génome pour caractériser une population ou rechercher des mutations pathologiques.
Objectif du stage
Le stage se déroulera dans le laboratoire de Bio-analyse (LBA, https://jacob.cea.fr/drf/ifrancoisjacob/Pages/Departements/CNRGH/LABORATOIRES/Bio-analyse.aspx), et le cadre de projets collaboratifs sur la recherche de causes génétiques à des maladies rares, et s’inscrira dans la problématique d’identification de variants structuraux. Le stagiaire travaillera à la priorisation des variants structuraux déjà identifiés après séquençage longues lectures (nanopore) dans une cohorte d’individus atteints de maladies neurodégénératives par l’utilisation d’un outil d’annotation, l’interrogation de bases de données SVs et l’utilisation de bases de données outils.
Compétences
Langage de programmation : bash, python, R, sql
Environnement de développement : linux, gitlab, nextflow, conda