Mots-Clés
single-cell DNA-seq
copy number variation
CRISPR/Cas9
Description
Titre : Analyse de jeux de données génomiques issus de single cell DNA-seq pour une quantification ultra-sensible des remaniements induits par le système CRISPR-Cas9
Contexte biologique : L’analyse du génome à l’échelle de la cellule unique (single-cell ou sc) est une approche essentielle pour comprendre la variabilité génomique au sein d’un échantillon cellulaire hétérogène. L’instabilité génomique liée à la coupure double brin de l’ADN (pertes d’hétérozygotie à copie neutre, délétions et gain) est principalement recherchée par des analyses bulk et n’ont pas une résolution suffisante (de l’ordre de 10%) pour détecter des anomalies rares. Le scRNA-seq permet d’identifier de façon indirecte, par l’analyse des quantités de transcrits, les variations du nombre de copies (copy number variation : CNV) d’une région, en particulier les délétions à l’échelle de la cellule. Par une analyse directe du génome, le scDNA-seq pourrait permettre d’identifier les CNV et les pertes d’hétérozygotie à copie neutre à une résolution inégalée.
En collaboration avec l’Institut Gustave-Roussy (plateforme de génomique fonctionnelle, Dr N Drouin), notre équipe vient de démontrer la puissance de l’approche scDNA-seq pour non-seulement détecter et cartographier les délétions mais aussi les pertes d’hétérozygotie à copie neutre avec une très grande sensibilité (entre 0,1 et 1%) grâce au design d’un panel à façon basé sur les SNP (single nucleotide polymorphism) [1]. Ceci en fait un outil de choix pour l’étude des modifications génomiques induites par la coupure double brin d’ADN du système CRISPR-Cas9-nucléase.
Question biologique : L’objectif est de quantifier avec une grande précision les principaux remaniements génomiques comprenant les pertes d’hétérozygoties à copie neutre, les délétions et les gains sur une échelle allant du kilobase au chromosome entier sur des jeux de données issues du scDNA-seq.
Type de données : données de scDNA-seq sous forme de fichiers h5 et FASTQ (jeu de données disponibles de cellules caractérisées en bulk par CGH-array avec délétions et gains pour la mise au point).
Développement bioinformatique : Il existe de nombreux outils dédiés à la détection de CNVs dans des données single cell (scRNA-seq : InferCNV [2], scmulti-omic : Mosaïc [3], KaryotapR [4], scWGS : SCNV [5], DCCNV [6], nbCNV [7]). L’objectif de ce stage sera d’implémenter ces différents outils afin de les tester systématiquement sur nos données d’amplicon scDNA-seq, d’en évaluer les performances et d’en comparer les résultats. Nous ferons un focus sur les gains de copies dont la détection est beaucoup plus difficile (pas de perte de SNP et faible variation de la fréquence allélique).
Profil recherché : Master 2 en Bioinformatique
- Connaissances en (bio)statistique et biologie
- Programmation R ou python et utilisation de lignes de commande de base bash
- Rigueur et esprit de synthèse
- Capacité à travailler en équipe
- Motivation pour un projet pluridisciplinaire
Equipes et Laboratoires : Le stage s’effectuera au sein de l’équipe 08 dans l’unité BRIC de recherche en cancérologie. Il sera co-encadré par Elodie Darbo et Slim Karkar (CB&B, IBGC) pour le coté bioinformatique et Julian Boutin pour le coté biologique.
-------------------- English version --------------------
Title: Analysis of Genomic Datasets from Single-Cell DNA-seq for Ultra-Sensitive Quantification of CRISPR-Cas9-Induced Rearrangements
Biological Context: Single-cell (sc) genome analysis is an essential approach to understanding genomic variability within a heterogeneous cell population. Genomic instability caused by DNA double-strand breaks (such as copy-neutral loss of heterozygosity, deletions, and gains) is typically investigated using bulk analyses, which lack the resolution (around 10%) to detect rare anomalies.
scRNA-seq enables indirect identification of copy number variations (CNVs)—particularly deletions at the single-cell level—through transcript abundance analysis. In contrast, scDNA-seq allows for direct genome analysis, potentially offering unmatched resolution to detect CNVs and copy-neutral loss of heterozygosity (cnLOH).
In collaboration with the Gustave-Roussy Institute (Functional Genomics Platform, Dr. N. Drouin), our team recently demonstrated the power of scDNA-seq not only to detect and map deletions but also to identify cnLOH with extremely high sensitivity (between 0.1 and 1%) using a custom SNP (single nucleotide polymorphism)-based panel [1]. This makes scDNA-seq an ideal tool for studying genomic alterations induced by CRISPR-Cas9-mediated DNA double-strand breaks.
Biological Question: The goal is to precisely quantify major genomic rearrangements, including cnLOH, deletions, and gains, across scales ranging from kilobases to entire chromosomes, using scDNA-seq datasets.
Data Type: scDNA-seq data in the form of h5 and FASTQ files (datasets from cells characterized in bulk by CGH-array, with known deletions and gains, will be used for benchmarking).
Bioinformatics Development: Numerous tools exist for CNV detection in single-cell data (e.g., InferCNV [2] for scRNA-seq, Mosaic [3] and KaryotapR [4] for scmulti-omics, SCNV [5], DCCNV [6], and nbCNV [7] for scWGS).
The aim of this internship will be to implement and systematically test these tools on our amplicon-based scDNA-seq datasets, evaluate their performance, and compare their outputs. Special attention will be given to copy number gains, which are more difficult to detect due to the lack of SNP loss and the subtle changes in allelic frequency.
Candidate Profile: Master’s level (M2) in Bioinformatics
- Knowledge in (bio)statistics and biology
- Programming skills in R or Python and basic bash command-line usage
- Rigor and ability to synthesize information
- Teamwork skills
- Motivation for a multidisciplinary research project
Team and Lab: The internship will take place within team 08 of the BRIC cancer‑research unit. It will be jointly supervised by Elodie Darbo and Slim Karkar (CB&B, IBGC) for the bioinformatics side and Julian Boutin for the biological side.
Références:
[1] Boutin et al, 2025, BioRXiv
[2] inferCNV of the Trinity CTAT Project. https://github.com/broadinstitute/inferCNV
[3] mosaic : Single-cell dna variant analysis software. https://github.com/MissionBio/mosaic
[4] Mays JC et al., 2023. KaryoTap Enables Aneuploidy Detection in Thousands of Single Human Cells. https://www.biorxiv.org/content/10.1101/2023.09.08.555746v1
[5] Xuefeng Wang, Hao Chen, Nancy R Zhang, DNA copy number profiling using single-cell sequencing, Briefings in Bioinformatics, Volume 19, Issue 5, September 2018, Pages 731–736, https://doi.org/10.1093/bib/bbx004
[6] Mostafa Karami, Bingjun Li, Samson Weiner, Sahand Hamzehei, and Sheida Nabavi. 2024. DCCNV: Enhanced CNV Detection in Single-Cell Sequencing Using Diffusion Process and Contrastive Learning. In Proceedings of the 15th ACM International Conference on Bioinformatics, Computational Biology and Health Informatics (BCB ‘24). Association for Computing Machinery, New York, NY, USA, Article 48, 1–6. https://doi.org/10.1145/3698587.3701395
[7] Zhang, C., Cai, H., Huang, J. et al. nbCNV: a multi-constrained optimization model for discovering copy number variants in single-cell sequencing data. BMC Bioinformatics 17, 384 (2016). https://doi.org/10.1186/s12859-016-1239-7