Mots-Clés
Visualisation par nuage de points
Algorithmique géométrique
Traitement d'image
Description
English version bellow
Contexte
Les technologies de transcriptomique spatiale ont permis de réaliser des cartographies complètes de l’expression génique, pouvant aller jusqu’à l’échelle du single-cell, au sein d’une multitude de tissus. Ces nouvelles approches révolutionnaires offrent un point de vue unique du contexte cellulaire, avec une précision de localisation des transcrits à 1-2µm près.
Cependant, quand on s’intéresse à des cellules à la morphologie complexe, telles que les mélanocytes, cellules neurales, ou cellules immunitaires dendritiques, la localisation des transcrits peut s’avérer assez complexe. En effet, la localisation distante des mARN le long des dendrites mène souvent à des observations ambiguës et souvent fausses : les transcrits sont souvent détectés dans des régions correspondant à des cellules voisines ou non apparentées, ce qui entraîne des profils d’expression génique erronés et à une fausse assignation de type cellulaire.
Cette localisation distante des transcrits par rapport au centre des cellules compromet l’interprétation biologique des données de transcriptomique spatiale, et plus particulièrement dans des tissus avec des populations cellulaires denses et hétérogènes tels que le cerveau et la peau.
Objectifs
Ce projet vise à développer de nouvelles approches basées sur des plongements de données (nuages de points, graphes) pour identifier des patterns et corriger les transcrits au niveau dendritique qui sont fatalement mal attribués. En intégrant les connaissances biologiques et la localisation spatiale des mARN, nous cherchons à améliorer la fiabilité des technologies de transcriptomique spatiale au sein de ces tissus, répondant ainsi à une problématique majeure dans le domaine.
Il y a donc deux objectifs à réaliser à partir d’un nuage de points représentant des transcrits. (1) Déterminer la cellule d’appartenance de chaque transcrit, ce qui est un défi pour les transcrits dans les dendrites ; et (2) proposer un repositionnement des transcrits dans les dendrites, afin que les experts puissent utiliser une représentation visuelle fiable, sans chevauchement entre les transcrits de différentes cellules.
Deux approches pourront être abordées pour traiter ces nuages de points : un traitement géométrique, et un traitement image.
La première approche envisagée consiste à calculer un graphe de proximité (e.g., Delaunay) des positions des transcrits, afin de modéliser leur distribution spatiale. Le filtrage conditionnel de certaines arêtes permettrait ensuite d’isoler les transcrits de différentes cellules dans des composantes connexes distinctes. Certains types cellulaires présentent des propriétés particulières reconnaissables, ce qui permettrait d’affiner sémantiquement le filtrage d’arêtes. Une fois les transcrits de chaque cellule correctement isolés malgré la présence des dendrites, leur repositionnement pourra être réalisé simplement via un pavage à l’intérieur de la surface de la cellule, ou en contractant la composante connexe.
Cette piste est la principale envisagée en raison de sa facilité de mise en œuvre et des nombreuses possibilités d’affinement qu’elle permet. D’autres pistes -comme un traitement image à base de modèles d’apprentissage- pourraient toutefois être explorées si les résultats obtenus n’atteignent pas la qualité attendue.
Compétences recherchées
- Compétences en algorithmique géométrique, la manipulation de données 2D et de structures de données spatiales (e.g., Graphe de Proximité, QuadTree).
- Programmation en Python (Pandas, librairies de traitement géométrique)
- Des connaissances en traitement d’image, voire en apprentissage automatique, sont un plus.
Cadre
Encadrants : Nazim MECHKOURI, Loann GIOVANNANGELI
Lieu(x) : Laboratoire(s) de recherche, LaBRI et/ou BRIC
Des réunions régulières sont prévues pendant la phase de rédaction des spécifications ainsi que durant la réalisation du projet.
Context
Spatial transcriptomics technologies have made it possible to generate comprehensive maps of gene expression, reaching single-cell resolution, across a wide variety of tissues. These groundbreaking approaches offer a unique view of the cellular context, with transcript localization precision down to 1–2 µm.
However, when studying cells with complex morphologies—such as melanocytes, neural cells, or dendritic immune cells—transcript localization can become challenging. Indeed, the distal positioning of mRNAs along dendrites often leads to ambiguous and sometimes incorrect observations: transcripts are frequently detected in regions corresponding to neighboring or unrelated cells, resulting in erroneous gene expression profiles and incorrect cell-type assignments.
This spatial mismatch between transcripts and the actual cell centers compromises the biological interpretation of spatial transcriptomics data, particularly in tissues with dense and heterogeneous cell populations such as the brain and the skin.
Objectives
This project aims to develop new data-embedding approaches (based on point clouds or graphs) to identify spatial patterns and correct dendritically localized transcripts that are inevitably misassigned. By integrating biological knowledge with the spatial localization of mRNAs, we seek to improve the reliability of spatial transcriptomics technologies within such tissues, thereby addressing a major challenge in the field.
Two main objectives will be pursued using a point cloud representing transcript positions: (1) Determine the cell of origin for each transcript, which is particularly challenging for dendritic transcripts. (2) Propose a repositioning of dendritic transcripts so that experts can visualize a reliable representation without overlaps between transcripts from different cells.
Two possible strategies can be explored for processing these point clouds: a geometric approach and an image-based approach.
The first approach involves computing a proximity graph (e.g., Delaunay graph) from the transcript coordinates to model their spatial distribution. Conditional filtering of specific edges could then isolate transcripts belonging to different cells into distinct connected components. Certain cell types exhibit identifiable structural properties, which would allow for semantically refined edge filtering. Once the transcripts of each cell are correctly isolated despite dendritic extensions, their repositioning could be achieved through tiling within the cell surface or by contracting the connected component.
This geometric route is the primary focus due to its ease of implementation and the many opportunities for refinement it offers. However, alternative methods —such as image-based processing using learning models— could also be explored if the results do not reach the expected quality.
Required Skills
-
Background in geometric algorithms, manipulation of 2D spatial data and spatial data structures (e.g., proximity graphs, QuadTree).
-
Python programming, including libraries for geometric data processing (e.g., Pandas, geometry toolkits).
-
Knowledge of image processing or machine learning would be an advantage.
Project Framework
Supervisors: Nazim MECHKOURI, Loann GIOVANNANGELI
Location: Research laboratories — LaBRI and/or BRIC
Regular meetings are planned during the specification-writing phase as well as throughout the project implementation.