Mots-Clés
BWT
FM-index
Graphes de Wheeler
placement de lectures sur des séquences de référence
Description
URGENT
Suite au désistement tardif d'un sujet mieux classé, le projet présenté ci-dessous est financé, sous réserve d'un début de doctorat au 1er décembre 2021.
Me contacter (Laurent.Mouchard@univ-rouen.fr) pour plus d'informations si nécessaire
Contexte scientifique :
Dans le contexte évolutif des technologies de séquençage à haut (et à très haut) débit, un grand nombre d'algorithmes de placement de lectures sur des séquences de références utilisent des structures d'auto-indexation, telles la BWT, le SA et le FM-index (les historiques BWA, Bowtie et autres en sont des exemples).
Plus récemment, la structure de graphe de Wheeler a été proposée (https://www.sciencedirect.com/science/article/pii/S0304397517305285) ainsi qu'une représentation compacte de cette structure.
Objectifs du projet :
Le principal objectif du projet est l'étude de cette structure et le développement d'algorithmes permettant, par exemple, de prendre en charge le séquençage à haut débit en fragments longs.
Des contacts avec les auteurs des articles séminaux permettront d'affiner le sujet exact du doctorat dès la fin d'année 2021, à la suite de la nécessaire phase d'étude et de prise en main de la structure.
Équipe d'accueil :
L’équipe TIBS du LITIS, hébergée au sein d'un tout récent bâtiment dédié à la recherche et à l'innovation en Biologie situé sur le campus de Mt St Aignan sur les hauteurs de la charmante ville de Rouen, a travaillé sur les structures d'auto-indexation (BWT, SA et FM-index) sur plusieurs aspects :
- la dynamicité des structures (quel est le nombre minimal d’opérations à faire pour mettre à jour une structure lorsque le texte qu'elle indexe est modifié sans avoir à la reconstruire en totalité, thèse Mikaël Salson, 2010)
- BWT, SA et FM-index d’un ensemble de textes plutôt qu’un ensemble de BWT, SA et FM-index (PHC STAR avec Seoul National University, 2016)
- la transformée de Burrows-Wheeler pour la recherche d’un motif dans une séquence consensus avec pondération (Collaboration avec l’Université de Stellenbosch, Afrique du Sud et Aberystwyth University, Pays de Galles).
Profil pour la candidature :
Idéalement un Master 2 de Bioinformatique, avec un appétit et des compétences pour l'algorithmique, un Master 2 en Informatique/Sciences des données (avec une bonne compréhension de ce qu'est le séquençage à haut-débit et la génétique/génomique)