Étude des différentes approches d’indexation : du génome au pan-génome, Application aux génomes de riz

Informations générales
Nom
Agret
Prénom
Clément
Diplôme
Thèse
Année
2020
Détails de la thèse/HDR
Jury
M. Jacques VAN HELDEN Professeur à l'Université d'Aix-Marseille (Rapporteur)
M. Thierry LECROQ Professeur à l'Université de Rouen Normandie (Rapporteur)
Mme Thérèse COMMES Professeur à l'Université de Montpellier (Examinatrice)
M. Mikaël SALSON Maître de conférences à l'Université de Lille (Examinateur)
Mme Hélène CHIAPELLO Ingénieur de recherche à l'INRAE (Examinatrice)
M. Manuel RUIZ CIRAD Chercheur au Cirad (HDR) (Directeur de thèse)
Mme Annie CHATEAU Maître de conférences à l'Université de Montpellier (HDR) (Co-encadrante de thèse)
M. Alban MANCHERON Maître de conférences à l'Université de Montpellier (Co-encadrant de thèse)
M. François SABOT Directeur de recherche à l'IRD (HDR) (Invité)
Directeur (pour les thèses)
Manuel RUIZ CIRAD
Annie CHATEAU
Alban MANCHERON
Résumé en français
Le sujet de ma thèse concerne l'étude des structures d'index et des méthodes de compression pour apporter une solution au problème d'indexation d'une collection de génomes similaires. Le but ultime est d'appliquer ces méthodes à l'indexation des génomes du riz pour permettre l'analyse de l'impact de leurs variations structurelles sur les taux de recombinaison, les fréquences alléliques et d'autres activités de GenomeHarvest. L'indexation de génomes complets est une étape importante dans l'exploration et la compréhension des données d'organismes vivants. Je présenterais mes travaux préliminaires qui ont conduit à une nouvelle structure d'indexation basée sur le découpage par k-mer. Cette structure permet d'indexer des collections de génomes en sa basant sur leurs contenus en k-mers. L'algorithme de construction et d'interrogation de l'index est massivement parallélisé, ce qui permet de repousser les contraintes matérielles. En effet, l'implémentation de cet algorithme (RedOak) permet son utilisation sur des grilles de calculs, permettant ainsi le traitement de grandes quantités de génomes.
Résumé en anglais
The subject of my thesis concerns the study of index structures and compression methods to find a solution to the problem of indexing a collection of similar genomes. The ultimate goal is to apply these methods to the indexation of rice genomes and to facilitate the analysis of the impact of their structural variations on recombination rates, allele frequencies, GWAS studies, Other activities of GenomeHarvest. This structure makes it possible to index collections of genomes based on their contents in k-mer. The index construction and interrogation algorithm is massively parallelized, which makes it possible to push back the material constraints. Indeed, the implementation of this algorithm (RedOak) allows its use on calculation grids, thus allowing the processing of large quantities of genomes.