From reads to transcripts: de novo methods for the analysis of transcriptome second and third generation sequencing

Informations générales
Nom
Marchet
Prénom
Camille
Diplôme
Thèse
Année
2018
Détails de la thèse/HDR
Université
Jury
Eric Coissac
Hélène Touzet
Thomas Derrien
Christine Gaspin
Dominique Lavenier
Thierry Lecroq
Hagen Tilgner
Directeur (pour les thèses)
Pierre Peterlongo
Résumé en français
Le but de ce travail de thèse est de permettre le traitement de données issues du séquençage de transcriptomes, qui reflètent l’expression des gènes. Plus précisément, il s’agit mettre à profit les caractéristiques des données produites par les nouvelles technologies de séquençage, dites de troisième génération (TGS). Ces technologies produisent des séquences de grande taille, qui couvrent la longueur totale des gènes. Ceci présente l’avantage d’éviter la phase d’assemblage des séquences, ce qui était nécessaire avec les données générées par les précédentes technologies de séquençage appelées NGS. En revanche, les données TGS sont bruitées (jusqu’à 15% d’erreurs de séquençage), nécessitant le développement de nouveaux algorithmes pour analyser ces données. Les travaux de cette thèse ont consisté au développement méthodologique et à l’implémentation de nouveaux algorithmes permettant le regroupement des séquences TGS par gène, puis à leur correction et enfin à la détection des différents isoformes de chaque gène.
Résumé en anglais
The purpose of this thesis work is to allow the processing of transcriptome sequencing data, which reflect gene expression. More precisely, it is a question of taking advantage of the characteristics of the data produced by the new sequencing technologies, known as third generation (TGS). These technologies produce large sequences, which cover the total length of genes. This has the advantage of avoiding the sequence assembly phase, which was necessary with the data generated by previous sequencing technologies called NGS. On the other hand, TGS data are noisy (up to 15% sequencing errors), requiring the development of new algorithms to analyze these data. The work of this thesis consisted in the methodological development and implementation of new algorithms allowing the grouping of TGS sequences by gene, then their correction and finally the detection of the different isoforms of each gene.