Analyse des séquences génomiques : Identification des ARNs circulaires et calcul de l'information négative

Informations générales
Nom
Héliou
Prénom
Alice
Diplôme
Thèse
Année
2017
Détails de la thèse/HDR
Résumé en français
Le développement des techniques de séquençage à haut débit a permis de
nombreuses avancées dans les domaines de la biologie et de la santé. Les
données sont produites en grande quantité à des coûts toujours plus
faibles, cependant leur stockage et leurs analyses demeurent de vastes
sujets de recherche.

Dans un premier temps nous avons étudié l'identification des ARNs
circulaires à partir des données de séquençage. L'alignement de ces
données, appelées des lectures, pour identifier les ARNs circulaires est
particulier. En effet, avant d'être séquencés les ARNs sont fragmentés
aléatoirement en morceaux de taille environ 100. Ceux-ci sont ensuite lus
lors du séquençage, on obtient ainsi les lectures. La jonction d'un ARN
circulaire peut se retrouver à des positions aléatoires sur les lectures.
Celles-ci s'alignent donc seulement partiellement à deux endroits sur le
génome, au lieu d'avoir un match global. Nous avons proposé une nouvelle
méthode permettant d'identifier les ARNs circulaires chez les Archées et
les Bactéries. Nos résultats ont permis de montrer l'implication de la
ligase de la famille Rnl3 dans la circularisation des ARNs chez l'archée
Pyroccoccus Abyssi.

Dans un second temps, nous avons abordé de façon plus théorique l'analyse
des séquences génomiques. L'analyse de ces séquences repose généralement
sur leur alignement ou sur la distribution des mots présents. Nous nous
sommes intéressés à une approche duale de celles-ci, en nous concentrant
sur ce qui est absent, l'information négative. Plus précisément nous avons
élaboré des algorithmes pour calculer les mots qui sont absents d'une
séquence mais dont tous les facteurs sont présents, les mots absents
minimaux. Nos algorithmes ont tous des complexités linéaires en temps et
en espace, mais ils diffèrent sur le compromis entre temps de calcul et
quantité de mémoire interne utilisée.
Résumé en anglais
Improvements in high-throughput sequencing has enabled achievements in
Biology and Health. Data are produced in large scale at low cost. However
their storage and analysis remain problematic. In this PhD thesis, we
tackled two problems related to NGS data analysis.

First we studied the identification of circular RNAs from sequencing data,
called the reads. Alignment of reads coming from circular RNAs is special.
Indeed before the sequencing step, the RNAs are randomly fragmented into
pieces of size more or less 100. These are then sequenced into reads. The
junction of a circular RNA can be located anywhere on the reads. Then
these reads match only partially at two places instead of one global
match. We proposed a novel pipeline to identify circular RNAs in Archaea
and Bacteria. Our results evidenced the implication of the Rnl3 family's
ligase in the circularization of RNAs in the Archaea Pyroccoccus Abyssi.

Secondly, we addressed a more theoretical problem of genomic sequences
analysis.
Usually these sequences are analysed on the basis of their alignment or of
their words distribution. We focused on a dual approach, based on what is
absent from the sequence, the negative information.
More precisely we devised several algorithms to compute the minimal absent
words. They are absent from the sequence but their factors are all
present. Our algorithms have linear complexities in time and space but
they vary in the trade-off between time and internal memory consumption.