Algorithmes pour l'identification et la classification ab initio des ARN non-codants

Informations générales
Nom
Platon
Prénom
Ludovic
Diplôme
Thèse
Année
2019
Détails de la thèse/HDR
Jury
Christine Gaspin
Pierre Geurts
Younes Bennani
Daniel Gautheret
Jean-Daniel Zucker
Farida Zehraoui
Directeur (pour les thèses)
Fariza Tahi
Abdelhafid Bandahmane
Résumé en français
L'identification des ARN non codants (ARNnc) permet d'améliorer notre compréhension de la biologie. Les fonctions biologiques d'une grande partie des ARNnc sont connues, cependant il reste d'autres classes à découvrir.
L'identification et la classification des ARNnc dépend de plusieurs types de données hétérogènes (séquence, structure secondaire, interaction avec d'autres composants biologiques, etc.) et nécessite l'utilisation de méthodes appropriées. Nous avons développé des méthodes basées sur les cartes auto-organisatrices (SOM). Les SOM permettent d'analyser et de représenter les ARNnc par une carte où la topologie des données est conservée.

Nous avons proposé un nouvel algorithme basé sur les SOM qui permet d'intégrer plusieurs sources de données sous forme numérique ou sous forme complexe (représentée par des noyaux). Ce nouvel algorithme, appelé MSSOM, calcule une SOM pour chaque source de données et les combine à l'aide d'une SOM finale. Il calcule pour chaque cluster la meilleure combinaison de sources. Nous avons par ailleurs développé une variante supervisée de SOM, appelée SLSOM. SLSOM classifie les classes connues à l'aide d'un perceptron multicouche et de la sortie d'une SOM. Il intègre également une option de rejet qui lui permet de rejeter les prédictions incertaines et d’identifier de nouvelles classes.

Ces méthodes nous ont permis de développer deux nouveaux outils bioinformatiques. Le premier, IRSOM, est l'application d'une variante de SLSOM pour la discrimination entre les ARN codants et non-codants. Nous avons montré qu’il permet de séparer les ARN codants des non-codants et d'identifier les ARN ambigus avec l'option de rejet. Le second, CRSOM, permet d'identifier les ARNnc connus et de découvrir de nouvelles classes en utilisant des sources de données hétérogènes. Nous avons montré qu’avec seulement deux sources de données, on obtient des performances comparables à l'outil de référence (nRC) sans rejet et des performances supérieures avec le rejet.