Mots-Clés
Génomique
éléments transposables
classification
intelligence artificielle
pipeline
développement
Description
Stage M2 (6 mois) : Optimisation de la classification automatique des éléments transposables par des approches d’IA
Contexte :
Les éléments transposables (ET) sont des séquences d’ADN capables de se déplacer dans les génomes. Présents en grand nombre chez la plupart des espèces, ils jouent un rôle majeur dans l’évolution, la structure et la régulation des génomes. Leur détection et leur classification constituent donc une étape essentielle dans l’analyse des génomes.
La classification des ET reste toutefois une tâche complexe, en raison de la grande diversité de leurs familles, structures et signatures moléculaires. Plusieurs outils bioinformatiques ont ainsi été développés pour les classer à partir de différentes caractéristiques (domaines protéiques, motifs, similarités, etc.).
Parmi ces outils, PASTEC (Pseudo Agent System for Transposable Elements Classification) a été développé au sein de l’URGI (Unité Ressources Génomique-Info - INRAE). Il repose sur un ensemble d’agents de détection et un système de pondération permettant de combiner les différents caractéristiques pour attribuer une classification selon la nomenclature hiérarchique des ET.
Afin d’améliorer ses performances, l’évolution envisagée consiste à optimiser les poids de classification à l’aide d’approches d’intelligence artificielle, afin d’améliorer la précision de la classification automatique et d’explorer de nouvelles stratégies de décision.
Objectifs :
· Mettre en place une stratégie d’optimisation des poids de classification à l’aide de méthodes d’apprentissage automatique (par ex. régressions, random forest, optimisation bayésienne).
· Évaluer les performances du nouveau modèle sur des jeux de données de référence (benchmark).
Travail demandé :
Compétences techniques recherchées :
· Maîtrise des commandes UNIX (shell) et de la programmation python.
· Connaissance de base des workflows bioinformatiques (Snakemake, Nextflow ou équivalent)
· Compréhension générale des principes d’apprentissage automatique (régression, classification, optimisation)
Références :
Hoede C, Arnoux S, Moisset M, Chaumier T, Inizan O, Jamilloux V, Quesneville H. PASTEC: an automatic transposable element classification tool. PLoS One. 2014 May 2;9(5):e91929. doi: 10.1371/journal.pone.0091929. PMID: 24786468; PMCID: PMC4008368.
Wicker T, Sabot F, Hua-Van A, Bennetzen JL, Capy P, Chalhoub B, Flavell A, Leroy P, Morgante M, Panaud O, Paux E, SanMiguel P, Schulman AH. A unified classification system for eukaryotic transposable elements. Nat Rev Genet. 2007 Dec;8(12):973-82. doi: 10.1038/nrg2165. PMID: 17984973.