Stage M2 / A3 : Évaluation de l’identification taxonomique basée sur des graphes de pangénome
Stage · Stage M2 · 6 mois Bac+5 / Master Laboratoire · Toulouse (France) gratification de stage
Date de prise de poste : 1 janvier 2024
Mots-Clés
pangenomes graphes identification taxonomique benchmarking biodiversité
Description
Stage niveau M2 / A3 Ingénieur
Durée: 6 mois, débutant entre janvier et mars 2024.
Sujet: Évaluation du processus d’identification taxonomique basé sur des graphes de pangénome
Les méthodes d’inventaires de la biodiversité se bases de plus en plus sur le séquençage d’ADN environnemental (ADNe) qui est prélevé directement dans les écosystèmes (sols, rivières…)[1]. Si les échantillons ne sont pas dégradés, la totalité de l’ADNe peut être séquencé par une approche métagénomique. Mais lorsque l’ADN est dégradé ou que le signal des organismes est à l’état de traces, c’est une approche métabarcode qui est généralement utilisée.
Dans les deux approches, l’analyse bio-informatiques de l’ADNe est une étape critique mais difficile. En effet, de nombreux fragments ADN sont issus d’espèces dont les génomes restent inconnus. En particulier, l’étape critique de l’identification taxonomique vise à ré-associer les fragments séquencés à un clade (espèce, genre, famille…). Pour identifier un large spectre d’espèces, l’analyse se base généralement sur quelques marqueurs taxonomiques présents et homologues dans de nombreux clades (on peut citer les mitochondries, chloroplastes, ARNr, ou gènes du génome cœur). L’analyse de ces marqueurs n’est cependant pas triviale car leur séquence peut varier au sein même d’une population ou à l’inverse être conservée au point de confondre différentes espèces. Tout biais et erreurs dans l’identification taxonomique auront un impact direct sur toutes les post-analyses : indices de diversité fonctionnelle, phylogénétique ou mise en évidence d’interactions écologiques.
Aujourd’hui, le processus bioinformatique de classification taxonomique peut être mené via trois grandes familles d’approches: 1) la classification en OTUs (Operational Taxonomy Unit) optionnellement suivie d’alignements avec une base de données de marqueurs de référence, 2) les méthodes LCA (Least-Common Ancestor) combinant alignements avec une base de référence et affinement de la classification via une taxonomie (ex : NCBI taxonomie) ou 3) les approches de placement phylogénétique, permettant une classification très fine sous condition de disposer préalablement d’un phylogénie pour le marqueur taxonomique analysé.
Plus récemment, une nouvelle famille de méthodes basées sur des graphes de pangénome a permis de nouvelles avancées dans l’analyse de la diversité génomique au sein d’une espèce ou d’un complexe d’espèces [2]. Différents génomes sont tout d’abord intégrés sous forme d’un graphe : les nœuds représentes des mots d’ADN, les liens indiquent la contiguïté de ces mots dans un des génomes et les chemins le long du graphe indiquent les génomes à l’origine de chaque nœuds et liens. Représenter un ensemble de génomes sous la forme d’un graphe a l’avantage d’apporter une intégration non biaisée de la diversité des génomes : les chemins alternatifs permettent de décrire l’ensemble des variations qui caractérisent le complexe d’espèces (substitutions, indels, réarrangements) et tout alignement de nouvelles séquences sur le graphe se fera dans le contexte de la totalité de cette information. A l’opposé, avec une seule séquence linéaire ( l’approche standard), la classification de nouvelles séquences sera biaisée vers les espèces de référence possédant les mêmes variations génomiques.
Aujourd’hui les graphes de pangénomes sont principalement utilisés dans des problématiques d’adaptation et de sélection visant à intégrer la diversité génomique des espèces cultivés et des espèces sauvages apparentées. Mais de première applications en génomique environnementale commencent à émerger dans la littérature [3].
Figure : Exemple de pipeline utilisant des graphes de pangénome pour l’analyse d’ADNe (adapté de [3]).
L’approche graphe de pangénomes possède donc un potentiel pour améliorer l’identification taxonomique et le stage s’intéressera à évaluer ce potentiel. Aujourd’hui, plusieurs outils de construction de graphe de pangénomes sont disponibles [2]. Et plusieurs outils d’alignement de données de séquençage sur des graphes ont été évalués dans la littérature et par notre équipe dans le cadre d’un précédent stage [4]. En se basant sur cette expérience, le stage s’intéressera à développer une nouvelle méthodologie d’identification taxonomique exploitant ces outils. Le projet se basera sur des données métagénomiques et métabarcoding déjà disponibles, et issues de projets d’analyse de la biodiversité des insectes du sol et de forêts équatoriales (coléoptères, acariens...).
REFERENCES : [1] X Yingchun, et al, 2022. A Review of Environmental DNA Field and Laboratory Protocols Applied in Fish Ecology and Environmental Health. Front Environ Sci. doi.org/10.3389/fenvs.2022.725360 . [2] Hickey, G et al. Pangenome graph construction from genome alignments with Minigraph-Cactus. Nat Biotechnol, 2023. doi.org/10.1038/s41587-023-01793-w . [3] NA Vogel et al. Euka: Robust detection of eukaryotic taxa from modern and ancient environmental DNA using pangenomic reference graphs. bioRxiv 2023.04.04.535531; doi.org/10.1101/2023.04.04.535531 . [4] Rautiainen, M. GraphAligner: rapid and versatile sequence-to-graph alignment. Genome Biol 21, 253, 2020. doi.org/10.1186/s13059-020-02157-2
Le stage aura plusieurs objectifs :
-
construire des graphes de pangénome mitochondriaux (et chloroplastiques) pour différents clades à partir de séquences déjà disponibles.
-
développer un pipeline de classification taxonomique basé sur l’approche graphe de pangénomes en réutilisant des outils d’alignement sur graphe déjà disponibles.
-
Benchmarker la qualité des identifications produites par cette approche, et la comparer aux approches standards de clustering OTU et de placement phylogénétique.
Profil de candidat souhaité :
-
connaissances en graphes non requises
-
notions de base des méthodes liés à l’ADNe et la biodiversité
-
notions de base de l’analyse métagénomique ou métabarcoding
-
bases en programmation python, connaissance de Snakemake appréciée
-
autonomie
-
capacité de rédaction, de synthèse
-
capacité de travail en équipe multidisciplinaire
Encadrement :
-
Le stage sera encadré par Benjamin Linard, spécialisé dans le développement d’outils pour l’analyse des séquences génomiques et métagénomiques.
-
Le stagiaire sera hébergé au sein de l’équipe SaAB, unité MIAT, de l’INRAE INRAE Occitanie-Toulouse. (24, Chemin de Borde Rouge 31320 Auzeville-Tolosane).
Candidature
Procédure : Envoyer un email avec CV + motivation.
Date limite : 1 décembre 2023
Contacts
Benjamin Linard
beNOSPAMnjamin.linard@inrae.fr
Offre publiée le 28 septembre 2023, affichage jusqu'au 1 décembre 2023