Mots-Clés
pipeline
phylogénomique
Description
Développement et optimisation d’un pipeline de phylogénomique basé sur les UCEs pour une distribution au sein d’un consortium scientifique
Présentation du laboratoire
Notre équipe, intégrée au PEPR DynaBIOD (Programme et Équipements Prioritaires de Recherche sur les Dynamiques de la BIODiversité terrestre, https://www.cnrs.fr/fr/pepr/dynamiques-biodiversite-terrestre-dynabiod), travaille notamment sur des projets de phylogénomique comparée, avec un focus sur l’utilisation des éléments ultra-conservés (UCEs) pour la reconstruction phylogénétique. Nous collaborons avec des partenaires académiques pour analyser des échantillons variés (frais ou de collection, stockés en alcool ou à sec) issus de groupes taxonomiques divers.
Contexte et enjeux du stage
Les UCEs sont des marqueurs génomiques puissants pour les études phylogénétiques. En analysant ces marqueurs et leurs régions flanquantes nous avons apporté un éclairage nouveau sur l’histoire évolutive de certains groupes, en particulier les micro-hyménoptères de la super-famille des chalcidiens [1] et les papillons de nuit de la famille des Saturniidae [2]. Ces travaux ont permis de réviser les classifications taxonomiques de ces groupes et de mieux comprendre comment ils sont
apparus et se sont diversifiés à travers le monde. Nos analyses permettent d’obtenir des résultats exploitables, mais certaines étapes, notamment la détection d’homologie entre contigs et loci de référence, pourraient être optimisées et automatisées.
Par ailleurs, la comparaison avec des outils de référence (comme phylUCE [3]) montre que notre approche identifie un nombre plus important d’UCEs, soulignant l’intérêt de combiner les approches existantes pour renforcer la qualité et la robustesse des analyses. Ce stage s’inscrit dans le cadre du PEPR DynaBIOD. Il vise à standardiser les protocoles d’analyse des UCEs pour des échantillons variés, en particulier des spécimens de collection pris dans des musées afin de fournir un pipeline standard pour les études futures des équipes impliquées dans le PEPR.
Missions principales
- Revue des workflows existants :
• Réaliser une revue bibliographique des pipelines de phylogénomique basés sur les
UCEs.
• Explorer et comparer les workflows disponibles dans des catalogues spécialisés
(WorkflowHub [4], nf-core [5]).2. Optimisation du pipeline actuel :
• Identifier et améliorer les étapes critiques.
• Automatiser le pipeline pour une utilisation standardisée au sein du PEPR.
- Comparaison avec un outil de référence :
• Évaluer les performances du pipeline optimisé par rapport à phylUCE (en termes de
nombre et de longueur des UCEs identifiés).
Compétences requises
• Formation : Master 2 en bioinformatique, biologie évolutive.
• Compétences techniques :
• Maîtrise de Python, connaissance de Linux et des environnements de calcul intensif.
• Expérience avec un moteur de workflows (NextFlow).
• Connaissance des méthodes phylogénétiques et des marqueurs UCEs.
• Qualités personnelles : Autonomie, rigueur, esprit d’analyse, capacité à travailler en équipe
et à communiquer des résultats techniques.
Modalités pratiques
• Durée : 5 à 6 mois.
• Lieu : Grenoble, Laboratoire d’ECologie Alpine (https://leca.osug.fr/).
• Gratification : Selon la législation en vigueur.
• Avantages : Accès à des ressources informatiques performantes, participation à des
séminaires et formations en bioinformatique.
Encadrement
Le stage se déroulera au LECA (Grenoble) et sera co-encadré par Vincent Lefort (IR CNRS LECA)
et Astrid Cruaud (DR INRAE CBGP, Montpellier).
Vincent L. développe des outils bioinformatique pour la phylogénie. Il s’intéresse au traitement des
données d’ADN environnemental pour étudier la biodiversité, notamment par des approches de
metabarcoding et de métagénomique. Il utilise des approches de phylogénie moléculaire pour les
assignations taxonomiques.
Astrid C. étudie des complexes et groupes d’espèces d’arthropodes d’intérêt agronomique
(bioagresseurs et ennemis naturels). En agrégeant des informations diverses (morphologie,
marqueurs pangénomiques, traits d’histoire de vie, etc.), elle cherche à établir un cadre évolutif
robuste pour ces groupes qui lui permet d’interpréter des patrons de diversité, de prédire des traits
ou d’anticiper des potentialités en l’absence de données biologique.
[1] https://doi.org/10.1111/cla.12561
[2] https://doi.org/10.1101/2022.03.29.486224
[3] https://doi.org/10.1093/bioinformatics/btv646
[4] https://doi.org/10.1038/s41597-025-04786-3
[5] https://doi.org/10.1038/s41587-020-0439-x