Mots-Clés
base de données
workflow
nextflow
snakemake
grist
annotation
bacteries
phages
effecteurs
système de défense anti-phage
pathotypage
python
Description
Mise en place d’un workflow d’analyse de génomes bactériens dans un contexte d’analyse pangénomique.
Contexte
Au sein de l’IRD (Institut de Recherche pour le Développement) à Montpellier et de l’unité de recherche PHIM (Plant Health Institute of Montpellier), l’équipe XPLAIN s’intéresse aux interactions entre les bactéries du genre Xanthomonas et ses hôtes, notamment chez le riz, le manioc et les agrumes, mais aussi d’autres organismes modèles. Nos finalités sont d’améliorer le contrôle des maladies causées par ces bactéries. Un des axes de recherche de l’équipe repose sur le génotypage des populations de bactéries mais aussi des phages associés, par des approches génomiques et de séquençage.
Pour comprendre la variabilité génétique des souches de Xanthomonas, nous utilisons l’approche pangénome au travers l’utilisation et le développement de l’outil PanExplorer (https://panexplorer.southgreen.fr/), en l’appliquant sur les ressources génomiques développées dans l’équipe et en agrégeant l’information issue de l’ensemble des génomes disponibles. Dans ce contexte d’analyse comparative des souches, nous souhaitons enrichir les annotations de nos génomes collectés dans l’équipe, et automatiser l’analyse et l’agrégation de nouveaux éléments génomiques tels que les effecteurs de virulence, les systèmes de défense anti-phages, les éléments génétiques mobiles et prophages, les systèmes de sécrétion, ou encore les locus de type CISPR-gene cas.
Par ailleurs, l’équipe utilise la solution de base de données Grist (https://biologrist.ird.fr/) pour faciliter la gestion de données de recherche : données d’échantillonnage terrain, de souches et de métadonnées de séquençage. Une nouvelle composante de notre modèle reste à mettre en place pour le stockage et le partage de ces éléments génomiques associés aux souches ainsi qu’aux données de phénotypage, notamment les informations de pathotypage et de résistance aux phages.
Nos activités de développement et d’analyse bio-informatiques s’appuient sur le plateau bioinformatique i-trop de l’IRD (https://bioinfo.ird.fr/) et sont réalisées en lien étroit avec la plate-forme bioinformatique Montpellieraine South Green (https://www.southgreen.fr/).
Objectifs
Les objectifs du stage seront de (i) consolider la procédure déjà en place pour l’assemblage des génomes de bactéries et de phages à partir de données de séquençage Nanopore (démultiplexage, contrôle qualité, assemblage), (ii) mettre en place un workflow permettant l’analyse approfondie de génomes bactériens incluant différents outils permettant l’identification d’éléments d’intérêt pour l’équipe (effecteurs de virulence, systèmes de défense anti-phages, éléments génétiques mobiles et prophages, systèmes de sécrétion, locus de type CISPR-gene cas…) et l’appliquer sur l’ensemble des génomes séquencés dans l’équipe afin de produire des fichiers d’annotations enrichis pour les analyses comparatives sous-jacentes, et (iii) intégrer les informations génomiques dans la base de données Grist au travers de l’API Grist, après avoir étendu le modèle de base de données pour héberger ce type d’information.
Profil souhaité
● Master 1 Bioinformatique ou équivalent
● Maitrise d’un ou plusieurs langages de programmation (python, perl, R)
● Connaissance en microbiologie et génomique
● Connaissances et maîtrise des concepts de bases de données relationnelles
● Intérêt pour les systèmes de gestion de workflow (Snakemake, Nexttfow, Galaxy)
Encadrement
Alexis Dereeper (IE IRD Génomique et Bioinformatique) : alexis.dereeper@ird.fr
Clara Torres-Barcelo (CR INRAe microbiologiste spécialiste Phage) : clara.torresbarcelo@inrae.fr
Sébastien Cunnac (CR IRD Bactériologiste et Bioinformatique) : sebastien.cunnac@ird.fr