Mots-Clés
one health
microbiology
pathogen
phylogeny
pan-genome
GWAS
Description
Etude de l’adaptation au stress dans les souches de Escherichia coli du phylogroupe B2 par une approche phylogénomique
Laboratoire d’accueil : Laboratoire de Microbiologie et Génétique Moléculaire (CBI-LMGM) – équipe Génomique des Systèmes intégrés
Supervision : Yves Quentin (yves.quentin@utoulouse.fr) et Petra Langendijk-genevaux (petra.langendijk-genevaux@utoulouse.fr)
Contexte
Mieux connue comme l’une des principales bactéries commensales de l’intestin, E. coli est également un pathogène opportuniste polyvalent qui provoque à la fois des infections intestinales (diarrhée) et extra-intestinales (infection des voies urinaires, pneumonie, méningite néonatale et septicémie). Aujourd’hui, E. coli représente un problème majeur de santé publique, non seulement en raison de l’incidence et de la gravité de ses infections, mais aussi en raison de sa résistance croissante aux antibiotiques. Si la pathogénicité des souches d’E. coli dépend de nombreux gènes de virulence, elle dépend également de leurs propriétés métaboliques et de leur capacité à s’adapter et à survivre à des conditions de stress. Pour s’adapter à un environnement changeant, les bactéries ont développé une réponse adaptative majeure conduisant à un réaménagement global de l’expression génétique, la réponse générale au stress (GSR). Chez la plupart des bactéries, la GSR est déclenchée par un changement dans l’abondance ou l’activité d’un facteur sigma. Chez E. coli, la GSR dépend de RpoS, une sous-unité sigma alternative de l’ARN polymérase induite dans un grand nombre de conditions défavorables.
Seules quelques études se sont intéressées aux mécanismes moléculaires augmentant la quantité de RpoS dans des conditions de stress. Dans ces conditions, la protéolyse de RpoS est inhibée par un mécanisme qui reste encore inconnu. De nouveaux acteurs des voies de dégradation de RpoS ont été isolés et nommés Ira pour « Inhibitor of RssB Activity » (inhibiteur de l’activité RssB). Ces protéines anti-adaptatrices interagissent directement avec RssB et le séquestrent, ce qui entraîne la stabilisation de RpoS. À l’heure actuelle, six protéines Ira ont été identifiées.
Le sujet du stage s’inscrit dans le cadre du projet ANR IrAdapt dont le but est d’explorer la diversité naturelle d’E. coli afin d’améliorer nos connaissances sur la régulation de RpoS et son impact sur la physiologie cellulaire. Nos collaborateurs biologistes expérimentaux définiront de manière exhaustive la famille Ira des protéines anti-adaptatrices, qui stabilisent RpoS, et évalueront les conséquences de ces stabilisations sur la fitness et l’adaptation bactériennes. Notre équipe est en charge d’un workpackage dont l’objectif est de réaliser des analyses phylogénomiques globales des gènes ira au sein de l’espèce E. coli (notamment dans les souches environnementales), afin de mettre en évidence leur diversité en termes de composition, de distribution et de régulation, de déchiffrer leurs liens avec le phénotype et/ou le patrimoine génétique des souches d’E. coli, et d’en déduire leur trajectoire évolutive.
Objectifs du stage
1. Construction d’un échantillon d’étude équilibré et représentatif de la diversité des souches d’E. coli.
Face à la grande quantité de génomes séquencés il est nécessaire de réaliser une sélection de génomes sur la base de leur qualité et de leur représentativité. Pour cela, nous allons utiliser une base de données de référence d’E. coli et de Shigella, qui contient des données provenant de différentes sources, soigneusement sélectionnées et enrichies par des métadonnées issues de publications (PopPUNK databases). Comme cette collection est biaisée en faveur des lignées cliniques d’E. coli, elle doit être enrichie par de nouveaux génomes provenant de zones géographiques, d’hôtes et d’environnements diversifiés. Cependant, pour maintenir un nombre de souches gérable par des approches de génomique comparative, il est nécessaire de réduire le nombre de génomes à analyser, tout en préservant la qualité des génomes et leur diversité génétique et phénotypique. Cette étape sera réalisée à l’aide du logiciel PopPUNK (Zhao et al. 2023). Les gènes ira seront caractérisés à l’aide de profils de modèles de Markov cachés qui seront utilisés pour les identifier dans les génomes (package HMMER3). Les gènes appY et iraL qui sont codés par des prophages seront annotés à l’aide de méthodes dédiées.
2. Analyse approfondie de la distribution d’Ira dans les génomes du phylogroupe B2.
Dans cette partie nous nous focaliserons sur les génomes du phylogroupe B2 car, d’après nos résultats préliminaires, il présente une distribution des gènes ira radicalement différente de celle des autres phylogroupes. Ce phylogroupe contient des souches commensales ainsi que des souches pathogènes issues de différents pathotypes (Denamur et al. 2021), notamment extra-intestinaux (ExPEC) responsables d’infections urinaires fréquentes et graves et de septicémies (causant plus de 10 % des décès chez les adultes et les enfants en France). Nous allons donc examiner l’évolution des gènes ira à l’aide d’une approche de phylogénomique sur notre échantillon de souches du phylogroupe B2. Les analyses seront réalisées à l’aide de Panaroo (Tonkin-Hill et al. 2020), qui est bien adapté à l’analyse de souches de la même espèce. Il présente l’avantage de réanalyser les séquences génomiques afin de proposer des corrections d’annotation des gènes et de révéler la présence de pseudogènes et de gènes fragmentés. Les résultats de Panaroo seront intégrés dans des études d’association pangénomique (GWAS) afin de comprendre les relations fonctionnelles entre les gènes ira et les caractéristiques des souches. Nous appliquerons également une approche alternative, appelée études d’épistasie et de co-sélection pangénomiques (GWES) (Pensar et al. 2019), afin de révéler les interactions épistatiques entre les loci sans avoir à mesurer un phénotype. Nous pouvons envisager l’utilisation de k-mers, de SNP ou de matrice présence/absence de gènes orthologues en tant que variants génétiques, voire une combinaison de ces trois caractéristiques. Ces analyses d’association seront réalisées à l’aide de logiciels tels que pyseer (Lees et al. 2018), Spydrpick (Pensar et al. 2019) ou Coinfinder (Whelan et al. 2020), qui sont compatibles avec les résultats de Panaroo.
Compétences recherchées :
• Maîtrise de l’environnement Linux
• Bonnes bases en programmation (python, bash, R)
• Connaissances en évolution moléculaires, phylogénomique et génomique évolutive
• Intérêt pour les approches « one Health »
Références
Denamur E, Clermont O, Bonacorsi S, Gordon D. 2021. The population genetics of pathogenic Escherichia coli. Nat Rev Microbiol 19:37–54. https://doi-org.insb.bib.cnrs.fr/10.1038/s41579-020-0416-x
Lees JA, Galardini M, Bentley SD, Weiser JN, Corander J. 2018. pyseer: a comprehensive tool for microbial pangenome-wide association studies.Stegle O, editor. Bioinformatics 34:4310–4312. https://doi-org.insb.bib.cnrs.fr/10.1093/bioinformatics/bty539
Pensar J, Puranen S, Arnold B, MacAlasdair N, Kuronen J, Tonkin-Hill G, Pesonen M, Xu Y, Sipola A, Sánchez-Busó L, et al. 2019. Genome-wide epistasis and co-selection study using mutual information. Nucleic Acids Research 47:e112–e112. https://doi-org.insb.bib.cnrs.fr/10.1093/nar/gkz656
Tonkin-Hill G, MacAlasdair N, Ruis C, Weimann A, Horesh G, Lees JA, Gladstone RA, Lo S, Beaudoin C, Floto RA, et al. 2020. Producing polished prokaryotic pangenomes with the Panaroo pipeline. Genome Biol 21:180. https://doi-org.insb.bib.cnrs.fr/10.1186/s13059-020-02090-4
Whelan FJ, Rusilowicz M, McInerney JO. 2020. Coinfinder: detecting significant associations and dissociations in pangenomes. Microbial Genomics [Internet] 6. Available from: https://www.microbiologyresearch.org/content/journal/mgen/10.1099/mgen.0.000338
Zhao B, Lees JA, Wu H, Yang C, Falush D. 2023. Genealogical inference and more flexible sequence clustering using iterative-PopPUNK. Genome Res. 33:988–998. https://doi-org.insb.bib.cnrs.fr/10.1101/gr.277395.122