M2. Analyse comparée des méta-pangénomes d’Archaea /Comparative analysis of archaeal meta-pangenomes
Stage · Stage M2 · 6 mois Bac+5 / Master CEA / Genoscope ? LABGEM · Evry (France) gratification de stage
Date de prise de poste : 1 janvier 2022
Mots-Clés
pangenome microbial genomics microbiology data analysis bioinformatics
Description
Analyse comparée des méta-pangénomes d’Archaea : relier la diversité génomique des espèces aux écosystèmes Une caractéristique des populations naturelles est que les individus qui les composent ne sont pas tous identiques d’un point de vue génétique. Dans le monde microbien, les variations génétiques entre les individus d’une même espèce consistent à la fois en de petites variations nucléotidiques de quelques bases mais aussi en la présence d'îlots génomiques hypervariables de plusieurs dizaines de kilobases situés entre des régions génomiques conservées. La conséquence directe de ces régions est qu’au sein d’une même espèce, les génomes de deux individus peuvent avoir des contenus en gènes variés. Cette observation a amené la définition du concept de pangénome qui correspond à l’ensemble des gènes d’une espèce [1, 2]. En effet, de nombreuses études se concentrent sur le contenu global en gènes d'une espèce (le pangénome) pour comprendre son évolution en termes de gènes communs (“core/persistent-genome”) et gènes accessoires (“variable/flexible-genome”). La reconstruction de génomes à partir du séquençage d’ADN prélevés dans l’environnement (i.e. la métagénomique) a permis l'accès au contenu génomique de centaines de milliers de micro-organismes non-cultivés en laboratoire. Concernant les archées, la métagénomique a significativement augmenté nos connaissances sur la diversité, la distribution, les fonctions et les rôles dans les écosystèmes. Le domaine archée s’organise en quatre grands groupes phylogénétiques. Les Euryarchaeota comportent de nombreuses lignées capables de produire du méthane, le groupe TACK qui inclut la lignée des Thaumarchaeota abondante dans les sols et les océans et qui oxide l’ammoniac, le groupe Asgard qui est le plus proche ancêtre commun des eucaryotes connu à ce jour, et enfin le groupe DPANN, une lignée d’organismes symbiotiques avec des capacités métaboliques réduites. Longtemps associées aux milieux extrêmes, les études métagénomiques montrent que les archées sont présentes en abondance dans des écosystèmes variés [3–5]. Alors que les principales capacités biologiques des lignées majeures d'archées sont de mieux en mieux connues, nos connaissances restent plus limitées quant á l'hétérogénéité génomique au sein des espèces [6, 7]. L’explosion du nombre de génomes assemblés à partir de données métagénomiques mais aussi le développement d’outils bioinformatiques capables de gérer de grand volumes de données permettent aujourd’hui une étude systématique des pangénomes et des îlots génomiques d'espèces environnementales. Par exemple, la “Genome Taxonomy DataBase” recense aujourd’hui 34 espèces d'archées pour lesquelles au moins dix génomes sont disponibles [8]. Ce nombre de dix génomes est suffisant pour définir le pangénome d’une espèce et en détecter les îlots génomiques avec PPanGGOLiN et panRGP, deux outils développés par notre équipe [9, 10]. Le but de ce projet de stage M2 est d’analyser de manière systématique les pangénomes d’archées et les mettre en relation avec leurs écosystèmes. Dans un premier temps, nous proposons de détecter les pangénomes d'espèce d’Archaea les plus divers. Pour cela, l’étudiant(e) définira des mesures de diversité des pangénomes en termes de contenu en gènes et îlots génomiques puis visualisera cette diversité. La deuxième partie du stage comprendra une analyse fine d’un pangénome sélectionné lors de la première étape. Une attention particulière sera portée dans l’analyse des systèmes de défenses et des voies métaboliques codés dans les îlots génomiques. Les fonctions métaboliques les plus prometteuses pourront donner lieu à des collaborations avec les biochimistes de notre institut afin de les caractériser expérimentalement. Une analyse par recrutement de lectures de séquençage issues de métagénomes d’environnements variés sera également réalisée afin de suivre les variations en abondance des gènes du pangénome d’une espèce dans différents environnements [11]. S’ils sont disponibles, les paramètres physico-chimiques des différents environnements échantillonnés pourront être utilisés afin de rechercher des corrélations avec les variations d’abondance observées. L’objectif final sera de mettre en lumière l'adaptation du contenu en gènes d’une espèce avec ses niches écologiques. L'équipe du LABGEM recherche une/un étudiant/e passionné/e de Master 2 avec des compétences en microbiologie, écologie, génomique et/ou bioinformatique. La/le candidat/e bénéficiera des outils développés par le LABGEM ainsi que de l’expertise en génomique microbienne et bioinformatique de l'équipe (https://labgem.genoscope.cns.fr). Le stage est orienté analyse de données génomiques et métagénomiques et ne comporte pas de paillasse. Un minimum de compétence en analyse de données génomiques est apprécié (e.g bash, R, python...). Les dates de début et de fin de stage peuvent être ajustées suivant les dates de stage de la/du candidat/e. Pour de plus amples informations, vous pouvez contacter Raphaël Méheust (raphael.meheust@genoscope.cns.fr) et David Vallenet (vallenet@genoscope.cns.fr). Le stage est situé au Genoscope à Evry (http://jacob.cea.fr/drf/ifrancoisjacob/Pages/Departements/Genoscope.aspx). Comparative analysis of archaeal meta-pangenomes: linking genomic diversity of species to ecosystems A characteristic of natural populations is that they are comprised of individuals that are, in the majority of cases, not genetically identical to each other. In the microbial world, variation between individuals appears both as divergence at the single nucleotide level and the presence of hypervariable genomic islands within a more stable set of genes shared by multiple individuals. The direct consequence of these regions is that within the same species, the genomes of two individuals can have very different gene contents. This observation led to the definition of the concept of pangenome which corresponds to all the genes of a species [1, 2]. It consists of the core/persistent genome that is common to almost all members of a species, plus all the flexible/variable genome content that is present in some members of the species. Genome-resolved metagenomics, in which shotgun sequencing of environmental DNA is assembled and binned into draft genomes, has profoundly reshaped our understanding of the distribution, functionalities and roles of Archaea. Within the domain, major supergroups are Euryarchaeota, which includes many methanogens, the TACK, which includes Thaumarchaeaota that impact ammonia oxidation in soils and the ocean, the Asgard, which includes lineages inferred to be ancestral to eukaryotes, and the DPANN, a group of mostly symbiotic small-celled archaea. These archaea are not restricted to extreme habitats, but are widely distributed in diverse ecosystems [3–5]. However, there has been only limited analysis of the extent of heterogeneity in gene content within archaeal species [6, 7]. The wealth of metagenome-assembled genomes (MAGs) allows access to gene content heterogeneity within environmental populations of uncultivated archaea. In fact, 34 species-level groups of Archaea, as defined by the Genome Taxonomy DataBase [8], contain more than 10 distinct genomes, a number that has been shown to be sufficient to define pangenomes and detect genomic islands using the tools PPanGGOLiN and panRGP we recently developed in our lab [9, 10]. The aim of this M2 internship is to leverage the hundred thousand MAGs available using our recent methodological developments for the comparative study of meta-pangenomes in Archaea. First, we propose to systematically analyze the pangenomes of archaeal species. The successful candidate will have to define some metrics to assess the diversity of pangenomes in terms of gene and genomic island content and then to visualize this diversity. The main goal will be to identify the most promising species to study. The pangenome of the most promising species will then be analyzed in the second part of the internship. Particular attention will be given to the functional analysis of the genomic islands with regard to the biological capacities of organisms in terms of defense systems and metabolic processes. The future discoveries will benefit further functional characterization by biochemists of our institute. The student will also conduct a meta-pangenomic approach to track variations in gene abundances within the pangenome of a species using read recruitment from metagenomic projects [11]. We plan to add available physical and chemical parameters from sampling sites and perform correlation analysis between the environmental parameters and the observed abundance variations. We anticipate this will yield unique insights into the functional basis of microbial niche partitioning and fitness of archaeal species. We are looking for a highly motivated student in microbiology, ecology, genomics and/or bioinformatics. The successful candidate will be helped by the tools developed in the lab as well as the expertise of the LABGeM team on microbial genomics and bioinformatics (https://labgem.genoscope.cns.fr). As the internship is fully bioinformatics-focused, a minimal set of skills in scripting and data manipulation would be highly appreciated (e.g bash, R, python...). The start and end dates of the internship can be adapted. For more information, you may contact Raphaël Méheust (raphael.meheust@genoscope.cns.fr) and David Vallenet (vallenet@genoscope.cns.fr). The position will be located at the Genoscope (http://jacob.cea.fr/drf/ifrancoisjacob/Pages/Departements/Genoscope.aspx) in Evry. References 10. Bazin A, Gautreau G, Médigue C, Vallenet D, Calteau A. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. Accepted in Bioinformatics. 2020
Candidature
Procédure : Pour de plus amples informations, vous pouvez contacter Raphaël Méheust (raphael.meheust@genoscope.cns.fr) et David Vallenet (vallenet@genoscope.cns.fr). For more information, you may contact Raphaël Méheust (raphael.meheust@genoscope.cns.fr) and David Vallenet (vallenet@genoscope.cns.fr).
Date limite : 30 juin 2022
Contacts
Raphaël Méheust
raNOSPAMphael.meheust@genoscope.cns.fr
Offre publiée le 31 août 2021, affichage jusqu'au 11 décembre 2021