Stage de recherche assemblage métagénomique d’écosystèmes complexes

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Inria · Rennes (France)  gratification

 Date de prise de poste : 2 janvier 2023

Mots-Clés

assemblage de novo métagénomique evaluation et comparaison, benchmark

Description

Titre : Assemblage métagénomique d’écosystèmes complexes avec différentes technologies de séquençage de 3ème génération

 

Nom et adreesse du laboratoire où se déroulera le stage :

Inria de l’université de Rennes, équipe Genscale

Campus de Beaulieu, 263 Av. Général Leclerc, 35042 Rennes France

 

Responsables du stage (personnes qui seront contactées par les candidats) :

- Claire Lemaitre (Chargée de Recherche, Inria Rennes, claire.lemaitre@inria.fr )

- Frioux Clémence (Chargée de Recherche, Inria Bordeaux, clemence.frioux@inria.fr )

 

Dates du stage : janvier à juin/juillet 2023 (dates flexibles)

Montant des indemnités de stage : gratification d’environ 545€/mois

 

Mots clés : assemblage de novo ; métagénomique ; evaluation et comparaison, benchmark ;

Résumé du projet de stage :

La caractérisation des communautés de micro-organismes associées à un environnement, appelées microbiotes, passe généralement par le séquençage de leur ADN dans des études métagénomiques[1]. Certains environnements sont plus complexes à étudier que d’autres en raison de la grande diversité microbienne qui les compose, c’est le cas du sol ou encore du microbiote associé aux plantes[2]. Afin de pouvoir étudier le contenu génomique des espèces, et ainsi inférer leur fonctionnement dans l’environnement, la métagénomique plein-génome est utilisée en routine, générant des lectures dont l’assemblage peut permettre de reconstruire des génomes individuels ou MAGs (metagenome-assembled genomes)[3]. Cet assemblage se fait encore majoritairement à partir de lectures courtes en utilisant des graphes de de Bruijn[4]. Ces dernières années ont vu évoluer les techniques de séquençage vers des lectures de grande taille (technologies de 3ème génération), qui facilitent l’obtention de MAGs mais pour lesquelles le socle algorithmique d’assemblage est moindre. Les premiers séquenceurs à lectures longues produisaient des lectures avec un grand taux d’erreur, nécessitant une correction avec des lectures courtes lors d’un assemblage dit hybride. Les technologies les plus récentes génèrent des lectures de longue taille aux taux d’erreurs proches des lectures courtes[5–7], prometteuses pour la prochaine génération d’études métagénomiques à grande échelle.

Une problématique importante est donc de trouver les technologies de séquençage les plus adaptées ainsi que les pistes méthodologiques d’assemblage8-9 les plus prometteuses pour reconstruire les génomes de micro-organismes dans des écosystèmes aussi complexes que le sol ou la rhizosphère de la plante.

Ce stage s’inscrit dans le projet de recherche MISTIC, issu du programme national d'investissement (PEPR) “agroécologie et numérique”, qui vise à  proposer des modèles computationnels de la diversité microbienne des plantes. Dans le cadre de ce projet, une grande quantité de données de séquençage seront produites sur plusieurs systèmes biologiques. En particulier, plusieurs stratégies de séquençage seront testées et évaluées, incluant les technologies les plus récentes (lectures longues ONT et PacBio HiFi, Hi-C), et des profondeurs de séquençage importantes. Ce stage constitue une première étape de ce projet de 5 ans, il contribuera au choix des technologies de séquençage à mettre en œuvre et au choix des développements méthodologiques à réaliser,  et il pourra être poursuivi en thèse dont le financement est déjà acquis. Dans un premier temps au cours de ce stage, l’évaluation des stratégies de séquençage et méthodes d’assemblage existantes combinant plusieurs technologies sera effectuée sur des données publiques bien maîtrisées (mock communities et données simulées telles que challenge CAMI2[4]).

Les objectifs de ce stage sont les suivants :

-       Faire un état des lieux des méthodes d’assemblage métagénomique et leur applicabilité aux différentes données de séquençage

-       Sélectionner un ensemble de méthodes et de données tests et créer un benchmark de comparaison.

-     Évaluer l’apport de chaque technologie de séquençage et éventuellement proposer une nouvelle méthode de combinaison de plusieurs technologies.

Les compétences nécessaires pour le stage sont les suivantes :

-  Formation en bioinformatique

- Compétences en programmation : python, bash

-  Attrait pour l’algorithmique des séquences

 

Il y a possibilité après ce stage de poursuivre en thèse (financement déjà acquis), aussi les candidatures de personnes intéressées par un doctorat seront privilégiées lors de la sélection.

 

Références :

1. Frioux, C., Singh, D., Korcsmaros, T. & Hildebrand, F. From bag-of-genes to bag-of-genomes: metabolic modelling of communities in the era of metagenome-assembled genomes. Comput Struct Biotechnology J 18, 1722–1734 (2020).

2. Taş, N. et al. Metagenomic tools in microbial ecology research. Curr Opin Biotech 67, 184–191 (2021).

3. Chen, L.-X., Anantharaman, K., Shaiber, A., Eren, A. M. & Banfield, J. F. Accurate and complete genomes from metagenomes. Genome Res 30, 315–333 (2020).

4. Meyer, F. et al. Critical Assessment of Metagenome Interpretation: the second round of challenges. Nat Methods 19, 429–440 (2022).

5. Sereika, M. et al. Oxford Nanopore R10.4 long-read sequencing enables the generation of near-finished bacterial genomes from pure cultures and metagenomes without short-read or reference polishing. Nat Methods 19, 823–826 (2022).

6. Moss, E. L., Maghini, D. G. & Bhatt, A. S. Complete, closed bacterial genomes from microbiomes using nanopore sequencing. Nat Biotechnol 38, 701–707 (2020).

7. Bickhart, D. M. et al. Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities. Nat Biotechnol 1–9 (2022) doi:10.1038/s41587-021-01130-z.

8. Vicedomini, R., Quince, C., Darling, A.E. et al. Strainberry: automated strain separation in low-complexity metagenomes using long reads. Nat Commun 12, 4485 (2021). doi:10.1038/s41467-021-24515-9

9. Quince, C., Nurk, S., Raguideau, S. et al. STRONG: metagenomics strain resolution on assembly graphs. Genome Biol 22, 214 (2021). doi:10.1186/s13059-021-02419-7

Candidature

Procédure : Envoyer un mail avec CV et lettre de motivation à claire.lemaitre@inria.fr et clemence.frioux@inria.fr

Date limite : None

Contacts

Claire Lemaitre et Clémence Frioux

 clNOSPAMaire.lemaitre@inria.fr

 https://team.inria.fr/genscale/files/2022/09/SujetStage_M2_metagenomics_2022.pdf

Offre publiée le 19 septembre 2022, affichage jusqu'au 15 novembre 2022