Stage en fouille de données

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Inrae - Umr Agroecologie · Dijon Cedex (France)

 Date de prise de poste : 1 février 2023

Mots-Clés

Analyse de données, metabarcoding, inférence fonctionnelle, bioinformatique, bioanalyse

Description

Intitulé de stage

Fouille de données et mise à jour des bases exploitées par l’outil d’inférence fonctionnelle PICRUSt 2

 

Sujet de stage proposé

Contexte

Les sols délivrent de nombreux services essentiels pour les sociétés humaines, tels que la production primaire, ou la régulation des grands cycles biogéochimiques (Delgado-Baquerizo et al. 2017; Maron et al. 2018; Siles et al. 2022). La modification des communautés microbiennes (abondance/diversité) engendrée par les modifications de leur environnement notamment par les pratiques agricoles peuvent en conséquence influer sur les fonctions que portent les sols, mais aussi sur les grands cycles biogéochimiques (Maron et al. 2018). L'agroécologie a émergé dans ce contexte, avec pour but de définir de nouvelles pratiques pour promouvoir les processus et fonctions écosystémiques et donc la durabilité des écosystèmes.

Un des moyens utilisés pour l'étude des communautés microbiennes est l'étude de l'ADN du sol, par l'intermédiaire du métabarcoding (métagénomique ciblée sur marqueurs phylogénétiques) (Djemiel & Terrat 2019). Cela permet d'obtenir après traitement bioinformatique une assignation de séquences à différents niveaux taxonomiques, et à la définition de groupes appelés "operational taxonomic unit" (OTUs). Ces matrices d’OTUs sont le matériau de base pour construire des analyses écologiques des communautés microbiennes. Un des moyens d'enrichir ces analyses est d’inférer des fonctions et/ou d’assigner des "traits" à ces OTUs (Djemiel et al. 2022). Par exemple, ces traits peuvent être des rôles ou des stratégies écologiques, des mesures physiologiques, des comptages de gènes, etc. L'inférence fonctionnelle, quant à elle, permet de générer des hypothèses sur le potentiel fonctionnel de la communauté microbienne étudiée.

L’outil d’inférence fonctionnelle PICRUSt2 (Douglas et al. 2020) utilisé pour générer ces prédictions se base sur des données phylogénétiques contenues dans l’outils. Ces informations figées contraignent fortement les résultats obtenus et ne suivent ni les mises à jour régulières des bases de données sur lesquelles elles se reposent, ni les nouvelles pratiques des biologistes (e.g. nouveaux marqueurs pour le métabarcoding).

 

Objectifs

L'objectif du stage est de conduire une mise à jour des données des marqueurs 16S et fonctions utilisées par PICRUSt2. Le stage aura comme objectifs principaux de :

  • Prendre en main le protocole décrit par PICRUSt2 de construction de la base de données et de la construction de l'arbre phylogénétique utilisé originellement, et en proposer des améliorations si nécessaire,
  • Récupérer toutes les informations permettant de trier les génomes disponibles actuellement, et effectuer le filtrage (le volume initial étant de ~ 100k génomes),
  • Générer l'arbre phylogénétique basé sur les 16S, en utilisant les méthodes décrites dans le papier de PICRUSt2,
  • Comparer des inférences nouvellement obtenues sur des jeux de données biologiques avec les anciennes et caractériser l'évolution de l'inférence obtenue.

 

Compétences attendues

Le stage s’adresse à des étudiant.e.s avec un parcours d’étude en bioinformatique, et qui sont intéressé.e.s par les approches de diversité génétique et les analyses de jeux de données de séquençage metabarcoding. Des profils ayant suivi des parcours en microbiologie ou écologie avec des compétences en bioinformatique pourront aussi être retenus.

 

De compétences/connaissances en bioanalyse et bioinformatiques sont donc indispensables. Plus précisément :

- Connaissance des langages R et/ou Python

- Connaissance de l'environnement Linux

- Connaissance sur l'usage des bases de données biologiques en ligne

- Capacités organisationnelles et de travail collaboratif

- Curiosité scientifique

- Maîtrise de l‘anglais technique (lecture et écriture).

 

Moyens mis à disposition

L’étudiant.e pourra s’appuyer sur les moyens logistiques et humains mis à disposition dans l’équipe. Ce stage se fera en collaboration avec la plateforme Migale (INRAE de Jouy-en-Josas) et l’unité GenPhySE (INRAE de Toulouse). L’étudiant.e sera accueilli dans l’équipe BIOCOM de l’UMR Agroécologie de DIJON. Le projet de recherche de l’équipe BIOCOM s’inscrit dans le champ disciplinaire de l’écologie microbienne et plus particulièrement dans la compréhension de l’écologie des communautés microbiennes et de leur rôle dans le fonctionnement biologique des sols, principalement au sein des milieux agricoles.

L’étudiant.e aura accès à des ressources de calculs locales (serveur de calculs de l’équipe BIOCOM), mais aussi de ceux du CCUB (Centre de Calcul de l’Université de Bourgogne), adaptés à l’analyse de ces jeux de données volumineux, et d’autres serveurs de calcul si besoin.

Ce stage en M2 peut donner lieu à une poursuite en doctorat sur la base de la motivation de l’étudiant et de l’obtention de financements qui sont en cours d’évaluation.

 

Encadrant(s) et contact(s)

Encadrant principal (signataire de la convention) : Sébastien TERRAT (UMR 1347 Agroécologie)

Co-encadrant : Aurélien COTTIN (UMR 1347 Agroécologie) – Géraldine PASCAL (GenPhySE)

 

Les demandes d’informations et dossiers de candidature sont à envoyer avant le XXX novembre au plus tard (le stage étant prévu de février à juillet), à :

Sebastien TERRAT : sebastien.terrat@inrae.fr

 

Bibliographie

Delgado-Baquerizo, M., Eldridge, D.J., Ochoa, V., Gozalo, B., Singh, B.K. & Maestre, F.T. (2017). Soil microbial communities drive the resistance of ecosystem multifunctionality to global change in drylands across the globe. Ecol. Lett., 20, 1295–1305.

Djemiel, C., Maron, P., Terrat, S., Dequiedt, S., Cottin, A. & Ranjard, L. (2022). Inferring microbiota functions from taxonomic genes: a review. Gigascience, 11, 1–30.

Djemiel, C. & Terrat, S. (2019). Nouvelles techniques de méta-omiques pour le diagnostic de la qualité microbiologique des sols. Tech. l’ingénieur, 33.

Douglas, G.M., Maffei, V.J., Zaneveld, J.R., Yurgel, S.N., Brown, J.R., Taylor, C.M., et al. (2020). PICRUSt2 for prediction of metagenome functions. Nat. Biotechnol., 38, 685–688.

Maron, P.-A., Sarr, A., Kaisermann, A., Lévêque, J., Mathieu, O., Guigue, J., et al. (2018). High Microbial Diversity Promotes Soil Ecosystem Functioning. Appl. Environ. Microbiol., 84, e02738-17.

Siles, J.A., Díaz‐López, M., Vera, A., Eisenhauer, N., Guerra, C.A., Smith, L.C., et al. (2022). Priming effects in soils across Europe. Glob. Chang. Biol., 1–12.

 

Candidature

Procédure :

Date limite : 31 juillet 2023

Contacts

Sebastien TERRAT

 seNOSPAMbastien.terrat@inrae.fr

Offre publiée le 14 novembre 2022, affichage jusqu'au 31 juillet 2023