Mots-Clés
metatranscriptomique
annotation:pipeline
champignons
base de données
Description
Stage M1 – Validation et mise à l’épreuve d’un workflow d’annotation fonctionnelle de données métatranscriptomique issues de sols forestiers.
Mots-clés :
Metatranscriptomique – annotation – pipeline – champignons – base de données
Contact : lucas.auer@inrae.fr
Description
Les champignons sont des acteurs majeurs des écosystèmes forestiers où ils sont impliqués dans la croissance des arbres (mycorhiziens symbiotiques), leur santé (parasites pathogènes) et le recyclage de matière morte (dégradeurs saprotrophes). Ils sont ainsi un des acteurs clés du cycle du carbone des forêts et l’adaptation des arbres face au changement climatique. Mais la connaissance des liens entre diversité fongiques et potentiel fonctionnel des espèces reste encore limitée. Pour dépasser la seule description des taxa présents dans un écosystème, notre laboratoire est précurseur dans le développement d’approches de métatranscriptomique des sols qui se sont déjà révélées très prometteuses.
Le pipeline d’annotation fonctionnelle des ARNm fongiques développé dans l’équipe repose sur l’utilisation de bases de données génomiques, principalement MycoCosm, issue du 1 000 Fungal Genomes Project (actuellement près de 1500 génomes disponibles répartis dans 800 familles distinctes). Si cette ressource est un atout précieux, elle est à relativiser au regard des 1,5 million d’espèces de champignons présents sur Terre. Il est donc essentiel de pouvoir estimer la précision et la fiabilité des résultats d’annotation obtenus à partir de ces ressources génomiques sur des échantillons de sol comportant des centaines d’espèces au génome en majorité inconnu. Pour ce faire et dans le contexte de ce stage, le stagiaire mènera une approche comparative entre annotations attendues et prédites, en utilisant des génomes connus mais non contenus dans MycoCosm, et en retirant des génomes ciblés de MycoCosm avant de les interroger contre le reste de la base de données.
Objectifs
- Designer et générer des sous-échantillons de Mycocosm permettant de simuler différents scénarios de proximité phylogénétique requête/référence
- Mettre en œuvre les outils d’annotation fonctionnelle sur les données générées
- Designer et développer des métriques et méthodes d’analyse des résultats obtenus
- Analyser les résultats générés
- Participer à la préparation d’une publication de méthodologie sur le traitement de données de méta-transcriptomique fongique.
- (*) simuler des données de séquençage à partir de données génomiques pour tester l’ensemble du pipeline en plus de l’étape d’annotation
- (*) comparer les performances d’autres outils d’annotation sur les métriques choisies
(*) : optionnel et en fonction de l’avancement du projet et de l’intérêt de l’étudiant
Compétences requises
Les candidats devront être inscrits en Master1 bioinformatique ou équivalent, et répondre à minima aux critères suivants :
- Maîtrise d’Unix/Bash
- Maîtrise d’au moins 1 langage parmi python / perl / R
- Connaissances en biologie moléculaire et cellulaire (relatives aux annotations fonctionnelles) et en phylogénie
- Compétences en statistiques
Encadrement et conditions d’accueil
L’étudiant sera accueilli au sein du l’unité Interactions Arbres-Microorganismes (https://mycor.nancy.inra.fr/ @UMR_IAM), dans l’équipe Ecogénomique des Interactions, sur le Centre INRAE Grand Est Nancy à Champenoux.
Il ou elle sera dirigé par un ingénieur de recherche en bio-informatique et statistiques spécialisé dans les approches méta-omiques, et s’intègrera dans l’équipe qui compte 11 chercheurs et ingénieurs permanents (dont 2 ingénieurs en bio-informatique) et une dizaine de doctorants (dont 1 en bioinformatique), postdoctorants, chercheurs étrangers accueillis et contractuels, ainsi que 4 ou 5 stagiaires en master sur la période. L’équipe héberge la « plateforme Ecogénomique », ce qui lui permet de disposer de son propre cluster de calcul (200 CPU, 2To DDR).
Le stage est prévu pour une durée de 5 mois, pour un début entre février et avril 2023.
Il sera rémunéré au taux horaire pour les organismes publics (~575€/mois).
Le centre INRAE Grand Est Nancy dispose d’un restaurant d’entreprise (tarif étudiant) et fournit gratuitement une carte de transports en commun pour rejoindre le Centre depuis Nancy.