Indexation d’une collection Zea mays : du génome au pangénome, de la référence à la diversité

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

6 Chemin de Panedautes
Domaine de Sandreau
31700 Colomiers
France

Contacts
Marion Dupouy
Clément Agret
Email du/des contacts
marion.dupouy@era-bio-it.com
clement.agret@univ-lille.fr
Description

Date de début et de fin flexible.

 

Contexte : 

ERA-Bio-IT est un consortium regroupant deux acteurs français majeurs dans le secteur des semences de grandes cultures et un institut technique impliqué dans le conseil variétal (Lidea -ex EURALIS Semences-, RAGT et Arvalis). L’objectif de ce consortium est de mutualiser les ressources informatiques et scientifiques pour l’analyse de données génomiques principalement issus de maïs et de blé.

Différents projets (Whole-genome assembly of the NAM founders, projet MAZE, projet Amaizing, ...) ont permis à ce jour à une quarantaine de génomes de maïs (Zea mays) d’être publiés, et de nombreux autres sont à venir. Les projets de reséquençage privés ne sont pas en reste, et viennent compléter ces collections de génomes grandissantes dont nous devons maintenant tirer le meilleur parti.

L'indexation de génomes complets est une phase importante de l'exploration et la compréhension des données issues du vivant. L’outil RedOak a été créé pour permettre l’indexation d’une large collection de génomes similaires. RedOak est une méthode basée sur une approche k-mer (sous-chaîne de longueur k nucléotides d’un mot, le cas échéant d’une séquence) qui peut indexer des centaines de génomes en utilisant un algorithme hautement parallélisé. RedOak permet d'interroger la présence/absence des séquences dans les génomes indexés. De telles requêtes permettent divers types d'analyses pangénomiques de grande envergure.

Le code source de l'algorithme RedOak est publié sous licence Open-Source et est disponible sur https://gitlab.info-ufr.univ-montp2.fr/DoccY/RedOak. RedOak est implémenté en C++ et conçu pour tirer parti des architectures de cluster.

Objectifs du projet :

L’étudiant·e interviendra dans la première étape d’un projet visant à exploiter et valoriser les collections de génomes d’espèces céréalières d'intérêt pour nos trois partenaires, dans l'objectif de l’amélioration et la caractérisation de variétés pour différents caractères agronomiques.

La première étape de ce projet consiste en la création d’un index à partir d’une collection de génomes publics de maïs à l’aide de l’outil RedOak afin de répondre à une première question de recherche :

Quelles sont les séquences communes, partagées et propres aux différentes accessions de maïs, et comment s’organisent-elles dans les pôles de diversité connus ?

Missions :

  • Installer l’outil RedOak sur le serveur de calcul de ERA-Bio-IT
  • Générer l’index d’un collection d’une quarantaine de génomes de maïs publics
  • Restituer une synthèse des informations génomiques obtenues (séquences communes entre tous les génomes, partagées entre sous-sets de génomes, et propres à des génomes uniques)
  • Assurer une veille bibliographique sur la publication de nouveaux génomes de maïs et d’autres approches de traitement des collections de génomes.

Profil : 

Le profil recherché est celui d’une/d’un étudiant·e en M1/M2 Bioinformatique, portant un intérêt pour la génomique végétale et la pangénomique. Il/elle devra également s'intéresser au traitement de données de séquençage, à la problématique du big data dans la recherche génomique appliquée, l’agronomie. Un plus serait appétence pour la communication scientifique.

Compétences souhaitées :

  • GNU/linux
  • connaissance de C/C++ 
  • Génomique comparative
  • Génomique végétale
  • Visualisation de données (R, python…)
  • GitLab, automake, SLURM, bash


 

Encadrement :

L’encadrement principal sera réalisé par Marion Dupouy, cheffe de projet bioinformatique pour ERA-Bio-IT à Mondonville (périphérie toulousaine). Clément Agret, ATER à Polytech Lille - CRISTAL, co-encadrera ce stage grâce à son expertise de l’outil RedOak dont il est le créateur et développeur.

Equipe adhérente personne morale SFBI
Equipe Non adhérente