prix SFBI des deux meilleurs posters à Jobim 2015

Le poster de Charlie:

Accurate taxonomy assignments in cheeses ecosystems via a metagenomic approach

La fabrication du fromage, un aliment fermenté, implique une flore complexe composée de bactéries, levures et champignons filamenteux. La composition exacte de la plupart des fromages n'est pas connue. Afin d'approfondir les connaissances sur les écosystèmes fromagers, et dans le but de maintenir une qualité constante de ces produits, une meilleure caractérisation de la flore fromagère et une assignation taxonomique précise sont nécessaires. Cependant la faible abondance de certaines espèces et l'identification jusqu'à la souche restent des défis. Quelques centaines de génomes issus de produits laitiers sont désormais disponibles dans les banques de données. L'identification taxonomique précise étant un point clé de notre projet, l'approche métagénomique par séquençage globale aléatoire a été choisie et appliquée sur 40 échantillons de fromages. Actuellement, plusieurs outils sont basés sur un ensemble de gènes marqueurs, ou bien sur la composition en k-mer des lectures, mais peu atteignent une assignation taxonomique jusqu'au niveau de la souche. Nous avons développé une approche originale capable d'identifier précisément les espèces, et les souches lorsque les génomes de références sont présents. Nous pouvons également identifier les espèces ou genres présents lorsqu'il existe des génomes de références avec au moins 90% d'identité avec les lectures métagénomiques. Notre méthode est basée sur l'alignement de lectures métagénomiques sur un ensemble de génomes de références, puis l'adéquation avec un modèle statistique de la couverture des CDS par les lectures métagénomiques. Nous l'avons testée sur plusieurs jeux de données, notamment synthétiques, ou` les lectures sont alignées sur des génomes de référence d'espèces proches. Nous présenterons également des exemples sur des écosystème fromagers.




Le parcours de Charlie:

"Découvrir, être émerveillé, et le partager.", cette devise est le fil rouge de mon parcours. En Sciences du Vivant à l'UPMC, j'ai complété ma licence par l'option Bioinformatique. Le master de Rouen m'a permis d'explorer plus en avant ce domaine. Au sein de la formation s'ajoute désormais la dimension du quotidien professionnel grâce à l'alternance. Je suis actuellement à mi parcours d'un M2 sur 2 ans à l'INRA de Jouy-en-Josas.


Le poster de Gaëtan:

Fast kmer-based method for estimating the similarity between numerous metagenomic datasets

La métagénomique comparative a pour but de fournir des informations de haut niveau basées sur des données d'ADN séquencées dans différents environnements. L'objectif principal est d'estimer la proximité entre deux ou plusieurs sites environnementaux au niveau génomique. Une manière d'estimer la similarité est de compter le nombre de fragments d'ADN similaires. Le problème est donc de calculer les intersections entre des jeux de données de reads. Avoir recours aux méthodes traditionnelles comme l'alignement de séquences toutes-contre-toutes n'est pas acceptable sur les projets métagénomiques actuels. Par exemple, le projet Tara Oceans implique des centaines de jeux de données de 100M reads chacun. Pour résoudre ce problème, nous présentons une nouvelle fonction de similarité entre deux jeux de données, nommée Simka, basée sur la quantité de kmers qu'ils partagent. Pour passer à l'échelle sur de grands projets métagénomiques, nous utilisons une nouvelle technique capable de compter les kmers de N jeux de données simultanément. Cette méthode offre également de nouvelles possibilités comme le filtrage des kmers ayant une faible abondance qui contiennent potentiellement des erreurs de séquençage. Simka a été testé et comparé à l'état de l'art sur 21 échantillons de Tara Oceans. Les résultats montrent que notre fonction de similarité basée sur les kmers est très proche de celles basées sur les reads. En ce qui concerne la proximité des échantillons, les différentes méthodes identifient les mêmes groupes de jeux de données. La plus rapide des méthodes de l'état de l'art a demandé quelques semaines pour calculer toutes les intersections alors que Simka a seulement pris 4 heures.




Le parcours de Gaëtan:

J'ai suivi un cursus purement informatique à l'université de Rennes 1. Je passais la plupart de mon temps libre à développer des jeux vidéos. C'est ainsi que j'ai été attiré par la recherche, domaine qui me permet de laisser s'exprimer ma créativité. Pendant ma première année de Master, Claire Lemaitre et Pierre Peterlongo proposaient pour la première fois une UE de découverte de la bioinformatique. J'ai tout de suite mordu aux problématiques du traitement des NGS. J'ai ainsi effectué un premier stage dans l'équipe GenScale de l'INRIA de Rennes où nous avons développé un correcteur de reads, nommé Bloocoo. Sous le conseil de mes maîtres de stage, j'ai suivi le Master 2 recherche en informatique de l'IRISA de Rennes. Pendant le second stage, nous avons mis au point une nouvelle méthode de compression des données NGS, nommé Leon. La fin du Master a été concrétisé par l'obtention de l'ANR Hydrogen par GenScale. Je suis actuellement en première année de thèse et travaille sur des problématiques de métagénomique comparative sur des milliers d'échantillons provenant du projet Tara Oceans.