Conceptualisation et exploitation d’un graphe de pangénome partitionné comme représentation compacte de la diversité du répertoire génique des espèces procaryotes

Informations générales
Nom
Gautreau
Prénom
Guillaume
Diplôme
Thèse
Année
2020
Détails de la thèse/HDR
Université
Jury
Eric RIVALS (rapporteur)
Phillippe LOPEZ (rapporteur)
Claire LEMAITRE (examinatrice)
Laurent JACOB (examinateur)
Sophie SCHBATH (examinatrice)
David VALLENET (co-directeur)
Claudine MEDIGUE (directrice)
Directeur (pour les thèses)
Claudine MEDIGUE
David VALLENET
Résumé en français
Introduites en microbiologie en 2005, les approches pangénomiques visent à compiler l’ensemble de la diversité génomique d’une espèce. Dans ces études, on distingue généralement à l’intérieur du pangénome, le génome coeur, c’est-à-dire l’ensemble des familles de gènes où les représentants géniques sont présents dans tous les organismes; et d’autre part, le génome accessoire qui correspond aux gènes spécifiques à certains organismes seulement. Cependant, on constate que le concept de génome coeur est limitant avec un nombre important d’organismes car des gènes bien que fonctionnellement indispensables peuvent être absents de certains génomes. Pour limiter ce phénomène la quasi-totalité des études utilisent un seuil arbitraire de présence (généralement 95%) pour définir un génome coeur assoupli. De plus, cette dichotomie entre le génome coeur et accessoire ne rend pas compte des nombreuses gammes de fréquence d’apparition des gènes dans un pangénome. Ce travail de thèse a pour objectif de proposer une approche statistique basé sur un modèle mixé multivarié de Bernoulli couplé à un champ de Markov caché pour partitionner le pangénome afin d’être résilient aux absences de gènes et de mieux distinguer les différents schémas de présence/absence des gènes. En parallèle, plusieurs structures de données basées sur des graphes de pangénomes ont été développées ces dernières années. En effet, exploiter la totalité des informations disponibles dans un génome et non plus seulement la présence de gènes isolés est désormais crucial pour correctement rendre compte de l'organisation des génomes et notamment des régions de plasticité génomique dans les espèces. Cette approche se veut le chaînon manquant entre ces nouvelles approches graphiques à l’échelle de la séquence et les approches originelles en familles de gènes isolés. Pour y parvenir, ce travail de thèse s’intéresse donc à la définition, au partitionnement statistique et à l’exploitation d’un graphe d’un pangénome comme représentation compacte du répertoire génomique des espèces procaryotes. À travers une analyse effectuée sur la base de 136 287 génomes provenant d'isolats (439 espèces) et 34 210 génomes reconstruits à partir de métagénomes (78 espèces), ce travail illustre la manière dont le graphe de pangénome partitionné peut être utile pour estimer la variabilité pangénomique des espèces procaryotes ainsi que de leurs régions de plasticité génomique.