Mots-Clés
pan-génome
annotation
variation
Description
Une annotation est la prédiction d'une région génomique structurelle, fonctionnelle ou régulatrice. Une annotation peut porter sur un gène (codant ou non), un élément transposable, un promoteur, etc.
Un pangénome est une représentation de plusieurs génomes d'une même espèce. Ces pangénomes sont maintenant très utilisés afin de représenter la diversité génomique au sein d'une population. Les variations observées sont en général classées en plusieurs catégories, en fonction de la taille de la variation: les SNP (un seul nucléotide); les variations courtes (en général, <50pb); et les variations longues (>50pb).
En général, le processus d'annotation se fait sur un individu donné. Elle est ensuite transférée sur le pangénome, lorsqu'il existe. Il est en général assez simple de transférer une annotation située sur un SNP ou une variation courte. Ce transfert peut également s'accompagner de la prédiction de son effet. Dans le cas d'un gène, un SNP peut par exemple être silencieux ou pas, selon qu'il change la protéine produite.
Il est en revanche beaucoup plus difficile d'annoter les longues variations, et notamment les insertions de matériel génomique non vues dans le génome de référence.
Techniquement, un pangénome peut être stocké de deux manières principales: un génome de référence, accompagné de l'ensemble des variations trouvées dans la population (au format VCF/BCF); ou bien un (hyper)graphe, qui représente directement toutes les variations, sans nécessiter forcément de génome de référence.
Dans le cadre de ce stage, le candidat aura à analyser un pangénome de riz, constitué d'un génome de référence et de plusieurs génomes contenant des variations. Il sera chargé de transférer les annotations de référence, petites et longues, en utilisant la stratégie suivante:
-
Utiliser les outils existants pour les SNP et les variations courtes.
-
Proposer une méthode pour les délétions.
-
Concernant les insertions, il faudra:
-
annoter de novo ces insertions;
-
comparer ces nouvelles annotations aux annotations du génome de référence;
-
classer les nouvelles annotations en duplication, inversion, translocation, ou nouvelle insertion.
-
Enfin, il faudra proposer une méthode permettant de retro-transférer les annotations du pangénome vers un génome unique.
Profil
Accueil
-
Lieu d'accueil: UMR DIADE IRD/UM2, 911 Avenue Agropolis, Montpellier
-
Type de contrat: Stage
-
Durée du contrat: 6 mois
-
Début souhaité: début 2023
-
Rémunération: gratification
-
Modalités pour postuler: envoyer CV et lettre de motivation à francois.sabot@ird.fr et matthias.zytnicki@inrae.fr
-
Possibilité de continuer en thèse (en fonction d'un financement)