Stage de bio-informatique

 Stage · Stage M2  · 6 mois    Bac+4   Equipe Sigenae, MIAT UR875 · Castanet-Tolosan (France)

 Date de prise de poste : 1 février 2022

Mots-Clés

Annotation automatique de génome, IsoSeq

Description

Titre du stage : utilisation des lectures PacBio IsoSeq dans l’annotation automatique de génomes eucaryotes

Objectifs : la·e stagiaire aura à sa disposition cinq génomes de haute qualité de poissons assemblés en chromosomes et pour chacun d’eux trois séquençages de banques tissulaires d’IsoSeq : longues lectures issues de l’expression des gènes de tissus distincts. Dans une première phase, elle·il fera l’analyse de ces données pour en extraire le nombre de gènes représentés ainsi que le nombre de transcrits afin de décrire l’apport de chacune de ces banques au transcriptome global de l’espèce. Elle·il comparera aussi l’apport de ces banques à celui des banques publiques de RNA-Seq disponibles pour ces espèces. Enfin elle·il testera les différents outils permettant l’intégration de ces séquences dans le processus d’annotation automatique des génomes et mettra à jour notre chaîne de traitement d’annotation de génomes eucaryotes afin qu’elle puisse au mieux exploiter ces données.

Résumé : l’arrivée des longues séquences Nanopore et PacBio a révolutionné l’assemblage de génomes. De nouveaux génomes sont produits à l’aide de ces séquences et déposés dans les banques publiques, souvent plusieurs par jour. L’apport de ces génomes est d’autant plus grand qu’ils sont accompagnés d’une annotation structurale et fonctionnelle. Ce processus d’annotation repose principalement sur l’exploitation de données d’expression de type RNA-Seq (séquençage Illumina de lectures courtes). Or il est maintenant possible de produire une grande quantité de séquences pleine longueur donnant directement la structure complète d’un transcrit et facilitant ainsi l’analyse des transcrits alternatifs d’un gène. Ces séquences peuvent être produites pas les deux technologies Nanopore et PacBio avec un avantage important pour PacBio quant à la qualité des séquences. En effet, le protocole IsoSeq repose sur une lecture multiple de chaque transcrit avec une auto-correction des séquences permettant un taux d’erreur inférieur à 0.1%. Toutefois ces séquences sont aussi porteuses d’artefacts tels que la rétention d’introns venant de transcrits non mâtures ou la fusion de deux transcrits co-localisés (read-through) qu’il faut détecter et éliminer du jeu de données. La dernière étape est l’implémentation de l’intégration de ce nouveau type de données dans les chaînes de traitement d’annotation de génome. Les résultats obtenus permettront enfin de quantifier finement l’apport de ces lectures longues par rapport à la seule utilisation du RNA-Seq,

Candidature

Procédure : Envoyer CV et lettre de motivation par mail à christophe.klopp@inrae.fr et cedric.cabau@inrae.fr

Date limite : 30 novembre 2021

Contacts

Christophe Klopp

 chNOSPAMristophe.klopp@inrae.fr

Offre publiée le 25 octobre 2021, affichage jusqu'au 31 décembre 2021