Stage M2 en biostatistique ou en bioinformatique pour la biologie végétale

 Stage · Stage M2  · 6 mois    Bac+5 / Master   IRHS (Institut Recherche en Horticulture et Semences) · Angers (France)  600€

 Date de prise de poste : 1 mars 2024

Mots-Clés

statistiques bayésiennes épigénomique transcriptomique biologie végétale éléments transposables

Description

Etude Bioinformatique Intégrative de l’Evolution des Génomes et EpiGénomes

Laboratoire d’accueil

L’Institut de Recherche en Horticulture et Semences (IRHS) est une Unité Mixte de Recherche sous les tutelles d’INRAE, l’Institut Agro Rennes-Angers et l’Université d’Angers comptant plus de 250 agents. Le stage se déroulera à l’interface de deux équipes : BIDEFI (BioInformatics for plant DEFense Investigation) et VALEMA (VALorization of Epigenetic Marks in plAnts) pour tirer parti de la complémentarité des deux équipes.

L’équipe BIDEFI regroupe des compétences en développement informatique et statistique, génomique structurale, évolution des génomes et analyse du transcriptome. L'équipe VALEMA regroupe des expertises en génétique, transcriptomique et épigénomique, physiologie végétale, phénotypage.

Contexte scientifique

Chez le pommier, il existe une duplication complète de génome (WGD) estimée à 27 Mya, très bien conservée malgré un retour à l’état diploïde et qui n’existe qu’au sein des pomoïdés [1,2]. Le pommier est donc un modèle de choix pour étudier le devenir des gènes après un événement relativement récent et massif de duplication. Une meilleure compréhension des mécanismes de maintien des gènes après WGD permettra de mieux comprendre la résistance des polyploïdes aux stress multiples.

Notre hypothèse de travail, est que la duplication complète du génome, véritable choc génomique, est suivie d’une invasion en éléments transposables (ET) liée à la dérégulation de leur contrôle.

Objectif du stage

Nous recherchons un bioinformaticien ou un statisticien, spécialisé dans le traitement de données (si possible omiques), pour développer les scripts d’analyses intégratives des données épigénomiques et transcriptomiques en lien avec le contenu en éléments transposables du génome du pommier. Les données sont disponibles et en partie exploitées lors de deux thèses dont une en cours.

Ce stage débutera par une étude approfondie de l’article scientifique [3] dans lequel les auteurs décrivent une nouvelle méthode pour quantifier explicitement les caractéristiques des profils de méthylation. Une fois cette publication bien comprise, on prendra en main le package Bioconductor nommé  BPRmeth  [4]  implémentant cette méthode.

D’un point de vue technique, BPRmeth (pour Bayesian Binomial Probit Regression Model), repose sur un modèle probabiliste, basé sur des variables latentes, permettant d’associer à chaque région d’intérêt, un ensemble de caractéristiques propres au profil de méthylation de la région. Afin d’extraire ces caractéristiques, les auteurs se placent dans le cadre d’un problème de régression.

Une fois ces caractéristiques connues, BPRmeth se veut un outil puissant de machine learning permettant de prédire l’expression de gènes à partir de profils de méthylations. Afin de bien se familiariser avec la méthode, on pourra comparer les performances des versions SVM et Forêts aléatoires de BPRmeth. On pourra également s’attarder sur la version Bayésienne approchée de BPRmeth via l’inférence variationnelle [5]. Enfin, on pourra étudier la variante de l’algorithme EM (GEM) implémentée au sein de BPRmeth.

L’objectif final de ce stage est de caractériser (e.g via BPRmeth) les profils de méthylation en lien avec l’expression des gènes et de caractériser les environnements en éléments transposables des gènes dupliqués par WGD selon leur profil d’expression pour faire le lien entre les 3 variables : méthylation, expression, environnement ET.

Compétences attendues

            •          Statistiques : prédiction en grande dimension, classification et apprentissage

            •          Bioinformatique : unix, slurm, git, programmation R et/ou Python

Bibliographie

[1] Daccord, Celton et al. (2017), Nature Genet, 49, 1099, https://www.nature.com/articles/ng.3886

[2] Lallemand et al. (2023), GBE, https://doi.org/10.1093/gbe/evad178

[3] Kapourani, Sanguinetti (2016), Bioinformatics, 32, i404-i412, https://academic.oup.com/bioinformatics/article/32/17/i405/2450762

[4] BPRmeth : https://github.com/andreaskapou/BPRMeth#readme

[5] Blei, D.M. et al. (2017),   J. Am. Stat. Assoc., 112, 859–877, https://arxiv.org/abs/1601.00670

Candidature

Procédure : Envoyer un mail à Mr Rabier (charles-elie.rabier@univ-angers.fr) et Mme Landès (claudine.landes@univ-angers.fr), en joignant un CV et une lettre de motivation

Date limite : 31 août 2024

Contacts

Charles-Elie Rabier

 chNOSPAMarles-elie.rabier@univ-angers.fr

Offre publiée le 15 janvier 2024, affichage jusqu'au 1 mai 2024