Stagiaire M1 : programmation python/R pour l'étude des gènes dupliqués chez les rosacées

 Stage · Stage M1  · 2 mois    Bac+4   IRHS - Équipe BIDefI (Bioinformatics for Plant Defense Investigations) · None (France)

 Date de prise de poste : 1 avril 2026

Mots-Clés

Whole Genome Duplication Genes Families Evolution plants genomes

Description

Stage M1 de programmation R/python pour l’étude des gènes dupliqués chez les rosacées

Depuis les travaux de Ohno en 1970, il est communément admis que la duplication de gènes est un facteur important de l’évolution des espèces, en particulier chez les angiospermes. Cette hypothèse s’est vue confortée dans les années 2000 avec les projets de séquençage de génomes complets qui ont montré que la duplication de génomes est un moteur d’innovation génétique chez les organismes eucaryotes que ce soit chez les plantes mais aussi les animaux. Cependant la façon dont les gènes dupliqués évoluent et se fixent dans un génome reste une question centrale en évolution moléculaire. Nous faisons l’hypothèse que le devenir des gènes dupliqués varie selon la nature de la duplication (duplication ancestrale complète de génome, duplication en tandem ou duplication dispersée). Nous proposons d’explorer cette hypothèse de manière systématique chez les Rosacées par une approche sans a priori. Nous disposons d’une base de données qui contient toutes les familles de gènes pour les 8 génomes de rosacées connus en 2019, construite au laboratoire avec la méthode OrthoFinder. Cette base de données est enrichie avec la nature de la duplication définie par i-ADHoRe.

L’objectif de ce stage est d’utiliser cette base de données pour faire tourner différents modèles de processus de naissance et de mort permettant de prédire l’expansion ou la contraction des familles de gènes. En particulier le programme CAFE (De Bie et al., 2006) qui ne modélise pas les duplications complètes de génome ou bien le programme WGDgc(Rabier et al., 2014) qui les intègrent dans la modélisation.
La question biologique posée est la suivante :
• La prise en compte des évènements de WGD permet-elle d’améliorer les prédictions de perte et de gain de gènes au sein des familles chez les rosacées ?

Missions : programmation des analyses de pertes/gains de gènes des familles de rosacées
- Extraction des familles de gènes de la base
- Etude des expansions avec le programme CAFE
- Etude des expansions avec le programmeWGDgc
- Analyse comparative des deux analyses
- Illustration détaillée pour une ou deux familles d’intérêt pour le laboratoire
Compétences requises :
- Maîtrise de la programmation Python et/ou R
- Lecture d’articles scientifiques en anglais
Une (ou plusieurs) compétences complémentaires ci-dessous seraient appréciées :
- Notions d’évolution des familles multigéniques chez les eucaryotes
- Connaissance des modèles mathématiques pour les analyses phylogénétiques
- Connaissance des outils de versioning tel que git
Compétences à l’issue du stage :
- Applications des principes FAIR pour le code informatique
- Connaissances sur l’évolution des familles multigéniques et des modèles sous-jacents
- Travail en équipe pluridisciplinaire (génomique végétale, informatique, mathématique)
- Communication scientifique et présentation orale des travaux dans les réunions d’équipe

Candidature

Procédure : Envoyer un mail avec une lettre de motivation, un CV, un relevé de notes L3 et M1 Le stage aura lieu à Angers (Maine et Loire), début stage le 1 avril 2026 si possible

Date limite : 16 mars 2026

Contacts

 Claudine Landès
 clNOSPAMaudine.landes@inrae.fr

Offre publiée le 2 mars 2026, affichage jusqu'au 16 mars 2026