Stage M2 Clustering et visualisation de données hétérogènes sur les rosiers

 Stage · Stage M2  · 6 mois    Bac+5 / Master   Institut de Recherche en Horticulture et Semences (IRHS) · Beaucouzé (France)

 Date de prise de poste : 3 janvier 2022

Mots-Clés

sciences des données, clustering, visualisation, rosiers

Description

Contexte

L’Institut de Recherche en Horticulture et Semences (IRHS) est une unité mixte de recherche sous les tutelles de INRAE, de l’Institut Agro et de l'Université d'Angers qui mène des travaux autour de la biologie des produits horticoles (pommier, poirier, rosier, carotte, etc.) et la production de semences. Elle regroupe environ 230 personnes de profils divers : généticiens, sélectionneurs, phytopathologistes, physiologistes, biochimistes, modélisateurs, physiciens, statisticiens et bioinformaticiens. L’IRHS héberge des centres de ressources biologiques (CRB), qui stockent des collections de matériel biologique et des informations associées pour usage scientifique, industriel, agricole, environnemental, etc.Ainsi, le CRB « RosePom » assure actuellement la conservation d’environ 15 300 variétés de rosacées (pommier, poirier, rosier).

En lien avec ce CRB, le projet Florhige a permis la caractérisation génomique et phénotypique d’une partie de la collection de rosiers. Ces données ont permis la structuration de cet ensemble de variétés selon deux approches :

  • Constitution de groupes génétiques en exploitant les données de génotypage (présence/absence d’allèles de marqueurs microsatellites) [1],
  • Constitution de groupes basés sur les données passeport et phénotypiques en utilisant la distance de Gower et une nouvelle distance sémantique, basée sur des ontologies associées aux variables considérées, et en utilisant différentes méthodes de clustering [2].

À ce jour :

  1. L’exploitation de ce jeu de données reste incomplète, en particulier en ce qui concerne le lien entre les informations au niveau génomique et au niveau passeport/phénotype ou la comparaison entre les différents groupements réalisés,
  2. Le développement méthodologique décrit dans [2] ouvre des perspectives en termes de visualisation de données que nous souhaiterions explorer plus avant.

Objectifs

Dans ce contexte, les objectifs du stage visent à explorer ces deux points :

  1. Compléter l’exploitation du jeu de données :
    1.   Constituer des groupes basés sur l’ensemble des données (passeport, phénotypique et génotypique),
    2. Comparer les différents groupements réalisés (groupements décrits dans [1], [2] et au point 1.2 dans le but d’évaluer les forces et faiblesses de chaque méthodologie,
    3. Évaluer la contribution des différents variables du jeu de données à la constitution des groupes.
  2. Améliorer la visualisation : les visualisations que nous avons produites sont des matrices de nuages de points statiques. L’objectif serait de les rendre dynamiques et interactifs.

Références

[1] Mathilde Liorzou, Alix Pernet, Shubin Li, Annie Chastellier, Tatiana Thouroude, Gilles Michel, Valéry Malécot, Sylvain Gaillard, Céline Briée, Fabrice Foucher, Cristiana Oghina-Pavie, Jérémy Clotault, Agnès Grapin, Nineteenth century French rose (Rosa sp.) germplasm shows a shift over time from a European to an Asian genetic background, Journal of Experimental Botany, Volume 67, Issue 15, August 2016, Pages 4711–4725, https://doi.org/10.1093/jxb/erw269

[2] Rayan Eid, Claudine Landès, Alix Pernet et al. DIVIS: A Semantic Distance to Improve the Visualization of Incomplete Heterogeneous Phenotypic Datasets, 02 August 2021, PREPRINT (Version 1) available at Research Square [https://doi.org/10.21203/rs.3.rs-742853/v1]

Candidature

Procédure : Candidatures par mail à l’adresse julie.bourbeillon@agrocampus-ouest.fr Composition du dossier : • CV • Lettre de motivation • Notes de M1 et éventuellement indication d’un rang de classement dans la promotion • Éventuellement lettre(s) de recommandation

Date limite : 1 novembre 2021

Contacts

Julie Bourbeillon

 juNOSPAMlie.bourbeillon@agrocampus-ouest.fr

Offre publiée le 27 septembre 2021, affichage jusqu'au 1 novembre 2021