Mots-Clés
Intégration de données
horticulture
onteologies
Description
Contexte
L’Institut de Recherche en Horticulture et Semences (IRHS) est une unité de recherche sous les tutelles de l’INRAe, de l’Institut Agro et de l’Université d’Angers qui mène des travaux autour de la biologie des produits horticoles (pommier, poirier, rosier, carotte, etc.) et la production de semences. Elle regroupe environ 230 personnes de profils divers : généticiens, sélectionneurs, phytopathologistes, physiologistes, biochimistes, modélisateurs, statisticiens et bioinformaticiens. Au sein de l’unité, l’équipe ImHorPhen développe des méthodes et outils d’exploration de données. En effet, les équipes de biologistes de l’unité :
- ont de plus en plus recours à des méthodes expérimentales à haut débit, conduisant à la génération de jeux de données trop gros pour être analysés « manuellement »,
- ont de plus en plus envie de mener des méta-analyses, impliquant le traitement conjoint de plusieurs jeux de données acquis lors d’expériences précédentes.
Ces méta-analyses impliquent d’associer des résultats d’expérimentation concernant des échelles spatio-temporelles différentes, des individus d’espèces ou cultivars différents, dans des conditions expérimentales différentes ou ciblant des processus biologiques différents. Actuellement, ces combinaisons sont souvent réalisées manuellement, de manière ad-hoc, ou automatiquement mais à travers un nombre réduit de dimensions.
Il s’agit alors de proposer une solution permettant d’interconnecter des jeux de données automatiques, en mettant en correspondance les variables similaires et les individus similaires, en prenant en compte des différences de contexte (échelles, conditions expérimentales, etc.). La solution envisagée serait une représentation formelle des variables et leurs caractéristiques, au sein d’une ontologie. Cette ontologie serait alors exploitée par le système d’intégration pour transformer les données à travers les échelles, etc.
Cette approche étend des travaux déjà publiés autour de l’utilisation d’ontologies pour décrire la distance entre modalités de variables qualitatives ou la description d’une variable qualitative d’intérêt dans jeux de données hétérogènes.
Objectifs
Dans ce contexte, les objectifs du stage seront de mener une étude préliminaire au projet :
1. État de l’art des méthodes et outils d’intégration de données, en particulier de l’usage d’ontologies à cette fin
2. Identification d’ontologies de référence pertinentes
3. Constitution d’une collection de jeux de données d’intérêt, issus de travaux de l’unité, de partenaires ou de banques de données publiques
4. Identification dans les jeux de données de variables et individus qui seraient à mettre en correspondance
5. Développement d’un outil « preuve de concept » permettant de transformer une ou deux variables selon une ou deux dimensions afin d’intégrer deux jeux de données issus des collections constituées
Informations complémentaires
Compétences recherchées
Deux profils sont possibles :
* (Bio)informaticien avec un intérêt pour la statistique, connaissances en ingénierie des connaissances / développement d’ontologies (ou conception de bases de données et une envie de découvrir l’ingénierie des connaissances), conception et développement d’application, technologies objet.
* (Bio)stastisticien avec un intérêt pour l’informatique, connaissances en programmation R, modélisation de données.
Un intérêt pour le développement d’outils à destination de biologistes et l’interaction étroite avec les utilisateurs est essentiel.
Lieu du stage
UMR 1345 Institut de Recherche en Horticulture et Semences (IRHS) - INRAe / Institut Agro / Université d’Angers
42 rue Georges Morel, F-49071 BEAUCOUZE Cedex (France)
Gratification
Aucune (stage de 2 mois maximum)
Dates et durée
Il s’agit d’un stage de 2 mois pouvant être réalisé entre janvier-mars et juin-août 2026.