Vérification de la qualité et raisonnement sur les données issues de la plateforme AgroLD

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Nom de la structure d'accueil
Adresse

911 avenue Agropolis
34398 Montpellier
France

Contacts
Pierre Larmande
Catherine Faron
Email du/des contacts
pierre.larmande@ird.fr
faron@unice.fr
Description

Vérification de la qualité et raisonnement sur les données issues de la plateforme AgroLD

Mots clés: Linked Open Data, Reasoning, Data Quality, Curation, Bioinformatics

Contact: Pierre Larmande (pierre.larmande@ird.fr) et Catherine Faron (faron@unice.fr)
Lieu: IRD et LIRMM (Montpellier ou distanciel à discuter)

La plateforme AgroLD est une base de connaissances qui utilise les technologies du Web Sémantique pour intégrer des données agronomiques hétérogènes du génome au phénome i.e., de l’ensemble des gènes à l’ensemble des phénotypes observés chez un organisme- des plantes. Les technologies du Web Sémantique (concept inspiré par Tim Berners-Lee) [1] standardisées par le W3C, offrent une solution pour faciliter cette intégration et permettre l'interopérabilité entre les données. Parmi les technologies, RDF (Resource Description Framework) est largement utilisé pour publier des données en ligne et les interconnecter les unes les autres pour former ce qu’on appelle le Web de données. RDF permet de décrire une ressource et ses relations sous la forme de triplets, Sujet-Prédicat-Objet. Ces triplets peuvent être combinés pour construire de grands réseaux de données (également connus sous le nom de graphes RDF), intégrés à partir de différentes sources de données. Au cours des dernières années, de nombreuses initiatives ont émergé dans la communauté biomédicale afin de fournir des environnements intégrés permettant de formuler des hypothèses scientifiques sur le rôle des gènes dans l’expression des phénotypes ou l’émergence de maladies [2, 3]. Dans sa première phase, la plateforme AgroLD [4] couvre l'information sur les gènes, les protéines, les prédictions d'homologie de gènes, les voies métaboliques, quelques études génétiques et phénotypiques pour les espèces de riz, arabidopsis et blé. Actuellement, AgroLD contient 100 millions de triplets créés en transformant plus de 50 jeux de données provenant de 10 sources telles que les bases de données “riz” de la plateforme South Green ou des sources internationales comme Gramene.org pour les céréales. A titre de comparaison, Uniprot RDF [5] (http://www.uniprot.org) qui est considéré comme la référence pour l’annotation des protéines pour toutes les espèces vivantes contient 38 milliards de triplets.

Objectifs:
Le modèle de représentation des données en graphe RDF qu’utilise la plateforme AgroLD s’accompagne également d’autres langages structurants pour décrire les schémas de données (RDFS, OWL et SKOS) ou encore décrire les contraintes sur les données (ShEx, SHACL). Le fait d’utiliser des schémas—on parle également d’ontologies lorsque leur structure est plus complexe– sur les données permet de les structurer sous la forme de classes d’entités, de relations et d’instances. Il est possible de mettre en œuvre des mécanismes de raisonnements grâce aux schémas/ontologies. Par exemple, les relations de généralisation/spécialisation sont très souvent utilisées dans les raisonnements pour propager de l’information. Il est également possible d’utiliser le raisonnement pour enrichir les liens existants dans les données. C’est le cas lorsqu’on utilise les relations de réflexivité et de transitivité. Par exemple, dans le cas de données d’interactions moléculaires comme les réseaux d’interaction protein-protein ou de co-expression de gènes, le fait de définir la relation interact_with comme réflexive ou coexpress_with comme transitive permet de raisonner dessus afin d’enrichir l’information lorsque les données sont incomplètes. Également, la définition de classes permet d’instancier automatiquement des entités à partir de leurs descriptions. Par exemple, il est possible de définir la classe Transcription_factor pour des entités issues de la classe Protein ayant une propriété en lien avec “DNA Binding”.
Une autre problématique connexe à celle du calcul des inférences qui peuvent être faites sur les données en exploitant la sémantique des vocabulaires utilisés, est celle de la validation des données par rapport à des règles qui capturent d’une autre manière des connaissances du domaine. Les langages ShEx et SHACL permettent d’exprimer des contraintes sur des données RDF et de valider des données RDF par rapport à un ensemble de contraintes.
Peu de méthodes et outils ont été développés sur des données réelles et dans le domaine agronomique. Dans le cadre de ce stage, nous proposons (1) de mettre en oeuvre des techniques d’ingénierie d’ontologies pour enrichir la sémantique des vocabulaires par des définitions de classes et propriétés algébriques de relations, et (2) de développer des méthodes permettant de créer de nouvelles données en mettant en oeuvre des mécanismes d’inférence sur les vocabulaires enrichis sémantiquement, et (3) vérifier la validité des graphes par rapport à des connaissances du domaine formalisées sous la forme de contraintes.

Tâches à accomplir:
- Etablir un état de l’art sur le raisonnement sur les données biologiques et la validation de contraintes sur les données
- Proposer et mettre en oeuvre une approche d’ingénierie d’ontologies pour enrichir sémantiquement les vocabulaires associés au graphe RDF considéré
- Proposer et mettre en œuvre une approche de raisonnement sur les données intégrées sur la plateforme AgroLD à travers plusieurs exemples et prenant en compte ses schémas et ontologies.
- Proposer et mettre en œuvre une approche de validation de contraintes sur les données intégrées sur la plateforme AgroLD à travers plusieurs exemples.

Références
1. Berners-Lee T, Hendler J, Lassila O, others. The semantic web. Sci Am. 2001;284:29–37.
2. Belleau F, Tourigny N, Good B, Morissette J. Bio2RDF: A semantic web atlas of post genomic knowledge about human and mouse. Data Integr Life …. 2008;:153–60.
3. Jupp S, Malone J, Bolleman J, Brandizi M, Davies M, Garcia L, et al. The EBI RDF platform: linked open data for the life sciences. Bioinforma Oxf Engl. 2014;:1–2.
4. Venkatesan A, Tagny Ngompe G, Hassouni NE, Chentli I, Guignon V, Jonquet C, et al. Agronomic Linked Data (AgroLD): a Knowledge-based System to Enable Integrative Biology in Agronomy. PLoS ONE. 2018;:13:17.
5. Redaschi N, the UniProt Consortium. Uniprot in RDF: Tackling data integration and distributed annotation with the semantic web. Nat Prec. 2009.

Profil recherché :

Nous recherchons un étudiant en master 2 motivé. Le candidat démontrera des aptitudes ou des correspondances avec la plupart des aspects suivants:

- Forte motivation pour la recherche scientifique

- Connaissance des technologies du web sémantique, notamment JSON / RDF / SPARQL (ou motivation pour apprendre).

- Expérience avec les outils d'apprentissage automatique (par exemple, Scikit Learn de Python)

- Connaissance des techniques d'exploration de texte et de données (reconnaissance d'entités nommées)

- Excellentes compétences techniques pour mener des expériences avec des données réelles et de référence

- Autonomie et initiative, prendre les décisions techniques au sein du projet et justifier les choix

Equipe adhérente personne morale SFBI
Equipe Non adhérente