Mises en correspondances de données, textes et connaissances pour la découverte de connaissances biomédicales

Informations générales
Nom
Coulet
Prénom
Adrien
Diplôme
HDR
Année
2019
Détails de la thèse/HDR
Université
Jury
Nathalie Aussenac-Gilles, IRIT, CNRS (rapportrice)
Sarah Cohen-Boulakia, LRI, Université Paris-Sud (rapportrice)
Olivier Curé, IGM, Université Paris-Est Marne-la-Vallée (rapporteur)
Olivier Dameron, IRISA, Université de Rennes 1 (examinateur)
Marie-Dominique Devignes, LORIA, CNRS (examinatrice)
Anne Gégout-Petit, IECL, Université de Lorraine (examinatrice)
Amedeo Napoli, LORIA, CNRS (examinateur)
Résumé en français
Les connaissances peuvent revêtir des formes multiples en informatique : elles peuvent être écrites en langage naturel dans des textes, un format difficile à manipuler pour les machines ; elles peuvent être formalisées dans des bases de connaissances alors appréhendables dans une certaine mesure grâces aux outils du Web Sémantique ; ou encore être présentes, de façon sous-jacente, dans un ensemble de données en attente d'analyse. Ces trois types de représentations de connaissances plus ou moins formalisées, plus ou moins explicites coexistent dans de nombreux domaines, et c'est notamment le cas dans le domaine biomédical auquel nous nous intéressons particulièrement. Malgré cette coexistence, ces types de connaissances ne sont généralement pas confrontés les uns aux autres. Il paraît pourtant très utile d'être capable de les comparer et cela pour les quatre raisons suivantes : cela permet d'intégrer un panorama de connaissances disponibles et de proposer un accès unique à celui-ci ; de détecter des accords et désaccords entre les sources ; d'évaluer des extraction de connaissances à partir de données ; et enfin de faciliter l'extraction de connaissances en s'appuyant sur des connaissances pré-existantes. Sans forcement les atteindre tous les quatre, nous présenterons dans ce mémoire différentes contributions qui mettent en correspondance données, textes et ontologies avec ces objectifs en vue. Dans un premier temps nous abordons les mises en correspondances entre ontologies et données ou textes. Dans un second temps nous considérons l'utilisation de ces correspondance pour l'analyse de données et en particulier de données cliniques. Enfin, nous présentons des approches de fouille de données appliquées à des graphes de connaissances, un contexte particulier où données et connaissances sont déjà liées. Nous nous attacherons dans tous les cas à expliquer comment les connaissances peuvent guider la découverte de connaissances.
Résumé en anglais
In computer science, knowledge can take many forms: it can be formalized in text, a format difficult to handle for machines; it can be represented in knowledge bases, then interpretable to some extend by machines; or being latent in a set of data awaiting to be analysed. These variously formalized representations of knowledge coexist in many fields, and in particular in biomedicine, our domain of interested. However they are most of the time not compared with each other, eventhought this comparison has many potential. Comparison would allow to provide a unique access to available knowledge; to detect agreements between various sources; to evaluate knowledge discovery; and to reuse knowledge to guide knowledge discovery. Without achieving all of them, we present in this manuscript several contributions that use mappings between data, texts and ontologies with these goals in mind. First, we consider data and text annotations, i.e., mappings between data, text and ontologies. Then, we consider annotations of Electronic Health Records and how these can help analyse clinical data. Finally, we explore the mining of knowledge graphs, a particular setting where data and knowledge are already connected. In each case, we will explain how knowledge may guide knowledge discovery.