Application de l’apprentissage à l’extraction de connaissances à partir de notices bibliographiques en génomique

Informations générales
Nom
Manine
Prénom
Alain-Pierre
Diplôme
Thèse
Année
2006
Détails de la thèse/HDR
Université
Résumé en français
Notre objectif est l’annotation sémantique automatique du texte, c’est à dire l’explicitation formelle de son sens. Nous nous appuyons sur l’Extraction d’Information, dont l’objectif est d’extraire du texte un type précis d’information sous forme structurée à l’aide d’un ensemble de règles. Ces règles seront acquises à l’aide de techniques d’apprentissage artificiel. Nous nous sommes intéressés au domaine de la génomique, dont la littérature est particulièrement complexe à traiter automatiquement. De fait, les méthodes de l’état de l’art se basent sur une analyse profonde du texte et sur des règles d’extraction faisant usage d’attributs syntaxiques et sémantiques. Ces règles sont généralement conçues manuellement, et nous avons démontré qu’il était possible de les acquérir automatiquement à partir d’exemples annotées. Nous proposons une méthodologie où l’ontologie (le modèle formel du domaine) est au coeur du processus d’annotation, que ce soit pour l’annotation experte, l’annotation sémantique automatique, ou la définition de la représentation du texte pour l’apprentissage. Cette dernière est effectuée déclarativement, en explicitant une « surcouche lexicale » de l’ontologie liant le niveau conceptuel au niveau lexical. Cette approche est d’une grande généricité et permet de tester aisément de multiples représentations. Nous l’avons validée sur le problème de l’extraction des interactions géniques, qui correspond à une demande forte de la communauté biologique. Pour faciliter l’analyse profonde du texte, nous filtrons les documents non pertinents à l’aide de méthodes d’apprentissage exploitant une analyse superficielle du texte. Nos résultats sont de bonne qualité comparativement à d’autres approches.