Stage M2: Application de méthodes de text-mining/NLP sur la littérature scientifique

 Stage · Stage M2  · 6 mois    Bac+4   ToxAlim · TOULOUSE (France)

 Date de prise de poste : 1 janvier 2022

Mots-Clés

Text mining Natural Language Processing

Description

Application de méthodes de text-mining/NLP sur la littérature scientifique pour la qualification d’associations composé chimique - maladie


Lieu : Toulouse (INRAE Toxalim, 180 chemin de Tournefeuille, 31027 Toulouse)

Laboratoire d'accueil : Unité TOXALIM (Toxicologie Alimentaire) UMR 1331
                                       Equipe MeX (Métabolisme et Xénobiotiques)

Encadrants : Maxime Delmas et Clément Frainay

Contacts : maxime.delmas@inrae.fr & clement.frainay@inrae.fr

Durée : 6 mois

Période de stage : À partir de Janvier 2022

Niveau souhaité : stage de M2

Date limite de dépôt des candidatures : 15 octobre 2021


Description :


Les approches de text-mining et NLP (Natural Language Processing) ont pris une importance considérable ces dernières années avec l’explosion du Web et de ses données textuelles. Sous la forme d’articles, de tweets, ou de pages web, le texte représente le moyen le plus commun de transmettre une information, un avis, ou une connaissance. Les applications des méthodes de text-mining/NLP sont alors variées: extraction des thèmes majeurs d’un document, indexing de documents, identification de patterns et de relations entre entités, traduction, chatbot, etc ….
Plus de 30 millions de publications constituent aujourd’hui la littérature scientifique, des essais cliniques aux études toxicologiques, et forment une ressource de référence pour rechercher des informations sur des relations entre entités biologiques. Les approches de text-mining et NLP sont ainsi largement appliquées à divers domaines de la santé, et notamment en toxicologie.

Dans ce domaine, le laboratoire ToxAlim axe sa recherche sur l’évaluation des risques sur la santé humaine et animale de l’exposition à des contaminants alimentaires. L’équipe MeX (Métabolisme & Xénobiotiques), au sein de laquelle se déroulera le stage, s’intéresse plus particulièrement à la métabolisation des contaminants alimentaires (bioactivation/désintoxication) ainsi qu’à la modulation par ces contaminants des réseaux métaboliques endogènes.

Dans ce contexte, l’équipe a développé un graphe de connaissance [1] exposant entre autres des relations entre composés chimiques et maladies, extraites à partir de l’analyse statistique de leurs co-mentions dans la littérature (FORUM). Cet outil a été développé pour supporter l’interprétation des résultats en métabolomique, en fournissant aux utilisateurs des listes de concepts biomédicaux associés à leurs molécules d’intérêt. Cependant, même si chaque relation est soutenue par de fréquentes co-mentions des deux entités dans la littérature, la nature de cette relation est inconnue. Par exemple, dans un article traitant d’une maladie, une molécule peut y être mentionnée pour son usage en tant que traitement ou biomarqueur pour le diagnostic, pour sa toxicité ou son implication dans les mécanismes physiologiques liés à la pathologie, etc. Le type de relation n’est pas nécessairement unique et surtout la connaissance de la nature de la relation est essentielle à l’utilisateur pour interpréter ses résultats.

Le but du stage est alors de récupérer les données textuelles disponibles pour les articles supportant la relation (abstract, texte complet, phrases) et d’y appliquer des approches de text-mining/NLP afin d’en qualifier la nature.

Objectifs :
  • Récupération des articles soutenant les relations à partir du graphe de connaissance FORUM (SPARQL).
  • Extraction et parsing des données textuelles des articles (API REST, XML).
  • Qualification des relations en utilisant des approches de text-mining/NLP avec la librairie de référence nltk (Preprocessing, Name Entity Recognition, extraction de relations)


Compétences requises :

Bonne maîtrise du langage python, Git et système Unix, un bon niveau d’anglais, curiosité scientifique. Des notions de bases en text-mining et NLP seraient un plus.


Encadrement et conditions d’accueil

Le stage sera réalisé au sein d’une équipe de bioinformaticiens de l’unité Toxalim. Il sera encadré par Maxime Delmas: Étudiant en thèse dans l’équipe et Clément Frainay: Chercheur dans l’équipe


Informations requises

Les étudiants intéressés doivent envoyer leur CV et une lettre de motivation expliquant pourquoi ils sont intéressés par le projet à l'adresse maxime.delmas@inrae.fr et clement.frainay@inrae.fr



[1] Delmas, M. et al. FORUM: Building a Knowledge Graph from public databases and scientific literature to extract associations between chemicals and diseases. bioRxiv (2021) doi:10.1101/2021.02.12.430944.



Candidature

Procédure : Les étudiants intéressés doivent envoyer leur CV et une lettre de motivation expliquant pourquoi ils sont intéressés par le projet à l'adresse maxime.delmas@inrae.fr et clement.frainay@inrae.fr

Date limite : 15 octobre 2021

Contacts

Maxime Delmas

 maNOSPAMxime.delmas@inrae.fr

Offre publiée le 7 septembre 2021, affichage jusqu'au 15 octobre 2021