Data Engineer / Data Scientist sur données hospitalières (AP-HP/Inria/CS)

 CDD · Ingénieur autre  · 24 mois (renouvelable)    Bac+5 / Master   Fondation APHP · Paris (France)

 Date de prise de poste : 29 avril 2021

Mots-Clés

data science, données hospitalières, parcours de soins

Description

L’Entrepôt des Données de Santé (EDS) de l’AP-HP centralise les données collectées dans le cadre du soin à l’AP-HP pour les mettre à disposition de projets de recherche ou de projets visant à améliorer le pilotage de l’activité hospitalière. Les données de l’EDS sont massives (+ de 8 millions de patients, 39 hôpitaux), variées (données de biologie, de parcours de soin, comptes rendus cliniques, imagerie, etc.) et mises à jour quotidiennement. L’analyse de l’EDS est riche d’opportunités mais présente également des défis importants (données présentes sous forme non-structurée, biais de collecte, etc.).

La Chaire en Intelligence Artificielle AI-RACLES créée en 2020 et co-portée par Etienne Audureau (AP-HP), Thomas Guyet (INRIA), Laurent Le Brusquet et Arthur Tenenhaus (CentraleSupélec), vise à exploiter les données massives de l’EDS de l’AP-HP afin de mener des travaux de recherche centrés sur l’exploration du concept de vulnérabilité en santé, qu’elle soit liée au vieillissement ou à des pathologies comme le cancer ou la COVID-19. Autour de cette thématique de recherche applicative, la Chaire AI-RACLES s’appuie sur l’encadrement de doctorants et post-doctorants pour développer un programme de recherche en 3 axes principaux et 1 axe transversal en lien direct avec des thèmes de recherche technologique :

  • Axe 1 – Intégration de données hétérogènes à un temps donné et/ou issues du suivi longitudinal, incluant des données de nature clinique, biologique, textuelles (compte-rendus d’hospitalisation, imagerie, anatomopathologique etc.)
  • Axe 2 – Identification de phénotypes de fragilité et trajectoires de soins impliquantla conduite d’analyses non supervisées (représentation du patient et identification de profils et trajectoires typiques)
  • Axe 3 – Construction et intégration d’outils prédictifs utiles à la pratique clinique impliquant la conduite d’analyses supervisées s’appuyant des approches de deep/machine learning
  • Axe transversal : évaluation et la promotion de l’utilisation de bases de données standardisées et interopérables (modèle OMOP) et la génération de données synthétiques utiles à la recherche

Outre les porteurs AP-HP, INRIA et CentraleSupelec, la Chaire s’appuie sur les collaborations suivantes sur le plan clinique, technique et fonctionnel :

  • Médecins cliniciens AP-HP spécialistes des thématiques traitées par la Chaire (réanimateurs, internistes, gériatres, oncologues)
  • Pôle Innovation et Données au sein de la Direction des Systèmes d’Information (DSI) de l’AP-HP
  • Unité de Recherche Clinique Mondor (data scientists), AP-HP
  • Laboratoire Bernoulli AP-HP/INRIA et autres équipes en IA exploitant les données de l’EDS (modèles de NLP, développement de librairies de pre-processing, etc.).

Vos missions - descriptif du poste

Au sein de la Chaire AI-RACLES, vous aurez pour mission de faciliter et contribuer aux analyses statistiques réalisées dans le cadre des travaux de recherche détaillés ci-dessus. Vous aurez un rôle central auprès de tous les acteurs data de la Chaire, pour rendre exploitables et valoriser les données en amont et en aval des projets. En amont des projets, votre connaissance de l’environnement numérique de l’EDS sera mise à profit afin de délimiter, préparer, nettoyer, normaliser et contextualiser les données. En aval, vous accompagnerez les thésards, post-doctorants, data scientists et chercheurs dans la mise en œuvre des modèles, la relecture et l’optimisation des codes, et contribuerez à assurer l’exploitabilité des solutions et le déploiement des modèles développés.

Vous serez en charge des missions principales suivantes :

  • Constituer les bases de données nécessaires à la réalisation des projets, incluant la définition des périmètres de patients et des variables au sein de l’EDS, le nettoyage de ces données en ajustant leur format et/ou en normalisant les données, et en gérant les données manquantes
  • Participation à la rédaction des plans d’analyse statistique et à leur réalisation, impliquant l’utilisation de méthodes biostatistiques et d’algorithmes d’apprentissage automatique
  • Participation à la valorisation des résultats et rédaction des publications scientifiques
  • Aide à la rédaction de la documentation sur les codes générés
  • Développement logiciel pour le déploiement des modèles prédictifs et/ou l’aide à l’analyse des données au sein de l’EDS
  • Participation éventuelle au développement, documentation et maintenance d’une librairie de pre-processing mise à disposition des équipes de recherche pour faciliter leur analyse de la base EDS

Profil recherché

Requis

  • Maîtrise des outils Big data, pour le stockage et traitement de données volumineuses (Hadoop, Scala, Spark, …)
  • Maîtrise de Python, R, SQL ;
  • Maîtrise des analyses biostatistiques et machine learning, deep learning, Random Forests, SVM, régression, séries temporelles, traitement du signal

Apprécié

  • Connaissance Java, C, C++
  • Connaissance des framework d’analyse interactive Python : Dash ou Flask
  • Connaissance des problématiques fonctionnelles hospitalières (structures, processus) et des métiers de la santé ;
  • Connaissance du monde de la recherche

Autres

  • Esprit d’équipe, communication, ouverture d’esprit, créativité, curiosité, transdisciplinarité
  • Faire preuve de rigueur
  • Être autonome, avoir un bon sens de l’organisation du travail et des priorités
  • Rédiger et mettre en forme des notes, documents et /ou rapports
  • Concevoir et rédiger une documentation
  • Avoir la capacité de s’exprimer en public

Formation

  • Parcours en école d’ingénieur spécialisée en informatique, Master ou Thèse Big Data, statistiques, mathématiques

Candidature

Procédure : Envoi de CV par mail dès que possible à * AUDUREAU Étienne <etienne.audureau@aphp.fr> * Thomas Guyet <thomas.guyet@irisa.fr> * Arthur Tenenhaus <arthur.tenenhaus@centralesupelec.fr> * Laurent Le Brusquet <laurent.lebrusquet@centralesupelec.fr>

Date limite : None

Contacts

Thomas Guyet

 thNOSPAMomas.guyet@irisa.fr

Offre publiée le 30 avril 2021, affichage jusqu'au 1 juillet 2021