Développeur(euse) Back-End Java/Python Plateforme Big Data de l'AP-HP

Type de poste
Niveau d'étude minimal
Dates
Durée du poste
Contrat renouvelable
Contrat non renouvelable
Date de prise de fonction
Date de fin de validité de l'annonce
Localisation
Adresse

33 boulevard de Picpus
75012 Paris
France

Contacts
Elisa Salamanca
Nicolas Paris
Julien Dubiel
Email du/des contacts
elisa.salamanca@aphp.fr
nicolas.paris@aphp.fr
julien.dubiel@aphp.fr
Description

L’AP-HP

L'Assistance Publique - Hôpitaux de Paris (AP - HP) est le centre hospitalier universitaire (CHU) d’Île-De-France. Ses missions sont le soin, la recherche et l’enseignement. À dimension internationale, il est constitué de 38 hôpitaux, organisés en 12 groupes hospitaliers. Accueillant plus de 7 millions de patients par an, il possède un budget annuel de près de 7,2 milliards d’euros.

Direction des Systèmes d’Information de l’AP-HP

La Direction des Systèmes d’Information (DSI) a pour mission d'assister le Directeur Général de !'Assistance publique - hôpitaux de Paris dans la conception, le pilotage et la mise en œuvre de la politique système d’information de l'AP-HP. Elle est rattachée au secrétariat général de l’AP-HP.Sous réserve des attributions propres aux Directions assurant la maîtrise d’ouvrage métier, les missions et domaines de
Le budget d’investissement géré est de près de 70 M€ et le budget d’exploitation est de 125 M€.
Le nombre d’agents de la DSI centrale en équivalents temps pleins est de 370.

Le département Web Innovation Données au sein de la DSI a en charge :

À travers le domaine Web, en lien avec la direction de la communication (DIRCOM) et la direction du pilotage et de la transformation (DPT) : les portails internet de l’institution (Drupal, WordPress, etc.), les outils collaboratifs (SharePoint, Alfresco, etc.), les applications mobiles et les nouveaux téléservices de l’AP-HP (paiement en ligne, prise de rendez-vous en ligne, portail patient, etc.) permettant de dématérialiser les relations avec le patient ;
À travers le domaine Données, en lien avec la direction de l’organisation médicale et des relations avec les universités (DOMU) : (i) l’expertise données en soutien à la mise en place d’une gouvernance institutionnelle des données, (ii) le développement de l’entrepôt de données de santé et de la plateforme Big Data de l’AP-HP et l’organisation de la mise à disposition des données à des fins de recherche, de pilotage et d’innovation (iii) la maintenance de divers référentiels de données cliniques sur des standards internationaux, nationaux ou AP-HP ;
À travers la plateforme Bio-Informatique : la proposition d’une offre de services et d'expertise aux pôles de biologie de l’AP-HP face aux besoins dans leur gestion informatique du séquençage, qu’il s’agisse de l’infrastructure, des logiciels avec leurs ressources de calcul associées, ainsi que de l’expertise métier en bio-informatique.
A travers le domaine BNDMR (Banque Nationale de Données Maladies Rares) en lien avec la DOMU : le pilotage d’un projet national visant à développer, maintenir et déployer une application de collecte de données dans le cadre du soin (BaMaRa- Base Maladies Rares) et la mise en place d’un entrepôt de données national sur les maladies rares.

Le département a par ailleurs comme mission de favoriser l’Innovation, en lien avec la DPT: le développement progressif d’une offre permettant l’organisation d’évènements dans les hôpitaux (conférences, cafés, hackathons, etc.), le soutien aux projets les plus prometteurs, et plus généralement l’organisation de la veille et la prospective sur les transformations numériques et leur impact sur l’hôpital ;

Description du Domaine Données :

Le domaine Données de WIND est composé de trois équipes :
• L’équipe Expertise Données a pour mission d’assurer le cadrage de la gouvernance institutionnelle des données (cadre réglementaire, cadre d’interopérabilité, programme qualité des données)
• L’équipe Plateforme Big Data et Entrepôt de Données de Santé (EDS) est responsable de la mise en place de la plateforme Big Data de l’AP-HP qui doit permettre l’intégration des données de santé massives et complexes (séquences de gènes, images, signaux, textes, etc). L’objectif de cette plateforme est de faciliter l’utilisation de ces données à grande échelle, de manière performante et sécurisée dans le respect des principes et règles de gouvernance des données définis par l’AP-HP, pour diverses finalités (recherche, enseignement, pilotage médico-économique et opérationnel, innovation diagnostique et thérapeutique, maîtrise des vigilances et risques).
• L’équipe Référentiels Métiers et Offre de soins a pour mission de mettre en œuvre des solutions de gestion et de distribution des référentiels/terminologies métier et des bases de connaissances du Systèmes d’Information (SI) Patient dans divers domaines de la santé: spécialités médicales ou chirurgicales, biologie, imagerie, génétique, circuit du médicament etc. Ces référentiels métier permettent l’échange, le partage et l’exploitation des données de santé. L’équipe assure également la gestion de la base de données institutionnelle de l’offre de soins et la maintenance d’un moteur de recherche améliorant la lisibilité sur Internet de l’offre de soin et des activités de l’AP-HP.

La Plateforme Big Data héberge l’Entrepôt de Données de Santé (EDS) qui intègre les données médicales, administratives et sociales des patients pris en charge à l’AP-HP. Elle offre également des services d’hébergement et de traitement de données de santé dans le cadre de projet de recherche clinique ou épidémiologique nationaux et internationaux. Les environnements techniques sur lesquels le cluster Big Data, élément central de cette plateforme, est bâti sont : Hadoop (distribution Hortonworks avec les briques Hive, Spark2, Solr, Phoenix, Hbase, HDFS, Zookeper, Ambari…), base de données structurée PostGreSQL, Jupyter Lab, l’outil I2B2…Cette plateforme compte actuellement 22 machines pour le cluster Hadoop (4928Go RAM, 840 cores CPU,1,4To d’espace disque HDFS), de 3 machines GPU (20 GPU Nvidia), de 10 machines CPU dédiées aux environnements Jupyter pour l’analyse de données, et 1 machine NFS de 78To.

L’entrepôt de données de santé contient aujourd’hui les données médicales de plus de 8 millions de patients (20 millions de dossiers médicaux, plus de 10 millions de diagnostics, 181 millions de résultats de laboratoires…). Un travail important de standardisation des données est en cours afin de s’aligner sur les standards internationaux et assurer une interopérabilité maximale des données (OMOP, FHIR et les terminologies médicales de référence LOINC, CIM…). Plus de 30 projets de recherche sont actuellement en cours.
Un effort important est porté au déploiement et au développement de l’usage des solutions de mise à disposition des données au travers d’outils spécifiques (logiciel I2B2, outil BI Cognos, outils propres de visualisation et de création de cohortes...) ou d’interfaces FHIR (API), en particulier dans le domaine de la cancérologie.

Activités

Missions générales du poste :

Vous aurez pour missions générales de faciliter la recherche à l’AP-HP en proposant et en développant les briques back-end de la plateforme Big Data.

Vous vous occuperez notamment des développements Back End du projet prioritaire Cohort360 de l’AP-HP, outil de création et de visualisation de cohortes médicales pour la recherche. Le développement de ce Back-End se fera avec des technologies Java et Python en s’appuyant sur la plateforme Hadoop et les bases structurées (PostGreSQL) de la plateforme Big Data. Vous devrez également tester et valider les nouvelles fonctionnalités avant leur mise en production. Dans ce cadre vous interviendrez dans les groupes de travail avec les chercheurs et professionnels de l’AP-HP pour la définition des nouvelles fonctionnalités.

Missions spécifiques :
• Développer, en Java et avec du SQL, une API REST répondant aux standards FHIR (norme d’interopérabilité des données de santé). Cette API exposera des données de patients de manière sécurisée. Les développements s’appuieront sur les bases de données de la plateforme Big Data : Postgresql, Apache Hive, Apache Phoenix, Apache HBase
• Participer au développement, en Python ou Java d’une API REST requêtée par le Front-End d’une application interne : Cohort360.
• Participer au projet Cohort360 en participant au développant un back-end en Python ou Java dédié à l’applicatif et permettant par exemple de stocker les profils utilisateur, et d’autres spécificités de Cohort360 que FHIR ne permet pas de stocker.
• Contribuer aux développements Spark permettant de pré-calculer certains graphiques destinés aux outils de visualisation de données.
• Contribuer au développement et à l’amélioration de l’architecture globale de la plateforme Big Data (espaces Jupyter Lab, plateforme Hadoop, outils pour la recherche clinique : Redcap, PACS Recherche…)
• Développements d’outils nécessaires pour favoriser la recherche à l’AP-HP (annotation de données médicales, mise en place de bibliothèques spécifiques pour la recherche …)
• Intervenir dans le cadre des groupes de travail métier pour la définition des nouvelles fonctionnalités ainsi que leur validation
• Assistance à la mise en œuvre et à la maintenance en conditions opérationnelles des outils développés
• Le développement de tests unitaires et fonctionnels
• La documentation de l’architecture logicielle de la solution développée
• La documentation pour une utilisation ultérieure en Open Source

Compétences Requises

Requis :
• Très bonne connaissance d’au moins un des deux langages de programmation suivants : Java ou Python, et connaissances dans l’autre.
• Très bonne connaissance du langage SQL
• Bonne connaissance du framework Spring et expérience de développements d’API Rest
• Connaissances en sécurité des API (oAuth2, SSO, SAML, …).
• Connaissances en Bases de données Hadoop (Hive, HBase, Phoenix, SolR…).

Apprécié :
• Connaissance des standards d’interopérabilité du domaine de la santé (FHIR, OMOP, CDA, HL7, CIM, Snomed, LOINC…)
• Librairies et méthodologies de machine learning et de deep learning (scikitlearn, tensorflow, keras…)

Travail en équipe :
• Concevoir et évaluer un projet / un processus relevant de son domaine de compétence
• Concevoir et rédiger une documentation spécifique à son domaine de compétence
• Connaissance des méthodologies de développement Agile
• De bonnes connaissances des différentes phases d’un projet informatique (conception, réalisation, qualification, déploiement en production)
• Utiliser les logiciels métier

Connaissances associées
• Bonnes connaissances des problématiques fonctionnelles hospitalières (structures, processus) et des métiers de la santé (dont la recherche sur données et la recherche clinique)
• Connaissance des architectures SI métier et fonctionnelle
• Enjeux liés à la recherche, à l’analyse de données et aux technologies de machine learning/deep learning, notamment dans le domaine de la santé (santé publique, génétique, épidémiologie…)

Qualités requises
• Esprit d’équipe
• Autonomie, rigueur, méthode
• Excellentes aptitudes relationnelles et à la communication, capacité d’écoute et de vulgarisation, capacité de formation (Aisance à l’oral, diplomatie)
• Capacité de travail importante, associée à un fort dynamisme.
• Curiosité et capacité d’adaptation et d’anticipation
• Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé