Ingénieur.e biostatisticien.ne/data scientist en intégration des données

 CDD · Ingénieur autre  · 12 mois    Bac+5 / Master   Equipe Sciences des Données, UMR Médicaments et Technologies pour la Santé (SPI/LI-MS), MetaboHUB · Gif-sur-Yvette (France)  A préciser lors de l'entretien

 Date de prise de poste : 9 janvier 2023

Mots-Clés

intégration des données, statistiques, machine learning

Description

CDD Ingénieur.e biostatisticien.ne/data scientist au CEA (MetaboHUB Paris-Saclay) : nouvelles approches d’intégration statistique des données omiques

Contexte : L’intégration des données est une opportunité majeure dans les sciences omiques pour obtenir des résultats plus robustes en terme de prédiction et mieux interprétables. De nombreuses méthodes statistiques ont été décrites pour construire des modèles prédictifs intégratifs et sélectionner les variables d’intérêt (utilisant le clustering, les variables latentes, le mélange de kernels, la fusion de modèles, etc.) [1].

Le projet ProMetIS [2], qui réunit les quatre infrastructures nationales en phénogénomique (PHENOMIN), protéomique (ProFI), métabolomique (MetaboHUB) et bioinformatique (IFB), a pour objectif de développer les workflows de production et d’intégration des données à haut débit pour la caractérisation phénotypique approfondie de mutations génétiques. Un jeu de données multi-plateformes, multi-tissus et multi-omiques a ainsi été généré [3].

Sujet : L’ingénieur.e développera des méthodes d'intégration statistique reposant sur la fusion de modèles (ou stacking), et les comparera avec des approches alternatives sur les données ProMetIS (Canonical Correlation Analysis, Matrix Factorization, Similarity Matrices) afin d'identifier les plus efficaces en termes de prédiction et d'interprétation, en fonction du niveau d'intégration considéré (inter-plateforme, inter-tissus, inter-omique). Le développement et l'évaluation des méthodes seront mis en œuvre dans un workflow informatique FAIR afin de garantir la reproductibilité des résultats.

Références :

[1] Pierre-Jean et al. (2019) Clustering and variable selection evaluation of 13 unsupervised methods for multi-omics data integration. Briefings in Bioinformatics, 6:2011-2030.

[2] https://github.com/IFB-ElixirFr/ProMetIS

[3] Imbert et al. (2021) ProMetIS, deep phenotyping of mouse models by combined proteomics and metabolomics analysis. Scientific Data, 8:311.

Profil : Nous recherchons un.e ingénieur.e biostatisticien.ne/data scientist avec une solide formation en mathématiques appliquées, analyse des données (machine learning, chimiométrie) et en programmation.

Laboratoire d’accueil : Au sein de l’infrastructure nationale en métabolomique et fluxomique (MetaboHUB), la plateforme Metabolome-IDF basée au CEA Saclay est spécialisée depuis plus de 15 ans en métabolomique, lipidomique, glycomique par spectrométrie de masse et en sciences des données pour la découverte de biomarqueurs en santé. L’équipe sciences des données (Odiscé) développe des méthodes et librairies logicielles innovantes en mathématiques appliquées et en statistiques pour le traitement (traitement du signal), l’analyse statistique intégrative (machine learning) et l’annotation (chimio-informatique) des données de grande dimension au sein de large cohortes. Les données et algorithmes sont mis à disposition de la communauté, notamment grâce à une suite de logiciels disponibles sur R/Bioconductor et Galaxy/Workflow4Metabolomics.

 

Candidature

Procédure : Merci d’adresser votre CV détaillé avec les expériences de recherche, notes et mentions aux diplômes, et lettre de motivation.

Date limite : 30 novembre 2022

Contacts

Etienne Thévenot

 etNOSPAMienne.thevenot@cea.fr

 https://odisce.github.io/

Offre publiée le 18 octobre 2022, affichage jusqu'au 30 novembre 2022