Doctorat en traitement du signal des données de spectrométrie de masse pour la santé

 CDD · Thèse  · 36 mois    Bac+5 / Master   CEA · Saclay (France)

 Date de prise de poste : 3 octobre 2022

Mots-Clés

signal processing blind source separation mass spectrometry metabolomics

Description

Doctorat en mathématiques appliquées : Nouvelles approches de séparation de sources appliquées à la déconvolution des données de spectrométrie de masse pour la découverte de biomarqueurs en santé

Contexte : L’étude globale des petites molécules présentes dans l’organisme (métabolomique) est une approche de pointe pour découvrir des biomarqueurs spécifiques de certaines maladies [1]. En particulier, la spectrométrie de masse dite « en tandem » couplée à la chromatographie liquide (LC-MS/MS) est une technologie puissante pour caractériser les milliers de molécules dans un échantillon biologique, dont les fragments apparaissent dans les données sous forme de pics en trois dimensions (masse, temps de rétention chromatographique et intensité ; [2]). La déconvolution mathématique de ces informations pour regrouper les fragments appartenant à la même molécule et identifier ainsi de nouveaux biomarqueurs est aujourd’hui un défi majeur.

Les approches de séparation de sources, et en particulier les méthodes de factorisation matricielle non-négatives (« non-negative matrix factorization », NMF), offrent des perspectives prometteuses pour la décomposition automatique des données sous la forme d’un produit de deux matrices regroupant d’une part les fragments au sein d’un nombre limité de spectres de masse « purs » et de l’autre les profils temporels de ces composés [3]. Récemment, de nouvelles approches NMF incluant une contrainte de parcimonie sur la matrice des données spectrales ont été proposées (sparse NMF ; [4]).

Projet : La première partie du doctorat sera consacrée au développement de nouvelles méthodes NMF parcimonieuses robustes et rapides pour la déconvolution des spectres LC-MS/MS. En particulier, l’intérêt d’étendre la contrainte de parcimonie aux profils temporels, et de travailler dans le domaine des ondelettes, seront étudiés. De plus, une modélisation spécifique du bruit sera développée pour tenir compte de son caractère non additif. Les algorithmes seront validés et comparés aux approches alternatives récentes (e.g. multivariate curve resolution – alternative least squares ; minimisation de l’entropie de Shannon ; [5]) par simulation et sur les jeux de données de référence du laboratoire.

La seconde partie se concentrera sur l’identification automatique des composés à partir des spectres MS/MS déconvolués. D’une part, les approches d’apprentissage statistique seront mises en œuvre pour prédire la structure du composé, ou sa classe chimique, par comparaison avec des bases de données spectrales obtenues à partir de standards purs ou comportant des spectres simulés par fragmentation in silico [6]. D’autre part, de nouvelles approches de fouilles de données seront développées pour extraire de l’information des collections de spectres MS/MS (e.g., « frequent itemset mining » ; [7]). L’ensemble du workflow sera appliqué à l’étude d’une cohorte clinique de 330 patients pour la recherche de biomarqueurs de résistance au traitement en psychiatrie de précision.

Consortium : Les laboratoires « Innovation en Spectrométrie de Masse pour la Santé » (LI-MS) et « Sciences des Données et de la Décision » (LS2D) au CEA travaillent depuis plus de 15 ans sur le développement de nouvelles méthodes en mathématiques appliquées pour le traitement des données de spectrométrie de masse et la découverte de biomarqueurs en santé.

Profil : Nous recherchons un(e) candidat(e) avec un master en mathématiques appliquées (spécialité traitement du signal), et motivé(e) par les applications multidisciplinaires (chimie, physique, biologie).

Références

[1]  D. S. Wishart, « Emerging applications of metabolomics in drug discovery and precision medicine », Nat. Rev. Drug Discov., vol. 15, no 7, p. 473‑484, juill. 2016, doi: 10.1038/nrd.2016.32.

[2]  R. Wang, Y. Yin, et Z.-J. Zhu, « Advancing untargeted metabolomics using data-independent acquisition mass spectrometry technology », Anal. Bioanal. Chem., vol. 411, no 19, p. 4349‑4357, juill. 2019, doi: 10.1007/s00216-019-01709-1.

[3]  X. Domingo-Almenara, A. Perera, N. Ramírez, N. Cañellas, X. Correig, et J. Brezmes, « Compound identification in gas chromatography/mass spectrometry-based metabolomics by blind source separation », J. Chromatogr. A, vol. 1409, p. 226‑233, août 2015, doi: 10.1016/j.chroma.2015.07.044.

[4]  J. Rapin et al., « Application of non-negative matrix factorization to LC/MS data », Signal Process., vol. 123, p. 75‑83, juin 2016, doi: 10.1016/j.sigpro.2015.12.014.

[5]  C. G. Bertinetto et A. de Juan, « Systematic comparison and potential combination between multivariate curve resolution–alternating least squares (MCR-ALS) and band-target entropy minimization (BTEM) », J. Chemom., vol. 32, no 6, p. e3000, 2018, doi: 10.1002/cem.3000.

[6]  D. H. Nguyen, C. H. Nguyen, et H. Mamitsuka, « Recent advances and prospects of computational methods for metabolite identification: a review with emphasis on machine learning approaches », Brief. Bioinform., vol. 20, no 6, p. 2028‑2043, nov. 2019, doi: 10.1093/bib/bby066.

[7]  Y. Liu et al., « MESSAR: Automated recommendation of metabolite substructures from tandem mass spectra », PLOS ONE, vol. 15, no 1, p. e0226770, janv. 2020, doi: 10.1371/journal.pone.0226770.

Candidature

Procédure : Merci de nous adresser votre CV, lettre de motivation, le nom de deux chercheurs référents, ainsi que vos notes et mentions de masters.

Date limite : 15 mai 2022

Contacts

Etienne Thévenot

 etNOSPAMienne.thevenot@cea.fr

 https://scidophenia.github.io/jobs.html

Offre publiée le 12 avril 2022, affichage jusqu'au 15 mai 2022