Thèse de doctorat

 CDD · Thèse  · 36 mois    Bac+5 / Master   LITIS UR 4108 · Mont-Saint-Aignan (France)

 Date de prise de poste : 1 octobre 2022

Mots-Clés

protéomique amt-tag

Description

Contexte

La thèse se déroulera dans un contexte pluridisciplinaire dans le cadre d’une collaboration entre l’équipe TIBS du LITIS et la plateforme de protéomique PISSARO de l’université de Rouen Normandie.

L’identification des protéines dans un échantillon complexe par analyse protéomique est aujourd’hui une étape incontournable pour mieux caractériser un système biologique d’étude, et par exemple mettre en évidence les régulations des voies de signalisation associées à un phénotype, dans tout type d’organisme et à partir de différents types d’échantillons (tissus, cellules, fluides biologiques…). Pour cela, les protéines sont découpées à l’aide d’une enzyme spécifique (protéase) et les peptides générés sont ensuite analysés par spectrométrie de masse couplée à la chromatographie liquide (LC-MS/MS). Dans un premier temps, sur des appareils à haute résolution et haute précision de masse, les peptides ionisés sont analysés lors d’un premier balayage MS. Le temps de rétention (RT) ainsi que le rapport masse-sur-charge (m/z) de chacun de ces ions (nommés pères) sont alors déterminés. Lors de ces expériences, certains de ces ions peptidiques (souvent les plus intenses) sont analysés par spectrométrie de masse en tandem (MS/MS) : ils sont sélectionnés, fragmentés et les ions fragments (appelés ions fils) sont analysés lors d’une seconde analyse MS. Par la suite, des outils bioinformatiques sont utilisés pour traiter ces données afin de déterminer la séquence des peptides analysés (enchaînement en acides aminés), et donc d’identifier les protéines présentes dans les échantillons. Lors de ces études, les peptides sont le plus généralement identifiés en comparant les valeurs des m/z du père et de ses fils aux valeurs m/z théoriques obtenues par digestion et fragmentation in silico des protéines d’une base de données de référence de l’organisme étudié.

Aujourd’hui, de façon assez classique, une expérience LC-MS/MS produit des dizaines, voire plus d’une centaine de milliers de spectres par heure d’analyse. Pour autant, de nombreux peptides (et donc les protéines dont ils proviennent) ne sont pas identifiés malgré, 1) de nombreux travaux sur le développement de logiciels d’identification, et 2) l’amélioration des instruments de spectrométrie de masse. Les raisons principales de ce niveau d’identifications qui reste limité sont multiples :

  • seuls les ions majoritaires sont généralement sélectionnés pour l’analyse MS/MS ;

  • certains spectres MS/MS manquent d’informations pour que la séquence peptidique puisse être annotée avec succès ;

  • la plupart des travaux d’identification sont entrepris sans prendre en compte la présence potentielle de modifications post-traductionnelles (PTM).

Ainsi, parmi toutes les données générées, une grande fraction d’entre elles ne sont pas utilisées. Le développement d’une approche utilisant les informations enregistrées permettrait alors d’augmenter de manière significative le nombre de protéines identifiées, et ainsi de mieux caractériser les systèmes biologiques, comme les voies biochimiques régulées lors d’une pathologie, ou encore de rechercher de biomarqueurs protéiques, signatures de cette pathologie…

Une stratégie intéressante pour augmenter le nombre de peptides identifiés est la méthode appelée AMTtag (Accurate Mass and retention Time tag [1, 2, 4]), reposant sur l’utilisation des coordonnées m/z et RT. Cette méthodologie repose sur un processus séquentiel : 1) la création d’une base de données des coordonnées (m/z et RT) des peptides identifiés par des logiciels classiques (ex : Mascot [3]) et 2) l’utilisation de cette dernière pour prédire une identification peptidique dans un échantillon inconnu à partir de ces coordonnées. Cette méthode a pu être envisagée grâce aux progrès réalisés en spectrométrie de masse, notamment en terme de précision des mesure des rapports masse sur charge.

Cette méthode apparue au milieu des années 2000 n’est pourtant que très peu utilisée car elle est associée à plusieurs limitations :

  • la variabilité des RT due à la forte dépendance aux matériels utilisés lors de la séparation chromatographique des peptides (changement de colonnes, composition des solutions d’élutions…) ;

  • les RT étant associés à une variation plus importante que les rapports m/z, il est nécessaire de procéder à une étape préalable d’alignement des RT. Cette étape est incontournable pour pouvoir appliquer une stratégie AMTtag ;

  • Il est nécessaire d’analyser très précisément les profils d’élution des peptides pour repérer et séparer les évènements de co-élution de peptides, souvent retrouvés au sein de ces échantillons de forte complexité ;.

  • Elle nécessite un grand nombre de jeux de données pour l’étape de création/complétion de la base de données.

Objectifs

La plateforme PISSARO s’est intéressée à cette stratégie et a débuté un travail bioinformatique en regroupant de nombreuses données issues d’analyse LC-MS (coordonnées m/z, RT) et a déjà constitué une base de données pour les protéines de la bactérie Pseudomonas aeruginosa. Ce travail préliminaire a permis de mettre en évidence la faisabilité et l’intérêt de cette approche. En effet, la base de données constituée contient un total de 25871 peptides issues de 3386 protéines différentes. Pour une analyse LC-MS donnée, l’utilisation de cette base de données permet d’identifier en moyenne 13000 peptides (contre 8000 peptides par Mascot) et en moyenne 2000 protéines (contre 1500 protéines par Mascot).

Les objectifs de cette thèse sont de poursuivre les développements des méthodes et des algorithmes innovants pour améliorer l’identification des peptides et des protéines grâce à la méthode AMTtag. Une deuxième partie repose sur le développement de méthodes permettant la quantification et l’analyse différentielle des protéines/peptides identifiées par la méthode AMTtag.

Une première phase consistera donc à optimiser la méthode AMTtag décrite précédemment. Il s’agira de développer un nouvel algorithme d‘identification des peptides grâce à leur rapport masse sur charge et leur temps de rétention. Pour améliorer la fiabilité de l’identification, une nouvelle méthode d’alignement plus précise devra être développée. Des méthodes complémentaires seront envisagées, comme la prise en compte du massif isotopique, pour confirmer la fiabilité de l’identification et réduire les faux positifs. Enfin, ces algorithmes devront être optimisés pour pouvoir traiter un grand nombre de données en un temps minimal.

Dans une première version, les travaux développés au cours de cette thèse seront appliqués à Pseudomonas aeruginosa. Des tests seront ensuite menés sur Acinetobacter baumannii puis sur des organismes eucaryotes, pour évaluer la robustesse de la méthode AMTtag. Le passage à des organismes eucaryotes poera sans doite des problèmes de passage à l’échelle. Il faudra y remédier en trouver des structures de données adaptées pour supporter des recherches efficaces.

Une seconde phase consistera à développer, cette fois, une stratégie de quantification avec pour objectif l’analyse comparative de l’abondance protéique dans différents échantillons. Cette quantification reposera sur l’intégration des signaux chromatographiques de chaque peptide identifié par la méthode AMTtag. Au cours de ce processus, une étape de normalisation des intensités des signaux peptidiques entre toutes les expériences sera nécessaire. Des outils de biostatistiques devront être associés pour évaluer la variabilité de l’abondance peptidique puis protéique intra et inter échantillons.

Bibliographie

  1. A. Agron, D. M. Avtonomov, A. S. Kononikhin, I. A. Popov, and S. A. Moshkovskii et E. N. Nikolaev. Accurate mass tag retention time database for urine proteome analysis by chromatography mass spectrometry. Biochemistry 75(5) mai 2010. URL : https://doi.org/10.1134/S0006297910050147.

  2. Conrads TP, Anderson GA, Veenstra TD, Pasa-Tolić L, Smith RD. Utility of accurate mass tags for proteome-wide protein identification. Anal Chem. 72(14) juillet 2000: 3349-54. doi: 10.1021/ac0002386. PMID: 10939410.

  3. https://www.matrixscience.com/ Mascot

  4. Wu C, Monroe ME, Xu Z, Slysz GW, Payne SH, Rodland KD, Liu T, Smith RD. An Optimized Informatics Pipeline for Mass Spectrometry-Based Peptidomics. J Am Soc Mass Spectrom. 26(12) décembre 2015: 2002-8. doi: 10.1007/s13361-015-1169-z. Epub 2015 May 27. PMID: 26015166; PMCID: PMC4655184

Perspectives

À terme, un logiciel avec une interface sera développé afin de permettre à des équipes de biologistes de mettre en œuvre la méthode sur leurs organismes d’intérêt. L’idée est d’avoir un système suffisamment généraliste pour pouvoir s’appliquer à tout type d’organisme.

Des applications sont envisageables en santé, notamment pour l’analyse d’échantillons tumoraux.

Candidature

Procédure : Envoyer un mail

Date limite : 26 mai 2022

Contacts

Thierry Lecroq

 thNOSPAMierry.lecroq@univ-rouen.fr

Offre publiée le 15 avril 2022, affichage jusqu'au 26 mai 2022