首页  >  资讯  >  文章正文
shRNA表达克隆

合成人类蛋白组质学有助加速蛋白研究

Mar 30, 2017 No Comments

合成人类全蛋白质组学以及相关衍生工具的产生将大大加速蛋白生物学领域的发展。

基于质谱(Mass spectrometry, MS)的蛋白质组学作为一种完全定量的技术,连接基因型和表型,已经成为生命科学中必不可少的工具。仪器和信息学方面的改进推动了这些进步,现在可以在单个实验中量化整个蛋白质组。2016年Kusebauch等人提出了蛋白组学检测新方法,本期《自然方法》(Nature Methods)杂志也刊登了两个团队的重要成果,这些工作为人类蛋白质组分析提供了有效的工具。

蛋白质组学领域的主要工具是“鸟枪”数据依赖性采集(data-dependent acquisition, DDA)方法。该方法使用蛋白酶(通常是胰蛋白酶)来消化蛋白质,并通过液相色谱(liquid chromatography, LC)分离消化所得的肽,然后用二级质谱(mass spectrometer for tandem mass spectrometry, MS/MS)分析这些肽。通过搜索引擎工具将MS/MS质谱结果与肽谱数据库匹配,进行数据解读。然而,DDA方法存在“带宽”问题:需要选择样本中丰度高的几个肽段打碎做扫描。因此,这种选择具有一定的随机性,偏向于检测丰度较高的肽段,并且会引起采样过疏——即使使用多个搜索引擎,也有可能会错过许多丰度较低的蛋白质。

在最近开发的数据非依赖采集(data-independent acquisition, DIA)方法(如SWATH-MS和MSe)中,仪器可以全景式地内记录所有肽前体离子的连续测量和产物离子谱。由于所得光谱的固有复杂性,DIA数据的计算评估要比DDA数据复杂得多,目前该技术还未完全成熟。DDA和DIA方法旨在“发现”,并且能够表征部分重要的蛋白。

相比之下,靶向蛋白组的方法,如质谱多反应监测技术/选择反应监测(selected reaction monitoring/multiple-reaction, SRM/MRM)——2012年度《自然方法》的“年度方法”——能够实现任何目标蛋白的可重复定量,包括低丰度蛋白。然而,尽管具有高灵敏度和重复性,但由于SRM/MRM就像精准狙击,每一枪直指目标,因此难以大规模消灭敌人。一个蛋白水解产生的肽越多,就越容易被准确定量。

与基因组相反,人类蛋白质组由于复杂性更高,因此被破译程度较低。据UniProtKB / SwissProt数据库资料,“典型”的人类蛋白质总数为20171个(截至2017年1月)。然而,现有的“蛋白质形式”数量更大,并且由于存在mRNA剪接、翻译后修饰(post-translational modifications, PTM)、单氨基酸变体(single-amino-acid variants, SAAV)等现象,所以蛋白质总数量非常难以估计。鉴于鸟枪方法的局限性,最近发表的三篇研究的重点是开发稳定和可重复的SRM/MRM技术,以用于量化所有蛋白质。为了实现这一目标,三个研究小组以不同的方法改进人类全蛋白质组检测技术(图1)。

 

 

合成人类蛋白组质学有助加速蛋白研究-2

图1 破译人类全蛋白组的流程。(1)研究人员将数据提交给公共蛋白质组数据库(例如,ProteomeXchange)。 (2)其它蛋白质组学平台(如GPMDB、PeptideAtlas和ProteomicsDB)对公共数据进行再分析。(3)根据公共数据的实验观察结果得到候选肽列表。(4)用新的变体肽扩充候选肽列表。(5)使用计算机预测方法生成最终版本的蛋白肽列表。(6a)生成合成肽。(6b)在替代方法中,蛋白质肽由蛋白酶消化重组蛋白得到。(7)使用不同仪器和一系列碎片类型和碰撞能量产生肽光谱。(8)然后为每个肽进行SRM/MRM测定和验证。(9)将合成蛋白质组产生的数据(例如,质谱和SRM/MRM数据)存放在公共数据库中,开始迭代循环。(10)学界可以访问所有信息,可用于生成改进的谱库,开发新的破碎方式(质谱检测中,肽段需要被打碎才能进行测序),以及保留时间预测算法等。

 

Kusebauch等人开创了大规模生成合成肽(一共166174个肽)的先河。他们生成的合成肽包括天然肽、肽变体和糖基化肽,从而创建了人类SRMAtlas数据库(http://www.srmatlas.org/,一个SRM/MRM光谱数据库),可用于定量99.7%的人类蛋白质。蛋白肽的选择主要依赖于PeptideAtlas数据库中可用的公共蛋白质组学数据。同一研究团队在2013年构建了酿酒酵母和结核分枝杆菌的蛋白组学数据库。事实上,尽管几十年来,合成参考标准的使用在分析化学中非常普遍,但在蛋白质组学中,由于技术上的限制和高成本等原因,合成肽的使用规模非常小。

Zolg等人也做出了类似的努力。他们的ProteomeTools项目更全面(http://www.proteometools.org/免费提供数据)。该项目计划合成约140万个单独的肽,以涵盖所有人类蛋白质。Zolg等人报告了该项目的第一次迭代成果,包括合成和LC-MS/MS分析33万多个合成胰蛋白酶肽,主要覆盖UniProtKB / SwissProt数据库中所有典型的人类蛋白质。ProteomeTools还集成了由SRMAtlas团队生成的合成肽的一个子集。使用不同的仪器、破碎方法和碰撞能量产生合成肽的光谱,为每种肽提供了多种代表性的光谱,以涵盖不同的情况。SRMAtlas和Proteome Tools都希望产生足够的合成肽,以充分表征人类全蛋白质组。ProteomeTools团队指出,项目将包含20万种新型变体肽,还有大部分(约350,000种)是翻译后修饰的肽,如磷酸化肽、乙酰化肽、甲基化肽、泛素化肽和糖基化肽。该项目的目标是为所有肽提供SRM / MRM测定,并通过合成含有同量异序标签的肽来实现绝对定量。

第三项研究中,Matsumoto等人采用了另一种策略。他们根据完整的人类cDNA库,合成了超过18000个重组蛋白质,并通过消化这些蛋白质,得到人类蛋白质的绝大多数肽。该平台被称为iMPAQT(in vitro proteome-assisted MRM for protein absolute quantification,体外蛋白绝对定量质谱多反应监测系统)。通过使用已知浓度的肽标准品,该平台采用未广泛使用的mTRAQ((mass differential tags for relative and absolute quantification,质量差异同位素标记相对与绝对定量标签))方法,可以提供绝对量化,而非相对值。iMPAQT平台的主要缺点是目前无法水解产生含有预定义PTM的蛋白肽。然而,由于结果重复性高,该方法的用途可能会比合成肽方法更广泛。

值得注意的是,ProteomeTools和SRMAtlas项目广泛使用了现有(例如ProteomeXchange和其他蛋白质组学数据库)的蛋白质组学数据,用于生成候选肽列表。此外,三个研究团队公开大部分成果,并创建数据库(例如,iMPAQT-knowledge 数据库,http://impaqt.jpost.org/  )来支持开放的数据政策,使其他科学家可以以多种方式重用数据,从而实现一个迭代的良性循环。合成肽不仅在破译人类全蛋白组上大有可为,在其它诸多方面也大有用处,包括:(1)评估结果。例如,确认罕见或新观察到的肽和蛋白质;(2)创建更全面的光谱库;(3)保留时间和碎片模型的改进;(4)改善搜索引擎和分析软件。同时,这些方法将帮助研究者们更准确和更深入地表征人类蛋白质组学。

尽管这三项研究都取得了突破性进展,但仍有一些问题亟待解决。SRM/MRM方法本身具有一些局限性。例如,旨在支持临床决策的SRM/MRM测定数据将需要进一步验证,理想情况下在大型患者队列中进行验证。其它技术问题也仍然存在,因为合成肽缺乏天然蛋白质的复杂性。因此,未来也需要考虑合成一些来自蛋白不完全水解的肽和含有额外PTM的肽。此外,迄今为止的数据主要针对胰蛋白酶完全水解人类蛋白组所得到的肽。未来,也应该考虑使用其它消化酶(例如LysC、LysN、AspN、GluC和ArgC)来进行蛋白水解,以更全面地覆盖人类蛋白组。

另一个问题是,即使各大研究团队已经公布数据,但还没有有效的方法来促使各个团队有效协调,从而避免重复工作。蛋白质组学社区应当引导研究者们进行协调,数据共享,同时加强整个领域的合作。ProteomeTools团队已经明确欢迎任何研究成员加入到其后期研究中,完成一部分工作,例如,使用其它仪器检测合成肽的质谱。这样的合作值得支持和鼓励。


原文检索:
Yasset Perez-Riverol & Juan Antonio Vizcaíno. (2017) Synthetic human proteomes for accelerating protein research. Nature Methods, 14(1038): 240-242.
张洁/编译

资讯
No Responses to “合成人类蛋白组质学有助加速蛋白研究”

Leave a Reply


6 + = fifteen