随着质谱技术的快速发展,蛋白质组学已成为继基因组学、转录组学之后的又一研究热点。寻找可靠的差异表达蛋白对于生物标记物的发现至关重要。因此,如何准确、灵敏地筛选出差异蛋白已成为基于质谱的定量蛋白质组学的主要研究内容之一。目前,针对该问题的研究方法众多,但这些方法策略的适用范围不尽相同。近期来自军事医学科学院、大连海事大学的研究人员发表了评述,介绍了几种基于质谱技术筛选差异蛋白的统计学策略,并比较了它们各自的优缺点。
蛋白质组学是后基因组时代兴起的一个重要研究方向,旨在从整体水平上对组织或细胞内表达的全部蛋白进行定性和定量分析。蛋白定性分析起步较早,随着质谱技术的不断发展,已日渐成熟,单一样本可实现8000种以上蛋白的鉴定规模。长久以来,临床生物标记物的发现是蛋白质组学研究的热点,对探索疾病机理和药物制备具有特别重要的意义,而蛋白定量分析对这一研究的开展具有促进作用。在定量研究方面,围绕质谱数据进行差异蛋白筛选,进一步实现生物标志物的发现与生物学特性的分析,已成为定量蛋白质组学研究的一个重要方向。
基于质谱技术进行蛋白鉴定、定量及差异蛋白筛选的基本流程可以分为实验和数据分析两部分。
(i)实验部分:包括从生物样本的制备、蛋白混合物的预处理,到酶解肽段的质谱分析等一系列过程。
(ii)数据分析部分:包括质谱仪器获取原始数据后的所有数据处理过程,从蛋白鉴定、定量到差异蛋白筛选,并且每一过程均涉及相应的质量控制和统计学分析。基于质谱的定量研究可计算肽段的丰度信息,原则上,可由肽段表达量推断出蛋白的表达量,但此过程需要解决两个困难,即肽段计算过程中信号峰缺失及共享肽段的问题。对于前者,可选择使用估计值填充缺失的数据,以完善实验数据,或者是在统计检验前,利用肽段的天然同位素分布过滤噪声信号,以选择最佳的肽段数据集进行实验;对于后者,可选择使用合理分配的准则处理共享肽段。
肽段/蛋白表达水平值的准确定量对深入研究蛋白质组学意义重大,其主要目的是筛选差异表达蛋白。差异表达蛋白指在不同实验条件下或不同的处理组中,蛋白表达水平的检测值在排除系统随机噪声后达到一定的差异,具有统计学意义,同时也具有生物学意义。差异蛋白筛选过程,即是对定量结果做合理的统计推断。因此,利用统计学基本原理对差异表达蛋白进行显著性分析就显得十分重要。
总体来说,定量蛋白质组学的数据分析存在三大主要问题:数据的缺失值较多、实验的重复次数较少和结果的质量/可靠性参差不齐,这对差异蛋白的筛选带来巨大挑战。
针对前两个问题,研究人员已提出若干方法和工具,这些方法各有利弊,但很少能同时考虑两方面。根据所属的统计学派别不同,具体可以将它们分为三大类:基于经典统计学派的策略、基于贝叶斯学派的统计检验策略和其他策略。
这篇文章主要分析总结这些方法及工具的优缺点及应用范围。针对第三个问题,为了得到可靠的候选生物标记物,可对统计检验筛选的结果进行质量控制,这就需要在实验设计时利用基于内参的方法保证定量结果的可靠性,或者是在多重假设检验中控制假阳性率。而这篇文章主要倾向于对后一种方法的介绍,探讨了对筛选过程产生假阳性的控制方法,最后还对目前研究中存在的问题以及未来的发展方向进行了讨论和展望。