两篇新近发表的研究论文揭示了计算工具在生物信息学中的巨大价值,它们可以将仅仅以序列为基础的生物信息学分析工作引入到像预测、去除和网络建设等这些更为高级的舞台之中。
随着人们对细胞器官蛋白质组学这一新兴领域的兴趣不断增加,研究者要想从海量原始数据中提炼出一种精确的理论假说,在生物信息学方面进行战略性的创新就变得尤为必要。计算方法和实验方法之间存在着一种共生关系,来自麻省理工学院和哈佛大学共建的Broad研究所的科学家Vamsi Mootha这样解释说:“它们互为补充,你不能将它们单个孤立开来。为了支持高质量的计算方法,你需要从高质量的数据系统着手。”
Mootha近来通过介绍一种更为先进的生物信息学方法,用于鉴定线粒体中的蛋白质,从而演绎了上面描述的共生关系。以前的实验策略主要着眼于与基元相关的标记物方面,但Mootha研究小组开展的“艺术大师”研究项目采取了一种更为全面的实验方法,他们以结构和实验两方面的数据为基础,将八种不同的标记物整合起来,以便获得预测对线粒体定位的可能性的方法。在使用一套包含有已知的阴性和阳性对照物的金标准检验“艺术大师”之后,Mootha的研究小组验证了几百种已知的线粒体蛋白质,同时他们还自信地认为鉴定出了先前并不为人知的近500种蛋白质。很显然,Maestro项目也被证明能够从实验角度鉴定几种和人类线粒体疾病有关的基因,其中包括至少一种先前并未被鉴定为和线粒体有关的基因。
丹麦技术大学的Søren Brunak及其同事,近来介绍了一种描述细胞器官蛋白质组学的替代性计算方法;他们使用生物信息学方法,预测核仁中的蛋白质复合体。开始时,他们以公开的交互数据为基础,构建了已知的人类核仁蛋白质的整体相互作用系统;接着,他们将每个公认的复合体和那些以几十种蛋白质特征为基础的单元-单元计算分析方法联系起来,以便预测对核仁定位的可能性。运用保守性参数,Brunak的研究小组很有信心地预测出了15个核仁复合体;其中的几个是他们预计中的,但从功能学的角度讲,其它的很多个都是出乎意料的,比如说DNA修复中的蛋白质。这项研究工作也揭示出了11个新发现的核仁蛋白质,它们由Brunak的合作者Matthias Mann提供的实验数据所证实,这一过程两人称之为逆向蛋白质组学。
两个研究小组都受益于对现有数据系列的精明处理。Mootha建议,更多的数据对未来的计算研究来说应该意味着更多的选择。“从更广的层面讲,”他说:“如果我们获得了不同类型的高质量的功能基因组学数据系列,要重建所有细胞器官的生物信息学将是可能的。”但是,两种方法也都例证了运用保守的剪切方法在去除垃圾数据和确保分析工作的可信性这两方面的价值。“绘制某些东西经常意味着要舍去很多信息;我认为,这就是我们工作中希望做到的,” Brunak说。“我们绝对不想浪费掉实验专家的珍贵时间!”
注:夏雨译自2006年6月号的《自然-方法学》,版权为英国NPG出版集团所有。更多信息请访问:http://www.natureasia.com/ch/naturemethods