在计算生物领域,研究人员不断开发工具以支持蛋白质序列、结构分析和交互数据,但硬件方面长期被忽视。小型集群通常只能处理基础任务,而标准Linux服务器集群虽普遍使用,却带来一系列瓶颈:CPU占用大量资源,占据较大面积,散热、电力和维护需求高,研究机构难以满足。据评估,集群系统的碳排放量甚至超过公路上所有SUV的总和。显然,要实现成本节约与节能并进,需要更好的解决方案。
幸运的是,生物IT经理现在有多种高性能计算加速技术可选,这些方案提供更大的可扩展性、更低的成本、更高的性价比和更好的每瓦特性能。但没有任何单一解决方案是万能的。
FPGA(现场可编程门阵列)
FPGA在生物领域的应用已超过十年,这些可配置处理器能为计算提供难以置信的速度提升。供应商如CLC bio、Progeniq和TimeLogic销售可编程的生物信息学FPGA解决方案,适用于不同应用、吞吐量水平和价格。其他厂商曾承诺开发工具以简化应用移植到FPGA的过程。“混合计算”指部分在FPGA、部分在CPU上进行的计算,可通过USB2.0、PCI-E或直接通过处理器插座连接FPGA模块,后者能产生极高的吞吐量。厂商如Mitrionics、Impulse和Convey生产此类平台。openfpga.org项目和开放的Mitrion-C Open生物项目可加速关键生物应用程序。
个别研究人员可调整应用程序或增加模块,但自动化方法通常不会产生很大加速比,需要更多电子线路研究人员投入生物信息学。FPGA能提升多少性能?Pico计算公司最近将112个FPGA模块连接在超级计算机上,令人印象深刻的是,这些系统可安装在4U服务器机箱中,功耗仅300瓦。
通用图形处理单元(GPGPU)
图形处理单元是经过高通量图形调整的强大处理器,可通过CUDA和OpenCL等编程语言编程。在生物信息学领域,一些工具显示超过三倍于CPU的加速。GPGPU门槛较低,甚至可在服务器中使用简单显卡;若需更高性能,可选择Tesla,其专为提高吞吐量计算设计,有些Tesla服务器曾报告超过4万亿次计算能力。但GPU也有明显缺点,如缺乏ECC内存和相对贫乏的双精度性能。
Cell处理器
墨丘计算机公司已构建一系列双Cell处理器、刀片服务器和其他高吞吐量机器,其适用的Yellow Dog Linux操作系统也被索尼PS3采用。曾是世界第一的超级计算机IBM“走鹃”使用了Cell处理器,证明了这种架构在提高吞吐量方面的价值。
单指令多数据(SIMD)
现代处理器的单指令多数据能力提供了内置的CPU加速器。
云计算
很多人曾认为云计算等同于网格技术,但至今似乎没有公司比亚马逊拥有更多客户。许多常见生物数据库已上传至亚马逊,使用更便宜、更简单。到底需要购买多少性能用于实际分析?Salzberg研究小组分析了三个小时的数据,包括38倍人类基因组,使用1320个CPU的集群,云服务租用费用约为85美元。
“超级计算机再也不能只注重原始性能,简单增加更多核的时代已经结束。”IBM深度计算副总裁David Turek表示,客户需要在任何地方使用超级计算机。当然,适用于生物信息学的超级计算机迟早会变成混合动力机器,用户可随意利用浮点图像处理、FPGA的整合能力等。