生物领域高性能计算加速技术概览

2010-01-25 00:00 泉水生物行阅读 0

核心摘要： 本文综述了生物信息学领域的高性能计算加速技术，包括FPGA、GPGPU、Cell处理器、SIMD和云计算。这些技术旨在解决传统CPU集群在可扩展性、成本和能效方面的瓶颈，为蛋白质序列分析、结构预测等计算密集型任务提供更高效的解决方案。文章介绍了各技术的原理、应用实例和性能优势，并指出未来超级计算机将趋向混合动力架构。

在计算生物领域，研究人员不断开发工具以支持蛋白质序列、结构分析和交互数据，但硬件方面长期被忽视。小型集群通常只能处理基础任务，而标准Linux服务器集群虽普遍使用，却带来一系列瓶颈：CPU占用大量资源，占据较大面积，散热、电力和维护需求高，研究机构难以满足。据评估，集群系统的碳排放量甚至超过公路上所有SUV的总和。显然，要实现成本节约与节能并进，需要更好的解决方案。

幸运的是，生物IT经理现在有多种高性能计算加速技术可选，这些方案提供更大的可扩展性、更低的成本、更高的性价比和更好的每瓦特性能。但没有任何单一解决方案是万能的。

FPGA（现场可编程门阵列）

FPGA在生物领域的应用已超过十年，这些可配置处理器能为计算提供难以置信的速度提升。供应商如CLC bio、Progeniq和TimeLogic销售可编程的生物信息学FPGA解决方案，适用于不同应用、吞吐量水平和价格。其他厂商曾承诺开发工具以简化应用移植到FPGA的过程。“混合计算”指部分在FPGA、部分在CPU上进行的计算，可通过USB2.0、PCI-E或直接通过处理器插座连接FPGA模块，后者能产生极高的吞吐量。厂商如Mitrionics、Impulse和Convey生产此类平台。openfpga.org项目和开放的Mitrion-C Open生物项目可加速关键生物应用程序。

个别研究人员可调整应用程序或增加模块，但自动化方法通常不会产生很大加速比，需要更多电子线路研究人员投入生物信息学。FPGA能提升多少性能？Pico计算公司最近将112个FPGA模块连接在超级计算机上，令人印象深刻的是，这些系统可安装在4U服务器机箱中，功耗仅300瓦。

通用图形处理单元（GPGPU）

图形处理单元是经过高通量图形调整的强大处理器，可通过CUDA和OpenCL等编程语言编程。在生物信息学领域，一些工具显示超过三倍于CPU的加速。GPGPU门槛较低，甚至可在服务器中使用简单显卡；若需更高性能，可选择Tesla，其专为提高吞吐量计算设计，有些Tesla服务器曾报告超过4万亿次计算能力。但GPU也有明显缺点，如缺乏ECC内存和相对贫乏的双精度性能。

Cell处理器

墨丘计算机公司已构建一系列双Cell处理器、刀片服务器和其他高吞吐量机器，其适用的Yellow Dog Linux操作系统也被索尼PS3采用。曾是世界第一的超级计算机IBM“走鹃”使用了Cell处理器，证明了这种架构在提高吞吐量方面的价值。

单指令多数据（SIMD）

现代处理器的单指令多数据能力提供了内置的CPU加速器。

云计算

很多人曾认为云计算等同于网格技术，但至今似乎没有公司比亚马逊拥有更多客户。许多常见生物数据库已上传至亚马逊，使用更便宜、更简单。到底需要购买多少性能用于实际分析？Salzberg研究小组分析了三个小时的数据，包括38倍人类基因组，使用1320个CPU的集群，云服务租用费用约为85美元。

“超级计算机再也不能只注重原始性能，简单增加更多核的时代已经结束。”IBM深度计算副总裁David Turek表示，客户需要在任何地方使用超级计算机。当然，适用于生物信息学的超级计算机迟早会变成混合动力机器，用户可随意利用浮点图像处理、FPGA的整合能力等。

TAGS: GPGPU FPGA 高性能计算云计算生物信息学

发表评论

上一篇：生命科学研究走向精确量化：中科院计算生物学研究所所长金力谈计算生物学

下一篇：“863”计划纳米生物技术取得重要进展：累计发表论文200余篇