网格运算系统的效率果然非同凡响。新加坡基因组研究院一项原本需时一个月的分析工作,新加坡国立大学的网格运算系统只需一天半的时间就完成了。
这也是国大成立网格运算系统后的首个大规模应用项目之一。这个万亿级网格运算系统(Tera-Scale Campus Grid,简称TCG@NUS)成立于去年11月。
所谓万亿级网格运算系统,即系统的运算速度每秒2万亿次至6万亿次浮点运算。目前,国大的网格运算系统有800台电脑连接在一起。
基因组研究院一组科学家为了深入了解新加坡环境中的微生物分布情况,展开一项庞大的微生物基因分析计划。
他们收集了两处海边空气中的微生物,经过各种程序后取得微生物的脱氧核糖核酸序列,然后将这些DNA序列与基因序列数据库(GenBank)存档的DNA序列进行对比。
基因序列数据库属于美国国家卫生研究院(NIH),纪录了300多万个DNA序列和21亿6200万个碱基,而且每年还会有大量新发现的DNA序列存档。
由于基因序列数据库有300多万个已知DNA序列,所以逐个序列对比需要非常庞大的电脑资源才能进行。这组科学家利用研究院内的小型网格运算系统进行分析,花了一个月的时间才完成对比工作。
后来,他们在国大的网格运算系统再次进行对比分析,结果不到两天就完成了,效率提高了15倍。
对微生物的了解尚属非常初步阶段
领导这项研究计划的小组组长陈文炜博士受访时说,空气中、泥土中、水中和身体内有许许多多的微生物,人们对微生物的了解尚属非常初步的阶段。
目前已知一些癌症是由细菌引起的,所以科学界想要进一步了解环境中的微生物。
他说:“一公吨的泥土中含有的微生物就比宇宙中的星星还要多,所以环境中的微生物数量是非常庞大的。”
要对比数量这么庞大的微生物DNA序列,电脑运算资源越大,效率越高。而且,由于基因序列数据库的资料不断增加,因此研究员须要进行多次对比分析。如果每次对比分析都要花一个月的时间,效率是非常低的。目前,陈文炜的第一批DNA序列数量只有两万,是属于非常少量的。
他说,现在有了国大的网格运算系统作后盾,他们将进行序列数量更庞大的对比分析。
将与美科学家合作对比10万DNA序列
按照计划,他们将同美国科学家合作,对比分析10万个DNA序列。
同时,研究小组也将继续到新加坡各种环境中获取微生物标本,以深入了解新加坡环境中的微生物分布情况。
网格运算的强大功能和相对低廉成本,使它成为目前药剂业、生命科学、电子媒体等的主要工具,用来对比药物分子、DNA序列、建构影象等。
发表评论
最新评论
进入详细评论页 >>