我们热爱生命科学!-生物行
当前位置: 主页 > 神经科学 > 研究进展

生物信息二级数据库构建简介

时间:2006-08-09 21:06来源:奇迹科学报道 作者:admin
生物信息学是一门迅速发展的新兴交叉学科,  它从事对基因组研究相关生物信息的获取、加工、存储、分配、分析和解释.  一是对海量数据的收集、整理与服务,  特别是构建收集有关人类疾病、生长的数据库;  二是从中发现新的规律,  这就需要研究好的算法对这些数据分析,得到其中的关键联系.在生物学领域时刻有大量关于基因、蛋白质等的数据生成,必须借助计算机来交换和处理分散且海量的数据,  从而发现隐含在数据中的信息.

现在,国际三大核酸数据库Genbank,  欧洲分子生物学实验室(EMBL)的数据库和日本的DNA数据库(DDBJ)是被广泛使用的一级数据库,  他们将来自实验的原始数据稍加整理和注释后,各自开发一套系统为用户提供数据查询和分析服务,  这一定程度利于用户处理数据,  但仍不可避免地需要用户在多个网站间切换,  寻找感兴趣的数据及服务,  并不得不学习和适应不同的系统使用方法.  有许多二级数据库针对特定的研究内容整合多个一级数据库,  如专注于蛋白质结构家族分类或人类基因组图谱等,  但这不利于相关内容的查询.  因此可以从生物学意义角度选择更综合的多个一级数据库,  整合其数据及服务资源,  为用户提供同一的查询平台.

一.  开发思想

1.  虚拟本地数据库

不同于传统的做法,  该查询平台并不将一级数据库的数据下载到本地提供查询,  而是进行远端分布式查询.  用户在查询页面提交请求,经本地服务器分析后,  生成新的查询请求发送至远端数据库,  得到多个数据库返回的结果;  在本地服务器整合后返回给用户.  这样,  在用户看来似乎在本地有一个真实的数据库.  实际上可免去新建大型数据库的花费及随时更新数据的麻烦.  原理如图1所示:

2.  采用XML进行数据传送

XML是最适合网络数据交换的语言,  它包含的数据易于被计算机识别和处理.因此平台选用XML作为数据获取及呈现的格式.  三大核酸数据库都提供XML格式的结果,  这有利于在本地服务器解析多个文档并整合数据.  但有的一级数据库的重要服务仅提供HTML格式的数据结果,这对数据处理来说是不理想的.  平台仍可获取此类结果,  并同时将其转换为XML格式返回给用户,  便于用户进行数据处理.

3.  分布计算

大型一级数据库网站提供了许多使用的生物计算工具,  如BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段.  它能够在小于15秒的时间内对整个DNA数据库执行序列搜索.  对于已有的高效的工具,  无需我们再费时从头开发.  平台整合了多个网站的类似功能,  用户只须在同一网站,  就可方便的使用众多的生物计算工具.  同样地,  这些计算程序并不在本地,  用户提交地数据和计算请求被发送到远端的服务器,  计算之后得到送回的结果.  这样减轻了本地服务器负担,  也使得资源得到充分利用.



二.  数据源及服务选择

1.  获取XML结果的基因序列查询  

(1)选用DDBJ数据库(http://www.ddbj.nig.ac.jp/).日本DNA数据库DDBJ(DNA  Data  Bank  of  Japan),  是世界三大DNA  数据库之一.  与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库,每天都交换更新数据和信息.  所以实际上这三大数据库的数据是相同的.DDBJ通过SOAP服务器提供了大量方便的标准化生物学网络服务(Web  Services).根据它的标准,采用AXIS开发包即可获取它的大量的WSDL描述的服务,  如Blast,  Fasta,  SRS,  TxSearch等.

(2)Genbank,  它包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释,它由美国国立生物技术信息中心(NCBI)建立和维护.  NCBI提供广泛的数据查询,序列相似性搜索以及其它分析服务,可作为DDBJ数据服务得补充.

2.  获取XML结果的蛋白质数据库

选用PIR国际蛋白质序列数据库(http://pir.georgetown.edu/).它是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库.这是一个全面的,经过注释的,非冗余的蛋白质序列数据库.  PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST,FASTA等;  结合序列相似性,注释信息和蛋白质家族信息的高级搜索,  包括按注释分类的相似性搜索、结构域搜索GeneFIND等.



三.  开发技术

作为一个整合各大数据库并提供综合服务的平台,  它必须可靠、稳定,  并且适合于不同的操作平台.  此外,  如何低费用、高效率地开发也是一个重要考虑因素.  所以平台的运行环境可选用Linux操作系统,  Apache服务器,开发环境可选SUN公司的J2EE.  它们不仅以其性能稳定著称,  而且都是开放源码的免费软件,  适合科研开发.

被整合的网站提供了各种开发工具,  如DDBJ提供的WSDL(网络服务描述语言)服务.  通过发送SOAP(简单对象获取协议)消息,  即可获得远端服务器已开发的应用程序服务,  如基因序列比对的XML结果.  平台可选用DDBJ可接受的AXIS开发包(AXIS可看作是一个外部的Java类包)来进行服务获取程序开发.

此外,  返回XML格式的结果便于用户用计算机处理数据.  但由于各一级数据库返回的数据格式有差别,  必须进行解析,  滤除重复数据,  生成新的XML文档.  这可通过Xerce或JAXP等解析器进行.  而对HTML文档解析则采用专门编写的程序处理.  这是因为HTML不像XML严格定义,  当远端网站稍加修改格式,  本地的解析程序必须作相应修改才行.  所以平台在选取数据源时,  应首先考虑能返回XML结果的.



四.  深入开发

平台从整体来看是一个虚拟的数据库,  它的所有数据,  包括所有的应用服务程序都分布在各大数据库网站.  但这并不意味着不需要建立本地的数据库.  实际上这是有必要的,  因为大量的查询请求和返回数据经过本地服务器,  这特别适合在此基础上建立专题数据库,  进行数据挖掘.  例如有一段时间许多用户对某种致病基因感兴趣,  则可在服务器设置数据过滤,对所有与此致病基因相关的数据在返回用户同时也存入本地数据库.  这样有关该致病基因的序列、蛋白质结构、相关致病基因等信息都收集在一起,  可进行关联分析、序列间相似搜索和比较等,  从中发现新的知识.  原理见图2所示:



五.  意义

生物信息学研究的对象包括了大量数据,  如此海量生物学数据的积累,必将导致重大生物学规律的发现;数据资源的急剧膨胀也迫使人们寻求一种强有力的工具去组织这些数据.目前生物学大量研究都集中在DNA数据分析,蛋白质折叠及相关疾病分析上.如何开发一个强大,便利的数据获取,处理工具尤显重要,对今后所有生物医药研究开发意义也十分重大.

1.  对基因组研究来说,  由于人类基因组测试计划中将人的基因组打碎,  测试各小段序列.  现在需要将它们拼接成完整的序列,要求对这些短序列搜寻重叠部分再拼接,这必须借助于生物信息学数据库和强大的分析工具.二级数据库正能整合已有的优秀的数据资源和软件.

2.  对蛋白质组研究来说,  它是研究基因组所有蛋白质产物表达情况,  通过研究蛋白质,  人们可以了解基因组对生命体的整体控制.  这就需要运用生物信息学的方法去分析获得的海量数据,从中还原出生命运转和调控的整体系统的分子机制.

3.  一级数据库不同,  返回给用户的数据类型也不同,  这需要用户熟悉不同格式文档.  二级综合数据库则可帮助用户实现数据格式的统一,  尤其是选择XML作为同一格式,  更方便了数据的处理.

4.  生物信息二级数据库避免了数据库的重复建设,  对异构和分布的数据库进行了语义集成,  它如同一个连接点将世界各地的分散的数据,  服务资源联结起来,  形成了信息流动的中间站.  它没有重复存储大型数据库已有的未处理数据,  但收集存储了经分析处理的有意义的数据.  这对其他需要研究大量数据的领域如金融,  文献数据库,  居民信息数据库等都有借鉴意义. (责任编辑:泉水)
顶一下
(6)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
特别推荐
推荐内容