当前位置: 主页 > 生物技术 > 生物信息学与数据库

生物信息数据库与查询

2005-07-14 18:50 未知 未知 阅读 0
核心摘要: 本文系统介绍了生物信息数据库的分类与功能,涵盖一级和二级数据库。重点描述了GenBank、EMBL、DDBJ等核酸数据库,以及PIR、SWISS-PROT、PDB等蛋白质数据库,并涉及功能数据库如KEGG、DIP、TRANSFAC等。文章还介绍了数据库检索工具如Entrez、SRS,以及序列提交方法。最后提及国内生物信息学资源,为研究人员提供全面的数据库使用指南。

近年来,大量生物学实验数据的积累形成了数以百计的生物信息数据库。这些数据库按特定目标收集和整理实验数据,并提供数据查询与处理服务。随着互联网普及,多数数据库可通过网络访问或下载。生物信息数据库通常分为一级数据库和二级数据库:一级数据库直接来源于实验原始数据,经简单归类注释;二级数据库基于一级数据库、实验数据和理论分析,针对特定目标衍生,是对生物学知识的进一步整理。著名一级核酸数据库包括GenBank、EMBL和DDBJ;蛋白质序列数据库有SWISS-PROT和PIR;蛋白质结构库有PDB。二级数据库种类繁多,如人类基因组图谱库GDB、转录因子结合位点库TRANSFAC、蛋白质结构家族分类库SCOP等。以下简要介绍一些重要数据库。

基因和基因组数据库

1. GenBank:由美国国立生物技术信息中心(NCBI)维护,包含所有已知核酸和蛋白质序列及其文献注释。数据来源于测序工作者提交、EST序列、大规模测序及与EMBL、DDBJ交换。截至1999年8月,GenBank收录460万条序列、34亿碱基,且增长迅速。数据可免费下载,NCBI提供Entrez检索系统,支持序列相似性搜索(BLAST)等分析。序列提交可通过BankIt(适合少量序列)或Sequin(适合大量序列及复杂注释)完成。

2. EMBL核酸序列数据库:由欧洲生物信息学研究所(EBI)维护,与GenBank和DDBJ数据同步。可通过序列提取系统(SRS)检索,序列提交使用WEBIN或Sequin。

3. DDBJ数据库:日本DNA数据仓库,与GenBank和EMBL合作,提供SRS检索和Sequin提交。

4. GDB:人类基因组数据库,保存基因组图谱数据,包括基因、克隆、标记、变异等。提供基于Web的对象检索和图形化图谱浏览。

蛋白质数据库

1. PIR和PSD:国际蛋白质序列数据库,由PIR、MIPS和JIPID共同维护,包含超过142,000条非冗余蛋白质序列,经家族和超家族分类。提供文本检索、BLAST/FASTA相似性搜索及高级分类搜索。

2. SWISS-PROT:由EBI维护的高质量注释蛋白质序列数据库,条目包含功能、修饰、结构域、变异等信息,与30多个数据库交叉引用。可通过SRS检索,仅接受直接测序获得的序列。

3. PROSITE:收集蛋白质功能位点和序列模式,用于快速鉴定蛋白质家族。包括催化位点、结合位点、二硫键等模式及profile,提供在线检索。

4. PDB:蛋白质数据仓库,由RCSB维护,收录X射线和NMR解析的生物大分子三维结构。可通过Rasmol等软件显示结构。

5. SCOP:蛋白质结构分类数据库,按家族、超家族、折叠子等层次描述结构关系。提供非冗余ASTRAL序列库用于算法评估。

6. COG:蛋白质直系同源簇数据库,基于21个完整基因组构建,用于预测蛋白质功能。提供COGNITOR程序进行归类。

功能数据库

1. KEGG:京都基因和基因组百科全书,整合基因组信息(GENES)、通路信息(PATHWAY)和化学信息(LIGAND),提供图形化通路分析工具。

2. DIP:相互作用蛋白质数据库,收录实验验证的蛋白质-蛋白质相互作用,支持按蛋白质、物种、关键词等查询。

3. ASDB:可变剪接数据库,包含蛋白质和核酸两部分,来源于SWISS-PROT和GenBank,提供搜索服务。

4. TRRD:转录调控区数据库,收录真核基因调控区结构-功能信息,包括转录因子结合位点、启动子等,提供多表检索。

5. TRANSFAC:转录因子数据库,包含结合位点、基因、因子等信息,以及扩展库如PATHODB、TRANSPATH等,可免费下载。

其他数据库资源

1. DBCat:生物信息数据库目录,收录500多个数据库,按DNA、RNA、蛋白质等分类,可下载或在线检索。

2. PubMed:NCBI维护的文献引用数据库,提供MEDLINE查询和电子期刊链接,通过Entrez系统检索。

此外,国内有北京大学分子生物信息镜像系统、清华大学生物信息学研究所等资源。随着生物信息学发展,更多高质量数据库将推动生命科学研究。

    发表评论