生物信息学与计算机技术

二十一世纪是生命科学的世纪，其里程碑就是历时13年、耗资数十亿的著名的人类基因组计划(Human Genome Project，HGP)。随着HGP的胜利完成，和诸如大肠杆菌、结核杆菌、啤酒酵母、线虫、果蝇、小鼠、拟南芥、水稻、玉米等等其它一些模式生物的基因组计划的相继完成或全面实施，使有关核酸、蛋白质的序列和结构等的分子生物数据呈指数级数增长。然而基因组不仅是基因的简单排列，它有其特有的组织结构和信息结构，这种结构是在长期的演化过程中产生的，也是基因发挥其功能所必须的。弄清楚生物体基因组特有的组织结构和信息结构，解译生命的遗传语言的关键，研究重点已悄然由数据的积累转到数据的处理。与此同时在以数据处理分析为本质的计算机科学领域，按照摩尔定律飞速前进的计算机硬件，以及日益普及的互连网技术，为生物信息资源的研究和应用带来了福音。及时、充分、有效地利用网络上不断增长的生物信息数据库资源，已经成为生命科学和生物技术研究开发的必要手段；核酸和蛋白质序列、结构、功能分析软件已经成为生物学、医学、药物学、农学和环境科学等领域的必备工具。

什么是生物信息学

美国人类基因组计划中给基因组信息学的定义：它是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面。该定义包含两方面的内容，一方面是发展强大有效的信息分析工具，构建适合于基因组研究的数据库，用于搜索、管理、使用人类基因组和模式生物基因组的巨量信息；另一方面是配合实验研究，确定约30亿个碱基对的人类基因组完整核苷酸顺序，找出人类全部约10万个基因在染色体上的位置以及包括基因在内的各种DNA片段的功能，即"读懂"人类基因。

随着后基因组时代的到来，基因组学的研究从结构基因组学过渡到功能基因组学，即从"是什么"过渡到"为什么"的研究。

生物信息学（bioinformatics）是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析，进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主要推动力来自分子生物学，生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面，所以目前生物信息学可以狭义地定义为：将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析，以达到理解这些生物大分子信息的生物学意义的交叉学科。

生物信息学的重要性

生物信息学是一种重要的研究开发工具。它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学，只有通过生物信息学的计算处理，我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。它是今后几乎进行所有生物医药研究开发所必需的动力机，用于序列分类、同类性检测，DNA序列中蛋白质编码区和非编码区的分离，分子结构和功能的预测，以及进化史重建，只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析，我们才能选择正确的研发方向，同样，只有选择正确的生物信息学分析方法和手段，我们才能正确处理和评价新的观测数据并得到准确的结论。它不仅是我们了解生命和进化所必需的，同时也是发现新药和诊断方法所必不可少的。

生物信息学在今后的无论是生物医药科研还是开发中都具有广泛而关键的应用价值；而且，由于生物信息学是生物科学与计算科学、物理学、化学和计算机网络技术等密切结合的交叉性学科，使其具有非常强的专业性，这就使得专业的生物医药科研或开发机构自身难以胜任它们所必需的生物信息学业务，残酷的市场竞争及其所带来的市场高度专业化分工的趋势，使得专业的生物医药开发机构不可能在自身内部解决对生物信息学服务的迫切需求，学术界内的生物医药科研机构也是如此，而这种需求，仅靠那些高度分支化和学术化的分散的生物信息学科研机构是远远不能满足的。可见，在生命科学的新世纪，生物信息学综合服务将是一个非常重要的也是一个极具挑战性的领域。

生物信息学的重要研究课题
1. 大规模基因组测序中的信息分析
2. 新基因和新SNP的发现与鉴定
3.非编码区信息结构分析
4.遗传密码的起源和生物进化
5.完整基因组的比较研究
6.大规模基因功能表达谱的分析
7.生物大分子的结构模拟与药物设计
8.生物信息学分析方法的研究
9.建立国家生物医学数据库与服务系统
10.应用与发展研究

生物信息学中的软件系统

生物信息学所需的软件系统大体分成3类：数据获得系统、数据分析系统和数据管理系统。

＜a＞数据获得系统
1．设计控制和试剂控制软件
    生物研究传统上是一种"村舍工作"，――工作由分布在各个研究机构中的小试验室中分别进行，但现在的基因组工作，是一项"工业规模"的工作。于是人工跟踪技术（如克隆、走胶等）都不能进行了。在向由机器人进行的高精度大批量的操作转变时，试剂跟踪技术也将渐遭淘汰。
2．序列产生软件
    现在的计算机可以几近完整地完成序列产生的每一个步骤，从数据记录到碱基数量控制和组装，但这仍然是一个可以得以发展的领域。
3．可视化软件
    通过凝胶过滤等操作得出的数据是大部分基因组数据的"硬"来源。例如，在n维中不同的基因表达的决定方法就是可视化问题一个例子，它并没有完全解决。

＜b＞数据分析系统
1．序列分析软件
    序列分析可能是生物信息学软件系统中最早产生并最早得以推广的部分。检测序列同类性，作序列排列，检测结构，这样的工作需要量是很大的，重复性强，在大规模的无名基因组序列出现后，用来筛选组装的系统的产生十分重要。
2．蛋白质折叠（结构预测）软件
    序列分析的最终产物是要预测有序区域的特征和功能，而且在药物设计工作中，所需的正是这些特征、功能表现出的数据。预测结构（及功能）的软件系统是任何信息技术中不可缺的因素。功能、特征的识别以公认的有相同、相似序列的同类所表现的功能为依据。
3．基因组绘图软件
    它包括从基因联贯的绘制到将某基因装配到有序序列上的装配规律.它依据大的nxn比较模型。绘制的最困难问题是如何保持不同基因图谱的一致完整性及如何将序列覆盖到这些图谱上并与功能标记表象相联系。
4．基因比较工具
    基于无名序列区域分析的复杂性，单靠众得到的数据是不可能完成任务的。癌基因的研究者已经令人吃惊地展示了交叉种类分析的巨大力量。现存数据中至少有10个完整的细菌基因组和13个Saccharomyces酵母的碱基基因组可供比较。
5．特征筛选及分类软件
    一个基因序列的真正价值不是表现在基础序列数据上，而是在与序列相联系的主体特征上。

＜c＞数据管理系统
产生于基因组学的数据众多、复杂，数据的众多入口也同样要求了它们在一个数据库结构中的可见结构。数据库可分成几大类，它是以数据分布方式的类型分类，而不以数据库自身技术或内容分类。在实际使用中，数据库可分为局部的、合作的和社会的三类。局部数据库，顾名思义，就是在单一位置发展维持的，并只能在此部位得以共享的数据库，合作数据库是许多部位的一组合作者共同使用的，但仍限制在他们的部位上的数据库。一个提供给多部位合作用的公司的数据资源就是一个典型例子。最后一类被称为社会数据库，一般地，它包括公共范围内的数据收集，如基因银行和基因组数据库等。它们在Internet上广泛共享，并有很多种数据类型。发展与展望

作为计算机科学和数学应用于分子生物学而形成的交叉学科，生物信息学已经成为基因组研究中强有力的必不可少的研究手段。国外很多大学，研究机构，软件公司甚至政府机构纷纷成立各种生物信息机构，建立自立的生物信息集成系统，研制这方面的软件，重金招聘人才，期望从中获取更多的生物信息和数据加以研究和利用，缩短药物开发周期，抢注基因专利，获取更大利润。我国如不加大资金投入力度，将来可能会花更多的钱去购买别人的软件，使用专利基因或购买新的药物。所幸，我国也开始重视这一学科许多科研单位已经开始或准备开始从事这方面的研究工作：南、北方人类基因组中心的相继建成，北大生物城的建成等，标志着我国对生物信息学的重视。我们有理由相信，我国的生物信息学在21世纪会有巨大的飞跃。

(责任编辑：泉水)

搜索

热门标签:

生物信息学与计算机技术