我们热爱生命科学!-生物行
当前位置: 主页 > 神经科学 > 基因组

模式生物基因组研究策略

时间:2006-11-05 23:14来源:生物技术世界 作者:admin 点击: 267次
  生物学家们利用模式生物实验操作上的便利性来进行解剖学、生理学、病理学及遗传学的研究。在有了高通量的测序手段之后,科学家们现在已经能在分子水平对各种模式生物进行比较分析。本文将对目前很热模式生物基因组进行介绍,并向研究人员建议:进入这一领域前一定要有缜密的计划和安排。



  虽然我们最关注的物种是人类自己,但实际上却很少研究人类自身,通过把人作为实验对象所得到的基本生物学知识少得可怜。



  这一矛盾的原因是显而易见的:人类是一个很糟糕的模式生物。从我们的饮食到交配方式都是很难进行预测和控制的。我们的行为很复杂,遗传背景不均一,繁殖也需要较长的时间。此外,即使是对人进行最简单的遗传学研究也会导致极其尖锐的伦理问题。



  幸运的是,进化生物学为这一问题的解决带来了很好的启示:所有的物种都会拥有一定的共同特征。对模式生物的研究结果,我们能推论到人类自身,随后可以通过抽样调查而得到验证。



  生命多样性之广和过去两个世纪内生物学家之创造力为我们展示了一个丰富的模式生物的画卷,其中每个模式生物都有其独特的特点。果蝇生活周期短,同时拥有较易辨认的唾腺染色体,使其很适合进行遗传学研究。斑马鱼的胚胎小而透明,因此它很适合于进行发育生物学研究。小鼠是一种繁殖迅速的哺乳动物,很适合进行生理学及复杂的遗传学研究。如此等等。



  大部分的生物学家都很专一的研究某一模式生物,但是随着全基因组序列信息的出现,许多这样的专才被整合到了一个新的分支——比较生物学。随着大量的免费数据库的出现,使得研究者们能够对各种模式生物的各种信息进行比对,从基因序列到蛋白质的表达谱甚至其功能。



  比较基因组学是一个很热的领域,但是数据量之大,及数据库增长之迅速,提示我们在进入这一领域前一定要有缜密的计划和安排。



  找到你想要的数据库

  每一个已经进行全序列测序的生物都有一个数据库,并且这些数据库基本上都是免费开放的。当研究某一已测序的模式生物时,大多数的研究者都已浏览过这些数据。小鼠基因组信息数据库主要负责人Jannan  Eppig博士说:“我们提供一个网络界面,即使你不是计算机专家也能够进行大量复杂的查询。”  Eppig和同事一道,负责维护和搜集最权威的小鼠基因组数据。



  同大多数的数据库一样,Eppig的系统提供基因的名字、全序列信息、基因图谱以及大量的关于同源基因、基因表达及功能的公共信息的链接。“所有的数据都有信息资源的支持,例如大量的表型数据直接来自于文献。”



  控制数据库的质量

  各种水平的数据库的质量控制是很重要的,因为这些系统中的数据是其他超数据库的基础。像美国国家生物技术信息中心(NCBI)的EntrezGene数据库、印第安纳大学Bloomington分校的EuGenes数据库。

  

  印第安纳大学基因组信息实验室的主任Donald  Gilbert博士介绍,这些超数据库“从基础数据库中收集信息,然后按照一定的方式进行重新包装和利用。例如EuGenes就只从中挖掘最有价值的基因信息”。通过把来自各种不同的物种水平的数据库信息进行统一格式的编排,超数据库能够使不同模式生物间的基因比较更为简单便捷。



  目前,研究者们正利用这样的工具进行各种类型的研究。某一特定的序列元件若在进化的过程中保守,往往提示其拥有基础性强的功能。结合大量元件的进化比对,研究者们能够找出也许显示了新的功能通路的图式。哈佛大学生物学教授William  Gelbart博士称:“这不是简单的确定每一调控元件,而是要编一本词典,一本调控系统的词典。”



  在比较基因组学中,一个最基本的问题是“DNA水平的进化是怎样发生的?”通过仔细分析来自于各种模式生物的数据,研究者能够看到“新基因的产生,旧基因的消失,以及进化过程中的大规模基因组的重组。”  



  对于那些主要对一个模式生物感兴趣的研究者们来说,最好的选择可能仅仅是特定物种的数据库。所有的物种特异的数据系统都有基因同源物的信息链接,特别是对于很近缘的物种。但是,当你要对不同的物种进行大规模的比对时,这时候超数据库的作用便很明显。



  除了要选择正确的数据库,比较基因组学的研究也需要选择正确的模式生物来进行比对。“你不可能通过人和猩猩之间的比对发现调控序列。他们在进化上太相近了,”Gelbart说。比较理想的进化分歧一般发生在1,000~6,000万年间。而若选择相隔太远的物种,如果蝇和小鼠,也只能显示蛋白质保守性最为粗糙的一面。



  不幸的是,模式生物间并没有很理想的进化分歧。“如果你找不到相隔足够近的物种,那就寻找尽可能近的吧,”Gelbart说。除了大灭绝带来的物种缺失,研究者们遇到的另一个困难是,基因组数据的有限性。因为被测序的物种很有限。当然,随着测序成本越来越低,比较基因组学家们将很快能够得到大量物种的基因组信息,因为“任何生物都能成为模式生物”。



  保持一致性

  基因组测序技术才发展了短短10年,所以每个刚入这行的人将面对各种各样的新问题,却没有人能给予指导。通过不断的尝试——失败——再尝试,那些先锋者们已经慢慢找到什么方法是可行的,而什么方法又是不可行的。



  就像印第安纳大学的Gilbert所说的那样,在生物学家中“很多人有广泛的计算机才能。”许多人通过使用免费的工具软件或电子数据表建立自己的内部数据库。对于大多数只关心一种模式生物的研究者而言,这种方式是可行的,只要在使用电子数据表时多一点点专门的考虑。



  “相同的数据在不同的数据库中有不同的排列方式,因此相同的基因可能有不同的名字,”Gilbert说。当研究者们从不同的数据库中将数据拷贝下来,并在一个电子数据表中编辑时,不同的命名法将带来很大的问题。在一开始将每个基因的所有名字都找出可能是乏味的,但这将防止以后更大的麻烦。



  保持这种内部数据库或者更新的电子数据表可能带来另外的麻烦。由于监管员在不断的为网上各种数据库提供链接,而同时测序工作在不断的更新和进行,因此在短短的几个月内一种模式生物的数据可能发生极大的改变。如果内部数据库在去年没有进行很好的规划,那今年它一定需要重新调整。



  为了避免这种共同的缺陷,Gilbert建议新的入行者以及还在电子数据表中挣扎的比较基因组学家们“多看看他人的成功典范。不要一味的只听从自己的考虑,不然的话你将很可能要耗费大量的时间和精力来使你的数据变得协调一致”。



  开放源数据

  那些困扰比较基因组学家的问题通常也在更大的范围内影响着数据库本身。在管理员不断的为数据添加更多链接的同时,他们不得不保证这一系统的结构逻辑性。测序技术的发展,尤其是基因表达谱等高通量测序技术的发展,使得需要对单个模式生物的数据库不断的改进。同样,那些综合数据库也需要相应的改进。



  伴随着这些挑战,在各自使用者和专业维护人员的努力下,每个模式生物的数据库都在不断的发展和进步。这样的结果使得每个数据库的结构都不同,以至于那些已经精通掌握小鼠数据库搜索的研究人员不得不重新学习来掌握怎样在果蝇数据库中进行搜索。



  借鉴计算机操作系统的经验,生物信息学家正在合作研发一套可用来建设新数据库或者重建已有数据库的标准工具。这一Generic  Model  Organism  Database  (GMOD)数据库将在网上免费提供其计划和产品,同时使用人员也可以参与系统的建设。



  工程发起人Gilbert说:“我们的目标就是建立大家需要的通用工具,并且大量节约用于重复建设数据库中的资金。”



  但是GMOD系统也有其自身的弱点,尤其是启动资金已经被用完了。虽然生物信息学研究人员仍在努力,但进展缓慢。不管怎样,GMOD已经为那些扩展期研究领域的研究人员开发出多种工具,并且它的基本结构体系符合线虫和果蝇基因组数据库的要求。



  Gilbert个人对GMOD的贡献是一个名为Argos的软件工具包,这个工具包对未来的数据库建设者也是免费使用的。Gilbert说:“Argos为建设数据库和增添你所喜爱的模式生物的数据提供了基本框架。”除了建设最基本的线虫和果蝇的数据库外,他还运用Argos将另外12种果蝇的基因组数据添加到了果蝇系统中。

  

  建立基因组的google搜索引擎?

  由于综合数据库需要从各个模式生物的数据库链接数据,而且开放源数据工程也希望为这些系统建立一个通用的标准,我们自然就会认为不同数据库的整合或者至少可以用一个通用的界面来浏览这些数据库,只是一个时间问题。如果这些能实现的话,比较基因组学家们就可以用一个界面友好的数据库入口下载所需的不同系统的任何数据,就好比搜索引擎可以将因特网上大量复杂的信息合理组织起来一样。



  虽然本文中的专家们都同意建立一个单一的最优化的数据库入口的想法非常好,但是有人认为这一计划缺乏可行性。斯坦福大学拟南芥中心  (TAIR)首席研究员Sue  Rhee博士就认为:“综合数据库链接各个模式生物数据库的方式还将继续存在下去。”除了需要让所有的人都接受这一庞大数据库的整体结构外,研究人员还需要决定存储这些数据的格式。



  还有人反对将所有数据统一到一个数据库中,认为至少在短时间内不应该这么做。Jackson实验室的Eppig认为:“一些模式生物有很长的研究历史,有很多分子生物学水平的数据。但是在小鼠和哺乳动物中,我们通常会从研究某一表型开始收集数据,而不可能直接从分子数据开始。所以我认为在短时间内没有必要建立一个所有生物学家都通用的数据库。”



  实际上,Eppig的观点涉及到了一个进行模式生物研究的比较生物学家所必须牢记的基本方面:这些模式生物正是由于他们的不同才会成为模式生物。果蝇易于进行遗传学研究而很难进行哺乳动物生理学研究。每个模式生物基因组数据库中的表型数据和功能数据都展现了其内在的优势。



  Rhee说:“这些数据库本身就是以不同模式生物为中心不断发展起来的,不可能一夜之间全部改变。”他的拟南芥信息中心就是专门为植物遗传学家建立的。Rhee同时指出,虽然不同系统中不可避免有一些相似性,例如遗传密码子就是一样的,但是诸如表型等信息就很难统一了。他建议,不要仅仅在表面价值上下功夫,而要多从实际出发。



  比较基因组学家常常希望通过序列信息来揭示多种模式生物中的基因功能,但是如果基因功能在某一物种中是通过生物化学手段揭示的,而在另一物种中是通过遗传学手段揭示的,很可能解释这两个现象的假设是完全不同的。这一问题虽然可以通过专业人选的校正进行弥补,但还是主要依赖研究人员自身的思考。



  虽然多数生物学家习惯于将遗传学数据从生化数据中分离出来,但是诸如基因表达谱和蛋白质分析等新技术却带来了许多新的问题,尤其是不同物种间的基因表达谱分析。例如,某一物种中的一类细胞与另一物种中类似细胞很可能不等价。Gelbart说:“虽然你可以找出果蝇排泄器官和人类肾脏间的相似之处,但这些共同点有很大的局限性,并不可能等同。”



  虽然面临巨大的挑战,但比较基因组学还是吸引了许多的生物学家。一些生物信息学研究人员甚至通过实验和发表计算机模拟数据急切的进入了这一研究领域。随着越来越多物种的基因组被测序,经典模式生物的数据库不断完善,不同系统间的比较很可能很快成为许多实验室的常用技术。最终,它将会帮助我们了解我们真正最关心的模式生物——人类自己。(译自《Genornics  &  Proteomics》) (责任编辑:泉水)
顶一下
(9)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
特别推荐
推荐内容