我们热爱生命科学!-生物行
当前位置: 主页 > 神经科学 > 研究进展

垃圾DNA与信息生物学

时间:2006-05-18 10:15来源:科学杂志 作者:admin 点击: 399次
        金秋九月,两群科学家——一群天文学家和一群生物学家,他们之中多数是物理学出身,具有很强的物理学背景——聚会呼和浩特,纪念爱因斯坦,纵论当代自然科学问题。爱因斯坦是天才的幸运儿,他生活在物理学需要改写的年代,以太风和黑体辐射两朵乌云遮拦着这个年轻人的视线,激发了他敏锐而深刻的科学思考。他成功地改变了因袭几百年的关于自然的观念,改写了物理学的历史。100年过去了,类似的两朵乌云——宇宙暗能量和垃圾DNA(junk  DNA)问题又呈现在人们眼前。这是牵动着多学科、矛盾极为尖锐、将会引发科学革命的自然科学基本问题。有谁能说,对于有志于科学的青年,这不是一次类似百年前那两朵乌云一样的巨大机会呢?



        暗能量和垃圾DNA

        宇宙中的物质和能量分布为:可探测到的普通物质仅占约4%,暗物质约占  23%,暗能量约占  73%。最奇怪的是,占据宇宙能量大部分的竟是暗能量。1998年美国两个观测组发现了宇宙加速膨胀,这意味着存在某种与已知作用力完全不相容的“万有斥力”。这部分能量称为暗能量。引入暗能量还能对宇宙学中很多困难问题,如宇宙年龄问题等给出合理的解释。这种能量的本质是什么?它可能代表宇宙的真空能量密度,也可能还存在某种崭新的场,对此,科学家仍感到茫然,这是第一朵乌云。

        原核生物(如大肠杆菌)基因组的DNA序列约88%编码蛋白质,约1%编码稳定RNA,但高等生物的情况完全不同。随着人类基因组测序的完成,已经知道编码蛋白质的外显子仅占基因组的1%,内含子占24%,基因间的DNA序列占22%,重复序列占53%;重复序列中可移动重复序列(转座子)占45%,简单重复序列占3%,大重复片段占5%。在99%的非编码序列中,内含子被认为只是大自然为加速基因进化而引进的一种把戏,是插在基因中外显子间的噪声;基因间序列中只有很少部分被确认为与基因表达调控有关,剩下绝大部分也是无功能的废物或垃圾(junk)。大量重复序列被认为来源于“自私的”基因的高复制能力,完全是中性进化中产生的“junk”。为什么高等生物的遗传物质中有高达90%以上的“垃圾”?对比低等生物,这个矛盾显得更加尖锐。这是悬在当代科学晴空中的第二朵乌云。

        宇宙中竟有三分之二以上的物质是前所未知的暗能量,约四分之一是性质奇特的暗物质;人的生命中竟有90%以上的遗传物质是没有或未知功能的垃圾DNA。两朵乌云如此相像!这是对人类求知欲的巨大挑战。一个谈“天”,一个论“人”。一个是物质和能量,一个是信息。两朵乌云的同时出现意味着两个基本学科的巨大发展机遇,意味着需要从一个新的更高的角度来审视这些问题。本文仅就垃圾DNA问题发表管见。



        是垃圾,还是宝库?

        1950年代末1960年代初开始阐明低等生物的基因结构时,乍一看情况井井有条,但随着研究工作的深入,发现基因组结构具有愈来愈高的复杂性,这些复杂性很多来自于中性突变,以及基因为获得生存所作的努力。高等生物的基因组90%以上都是非编码序列,是中性或近中性进化中产生的“垃圾”。近两三年,科学界对垃圾DNA的讨论日益增多,各种观点层出不穷,人们开始重新审视这些“垃圾”,发现它们并非垃圾,而是宝物。

        例证之一,可移动重复序列具有整合到基因组新位点的能力,特别是其中的逆转录转座子,它们在基因组中的数量随进化而增加,在低等真核生物中只有3%以下,而在哺乳动物中几乎占一半。其中一个叫做L1序列的转座子,大约每50个人基因组中就有一个新的L1序列插入,它具有修复双链DNA的功能,可帮助它前后的基因移动并插入到基因组其他位置,可通过它包含的反义启动子改变基因的表达,还能变成编码蛋白质的基因序列的一部分(L1存在于200  ~  2  400个编码蛋白质的基因中)。Alu序列是另一个逆转录转座子,其300碱基对的重复单元以140万份拷贝散乱地分布在人类基因组中,它们大约是在4  000万年前大批进入基因组的,至少有20种人类遗传病与Alu序列的插入有关。最近发现Alu序列的外显子化可导致可变剪接,编码更多种类的蛋白质。这些都说明重复序列尽管是在中性进化中产生的,但后来还可能获得功能。功能本来就是一个动态的概念,那些在进化过程中被保留下来的重复序列很可能与后来获得的功能有关。脊椎动物基因组的快速进化动用了可移动重复序列,这些移动元素变成了基因进化的推动者。

        例证之二,人类基因组中有很多保守的非基因序列,它们在从鸭嘴兽到人的十余种哺乳动物中高度保守,比编码蛋白质的基因序列和非编码的RNA序列更保守,并具有不同于后两者的独立的信息学特征,且数量之多惊人,估计人类基因组中有6万个,几乎是编码蛋白质基因数的2倍。在5′端和3′端非翻译区,特别是5′端非翻译区中,普遍存在着这类保守的非基因序列。尽管它们的功能还不清楚,但从此类序列的物种保守性可以估计它们编码了某些功能元素。

        例证之三,非编码RNA中RNA干涉和微RNA在2001和2002年连续被评为十大科技新闻之首。微RNA(miRNA)和小干涉RNA(siRNA)性质相像,都是长约22核苷酸的小RNA,miRNA通过调节内源基因表达,对生物体的正常生长进行调节;siRNA是外源基因诱导下RNA干涉过程中形成的中间体,介导基因沉默,是基因组免疫系统的重要组成部分。两者都是通过与靶基因配对来抑制翻译过程,但前者部分互补于3′端非翻译区,后者完全互补于靶基因,并切断之。siRNA可能在进化早期已有,由于抑制过于彻底,导致调节不可逆,在进化过程中产生miRNA来代替它,它们对基因组的功能都极为重要。



        呼唤信息生物学

        昔日自然科学聚焦于物质和能量两个基本范畴,“信息”是第三个基本范畴。生命是物质,但不仅仅是物质;生命是能量,但不仅仅是能量;生命还是信息,信息是生命的精髓。人生殖细胞的DNA只有二千亿分之一克重,从物质组成来讲微不足道,从能量来看也没有什么珍贵,但它包含了生命发育、成长一直到死亡的种种信息。更奇妙的是,这些信息是经过亿万年自然选择,在大自然的随机背景下形成,由大量的偶然性凝练而成的。根据香农的定义,信息是通过对事物随机选取的可能性来度量的,大量信息意味着大量偶然性。物理学对偶然性的习惯处理是进行统计研究,  但自然界教给我们的另一种处理方法是对每一次的偶然性进行随机确定,通过自然选择找出一条最佳或较佳的路线(或序列),这类保留下来的序列反映了大量偶然性背景中形成的生命之序。  如果说物理学是研究能量的学科,那么生物学就是研究信息的学科。

        分子生物学需要有一条主线来统领理论研究,这条主线笔者以为是以揭示生命信息流的基本规律为核心,依据这些规律,解释和预测基本的分子生物学实验,并建议将这种研究称作信息生物学。近年兴起的生物信息学是在基因组海量数据出现的条件下,生物学理性化的一种努力,但主要还局限于数据处理的范围;而信息生物学将对生命信息本身,对生命信息的遗传、传输、控制与表达的基本规律进行研究。可以预期,在这种理论观点下,垃圾DNA的本来面貌将被揭示,进化将从信息产生和控制的角度给出全新的理解,各种结构与功能的关系将获得系统的诠释和预测。

        信息和能量不同,不具守恒性。信息的扩增是生物学的基本规律之一,它在生物学中的意义如同物理学的能量转换和守恒。薛定谔的微型密码观念对10年后分子生物学的诞生极其重要,但忽略了一个重要方面,没有考虑遗传信息是如何积累扩增和进化的。信息生物学将建立在几个基本规律的基础上,其中第一规律就是信息扩增律:

        在DNA、RNA、蛋白质的相互作用下,通过序列复制和编码方式增加,以及基因在基因组间转移等机制,基因组DNA的编码信息量Ic在进化中随时间增长(dIc  /dt≥0)。

        熵增加是自然界的普遍规律,但此处所说的不是孤立系统,也不是一般的熵增加,而是编码信息量。编码信息量是编码状态数的对数。用4个字母构成的长N的序列来编码,编码状态数为4N,编码信息量为2N。如此序列中有d个位点不参与编码,则编码状态数为4N-d,编码信息量2(N-d)。

        序列复制是导致信息量增加的重要原因。重复序列通过变异形成新基因新功能,使编码信息量增加;也可能失活而变成假基因,不贡献编码信息量。产生新编码方式是导致信息量增加的另一重要原因。对于一个复杂系统,由于子系统间的随机作用,而不断增加新的编码关系,这种编码关系往往来源于某种结构匹配和物理化学作用,一般地,总是不断增加的。普适遗传密码的反常和新氨基酸(硒代半胱氨酸、吡咯赖氨酸)的出现就是两个例子,后者来源于无意义密码子的重新诠释。它们表明了进化中信息量的扩增以及扩增是基于新编码方式的建立。

        必须强调,这里所说的编码不一定是遗传密码。如miRNA和siRNA就提供了进化中产生不同于遗传密码的新编码关系的实例。miRNA和siRNA作用机理的关键在于形成了一种编码机制,即从mRNA出发,经过包括Dicer酶在内的多种酶的参与,加工成小RNA双链复合物,然后降解成22核苷酸的单链RNA分子,再和多种分子形成称为RISC(RNA诱导沉默复合体)的RNA蛋白质复合体,再通过RISC对靶RNA切割降解而实现功能。又如从DNA的初级转录物到成熟RNA的剪接和可变剪接(切除基因内部不编码蛋白质的内含子)以及RNA编辑(以另一RNA为模板修饰mRNA前体),是另一不同于遗传密码的新编码关系。这些例子都说明任何编码关系的形成都是需要多种因子参与的复杂过程。

        生命是DNA、RNA、蛋白质三元素相互作用的信息系统,遗传信息的形成、存储、表达和传输经常是在这三元素相互作用中实现的,三元素相互作用比二元素相互作用增加了更多的可能性和复杂性。如RNA和蛋白质可对DNA序列有运算功能,对DNA中某些位点的某些符号进行修饰(如删除或插入)等。这都将使基因组的编码信息量扩增。又如,基因调节路线可通过蛋白质反作用于DNA,也可由调节基因的转录物作用于操纵子的RNA。老子说:“道生一,一生二,二生三,三生万物。”  总结这三元素在生命过程中的作用,我们不妨引用这样的命题和假设:三=无穷大。

        朊病毒(prion)与蛋白质病是三元素相互作用的例子。疯牛病的病原体是蛋白质,有正常Pr  P  c  和病态PrP  sc两种形态,PrP  c  有4个α螺旋,而PrP  sc中其中2个变成β折叠,此过程没有核酸参与。但这些信息是如何传下来的?一般来说,遗传病的机制存在于DNA、RNA、蛋白质三元素相互作用的网络中;实验表明,PrP  c到  PrP  sc的转变过程需要寄主RNA分子参与。因此搞清疯牛病遗传机制的关键在于弄清楚这三元素相互作用的网络,此中必有新的编码关系,且这个编码和结构有关。

        表观遗传是不同于通常DNA码的信息,主要有三种类型的信息传递方式:通过DNA修饰(如胞嘧啶甲基化)的信息传递;由染色质中组蛋白修饰(如甲基化、磷酸化、乙酰化、泛蛋白化)引起的组蛋白复合体再组织;三是通过双链RNA传递遗传信息。表观遗传也说明了信息编码的多样性和扩增。

        编码信息量的增长速度可作为物种进化速率的标度,但是如果这个增长速度仍不能适应环境的剧变(如资源匮乏),那么物种就可能会濒临灭绝。有的细菌在寄生中丢失功能而使基因组的编码信息量减少,这是一种退化现象,不属于信息扩增律描述的范围。 (责任编辑:泉水)
顶一下
(3)
100%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
特别推荐
推荐内容