基因组的信息扩增律是否和实验资料一致?与解决垃圾DNA问题有什么关系?已知基因组的进化复杂性和它的大小没有关系,同一门或纲的不同物种基因组大小可能有几十倍甚至上百倍的差别,但各门或纲的基因组最小值从原核生物到真核哺乳动物则是依次增加的[1]。这粗略反映了编码蛋白质的信息量随物种遗传复杂性而增加。此外,还有一个需要重视的规律:基因密度随物种遗传复杂性的增加而明显减小,从原核生物的1 000基因/百万碱基对,到酵母的500基因/百万碱基对,再到哺乳动物的20基因/百万碱基对。这说明基因调节机制的复杂性随着基因组的复杂性而增加。如果除了编码蛋白质的信息量外,把调节机制中的编码关系也算进来,则编码信息量随物种进化而递增的图像就会很清晰。实际上,基因组的复杂性主要来源于基因的功能,决定于基因间的相互作用,不是决定于基因的数量。人类蛋白质结构域和其他动物相比并未增加多少,但它们有不同的蛋白质结构体系,人类细胞质膜和细胞外蛋白质结构体系增大很多,基因的相互作用和基因调控密切相关。 原核生物基因表达调控的机理已被莫诺(J. Monod)阐明,但真核生物基因表达调控的机理复杂得多,可在多个水平发生,最主要是在转录水平。典型地,启动子包含转录起始位点上游10 000碱基对至下游6 000碱基对的范围,含RNA聚合酶和调节蛋白(转录因子)的多个结合位点,由4~8个调节模体(motif)组成一个模块,如增强子、阻遏子等,每个调节模体由5~10碱基对组成。这里的复杂性在于:不同转录因子可识别相近的模体,而对应一定转录因子的模体在各位点上都未必完全保守,且模体的位置可变。所以,基因组中调节模体的数量和性质都是进化中较易改变的。调节模体构成真核基因组非编码序列的相当大部分:考虑到模体的可变性, 如果10碱基对长的模体有410个,每个模体出现一次,它们就约占1.68×108碱基对,是人基因组的二十分之一。由此可见,转录调节机制可能占到了基因组中相当大部分的基因表达调控。以上估算说明了真核生物DNA编码信息量扩增的情况,编码信息量远大于其蛋白质编码区的信息量。 如果基因组信息扩增律是正确的,我们就可以研究每一基因组的编码信息量的演化,并和其他物种的基因组比较,从总体上把握各基因组的垃圾DNA情况,估算其中可能包含的编码关系,搞清这部分“暗信息”的意义。这也将有助于全面认识真核基因调节网络,从分子水平上解决生命活动如何在时间轴上展开这一基本问题。 信息生物学的基本规律 除基因组信息扩增律外,作为信息生物学的基础,至少还有两个方面的问题需要研究,一是关于遗传信息传输各阶段上的信息提取,二是生命信息系统的精确性和对于扰动的鲁棒稳定性。前者是指:从DNA序列中提取基因识别信息、启动子信息、内含子剪切信息,或者从mRNA序列和氨基酸序列中提取蛋白质结构信息等。例如,从DNA序列中提取信息时下面的规律可能是重要的: 基因组DNA的编码序列的多样性在进化中趋向于由各种功能约束规定的稳定值。 这里的多样性与给定编码规则下各种编码状态出现概率的分布有关,包括序列中碱基和碱基片段含量的多样性,一定位点上碱基分布和碱基关联的多样性等。它和信息熵有关,但不是熵,在应用上更便于进行序列(或序列片段)的比较[2]。各编码状态的概率分布受到两个互相矛盾互相补充的因素制约:一是碱基的随机突变,二是功能约束(包括功能进化和功能扩展)造成的碱基保守性,因此状态概率的变化表现出复杂的进化关系。但由于功能约束的进化相对缓慢,而碱基突变是较快发生的事件,因此DNA序列还是显示出一定功能约束下碱基突变导致的随机性,从而使多样性取稳定值。这个特性可用来对序列进行预测;当然,在预测时必须权衡各种多样性的贡献才能获得满意的结果。哈肯(H. Haken)曾经把最大信息原理作为非平衡系统的基本原理,这个规律在提法上和哈肯的最大信息原理有相似处,但实质是不同的。 蛋白质结构预测实质上是一个结构信息如何提取的问题[3],是用纯动力学的方法去处理,还是从寻找编码关系的角度去解决?尽管安芬森(Anfinsen)原理指出蛋白质折叠是系统的自由能极小态,似乎仅从动力学途径就可以找到折叠态。但实际上多肽链的折叠是一个需要细胞内多个分子协助的过程;基因编码多肽链,而多肽链并非成熟蛋白质。蛋白质的功能决定于其折叠,在酶和分子伴侣(其他多肽链)的帮助下,对一个多肽链进行折叠、修饰、修复、保护、输运,也许还有剪切(除蛋白内含子、信号肽外)和组装,才能使它变成活性蛋白质,其中包含的很多编码关系有待探索。除氨基酸序列外,mRNA信息是否对蛋白质折叠有影响也是一个没有解决的问题[4]。所以,遗传信息流从序列到蛋白质结构传输中包含哪些编码关系?有没有某些结构码在起作用?仍然是解决蛋白质折叠问题时需要着重研究的。 关于生命信息系统的精确性和对于扰动的鲁棒稳定性,至少有下面几个规律需要研究:一是通过改变和适当安排冗余提高信息传输的精确性; 二是通过网络结构增加系统的容错性和耐攻击性;三是通过和环境熵交换达到系统的热力学稳定性和保持系统的有序性。为便于读者讨论,试作具体陈述如下[5]: 第一,信息传输的解码误差随信息冗余增加而减小,而提高精确度(减小解码误差)一般可能降低传输效率(减小信息传输量)。香农在信息论中证明:通过重复发射可在一个噪声通道中传输准确信息。推广开来,信息冗余相当于香农模型中的重复发射,尽管分子生物学问题和香农模型并不完全符合,但通过增加信息冗余减小解码误差,并在过程中保持较大的接近通道容量的信息传输量,这在分子生物学中也是可能的。 第二,复杂生物网络具有无标度性、模块性和容错性。近年来一些学者首先从代谢网络证明了度(和一结点联系的边数)的分布遵守无标度幂律,此分布的意义在于:结点数随机减少的情况下,信息不通畅程度(网络直径)没有增加。同时证明了网络中具有高度的蛋白质在传递相互作用时起到了不可或缺的作用;也证明了模块性,保证局部的破坏不会传播到网络的整体。 第三,为抵消不可避免的熵产生,使系统处于低熵有序的热力学稳定态,系统必须和环境接触,有足够强的向外移动的熵流(生命以“负熵”为生);同时,健康细胞可能具有熵产生率极小的特性。 此命题前半部分是一条热力学规律,其证明是显然的。信息量和熵有基本相同的表达式,但两者涉及的自由度不同,有本质的差异,用统计物理学术语来说,信息量是熵在某个子空间上的投影。因此,熵流不等于信息流,但熵流可以负载信息流。伴随着熵的流动,它也负载着漂移信息流和扩散信息流;生命系统的热力学有序性要求它和环境有信息交换。此命题后半部分尚需进一步证明,但已有证据表明癌细胞有比正常细胞更高的熵产生率。 同一个科学,同一个梦想 丘成桐在《京都弦学之会记》一文中写道:“唯至小能窥大,因至美而知真”;又写道:“苟真美之可知,孰天人之难合?”[6]这几句话谈了自然规律探索中的三个关系:小和大、美和真、天和人。 至小窥大:20世纪的微观物理学对自然科学和人类文明的贡献是人所共知的;微电子学是当代技术革命的核心——信息技术的基础:没有粒子物理学就没有今天的精确宇宙学;没有显微镜和解剖学,没有原子分子的知识,就没有近代的生物科学和医学。 至美知真:物理学的基本方程唯有从至美的追求才能得到。这些方程是“造物者的诗篇”,“像歌德式建筑所歌颂的崇高美、灵魂美、宗教美、最终极的美”(杨振宁),光做实验而没有理论思维是得不到的。伽利略、牛顿开启的,爱因斯坦发扬光大的实证性与理性相结合的科学规范在物理学领域取得了光辉成就,这种结合正在向物理学以外的学科(包括生命科学)渗透。 天人合一:哥白尼天体运行理论和牛顿的经典力学把地球看作众多天体中的一员,把天体运动和地面物体运动统一起来,实现天地合一。然而生命现象一直在对物理学进行挑战,似乎必须引入某种活性物质和活力才能解释生命。现代分子生物学的进展已有可能把生命归属于“自然”之内,从天地合一到天人合一,从人类作为自然的外化力量到人和自然的同一化。这样的目标已经显露眼前:人了解宇宙,也了解自己,了解人在宇宙中的发生,最后达到人与自然和谐合一的境界。 自然科学正面临着极大、极小和极复杂三个方向的统一。极大和极小在宇宙演化和基本粒子世界中已经显示其统一,尽管新近精确宇宙学中暗能量之谜表明两大方向的统一还有更多的余地。至于谈到与极复杂方向的统一,那么问题的难度就更大了,科学家的努力刚刚开始。困难的部分原因在于物理科学与生物科学方法的不同,还有就是两大学科发展水平的差异, 物理科学较多地实现和得益于真和美的统一,而生物科学的理性化才刚开始。物质和能量的统一在物理科学中已经完成,生物科学本质上以研究信息为最终目标,而信息和物质能量的统一远未完成。宇宙暗能量和垃圾DNA两朵乌云同时悬挂于眼前,似乎向我们昭示着这个自然科学大统一的目标:物质能量和信息的统一。 丘成桐的四句话中前两句总结了物理科学中统一极大和极小两个方向的经验,后两句指出了把这个经验推广到物理科学和生物科学的统一,推广到天人合一,推广到物质能量和信息的大统一途径。 “同一个世界,同一个梦想”,这个口号体现了奥运的目标和理想。科学是人类崇高的事业,面对自然科学大统一的目标,笔者想说这样一句话:“同一个科学,同一个梦想。” [1] 余龙,江松敏,赵寿元等译. Lewin B著. 基因VIII. 北京:科学出版社,2005. [2] Zhang L R,Luo L F. Nucleic Acids Research,2003, 31:6214. [3] Luo L F,Li X Q. Proteins,2000,39:9. [4] Luo L F,Jia M W,Li X Q. Biopolymers,2004,74:432. [5] 罗辽复. 内蒙古大学学报,2005,36(6):653. [6] 丘成桐. 科学,2005,57:1. (责任编辑:泉水) |