二十一世纪之初,在多国科学家的共同努力下,人类基因组草图被成功绘制。但让人们大吃一惊的是在人类基因组中能够编码蛋白质的基因只占整个人类基因组的不到2%,其余超过98%的人类基因组是做什么的还不清楚,有科学家把这些DNA叫做“垃圾DNA”,或基因组里的“暗物质”。
为了解析这些所谓“垃圾DNA”的结构和功能,在2003年由美国人类基因组研究所(NHGRI)和欧洲生物信息研究所(EMBL)牵头,开展了ENCODE计划的研究,目的在于对人类基因组进行更为全面而详细的结构、功能和调节的注释。特别是对所谓“垃圾DNA”的结构和功能的分析。因此,ENCODE是人类后基因组计划中最重要、最核心的部分。
ENCODE计划吸引了来自美国、英国、西班牙、日本和新加坡五国32个研究机构的440多名科学家的参与,经过了9年的努力,研究了147个组织类型,进行了1478次实验,获得并分析了超过15万亿字节的原始数据,确定了400万个基因开关,明确了哪些DNA片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异……。证明所谓“垃圾DNA”都是十分有用的基因成分,担任着基因调控重任。证明人体内没有一个DNA片段是无用的。目前所有数据均全部公开(http://genome.ucsc.edu/ENCODE/),并以30篇论文在Nature、Science、Cell、JBC、Genome Biol、Genome Research同时发表(http://www.nature.com/encode)。成为一个互动的百科全书,并可以免费公开获得和利用这些全部的资料和数据。这是迄今最详细的人类基因组分析数据,是对人类生命科学的又一重大贡献。
DNA片段不仅可以编码蛋白质,还可以和蛋白质结合,调控基因活性;可以转录成RNA,调节基因的表达;可以进行基因的修饰,发挥沉默基因的作用。在人类基因组中有93%的DNA可以转录成RNA,其中含有8800个小RNA分子和9600个长非编码RNA。它们分布在细胞的各个层次,从胞浆到胞核。无论是邻近基因片段,还是远隔的DNA片段都有调控基因的作用。人类有2万个基因,却有400万个基因调控开关,一个基因平均有200个基因的调控开关。这是人类既有共性,又有个性的基础;这是人类不同细胞,不同功能,不同表型的基础。基因多态性不仅表现在基因本身,更表现在基因调节的开关差异。因此,不仅基因本身的变异是疾病发生的基础,基因开关的变异和调节的障碍亦是疾病发生和发展的广泛而普遍的机理,自然亦是我们防治疾病和新药开发的最重要的靶标。ENCODE与人类疾病的发生和防治息息相关,是我们基础和转化医学今后研究的重点和方向。
ENCODE还开辟了一种数据挖掘的新程序,称为“主题线程”(Themed Therads)。它将ENCODE的所有数据和Nature等杂志发表的几十篇论文,汇总在一起,可以依据主题,通过虚拟计算机进行数据的调阅、拼接、分析、整合和预测。这也为今后生命科学和复杂疾病的研究增添了一个新的、有力的工具。
ENCODE的公开发表,使“人类基因组不再是一个空壳了”。它是人类生命科学研究又一个新的里程碑!它为人类遗传发育、生理功能、发病机制的研究和药物开发奠定了牢固的科学基础。具有十分重要的理论意义和实际应用价值,关系到我们人体每一种结构,每一种功能,每一种疾病,每一种药物的研究、开发和应用。为我们提供了一个精确的基因结构、功能图谱和调节控制的面板,可在系统和整合的水平上,预测分析与疾病相关基因的结构、变异、功能和调节的改变,为医学生物的研究开辟了一条崭新道路。
ENCODE项目具体在以下方面取得重要进展:
- 转录因子的足迹分析
- 人基因组DNA元件集成百科全书
- 人细胞转录全景图
- 人基因组中可访问的染色质全景图
- 基因的三维立体结构图谱
- 人基因组调控网络结构
- 基因启动子的远距离相互作用全景图
- 果蝇和人的转录因子结合位点变异分析
- 重新界定了“基因”的含义,明确了功能基因的定位、变异和调节
- 转录因子TCF7L2通过GATA3结合到基因组上
- 构建定量模型研究染色质特征和基因表达水平之间关系
- GENCODE假基因资源
- 对人启动子的转录因子结合位点进行功能性分析
- 基于转录相关因子的结合位点对人基因组区域进行分类
- 利用RegulomeDB标注个人基因组中的功能性变异
- 制定ChIP-seq工作标准和指导准则
- 利用RT-PCR-seq和RNA-seq统计所有人基因组编码的基因元件
- 初步分析了基因变异与疾病的相互关系
ENCODE是医学生物学的GPS,将指导我们进行生物医学的研究和实践!我们需要认真学习,深入研究,加速转化。不断补充和丰富ENCODE,书写生物医学与功能和疾病防治相关的新一版的ENCODE。
这里,我们搜集了Nature、Science、JBC、Genome Biol、Genome Research等杂志发表的相关论文三十多篇,供大家学习参考。
BY THE NUMBERS
(10.1038/489049a)

|