当前位置: 主页 > 神经科学 > 遗传与演化

2001年正式公布的人类基因组草图存在差错

2004-10-22 13:38 未知 综合报道 阅读 0
核心摘要: 本文回顾了2001年人类基因组草图的发布及其存在的差错,包括遗漏和错序问题。后续纠错工作将错误率降至十万分之一,并重新估测人类基因数量为2万至2.5万。文章还探讨了“鸟枪法”测序的缺陷及其与传统方法的结合,以及人类基因数量少于预期的生物学意义,强调复杂性源于蛋白质组合而非基因数量。

2001年,国际人类基因组测序联合体在《自然》和《科学》杂志上公布了人类基因组草图,这标志着人类科技史上的里程碑。然而,草图并非完美无缺。据估计,在富含基因的常染色体上约有10%的遗漏,整体遗漏率约为30%(包括基因匮乏的异染色体),忽略或错序的总数达数十万。这些错误对大规模基因组分析(如基因进化机制或大范围基因组结构研究)产生了显著影响。例如,假遗传基因(因突变而失去功能的基因残存序列)可能被错误标注,导致研究结果张冠李戴。

自草图公布后,国际人类基因组测序联合体进行了大量纠错补缺工作。他们检测了草图涉及的每个缝隙,并对克隆基因及扩展基因采取了措施。结果发现,草图有341个遗漏,涉及3800万个碱基对。最新公布的人类基因组序列包含99%的人类染色体基因组,错误率仅为十万分之一,远超预期指标。此外,更精确的计算表明,人类基因数量实际在2万到2.5万之间,明显少于此前估计的2.7万至4万。

人类基因组草图采用了一种简化基因组序列的方法,导致基因重复区域未被绘制。而最新测序工作采用传统方法,即将人类基因克隆到细菌中形成人工基因组,再进行绘制。研究发现,人类基因组中有1183个基因是在过去6000万到1亿年间通过复制或进化获得的,不应重复计算。人类基因组中约5%属于重复区域,这些区域对于研究人类进化及与重复区域相关的疾病具有重要意义。

尽管人类基因组图谱已基本完成,但人类基因组计划远未结束。后续工作包括定义编码蛋白质的基因目录,以及完善早期采用的基因预测程序,这些程序仍存在很大局限性。最新图谱的绘制无疑使科学家对人类“生命之书”的认识更加精确。

“鸟枪法”缺陷导致草图出错

英国《新科学家》杂志网站报道,美国科学家发现,目前常用于大片段DNA测序的“鸟枪法”存在缺陷。美国文特尔学会的三位科学家将“鸟枪法”绘制的人类基因组草图和“人类基因组计划”公布的最新草图进行了对比,发现“鸟枪法”无法测到人类基因组中重复出现的DNA片段,这些片段占基因组的3%至5%,对于理解遗传性疾病具有重要意义。

负责此项研究的埃万·艾希勒表示,这个缺陷并不能抹杀“鸟枪法”的作用,在进行快速DNA测序时,“鸟枪法”仍是一种可取的手段。最佳的DNA测序法是将两种方法相结合:用“鸟枪法”进行整体测序,识别出“鸟枪法”无法测序的区域,再通过传统方法对这些区域测序。

“鸟枪法”由美国塞莱拉遗传公司创始人克雷格·文特尔发明,是目前常用的两种DNA测序法中较为快捷的一种。传统DNA测序法需通过基因方法将DNA片段放大,并在克隆的细菌中测序,过程繁琐复杂。“鸟枪法”则简单地将DNA片段打乱,然后通过强大的计算机运算方法进行排序。2000年,塞莱拉公司和国际合作项目“人类基因组计划”分别通过这两种方法绘制出人类基因组草图。

人类基因实际数量只有2万多

美国国家人类基因组研究所所长、最新人类基因数分析报告作者克林斯认为,人类的基因数实际仅有2万到2.5万,低于国际人类基因组计划2001年公布的3万到4万。科学家长期以来对人类基因数量进行了估测,10年前普遍认为约有10万个基因,而“国际人类基因组排序联合体”最初的估计数字明显低于上述数字。2001年,它估测的人类基因数为约6.6万个,以后又降到4万个。

科学家在报告中称,2001年报告估测基因数目时,还有很多工作未完成。基因数分析报告的另一个作者、麻省理工学院与哈佛大学博德研究所的兰德解释说:“人类基因组的一些区域中隐藏着很多基因片段的复本,最终完成的工作显示,最初认为是基因的,实际上是一些基因片段的复本,此前的估算曾将这些复本计算在内。”科学家说,新的估测值是确切的,人体极可能有2万个基因,因为另一家实验室的工作也已独立表明存在19599个基因。

相比之下,小线虫(Caenorhabditis elegans)大约有1.95万个基因,开花植物拟南芥(Arabidopsis thaliana)约有2.7万个基因。伯克利加州大学基因专家鲁宾说:“我们必须习惯于人类拥有的基因数不比蠕虫多的这样一个事实。并且这个新的估测值将来不可能变化很多。”

专家们认为,人体的复杂性不仅仅来源于基因。兰德称:“人类的复杂性不仅仅涉及基因的数目,而更在于自然界如何采用这些基因。”但人类如何拥有较少的基因,而又是如此复杂呢?克林斯说:“这在于人有多种蛋白质,即复杂的蛋白质做更多的工作。很多生物学上的复杂性,不是基于单个蛋白质,而是基于多个蛋白质的组合。”

    发表评论