2005年12月,国家科技部和生物工程中心组织专家组对“十五”重大科技专项中的课题“人类基因组3号、21号染色体和8号染色体短臂的单体型图的构建”进行了结题汇报并通过现场验收。这也是刚刚结束的人类基因组国际单体型图计划(HapMap计划)的“中国卷”。该项目的课题组长曾长青告诉记者,2002年几乎在国际计划宣布启动的同时,该课题就被列入“十五”重大科技攻关项目。
遗传多态:人类基因组研究新热点
记者问及所测定和分析的SNP与研究人类自身遗传信息的关系。曾长青解释,任何两个人类个体的基因组中有99.9%的DNA序列完全相同,仅千分之一的序列差异。如果说测序计划解读了遗传密码的天书,那么每个人的基因组就是这天书的一个版本。个体间遗传上的区别,包括外貌差异、疾病易感性差异等,都包含在群体的DNA序列差异中。单核苷酸多态性(SNP)是DNA上单个碱基在不同个体中的差异,最大程度代表了遗传差异。因此,基因组序列变异和多态性已成为人类疾病遗传研究的热点。
关于HapMap计划的意义,曾长青指出,SNP是研究复杂疾病、药物敏感性及人类进化的重要标记,但若每项研究都检测所有SNP位点,费用极其昂贵。国际协作组因此提出,在测序数据基础上,通过对亚、非、欧裔269个个体全基因组多态位点的研究,构建主要族群基因组的遗传变异图谱,找出标签SNP位点,为疾病相关和进化研究提供基本信息与分析工具。HapMap计划可视为人类基因组测序计划的续集。
理论和技术的创新引领基因组学研究前沿
HapMap计划通过对269个个体全基因组常见多态位点(SNP)的分析,构建整合人类遗传多态信息的“单体型图”,为疾病易感性、药物敏感性和人类进化研究提供工具。该计划基于遗传多态领域最前沿研究提出和设计,技术路线、样品设计、结果分析等均代表先进科研成果。
曾长青介绍创新点:一是全基因组规模单体型图构建,理论基础是染色体上SNP的组合结构,相邻SNPs成组遗传形成单体型。计划根据人类基因组图谱对常见遗传多态位点进行群体样品测定和分析,绘制常见遗传差异图谱,建立群体信息资源。二是关键技术包括大规模、高通量、低成本SNP分型技术,以及全基因组单体型图构建和标签SNP挑选的算法与软件。
遗传用表指导复杂性疾病研究
曾长青继续介绍,对人类危害严重的常见复杂性疾病(如心血管疾病、癌症、糖尿病等)的遗传因素与多个基因的常见遗传变异有关,每一变异单独效果不明显,因此寻找疾病相关基因困难。HapMap计划为复杂性疾病遗传研究提供群体水平的完整数据和先进手段,提供经过实验分型和复杂运算的遗传用表,为疾病关联分析、确定致病基因提供完整信息与有效工具。标签SNP的选择使研究人员可在全基因组近400万个分型位点基础上,选取标签SNPs进行测定,大幅降低试验成本。这将为常见疾病致病基因定位、药理反应差别等研究提供分子遗传数据基础,最终服务于疾病的诊断、治疗和预警预防。
建立自己的遗传差异图谱
日本团队最初提出负责全部亚洲样品,中国团队的参加争取到提供一半亚洲样品,使这一巨大人类遗传数据库中有六分之一来自汉族人群。曾长青强调,建立中华民族的多态性数据库是当务之急。目前,在常染色体数据中,通过构建染色体特定区域内的单体型,已获得一套特异标签SNPs,对汉族人群的识别度超过97%。
从1%到10%:优质完成“中国卷”计划
从测序计划的1%到HapMap计划的10%,体现了中国科学家在基因组学研究领域迅速提高的能力和地位。然而,项目完成十分艰难。中国部分起步晚,其他国家中心已在SNP分型方面建立平台并积累经验,而中国团队从购买设备开始。资金严重不足,基因组所承担主要部分,项目经费平均至每个碱基仅相当于香港小组的一半出头。曾长青表示,用比别人低的成本赶上落后距离,除了拼命别无他法。最高记录一天完成30万反应,两年多共上交通过质控的SNP分型数据2500多万。团队牺牲节假日,机器24小时连轴转,同时注重细节降低成本、提高效率。2004年夏天赶上进度,2005年初中国团队第一个完成所有补洞。曾长青动情感谢所有参加人员的相互支持和精诚合作。
专项备忘
国际HapMap计划于2002年10月28日正式启动,共有全球6个国家数十个科研机构参加,研究数据及时免费对全球公布。中国卷工作于2002年列入科技部“十五”国家重大科技攻关项目,香港特区政府也对参与的三所香港大学进行了资助。至2004年夏天赶上国际合作进度,2004年底完成近1600万份反应数据,2005年4个月内完成1800多万个SNP分型数据。2005年10月26日,HapMap计划第一阶段工作圆满结束。中国团队在3年内向国际数据协调中心递交并通过了34713312个分型数据,圆满完成了中国卷的数据产生工作。