
基因组预测已成为人类、动物和植物生物学的核心工具,能够定量推断遗传变异如何塑造复杂性状。尽管这些领域共享着线性混合模型、贝叶斯回归和深度学习框架等统计基础,但它们在很大程度上是并行发展的,彼此之间的方法学交流十分有限。
2026年2月4日,普渡大学的研究团队在《自然-遗传学》上发表了一篇重要的综述文章。该文系统地整合了人类、动物和植物基因组预测领域的方法学演变,强调了跨领域整合与深度合作的巨大机遇,并提出了一份以互操作数据标准、共享基准测试和跨学科培训为核心的路线图,旨在将基因组预测建立为一门能够解释遗传信息如何驱动生命多样性的比较科学。
核心内容:打破壁垒,走向统一的预测科学
该综述的核心价值在于系统性地梳理了三个领域的独特贡献与共通挑战,并提出了具体的融合路径。
1. 各领域的核心贡献
- 农业遗传学(动植物育种):为现代基因组预测奠定了方法学基础。贡献包括:线性混合模型(如基因组最佳线性无偏预测)的早期应用与完善;贝叶斯回归方法(Bayesian Alphabet)的发展,以适应不同遗传架构的性状;以及多环境、多性状预测的实用框架,以应对基因型-环境互作的复杂性。
- 人类基因组学(精准医学):推动了更高复杂度模型和数据分析范式的发展。贡献包括:非线性模型(如深度学习)在捕捉复杂遗传效应(如显性、上位性)中的应用;跨人群多基因风险评分的构建与可迁移性研究;以及联邦学习等隐私保护计算框架的开发,以在不共享个体级数据的前提下进行多中心协作。
2. 跨领域通用的方法学框架
综述详细比较了三大类核心预测模型及其在不同物种中的应用场景:
| 模型类别 | 代表性方法 | 核心特点 | 主要应用领域 |
|---|---|---|---|
| 线性混合模型 | GBLUP, 单步GBLUP | 计算高效,对加性效应预测稳健,假设所有标记效应服从同一正态分布。 | 动植物育种中的常规基因组选择(如产奶量、生长速度);人类复杂性状遗传力估计。 |
| 贝叶斯回归 | BayesA/B/Cπ, BayesR, BayesN | 允许标记具有不同的先验方差,能更好地处理少数大效应位点。 | 动植物育种中针对由少数主效基因控制的性状(如抗病性)进行预测。 |
| 机器学习/深度学习 | 神经网络、随机森林、支持向量机、Transformer | 可自动捕捉复杂的非线性关系、上位性互作,但对训练集规模、计算资源要求高,可解释性较差。 | 整合多组学数据(转录组、表观组等)进行表型预测;处理高维图像或序列数据(如从SNP序列直接预测表型)。 |
3. 融合的机遇与路线图
作者们认为,通过打破领域壁垒,基因组预测将迎来一系列新的发展机遇。为此,他们提出了一份具体的实施路线图:
- 互操作数据标准:建立跨物种的标准化数据格式、术语表(本体)和质量控制流程,使来自不同研究的数据能够被无缝整合与重用。
- 共享基准测试:建立一系列具有挑战性的、跨领域的预测任务和公共数据集,并开发公平、透明的模型评估指标和流程。
- 跨学科培训:改革研究生课程体系,鼓励学生同时选修动物育种、群体遗传学和机器学习课程。
- 生物学知识整合:将功能基因组注释(如染色质状态、保守非编码元件、蛋白质互作网络)作为先验信息融入预测模型。
- 解释性与泛化性:发展可解释性人工智能方法,揭示模型决策背后的生物学驱动因素。
结论与展望
基因组预测正处在从“经验科学”向“比较科学”转变的关键时期。通过借鉴动植物育种中数十年来在复杂性状预测方面积累的实用经验,人类遗传学可以获得更稳健的统计模型和验证策略;反之,农业领域也可以利用人类遗传学在深度学习、多组学整合和伦理考量方面的最新进展。这种双向的知识流动,将最终使基因组预测成为一门通用的、能够跨越物种界限、解释“基因型-表型”映射关系的核心学科。
参考文献
- Arirangan, S., de Oliveira, L.F., Hasan, M.N. et al. (2026). Sharing approaches in predictive genomics across animals, plants and humans. Nature Genetics, 58, 503–516.
- Meuwissen, T. H. E., Hayes, B. J. & Goddard, M. E. (2001). Prediction of total genetic value using genome-wide dense marker maps. Genetics.