基因调控是生命科学的核心问题,但人类基因组中约98%的非编码区域蕴藏着复杂的调控密码,其破译难度极高。传统的实验方法虽然精确,但效率低下,难以系统性地解析所有调控元件。近年来,深度学习模型在从DNA序列预测分子表型方面取得了显著进展。
2025年4月1日,悉尼儿童医学研究所的Sandra T. Cooper在《自然-遗传学》的“新闻与观点”栏目中,对同期Linder, J.团队发表的Borzoi模型进行了精彩解读。Borzoi是一个基于深度学习的模型,能够仅根据DNA序列,预测每个基因的每个外显子在不同细胞和组织中的RNA测序覆盖度。该模型以高精度捕获了包括转录、剪接、RNA稳定性在内的复杂调控信号的综合输出,为理解基因调控的全貌提供了强大的计算工具。
核心能力:从序列到表达谱的端到端预测
该研究的核心突破在于,Borzoi模型能够直接预测RNA-seq覆盖度的定量值,而非简单的二元分类。
1. 模型架构
Borzoi基于卷积神经网络构建,其架构经过专门优化,以处理超长的上下文依赖。模型的输入是长度可达数百kb的DNA序列;输出是对应基因组区域中每个碱基位置的预测RNA-seq覆盖度(即转录活性)。通过在大规模数据集上进行训练,Borzoi自动学习DNA序列中的调控基序、语法和逻辑关系。
2. 预测范围
与以往主要关注转录起始位点或基因整体表达水平的模型不同,Borzoi能够预测每个基因的每个外显子的覆盖度。这使其能够区分:
-
转录调控:通过预测基因体整体的覆盖度水平。
-
剪接调控:通过预测不同外显子之间覆盖度的相对比例(即外显子包含或跳跃)。
3. 训练数据与泛化能力
Borzoi的训练数据来自ENCODE等大型项目,涵盖了超过1000个人类细胞和组织样本的RNA-seq数据。该模型在训练集上表现优异,并具有强大的泛化能力:
-
能够准确预测未曾训练过的细胞类型的RNA-seq覆盖度。
-
能够预测致病非编码变异对基因表达和剪接的影响,解释其致病机制。
与现有模型的比较与优势
| 特征 | Enformer (前代模型) | Borzoi (新模型) |
|---|---|---|
| 输出分辨率 | 主要在基因水平(或粗略的基因组区间) | 外显子水平(单碱基分辨率覆盖度) |
| 预测表型 | 基因表达、染色质状态 | RNA-seq覆盖度(整合表达和剪接) |
| 上下文长度 | ~200 kb | ~400 kb (双倍上下文,捕获更远程调控) |
| 对非编码变异的影响解释 | 预测对整体表达的效应 | 区分对外显子包含率和表达量的效应 |
生物医学意义与潜在应用
Borzoi模型的强大能力使其在多个领域具有广泛的应用前景:
-
非编码变异的功能解读:全基因组测序在罕见病诊断中不断发现大量意义不明确的非编码变异。Borzoi可用于优先排序那些最可能影响基因表达或剪接的候选致病变异,从而缩小验证范围,加速诊断。
-
解析复杂疾病的调控机制:全基因组关联研究鉴定出的大量风险位点位于非编码区,其效应基因和作用机制不明。Borzoi可以预测这些风险位点中的变异对附近基因表达和剪接的影响,帮助将全基因组关联研究位点与效应基因连接起来。
-
指导基因治疗的靶点设计:在基因治疗中,需要设计组织特异性启动子/增强子以实现精准表达。Borzoi可用于虚拟筛选大量的合成或天然调控序列,预测其在目标细胞中的活性,从而加速最优调控元件的设计。
-
理解剪接密码:Borzoi学习到的序列特征权重可以揭示调控剪接的“语法”,例如增强子/沉默子基序的位置效应、外显子定义与内含子定义的区别等。
局限性
尽管Borzoi功能强大,但仍存在一定的局限性:
-
并非因果模型:Borzoi预测的是关联性。虽然可以预测某个变异改变覆盖度,但无法直接告知该变异是通过破坏哪个具体的转录因子结合位点来实现的。需要结合基序分析等方法来推断因果机制。
-
对不同调控机制的敏感性差异:模型对近端调控元件的预测更准,对远隔的、具有复杂三维空间互作的增强子的预测可能不够准确。
-
黑箱性质:深度学习模型的内部表示难以直接解读,限制了我们对模型“学到的生物知识”的理解。可解释性人工智能方法正在逐步解决这一问题。
未来方向
该领域的发展方向包括:
-
整合三维基因组信息:将Hi-C等染色质构象数据整合进模型,以更好地预测远距离增强子-启动子互作。
-
多任务学习:同时预测RNA-seq覆盖度、染色质可及性、组蛋白修饰、DNA甲基化等多种表型,构建更统一的调控模型。
-
跨物种应用:训练能跨物种(如从人类到小鼠)预测调控效应的模型,以利用模式生物数据解读人类变异。
-
临床整合:将Borzoi整合到临床基因组分析流程中,作为意义不明确变异的优先排序工具,提高诊断率和效率。
参考文献
-
Cooper, S.T. (2025). Borzoi decodes the complex DNA signals governing gene regulation. Nature Genetics, 57, 777–779.
-
Linder, J., Srivastava, D., Yuan, H., Agarwal, V. & Kelley, D. R. (2025). Predicting RNA-seq coverage from DNA sequence as a unifying model of gene regulation. Nature Genetics. https://doi.org/10.1038/s41588-024-02053-6
-
Avsec, Ž. et al. (2021). Effective gene expression prediction from sequence by integrating long-range interactions. Nat. Methods.
-
Wilks, C. et al. (2021). recount3: summaries and queries for large-scale RNA-seq expression and splicing. Genome Biol.