基因表达的精确调控是生命活动的核心,而启动子与增强子之间的长程相互作用在这一过程中起着决定性作用。然而,如何从海量的基因组序列及复杂的表观遗传修饰中准确预测基因表达水平,一直是计算生物学领域的重大挑战。近日,研究人员在《Nature Communications》上发表了名为EPInformer的创新深度学习框架,为解析这一复杂机制提供了新的视角。
EPInformer的核心优势在于其多模态整合能力。该模型不仅能够处理启动子和增强子的原始DNA序列信息,还能深度融合染色质可及性(如ATAC-seq数据)以及多种组蛋白修饰(如H3K27ac, H3K4me3等)的多模态表观遗传特征。通过引入Transformer架构,EPInformer能够高效捕捉远端调控元件与启动子之间的长程依赖关系,从而克服了传统模型在处理复杂基因调控网络时的局限性。
在实验验证阶段,研究团队利用多种细胞系对EPInformer进行了广泛测试。结果显示,该模型在预测基因表达水平方面表现出了极高的准确性,尤其是在捕捉组织特异性表达模式方面,显著优于现有的基准模型。此外,通过对模型注意力权重的分析,研究人员成功识别出了一系列关键的调控基序(Motifs),这些基序与已知的转录因子结合位点高度吻合,进一步验证了模型的生物学可解释性。
EPInformer不仅是一个强大的预测工具,其在跨细胞系预测任务中的出色表现,证明了其在理解不同生理和病理状态下基因调控机制的潜力。未来,该模型有望被广泛应用于识别与人类疾病相关的非编码区变异,为精准医学研究提供重要的理论支撑和数据挖掘手段。
Journal Reference: EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nature Communications.