当前位置: 主页 > 学术产业 > 会展会议

AI模拟5亿年演化:从头设计新型荧光蛋白

2026-03-31 10:08 上海交通大学 阅读 0
核心摘要: 如果演化可以 快进 在计算机中模拟数亿年的自然选择 直接生成从未存在过的高效蛋白质 会怎样 由EvolutionaryScale公司与多家研究机构合作开发的多模态生成式语言模型 ESM3 在 Scie 关键词:设计、Science

如果演化可以“快进”——在计算机中模拟数亿年的自然选择,直接生成从未存在过的高效蛋白质,会怎样? 由EvolutionaryScale公司与多家研究机构合作开发的多模态生成式语言模型 ESM3,在 Science 发表的一项研究中展示了这一能力:模型通过分析数亿条蛋白质序列、结构与功能数据,成功设计并合成了一个全新的、明亮的荧光蛋白,其基因序列与任何已知荧光蛋白的相似度极低,相当于在计算机中模拟了5亿年的生物演化。这一突破标志着蛋白质工程从“改造已知”迈入“创造未知”的新纪元,为药物开发、环境修复与合成生物学提供了革命性工具。

传统蛋白质工程的局限

自然演化通过随机突变与自然选择,在数亿年间生成了当前蛋白质宇宙中的数亿种序列。然而,可能存在的蛋白质序列空间极其庞大(对于100个氨基酸的蛋白质,理论序列数达20¹⁰⁰),实验手段仅能探索极小部分。

传统的蛋白质工程方法(如定向进化)依赖实验室中的迭代突变与筛选,虽能改进现有蛋白质,但难以跳出已知序列的“本地最优”区域。计算设计方法(如Rosetta)可从头设计新结构,但通常需要大量物理化学能量计算,且难以同时优化序列、结构与功能。

ESM3:多模态蛋白质语言模型

ESM3(Evolutionary Scale Modeling 3)是一种生成式语言模型,其核心创新在于将蛋白质的三种信息模态整合为统一的token表示:

  • 序列(Sequence):氨基酸序列,按标准20种氨基酸编码;

  • 结构(Structure):三维结构的离散表示,将原子坐标压缩为几何token;

  • 功能(Function):通过功能注释(如Gene Ontology、酶委员会编号)编码。

模型在以下规模的数据上训练:

  • 3.15亿条蛋白质序列;

  • 2.36亿个蛋白质结构(包括实验解析与预测结构);

  • 5.39亿条功能注释。

总计 7710亿 个独特token,模型参数达 98亿

通过这一架构,ESM3能够同时推理序列、结构与功能,并生成满足特定约束(如结构折叠、光谱特性)的全新蛋白质序列。

模拟5亿年演化:生成新型荧光蛋白

研究团队设定了以下生成目标:

  • 产生一个能够自发发光的荧光蛋白(类似于绿色荧光蛋白GFP);

  • 其序列与已知天然荧光蛋白的相似度尽可能低

模型生成的候选蛋白经过筛选,合成了多个版本进行实验验证。其中最成功的变体——命名为 esmGFP——具有以下特征:

  • 序列同一性:与已知天然荧光蛋白的最大序列相似性仅为 ~58%(远低于天然蛋白之间的典型相似性);

  • 光谱特性:在实验室中表达后,显示出明亮的绿色荧光,激发/发射光谱与GFP家族相似;

  • 结构折叠:晶体结构确认其形成了完整的β桶状结构,与天然荧光蛋白一致。

研究团队估算,从已知荧光蛋白的自然多样性出发,演化出如此大的序列差异需要约 5亿年 的演化时间。ESM3在数小时内完成了这一“搜索”。

技术意义:从“改造”到“创造”

ESM3的突破性在于:

  1. 超越定向进化的本地优化
    传统定向进化只能围绕已知序列进行随机突变,难以跨越巨大的序列鸿沟。ESM3生成了序列差异巨大的全新蛋白,相当于跳出了本地最优。

  2. 多模态协同生成
    同时指定结构、功能与序列约束,使生成产物从一开始就满足多重要求,减少了后期筛选的盲目性。

  3. 隐式演化模拟
    模型学习了蛋白质序列、结构、功能在演化中的共变关系,能够推断“如果满足某种功能,序列可能如何变化”——这本质上是在模拟演化路径。

应用前景:加速蛋白质工程

该技术可广泛应用于:

  • 药物开发:设计具有特定结合亲和力、稳定性和免疫原性的治疗性蛋白;

  • 酶工程:创建可降解塑料、分解有毒污染物或高效催化工业反应的酶;

  • 生物传感器:设计响应特定分子(如疾病标志物)的荧光报告蛋白;

  • 合成生物学:构建正交的、不与天然蛋白互作的合成生物系统;

  • 基础研究:探索蛋白质序列空间的边界,理解演化的约束与自由度。

开放性与可及性

研究团队将ESM3以公开测试版形式开放:

  • 通过 API 提供程序化访问,支持学术与工业用户;

  • 提供 免费学术访问层级

  • 开源部分模型权重与代码。

这一开放策略旨在推动整个蛋白质工程领域的民主化,使更多实验室能够利用该工具进行创新。

未来方向

团队计划进一步开发:

  • 更长的蛋白质生成(当前聚焦于~200-300个氨基酸);

  • 更复杂的多结构域蛋白与复合物设计;

  • 与其他实验技术(如高通量筛选、连续定向进化)的整合;

  • 针对特定应用场景的微调模型。


参考信息
Reference: “Simulating 500 million years of evolution with a language model” by Thomas Hayes, Roshan Rao, Halil Akin, Nicholas J. Sofroniew, Deniz Oktay, Zeming Lin, Robert Verkuil, Vincent Q. Tran, Jonathan Deaton, Marius Wiggert, Rohil Badkundri, Irhum Shafkat, Jun Gong, Alexander Derry, Raul S. Molina, Neil Thomas, Yousuf A. Khan, Chetan Mishra, Carolyn Kim, Liam J. Bartie, Matthew Nemeth, Patrick D. Hsu, Tom Sercu, Salvatore Candido and Alexander Rives, 16 January 2025, Science.
DOI: 10.1126/science.ads0018

    发表评论