
蛋白质宇宙的疆域再次被大幅拓展。近日,陈-扎克伯格生物中心(Chan Zuckerberg Initiative's Biohub)的研究团队发布了一款全新的人工智能工具,并利用它生成了一个包含超过10亿个预测蛋白质结构和68亿条蛋白质序列的庞大图谱——ESM Atlas。这一成果远超此前谷歌DeepMind的AlphaFold数据库(约2亿个结构),也超越了该团队早期的ESM图谱版本。
该图谱的核心是ESMFold2,一种基于“蛋白质语言模型”的AI系统。该模型在来自整个生命之树的数十亿蛋白质序列上进行了训练,尤其包含了大量来自土壤、海洋等环境的宏基因组序列,这些序列在以往的数据库中往往被忽视。Biohub的科学负责人Alex Rives表示:“这个图谱展示了蛋白质生物学的全貌,尤其是那些最不为人知的部分。我们相信它将成为发现新生物学机制的强大基石。”
ESMFold2在性能上实现了显著突破。研究团队在预印本中指出,在预测相互作用的蛋白质复合物(如抗体与抗原的结合)的正确结构方面,ESMFold2的表现超越了包括AlphaFold3在内的现有方法。利用这一优势,团队成功设计出了能够强力结合癌症和免疫疾病相关蛋白的新型抗体。在实验室的后续测试中,这些设计蛋白的高比例都表现出了预期的功能,验证了该AI工具的实用价值。
ESM Atlas的开放获取性质也引发了学术界的广泛关注。瑞典隆德大学的计算生物学家Gemma Atkinson评论道:“这将是生物学领域的非凡资源,令人兴奋地看到大规模蛋白质语言模型如何捕捉蛋白质生物学的基本规则。” 伦敦大学学院的Christine Orengo则认为,这些预测有助于揭示新的蛋白质折叠和功能,对蛋白质设计和基础生物学理解具有深远意义。
不过,也有科学家提出了审慎的看法。首尔国立大学的Martin Steinegger指出,ESMFold2对与已知蛋白质差异极大的新蛋白(尤其是宏基因组数据中的异常结构)的预测能力仍有待检验。麻省理工学院的Sergey Ovchinnikov则认为,ESM Atlas更多是作为AlphaFold数据库的补充而非替代,但ESMFold2的完全开源且无商业使用限制的特性,将使其获得广泛的应用。“我预计很多人会兴奋地尝试ESMFold2。”Ovchinnikov说道。