AI预测神经科学：理解与泛化的挑战

在科学史的大部分时间里，预测与理解一直是同一枚硬币的两面。艾伦·霍奇金（Alan Hodgkin）和安德鲁·赫胥黎（Andrew Huxley）仅用四个变量和少量参数就描绘了动作电位。他们的方程不仅准确预测了动作电位波形，更重要的是，它们解释了其机制：快速的钠离子内流和缓慢的钾离子外流相互作用，从而产生了神经冲动。预测是实用的，而理解则是优美的。在过去，两者密不可分。

然而，人工智能（AI）正在将它们拆解开来。

以AlphaFold为例，其蛋白质结构预测的准确性令人惊叹。但它并没有提供一个人类可以内化或据此进行推理的解释性模型，没有那种“恍然大悟”的时刻。AlphaFold并未增进人类的理解；它取代了本应发生理解的步骤。

神经科学正沿着同样的道路前进。例如，Claude等模型背后的Transformer架构，现在能够根据Neuropixels记录数据，精确地建模神经元群体放电序列。基础模型也开始整合大规模钙成像数据集。从Edison Scientific等初创公司到Alphabet、Anthropic和OpenAI内部的项目，越来越多的科学AI公司正竞相通过大数据实现科学发现的自动化，尤其关注那些具有商业潜力的发现。

但这些工具所提供的答案可能缺乏洞察力，其预测可能缺乏“压缩”——即将复杂现象提炼为更简单、更普遍原理的能力。没有这种提炼，我们并未比以前更好：我们过去不理解大脑，现在我们也不理解大脑的AI模型。

为了解决这一问题，一个全新的子领域——机制可解释性（mechanistic interpretability）应运而生，专门用于剖析这些模型，以发现其内部的原理。最近的一篇论文就尝试将一种机器学习模型（稀疏自编码器）应用于另一种模型（在钙成像数据上训练的Transformer），以寻找第一个模型中人类可解释的特征。这正是我们新时代的讽刺之处：我们现在需要为科学模型建立科学模型。

我们为何需要“压缩”？爱因斯坦（或许是传闻）曾说，一个好的理论应该尽可能简单，但不能过于简单。理论是对大量观察结果的简洁描述：霍奇金-赫胥黎模型将动作电位简化为四个变量；环形吸引子模型（ring attractor model）将头部方向调谐（head-direction tuning）简化为一个方程，同时解释了路径整合（path integration）。正是因为这些理论是“压缩”的，它们才能被我们理解并进行心智模拟。这种心智模拟模型的能力，正是产生“理解”感觉的源泉。AI模型没有这样的限制。它们能容纳远超人类大脑的信息，这意味着它们的内部模型可以远不那么“压缩”，对我们而言也远不那么易懂。AI不需要理解。

这引出了一个令人不安的问题：如果AI能提供准确的预测，并且这些预测能带来突破血脑屏障的药物，以及抑制癫痫发作的刺激模式，那么理解是否还有存在的必要？当然，许多人——不仅仅是科学家——都珍视理解。美第奇家族资助伽利略，并非因为他们需要更精确的航海图，而是因为他们想要一位宫廷哲学家。科学最初是富人的“玩物”，其资助理由与艺术和音乐无异：赞助人认为它很美。但我们现在不再以此谋生。美国国家艺术基金会的年度预算约为2亿美元；而美国国立卫生研究院（NIH）和国家科学基金会（NSF）的总预算则超过500亿美元。社会资助科学的水平是艺术的250倍，并非因为它认为理解是美丽的。理解带来的温暖感受是科学家的私人奖励，而非社会为此买单的理由。如果预测及其带来的好处无需理解就能实现，公众很可能对此感到满意。

然而，最近的一项研究表明，我们不应如此轻易地放弃理解。

Keyon Vafa及其同事模拟了数千万次行星轨道，并用Transformer模型对生成的序列进行了训练。该模型对未来位置的预测精度极高。但当他们微调模型以推断潜在的引力矢量时，模型却产生了无意义的结果。根据研究人员检查的数据子集不同，推断出的引力定律也各不相同。Transformer模型构建的是一系列启发式规则的拼凑，对训练集中的每个太阳系都准确无误，但它并未发现普遍的引力原理。没有这个原理，模型可以预测天空中光点的运动，却永远无法将火箭送上月球。

一个在运动皮层记录数据上训练的Transformer模型，或许能完美预测未见过的放电率，但它无法告诉我们该回路实际计算的是什么。托勒密天文学家也面临类似的问题。他们的地心说模型通过叠加本轮（epicycles），在一千年中以惊人的精度预测了行星位置。其先验是神学性的：上帝的宇宙必定以完美的圆形运动。当牛顿最终取代它时，预测精度几乎没有提高。改变的是“压缩”：一个单一的定律解释了所有轨道，也解释了苹果落地和海洋潮汐。事实上，Transformer模型甚至比托勒密更缺乏原理性；托勒密至少还有一个先验。

理解能够以单纯预测无法实现的方式进行泛化。大卫·休伯尔（David Hubel）和托尔斯滕·威塞尔（Torsten Wiesel）在V1区发现定向感受野（oriented receptive fields），这不仅仅描述了一组神经元的活动；它为我们提供了特征检测层级结构（feature detection hierarchies），这是一个可泛化到不同感觉皮层的框架，并启发了如今驱动计算机视觉的卷积神经网络。决策的漂移扩散模型（drift-diffusion models）最初源于心理物理学，最终却解释了顶内侧区（lateral intraparietal area）的单神经元递增活动。这种从一个领域到另一个领域的创造性飞跃，正是“压缩”所带来的价值。一个仅仅记忆输入-输出关系而未学习底层结构的模型，永远无法实现这种飞跃。

那么，这给我们带来了什么启示？将庞杂的数据集压缩成可携带、可教授的知识，这一步（至少目前）仍然是人类的活动。AI模型可以预测；但它们尚未学会解释。然而，Vafa等人的研究结果表明，追求理解不仅仅是科学家的虚荣心。即使在大型AI模型时代，它可能仍然是我们最重要的工作。