
在科学史的大部分时间里,预测与理解一直是同一枚硬币的两面。艾伦·霍奇金(Alan Hodgkin)和安德鲁·赫胥黎(Andrew Huxley)仅用四个变量和少量参数就描绘了动作电位。他们的方程不仅准确预测了动作电位波形,更重要的是,它们解释了其机制:快速的钠离子内流和缓慢的钾离子外流相互作用,从而产生了神经冲动。预测是实用的,而理解则是优美的。在过去,两者密不可分。
然而,人工智能(AI)正在将它们拆解开来。
以AlphaFold为例,其蛋白质结构预测的准确性令人惊叹。但它并没有提供一个人类可以内化或据此进行推理的解释性模型,没有那种“恍然大悟”的时刻。AlphaFold并未增进人类的理解;它取代了本应发生理解的步骤。
神经科学正沿着同样的道路前进。例如,Claude等模型背后的Transformer架构,现在能够根据Neuropixels记录数据,精确地建模神经元群体放电序列。基础模型也开始整合大规模钙成像数据集。从Edison Scientific等初创公司到Alphabet、Anthropic和OpenAI内部的项目,越来越多的科学AI公司正竞相通过大数据实现科学发现的自动化,尤其关注那些具有商业潜力的发现。
但这些工具所提供的答案可能缺乏洞察力,其预测可能缺乏“压缩”——即将复杂现象提炼为更简单、更普遍原理的能力。没有这种提炼,我们并未比以前更好:我们过去不理解大脑,现在我们也不理解大脑的AI模型。
为了解决这一问题,一个全新的子领域——机制可解释性(mechanistic interpretability)应运而生,专门用于剖析这些模型,以发现其内部的原理。最近的一篇论文就尝试将一种机器学习模型(稀疏自编码器)应用于另一种模型(在钙成像数据上训练的Transformer),以寻找第一个模型中人类可解释的特征。这正是我们新时代的讽刺之处:我们现在需要为科学模型建立科学模型。
我们为何需要“压缩”?爱因斯坦(或许是传闻)曾说,一个好的理论应该尽可能简单,但不能过于简单。理论是对大量观察结果的简洁描述:霍奇金-赫胥黎模型将动作电位简化为四个变量;环形吸引子模型(ring attractor model)将头部方向调谐(head-direction tuning)简化为一个方程,同时解释了路径整合(path integration)。正是因为这些理论是“压缩”的,它们才能被我们理解并进行心智模拟。这种心智模拟模型的能力,正是产生“理解”感觉的源泉。AI模型没有这样的限制。它们能容纳远超人类大脑的信息,这意味着它们的内部模型可以远不那么“压缩”,对我们而言也远不那么易懂。AI不需要理解。
这引出了一个令人不安的问题:如果AI能提供准确的预测,并且这些预测能带来突破血脑屏障的药物,以及抑制癫痫发作的刺激模式,那么理解是否还有存在的必要?当然,许多人——不仅仅是科学家——都珍视理解。美第奇家族资助伽利略,并非因为他们需要更精确的航海图,而是因为他们想要一位宫廷哲学家。科学最初是富人的“玩物”,其资助理由与艺术和音乐无异:赞助人认为它很美。但我们现在不再以此谋生。美国国家艺术基金会的年度预算约为2亿美元;而美国国立卫生研究院(NIH)和国家科学基金会(NSF)的总预算则超过500亿美元。社会资助科学的水平是艺术的250倍,并非因为它认为理解是美丽的。理解带来的温暖感受是科学家的私人奖励,而非社会为此买单的理由。如果预测及其带来的好处无需理解就能实现,公众很可能对此感到满意。
然而,最近的一项研究表明,我们不应如此轻易地放弃理解。
Keyon Vafa及其同事模拟了数千万次行星轨道,并用Transformer模型对生成的序列进行了训练。该模型对未来位置的预测精度极高。但当他们微调模型以推断潜在的引力矢量时,模型却产生了无意义的结果。根据研究人员检查的数据子集不同,推断出的引力定律也各不相同。Transformer模型构建的是一系列启发式规则的拼凑,对训练集中的每个太阳系都准确无误,但它并未发现普遍的引力原理。没有这个原理,模型可以预测天空中光点的运动,却永远无法将火箭送上月球。
一个在运动皮层记录数据上训练的Transformer模型,或许能完美预测未见过的放电率,但它无法告诉我们该回路实际计算的是什么。托勒密天文学家也面临类似的问题。他们的地心说模型通过叠加本轮(epicycles),在一千年中以惊人的精度预测了行星位置。其先验是神学性的:上帝的宇宙必定以完美的圆形运动。当牛顿最终取代它时,预测精度几乎没有提高。改变的是“压缩”:一个单一的定律解释了所有轨道,也解释了苹果落地和海洋潮汐。事实上,Transformer模型甚至比托勒密更缺乏原理性;托勒密至少还有一个先验。
理解能够以单纯预测无法实现的方式进行泛化。大卫·休伯尔(David Hubel)和托尔斯滕·威塞尔(Torsten Wiesel)在V1区发现定向感受野(oriented receptive fields),这不仅仅描述了一组神经元的活动;它为我们提供了特征检测层级结构(feature detection hierarchies),这是一个可泛化到不同感觉皮层的框架,并启发了如今驱动计算机视觉的卷积神经网络。决策的漂移扩散模型(drift-diffusion models)最初源于心理物理学,最终却解释了顶内侧区(lateral intraparietal area)的单神经元递增活动。这种从一个领域到另一个领域的创造性飞跃,正是“压缩”所带来的价值。一个仅仅记忆输入-输出关系而未学习底层结构的模型,永远无法实现这种飞跃。
那么,这给我们带来了什么启示?将庞杂的数据集压缩成可携带、可教授的知识,这一步(至少目前)仍然是人类的活动。AI模型可以预测;但它们尚未学会解释。然而,Vafa等人的研究结果表明,追求理解不仅仅是科学家的虚荣心。即使在大型AI模型时代,它可能仍然是我们最重要的工作。