多巴胺回路“硬编码”奖赏学习算法

多巴胺神经元在学习过程中扮演着核心角色，它们通过记录“惊喜”来指导大脑更新对未来的预期。当实际体验超出预期时，多巴胺神经元的活动会激增；而当结果令人失望时，它们的活动则会沉寂。这种“预测误差”机制是长期以来被广泛接受的模型，解释了大脑和人工智能系统如何从经验中学习。

然而，哈佛大学分子与细胞生物学教授Naoshige Uchida指出，由于多巴胺神经元接收来自多个来源的输入，计算这种预测误差的精确回路机制一直是个谜团。

最近，Uchida教授及其团队在今年的计算与系统神经科学（COSYNE）年会上展示了其尚未发表的小鼠研究数据，并在2025年10月预印本平台bioRxiv上发布了一篇预印本。他们的研究揭示，一个仅由两种神经元组成的回路是这一计算的核心：腹侧被盖区（VTA）的多巴胺神经元根据来自纹状体D1型中棘神经元（D1 MSNs）的输入来计算误差。

这一发现挑战了传统观念。阿拉巴马大学伯明翰分校心理学助理教授Kauê Costa（未参与此项研究）表示，这项结果表明“奖赏学习不一定涉及更高阶的计算”。他补充道：“传统的观点认为，这类计算会涉及更高阶的脑区。”

普林斯顿大学计算与理论神经科学教授Nathaniel Daw（未参与此项研究）则认为，这项研究进一步巩固了近年来备受审视的“奖赏预测误差模型”。他惊叹于该模型在预测神经元反应方面的强大解释力，并称赞这项研究“非常出色”，是“漫长道路上的一个重要里程碑”。

研究发现，在经过经典条件反射训练的小鼠中，D1型中棘神经元对预测奖赏的气味反应会随时间增强，这与经典训练小鼠的普遍情况一致。Uchida教授解释说，这些D1型中棘神经元与多巴胺神经元因此形成了计算预测误差所需的“最小回路”。

为了探究这一回路的工作机制，研究人员对伏隔核中的D1型中棘神经元胞体进行了光遗传学刺激。结果显示，这种刺激引发了多巴胺神经元的一阵活动爆发，随后是延迟的抑制。Uchida教授指出，由于抑制紧随爆发之后，多巴胺神经元有效地将“刚刚发生的事情”从“正在发生的事情”中减去，从而近似地计算出所谓的“时间差（Temporal-Difference, TD）信号”。

Uchida教授坦言：“这确实出乎意料。”他解释说：“我们刺激的神经元是抑制性的，它们直接连接到多巴胺神经元。但这与纹状体输入转化为TD误差的设想完美契合。”TD误差是一种奖赏预测误差，它是驱动时间差学习的数学信号。时间差学习是一种机器学习算法，它持续比较预期和实际奖赏，并能准确预测多巴胺神经元的反应。

更令人惊讶的是，在未接受气味条件反射或光遗传学刺激的“天真”动物中，当它们接收到来自D1型中棘神经元的模式化输入时，多巴胺神经元也表现出TD误差样反应。Uchida教授认为，这一观察结果表明，计算TD误差的能力甚至在任何学习发生之前就已经“硬编码”在回路中。

这些反应的时间特性也可能解释了为什么即时奖赏比延迟奖赏更具吸引力，这种现象被称为“时间折扣”。研究结果提示，该回路中兴奋性和抑制性输入的相对强度可能有效地决定了动物愿意为未来奖赏等待多久，从而导致个体在冲动性方面的差异。

然而，Uchida教授也强调，TD误差只是学习的一部分。“奖赏学习由其他不同的机制支持。我们并非声称所有奖赏学习都完全依赖于TD学习，甚至多巴胺。”

尽管如此，Namboodiri补充道，这项新研究的价值在于它揭示了“这种[时间差]计算的回路基础涉及外侧伏隔核内的D1 MSNs[中棘神经元]和多巴胺神经元”。

Nathaniel Daw教授指出，大脑最初如何确定奖赏的价值仍然不清楚。此外，多巴胺神经元的误差信号会传递到何处，以及不同脑区如何利用这些信号，也仍是未解之谜。

Kauê Costa教授也提出，这些发现在自然行为环境中对小鼠的适用性尚不完全明确。尽管研究人员观察了气味条件反射后小鼠面部表情的变化，但Costa认为，如果能证明光遗传学刺激确实改变了小鼠的选择，将更有力地支持D1型中棘神经元-多巴胺神经元回路是计算TD误差所需的最小回路这一论断。他补充说，尽管研究人员成功地仔细分离了回路，但小鼠在实验过程中仍处于清醒状态，这表明其他脑区可能仍在发挥作用。

Uchida教授总结道，TD误差并非大脑如何从奖赏中学习的全部故事，其他脑区也可能参与基于奖赏的学习。但他依然强调，TD误差“是宏大图景中重要的一部分”。