前瞻性偶然性解释关联学习中的行为和多巴胺信号

2026-04-21 13:39 BioGuider Nature Neuroscience 阅读 0

核心摘要： 一项发表于Nature Neuroscience的研究，通过小鼠巴甫洛夫条件反射任务，揭示了前瞻性偶然性在关联学习中的核心作用。研究发现，当额外奖励随机出现时，条件刺激诱发的多巴胺反应降低，而线索奖励则无此效应。传统模型无法解释，但时序差分学习模型通过构建时间结构内部模型成功预测了行为和神经信号。该研究为理解奖赏预测和偶然性检测提供了新框架，对计算精神病学和人工智能有重要启示。

一项发表于《自然·神经科学》（Nature Neuroscience）的研究，通过在小鼠巴甫洛夫条件反射任务中记录腹侧纹状体的多巴胺活动，揭示了前瞻性偶然性在关联学习中的核心作用。研究发现，当额外奖励以非线索方式传递时，条件刺激诱发的预期舔舐和多巴胺反应均降低；但若额外奖励有线索提示，则无此效应。这些结果与使用传统偶然性定义或新因果学习模型（ANCCR）的解释相悖，但可以被配备适当间隔间状态表征的时序差分学习模型所解释。在时序差分框架内训练的循环神经网络，其发展出的状态表征与最佳的“手工制作”模型相符。该研究表明，时序差分误差可以是一个同时描述偶然性和多巴胺能活动的度量。

背景：偶然性在关联学习中的关键作用

关联学习依赖于偶然性，即一个刺激预测一个结果的程度。尽管其重要性不言而喻，但将偶然性与行为联系起来的神经机制仍不清楚。在巴甫洛夫条件反射中，当条件刺激（CS）可靠预测非条件刺激（US）时，动物会习得条件反应；而当US在CS不存在时也经常出现，CS对US的预测性降低，条件反应也会减弱。腹侧纹状体中的多巴胺信号被认为编码时序差分误差，即实际奖励与预期奖励之差，但该信号如何响应偶然性变化尚不明确。

关键发现

1. 行为与多巴胺信号对偶然性降解的选择性反应

小鼠执行听觉巴甫洛夫条件反射任务（CS+预测奖励，CS-不预测）。在“偶然性降解”阶段，CS+仍预测奖励，但额外奖励以固定间隔随机插入（无预测刺激）。在“线索奖励”对照组，额外奖励由另一个CS（CS2）预测。
关键结果：在降解组中，CS+诱发的预期舔舐行为显著减少，且腹侧纹状体中多巴胺（DA）对CS+的反应也显著降低。而在线索奖励组中，CS+诱发的行为和DA反应保持不变。
对非预测奖励本身的DA反应：降解组中非预测奖励诱发的DA反应显著高于线索奖励组中CS2预测的奖励。这符合时序差分误差预测：当奖励更“意外”时，DA反应更大。

2. 传统偶然性理论无法解释结果

Rescorla-Wagner模型（依赖于US与CS的关联强度）和传统偶然性度量（ΔP = P(US|CS) – P(US|no CS)）无法区分降解组和线索奖励组（两组的ΔP相同）。
ANCCR模型（考虑US和CS之间的时间连续性）同样无法解释两组的行为和DA差异。

3. 时序差分学习模型成功解释数据

关键模型改进：在标准时序差分模型中，加入对“试验间隔”（ITI）的精细状态表征。该模型假设动物在ITI期间会经历一系列内部状态（“等待”状态→“前”状态），这些状态的转换概率反映了对US何时出现的预期。
预测成功：该“信念状态”模型成功预测了降解组中CS+反应的降低（因为US在ITI期间随机出现，导致对CS+预测价值的“稀释”），以及线索奖励组中CS+反应的保持（因为CS2预测了ITI期间的US，因此不影响CS+的预测关系）。
模型定量拟合：信念状态模型对DA反应数据的拟合优度（R²=0.81）显著优于其他模型（如CSC-ITI模型R²=0.31）。

4. 循环神经网络模型验证

训练循环神经网络执行相同的任务，以时序差分误差作为学习信号。网络的隐藏单元活动自发发展出类似于信念状态模型中“等待”和“前”状态的状态表征。这些循环神经网络模型的行为和DA预测与信念状态模型高度一致。

机制模型与意义

模型：动物大脑（特别是腹侧纹状体多巴胺系统）并非简单计算US与CS之间的相关性（ΔP），而是构建一个关于环境时间结构的内部模型（信念状态）。该模型包含对US在时间上何时出现的预期（即“前瞻性偶然性”）。在偶然性降解条件下，US在ITI期间随机出现，导致对CS+预测价值的“稀释”，因为动物预期US可能在任何时候出现，从而降低了CS+的信息价值。这一过程通过时序差分学习规则实现，其中多巴胺信号反映的是预期值的变化（时序差分误差），而非简单的相关性。

核心概念突破：

前瞻性偶然性：首次将多巴胺信号与“前瞻性”偶然性（即对US何时出现的预期）而非“回顾性”相关性（ΔP）联系起来。
状态空间构建：强调大脑在ITI期间构建内部状态（“等待”状态）以编码对US发生时间的预期，这对理解工作记忆和时序处理具有重要意义。
统一框架：证明时序差分误差可以同时解释行为、多巴胺信号和偶然性效应，为强化学习理论提供了强有力的实验支持。

临床与研究意义

计算精神病学：许多精神疾病（如成瘾、抑郁症）涉及奖赏预测和偶然性检测的异常。本研究提供的计算框架可用于解析这些疾病中多巴胺系统功能失调的具体机制（例如，是状态表征构建缺陷，还是时序差分学习率异常）。

强化学习与人工智能：研究为在人工代理中实现更高效的探索-利用平衡提供了生物学启示——智能体应构建关于环境时间结构的内部模型，而不仅仅是计算相关性。

研究局限与未来方向

局限：研究主要使用多巴胺轴突末梢的钙成像，无法区分多巴胺神经元亚群（如投射至伏隔核不同亚区的亚群）；信念状态模型中的“等待”状态转换概率是固定的，未来可研究其是否受学习调节。
未来：结合光遗传学，在特定时间点（如ITI期间）人为操纵“信念状态”，测试是否能改变CS+的预测值；在更复杂的任务（如多步决策）中验证该框架；使用电生理记录直接检测假设的“等待”状态神经元。

专家点评

BioGuider特邀评论员、计算神经科学家张明（音译）教授评论：“这项研究的核心理论贡献在于将偶然性操作化定义为对结果何时发生的预期（前瞻性），而非简单的相关性（回顾性）。它成功解释了为何传统关联学习理论（如Rescorla-Wagner）无法区分降解和线索奖励条件，而时序差分模型可以。这提示我们，大脑并非被动记录世界，而是主动构建关于世界如何随时间展开的内部模型。对腹侧纹状体多巴胺信号的精确记录为该理论提供了坚实的实验基础。”

文献来源：
Qian, L., Burrell, M., Hennig, J.A. et al. Prospective contingency explains behavior and dopamine signals during associative learning. Nat Neurosci 28, 1280–1292 (2025). https://doi.org/10.1038/s41593-025-01915-4

数据与代码可用性：

数据与代码：figshare (https://doi.org/10.6084/m9.figshare.28216202)

TAGS: 多巴胺前瞻性偶然性关联学习时序差分学习腹侧纹状体

发表评论

上一篇：剖析优柔寡断：脑细胞如何控制人类选择行为

下一篇：通过压后皮层循环神经动力学实现空间推理