导语: 中脑多巴胺神经元促进强化学习和运动活力。一个悬而未决的问题是,纹状体中接收多巴胺的神经元如何解析这些异质性信号。先前的研究表明,纹状体胆碱能中间神经元可能门控多巴胺依赖的可塑性,但这尚未在行为动物中得到验证。2026年3月25日,《自然·神经科学》在线发表了一项来自纽约大学等机构的重要研究。研究者训练大鼠执行一项包含奖励相关和运动相关事件的决策任务。对背内侧纹状体中多巴胺和乙酰胆碱释放的光学测量显示,奖励线索诱发了与多巴胺不同相位关系的胆碱能暂停。当多巴胺滞后于胆碱能下降时,多巴胺预测了未来的行为和后续试次中背内侧纹状体的放电率。相反,当多巴胺先于胆碱能下降时,未观察到多巴胺与学习之间的可测量关系。最后,当多巴胺与胆碱能爆发同时发生时,它先于并预测了对侧朝向运动的活力。这些发现表明,胆碱能动态决定了多巴胺是促进活力还是学习,具体取决于即时的行为环境。
研究背景:纹状体中的信号解析问题
多巴胺的双重角色
-
强化学习:编码奖励预测误差,更新状态-动作价值
-
运动控制:影响运动起始、运动学和活力
-
单一递质,多重功能:多巴胺如何在不同情境下“知道”该做什么?
纹状体环路结构
-
背内侧纹状体:参与目标导向行为(动作-结果关联学习)
-
胆碱能中间神经元:占纹状体神经元1-3%,但具有广泛突触联系
-
已知:胆碱能中间神经元在预测奖励或惩罚的线索后出现放电暂停(tonically active neurons, TANs)
-
假设:胆碱能暂停可能通过局部调节多巴胺释放或直接作用于中型多棘神经元来门控可塑性
本研究核心问题
-
在行为过程中,乙酰胆碱和多巴胺在背内侧纹状体中如何动态交互?
-
它们的时间相位关系是否决定多巴胺是驱动学习还是运动?
核心发现之一:任务设计分离奖励预测与朝向运动(图1)
行为范式:“时间下注任务”
-
试次结构(图1a-b):
-
中央鼻 poke 起始 → 播放听觉线索(频率指示奖励量:5-80 μl)
-
固定期(~1秒) → 提前退出受惩罚
-
侧边LED亮起(指示奖励端口)→ 可变不可预测延迟(指数分布,平均2.5秒)
-
奖励线索(LED关闭)→ 大鼠可 poke 获取奖励
-
随时可“退出”(poke 另一侧端口)→ 立即开始新试次
-
-
隐藏状态:无提示的高低奖赏区块(混合区块穿插)
-
运动事件:
-
侧边LED亮起:大鼠朝向对应端口
-
退出后:大鼠转回中央端口
-
行为结果(图1c-d)
-
起始时间:高奖赏区块更快(反映环境价值)
-
等待时间:高奖赏区块更长(反映对奖赏的估值)
-
朝向运动:由任务事件触发,可量化速度和活力
核心发现之二:多巴胺和乙酰胆碱在奖励相关与运动事件中呈现不同动态(图2)
多巴胺动态(GRABDA光纤光度法)
-
奖励预测线索(听觉线索):
-
相位性多巴胺释放,与奖赏量成比例(图2d)
-
编码奖励预测误差(与先前研究一致)
-
-
奖励线索(LED关闭):
-
多巴胺释放与延迟时长成比例(图2e)
-
也编码预测误差(等待时间长→意外奖励→大RPE)
-
-
朝向运动事件(侧边LED亮起、退出):
-
对侧运动时多巴胺释放更大(图2c,f)
-
与奖赏量无关(Extended Data Fig. 10a-b)
-
乙酰胆碱动态(GRABACh光纤光度法)
-
奖励预测事件(听觉线索、奖励线索):
-
胆碱能下降(dips)(图2g)
-
-
朝向运动事件:
-
胆碱能爆发(bursts)(图2g)
-
对侧运动时更强
-
关键观察
-
多巴胺和乙酰胆碱在奖励预测事件:多巴胺上升 + 乙酰胆碱下降
-
在运动事件:多巴胺上升 + 乙酰胆碱上升(爆发)
核心发现之三:多巴胺滞后于乙酰胆碱下降时促进学习(图3)
时间相位关系
-
听觉线索(奖赏量RPE):
-
多巴胺滞后于乙酰胆碱下降 ~100 ms(图3a)
-
峰值时间差异显著(P<0.001)
-
-
奖励线索(延迟RPE):
-
多巴胺先于乙酰胆碱下降 ~50 ms(图3b)
-
峰值时间差异显著(P<0.001)
-
行为学习验证(图3c-h)
-
奖赏量RPE模型(图3c):
-
模拟大鼠的区块依赖起始时间
-
近期奖励对行为有指数衰减影响(图3d)
-
多巴胺幅度预测试次间起始时间变化(图3e,P<0.001)
-
-
延迟RPE模型(图3f-h):
-
无法解释区块依赖起始时间
-
先前延迟对起始时间无显著影响(图3g)
-
多巴胺幅度不预测试次间起始时间变化(图3h,P=0.7385)
-
结论:当多巴胺滞后于乙酰胆碱下降时,它作为奖励预测误差驱动学习;当多巴胺先于乙酰胆碱下降时,则不然。
核心发现之四:多巴胺先于乙酰胆碱下降时不促进等待学习(图4)
延迟RPE的可能学习目标
-
大鼠在延迟期间形成时间奖赏期望(等待时间越长,奖励概率越低)
-
预测:若延迟RPE更新期望,则长延迟后大鼠应等待更久
关键结果(图4f-i)
-
长延迟 vs 短延迟后:等待时间无差异(图4f)
-
回归分析:先前延迟对退出时间无显著影响(图4g)
-
延迟期间奖励端口的探索概率:长延迟后无增加(图4i)
-
相反,当前奖赏量强有力地预测等待时间(图4g)
结论:延迟RPE(多巴胺先于乙酰胆碱下降)不促进可测量的行为学习。
核心发现之五:多巴胺与胆碱能爆发同时发生时预测运动活力(图6)
时间关系
-
在侧边LED亮起和退出时:
-
多巴胺峰值与胆碱能爆发同时发生(图6a-b)
-
多巴胺峰值先于头部速度峰值 ~100 ms(图6c,e)
-
运动活力预测
-
侧边LED亮起(图6d):
-
多巴胺AUC在最快反应时四分位显著大于最慢四分位(P=0.0137)
-
-
退出事件(图6f):
-
多巴胺AUC在下一试次起始更快时显著更大
-
背内侧纹状体放电率编码运动活力(图6g-h)
-
逻辑回归解码器:基于同时记录的神经元放电率预测反应时快慢
-
17/18 sessions中分类准确率高于随机水平
结论:当多巴胺与胆碱能爆发同时发生时,它先于并预测运动活力,且背内侧纹状体神经元群体编码该信息。
核心发现之六:奖励预测误差在背内侧纹状体中诱导持续放电率变化(图5)
实验设计
-
Neuropixels慢性记录背内侧纹状体(8只大鼠)
-
使用行为代理RPE(-Δ起始时间)而非直接测量多巴胺(技术限制)
关键结果(图5c-h)
-
仅在听觉线索(奖赏量RPE)时:
-
51.6%(130/252)神经元放电率变化与RPE显著相关(图5c-e)
-
正斜率细胞(69/130)和负斜率细胞(61/130)可能分别对应D1和D2中型多棘神经元
-
-
时间特异性:效应在远离RPE的事件中减弱(图5c)
-
持续性:
-
大正RPE后,放电率变化持续至后续试次(图5h)
-
即使中间试次RPE可忽略,效应仍保持
-
结论:奖励预测误差在背内侧纹状体中诱导快速、持续的放电率变化,符合强化学习算法的假设。
综合模型:乙酰胆碱动态门控多巴胺功能
三种相位关系,三种功能结果
| 相位关系 | 事件示例 | 多巴胺功能 | 乙酰胆碱动态 | 行为结果 |
|---|---|---|---|---|
| 多巴胺滞后于乙酰胆碱下降 | 听觉线索(奖赏量) | 奖励预测误差 | 下降(暂停) | 更新环境价值,影响后续起始时间 |
| 多巴胺先于乙酰胆碱下降 | 奖励线索(延迟) | 奖励预测误差? | 下降(暂停) | 无可测量学习(可能无更新) |
| 多巴胺与乙酰胆碱爆发同时 | 朝向运动 | 运动活力预测 | 爆发 | 编码并预测运动速度,无持久可塑性 |
机制假说
-
M4受体(D1中型多棘神经元上,Gi/o偶联):被乙酰胆碱激活,抑制腺苷酸环化酶 → 对抗D1介导的cAMP上升
-
胆碱能暂停 → 解除M4抑制 → D1信号占优 → 长时程增强
-
胆碱能爆发 → 激活M4 → 抑制cAMP → 无LTP,但可能通过离子型受体快速调节兴奋性
对多巴胺理论的修正
-
多巴胺并非总是奖励预测误差
-
其功能由并发的乙酰胆碱动态决定
-
背内侧纹状体中,RPE和运动信号可在同一记录位点出现,通过时间相位分离
对神经科学和人工智能的启示
| 领域 | 启示 |
|---|---|
| 多巴胺功能 | 需要从“RPE假说”转向“上下文依赖”观点 |
| 强化学习 | 学习速率和更新可能由乙酰胆碱门控调节 |
| 帕金森病 | 多巴胺缺失 + 乙酰胆碱相对过剩 → 信号解析失败 |
| 成瘾 | 药物可能改变多巴胺-乙酰胆碱相位关系,异常门控可塑性 |
| 人工智能 | 可设计双 neuromodulator 架构,实现学习与执行的灵活切换 |
资源可及性
-
数据:Zenodo(10.5281/zenodo.17457318 等,共6个数据集)
-
代码:GitHub https://github.com/constantinoplelab/published/tree/main/DMS_AChDA
-
病毒工具:GRABDA2h、GRABrDA3m、GRABACh4.3(可通过Addgene或WZ Biosciences获取)
局限性与未来方向
-
相关性 vs 因果性:未直接操控乙酰胆碱-多巴胺相位关系(技术挑战:刺激一种会影响另一种)
-
传感器动力学:GRAB传感器的上升/下降动力学可能影响测量的相位关系(但使用不同亲和力传感器结果一致)
-
背内侧纹状体聚焦:未系统比较其他纹状体亚区(背外侧、腹侧)的相位关系
-
单一大鼠物种:结果是否推广到小鼠、非人灵长类、人类?
-
缺乏直接因果测试:需要光遗传操控乙酰胆碱中间神经元,人为“强制”相位关系,测试对学习/运动的影响
未来方向:
-
双色光遗传 + 光纤记录:在记录多巴胺和乙酰胆碱的同时,光遗传操控胆碱能中间神经元,测试能否“重设”相位关系
-
跨物种比较:在猕猴中测试类似任务,验证相位关系是否保守
-
疾病模型:在帕金森病(6-OHDA)或亨廷顿病(R6/2)模型中测试多巴胺-乙酰胆碱相位关系是否异常
-
计算模型:构建包含多巴胺和乙酰胆碱相互作用的强化学习模型,复现相位依赖的门控效应
-
人类研究:fMRI无法解析毫秒级相位关系,但可利用药理学(如毒蕈碱拮抗剂)间接测试
结语
这项研究通过同时测量背内侧纹状体中的多巴胺和乙酰胆碱释放,揭示了乙酰胆碱动态决定多巴胺功能的新原理:当多巴胺滞后于乙酰胆碱下降时,它编码奖励预测误差,驱动后续行为学习和背内侧纹状体放电率的持续变化;当多巴胺先于乙酰胆碱下降时,它不促进可测量的学习;当多巴胺与胆碱能爆发同时发生时,它先于并预测对侧朝向运动的活力。因此,多巴胺并非单一功能的信号,其作用由并发的乙酰胆碱动态“门控”。这些发现挑战了“多巴胺=RPE”的教条,为理解纹状体如何解析异质性多巴胺信号提供了新框架,并对帕金森病、成瘾和强化学习算法设计具有启示意义。
原始论文:Krok, A.C., Liu, C., Gupta, S. et al. Acetylcholine demixes heterogeneous dopamine signals for learning and moving. Nat Neurosci 29, 840–850 (2026). https://doi.org/10.1038/s41593-026-02227-x
数据和代码:https://github.com/constantinoplelab/published/tree/main/DMS_AChDA ; Zenodo 10.5281/zenodo.17457318 等