多巴胺(Dopamine)长期以来被认为是强化学习(Reinforcement Learning)机制的核心神经递质,经典理论认为其神经元活动主要编码奖励预测误差(Reward Prediction Error, RPE),即预期奖励与实际获得奖励之间的差异,从而驱动大脑对环境的预测更新。
然而,近期发表于《自然·通讯》(Nature Communications)的一项研究对这一传统观点提出了挑战。研究团队采用高精度神经电生理记录技术,实时监测小鼠在刺激-奖励联想任务中的中脑多巴胺神经元活动。实验设计巧妙区分了“学习过程中的预测更新”与“任务执行时的行为输出”,以探究多巴胺信号的本质。
研究结果显示,多巴胺神经元的放电模式与小鼠的行为表现(如成功率和反应速度)高度相关,而这种动态变化在小鼠达到学习平台期后依然持续,并与动机水平和行为执行效率密切相关。
这意味着多巴胺系统不仅参与基于误差的价值更新,更在实时调控个体行为输出方面发挥关键作用。多巴胺的释放更像是一种“表现信号”,用于优化当前动作选择和能量分配,而非仅仅记录学习过程。这一发现对理解多巴胺功能障碍相关疾病(如帕金森病、成瘾行为、精神分裂症等)具有重要临床意义,提示未来干预策略应关注多巴胺对行为表现的实时调控机制。
该研究通过严谨的实验设计和数据分析,拓展了我们对多巴胺在动机与行为控制中的复杂功能的认识,推动了神经科学界对强化学习机制的深入理解。
Journal Reference: Dopamine dynamics during stimulus-reward learning in mice can be explained by performance rather than learning. Nature Communications.