在现实生活中,我们时常会陷入一种行为模式:明知某种做法已不再有效(例如在停车场一直在一排座位周转,或固执使用一个过时的软件),却依然重复。这种被称为持续性行为(perseveration) 的现象跨越物种,但其目的和神经机制长期不明。2026年4月25日发表于 Nature Communications 的一项研究中,伦敦大学学院(UCL)的 Anastasiia Lebedeva 及同事,利用小鼠执行动态奖励学习任务,揭示了背侧前额叶皮层中的一个特定亚区——前次級运动皮层(anterior secondary motor cortex, MOs) 在持续性行为中的核心作用。他们发现,MOs中的神经元活动可预测小鼠即将做出的重复选择,并且因果性地控制持续行为的发生频率和反应速度。令人惊讶的是,当小鼠坚持旧策略时,虽然获得的总奖励较少,但反应速度更快——提示持续行为可能是一种以“准确性”换取“速度”的决策策略。这一发现为理解强迫症、成瘾和某些自闭症谱系中的刻板行为提供了新的神经环路靶点。
研究亮点速览
-
行为范式:小鼠在听觉“出发”(go tone)提示后,需向左或向右转动滚轮。左右选择的奖励概率会不定期切换(例如,左80%奖励、右20%奖励;随后切换)。
-
核心行为观察:小鼠表现出持续性行为——在奖励概率切换后,仍坚持先前的优势选择,导致获得次优奖励(约60-70%正确率,而非理论最优的100%)。但持续性行为伴随更快的反应时间(相比切换选择的试次)。
-
神经关联:使用Neuropixels高密度硅探针同时记录多个脑区。发现前MOs是唯一持续编码“过去选择”(即坚持变量)并预测快速反应时间的脑区。其他前额叶亚区的编码很弱或不存在。
-
因果证明:在选择期光遗传抑制MOs活动,可减少持续性行为并显著增加反应时间(即消除了“持续-快速”的关联)。
-
功能分离:在选择期抑制内侧前额叶皮层(mPFC)不影响持续行为,但在奖励反馈期抑制mPFC则会损害学习(降低对奖励概率变化的适应)。
行为范式与持续性行为定量
任务结构:
-
小鼠听到一个短暂的声音提示(go cue)。
-
必须在2秒内选择向左或向右转动一个轮式操纵杆。
-
每次选择后,有1秒的奖励反馈期(水和声音提示)。
-
左右选择的奖励概率(例如左80%得水,右20%)在60-90次试次后突然切换。
-
小鼠需要通过整合反馈来推断新的最优选择。
持续性行为的定义:在奖励概率切换后,小鼠仍然坚持原来的优势选择(例如继续选左边,尽管左边的奖励概率已降至20%)。
行为发现(图1,原文扩展数据):
-
小鼠不是最优决策者:它们在切换后仍会坚持过去的选择,实际获得的正确率约为60-70%(理论最优可达100%)。
-
持续性选择伴随速度优势:选择与前一试次相同(即坚持)时,反应时间显著短于选择与前一试次不同(即切换)时。
-
持续性并非“非理性”:从收益上看,坚持策略在切换后的早期虽然奖励较少,但速度加快可能意味着降低了决策时间成本,或反映了探索-利用之间的折衷。
神经编码:前MOs是“坚持信号”的核心来源
研究者将Neuropixels 硅探针插入多个前额叶亚区,包括:
-
MOs(次级运动皮层,前部)
-
MOs (尾部)
-
PL(前边缘皮层,啮齿类内侧前额叶的一部分)
-
IL(下边缘皮层)
关键发现(图2-3):
-
在 MOs 的前部,有大量神经元的活动在选择期间显著编码“是否与上一试次选择相同”(即持续性变量)。这些神经元可以预测小鼠即将做出的选择(坚持或切换)。
-
其中一部分神经元还编码反应时间:活动越强,反应越快——且这一相关性仅存在于坚持试次中,不存在于切换试次中。
-
在其他前额叶亚区(PL、IL、mPFC其他区),这种持续性编码非常微弱或者不存在。
-
动态时间进程:在奖励反馈期,MOs的活动不携带持续性信号;但在下一个试次开始后(听觉提示前),持续性信号重新出现。
结论:MOs专门在“决策前/决策中”阶段整合过去选择的历史信息,并生成一个“坚持/切换”的决策变量,进而影响行为。
因果操控:MOs驱动持续性行为
光遗传抑制(图4):
-
在选择期(从听觉提示到动作完成),通过病毒表达抑制性视蛋白(eNpHR3.0或ArchT)特异性抑制MOs中的神经元。
-
结果:
-
小鼠的持续性行为显著减少:在奖励概率切换后,它们更早、更频繁地切换到新的最优选择。
-
反应时间差异消失:原本“坚持 > 快速”的现象被消除——抑制MOs后,坚持试次不再比切换试次快。
-
整体奖励获得增加(因更快适应环境变化)。
-
对照组:抑制MOs的尾部(相邻但不同亚区)无行为效果。表明前MOs的功能是特异的。
功能分离:mPFC负责学习,而非持续执行
另一个关键发现(图5):
-
在选择期光遗传抑制内侧前额叶皮层(mPFC,包括PL和IL):对持续性行为、反应时间、奖励概率切换的学习速度均无影响。
-
但在奖励反馈期(即获得结果后的1秒内)抑制mPFC:小鼠无法有效学习新的奖励概率——它们在切换后坚持旧选择的时间更长,总体正确率降低。
双系统模型:
| 脑区 | 参与时间窗口 | 功能角色 |
|---|---|---|
| 前MOs | 选择期(决策执行前/中) | 驱动持续性行为,介导“过去选择→当前选择”的惯性 |
| mPFC | 反馈期(结果评估后) | 从奖励反馈中学习,更新行为策略 |
这个分离解释了为什么在某些精神疾病中,患者可以“知道”规则变了(mPFC功能可能正常),但仍然无法停止旧行为(MOs过度活跃),或者相反:无法从错误中学习(mPFC功能障碍),但仍然机械地坚持。
理解持续性行为:一种“适应不良的适应策略”?
研究者提出一个重要的理论观点:持续性行为可能不是纯粹的决策错误,而是一种以速度换取精确性的策略。
-
代价:更低的奖励获得率(不最大化收益)。
-
收益:更快的反应时间(在自然环境中可能至关重要,例如逃避捕食者时需要快速决策,而非最优决策)。
-
神经机制:MOs编码了一个“惯性项”——类似于强化学习中的 “坚持不懈”参数(perseveration parameter)。在动态环境中,适度的坚持可以保持行为一致性,避免过度探索;但在快速环境变化下,过度的坚持则变成病理性(如强迫症)。
本研究为“坚持”这种常见但复杂的决策偏差提供了一个清晰的神经环路模型:MOs代表过去选择的惯性,mPFC代表对未来的学习,两者的不平衡可能导致刻板行为。
临床相关性:从强迫症到成瘾
-
强迫症(OCD):核心症状之一是反复进行相同的行为(如洗手、检查门锁),即使明知没有必要。本研究的MOs可能是强迫性行为的候选驱动脑区,尤其是在逻辑上“知道规则变了”但无法停止的情况下。
-
物质成瘾:成瘾者常常在明知负面后果的情况下仍重复寻求药物的行为。mPFC的学习功能障碍与MOs的过度惯性可能共同作用。
-
自闭症谱系:部分患者表现出刻板的、重复的运动行为。MOs可能是治疗靶点。
治疗启示:
-
深部脑刺激:针对MOs的抑制性刺激可能减少病理性重复行为。
-
闭环神经调控:在检测到“坚持错误选择”的神经特征时,实时抑制MOs。
-
认知行为疗法:可能通过训练前额叶学习系统来间接抑制MOs的惯性。
方法学亮点
| 技术 | 应用 |
|---|---|
| Neuropixels 高密度探针 | 同时记录多个前额叶亚区的数百个神经元,区分空间上邻近但功能不同的区域 |
| 动态奖励学习任务 | 定量化持续性行为(坚持概率)及反应时间优势 |
| 光遗传学(eNpHR3.0/ArchT) | 时空特异性抑制MOs或mPFC,区分选择期与反馈期 |
| 计算机化行为控制 | 精确控制奖励概率切换,试次间时间结构标准 |
作者与资助
-
通讯作者:K.D. Harris(UCL神经病学研究所、Sainsbury Wellcome Centre)
-
共同监督:K. Miller(UCL、Google DeepMind)
-
第一作者:A. Lebedeva(UCL Sainsbury Wellcome Centre)
-
核心资助:Wellcome Trust(223144, 205093)、ERC(694401)
论文信息
原文标题:Dorsal prefrontal cortex drives perseverative behavior in mice
作者:Lebedeva, A., Wang, Y., Funnell, L. et al.
期刊:Nature Communications (2026)
DOI:10.1038/s41467-026-71664-w
开放获取:CC BY 4.0
BIOGUIDER.COM 编辑按:
这篇论文在决策神经环路领域有两项重要贡献:第一,它将持续性行为从一个“描述性偏差”上升到了一个由特定皮层亚区(前MOs)因果控制的、具有适应性后果(速度-准确性权衡)的可量化过程。第二,它在功能上分离了“执行惯性”(MOs,选择期)与“学习更新”(mPFC,反馈期),为理解强迫性/刻板行为的异质性提供了神经基础。对于从事决策、精神疾病动物模型或神经调控的研究者,本文提供的任务设计和记录/操控策略具有直接的借鉴价值。一个亟需回答的问题是:MOs的持续性信号是来自局部的循环网络(持续的活动模式),还是来自与丘脑或基底节的交互?寻找这些突触输入来源可能为治疗干预提供更上游的靶点。
专业术语快速索引
-
持续性行为 (Perseveration):重复过去的选择,即使它已不是最优策略。
-
前次级运动皮层 (anterior MOs):背侧前额叶皮层的一个亚区,本研究中驱动持续性行为。
-
Neuropixels:高密度硅探针,可同时记录数百个神经元的放电。
-
光遗传学:用光控制特定神经元群体的活动(此处用于抑制)。
-
内侧前额叶皮层 (mPFC):在反馈期负责从奖励中学习,而非驱动持续性。
-