为何明知无效却“执迷不悟”？小鼠背侧前额叶皮层驱动持续性行为

2026-05-09 21:38 泉水生物行阅读 0

核心摘要： 在现实生活中我们时常会陷入一种行为模式明知某种做法已不再有效例如在停车场一直在一排座位周转或固执使用一个过时的软件却依然重复这种被称为持续性行为 perseveration 的现象跨越物种关键词：前额叶皮层、神经元

在现实生活中，我们时常会陷入一种行为模式：明知某种做法已不再有效（例如在停车场一直在一排座位周转，或固执使用一个过时的软件），却依然重复。这种被称为持续性行为（perseveration）的现象跨越物种，但其目的和神经机制长期不明。2026年4月25日发表于 Nature Communications 的一项研究中，伦敦大学学院（UCL）的 Anastasiia Lebedeva 及同事，利用小鼠执行动态奖励学习任务，揭示了背侧前额叶皮层中的一个特定亚区——前次級运动皮层（anterior secondary motor cortex, MOs）在持续性行为中的核心作用。他们发现，MOs中的神经元活动可预测小鼠即将做出的重复选择，并且因果性地控制持续行为的发生频率和反应速度。令人惊讶的是，当小鼠坚持旧策略时，虽然获得的总奖励较少，但反应速度更快——提示持续行为可能是一种以“准确性”换取“速度”的决策策略。这一发现为理解强迫症、成瘾和某些自闭症谱系中的刻板行为提供了新的神经环路靶点。

研究亮点速览

行为范式：小鼠在听觉“出发”（go tone）提示后，需向左或向右转动滚轮。左右选择的奖励概率会不定期切换（例如，左80%奖励、右20%奖励；随后切换）。
核心行为观察：小鼠表现出持续性行为——在奖励概率切换后，仍坚持先前的优势选择，导致获得次优奖励（约60-70%正确率，而非理论最优的100%）。但持续性行为伴随更快的反应时间（相比切换选择的试次）。
神经关联：使用Neuropixels高密度硅探针同时记录多个脑区。发现前MOs是唯一持续编码“过去选择”（即坚持变量）并预测快速反应时间的脑区。其他前额叶亚区的编码很弱或不存在。
因果证明：在选择期光遗传抑制MOs活动，可减少持续性行为并显著增加反应时间（即消除了“持续-快速”的关联）。
功能分离：在选择期抑制内侧前额叶皮层（mPFC）不影响持续行为，但在奖励反馈期抑制mPFC则会损害学习（降低对奖励概率变化的适应）。

行为范式与持续性行为定量

任务结构：

小鼠听到一个短暂的声音提示（go cue）。
必须在2秒内选择向左或向右转动一个轮式操纵杆。
每次选择后，有1秒的奖励反馈期（水和声音提示）。
左右选择的奖励概率（例如左80%得水，右20%）在60-90次试次后突然切换。
小鼠需要通过整合反馈来推断新的最优选择。

持续性行为的定义：在奖励概率切换后，小鼠仍然坚持原来的优势选择（例如继续选左边，尽管左边的奖励概率已降至20%）。

行为发现（图1，原文扩展数据）：

小鼠不是最优决策者：它们在切换后仍会坚持过去的选择，实际获得的正确率约为60-70%（理论最优可达100%）。
持续性选择伴随速度优势：选择与前一试次相同（即坚持）时，反应时间显著短于选择与前一试次不同（即切换）时。
持续性并非“非理性”：从收益上看，坚持策略在切换后的早期虽然奖励较少，但速度加快可能意味着降低了决策时间成本，或反映了探索-利用之间的折衷。

神经编码：前MOs是“坚持信号”的核心来源

研究者将Neuropixels 硅探针插入多个前额叶亚区，包括：

MOs（次级运动皮层，前部）
MOs (尾部)
PL（前边缘皮层，啮齿类内侧前额叶的一部分）
IL（下边缘皮层）

关键发现（图2-3）：

在 MOs 的前部，有大量神经元的活动在选择期间显著编码“是否与上一试次选择相同”（即持续性变量）。这些神经元可以预测小鼠即将做出的选择（坚持或切换）。
其中一部分神经元还编码反应时间：活动越强，反应越快——且这一相关性仅存在于坚持试次中，不存在于切换试次中。
在其他前额叶亚区（PL、IL、mPFC其他区），这种持续性编码非常微弱或者不存在。
动态时间进程：在奖励反馈期，MOs的活动不携带持续性信号；但在下一个试次开始后（听觉提示前），持续性信号重新出现。

结论：MOs专门在“决策前/决策中”阶段整合过去选择的历史信息，并生成一个“坚持/切换”的决策变量，进而影响行为。

因果操控：MOs驱动持续性行为

光遗传抑制（图4）：

在选择期（从听觉提示到动作完成），通过病毒表达抑制性视蛋白（eNpHR3.0或ArchT）特异性抑制MOs中的神经元。
结果：
- 小鼠的持续性行为显著减少：在奖励概率切换后，它们更早、更频繁地切换到新的最优选择。
- 反应时间差异消失：原本“坚持 > 快速”的现象被消除——抑制MOs后，坚持试次不再比切换试次快。
- 整体奖励获得增加（因更快适应环境变化）。

对照组：抑制MOs的尾部（相邻但不同亚区）无行为效果。表明前MOs的功能是特异的。

功能分离：mPFC负责学习，而非持续执行

另一个关键发现（图5）：

在选择期光遗传抑制内侧前额叶皮层（mPFC，包括PL和IL）：对持续性行为、反应时间、奖励概率切换的学习速度均无影响。
但在奖励反馈期（即获得结果后的1秒内）抑制mPFC：小鼠无法有效学习新的奖励概率——它们在切换后坚持旧选择的时间更长，总体正确率降低。

双系统模型：

脑区	参与时间窗口	功能角色
前MOs	选择期（决策执行前/中）	驱动持续性行为，介导“过去选择→当前选择”的惯性
mPFC	反馈期（结果评估后）	从奖励反馈中学习，更新行为策略

这个分离解释了为什么在某些精神疾病中，患者可以“知道”规则变了（mPFC功能可能正常），但仍然无法停止旧行为（MOs过度活跃），或者相反：无法从错误中学习（mPFC功能障碍），但仍然机械地坚持。

理解持续性行为：一种“适应不良的适应策略”？

研究者提出一个重要的理论观点：持续性行为可能不是纯粹的决策错误，而是一种以速度换取精确性的策略。

代价：更低的奖励获得率（不最大化收益）。
收益：更快的反应时间（在自然环境中可能至关重要，例如逃避捕食者时需要快速决策，而非最优决策）。
神经机制：MOs编码了一个“惯性项”——类似于强化学习中的 “坚持不懈”参数（perseveration parameter）。在动态环境中，适度的坚持可以保持行为一致性，避免过度探索；但在快速环境变化下，过度的坚持则变成病理性（如强迫症）。

本研究为“坚持”这种常见但复杂的决策偏差提供了一个清晰的神经环路模型：MOs代表过去选择的惯性，mPFC代表对未来的学习，两者的不平衡可能导致刻板行为。

临床相关性：从强迫症到成瘾

强迫症（OCD）：核心症状之一是反复进行相同的行为（如洗手、检查门锁），即使明知没有必要。本研究的MOs可能是强迫性行为的候选驱动脑区，尤其是在逻辑上“知道规则变了”但无法停止的情况下。
物质成瘾：成瘾者常常在明知负面后果的情况下仍重复寻求药物的行为。mPFC的学习功能障碍与MOs的过度惯性可能共同作用。
自闭症谱系：部分患者表现出刻板的、重复的运动行为。MOs可能是治疗靶点。

治疗启示：

深部脑刺激：针对MOs的抑制性刺激可能减少病理性重复行为。
闭环神经调控：在检测到“坚持错误选择”的神经特征时，实时抑制MOs。
认知行为疗法：可能通过训练前额叶学习系统来间接抑制MOs的惯性。

方法学亮点

技术	应用
Neuropixels 高密度探针	同时记录多个前额叶亚区的数百个神经元，区分空间上邻近但功能不同的区域
动态奖励学习任务	定量化持续性行为（坚持概率）及反应时间优势
光遗传学（eNpHR3.0/ArchT）	时空特异性抑制MOs或mPFC，区分选择期与反馈期
计算机化行为控制	精确控制奖励概率切换，试次间时间结构标准

作者与资助

通讯作者：K.D. Harris（UCL神经病学研究所、Sainsbury Wellcome Centre）
共同监督：K. Miller（UCL、Google DeepMind）
第一作者：A. Lebedeva（UCL Sainsbury Wellcome Centre）
核心资助：Wellcome Trust（223144, 205093）、ERC（694401）

论文信息

原文标题：Dorsal prefrontal cortex drives perseverative behavior in mice
作者：Lebedeva, A., Wang, Y., Funnell, L. et al.
期刊：Nature Communications (2026)
DOI：10.1038/s41467-026-71664-w
开放获取：CC BY 4.0

BIOGUIDER.COM 编辑按：
这篇论文在决策神经环路领域有两项重要贡献：第一，它将持续性行为从一个“描述性偏差”上升到了一个由特定皮层亚区（前MOs）因果控制的、具有适应性后果（速度-准确性权衡）的可量化过程。第二，它在功能上分离了“执行惯性”（MOs，选择期）与“学习更新”（mPFC，反馈期），为理解强迫性/刻板行为的异质性提供了神经基础。对于从事决策、精神疾病动物模型或神经调控的研究者，本文提供的任务设计和记录/操控策略具有直接的借鉴价值。一个亟需回答的问题是：MOs的持续性信号是来自局部的循环网络（持续的活动模式），还是来自与丘脑或基底节的交互？寻找这些突触输入来源可能为治疗干预提供更上游的靶点。

专业术语快速索引

持续性行为 (Perseveration)：重复过去的选择，即使它已不是最优策略。
前次级运动皮层 (anterior MOs)：背侧前额叶皮层的一个亚区，本研究中驱动持续性行为。
Neuropixels：高密度硅探针，可同时记录数百个神经元的放电。
光遗传学：用光控制特定神经元群体的活动（此处用于抑制）。
内侧前额叶皮层 (mPFC)：在反馈期负责从奖励中学习，而非驱动持续性。

TAGS: 神经元神经环路运动皮层性行为前额叶皮层

发表评论

上一篇：喝酒脸红的人碰了这东西会致命！

下一篇：小脑三种简洁的时空模式揭示个体的功能与行为特质