斯特鲁普任务揭示AI注意力局限：长序列信息处理成软肋

由 Suketu Patel 领导的研究团队，近期将多个主流人工智能模型置于一项经典的心理学实验——斯特鲁普任务（Stroop task）的考验之下。研究结果揭示了人工智能系统处理信息的方式与人类大脑管理注意力机制之间存在的显著差异。

斯特鲁普任务：经典的认知挑战

斯特鲁普任务是一项沿用了数十年的经典心理学测试，广泛用于研究人类的注意力、专注力及自我控制能力。

在该测试中，参与者会看到以不同颜色墨水显示的颜色词，例如“红”、“蓝”或“绿”。有时，词语的含义与墨水颜色一致，例如“红”字以红色墨水书写。而另一些时候，两者则会产生冲突，例如“红”字却以蓝色墨水呈现。

参与者被要求说出墨水的颜色，而非读出词语本身。

这听起来似乎简单，但实际上构成了一项挑战，因为对于大多数人而言，阅读文字是一种自动化的习惯。大脑必须抑制阅读词语的冲动，转而专注于识别墨水颜色。

心理学家常利用这项任务来衡量所谓的执行控制（executive control）能力，这是一组帮助人们调节注意力、抵制干扰并专注于目标的核心心理过程。

人工智能的注意力测试

研究人员旨在探究现代大型语言模型（LLMs）是否能像人类一样应对这项认知挑战。

LLMs 是支持 ChatGPT、Claude 和 Gemini 等工具的人工智能系统。它们通过海量文本数据进行训练，学习语言模式，从而生成看似与人类无异的响应。

当面对包含五个颜色词的短列表时，这些人工智能系统通常表现良好，即使词语与墨水颜色不匹配也能保持较高准确率。

然而，随着列表长度的增加，情况发生了显著变化。

以 GPT-4o 为例，在处理包含五个词的列表时，其准确率高达 91%。但当列表扩展到十个词时，准确率骤降至 57%。而当列表进一步增加至四十个词时，准确率更是跌至惊人的 15%。

Claude 3.5 Sonnet 在处理二十个词的列表时仍能保持相对稳定的性能，但随后也出现了急剧下滑，在四十个词的列表中，其准确率仅为 24%。

研究人员在 GPT-5、Claude Opus 4.1 和 Gemini 2.5 等其他模型中也观察到了类似的性能下降模式。

AI 的专注力失衡

当匹配与不匹配的颜色词同时出现在同一列表中时，这项挑战变得更加严峻。

在此条件下，人工智能模型的性能进一步恶化。在某些情况下，不匹配项目的准确率几乎降至零。

研究人员指出，这些人工智能模型难以持续遵循识别墨水颜色的指令。相反，它们越来越倾向于默认执行阅读词语本身的自动化行为。

换言之，这些系统似乎无法始终如一地抑制它们被大量训练而产生的默认反应。

人类注意力与机器注意力的根本差异

这一发现尤为引人深思，因为人类也面临着类似的认知冲突。人们通常在阅读词语方面远优于识别墨水颜色。然而，尽管存在这种偏向，大多数个体即使面对长串冲突的词语和颜色，也能保持高准确率和稳定的表现。

这项研究凸显了人类智能与人工智能之间的一个重要区别。

尽管现代人工智能系统能够展现出令人印象深刻的语言和推理能力，但其底层的注意力机制与生物大脑中的注意力过程截然不同。

人类通常能够持续专注于特定目标，同时有效过滤掉竞争性信息。研究结果表明，当任务要求越来越高时，当前的人工智能模型可能难以实现这种类型的认知控制。

研究人员认为，这些实验中观察到的性能崩溃，揭示了当前大型语言模型存在的根本性局限。虽然人工智能有时可以模仿人类行为，但其保持注意力的能力似乎与人类的运作方式大相径庭。

这些发现提醒我们，即使是最先进的人工智能系统也仍存在弱点，尤其是在任务要求它们抵制干扰并长时间专注于一系列信息时。