经典斯特鲁普测试揭示大语言模型注意力机制的根本性缺陷:执行控制能力随序
一项发表于《PNAS Nexus》的研究通过经典心理学“斯特鲁普任务”(颜色词与墨色不匹配)系统评估了GPT-5、Claude Opus 4.1和Gemini 2.5等前沿大语言模型(LLM)的执行控制能力。结果显示,虽然模型在短列表(5个词)中表现良好(如GPT-4o准确率达91%),但随着列表长度增加,其准确率急剧下降:GPT-4o在40个词时降至15%,Claude 3.5 Sonnet降至24%。在混合条件(匹配与不匹配词混杂)下,模型对不匹配项的准确率甚至趋近于0%。研究者指出,这种性能崩溃源于...




