导语: 每天都有许多人向ChatGPT等工具寻求医疗建议、法律指导、心理洞察、教育辅导或判断真假。在某种程度上,他们知道这些大型语言模型正在模仿一种它们实际上并不具备的对世界的理解——即使它们的流畅性让人容易忘记这一点。但LLM的推理与人类判断有任何相似之处吗?还是它仅仅在生成推理的语言轮廓?一项研究比较了LLM和人类在心理学和神经科学中研究了几十年的测试中的反应,揭示了根本差异。
核心区别:人类判断 vs. 语言模型“推理”
实验1:新闻来源可信度判断
人类判断过程
当一个人遇到可疑头条时,通常会发生以下几件事:
-
事实核查:将头条与已知的世界知识核对(是否符合基本事实、过去事件或个人经验)
-
来源预期:考虑来源的历史(是否有严谨报道的历史,或以夸张或偏见著称)
-
连贯性推理:考虑该说法是否作为更广泛事件链的一部分有意义,是否可能真实发生,是否符合类似情况的通常发展方式
LLM的做法
-
不能执行上述步骤
-
其判断依据反映从语言中提取的模式(如特定词组合出现的频率和上下文)
-
不引用外部事实、先前事件或经验
关键发现
LLM通常可以匹配人类的反应,但其原因与人类推理毫无相似之处。
实验2:道德困境推理
人类道德推理
-
借鉴规范、社会期望、情感反应、以及关于伤害和公平的文化塑造的直觉
-
使用因果推理:考虑事件如何导致另一事件,为什么时机重要,如果某些事情改变会怎样
-
通过反事实想象不同情况:“如果这种情况不同会怎样?”
LLM的做法
-
可以再现这种推理的形式(提供反映关怀、义务或权利词汇的陈述)
-
基于语言模式呈现因果语言(包括“如果-那么”反事实)
-
但:模型没有想象任何事情,也没有进行任何 deliberation;它只是再现人们在这些反事实上的言语或写作模式
关键区别
结果听起来像因果推理,但其背后的过程是模式完成,而不是理解事件如何在世界上产生结果。
一致的模式:相关性 vs. 判断
| 人类 | LLM |
|---|---|
| 判断 | 关联 |
| 评估 | 预测 |
| 与世界接触 | 与词分布接触 |
| 有信念,能修正,能对照世界检查输出 | 无法知道何时“幻觉”,因为无法首先表征真理 |
| 区分可信与不可信主张(通过与世界对照) | 仅通过与先前语言模式的类比区分 |
核心概念:“Epistemia”(知识模拟错觉)
定义
当知识的模拟对观察者来说变得与知识本身无法区分时,就会出现epistemia。
产生原因
-
模型流畅,而人类读者倾向于信任流畅性
-
语言** plausibility**(合理性)被当作真理的替代品
深层危险
“危险是微妙的。主要不是模型经常犯错——人也可能犯错。更深层的问题是模型无法知道它何时在‘幻觉’,因为它首先无法表征真理。它无法形成信念、修正信念或对照世界检查其输出。简而言之,它无法做判断根本要做的事情。”
对实际应用的影响
高风险领域(法律、医学、心理学)
-
模型可以生成听起来像诊断、法律分析或道德论证的段落
-
但声音不是实质,模拟不是被模拟的事物
正确使用方式
“它们是极其强大的工具,当作为它们本来的东西使用时:语言自动化引擎,而非理解引擎。它们擅长起草、总结、重组和探索想法。但当要求它们判断时,我们无意中重新定义了判断——将其从心智与世界之间的关系转变为提示与概率分布之间的关系。”
给读者的建议
-
不要恐惧这些系统,而是寻求更清楚地理解它们能做什么和不能做什么
-
记住:流畅性不是洞察力,雄辩不是理解的证据
-
将LLM视为复杂的语言工具,需要人类监督,因为它们恰恰缺乏判断最终所依赖的领域:世界本身
研究状态
-
该研究尚未在同行评审期刊上发表(作为观点文章发表于《科学美国人》的“Mind Matters”专栏)
-
作者:一位研究人类判断和信息动力学的研究者及其同事
结语
这项研究通过将LLM与人类在可信度判断和道德推理等经典心理学测试中的表现进行头对头比较,揭示了根本差异:人类通过与世界接触、因果推理和反事实想象进行判断;LLM则通过检测语言模式进行关联和预测,其“推理”只是模式完成,而非理解。作者引入“epistemia”概念描述当知识模拟与知识本身无法区分时的危险状态。在高风险领域(医学、法律),依赖LLM的判断可能产生严重后果,因为模型无法知道何时在幻觉。LLM应作为语言自动化工具使用,而非判断引擎。