导语: AI聊天机器人真的理解世界,还是仅仅在重复文本?一项新研究表明,AI模型会发展出一种对现实世界约束的数学“理解”。通过使用机械可解释性(本质上就是AI的神经科学),研究人员发现模型会生成不同的内部“大脑状态”,将事件分类为常见、不太可能、不可能或荒谬。这些内部地图不仅镜像物理现实,还准确反映了人类对模糊场景的不确定性。该研究将在国际学习表征会议上发表。
研究背景:AI是否理解世界?
问题
-
AI聊天机器人通过“吞噬”大量互联网文本学习(包含事实、虚假信息、知识和无意义内容)
-
鉴于这种输入,AI语言模型是否对真实世界有“理解”?
本研究目标
-
检验AI语言模型是否能区分:
-
常见 vs 不太可能 vs 不可能 vs 荒谬的事件
-
研究方法:机械可解释性
定义
“机械可解释性可以恰当地描述为AI系统的神经科学。它试图反向工程模型在暴露于特定输入时在做什么。你可以把它理解为理解机器的‘大脑状态’中编码了什么。”
— Michael Lepori,布朗大学博士候选人,研究负责人
实验设计
-
输入句子:描述不同可能性的事件
-
常见:“有人用冰冷却饮料”
-
不太可能:“有人用雪冷却饮料”
-
不可能:“有人用火冷却饮料”
-
荒谬:“有人用昨天冷却饮料”
-
-
方法:检查每个输入在AI模型内部生成的数学状态(“大脑状态”)
-
比较:通过比较不同类别句子对生成的“大脑状态”差异,判断模型内部是否能区分这些类别
测试模型
-
多个开源语言模型(OpenAI的GPT 2、Meta的Llama 3.2、Google的Gemma 2),以获得“模型无关”的结论
核心发现
1. 足够大的模型发展出独特的数学模式(向量)
-
模型大小阈值:约20亿参数(与现代万亿参数模型相比相对较小)
-
这些向量与每个合理性类别强相关
-
向量能以约85%的准确率区分最相似的类别(如“不太可能” vs “不可能”)
2. 模型捕捉人类不确定性
“我们展示的是,模型实际上相当好地捕捉了人类的不确定性。在例如50%的人说某陈述不可能、50%的人说不太可能的情况下,模型也分配了大约50%的概率。”
— Michael Lepori
-
例:“有人用帽子清洁地板”——人类可能对它是“不可能”还是“不太可能”有分歧
-
模型的内部概率分配反映了这种分歧
3. 理解的基础:因果约束
“这项工作揭示了语言模型已经编码了某种类似于真实世界因果约束的证据。它们不仅编码这些约束,而且以预测人类对这些类别的判断的方式这样做。”
— Michael Lepori
理解的含义
AI的“理解”是什么?
-
通过“吞噬” 大量文本,AI模型有效地反向工程了物理世界的因果约束
-
它知道现实世界的“规则”,但这不意味着它有感觉或意识
阈值效应
-
这些内部向量开始出现在超过20亿参数的模型中
-
与今天的万亿参数模型相比,这是相当小的规模
常见问题解答
Q:计算机从未出过门,如何知道什么是“不可能”?
A:通过大量接触人类语言,AI识别因果关系模式。它了解到“用冰冷却饮料”出现在逻辑、频繁的上下文中,而“用火冷却饮料”只出现在描述错误或虚构的上下文中。这项研究证明,AI将这些差异存储为不同的数学类别。
Q:什么是“机械可解释性”?
A:可以把它想象成数字MRI。不是只看AI的最终答案,而是观察模型内部数百万个数学“神经元”的激发。通过观察这些内部状态,研究人员可以在AI输出任何响应之前,确切地看到它是如何对句子进行分类的。
Q:这是否意味着AI正在变得有感知力?
A:不一定。这意味着AI正在建立我们世界的高度准确的“内部地图”以更好地预测语言。它有“理解”,在它知道我们现实规则的程度上,但这不意味着它有感觉或意识。
研究信息
-
会议:国际学习表征会议(2026年4月25日,巴西里约热内卢)
-
作者:Kevin Stacey(布朗大学)
-
研究负责人:Michael Lepori(布朗大学博士候选人)
-
顾问:Ellie Pavlick(计算机科学教授),Thomas Serre(认知与心理科学教授),均为布朗大学卡尼脑科学研究所教职员
结语
这项研究发现,足够大的AI语言模型(>20亿参数)通过机械可解释性分析,发展出与事件合理性类别(常见、不太可能、不可能、荒谬)强相关的独特数学向量,能以约85%的准确率区分最相似的类别。这些内部向量不仅镜像物理现实的因果约束,还准确反映了人类对模糊场景的不确定性(如当人类50/50分歧时,模型也分配约50%的概率)。这表明AI模型通过“吞噬”大量文本,有效地反向工程了现实世界的规则,发展出类似于“理解”的内部世界模型。