一项发表于《科学美国人》的研究通过将大型语言模型与人类在经典心理学判断测试中进行对比,揭示了二者在推理方式上的根本差异。研究发现,大型语言模型常常能得出与人类相似的答案,但其背后的“原因”却截然不同——人类是基于对世界的接触、事实知识和因果推理进行判断,而大型语言模型只是在进行语言模式的统计性匹配与完成。
当你走进医生的诊室时,你默认了一个基本到无需言说的假设:这位医生曾亲手接触过身体。他们解剖过标本,亲眼见过器官,并通过多年的实践和训练积累了知识。现在想象一下,你发现这位医生从未接触过身体,仅仅阅读了数百万份病历,精细地学会了诊断通常“听起来”是什么样。他们的解释可能仍然令人信服,甚至感到安心。但一旦你得知他们的知识实际上基于什么——文本中的模式,而非对世界的接触——某种本质的东西就会瓦解。
每天,无数人向大型语言模型寻求医疗建议、法律指导、心理洞察、教育辅导或关于真假的判断。在某种程度上,他们知道这些模型只是在模仿一种它们并不真正具备的对世界的理解——即使它们的流畅表达容易让人忘记这一点。
大型语言模型与人类判断的根本差异
为了探究大型语言模型的推理是否像人类判断,或者仅仅是生成了推理的语言轮廓,研究人员进行了一系列实验。在一项实验中,研究者向50个人和6个大型语言模型展示了各种新闻来源,并要求他们评价每个来源的可信度并证明其评级合理。
过去的研究表明,当一个人看到一个有问题的标题时,通常会经历几个步骤:首先,根据已知的世界知识判断标题是否符合基本事实、过去事件或个人经验;其次,考虑对来源的期望,例如它是否有可靠报道的历史;第三,考虑这个说法作为更广泛事件链的一部分是否有意义。然而,大型语言模型无法执行这些步骤。即使模型得出的结论与人类相似,它们的理由也始终反映的是从语言中习得的模式(例如特定词语组合出现的频率和语境),而非人类所考虑的外部事实、先前事件或经验。
道德推理与因果关系的缺失
在其他实验中,研究人员比较了人类和大型语言模型围绕道德困境的推理。当人类思考道德时,他们会运用规范、社会期望、情绪反应以及关于伤害和公平的文化直觉。例如,人们在评估道德时通常使用因果推理:考虑一个事件如何导致另一个事件,为什么时机很重要,如果沿途某件事发生了变化,事情可能会有什么不同。
研究发现,语言模型可以相当好地重现这种推理形式。它会提供模仿关怀、责任或权利词汇的陈述,并基于语言中的模式呈现“如果-那么”反事实的因果语言。但重要的是,模型并没有在想象任何事情或进行任何推理,它只是在重现人们关于这些反事实的言语或写作模式。结果听起来像是因果推理,但其背后的过程是模式完成,而不是对事件如何在世界中产生结果的理解。
“知识模拟”的风险与正确使用
在所有研究的任务中,出现了一个一致的模式:大型语言模型常常能匹配人类的反应,但其原因与人类推理毫无相似之处。人类判断的地方,模型在关联;人类评估的地方,模型在预测;人类与世界互动的地方,模型与词语的分布互动。它们的架构使它们非常擅长重现文本中的模式,但这并不能让它们接触到这些词语所指涉的世界。
然而,由于人类的判断也是通过语言表达的,模型的答案往往在表面上与人类答案相似。这种模型似乎在做的事情与它们实际在做的事情之间的差距被称为“知识模拟”:当知识的模拟对观察者来说变得与知识本身无法区分时。这是一个人们在解释这些模型时出现的错误,即语言的流畅性被视为真理的替代品。
人们已经在法律、医学和心理学等必须区分“似是而非”与“真实”的背景下使用这些系统。一个模型可以生成一段听起来像诊断、法律分析或道德论证的文字。但声音不是实质,模拟不是被模拟的事物。这并不意味着大型语言模型应该被拒绝。当它们被用作“语言自动化引擎”(而非“理解引擎”)时,是非常强大的工具。它们擅长起草、总结、重组和探索想法。但当要求它们做出判断时,我们无意中重新定义了判断——将其从“心智与世界之间的关系”转变为“提示与概率分布之间的关系”。
参考文献
本研究发表于《科学美国人》“Mind Matters”专栏。研究者通过将大型语言模型与人类在新闻可信度评价、道德困境推理等经典心理学测试中的表现进行对比,揭示了二者在判断机制上的根本差异。研究团队包括人类判断与信息动力学领域的科学家。文中提出的“知识模拟”(epistemia)概念,用于描述观察者难以区分知识与其语言模拟的现象。