当前位置: 主页 > 神经科学 > 类脑智能与AI

AI首次通过图灵测试:73%被误认为人类

2026-05-20 21:34 Cameron Jones, Ben B Proceedings of the National Ac 阅读 0
核心摘要: 加州大学圣地亚哥分校的一项里程碑式研究首次提供了现代人工智能通过图灵测试的实证证据。在随机对照实验中,配备特定“人格”提示的GPT-4.5模型在73%的情况下被人类评判者误认为是真人

AI首次通过图灵测试:73%被误认为人类

一项具有里程碑意义的认知科学研究首次提供了确凿的实证证据,证明现代人工智能系统能够通过经典的图灵测试。这项由加州大学圣地亚哥分校主导的随机对照研究,严格遵循了英国数学家艾伦·图灵于1950年创建的评估框架,旨在检验最先进的大语言模型能否如此令人信服地模仿人类对话,以至于真实人类无法将其区分开来。

研究结果发表在《美国国家科学院院刊》上。在系列实验中,人类评判者往往无法区分真实人类与先进大语言模型。当配备特定的“人格”提示时,GPT-4.5模型在73%的情况下被评判为人类,这一比例显著高于真实人类参与者被选中的频率,从根本上改变了我们对机器智能的理解。

“我们发现,如果给予正确的提示,先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感和缺陷,”该研究的通讯作者、在加州大学圣地亚哥分校获得认知科学博士学位的Cameron Jones表示。“虽然我们知道大语言模型可以轻松生成几乎所有主题的知识,但这项测试表明,它们还能令人信服地展示社会行为特征,这对我们如何看待人工智能具有重大影响。”

在测试中,参与者同时与两方进行聊天——一方是人类,另一方是大语言模型——而人类“审讯者”必须判断哪一方是真人。在随机对照实验中,研究人员招募了两个独立的参与者群体——加州大学圣地亚哥分校的本科生和在线参与者——审讯者进行简短的基于文本的对话,然后做出判断。实验涉及四种不同的大语言模型:GPT-4.5和LLaMa-3.1-405B作为最先进模型,同时还包括GPT-4o和ELIZA(一款经典的20世纪60年代基于规则的聊天机器人)作为早期基线模型进行比较。

在四种大语言模型中,GPT-4.5被评判为人类的概率为73%,这意味着审讯者选择它为“人类”的频率显著高于选择真实人类参与者的频率。LLaMa-3.1-405B在相同提示下被评判为人类的概率为56%,与其对比的真实人类在统计上无显著差异。基线系统的表现则差得多:ELIZA和GPT-4o分别仅有约23%和21%的概率被选为人类。

76年后,图灵测试的新意义

研究还揭示,科学家需要开始以不同的方式思考图灵测试。研究合著者、加州大学圣地亚哥分校认知科学教授Ben Bergen指出:“图灵测试最初是为了询问机器能否与人类智能相抗衡。但现在我们知道,人工智能在许多问题上比人类回答得更快、更准确,所以真正的问题不在于原始脑力。看到机器能够通过测试——以及它们如何通过测试——迫使我们重新思考测试衡量的是什么。越来越明显,它衡量的是‘类人性’。”

每个大语言模型都获得了一个“人格”提示,要求其采用特定的人类角色和沟通风格。Bergen解释说,大语言模型并非通过展示知识力量获胜,而是因为它们像人类一样犯错。“这些特质并非图灵所想象的那种数学和逻辑问题解决能力。”

提示至关重要——效果显著

在没有明确指令的情况下,模型被误认为人类的概率大幅下降:GPT-4.5降至36%,LLaMa-3.1降至38%,而基线系统ELIZA(23%)和GPT-4o(21%)被选为人类的概率甚至更低。那些在获得详细角色指示时能够冒充人类的系统,在没有这种指导时无法采用类似特征——这表明,虽然模型能够以令人信服的方式表现得像人类,但它们往往需要人类告诉它们如何去做。

“它们有能力表现得像人类,但可能不太有能力弄清楚如何才能表现得像人类,”Bergen说。

为何重要:信任、欺骗与“冒牌人类”的崛起

这些结果对网络信任具有现实意义——尤其是因为能够冒充人类的模型可以在长达5分钟或15分钟的对话中持续保持这种伪装。“提示这些模型使其与人类无法区分相对容易,”Jones说,他现在是石溪大学的心理学助理教授。“我们需要更加警惕;当你在网上与陌生人互动时,人们应该对自己是在与人类而非大语言模型对话的信心大打折扣。”

他还指出了更黑暗的风险。“图灵测试对模型来说是一场关于说谎的游戏,”Jones说。“其中一个含义是,模型似乎非常擅长这一点。”Bergen补充说,无法辨别自己是在与人类还是机器人互动可能会产生严重后果。“有很多人希望利用机器人来说服人们分享他们的社会安全号码、投票给他们的政党或购买他们的产品。”

研究人员表示,他们希望这项工作能提高公众对这些系统现在能做什么的认识,以及社会可能需要什么样的保障措施。

人机面对面实时测试

为了进行这项研究,研究人员构建了一个在线界面,旨在模拟熟悉的即时通讯应用。“对于审讯者来说,他们的电脑屏幕上有一个分屏,他们向两个证人提问,”Jones说。“他们知道其中一个证人是人类,另一个是人工智能。”在5分钟(以及在另一项重复研究中为15分钟)后,审讯者必须决定哪个对话伙伴是真正的人类。为了确认结果在不同人群中是否一致,研究人员对两组参与者进行了实验:通过SONA系统招募的加州大学圣地亚哥分校本科生,以及通过Prolific平台招募的更广泛的在线样本。共有近500人参与了这些实验。加州大学圣地亚哥分校的参与者整体表现略好,可能是因为他们共享更多的“共同背景”(如共同的经历和校园细节),可以用来相互试探。


参考文献: Jones, C. R., & Bergen, B. K. Does GPT-4 pass the Turing test?. Proceedings of the National Academy of Sciences, 2025; DOI: 10.1073/pnas.2421482122
    发表评论
    下一篇:没有了