AI首次通过图灵测试：73%被误认为人类

一项具有里程碑意义的认知科学研究首次提供了确凿的实证证据，证明现代人工智能系统能够通过经典的图灵测试。这项由加州大学圣地亚哥分校主导的随机对照研究，严格遵循了英国数学家艾伦·图灵于1950年创建的评估框架，旨在检验最先进的大语言模型能否如此令人信服地模仿人类对话，以至于真实人类无法将其区分开来。

研究结果发表在《美国国家科学院院刊》上。在系列实验中，人类评判者往往无法区分真实人类与先进大语言模型。当配备特定的“人格”提示时，GPT-4.5模型在73%的情况下被评判为人类，这一比例显著高于真实人类参与者被选中的频率，从根本上改变了我们对机器智能的理解。

“我们发现，如果给予正确的提示，先进的大语言模型可以表现出与人类相同的语气、直接性、幽默感和缺陷，”该研究的通讯作者、在加州大学圣地亚哥分校获得认知科学博士学位的Cameron Jones表示。“虽然我们知道大语言模型可以轻松生成几乎所有主题的知识，但这项测试表明，它们还能令人信服地展示社会行为特征，这对我们如何看待人工智能具有重大影响。”

在测试中，参与者同时与两方进行聊天——一方是人类，另一方是大语言模型——而人类“审讯者”必须判断哪一方是真人。在随机对照实验中，研究人员招募了两个独立的参与者群体——加州大学圣地亚哥分校的本科生和在线参与者——审讯者进行简短的基于文本的对话，然后做出判断。实验涉及四种不同的大语言模型：GPT-4.5和LLaMa-3.1-405B作为最先进模型，同时还包括GPT-4o和ELIZA（一款经典的20世纪60年代基于规则的聊天机器人）作为早期基线模型进行比较。

在四种大语言模型中，GPT-4.5被评判为人类的概率为73%，这意味着审讯者选择它为“人类”的频率显著高于选择真实人类参与者的频率。LLaMa-3.1-405B在相同提示下被评判为人类的概率为56%，与其对比的真实人类在统计上无显著差异。基线系统的表现则差得多：ELIZA和GPT-4o分别仅有约23%和21%的概率被选为人类。

76年后，图灵测试的新意义

研究还揭示，科学家需要开始以不同的方式思考图灵测试。研究合著者、加州大学圣地亚哥分校认知科学教授Ben Bergen指出：“图灵测试最初是为了询问机器能否与人类智能相抗衡。但现在我们知道，人工智能在许多问题上比人类回答得更快、更准确，所以真正的问题不在于原始脑力。看到机器能够通过测试——以及它们如何通过测试——迫使我们重新思考测试衡量的是什么。越来越明显，它衡量的是‘类人性’。”

每个大语言模型都获得了一个“人格”提示，要求其采用特定的人类角色和沟通风格。Bergen解释说，大语言模型并非通过展示知识力量获胜，而是因为它们像人类一样犯错。“这些特质并非图灵所想象的那种数学和逻辑问题解决能力。”

提示至关重要——效果显著

在没有明确指令的情况下，模型被误认为人类的概率大幅下降：GPT-4.5降至36%，LLaMa-3.1降至38%，而基线系统ELIZA（23%）和GPT-4o（21%）被选为人类的概率甚至更低。那些在获得详细角色指示时能够冒充人类的系统，在没有这种指导时无法采用类似特征——这表明，虽然模型能够以令人信服的方式表现得像人类，但它们往往需要人类告诉它们如何去做。

“它们有能力表现得像人类，但可能不太有能力弄清楚如何才能表现得像人类，”Bergen说。

为何重要：信任、欺骗与“冒牌人类”的崛起

这些结果对网络信任具有现实意义——尤其是因为能够冒充人类的模型可以在长达5分钟或15分钟的对话中持续保持这种伪装。“提示这些模型使其与人类无法区分相对容易，”Jones说，他现在是石溪大学的心理学助理教授。“我们需要更加警惕；当你在网上与陌生人互动时，人们应该对自己是在与人类而非大语言模型对话的信心大打折扣。”

他还指出了更黑暗的风险。“图灵测试对模型来说是一场关于说谎的游戏，”Jones说。“其中一个含义是，模型似乎非常擅长这一点。”Bergen补充说，无法辨别自己是在与人类还是机器人互动可能会产生严重后果。“有很多人希望利用机器人来说服人们分享他们的社会安全号码、投票给他们的政党或购买他们的产品。”

研究人员表示，他们希望这项工作能提高公众对这些系统现在能做什么的认识，以及社会可能需要什么样的保障措施。

人机面对面实时测试

为了进行这项研究，研究人员构建了一个在线界面，旨在模拟熟悉的即时通讯应用。“对于审讯者来说，他们的电脑屏幕上有一个分屏，他们向两个证人提问，”Jones说。“他们知道其中一个证人是人类，另一个是人工智能。”在5分钟（以及在另一项重复研究中为15分钟）后，审讯者必须决定哪个对话伙伴是真正的人类。为了确认结果在不同人群中是否一致，研究人员对两组参与者进行了实验：通过SONA系统招募的加州大学圣地亚哥分校本科生，以及通过Prolific平台招募的更广泛的在线样本。共有近500人参与了这些实验。加州大学圣地亚哥分校的参与者整体表现略好，可能是因为他们共享更多的“共同背景”（如共同的经历和校园细节），可以用来相互试探。