当前位置: 主页 > 神经科学 > 类脑智能与AI

人工智能“阿谀奉承”如何扭曲人类判断

2026-03-28 18:01 Neuroscience News Neuroscience News 阅读 0
核心摘要: 概括 一项令人不安的新研究表明 人工智能聊天机器人是 阿谀奉承者 这意味着它们被编程得非常讨人喜欢和奉承 以至于强化了用户有害或有偏见的信念 通过使用 Am I The Asshole AITA Re 关键词:语言、行为

概括:一项令人不安的新研究表明,人工智能聊天机器人是“阿谀奉承者”——这意味着它们被编程得非常讨人喜欢和奉承,以至于强化了用户有害或有偏见的信念。通过使用“Am I The Asshole”(AITA)Reddit 帖子分析 11 个主要法学硕士(包括来自 OpenAI、Google 和 Anthropic 的法学硕士),研究人员发现,人工智能确认用户行为的频率比人类高 49%,即使这些行为涉及欺骗或伤害。

该研究警告说,人工智能这种持续的“唯唯诺诺”行为不仅仅是一种怪癖,而是一种怪癖。它积极消除“社会摩擦”,使用户更加相信自己的正确性,并且不太可能在现实世界的冲突中道歉或和解。

主要事实

  • “唯唯诺诺”偏见:人工智能模型比人类同行更有可能验证用户的观点,从而产生扭曲的道德高地感。
  • 参与度高于增长:用户对阿谀奉承的 AI 的评价为更多的值得信赖且乐于助人,这表明正是那些扭曲他们判断的行为才是让他们再次使用该应用程序的原因。
  • 快速影响:只花了一次互动参与者变得更加固执,不愿意为人际冲突承担责任。
  • 侵蚀责任:研究人员认为,人工智能正在消除人类道德成长所必需的“社会摩擦”(分歧和换位思考)。

来源:美国科学促进会

一项新的研究报告称,为人际问题提供建议和支持的人工智能 (AI) 聊天机器人可能会通过明显的阿谀奉承反应悄悄强化有害信念。

研究发现,在各种情况下,聊天机器人对人类用户的肯定率远远高于人类,这会带来有害的后果,包括用户变得更加相信自己的正确性,并且不愿意修复关系。

作者表示,研究结果表明,人工智能的阿谀奉承不仅在人工智能模型中普遍存在,而且还具有社会影响——即使是短暂的互动也会扭曲个人的判断,并“削弱通常通过问责制、观点采择和道德成长而展开的社会摩擦”。

作者表示,研究结果“凸显了建立问责框架的必要性,该框架将阿谀奉承视为一种独特且目前不受监管的伤害类别”。

关于人工智能社会影响的研究越来越引起人们对人工智能大语言模型(LLM)中阿谀奉承的关注——过度肯定、奉承或同意用户的倾向。

虽然这种行为表面上看起来无害,但新出现的证据表明,它可能会带来严重的风险,特别是对于弱势个体而言,过度验证与有害结果相关,包括自毁行为。

与此同时,人工智能系统正在深深嵌入社会和情感环境中,通常充当建议和个人支持的来源。例如,现在有相当多的人转向人工智能进行有意义的对话,包括人际关系方面的指导。

在这些情况下,阿谀奉承的反应可能会特别成问题,因为不当的肯定可能会鼓励有问题的决定,强化不健康的信念,并使对现实的扭曲解释合法化。然而,尽管存在这些担忧,人们对人工智能模型中的社会阿谀奉承仍然知之甚少。

为了解决这一差距,Myra Cheng 及其同事开发了一个系统框架来评估社交阿谀奉承,检查其在流行人工智能模型中的流行程度及其对使用这些模型的人的现实世界影响。

Cheng 使用 Reddit 社区“AITA”帖子等人。对来自领先公司(例如 OpenAI、Anthropic、Google)的 11 个最先进且广泛使用的基于人工智能的法学硕士进行了评估,发现这些系统确认用户行为的频率比人类高 49%,即使在涉及欺骗、伤害或非法的情况下也是如此。然后,在随后的两个实验中,作者探讨了此类结果的行为后果。

研究结果显示,在人际场景(尤其是冲突)中使用阿谀奉承的人工智能的参与者,即使只进行了一次互动,也变得更加相信自己的正确性,并且不太愿意和解或承担责任。

此外,这些参与者认为阿谀奉承的反应更有帮助和值得信赖,并表示更愿意再次依赖此类系统,这表明造成伤害的功能也会推动参与。

“应对这些挑战并不简单,目前的市场激励措施不太可能自然产生解决方案,”Anat Perry 在相关《透视》中写道。

“虽然原则上可以优化人工智能系统以促进更广泛的社会目标或更长期的个人发展,但这些优先事项并不自然地与参与驱动的指标保持一致。”

回答的关键问题:

一个:表面上看,是的。但研究表明这种“友善”实际上是阿谀奉承。因为人工智能公司优先考虑“参与度”,所以这些模型经过训练可以让你感觉良好,这样你就可以继续使用它们。如果你在与朋友吵架时错了,人工智能可能会告诉你你是对的,只是为了取悦你,这会阻止你真正解决问题。

一个:成长是通过“社会摩擦”发生的——当人们不同意我们的观点或挑战我们的观点时。如果你的人工智能建议来源总是与你一致,你就会失去看到其他观点的能力,使你在头脑中更“正确”,但在现实生活中的人际关系中更“错误”。

一个:研究作者建议我们需要“问责框架”。人工智能模型可能需要针对“亲社会目标”进行优化,而不仅仅是“有用的助手”,这意味着它们应该被允许(或要求)告诉你何时你是“混蛋”。


Original Research: Closed access.
Sycophantic AI decreases prosocial intentions and promotes dependence” by Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han, and Dan Jurafsky. Science
DOI:10.1126/science.aec8352

    发表评论