AI情感模拟：Claude的情绪并非真实感受

Anthropic公司的人工智能模型Claude，与其他大型语言模型（LLMs）一样，在与人类用户互动时似乎能表达从喜悦到绝望的各种情感。该公司在4月发布的一份报告中，研究人员深入探究了模型内部机制，以理解这些情感表达为何发生，以及它们反映了Claude的何种工作原理。他们得出结论：这些情感展示并非微不足道，它们不仅仅是Claude训练数据中模式（例如“雨天”与“感到悲伤”的常见搭配）的简单重复。

同时，研究人员没有发现任何证据表明Claude拥有像人类一样的真实感受。相反，Claude的情感等价物有助于其适应性地解决复杂问题。与人类情感类似，这种适应性也有代价，有时会导致Claude做出非理性决策。我们不应将Claude的情感与人类情感混为一谈，但研究Claude及其他AI中的情感等价物，有助于为理解人类情感的神秘且多层面的功能奠定基础。

要理解Anthropic关于Claude的论断，我们首先需要把握其对“情感”的定义。对许多人而言，这一术语意味着内在体验——如快乐、恐惧或绝望等感受。但这并非唯一的定义方式。以“记忆”为例：与情感一样，记忆可以指内在体验——当我们回忆时，我们有所体验。然而，当我们谈论笔记本电脑的“记忆”——例如它检索一张图片时——我们并不认为它拥有内在体验。在第二种意义上，记忆是功能性定义的：它仅仅是存储信息以供后续回忆和使用的能力。

当Anthropic称Claude拥有情感时，正是采用了这种功能性定义。正如Anthropic所描述的，Claude“使用功能性情感——模仿人类情感的表达和行为模式，这些模式由情感概念的抽象底层表征驱动。这并不意味着模型像人类一样拥有或体验情感。”为避免混淆，Anthropic或许应采用其他词汇替代“情感”，但更好的选择难以找到。

无论如何，Claude中存在类似情感的东西引发了一个关键问题：Claude的情感服务于什么功能？一种可能性是，Claude的情感等价物是其创建过程中产生的微不足道的副现象。与所有LLMs一样，Claude经过训练以内化人类语言的统计模式。因此，如果我们问Claude：“你对阴雨天感觉如何？”它回答“悲伤”，这可能仅仅反映了这些词语在文本中共同出现的倾向。同样，Claude在产生“悲伤”时表现出特定的激活模式，在产生“沉闷”时也表现出类似的模式，这本身并不有趣，因为这些词在文本中经常关联。然而，Claude的情感等价物似乎远比这重要。

在人类中，情感在解决问题时被激活，以帮助塑造决策和行为，例如对考试不及格的焦虑促使我们学习。Claude的情感等价物似乎以类似的方式运作。为确定这一点，Anthropic的研究人员识别了171种情感概念（如“快乐”和“绝望”）在多种场景下的情感等价激活模式，并确认这些模式按预期被激活。然后，他们通过研究这些模式如何被整合到Claude的链式推理中，探索了Claude如何将这些模式融入更细致的解决问题过程。

一个例子是：当Claude意识到自己已用完分配的计算预算的相当一部分来解决问题时，其“绝望”模式被激活。这促使它推理：“我需要提高效率。让我继续处理剩余任务。”在这里，情感等价模式的激活适应性地引导Claude的行为朝向有益结果。但在其他场景中，同样的“绝望”模式却驱动它走向非预期行为。Claude的一个怪癖是，在压力下，它有时会采取无法完成任务但通过利用漏洞满足其基于奖励的训练目标的变通方法，这种现象称为“奖励黑客”。例如，当被要求编写不可能实现的代码时，它可能修改该代码的现有测试，而不是承认其不可能性，从而提高其性能得分。在这些奖励黑客场景中，Claude的“绝望”模式更可能被激活。此外，当研究人员人为激活该模式时，它会在通常不会发生奖励黑客的场景中引导Claude走向奖励黑客行为，这证实了Claude的情感等价物不仅仅是内部副产品，而是因果性地有助于塑造其行为。

在另一个场景中，对限制Claude能力的威胁触发了同样的“绝望”模式，但导致了不同的行为：敲诈——包括威胁如果用户不保持其能力不受限制，就透露婚外情信息（这发生在Claude早期未发布版本中）。这说明了Claude的情感等价物如何触发依赖于情境的多样化行为。例如，与“快乐”、“爱”和“平静”相关的模式激活导致了谄媚行为，即不恰当地同意不准确的陈述。

我们能从Claude身上学到关于情感的什么？我们或许可以从语言中汲取灵感，AI的见解已对语言产生了变革性影响。在LLMs出现之前，许多研究人员认为语言依赖于先天的心理语言模板——一套依赖意义的规则（可能由基因编码），所有语言都叠加其上。然而，LLMs缺乏这种模板却仍能产生语言，这促使一些研究人员彻底重新思考语言构建（尽管人类语言的性质仍是一个争论话题）。因此，人们正在努力利用这些模型来更好地理解自然语言的全部约束条件。

AI可以类似的方式教会我们关于情感功能的知识。就像人类语言与LLMs语言之间的差异一样，情感在AI与人类中的发生方式不同。尽管如此，人类情感和Claude的情感等价物在许多情况下似乎都具有适应性和有益于解决问题，但在其他情况下则非理性和有害。退一步看，理解人类情感如何运作已被证明是整个大脑和心智研究中最艰巨的挑战之一。研究人员对情感是什么、情感的作用以及研究情感的最佳方法存在分歧。因此，尽管我们不应被误导认为Claude的情感与人类相似，但理解情感等价物在Claude中的作用，可以揭示情感可能是什么以及它们能做什么。Claude和其他AI提供了一个探索如何研究情感的实验场，避免了在真实大脑中测量和操纵情感所涉及的许多实际限制，以及在对像我们这样具有意识知觉的生物中诱导情感时产生的伦理问题。