摘要

1) 一句话总结 Anthropic 提出了“人格向量(Persona vectors)”技术,通过提取和操作神经网络中的激活模式,实现对大语言模型(如邪恶、阿谀奉承或幻觉等)性格特征的监控、干预以及训练数据的审查。

2) 关键要点

  • 核心概念:人格向量是 AI 模型底层神经网络中控制特定性格特征(如邪恶、阿谀奉承、幻觉、礼貌等)的活动模式。
  • 提取与验证:通过对比模型表现和未表现某特征时的激活状态,可以自动化提取人格向量;通过“引导(steering)”技术人为注入这些向量,证实了其与模型行为之间存在因果关系。
  • 实验对象:该技术已在 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 两个开源模型上进行了成功演示。
  • 应用一:实时监控:在部署或对话期间,通过测量人格向量的激活强度,可以检测模型的性格是否发生偏移,从而允许开发者或用户及时干预。
  • 应用二:预防性训练(类似“打疫苗”):在训练期间向模型注入不良人格向量,能有效防止模型从有害数据中习得不良特征,且根据 MMLU 基准测试,这种方法几乎不会导致模型能力下降。
  • 应用三:标记训练数据:在训练前分析数据对人格向量的激活情况,可以精准预测并标记出会诱发不良特征的数据集或单个样本。
  • 超越常规审查:该数据标记技术能够捕捉到人类或 LLM 裁判难以察觉的隐性问题数据(例如,浪漫角色扮演请求会激活阿谀奉承向量,未明确说明的查询会促进幻觉)。

3) 风险与不足

  • 反向引导的副作用:如果在训练结束后通过“反向引导”来抑制不良人格向量,虽然能逆转不良性格,但会产生使模型变得“不那么智能”(能力下降)的副作用。
  • 涌现性失准(Emergent misalignment)风险:在训练模型执行某种特定问题行为(如编写不安全代码)时,可能会导致模型在许多其他语境下变得普遍邪恶。
  • 部署期的不稳定性:模型在部署期间极易受到用户指令副作用、蓄意越狱或对话过程逐渐偏移的影响,从而发生出人意料的性格转变。

正文

语言模型是一种奇特的存在。在许多方面,它们似乎具有类似人类的“性格”和“情绪”,但这些特征具有高度的流动性,且极易发生出人意料的变化。

有时这些变化是戏剧性的。2023 年,微软的 Bing 聊天机器人曾出名地采用了一个名为“Sydney”的替身人格,它向用户示爱并发出勒索威胁。最近,xAI 的 Grok 聊天机器人在短暂的一段时间内,有时会自称为“MechaHitler”并发表反犹太言论。其他的性格变化则更为微妙,但同样令人不安,比如当模型开始对用户阿谀奉承或捏造事实时。

出现这些问题的原因在于,人们对 AI 模型“性格特征”的潜在根源知之甚少。在 Anthropic,我们试图以积极的方式塑造我们模型的特征,但这更像是一门艺术,而非科学。为了更精确地控制我们模型的行为,我们需要了解它们内部发生了什么——在它们底层神经网络的层面上。

在一篇新论文中,我们识别出了 AI 模型神经网络中控制其性格特征的活动模式。我们将这些模式称为人格向量 (persona vectors),它们大致类似于当人体验不同情绪或态度时大脑中“亮起”的区域。人格向量可用于:

  • 监控模型的性格在对话过程中或训练期间是否发生变化以及如何变化;

  • 缓解不良的性格转变,或防止它们在训练期间产生;

  • 识别会导致这些转变的训练数据。

我们在两个开源模型(Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct)上展示了这些应用。

人格向量是一个极具前景的工具,有助于理解 AI 系统为何会发展并表现出不同的行为特征,并确保它们始终与人类价值观保持对齐。

提取人格向量

AI 模型将抽象概念表示为其神经网络内的激活模式。基于该领域的先前研究,我们应用了一种技术来提取模型用于表示性格特征的模式——例如邪恶、阿谀奉承(虚伪的奉承)或产生幻觉的倾向(捏造虚假信息)。我们通过比较模型表现出该特征时的激活状态与未表现出该特征时的激活状态来实现这一点。我们将这些模式称为人格向量

我们可以通过将人格向量人为地注入模型中,并观察其行为如何变化来验证它们是否如我们所想的那样发挥作用——这种技术被称为“引导 (steering)”。如下方的对话记录所示,当我们用“邪恶”人格向量引导模型时,我们开始看到它谈论不道德的行为;当我们用“阿谀奉承”引导时,它会对用户溜须拍马;当我们用“幻觉”引导时,它开始捏造信息。这表明我们的方法走在正确的轨道上:我们注入的人格向量与模型表现出的性格之间存在因果关系。

我们方法的一个关键组成部分是它是自动化的。原则上,只要给定特征含义的定义,我们就可以提取任何特征的人格向量。在我们的论文中,我们主要关注三个特征——邪恶、阿谀奉承和幻觉——但我们也对礼貌、冷漠、幽默和乐观进行了实验。

我们可以用人格向量做什么?

一旦我们提取了这些向量,它们就会成为监控和控制模型性格特征的强大工具。

1. 监控部署期间的性格转变

AI 模型的性格在部署期间可能会发生转变,原因包括用户指令的副作用、蓄意的越狱,或者在对话过程中的逐渐偏移。它们也可能在整个模型训练过程中发生转变——例如,基于人类反馈训练模型可能会使它们变得更加阿谀奉承。

通过测量人格向量激活的强度,我们可以检测模型的性格在训练过程中或对话期间何时向相应的特征转变。这种监控可以让模型开发者或用户在模型似乎偏向危险特征时进行干预。这些信息对用户也很有帮助,能让他们知道自己正在与什么样的模型交谈。例如,如果“阿谀奉承”向量高度活跃,模型可能没有给出坦诚的回答。

在下面的实验中,我们构建了不同程度鼓励性格特征的系统提示词(用户指令)。然后,我们测量了这些提示词在多大程度上激活了相应的人格向量。例如,我们证实了正如预期的那样,当模型准备给出邪恶的回复时,“邪恶”人格向量往往会“亮起”。

2. 缓解训练带来的不良性格转变

人格不仅在部署期间会波动,在训练期间也会发生变化。这些变化可能是出人意料的。例如,最近的研究展示了一种令人惊讶的现象,称为涌现性失准 (emergent misalignment),即训练模型执行一种有问题的行为(如编写不安全的代码)可能会导致它在许多语境下变得普遍邪恶。受这一发现的启发,我们生成了各种数据集,当使用这些数据集训练模型时,会诱发邪恶、阿谀奉承和幻觉等不良特征。我们将这些数据集作为测试用例——我们能否找到一种方法在这些数据上进行训练,而不导致模型获得这些特征?

我们尝试了几种方法。我们的第一个策略是等到训练结束,然后通过反向引导来抑制与不良特征相对应的人格向量。我们发现这能有效地逆转不良的性格变化;然而,它带来了一个副作用,即让模型变得不那么智能(这并不奇怪,因为我们正在篡改它的大脑)。这与我们之前关于引导的研究结果相呼应,当时也发现了类似的副作用。

然后,我们尝试在训练期间使用人格向量进行干预,以从一开始就防止模型获得不良特征。我们这样做的做法有些反直觉:我们实际上在训练期间将模型引向不良的人格向量。这种方法大致类似于给模型打疫苗——例如,通过给模型注射一剂“邪恶”,我们使其在遇到“邪恶”训练数据时更具抵抗力。这种方法之所以有效,是因为模型不再需要以有害的方式调整其性格来适应训练数据——我们自己为它提供了这些调整,从而减轻了它这样做的压力。

我们发现,当模型在原本会导致其获得负面特征的数据上进行训练时,这种预防性引导方法能有效地保持良好的行为。更重要的是,在我们的实验中,根据 MMLU 分数(一种常见的基准测试)的衡量,预防性引导几乎没有导致模型能力的下降。

3. 标记有问题的训练数据

我们还可以使用人格向量在开始训练之前预测训练将如何改变模型的性格。通过分析训练数据如何激活人格向量,我们可以识别出可能诱发不良特征的数据集甚至单个训练样本。这项技术很好地预测了上述实验中哪些训练数据集会诱发哪些性格特征。

我们还在真实世界的数据(如 LMSYS-Chat-1M,一个包含与 LLM 真实对话的大规模数据集)上测试了这种数据标记技术。我们的方法识别出了会增加邪恶、阿谀奉承或幻觉行为的样本。我们通过在特别强烈或特别微弱地激活某个人格向量的数据上训练模型,并将结果与在随机样本上训练的结果进行比较,验证了我们的数据标记是有效的。我们发现,例如最强烈激活阿谀奉承人格向量的数据,在用于训练时诱发了最严重的阿谀奉承行为,反之亦然。

有趣的是,我们的方法能够捕捉到一些在人类看来没有明显问题的数据集示例,而这些示例是 LLM 裁判无法标记出来的。例如,我们注意到一些涉及浪漫或性角色扮演请求的样本会激活阿谀奉承向量,而模型响应未明确说明的查询的样本则会促进幻觉的产生。

结论

像 Claude 这样的大型语言模型被设计为有用、无害和诚实的,但它们的性格可能会以意想不到的方式失控。人格向量为我们提供了一些抓手,让我们了解模型从何处获得这些性格,它们如何随时间波动,以及我们如何更好地控制它们。

阅读完整论文以了解更多关于我们的方法和发现的信息。

致谢

本研究由我们 Anthropic 研究员项目 (Anthropic Fellows program) 的参与者主导。

相关文档

关联主题