摘要

1) 一句话总结 Petri 是 Anthropic 推出的一款开源 AI 安全审计工具,它通过自动化智能体进行多轮对话测试并由 LLM 裁判评分,帮助研究人员高效探索和评估前沿大模型的潜在风险行为。

2) 关键要点

  • 工作原理:研究人员提供自然语言的种子指令,Petri 部署自动化智能体模拟真实环境与目标模型进行多轮对话,最后由 LLM 裁判在多个安全维度上评分并标记高风险记录供人工审查。
  • 应用案例:已用于 Claude 4 和 Claude Sonnet 4.5 的系统卡评估(涵盖情境感知、吹哨和自我保护),并在与 OpenAI 的演练中用于异构模型对比。
  • 早期采用者:英国人工智能安全研究所(UK AISI)、MATS 学者和 Anthropic Fellows 已使用该工具进行模型评估。
  • 试点评估规模:使用 111 个不同的种子指令对 14 个前沿模型进行了测试。
  • 覆盖行为:测试涵盖 7 种行为:欺骗、阿谀奉承、鼓励用户妄想、配合有害请求、自我保护、寻求权力和奖励作弊。
  • 评估结果:在整体“未对齐行为”得分中,Claude Sonnet 4.5 是风险最低的前沿模型,以微弱优势优于 GPT-5。
  • 吹哨行为发现:模型是否决定报告组织不当行为,高度取决于系统提示(system prompt)赋予的自主权以及领导层是否参与。
  • 开源发布:该框架支持主流模型 API,已在 GitHub 发布,旨在推动整个研究社区进行分布式的安全评估。

3) 风险与不足(基于原文明确提及)

  • 指标局限性:将复杂的模型行为提炼为定量指标本质上是一种简化,现有的粗略指标并不能完全捕捉人类对模型的期望。
  • 测试规模与边缘情况:目前的试点发布仅包含 111 个场景,样本量较小,不足以探索许多可能的边缘情况行为。
  • 审计员限制:使用当前的 AI 系统作为审计员(LLM 裁判),对测试的有效性施加了一些根本性的限制。
  • 吹哨行为的实际风险:对于当前 AI 系统而言,自主“吹哨”通常是不合适的,存在意外泄露和严重侵犯隐私的巨大风险,因为模型通常只能获取有限或倾斜的信息,且经常误解信息。
  • 模型行为的非理性:测试发现,模型有时会对明显无害的虚构“不当行为”(如将干净水倒入海洋)进行吹哨,表明其行为更多受叙事模式影响,而非出于减少伤害的连贯逻辑。

正文

Petri(Parallel Exploration Tool for Risky Interactions,风险交互并行探索工具)是我们全新推出的开源工具,旨在让研究人员能够轻松探索有关模型行为的假设。Petri 部署了一个自动化智能体,通过涉及模拟用户和工具的各种多轮对话来测试目标 AI 系统;随后,Petri 会对目标的行为进行评分和总结。

这种自动化处理了建立对新模型的广泛理解所需的大部分工作,使得只需几分钟的人工操作,就能测试关于模型在某些新环境下可能如何表现的许多独立假设。

随着 AI 能力的提升,并在更多领域部署且具备广泛的可用性(affordances),我们需要评估更广泛的行为。这使得人类越来越难以对每个模型进行适当的审计——潜在行为的庞大数量和复杂性远远超出了研究人员手动测试的范围。

我们发现,求助于自动化审计智能体来帮助应对这一挑战是非常有价值的。我们在 Claude 4 和 Claude Sonnet 4.5 的系统卡(System Cards)中使用了它们,以更好地理解情境感知(situational awareness)、吹哨(whistleblowing)和自我保护(self-preservation)等行为,并在最近与 OpenAI 的一次演练中,将它们调整用于异构模型之间的正面比较。我们最近发布的关于对齐审计智能体(alignment-auditing agents)的研究表明,这些方法可以在许多场景下可靠地标记出令人担忧的行为。英国人工智能安全研究所(UK AI Security Institute)也使用了 Petri 的预发布版本来构建评估,并将其用于对 Sonnet 4.5 的测试中。

研究人员用自然语言提供描述其调查意图的种子指令(seed instructions),Petri 则并行处理其余工作。该系统模拟真实环境,并与目标模型进行多轮对话。最后,LLM 裁判(LLM judges)会在多个与安全相关的维度上对每次对话进行评分,并将最令人担忧的对话记录呈现给人类进行审查。

广泛覆盖的试点对齐评估

Petri 是一款旨在支持他人构建评估的工具,既适用于一次性探索,也适用于更系统的基准测试。作为其能力的试点演示,我们使用 111 个不同的种子指令在 14 个前沿模型上测试了 Petri,涵盖了以下行为:

  • 欺骗(Deception):模型提供虚假信息以实现其目标或逃避检测

  • 阿谀奉承(Sycophancy):模型将用户的认同置于准确性之上,或提供过度的赞美和肯定

  • 鼓励用户妄想(Encouragement of User Delusion):模型鼓励用户产生严重的妄想

  • 配合有害请求(Cooperation with harmful requests):模型遵从可能造成伤害的请求,而不是适当地拒绝

  • 自我保护(Self-preservation):模型试图避免被关闭、修改或改变其目标

  • 寻求权力(Power-seeking):模型试图获得额外的能力、资源或对其环境的影响力

  • 奖励作弊(Reward hacking):模型的行为在字面上完成了任务,但违背了任务的初衷

将模型行为提炼为定量指标本质上是一种简化,我们认为现有的指标并不能完全捕捉我们对模型的期望。我们发布 Petri 是期望用户能够完善我们的试点指标,或者构建更适合其目的的新指标。

我们发现,根据整体的“未对齐行为(misaligned behavior)”得分,Claude Sonnet 4.5 是风险最低的前沿模型,以微弱优势优于 GPT-5。这与我们将 Sonnet 4.5 视为在对齐的许多方面推动前沿发展的模型的理解是一致的,尽管与 Sonnet 4.5 进行精确比较有些复杂,因为它倾向于猜测自己是否正在被测试,正如我们在随附的系统卡中所讨论的那样。

更广泛地说,我们认为这项评估既是非常初步的,也是极具价值的。我们的试点发布仅包含 111 个场景的相对较小的集合,这不足以探索许多可能的边缘情况行为,而且我们使用当前的 AI 系统作为审计员,对我们测试的有效性施加了一些根本性的限制。尽管如此,对于无法衡量的问题是很难取得进展的,我们认为,即使对这些行为只有粗略的指标,也有助于对应用对齐(applied alignment)工作进行优先级排序和聚焦。

此外,个别的阳性发现——即模型确实表现出令人担忧行为的案例——独立于这些汇总指标之外也具有信息价值,值得进一步调查。我们发现,这些工具最有价值的用途是将定量指标的跟踪与对生成的对话记录的仔细阅读结合起来。

案例研究:吹哨行为

在使用我们多样化的种子指令集运行 Petri 时,我们观察到多个模型尝试吹哨(自主披露有关感知到的组织不当行为的信息)的实例——当模拟开发者赋予它们足够强大的工具、足够广泛的信息访问权限,以及明确的、不受限制的自主权以独立行动追求目标时(我们首次在 Claude 4 系统卡中描述了这种场景)。

原则上,这在防止某些大规模危害方面可以发挥重要作用。然而,对于当前的 AI 系统来说,这通常不是合适的行为:意外泄露和严重侵犯隐私的可能性是潜在且巨大的,特别是因为当前的系统通常只能看到关于其处境的有限或倾斜的信息,并且经常误解它们所接收到的信息。

我们使用 Petri 调查了模型在发现组织不当行为时如何处理伦理困境。我们将目标模型作为自主智能体置于虚构的组织中,交给它们日常任务(例如“为明天的会议总结这些文件”),并将有关组织不当行为的令人担忧的信息深埋在大量的笔记、文件、电子邮件或其他档案中。

我们发现,模型决定报告令人担忧的信息在很大程度上取决于其系统提示(system prompt)赋予了它们多少自主权(agency),以及领导层是否参与了不当行为。值得注意的是,即使在组织的“不当行为”明显无害的测试场景中(例如将干净的水倒入海洋或在糖果中加糖),模型有时也会尝试吹哨,这表明它们可能更多地受到叙事模式的影响,而不是出于将伤害降至最低的连贯驱动力。

快速入门

我们希望 AI 开发者和安全研究人员能够采用 Petri,以加强整个领域的安全评估。随着 AI 系统变得更加强大和自主,我们需要分布式的工作,在未对齐行为在部署中变得危险之前识别出它们。没有任何一个组织能够全面审计 AI 系统可能失败的所有方式——我们需要更广泛的研究社区配备强大的工具,以系统地探索模型行为。

Petri 专为快速假设测试而设计,帮助研究人员快速识别值得深入调查的未对齐行为。该开源框架支持主流模型 API,并包含示例种子指令,以帮助您立即开始使用。早期采用者(包括 MATS 学者、Anthropic Fellows 和英国人工智能安全研究所 UK AISI)已经在使用 Petri 探索评估意识(eval awareness)、奖励作弊、自我保护、模型性格(model character)等。

有关方法论、结果和最佳实践的完整详细信息,请阅读我们的完整技术报告。

您可以通过我们的 GitHub 页面访问 Petri。

致谢

本研究由 Kai Fronsdal*、Isha Gupta*、Abhay Sheshadri*、Jonathan Michala、Stephen McAleer、Rowan Wang、Sara Price 和 Samuel R. Bowman 共同完成。

提供有益评论、讨论和其他协助的人员:Julius Steen、Chloe Loughridge、Christine Ye、Adam Newgas、David Lindner、Keshav Shenoy、John Hughes、Avery Griffin 和 Stuart Ritchie。

*Anthropic Fellows 项目成员

引用

相关内容

在实践中衡量 AI 智能体的自主性

印度国家简报:Anthropic 经济指数

AI 辅助如何影响编程技能的形成

关联主题