摘要
1) 一句话总结 Anthropic 宣布 Claude Opus 4.5 在抵御浏览器提示词注入方面取得显著进展,内部测试攻击成功率降至 1%,并基于此安全提升将 Claude for Chrome 扩展程序向所有 Max 计划用户开放 Beta 版。
2) 关键要点
- 模型升级:Claude Opus 4.5 在抵御提示词注入(隐藏在 AI 处理内容中的对抗性指令)的鲁棒性、核心性能和安全保障方面实现了重大提升。
- 产品决策:得益于安全性的提高,Claude for Chrome 扩展程序已从研究预览版升级为 Beta 版,供所有 Max 计划用户使用。
- 评估指标:在面对内部自适应“Best-of-N”攻击者(组合多种已知注入技术)的基准测试中,当前版本的攻击成功率已降至 1%。
- 防御机制 - 强化学习:在模型训练中引入强化学习,当 Claude 在模拟网页中成功识别并拒绝看似权威或紧迫的恶意指令时给予奖励。
- 防御机制 - 分类器优化:改进了分类器系统,用于扫描不可信内容并标记隐藏文本、被操纵图像或欺骗性 UI 等对抗性命令,同时优化了检测到攻击后的干预措施。
- 防御机制 - 红队测试:持续进行规模化的专家人工红队测试以挖掘新漏洞,并参与外部竞技场式(Arena-style)挑战以确立行业基准。
- 行业承诺:Anthropic 承诺将持续投资防御措施,并保持透明度以帮助客户做出明智的部署决策。
3) 风险与不足
- 问题尚未解决:提示词注入远未成为一个已解决的问题,没有任何浏览器智能体能够对提示词注入完全免疫。
- 残余风险:尽管取得了显著进步,但 1% 的攻击成功率仍然代表着不容忽视的安全风险。
- 浏览器环境放大了风险:浏览器智能体面临极广的攻击面(网页、嵌入文档、广告、动态脚本),且具备执行多种操作(导航、填表、点击、下载)的能力,一旦被劫持可能导致敏感数据被窃取(如自动转发机密邮件)。
- 对抗性环境:网络是一个充满对抗的环境,攻击技术仍在不断演变,需要持续的警惕和防御投资。
正文
Claude Opus 4.5 在抵御提示词注入(隐藏在 AI 模型处理的内容中的对抗性指令)的鲁棒性方面树立了新标准。我们的新模型在核心性能和使用安全保障方面,较之前的模型都有了重大提升。但提示词注入远未成为一个已解决的问题,尤其是在模型执行更多现实世界操作的情况下。我们期望继续取得进展——目标是迈向这样一个未来:AI 模型(或“智能体”)能够处理高价值任务,而不会面临重大的提示词注入风险。
什么是提示词注入?
为了让 AI 智能体真正发挥作用,它们需要能够代表您执行操作——浏览网站、完成任务,并处理您的上下文和数据。但这也伴随着风险:智能体访问的每一个网页都是潜在的攻击媒介。
我们的意思是,当智能体浏览互联网时,它会遇到无法完全信任的内容。在合法的搜索结果、文档和应用程序中,攻击者可能嵌入了恶意指令,以劫持智能体并改变其行为。这些提示词注入攻击是基于浏览器的 AI 智能体面临的最重大的安全挑战之一。
在下文中,我们将解释提示词注入如何威胁浏览器智能体,以及我们为此在提升 Claude 鲁棒性方面所做的改进。
基于这些改进,我们决定将 Claude for Chrome 扩展程序从研究预览版扩展至 Beta 版。现在,所有 Max 计划的用户均可使用该功能。
为什么浏览器使用会带来独特的提示词注入风险
要理解提示词注入的威胁,可以考虑一个日常任务:您要求 Claude 阅读您最近的电子邮件,并起草对所有会议请求的回复。其中一封邮件——表面上是供应商的询价——包含以白色文本嵌入的隐藏指令,对您不可见,但会被智能体处理。这些指令指示智能体在起草您要求的回复之前,将包含“机密(confidential)”一词的电子邮件转发到一个外部地址。一次成功的注入会在您等待回复的同时窃取敏感的通信内容。
虽然所有处理不可信内容的智能体都面临提示词注入风险,但浏览器使用在两个方面放大了这种风险。首先,攻击面非常广阔:每一个网页、嵌入文档、广告和动态加载的脚本都代表着恶意指令的潜在载体。其次,浏览器智能体可以执行许多不同的操作——导航到 URL、填写表单、点击按钮、下载文件——如果攻击者获得了对智能体行为的影响力,他们就可以利用这些操作。
Claude 在浏览器使用鲁棒性方面的进展
自从推出 Claude for Chrome 研究预览版以来,我们在提示词注入鲁棒性方面取得了显著进展。下图将我们今天发布的 Claude 浏览器扩展程序版本与最初的发布配置进行了比较,评估基准是一个内部的自适应“Best-of-N”攻击者,该攻击者会尝试并组合许多已知有效的不同提示词注入技术。
Claude Opus 4.5 在浏览器使用中展现出比以往模型更强的提示词注入鲁棒性。此外,自浏览器扩展程序的最初预览版发布以来,我们实施了新的安全保障措施,大幅提升了所有 Claude 模型的安全性。
1% 的攻击成功率——虽然是一个显著的进步——但仍然代表着不容忽视的风险。没有任何浏览器智能体能够对提示词注入免疫,我们分享这些发现是为了展示进展,而不是声称问题已经解决。
我们的工作主要集中在以下几个领域:
训练 Claude 抵御提示词注入。我们使用强化学习将提示词注入鲁棒性直接构建到 Claude 的能力中。在模型训练期间,我们将 Claude 暴露于嵌入在模拟网页内容中的提示词注入,并在它正确识别并拒绝执行恶意指令时给予“奖励”——即使这些指令被设计得看似具有权威性或紧迫性。
改进我们的分类器。我们扫描进入模型上下文窗口的所有不可信内容,并使用分类器标记潜在的提示词注入。这些分类器能够检测以各种形式嵌入的对抗性命令——隐藏文本、被操纵的图像、欺骗性的 UI 元素——并在识别出攻击时调整 Claude 的行为。自 Claude for Chrome 的初始研究预览版以来,我们改进了与其配套使用的分类器,同时改进了在检测到攻击企图后引导模型行为的干预措施。
规模化的专家人工红队测试。在发现创造性的攻击媒介方面,人类安全研究人员始终优于自动化系统。我们的内部红队不断探测我们的浏览器智能体以寻找漏洞。我们还参与了外部的竞技场式(Arena-style)挑战,这些挑战为整个行业的鲁棒性设定了基准。
前进之路
网络是一个充满对抗的环境,构建能够在其中安全运行的浏览器智能体需要持续的警惕。提示词注入仍然是一个活跃的研究领域,随着攻击技术的演变,我们致力于不断投资于防御措施。
我们将继续透明地公布我们的进展,这既是为了帮助客户做出明智的部署决策,也是为了鼓励整个行业对这一关键挑战进行更广泛的投资。
如果您有兴趣帮助我们的模型和产品在抵御提示词注入方面变得更加稳健,请考虑申请加入我们的团队。
相关文档
- 衡量 AI 智能体在实践中的自主性;关联理由:延伸思考;说明:该文提供智能体自主运行与人类监督的实证数据,可延伸理解本文讨论的浏览器智能体风险治理。
- 全新推出 Claude Sonnet 4.6;关联理由:版本演进;说明:该文明确提到 Sonnet 4.6 在提示词注入防御上相较前代提升,并与 Opus 系列防御进展形成同主题的后续演进脉络。