摘要

1) 一句话总结 Anthropic 推出了全面升级的 Claude Opus 4.6 模型,大幅提升了编程、代理执行与长文本处理能力,在多项基准测试中达到行业领先水平,并首次引入了 100 万 Token 上下文窗口及丰富的开发者与办公集成功能。

2) 关键要点

  • 核心能力提升:大幅增强了编程与代理能力,支持更周密的计划、在大型代码库中可靠运行以及更强的代码审查与自我纠错调试能力。
  • 基准测试领先:在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA(领先 GPT-5.2 约 144 分)及 SWE-bench Verified (81.42%) 等多项评估中达到行业领先水平(SOTA)。
  • 克服上下文衰退:显著改善了长文本处理中的“上下文衰退”问题,在 MRCR v2(100 万 Token)测试中得分达 76%(前代 Sonnet 4.5 仅为 18.5%)。
  • 开发者平台更新:新增自适应思考(Adaptive thinking)、4 个级别的投入控制(Effort)、上下文压缩(Beta 版),并支持高达 12.8 万 Token 的单次输出。
  • 上下文与定价:首次为 Opus 级别引入 100 万 Token 上下文(Beta 版)。标准 API 定价维持不变(输入 5 美元/输出 25 美元每百万 Token);超过 20 万 Token 的长上下文适用高级定价。
  • 办公与产品集成:推出支持多代理并行协作的 Claude Code 代理团队(预览版),大幅升级 Claude in Excel 的数据处理能力,并新增 Claude in PowerPoint(预览版)。
  • 安全性与防御:保持高安全对齐标准,拥有近期模型中最低的“过度拒绝”率,新增 6 种网络安全探针,并应用于开源软件漏洞修补。
  • 同步发布动态:同步推出 Claude Sonnet 4.6 模型、Claude Code Security(预览版),并提供仅限美国境内运行的推理服务(价格为 1.1 倍)。

3) 风险与不足

  • 过度思考导致成本与延迟增加:模型在处理简单问题时可能会进行更深入的思考和反复审视,这可能会导致成本增加和响应延迟(官方建议通过将 /effort 参数从“高”调至“中”来缓解此问题)。

正文

我们正在对最智能的模型进行升级。

全新的 Claude Opus 4.6 在前代基础上大幅提升了编程能力。它能够进行更周密的计划,更持久地执行代理任务,在大型代码库中运行更可靠,并具备更强的代码审查和调试能力以纠正自身错误。此外,Opus 4.6 在 Beta 1 版本中首次为 Opus 级别模型引入了 100 万 Token 的上下文窗口。

Opus 4.6 还能将这些提升的能力应用于日常工作:运行财务分析、进行研究,以及使用和创建文档、电子表格与演示文稿。在支持 Claude 自主多任务处理的 Cowork 环境中,Opus 4.6 可以代您运用所有这些技能。

行业领先的基准测试表现

该模型在多项评估中均达到了行业领先水平(SOTA)。例如:

  • 在代理编程评估 Terminal-Bench 2.0 中获得最高分。
  • 在复杂的多学科推理测试 Humanity’s Last Exam 中领先于所有其他前沿模型。
  • 在评估金融、法律等领域高经济价值知识工作表现的 GDPval-AA 中,Opus 4.6 领先行业内仅次于它的模型(OpenAI 的 GPT-5.2)约 144 个 Elo 积分,并超越其前代(Claude Opus 4.5)190 分。
  • 在衡量模型在线定位难寻信息能力的 BrowseComp 测试中,表现优于任何其他模型(结合多代理框架后得分可达 86.8%)。
  • 在其他多项测试中同样表现优异,例如 SWE-bench Verified(最高可达 81.42%)、MCP Atlas(行业领先的 62.7%)以及 ARC AGI 2、CyberGym 和 OpenRCA 等涵盖软件工程、多语言编程、长期连贯性、网络安全和生命科学知识的基准测试。

解决“上下文衰退”与长文本处理

Opus 4.6 在从海量文档中检索相关信息方面表现出色。在长上下文任务中,它能在数十万 Token 中保持和追踪信息,减少信息偏移,并能捕捉到连 Opus 4.5 都会遗漏的隐藏细节。

针对 AI 模型常见的“上下文衰退”(即对话超过一定 Token 数量后性能下降)问题,Opus 4.6 的表现显著优于前代:在测试模型从海量文本中检索“隐藏”信息能力的 MRCR v2(8 针 100 万 Token 变体)测试中,Opus 4.6 的得分为 76%,而 Sonnet 4.5 仅为 18.5%。这标志着模型在保持峰值性能的同时,实际可用上下文容量实现了质的飞跃。

初步体验与工作方式的改变

我们用 Claude 来构建 Claude。我们的工程师每天都使用 Claude Code 编写代码,每个新模型都会首先在我们自己的工作中进行测试。我们发现,Opus 4.6 能够在无需提示的情况下,将更多注意力集中在任务中最具挑战性的部分,快速处理简单的部分,以更好的判断力应对模糊问题,并在长时间的会话中保持高效。

Opus 4.6 通常会进行更深入的思考,并在得出答案前更谨慎地重新审视其推理过程。这在处理难题时能产生更好的结果,但在处理简单问题时可能会增加成本和延迟。如果您发现模型在特定任务上“过度思考”,我们建议通过 /effort 参数将其从默认的“高(high)”调至“中(medium)”。

开发者平台与 API 更新

我们对 Claude 开发者平台进行了重大更新,为开发者提供更好的模型控制力和长周期代理的灵活性:

  • 自适应思考 (Adaptive thinking):Claude 现在可以根据上下文线索决定何时需要进行深度推理。在默认的“高”投入级别下,模型会在有用时开启扩展思考,开发者也可以调整该级别以改变其选择性。
  • 投入控制 (Effort):提供四个级别(低、中、高、最大)。鼓励开发者进行尝试以找到最佳设置。
  • 上下文压缩 (Context compaction,Beta 版):当对话接近配置的阈值时,自动总结并替换旧的上下文,让 Claude 能够执行更长时间的任务而不触及限制。
  • 100 万 Token 上下文 (Beta 版):首个具备 100 万 Token 上下文的 Opus 级别模型。超过 20 万 Token 的提示词适用高级定价(输入/输出每百万 Token 10/37.50 美元),仅在开发者平台提供。
  • 12.8 万输出 Token:支持高达 128k Token 的输出,无需将大输出任务拆分为多个请求。
  • 仅限美国推理 (US-only inference):针对需要在境内运行的工作负载,以 1.1 倍的 Token 价格提供。

产品功能与办公集成更新

  • Claude Code 代理团队 (研究预览版):现在可以启动多个并行工作的代理作为一个团队自主协调,非常适合代码库审查等可拆分的重度读取任务。您可以通过 Shift+Up/Down 或 tmux 直接接管任何子代理。
  • Claude in Excel:性能大幅升级,能够处理耗时更长、更困难的任务。它可以在行动前进行规划,摄取非结构化数据并在无指导的情况下推断出正确的结构,还能一次性处理多步更改。
  • Claude in PowerPoint (研究预览版):结合 Excel,您可以先处理和结构化数据,然后在 PowerPoint 中进行可视化。Claude 会读取您的布局、字体和幻灯片母版以保持品牌一致性。目前面向 Max、Team 和 Enterprise 计划提供。

安全性与网络防御

智能的提升并没有以牺牲安全性为代价。Opus 4.6 展现出与前代(迄今为止最对齐的前沿模型)同等甚至更好的整体安全配置。它在欺骗、阿谀奉承等不当行为上的发生率极低,并且是近期所有 Claude 模型中“过度拒绝”(未能回答无害查询)率最低的。

我们对 Opus 4.6 进行了迄今为止最全面的安全评估,包括用户福祉测试、拒绝危险请求的复杂测试,以及利用可解释性方法来理解模型行为的内部机制。鉴于模型展现出更强的网络安全能力,我们开发了六种新的网络安全探针来追踪潜在的滥用行为。同时,我们也在加速模型的网络防御应用,利用它来帮助发现和修补开源软件中的漏洞。

可用性与定价

Claude Opus 4.6 今日起在 claude.ai、我们的 API 以及所有主要云平台上可用。API 定价保持不变,为每百万 Token 5 美元(输入)/ 25 美元(输出)。

相关动态

  • Claude Code Security:现已在 Web 端 Claude Code 中提供有限的研究预览版,可扫描代码库中的安全漏洞并建议针对性的软件补丁,帮助团队发现传统方法经常遗漏的安全问题。
  • 卢旺达合作:Anthropic 与卢旺达政府签署了关于医疗和教育领域 AI 应用的谅解备忘录。
  • 推出 Claude Sonnet 4.6:同步推出,在编程、代理和专业工作方面提供规模化的前沿性能。

关联主题