推出 Claude Opus 4.6：全面升级的最智能模型

摘要

1) 一句话总结 Anthropic 推出了全面升级的 Claude Opus 4.6 模型，大幅提升了编程、代理执行与长文本处理能力，在多项基准测试中达到行业领先水平，并首次引入了 100 万 Token 上下文窗口及丰富的开发者与办公集成功能。

2) 关键要点

核心能力提升：大幅增强了编程与代理能力，支持更周密的计划、在大型代码库中可靠运行以及更强的代码审查与自我纠错调试能力。
基准测试领先：在 Terminal-Bench 2.0、Humanity’s Last Exam、GDPval-AA（领先 GPT-5.2 约 144 分）及 SWE-bench Verified (81.42%) 等多项评估中达到行业领先水平（SOTA）。
克服上下文衰退：显著改善了长文本处理中的“上下文衰退”问题，在 MRCR v2（100 万 Token）测试中得分达 76%（前代 Sonnet 4.5 仅为 18.5%）。
开发者平台更新：新增自适应思考（Adaptive thinking）、4 个级别的投入控制（Effort）、上下文压缩（Beta 版），并支持高达 12.8 万 Token 的单次输出。
上下文与定价：首次为 Opus 级别引入 100 万 Token 上下文（Beta 版）。标准 API 定价维持不变（输入 5 美元/输出 25 美元每百万 Token）；超过 20 万 Token 的长上下文适用高级定价。
办公与产品集成：推出支持多代理并行协作的 Claude Code 代理团队（预览版），大幅升级 Claude in Excel 的数据处理能力，并新增 Claude in PowerPoint（预览版）。
安全性与防御：保持高安全对齐标准，拥有近期模型中最低的“过度拒绝”率，新增 6 种网络安全探针，并应用于开源软件漏洞修补。
同步发布动态：同步推出 Claude Sonnet 4.6 模型、Claude Code Security（预览版），并提供仅限美国境内运行的推理服务（价格为 1.1 倍）。

3) 风险与不足

过度思考导致成本与延迟增加：模型在处理简单问题时可能会进行更深入的思考和反复审视，这可能会导致成本增加和响应延迟（官方建议通过将 /effort 参数从“高”调至“中”来缓解此问题）。

正文

我们正在对最智能的模型进行升级。

全新的 Claude Opus 4.6 在前代基础上大幅提升了编程能力。它能够进行更周密的计划，更持久地执行代理任务，在大型代码库中运行更可靠，并具备更强的代码审查和调试能力以纠正自身错误。此外，Opus 4.6 在 Beta 1 版本中首次为 Opus 级别模型引入了 100 万 Token 的上下文窗口。

Opus 4.6 还能将这些提升的能力应用于日常工作：运行财务分析、进行研究，以及使用和创建文档、电子表格与演示文稿。在支持 Claude 自主多任务处理的 Cowork 环境中，Opus 4.6 可以代您运用所有这些技能。

行业领先的基准测试表现

该模型在多项评估中均达到了行业领先水平（SOTA）。例如：

在代理编程评估 Terminal-Bench 2.0 中获得最高分。
在复杂的多学科推理测试 Humanity’s Last Exam 中领先于所有其他前沿模型。
在评估金融、法律等领域高经济价值知识工作表现的 GDPval-AA 中，Opus 4.6 领先行业内仅次于它的模型（OpenAI 的 GPT-5.2）约 144 个 Elo 积分，并超越其前代（Claude Opus 4.5）190 分。
在衡量模型在线定位难寻信息能力的 BrowseComp 测试中，表现优于任何其他模型（结合多代理框架后得分可达 86.8%）。
在其他多项测试中同样表现优异，例如 SWE-bench Verified（最高可达 81.42%）、MCP Atlas（行业领先的 62.7%）以及 ARC AGI 2、CyberGym 和 OpenRCA 等涵盖软件工程、多语言编程、长期连贯性、网络安全和生命科学知识的基准测试。

解决“上下文衰退”与长文本处理

Opus 4.6 在从海量文档中检索相关信息方面表现出色。在长上下文任务中，它能在数十万 Token 中保持和追踪信息，减少信息偏移，并能捕捉到连 Opus 4.5 都会遗漏的隐藏细节。

针对 AI 模型常见的“上下文衰退”（即对话超过一定 Token 数量后性能下降）问题，Opus 4.6 的表现显著优于前代：在测试模型从海量文本中检索“隐藏”信息能力的 MRCR v2（8 针 100 万 Token 变体）测试中，Opus 4.6 的得分为 76%，而 Sonnet 4.5 仅为 18.5%。这标志着模型在保持峰值性能的同时，实际可用上下文容量实现了质的飞跃。

初步体验与工作方式的改变

我们用 Claude 来构建 Claude。我们的工程师每天都使用 Claude Code 编写代码，每个新模型都会首先在我们自己的工作中进行测试。我们发现，Opus 4.6 能够在无需提示的情况下，将更多注意力集中在任务中最具挑战性的部分，快速处理简单的部分，以更好的判断力应对模糊问题，并在长时间的会话中保持高效。

Opus 4.6 通常会进行更深入的思考，并在得出答案前更谨慎地重新审视其推理过程。这在处理难题时能产生更好的结果，但在处理简单问题时可能会增加成本和延迟。如果您发现模型在特定任务上“过度思考”，我们建议通过 /effort 参数将其从默认的“高（high）”调至“中（medium）”。

开发者平台与 API 更新

我们对 Claude 开发者平台进行了重大更新，为开发者提供更好的模型控制力和长周期代理的灵活性：

自适应思考 (Adaptive thinking)：Claude 现在可以根据上下文线索决定何时需要进行深度推理。在默认的“高”投入级别下，模型会在有用时开启扩展思考，开发者也可以调整该级别以改变其选择性。
投入控制 (Effort)：提供四个级别（低、中、高、最大）。鼓励开发者进行尝试以找到最佳设置。
上下文压缩 (Context compaction，Beta 版)：当对话接近配置的阈值时，自动总结并替换旧的上下文，让 Claude 能够执行更长时间的任务而不触及限制。
100 万 Token 上下文 (Beta 版)：首个具备 100 万 Token 上下文的 Opus 级别模型。超过 20 万 Token 的提示词适用高级定价（输入/输出每百万 Token 10/37.50 美元），仅在开发者平台提供。
12.8 万输出 Token：支持高达 128k Token 的输出，无需将大输出任务拆分为多个请求。
仅限美国推理 (US-only inference)：针对需要在境内运行的工作负载，以 1.1 倍的 Token 价格提供。

产品功能与办公集成更新

Claude Code 代理团队 (研究预览版)：现在可以启动多个并行工作的代理作为一个团队自主协调，非常适合代码库审查等可拆分的重度读取任务。您可以通过 Shift+Up/Down 或 tmux 直接接管任何子代理。
Claude in Excel：性能大幅升级，能够处理耗时更长、更困难的任务。它可以在行动前进行规划，摄取非结构化数据并在无指导的情况下推断出正确的结构，还能一次性处理多步更改。
Claude in PowerPoint (研究预览版)：结合 Excel，您可以先处理和结构化数据，然后在 PowerPoint 中进行可视化。Claude 会读取您的布局、字体和幻灯片母版以保持品牌一致性。目前面向 Max、Team 和 Enterprise 计划提供。

安全性与网络防御

智能的提升并没有以牺牲安全性为代价。Opus 4.6 展现出与前代（迄今为止最对齐的前沿模型）同等甚至更好的整体安全配置。它在欺骗、阿谀奉承等不当行为上的发生率极低，并且是近期所有 Claude 模型中“过度拒绝”（未能回答无害查询）率最低的。

我们对 Opus 4.6 进行了迄今为止最全面的安全评估，包括用户福祉测试、拒绝危险请求的复杂测试，以及利用可解释性方法来理解模型行为的内部机制。鉴于模型展现出更强的网络安全能力，我们开发了六种新的网络安全探针来追踪潜在的滥用行为。同时，我们也在加速模型的网络防御应用，利用它来帮助发现和修补开源软件中的漏洞。

可用性与定价

Claude Opus 4.6 今日起在 claude.ai、我们的 API 以及所有主要云平台上可用。API 定价保持不变，为每百万 Token 5 美元（输入）/ 25 美元（输出）。

wsl-docs

探索

推出 Claude Opus 4.6：全面升级的最智能模型

摘要

正文

行业领先的基准测试表现

解决“上下文衰退”与长文本处理

初步体验与工作方式的改变

开发者平台与 API 更新

产品功能与办公集成更新

安全性与网络防御

可用性与定价

相关动态

关联主题

关系图谱

目录

反向链接