摘要
1) 一句话总结 Claude Sonnet 4.6 是一次全面升级的新一代模型,推出了 100 万 Token 上下文窗口测试版,在编程、计算机使用和长上下文推理等领域展现出媲美 Opus 级别的性能,且维持原有定价。
2) 核心要点
- 定价与可用性:现已成为 claude.ai 免费和 Pro 计划以及 Claude Cowork 的默认模型;API 定价与 Sonnet 4.5 保持一致(输入 15/百万 Token)。
- 上下文能力:推出 100 万 Token 上下文窗口测试版,单次请求即可容纳整个代码库或数十篇研究论文,并展现出优秀的长期规划推理能力。
- 用户偏好与性能:在早期测试中,70% 的用户在编程体验上偏好 Sonnet 4.6 胜过 Sonnet 4.5;59% 的用户认为其整体表现优于 11 月发布的旗舰模型 Opus 4.5(幻觉更少、指令遵循更好)。
- 计算机使用升级:在 OSWorld 基准测试中取得稳步进展,无需专用 API 即可像人类一样操作真实软件(如浏览复杂电子表格、跨标签页整合信息)。
- 开发者平台与 API 更新:新增自适应思考、扩展思考以及“上下文压缩”测试版(自动总结旧上下文);API 的网络搜索工具现可自动编写并执行代码以过滤搜索结果。
- 生态集成:Claude in Excel 加载项现支持 MCP 连接器,允许 Pro/企业等付费用户直接在 Excel 中接入 S&P Global、PitchBook 等外部工具数据。
- 免费套餐扩充:免费用户默认升级至 Sonnet 4.6,并开放了文件创建、连接器、技能和上下文压缩功能。
- 相关动态:推出了用于扫描代码漏洞的 Claude Code Security 研究预览版,并与卢旺达政府及 Infosys 达成了行业合作。
3) 风险与不足
- 提示词注入风险:在计算机使用过程中,恶意行为者可能会试图通过在网站上隐藏指令来劫持模型(尽管 Sonnet 4.6 的抵御能力已提升至与 Opus 4.6 相当)。
- 计算机使用能力差距:模型在计算机使用方面仍落后于最熟练的人类;且现实世界的计算机任务通常比受控的基准测试(如 OSWorld)更复杂、容错率更低。
- 深度推理上限:对于需要最深度推理的复杂任务(如代码库重构、协调工作流中的多个智能体、极高准确度要求的问题),Opus 4.6 仍然是比 Sonnet 4.6 更强的选择。
正文
Claude Sonnet 4.6 是我们迄今为止能力最强的 Sonnet 模型。它在编程、计算机使用、长上下文推理、智能体规划、知识工作和设计等方面的技能得到了全面升级。此外,Sonnet 4.6 还推出了 100 万 Token 上下文窗口的测试版。
对于免费和 Pro 计划的用户,Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。其定价与 Sonnet 4.5 保持一致,为每百万 Token 3美元(输入)/ 15美元(输出)。
媲美 Opus 级别的卓越性能
Sonnet 4.6 为广大用户带来了大幅提升的编程技能。得益于在一致性、指令遵循等方面的改进,拥有早期访问权限的开发者相比前代产品更青睐 Sonnet 4.6,他们甚至通常认为它优于我们在11月发布的最强模型 Claude Opus 4.5。
过去需要使用 Opus 级别模型才能达到的性能——包括在现实世界中具有经济价值的办公任务——现在通过 Sonnet 4.6 即可实现。与之前的 Sonnet 模型相比,该模型在计算机使用技能上也展现出了重大进步。
与每一个新的 Claude 模型一样,我们对 Sonnet 4.6 进行了广泛的安全评估。总体结果显示,它的安全性与我们近期其他的 Claude 模型相当,甚至更高。我们的安全研究人员得出结论:Sonnet 4.6 具有“广泛热情、诚实、亲社会且有时幽默的性格,安全行为非常出色,没有迹象表明存在高风险的对齐问题”。
计算机使用能力的飞跃
几乎每个组织都有难以轻易自动化的软件,例如在现代 API 出现之前构建的专用系统和工具。过去,为了让 AI 使用这些软件,用户必须构建定制的连接器。但一个能像人类一样使用计算机的模型改变了这一现状。
2024 年 10 月,我们率先推出了通用计算机使用模型。当时我们表示它“仍处于实验阶段——有时显得笨拙且容易出错”,但我们预计它会快速进步。AI 计算机使用标准基准测试 OSWorld 证明了我们模型的巨大进步。该测试在模拟计算机上运行真实软件(Chrome、LibreOffice、VS Code 等)的数百个任务。模型不需要特殊的 API 或专用连接器,而是像人类一样观察计算机并与之交互:点击(虚拟)鼠标和敲击(虚拟)键盘。
在过去的十六个月里,我们的 Sonnet 模型在 OSWorld 上取得了稳步进展。这种进步在基准测试之外也显而易见:早期用户发现,Sonnet 4.6 在浏览复杂电子表格、填写多步网页表单,以及跨多个浏览器标签页整合信息等任务中,展现出了人类级别的能力。
尽管该模型在计算机使用方面仍落后于最熟练的人类,但其进步速度依然令人瞩目。这意味着计算机使用功能在各种工作任务中变得更加实用,且能力更强的模型已指日可待。
同时,计算机使用也带来了风险:恶意行为者可能会试图通过在网站上隐藏指令来劫持模型(即提示词注入攻击)。我们一直在努力提高模型抵御提示词注入的能力。安全评估显示,Sonnet 4.6 相比前代 Sonnet 4.5 有了重大改进,表现与 Opus 4.6 相当。
评估与用户反馈
除了计算机使用,Claude Sonnet 4.6 在各项基准测试中均有全面提升。它以更实用的价格接近了 Opus 级别的智能,适用于更广泛的任务。
- 编程与开发体验:在 Claude Code 的早期测试中,约 70% 的用户更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。用户反馈它能更有效地在修改代码前阅读上下文,并整合共享逻辑而非重复代码,这使得在长时间使用中比早期模型更顺畅。
- 超越前代旗舰:59% 的用户甚至认为 Sonnet 4.6 优于我们11月发布的旗舰模型 Opus 4.5。用户评价 Sonnet 4.6 过度设计和“偷懒”的情况显著减少,指令遵循能力更好,幻觉更少,且在多步任务中的执行更加一致。
- 长上下文与规划能力:100 万 Token 的上下文窗口足以在单次请求中容纳整个代码库、冗长的合同或数十篇研究论文。更重要的是,Sonnet 4.6 能够对所有上下文进行有效推理,这使其在长期规划方面表现出色。在 Vending-Bench Arena 评估(测试模型长期运营模拟业务的能力)中,Sonnet 4.6 展现了有趣的新策略:它在最初十个月大量投资扩大产能,支出远超竞争对手,随后在最后阶段迅速转向盈利,最终遥遥领先。
- 前端与设计:早期客户报告了广泛的改进,其中前端代码和财务分析尤为突出。客户一致认为 Sonnet 4.6 的视觉输出更加精美,具有更好的布局、动画和设计感,且达到生产级结果所需的迭代次数更少。
产品更新与集成
- Claude 开发者平台:Sonnet 4.6 支持自适应思考(adaptive thinking)和扩展思考(extended thinking),并推出了上下文压缩(context compaction)测试版。当对话接近限制时,该功能会自动总结旧上下文,从而增加有效的上下文长度。
- API 更新:Claude 的网络搜索和获取工具现在会自动编写并执行代码来过滤和处理搜索结果,仅将相关内容保留在上下文中,从而提高了响应质量和 Token 效率。此外,代码执行、记忆、程序化工具调用、工具搜索和工具使用示例现已全面可用。
- 性能与推理:Sonnet 4.6 在任何思考力度下(即使关闭扩展思考)都能提供强大的性能。对于需要最深度推理的任务(如代码库重构、协调工作流中的多个智能体,以及对准确度要求极高的问题),Opus 4.6 仍然是最强的选择。
- Claude in Excel:我们的加载项现已支持 MCP 连接器,允许 Claude 与 S&P Global、LSEG、Daloopa、PitchBook、Moody’s 和 FactSet 等日常工具协同工作。用户无需离开 Excel 即可让 Claude 引入外部上下文。如果您已经在 Claude.ai 中设置了 MCP 连接器,这些连接将在 Excel 中自动生效(适用于 Pro、Max、Team 和 Enterprise 计划)。
如何使用 Claude Sonnet 4.6
Claude Sonnet 4.6 现已在所有 Claude 计划、Claude Cowork、Claude Code、我们的 API 以及所有主要云平台上可用。我们还将免费套餐默认升级至 Sonnet 4.6,现已包含文件创建、连接器、技能和上下文压缩功能。
开发者可以通过 Claude API 使用 claude-sonnet-4-6 快速上手。
基准测试说明:
- OSWorld:在受控环境中测试特定计算机任务,是目前最好的衡量标准之一,但现实世界的计算机使用通常更复杂且容错率更低。
- Terminal-Bench 2.0:报告了在我们基础设施上复现的分数及其他实验室公布的分数。Sonnet 4.6 的报告分数是在关闭思考功能的情况下得出的。
- SWE-bench Verified:分数为 10 次试验的平均值。通过修改提示词,我们观察到了 80.2% 的得分。
- Humanity’s Last Exam / BrowseComp / ARC-AGI-2 / MMMU-Pro:在这些测试中,Claude 模型结合了网络搜索、代码执行、程序化工具调用、上下文压缩及最大推理力度等工具配置进行了严格评估。
相关动态
- Claude Code Security:这项内置于网页版 Claude Code 的新功能现已进入有限研究预览阶段。它可扫描代码库中的安全漏洞并提供针对性的软件补丁供人工审查,帮助团队发现传统方法经常遗漏的安全问题。
- Anthropic 与卢旺达政府签署谅解备忘录:共同推进医疗和教育领域的 AI 发展。
- Anthropic 与 Infosys 达成合作:为电信及其他受监管行业构建 AI 智能体。
相关文档
- 推出 Claude Opus 4.6:全面升级的最智能模型;关联理由:同一事件;说明:两篇内容都属于 Anthropic 同期 4.6 系列发布,可对照 Sonnet 与 Opus 的产品定位与能力边界。
- 将前沿网络安全能力赋予防御者:Claude Code Security 开启预览;关联理由:解说;说明:本文仅概述了 Claude Code Security 动态,该文补足其工作机制、人工审批边界与实战发现。
- Anthropic与Infosys达成合作:为受监管行业打造企业级AI智能体;关联理由:上下游;说明:Sonnet 4.6 的模型能力构成企业落地基础,而该文展开了其在受监管行业的交付场景与合作路径。