摘要

1) 一句话总结 Claude Sonnet 4.6 是一款全面升级的高性价比大模型,在编码、计算机操作和长上下文推理等六大维度显著提升,支持 100 万 Token 上下文且价格保持不变。

2) 核心要点

  • 性能与定价:在早期测试中,59% 的用户偏好 Sonnet 4.6 胜过旗舰模型 Opus 4.5;API 定价维持在每百万 Token 15(输出)不变。
  • 计算机操作(Computer Use):在 OSWorld 基准测试中的得分从 16 个月前的 14.9% 跃升至 72.5%,能在无 API 的情况下接近人类水平地操作复杂表格、网页表单及跨标签页整合信息。
  • 100 万 Token 上下文(Beta):支持超长上下文的有效推理与规划,并配合上下文压缩功能(Context Compaction)自动总结旧对话,突破实际可用上下文长度。
  • 编码能力重塑:在长会话中表现更连贯,幻觉更少,能更好地阅读上下文并整合共享逻辑。获得 GitHub、Cursor、Bolt 等开发者平台的高度评价。
  • Web 搜索动态过滤:模型在搜索后会自动写代码过滤 HTML 结果再进行推理。该功能使 Sonnet 4.6 的平均准确率提升 11%,Token 消耗减少 24%。
  • API 与工具生态扩展:正式发布代码执行、记忆功能、程序化工具调用等 5 项新工具;Excel 插件新增支持 MCP 连接器,可直接调用标普全球、PitchBook 等外部金融数据源。
  • 部署策略:已作为免费用户的默认模型;推荐企业和专业用户将 Sonnet 4.6 用于绝大多数日常任务,仅在需要最深层推理时切换至 Opus 4.6。

3) 风险与不足

  • 计算机操作可靠性:尽管 OSWorld 得分达 72.5%,但仍意味着有近三成的任务会失败,目前尚不能完全信任其处理关键业务流程。
  • 动态过滤成本差异:虽然 Web 搜索动态过滤减少了 Sonnet 4.6 的 Token 消耗,但在 Opus 4.6 上实际会增加 Token 成本。
  • 深层推理上限:在代码库重构、多智能体协调等需要最深层推理和“必须精准无误”的极端复杂场景下,Sonnet 4.6 仍不及 Opus 4.6。

正文

Claude Sonnet 4.6 发布了。

在 Claude Code 的早期测试中,用户 70% 的情况下更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。更夸张的是, 59% 的情况下用户甚至更喜欢它而不是去年 11 月发布的旗舰模型 Opus 4.5 。一个便宜的模型,被用户投票打败了贵的模型。

Sonnet 4.6 在 编码、计算机操作(Computer Use)、长上下文推理、智能体规划、知识工作、设计 六个维度同时升级,还带了一个 100 万 token 的上下文窗口 (beta)。价格不变,15 每百万 token。

【声明】本文根据 Anthropic 官方资料整理,文中数据和客户评价均来自官方发布内容,不代表本人真实体验结果。

基准测试全景:水桶型选手

先看数据。

Sonnet 4.6 在 15 项评估中几乎全线领先或接近领先 。智能体工具使用、大规模工具调用、办公任务、金融分析,都是第一梯队。

它和 Opus 4.5、Opus 4.6 的关系可以这么理解:Opus 仍然是天花板,尤其在代码库重构、多智能体协调这些需要最深层推理的场景;但对绝大多数日常任务,Sonnet 4.6 已经够用了,价格只有 Opus 的几分之一。

以前的 Sonnet 是“够用但明显差一截”,现在更像是一个 全面的水桶型选手 ,不是某项特别突出,而是每项都足够好。Databricks 测试发现它在企业文档理解任务(OfficeQA)上的表现已经和 Opus 4.6 持平。Replit 的评价更直接:性价比“惊人”, 任务难度越高表现越强劲 。

Computer Use:16 个月,从实验品到接近人类水平

2024 年 10 月,Anthropic 发布了第一个通用计算机操作模型。当时他们自己的措辞是“仍处于实验阶段,笨重且易出错”。

16 个月后,OSWorld(AI 计算机操作的标准基准测试)上的得分从 14.9% 涨到了 72.5% 。

翻了近 5 倍 。OSWorld 测试的不是“点个按钮”这种简单操作,它要求模型在模拟电脑上运行 Chrome、LibreOffice、VS Code 这些真实软件,没有特殊的 API 接口,模型得像人一样看屏幕、点鼠标、敲键盘。

早期用户发现 Sonnet 4.6 在几个场景中 接近人类水平 :

  • 操作复杂电子表格

  • 填写多步骤网页表单

  • 跨多个浏览器标签整合信息

Pace 保险公司在自己的基准测试中给了 94% 的准确率 ,是他们测过的计算机操作最强模型。Convey 的评价类似:明显优于评估中测试过的所有其他模型。

72.5% 也意味着还有接近三成的任务会失败,关键业务流程现在还不到完全信任的时候。但进步速度摆在这里, 16 个月翻 5 倍 ,而且 Anthropic 在安全防护上也没放松,Sonnet 4.6 对提示词注入攻击(恶意网站通过隐藏指令劫持模型)的抵抗力比 Sonnet 4.5 有大幅提升。

每个公司都有一些没有 API 的老系统,过去想自动化只能开发定制连接器。一个能像人一样操作电脑的 AI,正在让这条路越来越现实。

100 万 Token 上下文窗口

Sonnet 4.6 的上下文窗口扩展到 100 万 token (beta 阶段)。大致相当于整个代码库、一份长合同、或者几十篇论文。

窗口大不等于用得好,很多模型在长上下文中“记住了但推理不了”。Sonnet 4.6 的改进在于它能在大上下文里做 有效推理 。

一个有意思的验证来自 Vending-Bench Arena 测试,让不同 AI 模型模拟经营企业,相互竞争谁赚的利润最多。Sonnet 4.6 自己琢磨出了一套策略:前 10 个模拟月大幅投入扩充产能,支出远超对手,然后在最后阶段急转弯专注盈利。这种“先亏后赚”的打法让它最终远超竞争对手。

这说明模型不只是在处理当前回合,而是 真的在利用长上下文做规划 。

配合上下文压缩功能(Context Compaction,beta),对话快到上限时系统会自动总结旧内容,实际可用的上下文比 100 万 token 还要长。适用场景:大型代码库分析、长合同审查、文献综述这些过去需要人工分段处理的工作。

编码能力:开发者最在乎的部分

编码是 Sonnet 系列最核心的使用场景。Sonnet 4.6 的提升不是“快了一点”或“对了一些”,而是 编码方式本身变了 。

用户反馈集中在几个点:

  • 修改代码前能更好地 阅读上下文 (不再一上来就改)

  • 会 整合共享逻辑 而不是复制粘贴

  • 更少过度工程化

  • 更少偷懒

  • 更好地遵循指令

  • 幻觉更少 了

  • 多步骤任务的执行连贯性也更好了

这些改进在 长会话 中尤其明显。用过 AI 编码工具的人都知道,对话长了之后模型容易“忘事”或者“乱来”,Sonnet 4.6 在这方面让长会话不再那么令人头疼。

来看几家用 Sonnet 4.6 做编码的公司怎么说:

  • GitHub :在复杂代码修复上表现优异,尤其是需要跨大型代码库搜索的场景,解决率和稳定性都很高

  • Cursor :对 Sonnet 4.5 的“全方位显著提升”,包括长跨度任务和更难的问题

  • Bolt :在复杂应用构建和 Bug 修复上交付了前沿级的结果,正在成为处理深度代码库工作的首选,而这类工作过去需要更贵的模型

  • Rakuten :Sonnet 4.6 写出了他们测试过的 最佳 iOS 代码 ,规范遵从性更好、架构更优,一次成型,还主动使用了他们没有要求的现代工具

  • Cognition :在 Bug 检测上“有力地缩小了与 Opus 的差距”,让他们能并行运行更多审查程序,捕获更多 Bug,成本不增加

API 与工具生态

除了模型本身,Anthropic 同步更新了一批 API 工具。

Web Search 动态过滤 是这批更新里最值得关注的。搜索是一个极其消耗 token 的操作,模型需要发起查询、拉取搜索结果、获取网页完整 HTML、再从中推理出答案。问题是拉进来的内容大量无关,既浪费 token 又拉低回复质量。

动态过滤的做法是:搜索完成后,Claude 自动写代码来过滤和处理结果 ,只保留相关内容。不是让模型直接推理海量 HTML,而是先用代码筛选,再推理。

效果:

  • BrowseComp 基准:Sonnet 4.6 从 33.3% 提升到 46.6%,Opus 4.6 从 45.3% 提升到 61.6%

  • DeepsearchQA :Sonnet 从 52.6% 到 59.4%,Opus 从 69.8% 到 77.3%

  • 平均准确率提升 11% ,token 消耗减少 24%

Quora/Poe 的评价是,Opus 4.6 配合动态过滤“在内部评估中达到了最高准确率”,模型“表现得像一个真正的研究员,用 Python 解析、过滤、交叉引用结果,而不是在上下文中推理原始 HTML”。

【注:token 消耗减少的数据对 Sonnet 4.6 成立,但 Opus 4.6 上 token 成本实际有所增加。具体成本取决于使用场景,Anthropic 建议开发者用自己的真实查询做测试。】

正式发布的工具还有五个:

  • 代码执行 :让智能体在对话中运行代码来过滤上下文、分析数据

  • 记忆功能 :跨对话存储和检索信息

  • 程序化工具调用 :在代码中执行多工具工作流

  • 工具搜索 :从大型工具库中动态发现工具

  • 工具使用示例 :在工具定义中提供示例调用

对金融用户,Excel 插件现在支持 MCP 连接器 (Model Context Protocol,让 AI 模型连接外部工具和数据源的协议),Claude 能直接在 Excel 里调用 S&P Global、LSEG、Daloopa、PitchBook、Moody’s、FactSet 等数据源,不用离开表格就能引入外部数据。

谁该用,怎么用

免费用户 :不用做任何事,默认模型已经升级到 Sonnet 4.6。免费版还开放了文件创建、连接器、技能和上下文压缩功能。

Pro/Team 用户 :日常任务直接用 Sonnet 4.6,大多数场景下已经接近 Opus 水平。只有代码库重构、多智能体协调、或者“必须做到精准无误”的任务,再切换到 Opus 4.6。

开发者 :API 里用 claude-sonnet-4-6 调用,价格和 Sonnet 4.5 一样,15 每百万 token。建议试试不同的思考强度设置,即使关闭扩展思维,Sonnet 4.6 的表现也很强。

企业用户 :Computer Use 加上 MCP 连接器的组合,正在打开一条新路,尤其是有大量没有 API 的老系统的公司。过去这类系统只能靠人工操作或者开发定制连接器来自动化,现在 AI 可以直接像人一样操作。Pace 保险在这方面已经看到了 94% 的准确率。

Opus 4.6 不会被取代,它仍然是最深层推理的首选。但对大多数人来说,Sonnet 4.6 已经够了,而且便宜很多。 便宜不再等于弱。

参考资料:

关联主题