摘要

1) 一句话总结 Claude Code 凭借强大的 Claude 4 模型基础、18 个内置工具、无损的完整上下文传递以及无 IDE 包袱的纯命令行设计,在编程与 Agent 能力上显著领先于 OpenAI 的 Codex。

2) 关键要点

  • 模型基础:依赖于 Claude 4(Sonnet 和 Opus)在编程与 Agent 能力上的突出表现。
  • 内置工具体系:内置多达 18 个工具(如 Grep、命令执行、TODO 读写、架构分析等),完整模拟人类程序员“计划-分析-检索-解决-测试”的工作流。
  • Task 工具机制:通过创建独立的“分身”执行子任务,确保子任务专注且不干扰主任务上下文;子任务继承工具能力但不允许编辑代码以防破坏历史信息。
  • 无损上下文:不计成本地默认不压缩任何上下文信息,每次请求完整传递历史记录与工具调用结果,避免了类似 Cursor 因压缩导致的上下文丢失。
  • 纯命令行(CLI)优势:摆脱了 IDE(如打开的 Tabs、光标位置)的上下文冗余包袱,由模型自主调用工具精准获取所需上下文。
  • 强化学习优势:在今年 2 月正式发布前已在 Anthropic 内部广泛使用,并在 Claude 4 训练中结合实际应用数据进行了大量强化学习。
  • 数据飞轮策略:Anthropic 采用包月模式推广,意在通过亏本出售服务来收集海量真实编程行为数据,为下一代模型训练积累高质量数据。

3) 风险与不足(原文明确提及)

  • Anthropic 的商业风险:采用包月使用模式推广 Claude Code 明显是一种亏本策略。
  • OpenAI 的模型与训练差距:Codex 进展落后数月,未能充分进行针对编程工具和实际开发场景的强化训练。
  • OpenAI 的产品能力不足:即便是付费的 o1 pro 用户,目前也只能使用功能相对较弱的 codex-mini 模型,难以满足真正复杂的编程需求。
  • OpenAI 的研发方向偏差:Codex 团队花费大量精力用 Rust 重写 CLI,偏离了用户只关心“最终产品能否有效解决实际问题”的核心痛点。

正文

Image 1

Claude Code 的强大,首先来自其强大的模型基础。无论是 Claude 4 的 Sonnet 还是 Opus,这些模型在编程与 Agent 能力方面都有突出的表现,这是它获得成功的根本前提。

其次,Claude Code 强大在于它丰富而实用的内置工具体系。Claude Code 内置了多达 18 个工具,其中包括用于检索代码的 Grep 工具、执行命令的工具、读写 TODO 的工具,以及专门用于架构分析的工具等等。这些工具帮助模型模拟了人类程序员的解决问题思路:制定计划、分析问题、检索代码库中的相关代码位置、解决实际问题,以及进行测试和验证。

在众多工具中,最神奇且值得反复强调的,就是 Task 工具。它能为 Claude Code 创建独立的“分身”,专门用于执行子任务。这样一来,子任务可以完全专注于特定问题,不被主任务的其他上下文所干扰。同时,主任务也不会因为子任务的额外上下文而变得混乱。此外,这些子任务还能继承主模型的工具能力,只不过它们不允许编辑代码,以防止对主任务上下文的历史信息造成干扰。

再者,Claude Code 还有一个不计成本的优势,即它默认不压缩任何上下文信息。每一次请求都会完整地传递过去,包括历史会话记录、工具调用及返回结果,因此完全避免了上下文丢失的情况。相比之下,其他类似工具(如 Cursor)则出于成本考虑,频繁压缩上下文,甚至执行几次之后就暂停,询问用户是否继续操作。

此外,Claude Code 是一个纯粹的命令行(CLI)程序,没有 IDE 的包袱。以 Cursor 等 IDE 为例,每次请求都需要处理复杂的 IDE 上下文信息,比如打开了哪些 Tabs,每个 Tab 的代码具体是什么,当前光标所处的位置等等。不提供这些信息会降低模型对上下文的理解,提供了又会占用过多的上下文空间,影响相关度。而 Claude Code 不受此困扰,它会自主调用工具进行代码检索或联网查询,精准获取自己真正需要的上下文信息,从而避免了 IDE 上下文冗余的问题。


那么,为什么 OpenAI 的 Codex 相比之下明显落后了呢?

我认为,这根本上还是模型能力的问题。虽然 OpenAI 也针对编程需求专门训练了 Codex 模型(但目前尚未公开发布最新成果),其进展明显已被 Anthropic 甩开了一段距离。Claude Code 于今年 2 月份正式发布之前,Anthropic 内部早已广泛使用,并且得到了极佳的反馈。我猜测,在 Claude 4 模型的训练过程中,Anthropic 有意结合了 Claude Code 工具在内部场景和数据中的实际应用情况,进行了大量的强化学习。这种深度定制使得 Claude Code 在 Claude 4 模型中表现尤为突出。

相比之下,OpenAI 明显晚了数月,目前也未能充分进行针对编程工具和实际开发场景的强化训练,因此需要更多时间来弥补这个差距。

此外,Anthropic 采用包月使用模式推广 Claude Code,这明显是一种亏本的策略。我推测 Anthropic 更加看重的是用户在使用过程中产生的海量行为数据。通过分析这些数据,Anthropic 能够洞察各种真实的编程场景、工具使用方式和具体问题的解决效果,这些数据对于下一代模型的训练至关重要。这正是传说中的“数据飞轮效应”,Anthropic 愿意亏损出售服务,正是为了积累高质量的数据。

与此相反,OpenAI 在这方面表现令人失望。目前即便是付费的 o1 pro 用户,也只能使用功能相对较弱的 codex-mini 模型,难以满足真正复杂的编程需求。

同时,Codex 团队还花费大量精力将 codex-cli 用 Rust 重写。但我认为,这种技术细节上的优化并非核心痛点。毕竟用户关心的是产品的实际表现,而非使用的具体技术语言。即使是使用 nodejs,慢一点又何妨?只要最终结果足够好,Agent 运作几十分钟也完全可以接受。用户在意的从来不是语言本身的性能差异或额外安装一个 nodejs,而是最终产品能够真正有效地解决实际问题!


相关文档

关联主题