摘要
1) 一句话总结 Claude Code 凭借强大的 Claude 4 模型基础、18 个内置工具、无损的完整上下文传递以及无 IDE 包袱的纯命令行设计,在编程与 Agent 能力上显著领先于 OpenAI 的 Codex。
2) 关键要点
- 模型基础:依赖于 Claude 4(Sonnet 和 Opus)在编程与 Agent 能力上的突出表现。
- 内置工具体系:内置多达 18 个工具(如 Grep、命令执行、TODO 读写、架构分析等),完整模拟人类程序员“计划-分析-检索-解决-测试”的工作流。
- Task 工具机制:通过创建独立的“分身”执行子任务,确保子任务专注且不干扰主任务上下文;子任务继承工具能力但不允许编辑代码以防破坏历史信息。
- 无损上下文:不计成本地默认不压缩任何上下文信息,每次请求完整传递历史记录与工具调用结果,避免了类似 Cursor 因压缩导致的上下文丢失。
- 纯命令行(CLI)优势:摆脱了 IDE(如打开的 Tabs、光标位置)的上下文冗余包袱,由模型自主调用工具精准获取所需上下文。
- 强化学习优势:在今年 2 月正式发布前已在 Anthropic 内部广泛使用,并在 Claude 4 训练中结合实际应用数据进行了大量强化学习。
- 数据飞轮策略:Anthropic 采用包月模式推广,意在通过亏本出售服务来收集海量真实编程行为数据,为下一代模型训练积累高质量数据。
3) 风险与不足(原文明确提及)
- Anthropic 的商业风险:采用包月使用模式推广 Claude Code 明显是一种亏本策略。
- OpenAI 的模型与训练差距:Codex 进展落后数月,未能充分进行针对编程工具和实际开发场景的强化训练。
- OpenAI 的产品能力不足:即便是付费的 o1 pro 用户,目前也只能使用功能相对较弱的 codex-mini 模型,难以满足真正复杂的编程需求。
- OpenAI 的研发方向偏差:Codex 团队花费大量精力用 Rust 重写 CLI,偏离了用户只关心“最终产品能否有效解决实际问题”的核心痛点。
正文

Claude Code 的强大,首先来自其强大的模型基础。无论是 Claude 4 的 Sonnet 还是 Opus,这些模型在编程与 Agent 能力方面都有突出的表现,这是它获得成功的根本前提。
其次,Claude Code 强大在于它丰富而实用的内置工具体系。Claude Code 内置了多达 18 个工具,其中包括用于检索代码的 Grep 工具、执行命令的工具、读写 TODO 的工具,以及专门用于架构分析的工具等等。这些工具帮助模型模拟了人类程序员的解决问题思路:制定计划、分析问题、检索代码库中的相关代码位置、解决实际问题,以及进行测试和验证。
在众多工具中,最神奇且值得反复强调的,就是 Task 工具。它能为 Claude Code 创建独立的“分身”,专门用于执行子任务。这样一来,子任务可以完全专注于特定问题,不被主任务的其他上下文所干扰。同时,主任务也不会因为子任务的额外上下文而变得混乱。此外,这些子任务还能继承主模型的工具能力,只不过它们不允许编辑代码,以防止对主任务上下文的历史信息造成干扰。
再者,Claude Code 还有一个不计成本的优势,即它默认不压缩任何上下文信息。每一次请求都会完整地传递过去,包括历史会话记录、工具调用及返回结果,因此完全避免了上下文丢失的情况。相比之下,其他类似工具(如 Cursor)则出于成本考虑,频繁压缩上下文,甚至执行几次之后就暂停,询问用户是否继续操作。
此外,Claude Code 是一个纯粹的命令行(CLI)程序,没有 IDE 的包袱。以 Cursor 等 IDE 为例,每次请求都需要处理复杂的 IDE 上下文信息,比如打开了哪些 Tabs,每个 Tab 的代码具体是什么,当前光标所处的位置等等。不提供这些信息会降低模型对上下文的理解,提供了又会占用过多的上下文空间,影响相关度。而 Claude Code 不受此困扰,它会自主调用工具进行代码检索或联网查询,精准获取自己真正需要的上下文信息,从而避免了 IDE 上下文冗余的问题。
那么,为什么 OpenAI 的 Codex 相比之下明显落后了呢?
我认为,这根本上还是模型能力的问题。虽然 OpenAI 也针对编程需求专门训练了 Codex 模型(但目前尚未公开发布最新成果),其进展明显已被 Anthropic 甩开了一段距离。Claude Code 于今年 2 月份正式发布之前,Anthropic 内部早已广泛使用,并且得到了极佳的反馈。我猜测,在 Claude 4 模型的训练过程中,Anthropic 有意结合了 Claude Code 工具在内部场景和数据中的实际应用情况,进行了大量的强化学习。这种深度定制使得 Claude Code 在 Claude 4 模型中表现尤为突出。
相比之下,OpenAI 明显晚了数月,目前也未能充分进行针对编程工具和实际开发场景的强化训练,因此需要更多时间来弥补这个差距。
此外,Anthropic 采用包月使用模式推广 Claude Code,这明显是一种亏本的策略。我推测 Anthropic 更加看重的是用户在使用过程中产生的海量行为数据。通过分析这些数据,Anthropic 能够洞察各种真实的编程场景、工具使用方式和具体问题的解决效果,这些数据对于下一代模型的训练至关重要。这正是传说中的“数据飞轮效应”,Anthropic 愿意亏损出售服务,正是为了积累高质量的数据。
与此相反,OpenAI 在这方面表现令人失望。目前即便是付费的 o1 pro 用户,也只能使用功能相对较弱的 codex-mini 模型,难以满足真正复杂的编程需求。
同时,Codex 团队还花费大量精力将 codex-cli 用 Rust 重写。但我认为,这种技术细节上的优化并非核心痛点。毕竟用户关心的是产品的实际表现,而非使用的具体技术语言。即使是使用 nodejs,慢一点又何妨?只要最终结果足够好,Agent 运作几十分钟也完全可以接受。用户在意的从来不是语言本身的性能差异或额外安装一个 nodejs,而是最终产品能够真正有效地解决实际问题!
相关文档
- Claude Code 为何如此强大?Anthropic 万字长文揭秘 AI Agent 工具开发五大“心法”;关联理由:观点一致;说明:两文都把 Claude Code 的领先性归因于模型能力与工具体系的协同。
- 【访谈对话】造过 Codex 的人,为什么每天用 Claude Code;关联理由:解说;说明:该访谈从 CLI 架构与上下文拆分机制补充了本文对优势来源的解释。
- Claude Code 团队的 10 个内部技巧,但你不一定都要学;关联理由:上下游;说明:本文解释“为什么强”,该文展示这些能力在团队日常工作流中的落地方式。