Claude Code 强大的秘密究竟是什么？

摘要

1) 一句话总结 Claude Code 凭借强大的 Claude 4 模型基础、18 个内置工具、无损的完整上下文传递以及无 IDE 包袱的纯命令行设计，在编程与 Agent 能力上显著领先于 OpenAI 的 Codex。

2) 关键要点

模型基础：依赖于 Claude 4（Sonnet 和 Opus）在编程与 Agent 能力上的突出表现。
内置工具体系：内置多达 18 个工具（如 Grep、命令执行、TODO 读写、架构分析等），完整模拟人类程序员“计划-分析-检索-解决-测试”的工作流。
Task 工具机制：通过创建独立的“分身”执行子任务，确保子任务专注且不干扰主任务上下文；子任务继承工具能力但不允许编辑代码以防破坏历史信息。
无损上下文：不计成本地默认不压缩任何上下文信息，每次请求完整传递历史记录与工具调用结果，避免了类似 Cursor 因压缩导致的上下文丢失。
纯命令行（CLI）优势：摆脱了 IDE（如打开的 Tabs、光标位置）的上下文冗余包袱，由模型自主调用工具精准获取所需上下文。
强化学习优势：在今年 2 月正式发布前已在 Anthropic 内部广泛使用，并在 Claude 4 训练中结合实际应用数据进行了大量强化学习。
数据飞轮策略：Anthropic 采用包月模式推广，意在通过亏本出售服务来收集海量真实编程行为数据，为下一代模型训练积累高质量数据。

3) 风险与不足（原文明确提及）

Anthropic 的商业风险：采用包月使用模式推广 Claude Code 明显是一种亏本策略。
OpenAI 的模型与训练差距：Codex 进展落后数月，未能充分进行针对编程工具和实际开发场景的强化训练。
OpenAI 的产品能力不足：即便是付费的 o1 pro 用户，目前也只能使用功能相对较弱的 codex-mini 模型，难以满足真正复杂的编程需求。
OpenAI 的研发方向偏差：Codex 团队花费大量精力用 Rust 重写 CLI，偏离了用户只关心“最终产品能否有效解决实际问题”的核心痛点。

正文

Claude Code 的强大，首先来自其强大的模型基础。无论是 Claude 4 的 Sonnet 还是 Opus，这些模型在编程与 Agent 能力方面都有突出的表现，这是它获得成功的根本前提。

其次，Claude Code 强大在于它丰富而实用的内置工具体系。Claude Code 内置了多达 18 个工具，其中包括用于检索代码的 Grep 工具、执行命令的工具、读写 TODO 的工具，以及专门用于架构分析的工具等等。这些工具帮助模型模拟了人类程序员的解决问题思路：制定计划、分析问题、检索代码库中的相关代码位置、解决实际问题，以及进行测试和验证。

在众多工具中，最神奇且值得反复强调的，就是 Task 工具。它能为 Claude Code 创建独立的“分身”，专门用于执行子任务。这样一来，子任务可以完全专注于特定问题，不被主任务的其他上下文所干扰。同时，主任务也不会因为子任务的额外上下文而变得混乱。此外，这些子任务还能继承主模型的工具能力，只不过它们不允许编辑代码，以防止对主任务上下文的历史信息造成干扰。

再者，Claude Code 还有一个不计成本的优势，即它默认不压缩任何上下文信息。每一次请求都会完整地传递过去，包括历史会话记录、工具调用及返回结果，因此完全避免了上下文丢失的情况。相比之下，其他类似工具（如 Cursor）则出于成本考虑，频繁压缩上下文，甚至执行几次之后就暂停，询问用户是否继续操作。

此外，Claude Code 是一个纯粹的命令行（CLI）程序，没有 IDE 的包袱。以 Cursor 等 IDE 为例，每次请求都需要处理复杂的 IDE 上下文信息，比如打开了哪些 Tabs，每个 Tab 的代码具体是什么，当前光标所处的位置等等。不提供这些信息会降低模型对上下文的理解，提供了又会占用过多的上下文空间，影响相关度。而 Claude Code 不受此困扰，它会自主调用工具进行代码检索或联网查询，精准获取自己真正需要的上下文信息，从而避免了 IDE 上下文冗余的问题。

那么，为什么 OpenAI 的 Codex 相比之下明显落后了呢？

我认为，这根本上还是模型能力的问题。虽然 OpenAI 也针对编程需求专门训练了 Codex 模型（但目前尚未公开发布最新成果），其进展明显已被 Anthropic 甩开了一段距离。Claude Code 于今年 2 月份正式发布之前，Anthropic 内部早已广泛使用，并且得到了极佳的反馈。我猜测，在 Claude 4 模型的训练过程中，Anthropic 有意结合了 Claude Code 工具在内部场景和数据中的实际应用情况，进行了大量的强化学习。这种深度定制使得 Claude Code 在 Claude 4 模型中表现尤为突出。

相比之下，OpenAI 明显晚了数月，目前也未能充分进行针对编程工具和实际开发场景的强化训练，因此需要更多时间来弥补这个差距。

此外，Anthropic 采用包月使用模式推广 Claude Code，这明显是一种亏本的策略。我推测 Anthropic 更加看重的是用户在使用过程中产生的海量行为数据。通过分析这些数据，Anthropic 能够洞察各种真实的编程场景、工具使用方式和具体问题的解决效果，这些数据对于下一代模型的训练至关重要。这正是传说中的“数据飞轮效应”，Anthropic 愿意亏损出售服务，正是为了积累高质量的数据。

与此相反，OpenAI 在这方面表现令人失望。目前即便是付费的 o1 pro 用户，也只能使用功能相对较弱的 codex-mini 模型，难以满足真正复杂的编程需求。

同时，Codex 团队还花费大量精力将 codex-cli 用 Rust 重写。但我认为，这种技术细节上的优化并非核心痛点。毕竟用户关心的是产品的实际表现，而非使用的具体技术语言。即使是使用 nodejs，慢一点又何妨？只要最终结果足够好，Agent 运作几十分钟也完全可以接受。用户在意的从来不是语言本身的性能差异或额外安装一个 nodejs，而是最终产品能够真正有效地解决实际问题！

wsl-docs

探索

Claude Code 强大的秘密究竟是什么？

摘要

正文

那么，为什么 OpenAI 的 Codex 相比之下明显落后了呢？

相关文档

关联主题

关系图谱

目录

反向链接