摘要
1) 一句话总结
OpenAI 推出运行速度提升 25% 的 GPT-5.3-Codex,该模型结合了顶尖的编程与推理能力,已从单一的代码编写工具进化为可处理全生命周期开发及通用计算机任务的交互式智能体。
2) 核心要点
- 性能与速度提升:结合了 GPT-5.2-Codex 的编程性能与 GPT-5.2 的推理能力,整体运行速度提升了 25%。
- 基准测试突破:在多项测试中达到 SOTA 水平,包括 SWE-Bench Pro(56.8%)、Terminal-Bench 2.0(77.3%,且消耗 token 更少)以及视觉桌面环境测试 OSWorld-Verified(64.7%)。
- 通用智能体进化:能力覆盖软件全生命周期(调试、部署、撰写 PRD 等),并在 GDPval 测试中追平 GPT-5.2(70.9%),可胜任 44 种职业的通用知识工作(如数据分析、制作幻灯片)。
- 长效与实时交互:能够自主执行长达数天、消耗数百万 token 的复杂任务(如从零迭代开发游戏),并支持人类在不丢失上下文的情况下进行实时引导和干预。
- 深度参与内部研发:OpenAI 团队使用该模型早期版本成功调试了训练过程、定位了上下文渲染 bug,并在发布期间动态扩展了 GPU 集群以应对流量激增。
- 底层硬件支持:模型基于 NVIDIA GB200 NVL72 系统进行协同设计、训练和部署。
- 可用性状态:现已向 ChatGPT 付费计划用户开放(覆盖应用程序、CLI、IDE 扩展和网页端),API 访问权限即将推出。
- 网络安全投资:承诺提供 1000 万美元 API 额度用于加速开源软件和关键基础设施的网络防御,并推出“网络可信访问”试点计划。
3) 风险与不足
- 高网络安全风险评级:根据 OpenAI 备灾框架,该模型是首个在网络安全相关任务中被评为“高能力(High capability)”级别的模型,具备双重用途风险。
- 高风险请求降级:为防止滥用,系统检测到具有较高网络风险的请求时,会自动将其从 GPT-5.3-Codex 路由(降级)至 GPT-5.2。
- API 尚未开放:目前 API 访问权限尚未就绪,官方仍在努力确保其安全开放。
正文
OpenAI 正式推出全新模型 GPT-5.3-Codex,进一步解锁了 Codex 的潜力。作为迄今为止最强大的智能体编程模型(Agentic coding model),它将 GPT-5.2-Codex 的前沿编程性能与 GPT-5.2 的推理和专业知识能力合二为一,并且运行速度提升了 25%。
这使得该模型能够承担涉及研究、工具使用和复杂执行的长时间运行任务。就像与同事协作一样,你可以在 GPT-5.3-Codex 工作时对其进行引导和实时交互,且不会丢失上下文。
值得一提的是,GPT-5.3-Codex 是我们首个在自身研发过程中发挥关键作用的模型。Codex 团队使用早期版本来调试训练过程、管理部署,并诊断测试和评估结果。Codex 在加速自身开发方面展现出的能力令我们的团队感到震撼。
借助 GPT-5.3-Codex,Codex 已经从一个只能编写和审查代码的智能体,进化为一个几乎能完成开发者和专业人士在电脑上所能做的任何事情的通用智能体。
前沿的智能体能力
我们在评估编程、智能体和现实世界能力的四大基准测试中对模型进行了测试。GPT-5.3-Codex 在 SWE-Bench Pro 和 Terminal-Bench 上创下了行业新高,并在 OSWorld 和 GDPval 上表现强劲。
- SWE-Bench Pro:这是一项针对现实世界软件工程的严格评估。相比仅测试 Python 的 SWE-bench Verified,Pro 版本涵盖四种语言,更具抗污染性、挑战性、多样性,也更贴近工业界。GPT-5.3-Codex 在此测试中达到了最先进(SOTA)水平。
- Terminal-Bench 2.0:该测试衡量编程智能体所需的终端操作技能。GPT-5.3-Codex 远超此前的最高水平,且消耗的 token 数量比以往任何模型都少,让用户能够构建更多内容。
前沿的编程能力、美学设计的提升以及代码的精简,使得该模型能够完成令人惊叹的工作——它可以在几天内从零开始构建功能高度复杂的应用程序和游戏。为了测试其网页开发和长时间运行的智能体能力,我们要求它自主开发两款游戏:Codex 应用程序发布时赛车游戏的 2.0 版本,以及一款潜水游戏。仅通过使用“开发网页游戏”技能和预设的通用后续提示词(如“修复 bug”或“改进游戏”),GPT-5.3-Codex 消耗了数百万个 token 对游戏进行了自主迭代。
与 GPT-5.2-Codex 相比,当被要求制作日常网站时,GPT-5.3-Codex 能更好地理解用户意图。面对简单或不够明确的提示词,它现在会默认生成功能更丰富、设置更合理的网站,为你提供一个更强大的初始画布。例如,在构建落地页时,GPT-5.3-Codex 会自动将“包年套餐”显示为折算后的“月费”,使折扣显得清晰且有意图;它还会自动生成包含三条不同用户评价的轮播图,而不是单条评价,让页面默认就具备生产级别的完整度。
软件工程师、设计师、产品经理和数据科学家的工作远不止写代码。GPT-5.3-Codex 旨在支持软件生命周期中的所有工作:调试、部署、监控、撰写产品需求文档(PRD)、编辑文案、用户研究、测试、指标分析等。它的智能体能力甚至超越了软件范畴,无论是制作幻灯片还是在表格中分析数据,它都能助你一臂之力。
- GDPval:这是一项衡量模型在 44 种职业中完成明确知识工作任务(如制作演示文稿、电子表格等)表现的评估。GPT-5.3-Codex 在此测试中表现强劲,追平了 GPT-5.2。
- OSWorld:这是一个智能体计算机使用基准测试,要求智能体在视觉桌面环境中完成生产力任务。GPT-5.3-Codex 展现出了远超以往 GPT 模型的计算机使用能力。
综合来看,这些结果表明 GPT-5.3-Codex 不仅在单个任务上表现更好,而且标志着我们向“单一、通用的智能体”迈出了关键一步——它能够在现实世界技术工作的全领域中进行推理、构建和执行。
交互式协作者
随着模型能力变得越来越强大,核心痛点已经从“智能体能做什么”转移到了“人类如何更轻松地交互、引导和监督多个并行工作的智能体”。
Codex 应用程序让管理和引导智能体变得更加容易,而 GPT-5.3-Codex 让这一过程更具交互性。新模型在工作时会提供频繁的更新,让你随时掌握关键决策和进度。你无需干等最终结果,而是可以进行实时交互——提出问题、讨论方案并引导其走向正确的解决方案。GPT-5.3-Codex 会解释它正在做的事情,响应反馈,并让你从头到尾参与其中。(可在应用程序的“设置 > 常规 > 后续行为”中开启引导功能)。
我们如何使用 Codex 训练和部署自身
近期 Codex 的快速进步,建立在 OpenAI 内部跨越数月甚至数年的研究项目成果之上。Codex 正在加速这些研究项目,许多研究人员和工程师表示,他们今天的工作方式与两个月前已截然不同。
即使是早期版本的 GPT-5.3-Codex 也展现出了卓越的能力,帮助我们的团队改进训练并支持后续版本的部署:
- 研究团队:使用 Codex 监控和调试本次发布的训练运行。它不仅解决了基础设施的调试问题,还帮助追踪整个训练过程中的模式,对交互质量进行深度分析,提出修复建议,并为人类研究员构建了丰富的应用程序,以精确了解模型行为与先前版本的差异。
- 工程团队:使用 Codex 优化和适配 GPT-5.3-Codex 的测试框架。当遇到影响用户的奇怪边缘情况时,团队成员利用 Codex 找出了上下文渲染的 bug,并定位了缓存命中率低的根本原因。在发布期间,它还通过动态扩展 GPU 集群来适应流量激增并保持延迟稳定。
- Alpha 测试阶段:
- 一位研究员希望了解 GPT-5.3-Codex 每轮对话能多完成多少工作及其带来的生产力差异。模型自主编写了几个简单的正则表达式分类器,用于估算澄清频率、用户正负面反馈及任务进度,随后在所有会话日志上进行可扩展运行,并生成了包含结论的报告。
- 由于新模型与前代差异巨大,测试数据呈现出许多反直觉的结果。一位数据科学家与模型合作构建了新的数据管道,并实现了比标准仪表板工具丰富得多的数据可视化。Codex 在不到 3 分钟内,对数千个数据点进行了联合分析并简明扼要地总结了关键洞察。
这些新能力为我们的研究、工程和产品团队带来了强大的加速效应。
筑牢网络安全防线
近几个月来,我们在网络安全任务的模型性能上取得了显著提升。同时,我们也在准备更强大的网络安全防护措施,以支持防御性使用和更广泛的生态系统弹性。
根据我们的备灾框架(Preparedness Framework),GPT-5.3-Codex 是首个在网络安全相关任务中被评为**“高能力(High capability)”**级别的模型,也是我们首个直接训练用于识别软件漏洞的模型。虽然目前没有确凿证据表明它可以端到端地自动化网络攻击,但我们采取了预防性方法,部署了迄今为止最全面的网络安全防护栈。缓解措施包括安全训练、自动监控、高级能力的可信访问,以及包含威胁情报的执行管道。
由于网络安全具有双重用途,我们采取了基于证据的迭代方法,在减缓滥用的同时加速防御者发现和修复漏洞的能力。为此,我们推出了**“网络可信访问(Trusted Access for Cyber)”**试点计划,以加速网络防御研究。
为了防止滥用,系统检测到具有较高网络风险的请求可能会自动从 GPT-5.3-Codex 路由到 GPT-5.2。进行安全研究的开发者可以通过申请可信访问计划获取完整权限。
我们还在投资生态系统防护,例如扩大安全研究智能体 Aardvark 的内部测试,并与开源维护者合作,为 Next.js 等广泛使用的项目提供免费的代码库扫描(上周已有安全研究员利用 Codex 发现了相关漏洞)。此外,在 2023 年启动的 100 万美元网络安全资助计划的基础上,我们承诺再提供 1000 万美元的 API 额度,以利用我们最强大的模型加速网络防御,特别是针对开源软件和关键基础设施系统。
可用性与底层支持
GPT-5.3-Codex 现已向 ChatGPT 付费计划用户开放,支持所有 Codex 适用平台:应用程序、CLI、IDE 扩展和网页端。我们正在努力尽快安全地开放 API 访问。
得益于基础设施和推理栈的改进,GPT-5.3-Codex 为用户的运行速度提升了 25%,带来了更快的交互和结果反馈。
GPT-5.3-Codex 是在 NVIDIA GB200 NVL72 系统上进行协同设计、训练和提供服务的,我们对 NVIDIA 的合作表示感谢。
展望未来
借助 GPT-5.3-Codex,Codex 正在超越单纯的“编写代码”,转变为操作计算机并端到端完成工作的工具。通过不断拓展编程智能体的能力边界,我们也解锁了更广泛的知识工作——从构建和部署软件,到研究、分析和执行复杂任务。最初致力于成为最佳编程智能体的目标,如今已成为打造更通用的计算机协作者的基础。
附录:基准测试数据对比
| 测试项目 | GPT-5.3-Codex (xhigh) | GPT-5.2-Codex (xhigh) | GPT-5.2 (xhigh) |
|---|---|---|---|
| SWE-Bench Pro (Public) | 56.8% | 56.4% | 55.6% |
| Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld-Verified | 64.7% | 38.2% | 37.9% |
| GDPval (wins or ties) | 70.9% | - | 70.9% (high) |
| Cybersecurity CTF Challenges | 77.6% | 67.4% | 67.7% |
| SWE-Lancer IC Diamond | 81.4% | 76.0% | 74.6% |
相关文档
- GPT-5.3-Codex 系统卡:迄今最强大的代理编程模型;关联理由:同一事件;说明:系统卡与本文围绕同一模型发布,补充了安全评估分级与防护边界。
- 推出 GPT-5.3-Codex-Spark:专为实时编程打造的超快模型;关联理由:版本演进;说明:该文展示了 GPT-5.3-Codex 在实时低延迟场景中的轻量化分支与后续产品化方向。
- 推出网络安全可信访问计划;关联理由:上下游;说明:本文提到 Trusted Access for Cyber 试点,该文给出了访问机制、适用对象与资助计划等落地细节。