OpenAI 发布 GPT-5.1-Codex-Max 系统卡

摘要

1) 一句话总结 OpenAI 于2025年11月19日发布了前沿代理编程模型 GPT-5.1-Codex-Max 的系统卡，详细披露了其首创的上下文压缩技术、真实场景训练细节以及基于备灾框架的全面安全评估结果。

2) 关键要点

3) 风险与不足

2025年11月19日，OpenAI 发布了 GPT-5.1-Codex-Max 的系统卡。这是一款全新的前沿代理编程模型（frontier agentic coding model）。

GPT-5.1-Codex-Max 基于更新后的基础推理模型构建，针对软件工程、数学、研究、医学以及计算机操作等领域的代理任务进行了专门训练。

上下文压缩技术： 这是首个通过“压缩（compaction）”过程，原生支持在多个上下文窗口中运行的模型。它能够在单一任务中连贯地处理数百万个 Token。
真实场景训练： 与其前代产品一样，该模型在真实的软件工程任务中进行了训练，涵盖拉取请求（PR）创建、代码审查、前端编程以及问答等场景。

系统卡详细介绍了为 GPT-5.1-Codex-Max 实施的全面安全措施，主要涵盖模型与产品两个层面：

根据 OpenAI 的备灾框架（Preparedness Framework），GPT-5.1-Codex-Max 接受了严格的评估，其各项能力风险评级如下：

网络安全： 该模型在网络安全领域具备极强的能力，但尚未达到“高（High）”能力阈值。不过按照当前能力快速增长的趋势，预计模型在不久的将来就会跨越这一阈值。
生物学： 与近期发布的其他模型一样，该模型在生物学领域被视为具备“高”能力，因此在部署时配备了与 GPT-5 相同的配套安全防护措施。
AI 自我改进： 该模型在 AI 自我改进方面尚未达到“高”能力级别。