摘要
1) 一句话总结 GPT-OSS-Safeguard-120B 和 20B 是基于 GPT-OSS 微调的开源权重纯文本推理模型,专为根据用户策略进行内容分类与标注而设计。
2) 关键要点
- 模型规格:包含 120B 和 20B 两个参数版本的纯文本开源权重模型。
- 开源协议:在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。
- 核心特性:与 Responses API 完全兼容,支持自定义设置、完整思维链(CoT)、结构化输出,并提供低、中、高三种灵活的推理强度。
- 推荐用途:专用于根据既定策略对内容进行分类。
- 训练数据:作为 GPT-OSS 的微调版本,训练过程中未加入任何额外的生物学或网络安全数据。
- 安全评估:以底层 GPT-OSS 模型为基准进行了安全性评估,并专门测试了聊天环境下的安全指标及初步的多语言表现。
3) 风险与不足
- 交互场景限制:不建议将该模型作为终端用户直接交互的核心功能(此类场景建议使用原始 GPT-OSS 模型)。
- 非预期使用风险:模型并非为聊天场景设计,但因其开源属性,用户仍可能将其用于聊天交互(已通过聊天环境安全测试进行应对)。
- 评估指标局限性:报告中的多语言聊天表现评估,不能直接反映模型在执行策略内容分类时的实际表现。
- 极端情况风险:由于未添加新领域数据,模型沿用此前 GPT-OSS 发布的“最坏情况预估”结论(涉及生物学或网络安全等潜在风险)。
正文
模型简介与核心特性
GPT-OSS-Safeguard-120B 和 GPT-OSS-Safeguard-20B 是两款开源权重(open-weight)的推理模型。它们基于基础的 GPT-OSS 模型进行后训练(post-trained),其核心设计目的是能够根据用户提供的策略进行推理,并据此对内容进行标注。
这两款纯文本模型在开发过程中充分吸收了开源社区的反馈,目前在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。它们具备以下核心特性:
- API 兼容性:与 Responses API 完全兼容。
- 高度可定制:支持自定义设置。
- 完整思维链:提供完整的思维链(Chain-of-Thought, CoT)推理过程。
- 灵活的推理强度:支持使用不同的推理强度(低、中、高)。
- 结构化输出:支持结构化输出(Structured Outputs)功能。
推荐用途
我们建议将这些模型专门用于根据既定策略对内容进行分类。不建议将其作为终端用户直接交互的核心功能;对于直接交互的应用场景,原始的 GPT-OSS 模型是更好的选择。
安全基准与评估测试
本技术报告详细介绍了 GPT-OSS-Safeguard 的各项能力,并以底层的 GPT-OSS 模型为基准,提供了相关的基准安全性评估。
虽然 GPT-OSS-Safeguard 模型并非为聊天场景而设计,但考虑到它们是开源模型,用户仍有可能将其用于聊天交互。为了应对这种可能性,我们对其在聊天环境下的表现进行了测试,以验证其在此类用法中依然符合我们的安全标准。报告中提供的安全指标正是基于这一测试背景。
此外,报告还分享了模型在聊天场景下多语言表现的初步评估(需要注意的是,该评估并不能直接反映模型在执行策略内容分类时的实际表现)。
训练数据与风险评估
GPT-OSS-Safeguard 模型是对应 GPT-OSS 模型的微调版本。在训练过程中,我们没有加入任何额外的生物学或网络安全数据。因此我们认定,此前针对 GPT-OSS 发布所做的“最坏情况预估(estimating worst case scenarios)”研究结论,同样适用于这两款新模型。
相关文档
- OpenAI 的人工智能安全策略;关联理由:解说;说明:该文提供 OpenAI 的总体安全治理原则,可作为理解 Safeguard 报告评估边界的上位框架。
- OpenAI o3-mini 系统卡报告;关联理由:观点一致;说明:两文都强调通过部署前安全评估与风险分级来控制模型发布风险,方法论一致。
- OpenAI GPT-4.5 系统卡与安全评估概览;关联理由:解说;说明:两篇都呈现模型发布时的安全评估结果,可对照不同模型的风险指标与适用边界。