摘要

1) 一句话总结 GPT-OSS-Safeguard-120B 和 20B 是基于 GPT-OSS 微调的开源权重纯文本推理模型,专为根据用户策略进行内容分类与标注而设计。

2) 关键要点

  • 模型规格:包含 120B 和 20B 两个参数版本的纯文本开源权重模型。
  • 开源协议:在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。
  • 核心特性:与 Responses API 完全兼容,支持自定义设置、完整思维链(CoT)、结构化输出,并提供低、中、高三种灵活的推理强度。
  • 推荐用途:专用于根据既定策略对内容进行分类。
  • 训练数据:作为 GPT-OSS 的微调版本,训练过程中未加入任何额外的生物学或网络安全数据。
  • 安全评估:以底层 GPT-OSS 模型为基准进行了安全性评估,并专门测试了聊天环境下的安全指标及初步的多语言表现。

3) 风险与不足

  • 交互场景限制:不建议将该模型作为终端用户直接交互的核心功能(此类场景建议使用原始 GPT-OSS 模型)。
  • 非预期使用风险:模型并非为聊天场景设计,但因其开源属性,用户仍可能将其用于聊天交互(已通过聊天环境安全测试进行应对)。
  • 评估指标局限性:报告中的多语言聊天表现评估,不能直接反映模型在执行策略内容分类时的实际表现。
  • 极端情况风险:由于未添加新领域数据,模型沿用此前 GPT-OSS 发布的“最坏情况预估”结论(涉及生物学或网络安全等潜在风险)。

正文

模型简介与核心特性

GPT-OSS-Safeguard-120B 和 GPT-OSS-Safeguard-20B 是两款开源权重(open-weight)的推理模型。它们基于基础的 GPT-OSS 模型进行后训练(post-trained),其核心设计目的是能够根据用户提供的策略进行推理,并据此对内容进行标注。

这两款纯文本模型在开发过程中充分吸收了开源社区的反馈,目前在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。它们具备以下核心特性:

  • API 兼容性:与 Responses API 完全兼容。
  • 高度可定制:支持自定义设置。
  • 完整思维链:提供完整的思维链(Chain-of-Thought, CoT)推理过程。
  • 灵活的推理强度:支持使用不同的推理强度(低、中、高)。
  • 结构化输出:支持结构化输出(Structured Outputs)功能。

推荐用途

我们建议将这些模型专门用于根据既定策略对内容进行分类。不建议将其作为终端用户直接交互的核心功能;对于直接交互的应用场景,原始的 GPT-OSS 模型是更好的选择。

安全基准与评估测试

本技术报告详细介绍了 GPT-OSS-Safeguard 的各项能力,并以底层的 GPT-OSS 模型为基准,提供了相关的基准安全性评估。

虽然 GPT-OSS-Safeguard 模型并非为聊天场景而设计,但考虑到它们是开源模型,用户仍有可能将其用于聊天交互。为了应对这种可能性,我们对其在聊天环境下的表现进行了测试,以验证其在此类用法中依然符合我们的安全标准。报告中提供的安全指标正是基于这一测试背景。

此外,报告还分享了模型在聊天场景下多语言表现的初步评估(需要注意的是,该评估并不能直接反映模型在执行策略内容分类时的实际表现)。

训练数据与风险评估

GPT-OSS-Safeguard 模型是对应 GPT-OSS 模型的微调版本。在训练过程中,我们没有加入任何额外的生物学或网络安全数据。因此我们认定,此前针对 GPT-OSS 发布所做的“最坏情况预估(estimating worst case scenarios)”研究结论,同样适用于这两款新模型。

相关文档

  • OpenAI 的人工智能安全策略;关联理由:解说;说明:该文提供 OpenAI 的总体安全治理原则,可作为理解 Safeguard 报告评估边界的上位框架。
  • OpenAI o3-mini 系统卡报告;关联理由:观点一致;说明:两文都强调通过部署前安全评估与风险分级来控制模型发布风险,方法论一致。
  • OpenAI GPT-4.5 系统卡与安全评估概览;关联理由:解说;说明:两篇都呈现模型发布时的安全评估结果,可对照不同模型的风险指标与适用边界。

关联主题