GPT-OSS-Safeguard 技术报告

摘要

1) 一句话总结 GPT-OSS-Safeguard-120B 和 20B 是基于 GPT-OSS 微调的开源权重纯文本推理模型，专为根据用户策略进行内容分类与标注而设计。

2) 关键要点

模型规格：包含 120B 和 20B 两个参数版本的纯文本开源权重模型。
开源协议：在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。
核心特性：与 Responses API 完全兼容，支持自定义设置、完整思维链（CoT）、结构化输出，并提供低、中、高三种灵活的推理强度。
推荐用途：专用于根据既定策略对内容进行分类。
训练数据：作为 GPT-OSS 的微调版本，训练过程中未加入任何额外的生物学或网络安全数据。
安全评估：以底层 GPT-OSS 模型为基准进行了安全性评估，并专门测试了聊天环境下的安全指标及初步的多语言表现。

3) 风险与不足

交互场景限制：不建议将该模型作为终端用户直接交互的核心功能（此类场景建议使用原始 GPT-OSS 模型）。
非预期使用风险：模型并非为聊天场景设计，但因其开源属性，用户仍可能将其用于聊天交互（已通过聊天环境安全测试进行应对）。
评估指标局限性：报告中的多语言聊天表现评估，不能直接反映模型在执行策略内容分类时的实际表现。
极端情况风险：由于未添加新领域数据，模型沿用此前 GPT-OSS 发布的“最坏情况预估”结论（涉及生物学或网络安全等潜在风险）。

正文

模型简介与核心特性

GPT-OSS-Safeguard-120B 和 GPT-OSS-Safeguard-20B 是两款开源权重（open-weight）的推理模型。它们基于基础的 GPT-OSS 模型进行后训练（post-trained），其核心设计目的是能够根据用户提供的策略进行推理，并据此对内容进行标注。

这两款纯文本模型在开发过程中充分吸收了开源社区的反馈，目前在 Apache 2.0 许可证及 GPT-OSS 使用政策下开放。它们具备以下核心特性：

API 兼容性：与 Responses API 完全兼容。
高度可定制：支持自定义设置。
完整思维链：提供完整的思维链（Chain-of-Thought, CoT）推理过程。
灵活的推理强度：支持使用不同的推理强度（低、中、高）。
结构化输出：支持结构化输出（Structured Outputs）功能。

安全基准与评估测试

本技术报告详细介绍了 GPT-OSS-Safeguard 的各项能力，并以底层的 GPT-OSS 模型为基准，提供了相关的基准安全性评估。

虽然 GPT-OSS-Safeguard 模型并非为聊天场景而设计，但考虑到它们是开源模型，用户仍有可能将其用于聊天交互。为了应对这种可能性，我们对其在聊天环境下的表现进行了测试，以验证其在此类用法中依然符合我们的安全标准。报告中提供的安全指标正是基于这一测试背景。

此外，报告还分享了模型在聊天场景下多语言表现的初步评估（需要注意的是，该评估并不能直接反映模型在执行策略内容分类时的实际表现）。

训练数据与风险评估

GPT-OSS-Safeguard 模型是对应 GPT-OSS 模型的微调版本。在训练过程中，我们没有加入任何额外的生物学或网络安全数据。因此我们认定，此前针对 GPT-OSS 发布所做的“最坏情况预估（estimating worst case scenarios）”研究结论，同样适用于这两款新模型。

wsl-docs

探索

GPT-OSS-Safeguard 技术报告

摘要

正文

模型简介与核心特性

推荐用途

安全基准与评估测试

训练数据与风险评估

相关文档

关联主题

关系图谱

目录