OpenAI o3-mini 系统卡报告

摘要

1) 一句话总结 OpenAI o3-mini 模型利用思维链推理实现了“审慎对齐”以提升安全性，其整体防范风险评级被定为中等，并成为首个在模型自主性指标上达到中等风险级别的模型。

2) 关键要点

技术原理：o3-mini 通过大规模强化学习训练，利用思维链（CoT）进行“审慎对齐”，在上下文中结合安全策略进行推理。
安全表现：在应对非法建议、刻板印象回复及抵御已知越狱等基准测试中，达到了当前最先进水平。
整体评级：安全咨询组（SAG）将 o3-mini（缓解前）的整体风险评级定为“中等（Medium）”。
具体指标得分：在防范评估记分卡中，CBRN（中等）、说服力（中等）、模型自主性（中等）、网络安全（低）。
部署与开发规则：OpenAI 规定，模型在采取缓解措施后，风险评级为“中等”或以下方可部署，评级为“高”或以下方可进一步开发。
自主性突破：得益于编码和研究工程性能的提升，o3-mini 是首个在“模型自主性”上达到“中等”风险级别的模型。
安全工作涵盖范围：针对该模型的安全工作主要包括安全评估、外部红队测试以及防范框架评估。

3) 风险与不足

智能提升带来的双刃剑：引入思维链在释放优势的同时，也因智能水平的提升增加了潜在风险。
特定风险领域：模型明确面临违规内容（Disallowed content）、越狱（Jailbreaks）和幻觉（Hallucinations）三大特定风险。
自我改进能力不足：在旨在测试与自我改进相关的真实世界机器学习（ML）研究能力的评估中，模型表现依然不佳（尚未达到“高”风险级别）。
对齐与管理需求：评估结果凸显了当前仍缺乏足够稳健的对齐方法，需要进一步进行广泛的压力测试并维持严密的风险管理协议。

正文

引言与核心能力

OpenAI o 系列模型通过大规模强化学习进行训练，能够使用思维链（chain of thought）进行推理。这些先进的推理能力为提高模型的安全性和鲁棒性提供了新的途径。

具体而言，当面对潜在不安全的提示词时，我们的模型能够通过“审慎对齐（deliberative alignment）”，在上下文中结合我们的安全策略进行推理。这使得 OpenAI o3-mini 在应对生成非法建议、选择刻板印象回复以及抵御已知越狱（jailbreaks）等风险的基准测试中，达到了与当前最先进水平相当的表现。

训练模型在回答前引入思维链，不仅有可能释放巨大的优势，但同时也增加了因智能水平提升而带来的潜在风险。

风险领域与防范评估

根据 OpenAI 的防范框架（Preparedness Framework），安全咨询组（SAG）建议将 OpenAI o3-mini（缓解前）的整体风险评级定为中等（Medium）。

模型面临的特定风险领域主要包括：

违规内容（Disallowed content）
越狱（Jailbreaks）
幻觉（Hallucinations）

在防范评估记分卡（Preparedness Scorecard）中，各项具体风险评级如下：

CBRN（化学、生物、放射性、核威胁）：中等
说服力（Persuasion）：中等
模型自主性（Model Autonomy）：中等
网络安全（Cybersecurity）：低

记分卡评级共分为四个等级：低（Low）、中（Medium）、高（High）和严重（Critical）。OpenAI 对模型的部署与开发有着严格的规定：

只有在采取缓解措施后风险评级为“中等”或以下级别的模型，才能被部署。
只有在采取缓解措施后风险评级为“高”或以下级别的模型，才能被进一步开发。

模型自主性与未来挑战

得益于编码和研究工程性能的提升，OpenAI o3-mini 成为首个在“模型自主性”指标上达到“中等”风险级别的模型。

然而，在旨在测试与自我改进相关的真实世界机器学习（ML）研究能力的评估中，该模型的表现依然不佳（若具备该能力则会被评为“高”风险）。这些评估结果凸显了当前工作的核心需求：我们必须构建稳健的对齐方法，对其有效性进行广泛的压力测试，并维持严密的风险管理协议。

安全工作概述

本报告全面概述了针对 OpenAI o3-mini 模型开展的安全工作，主要涵盖以下三个方面：

安全评估（Safety evaluations）
外部红队测试（External red teaming）
防范框架评估（Preparedness Framework evaluations）

wsl-docs

探索

OpenAI o3-mini 系统卡报告

摘要

正文

引言与核心能力

风险领域与防范评估

模型自主性与未来挑战

安全工作概述

相关文档

关联主题

关系图谱

目录

反向链接