OpenAI GPT-4.5 系统卡与安全评估概览

摘要

一句话总结 OpenAI 发布了其迄今规模最大、知识最广的通用模型 GPT-4.5 的研究预览版，并公布了系统卡，表明其在各项关键风险指标上均符合安全部署标准。

关键要点

模型定位：GPT-4.5 是在 GPT-4o 基础上扩展预训练规模的通用模型，而非专注于 STEM 领域的特定推理模型。
训练方法：结合了全新的监督技术、监督微调（SFT）以及基于人类反馈的强化学习（RLHF）。
能力提升：交互体验更加自然，具备更广的知识面、更强的用户意图对齐能力、更高的情商以及更少的幻觉。
适用场景：在写作、编程以及解决实际问题等任务中表现优异。
安全评估结论：经过广泛的部署前评估，GPT-4.5 相比现有模型并未带来任何显著增加的安全风险。
备灾评分（Preparedness Scorecard）：网络安全（Cybersecurity）和模型自主性（Model autonomy）风险评级为“低”（Low）。
红线规则：OpenAI 规定，采取缓解措施后风险评分在“中等”及以下才允许部署，在“高”及以下才允许进一步开发。

风险与不足

特定风险领域：系统卡明确指出了模型在违规内容（Disallowed content）、越狱（Jailbreaks）和模型错误（Model mistakes）方面的潜在风险。
中等风险指标：在备灾评分卡中，GPT-4.5 的 CBRN（化学、生物、放射性、核）风险和说服力（Persuasion）风险均被评定为“中等”（Medium）。

OpenAI 正式发布了 GPT-4.5 的研究预览版。作为 OpenAI 迄今为止规模最大、知识最渊博的模型，GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练规模。与专注于 STEM 领域的强大推理模型相比，GPT-4.5 被设计为一款更加通用的模型。

在训练方面，GPT-4.5 采用了与 GPT-4o 类似的方法，结合了全新的监督技术以及传统的监督微调（SFT）和基于人类反馈的强化学习（RLHF）。

早期测试表明，与 GPT-4.5 的交互体验更加自然。该模型具备以下显著优势：

这些特性使其非常适合处理写作、编程以及解决实际问题等任务。OpenAI 希望通过此次研究预览版的发布，进一步了解该模型的优势与局限性，探索其潜在能力，并观察用户在实际使用中可能带来的意想不到的创新用法。

在部署之前，OpenAI 对 GPT-4.5 进行了广泛的安全评估。结果显示，与现有模型相比，GPT-4.5 并未带来任何显著增加的安全风险。

本次发布的系统卡（System Card）详细概述了 GPT-4.5 的构建、训练、能力评估以及安全性强化过程，所有步骤均严格遵循 OpenAI 的安全流程与备灾框架（Preparedness Framework）。

系统卡重点关注了以下几个特定风险领域：

根据 OpenAI 的安全评估标准，风险评级分为四个等级：低（Low）、中等（Medium）、高（High）和严重（Critical）。GPT-4.5 在各项关键风险指标上的评分如下：

OpenAI 对模型的开发和部署设定了严格的红线：