摘要
一句话总结 OpenAI 发布了其迄今规模最大、知识最广的通用模型 GPT-4.5 的研究预览版,并公布了系统卡,表明其在各项关键风险指标上均符合安全部署标准。
关键要点
- 模型定位:GPT-4.5 是在 GPT-4o 基础上扩展预训练规模的通用模型,而非专注于 STEM 领域的特定推理模型。
- 训练方法:结合了全新的监督技术、监督微调(SFT)以及基于人类反馈的强化学习(RLHF)。
- 能力提升:交互体验更加自然,具备更广的知识面、更强的用户意图对齐能力、更高的情商以及更少的幻觉。
- 适用场景:在写作、编程以及解决实际问题等任务中表现优异。
- 安全评估结论:经过广泛的部署前评估,GPT-4.5 相比现有模型并未带来任何显著增加的安全风险。
- 备灾评分(Preparedness Scorecard):网络安全(Cybersecurity)和模型自主性(Model autonomy)风险评级为“低”(Low)。
- 红线规则:OpenAI 规定,采取缓解措施后风险评分在“中等”及以下才允许部署,在“高”及以下才允许进一步开发。
风险与不足
- 特定风险领域:系统卡明确指出了模型在违规内容(Disallowed content)、越狱(Jailbreaks)和模型错误(Model mistakes)方面的潜在风险。
- 中等风险指标:在备灾评分卡中,GPT-4.5 的 CBRN(化学、生物、放射性、核)风险和说服力(Persuasion)风险均被评定为“中等”(Medium)。
正文
OpenAI 正式发布了 GPT-4.5 的研究预览版。作为 OpenAI 迄今为止规模最大、知识最渊博的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练规模。与专注于 STEM 领域的强大推理模型相比,GPT-4.5 被设计为一款更加通用的模型。
训练方法与交互体验
在训练方面,GPT-4.5 采用了与 GPT-4o 类似的方法,结合了全新的监督技术以及传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)。
早期测试表明,与 GPT-4.5 的交互体验更加自然。该模型具备以下显著优势:
- 更广阔的知识面
- 更强烈的用户意图对齐能力
- 更高的情商(Emotional Intelligence)
- 更少的幻觉(Hallucinations)
这些特性使其非常适合处理写作、编程以及解决实际问题等任务。OpenAI 希望通过此次研究预览版的发布,进一步了解该模型的优势与局限性,探索其潜在能力,并观察用户在实际使用中可能带来的意想不到的创新用法。
安全评估与备灾框架
在部署之前,OpenAI 对 GPT-4.5 进行了广泛的安全评估。结果显示,与现有模型相比,GPT-4.5 并未带来任何显著增加的安全风险。
本次发布的系统卡(System Card)详细概述了 GPT-4.5 的构建、训练、能力评估以及安全性强化过程,所有步骤均严格遵循 OpenAI 的安全流程与备灾框架(Preparedness Framework)。
特定风险领域
系统卡重点关注了以下几个特定风险领域:
- 违规内容(Disallowed content)
- 越狱(Jailbreaks)
- 模型错误(Model mistakes)
备灾评分卡(Preparedness Scorecard)
根据 OpenAI 的安全评估标准,风险评级分为四个等级:低(Low)、中等(Medium)、高(High)和严重(Critical)。GPT-4.5 在各项关键风险指标上的评分如下:
- CBRN 风险:中等(Medium)
- 网络安全(Cybersecurity):低(Low)
- 说服力(Persuasion):中等(Medium)
- 模型自主性(Model autonomy):低(Low)
部署与开发规则
OpenAI 对模型的开发和部署设定了严格的红线:
- 部署标准:只有在采取缓解措施后,风险评分达到“中等”或以下级别的模型才允许被部署。
- 开发标准:只有风险评分在“高”或以下级别的模型才允许被进一步开发。
相关文档
- OpenAI Operator 系统卡:计算机使用代理的安全与风险评估;关联理由:解说;说明:两篇都采用 Preparedness Scorecard 与“中等可部署/高可继续开发”的同一安全门槛,可对照理解系统卡评估口径。
- OpenAI o3-mini 系统卡报告;关联理由:观点一致;说明:该文同样展示 CBRN、网络安全、说服力与模型自主性的分项评级,结论框架与 GPT-4.5 保持一致。
- 前沿AI风险与防范准备;关联理由:上下游;说明:该文说明 Preparedness 机制的提出背景与风险维度,是 GPT-4.5 系统卡评估方法的上游来源。