摘要

一句话总结 OpenAI 发布了其迄今规模最大、知识最广的通用模型 GPT-4.5 的研究预览版,并公布了系统卡,表明其在各项关键风险指标上均符合安全部署标准。

关键要点

  • 模型定位:GPT-4.5 是在 GPT-4o 基础上扩展预训练规模的通用模型,而非专注于 STEM 领域的特定推理模型。
  • 训练方法:结合了全新的监督技术、监督微调(SFT)以及基于人类反馈的强化学习(RLHF)。
  • 能力提升:交互体验更加自然,具备更广的知识面、更强的用户意图对齐能力、更高的情商以及更少的幻觉。
  • 适用场景:在写作、编程以及解决实际问题等任务中表现优异。
  • 安全评估结论:经过广泛的部署前评估,GPT-4.5 相比现有模型并未带来任何显著增加的安全风险。
  • 备灾评分(Preparedness Scorecard):网络安全(Cybersecurity)和模型自主性(Model autonomy)风险评级为“低”(Low)。
  • 红线规则:OpenAI 规定,采取缓解措施后风险评分在“中等”及以下才允许部署,在“高”及以下才允许进一步开发。

风险与不足

  • 特定风险领域:系统卡明确指出了模型在违规内容(Disallowed content)、越狱(Jailbreaks)和模型错误(Model mistakes)方面的潜在风险。
  • 中等风险指标:在备灾评分卡中,GPT-4.5 的 CBRN(化学、生物、放射性、核)风险和说服力(Persuasion)风险均被评定为“中等”(Medium)。

正文

OpenAI 正式发布了 GPT-4.5 的研究预览版。作为 OpenAI 迄今为止规模最大、知识最渊博的模型,GPT-4.5 在 GPT-4o 的基础上进一步扩展了预训练规模。与专注于 STEM 领域的强大推理模型相比,GPT-4.5 被设计为一款更加通用的模型。

训练方法与交互体验

在训练方面,GPT-4.5 采用了与 GPT-4o 类似的方法,结合了全新的监督技术以及传统的监督微调(SFT)和基于人类反馈的强化学习(RLHF)。

早期测试表明,与 GPT-4.5 的交互体验更加自然。该模型具备以下显著优势:

  • 更广阔的知识面
  • 更强烈的用户意图对齐能力
  • 更高的情商(Emotional Intelligence)
  • 更少的幻觉(Hallucinations)

这些特性使其非常适合处理写作、编程以及解决实际问题等任务。OpenAI 希望通过此次研究预览版的发布,进一步了解该模型的优势与局限性,探索其潜在能力,并观察用户在实际使用中可能带来的意想不到的创新用法。

安全评估与备灾框架

在部署之前,OpenAI 对 GPT-4.5 进行了广泛的安全评估。结果显示,与现有模型相比,GPT-4.5 并未带来任何显著增加的安全风险。

本次发布的系统卡(System Card)详细概述了 GPT-4.5 的构建、训练、能力评估以及安全性强化过程,所有步骤均严格遵循 OpenAI 的安全流程与备灾框架(Preparedness Framework)。

特定风险领域

系统卡重点关注了以下几个特定风险领域:

  • 违规内容(Disallowed content)
  • 越狱(Jailbreaks)
  • 模型错误(Model mistakes)

备灾评分卡(Preparedness Scorecard)

根据 OpenAI 的安全评估标准,风险评级分为四个等级:低(Low)、中等(Medium)、高(High)和严重(Critical)。GPT-4.5 在各项关键风险指标上的评分如下:

  • CBRN 风险:中等(Medium)
  • 网络安全(Cybersecurity):低(Low)
  • 说服力(Persuasion):中等(Medium)
  • 模型自主性(Model autonomy):低(Low)

部署与开发规则

OpenAI 对模型的开发和部署设定了严格的红线:

  1. 部署标准:只有在采取缓解措施后,风险评分达到“中等”或以下级别的模型才允许被部署。
  2. 开发标准:只有风险评分在“高”或以下级别的模型才允许被进一步开发。

相关文档

关联主题