gpt-oss：OpenAI 发布的基于 Apache 2.0 协议的开源权重语言模型项目，包含 120B 和 20B 两个版本

摘要

1) 一句话总结 openai/gpt-oss 是 OpenAI 发布的基于 Apache 2.0 协议的开源权重语言模型项目，包含 120B 和 20B 两个版本，专为复杂推理、Agent 任务和开发者多功能场景设计。

2) 核心要点

模型规格：提供 gpt-oss-120b（1170亿参数，51亿激活，面向生产与高推理需求）和 gpt-oss-20b（210亿参数，36亿激活，面向低延迟与本地部署）两个版本。
硬件要求：模型采用 MXFP4 混合精度量化，120B 版本可在一张 80GB 显存的 GPU（如 H100 或 MI300X）上运行，20B 版本可在 16GB 内存/显存下运行。
开源协议：采用宽松的 Apache 2.0 协议，无 copyleft 限制，支持自由实验、参数微调及商业化部署。
核心能力：支持动态配置推理力度（低、中、高），开放完整的思维链（Chain-of-Thought）过程以便调试，并原生具备函数调用、网页浏览、Python 代码执行和结构化输出等 Agent 能力。
专属交互格式：模型训练基于专属的 harmony 响应格式，官方同步发布了 openai-harmony 库用于格式化提示词与解析输出。
生态兼容：支持通过 Transformers、vLLM、Ollama、LM Studio 以及 Codex 等第三方工具和框架进行推理与部署。
参考实现：仓库内提供了基于 PyTorch、Triton（单卡优化）和 Metal（苹果芯片）的推理参考代码，以及终端聊天（Terminal Chat）和 Responses API 的服务端示例。

3) 风险与不足

格式强依赖：模型必须使用 harmony 响应格式，否则将无法正常工作。
非生产就绪代码：官方提供的 PyTorch、Triton、Metal 推理代码以及 Browser 浏览器工具实现仅供教育和参考使用，不建议直接用于生产环境。
硬件与系统限制：未优化的 PyTorch 参考实现至少需要 4 张 H100 GPU 才能运行；此外，官方提供的参考实现均未在 Windows 系统上进行过测试。

gpt-oss-120b and gpt-oss-20b are two open-weight language models by OpenAI