摘要
1) 一句话总结 智谱 AI 在香港 IPO 后正式发布并开源了最新旗舰大模型 GLM-5,其参数规模翻倍且代码能力大幅提升,在多项基准测试中取得开源模型 SOTA,性能逼近 Claude Opus 4.5。
2) 关键要点
- 发布与开源:智谱 AI 推出旗舰模型 GLM-5(此前在 OpenRouter 上被称为“Pony Alpha”),模型权重遵循 MIT 协议在 GitHub 和 Hugging Face 开源。
- 市场反应:官宣后智谱股价连续暴涨,市值突破 1700 亿港元。
- 规模翻倍:参数量从 3550 亿提升至 7440 亿,训练数据量从 23 万亿增至 28.5 万亿 tokens。
- 架构升级:采用全新“Slime”框架和异步智能体强化学习算法,并引入 DeepSeek 稀疏注意力机制以大幅降低部署成本。
- 性能表现:定位为“系统架构师”,在 SWE-bench-Verified(77.8分)和 Terminal Bench 2.0(56.2分)等测试中获开源最高分,超越 Gemini 3 Pro;Agent 能力在多个评测基准中取得开源第一。
- 极致性价比:开发者测算显示,GLM-5 的输入成本比 Claude Opus 便宜 6 倍,输出成本便宜 10 倍。
- 国产算力支撑:依托华为、摩尔线程、寒武纪、百度昆仑芯等纯国产硬件体系进行研发和线上服务保障。
- 价格体系调整:GLM Coding Plan 套餐价格整体涨幅自 30% 起,取消首购优惠(已订阅用户价格保持不变)。
3) 风险与不足
- 性能差距:在各项代码基准测试及更复杂的场景下,GLM-5 仍全面落后于 Anthropic 的 Claude。
- 算力紧张:受限于美国实体清单,算力资源依然紧张,智谱坦言为了支撑推理服务已“把每一块芯片用到极限”。
- 额度与开放限制:因算力容量有限,GLM-5 仅逐步向代码订阅用户开放,且新模型可能会更快耗尽用户的额度。
正文
智谱 AI 发布最新旗舰大模型 GLM-5:代码能力跨越式提升,性能逼近 Claude Opus 4.5
临近春节,智谱 AI 正式发布了其最新旗舰大模型 GLM-5。这是该公司自 1 月初在香港进行备受关注的 IPO 之后,推出的首款重磅大模型。官宣 GLM-5 后,智谱的股价连续暴涨,市值突破 1700 亿港元。
据称,GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”(即更大规模的 AI 自动化编程),其代码能力实现了跨越式提升。目前,这款新模型已在智谱官网上线,并在 GitHub 和 Hugging Face 平台开源,模型权重遵循 MIT License。
值得一提的是,前几天在全球模型服务平台 OpenRouter 上因卓越性能走红的神秘模型“Pony Alpha”,正是 GLM-5 的前称。
架构升级:自封“系统架构师”
距离上一代 GLM-4.7 更新仅一个多月,GLM-5 在规模和架构上实现了大幅跃升:
- 参数与数据量翻倍: 参数规模从 3550 亿提升至 7440 亿,训练数据量从 23 万亿增至 28.5 万亿 tokens,显著提升了通用智能水平。
- 全新“Slime”框架: 支持更大模型规模及更复杂的强化学习任务,提升后训练流程效率。
- 异步智能体强化学习算法: 使模型能够持续从长程交互中学习,充分激发预训练潜力。
- 引入 DeepSeek 稀疏注意力机制: 在维持长文本效果无损的同时,大幅降低模型部署成本,最大化计算效率与成本效益。
性能表现:开源模型 SOTA
智谱将 GLM-5 定位为“系统架构师”,不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。
- 代码能力: 实现了对齐 Claude Opus 4.5,在主流基准测试中取得开源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源最高分,性能超过 Gemini 3 Pro。在内部 Claude Code 评估集合中,平均增幅超越上一代 20% 以上,能以极少人工干预自主完成系统工程任务。
- Agent 能力: 在 BrowseComp、MCP-Atlas 和 τ²-Bench 等多个评测基准中取得开源第一。在衡量经营能力的 Vending Bench 2 中,GLM-5 同样获得开源第一,经营表现接近 Claude Opus 4.5。
不过,智谱公布的分数也显示,在各项代码基准测试中,GLM-5 仍全面落后于 Anthropic 的 Claude。
开发者实测:最优秀开源模型之一,价格极具优势
在匿名上线期间,已有开发者使用 GLM-5 完成了横版解谜游戏、Agent 交互世界等应用。公开推出后,开发者给出了高度评价:
- 性能比肩顶尖闭源: 有开发者表示,GLM-5 的对话会话达到了和 Opus 4.6 同一水准的自我认知与理解深度,是目前最优秀的开源模型之一。在前端任务上,甚至有开发者首次倾向于选择非 Gemini 模型。但也有反馈指出,在更复杂的场景下,Claude 依然是王者。
- 极致性价比: 开发者测算发现,GLM-5 的输入成本比 Opus 便宜 6 倍,输出成本便宜 10 倍,被惊呼“价格简直离谱”。
依托国产芯片,算力面临挑战
受限于美国实体清单的影响,智谱致力于在纯国产硬件体系上研发前沿大模型。本次 GLM-5 的上线,依托了华为、摩尔线程、寒武纪、百度昆仑芯、沐曦集成电路、燧原科技及海光信息等众多国产芯片,有力保障了线上服务的稳定和高效。
然而,算力资源依然紧张。智谱坦言,为了支撑推理服务,已经“把每一块芯片用到极限”。因算力容量有限,GLM-5 将逐步向代码订阅用户开放,并提醒用户新模型可能会更快耗尽额度。
同时,智谱对 GLM Coding Plan 套餐价格体系进行了结构性调整:
- 取消首购优惠,保留按季按年订阅优惠。
- 套餐价格整体涨幅自 30% 起。
- 已订阅用户价格保持不变。
行业背景:春节前的大模型发布潮
当前,中国几乎所有前沿大模型开发者都在农历新年前密集发布重磅产品,复刻了去年 DeepSeek 借此一举成名全球的打法。除了智谱,同样在香港上市的 MiniMax 也在近日官宣了重磅新模型 M2.5 并开放试用;而 DeepSeek 刚刚将对话上下文窗口扩展至 100 万 tokens 以上,其备受期待的全新旗舰模型尚未发布,行业竞争正持续升温。