摘要

1) 一句话总结 智谱 AI 在香港 IPO 后正式发布并开源了最新旗舰大模型 GLM-5，其参数规模翻倍且代码能力大幅提升，在多项基准测试中取得开源模型 SOTA，性能逼近 Claude Opus 4.5。

2) 关键要点

发布与开源：智谱 AI 推出旗舰模型 GLM-5（此前在 OpenRouter 上被称为“Pony Alpha”），模型权重遵循 MIT 协议在 GitHub 和 Hugging Face 开源。
市场反应：官宣后智谱股价连续暴涨，市值突破 1700 亿港元。
规模翻倍：参数量从 3550 亿提升至 7440 亿，训练数据量从 23 万亿增至 28.5 万亿 tokens。
架构升级：采用全新“Slime”框架和异步智能体强化学习算法，并引入 DeepSeek 稀疏注意力机制以大幅降低部署成本。
性能表现：定位为“系统架构师”，在 SWE-bench-Verified（77.8分）和 Terminal Bench 2.0（56.2分）等测试中获开源最高分，超越 Gemini 3 Pro；Agent 能力在多个评测基准中取得开源第一。
极致性价比：开发者测算显示，GLM-5 的输入成本比 Claude Opus 便宜 6 倍，输出成本便宜 10 倍。
国产算力支撑：依托华为、摩尔线程、寒武纪、百度昆仑芯等纯国产硬件体系进行研发和线上服务保障。
价格体系调整：GLM Coding Plan 套餐价格整体涨幅自 30% 起，取消首购优惠（已订阅用户价格保持不变）。

3) 风险与不足

性能差距：在各项代码基准测试及更复杂的场景下，GLM-5 仍全面落后于 Anthropic 的 Claude。
算力紧张：受限于美国实体清单，算力资源依然紧张，智谱坦言为了支撑推理服务已“把每一块芯片用到极限”。
额度与开放限制：因算力容量有限，GLM-5 仅逐步向代码订阅用户开放，且新模型可能会更快耗尽用户的额度。

正文

智谱 AI 发布最新旗舰大模型 GLM-5：代码能力跨越式提升，性能逼近 Claude Opus 4.5

临近春节，智谱 AI 正式发布了其最新旗舰大模型 GLM-5。这是该公司自 1 月初在香港进行备受关注的 IPO 之后，推出的首款重磅大模型。官宣 GLM-5 后，智谱的股价连续暴涨，市值突破 1700 亿港元。

据称，GLM-5 标志着人工智能开发从“Vibe Coding”变革为“Agentic Engineering”（即更大规模的 AI 自动化编程），其代码能力实现了跨越式提升。目前，这款新模型已在智谱官网上线，并在 GitHub 和 Hugging Face 平台开源，模型权重遵循 MIT License。

值得一提的是，前几天在全球模型服务平台 OpenRouter 上因卓越性能走红的神秘模型“Pony Alpha”，正是 GLM-5 的前称。

架构升级：自封“系统架构师”

距离上一代 GLM-4.7 更新仅一个多月，GLM-5 在规模和架构上实现了大幅跃升：

参数与数据量翻倍： 参数规模从 3550 亿提升至 7440 亿，训练数据量从 23 万亿增至 28.5 万亿 tokens，显著提升了通用智能水平。
全新“Slime”框架： 支持更大模型规模及更复杂的强化学习任务，提升后训练流程效率。
异步智能体强化学习算法： 使模型能够持续从长程交互中学习，充分激发预训练潜力。
引入 DeepSeek 稀疏注意力机制： 在维持长文本效果无损的同时，大幅降低模型部署成本，最大化计算效率与成本效益。

性能表现：开源模型 SOTA

智谱将 GLM-5 定位为“系统架构师”，不仅为开发精美的 Demo 而生，更为稳定交付生产结果而生。

代码能力： 实现了对齐 Claude Opus 4.5，在主流基准测试中取得开源模型 SOTA。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.8 和 56.2 的开源最高分，性能超过 Gemini 3 Pro。在内部 Claude Code 评估集合中，平均增幅超越上一代 20% 以上，能以极少人工干预自主完成系统工程任务。
Agent 能力： 在 BrowseComp、MCP-Atlas 和 τ²-Bench 等多个评测基准中取得开源第一。在衡量经营能力的 Vending Bench 2 中，GLM-5 同样获得开源第一，经营表现接近 Claude Opus 4.5。

不过，智谱公布的分数也显示，在各项代码基准测试中，GLM-5 仍全面落后于 Anthropic 的 Claude。

开发者实测：最优秀开源模型之一，价格极具优势

在匿名上线期间，已有开发者使用 GLM-5 完成了横版解谜游戏、Agent 交互世界等应用。公开推出后，开发者给出了高度评价：

性能比肩顶尖闭源： 有开发者表示，GLM-5 的对话会话达到了和 Opus 4.6 同一水准的自我认知与理解深度，是目前最优秀的开源模型之一。在前端任务上，甚至有开发者首次倾向于选择非 Gemini 模型。但也有反馈指出，在更复杂的场景下，Claude 依然是王者。
极致性价比： 开发者测算发现，GLM-5 的输入成本比 Opus 便宜 6 倍，输出成本便宜 10 倍，被惊呼“价格简直离谱”。

依托国产芯片，算力面临挑战

受限于美国实体清单的影响，智谱致力于在纯国产硬件体系上研发前沿大模型。本次 GLM-5 的上线，依托了华为、摩尔线程、寒武纪、百度昆仑芯、沐曦集成电路、燧原科技及海光信息等众多国产芯片，有力保障了线上服务的稳定和高效。

然而，算力资源依然紧张。智谱坦言，为了支撑推理服务，已经“把每一块芯片用到极限”。因算力容量有限，GLM-5 将逐步向代码订阅用户开放，并提醒用户新模型可能会更快耗尽额度。

同时，智谱对 GLM Coding Plan 套餐价格体系进行了结构性调整：

取消首购优惠，保留按季按年订阅优惠。
套餐价格整体涨幅自 30% 起。
已订阅用户价格保持不变。

行业背景：春节前的大模型发布潮

当前，中国几乎所有前沿大模型开发者都在农历新年前密集发布重磅产品，复刻了去年 DeepSeek 借此一举成名全球的打法。除了智谱，同样在香港上市的 MiniMax 也在近日官宣了重磅新模型 M2.5 并开放试用；而 DeepSeek 刚刚将对话上下文窗口扩展至 100 万 tokens 以上，其备受期待的全新旗舰模型尚未发布，行业竞争正持续升温。

wsl-docs

探索

编程超越 Gemini 3 Pro？GLM-5 性能实测对齐 Opus 4.6，智谱市值突破1700亿港元

摘要

正文