摘要

1) 一句话总结

Kimi 发布了包含 K2.5 多模态基座模型、Agent 集群及开源 Kimi Code 在内的三大新品,大幅提升了前端视觉编程(Vibe Coding)能力与复杂长程任务的并行调度效率。

2) 核心要点

  • K2.5 模型规格:原生多模态混合推理模型,支持 262K 上下文窗口;提供“思考(Thinking)”与“快速(Non-think)”双模式切换;定价为输入 4 元/百万 tokens,输出 21 元/百万 tokens。
  • 前端视觉编程(Vibe Coding):K2.5 可直接通过参考图片、视频或网页链接生成自适应网页,并内置搜索、生图和云虚拟机功能,实现一站式开发。
  • 横测表现:在前端设计还原度与风格迁移上,K2.5 优于 Gemini 3 Pro、Claude Opus 4.5 及 GPT 5.2 Codex。
  • Agent 集群规模:支持自主规划并调度多达 100 个子 Agent 和云沙箱并行工作,最高可处理 1500 个步骤。
  • Agent 集群架构与场景:子任务间上下文互相隔离以保障运行稳定;适用于大规模并行调研(如一次性调研 100 个 Github 仓库)和长文本生成(如直出 5 万字文稿)。
  • Kimi Code 开源发布:对标 Claude Code 的开源终端编程工具,支持集成至 VSCode、Cursor、JetBrains 和 Zed,并可通过 K2.5 实现多模态(图/视频)辅助编程。

3) 风险与不足

  • Agent 访问限制:Agent 集群目前的云端浏览器(Playwright)能力会受到网络与登录限制,导致对部分需要权限或特定网络环境的任务支持有限。
  • 复杂动效还原受限:K2.5 在通过视频参考复刻跨页面交互时,对复杂动效的还原效果目前仍然有限。
  • 设计细节上限:在前端设计细节的实现上限(实现更复杂的交互与设计)方面,K2.5 仍略逊于 Gemini 3 Pro。

正文

Kimi 赶在年前连发了 3 个新品,放出了大招。

只需给新模型一张参考图,就能一次性开发出设计优秀、动效自然的网页效果,与 Gemini、Claude、GPT 横测也能排第一。此外,全新的 Agent 集群模式能一次性调研 Github 最热的 100 个 Skill,轻松调度 100 个子 Agent 和虚拟机。

本次 Kimi 发布的 3 个新品包括:

  • K2.5:最新模型,支持多模态,整合视觉与思考,前端 Coding 能力大幅提升。
  • Agent 集群:能并行调度成百上千个子 Agent,替用户解决各类复杂问题。
  • Kimi Code:开源版 Claude Code。

自 2025 年 7 月发布 K2 和 Researcher 以来,Kimi 的基座模型稳居国产 Coding 模型第一梯队,Agent 能力也排名前列。本文将重点分享对 K2.5 和 Agent 集群的实测看法,客观评估其所处水平与适用场景。

Kimi K2.5:视觉与思考的统一模型

Kimi 的多模态思考模型终于推出。去年下半年以来,国产 Coding 模型表现强劲,此前 K2 主打编程、推理和 Agentic 任务,得到了许多程序员的肯定,但与海外的 Gemini、Claude 相比,明显缺乏原生多模态能力。

这次推出的最新基座模型 K2.5 是多模态混合推理模型,内化了图片、视频的理解能力。它能够准确识别图像细节,按帧分析视频内容。用户和开发者终于可以直接向模型输入多模态内容,实现了“按参考图 AI 编程”的视觉 Coding 能力。

同时,K2.5 支持开关思考模式:

  • 思考模式(Thinking):遇到复杂问题,让模型慢下来想清楚,以获得更好的推理效果。
  • 快速模式(Non-think):简单问题直接出结果,加速模型响应。

在其他规格方面,K2.5 支持 262K 上下文窗口,与 K2、Qwen3 Max 相近,在国内位居前列。价格方面,输入为 4 元/百万 tokens,输出为 21 元/百万 tokens。

K2.5 亮点:看图写应用,设计审美大幅突破

得益于 K2.5 的多模态与基模能力增强,Kimi 的 Coding 水平有了大幅提升。在实测中,其表现甚至让人联想到 Gemini 3 Pro 前端能力提升时的惊喜。

K2.5 模型不仅能看图写应用、改应用,还额外整合了搜索、生图、云虚拟机等功能,在 Kimi 网页版提供了更加完整的一站式 Vibe Coding 体验。

1. 参考图片风格,生成网站设计 打开 K2.5 Agent 模式,直接发送网站截图,AI 会自主对参考图进行多模态细节识别(包括纸张纹理、色彩系统等)。实测中,一次性(One shot)生成的结果不仅交互细节(如 Hover 效果)非常到位,网页自适应也无需任何 Coding 调整。如果要求增加动效,它还能自动做出更夸张的动画效果。

此外,在 Coding 过程中,K2.5 Agent 可自主搜索网络相关的图片素材,或调用图片生成模型即时生成视觉素材,大幅简化了网站素材的准备成本。

与国外三大模型的对比测试结果如下:

  • Gemini 3 Pro:审美优秀,设计细节的上限比 K2.5 更高(实现更复杂),但 Kimi 在还原原图意境和风格上更胜一筹。
  • Claude Opus 4.5:表现不稳定,可能需要更明确的提示词或 Coding 能力封装。
  • GPT 5.2 Codex:表现不稳定,仅从前端设计来看远不如 Kimi 和 Gemini。
  • 总结
    • 设计还原度:Kimi K2.5 > Gemini 3 Pro > Claude Opus 4.5 > GPT 5.2 Codex
    • 设计上限:Gemini 3 Pro > Kimi K2.5 > Claude Opus 4.5 > GPT 5.2 Codex

2. 参考视频,生成跨页面网站交互 K2.5 能够识别视频内容进行视觉参考 Coding,特别适合复刻跨多页面的交互界面。实测让 Kimi K2.5 根据录制的 Notebooklm 界面视频复刻设计,结果显示:即使基于视频模态,K2.5 在页面整体的还原完整度上已经超过 Gemini 3 Pro;但在设计细节的捕捉与还原上限方面,Gemini 3 Pro 仍略胜一筹。

3. 从网页链接复刻网站 如果不需要指定复刻特定交互效果,可以直接输入网站链接。以 Notion 官网为例,K2.5 Agent 能够自主滚动网页查看完整内容,创建网站设计规范并完成开发。从一次性的前端还原完整度来看,Kimi K2.5 优于 Gemini 3 Pro,但在设计细节实现上 Gemini 仍占优势。

客观评估 K2.5 模型 Coding 水平

综合多个实测案例,K2.5 的表现如下:

  • K2.5 及 Agent 的 Coding 能力较上代 K2 在前端设计感上有显著提升。
  • 与海外顶级模型相比,前端(包括动效)能力或将追平 Gemini 3 Pro,可能已经超越了 Claude 4 与 GPT 5.2。
  • 得益于全模态能力,K2.5 对原参考图的设计理解程度在多个案例中更具优势。
  • 在设计细节的实现上限方面,Gemini 3 Pro 仍处于领先身位。

多模态提示的适用场景建议:

  • 图片:风格参考能力特别优秀,非常适合设计风格提炼与迁移应用,方便优化项目的设计感。
  • 视频:可用于学习多页面间的切换、交互动效(目前对复杂动效的还原效果有限)。
  • 链接:直接自主访问网站,完整捕捉网页全部样式。

Kimi Coding Plan 和 API 中的 K2.5 也同样支持多模态编程。这将极大便利国内 AI Coding 用户(通过贴图和圈画即可精准说明修改需求),并利好 Agent 产品开发者(使用 K2.5 作为底模,能兜底更多需要视觉理解的边缘场景)。

Agent 集群:自主规划百个子 Agent 解决问题

Kimi 的 Agent Swarm 能够自主规划协调一大群 Agent 并行处理任务,体验类似 Manus 的 Wide Research。

实测案例:

  • 一次性调研 Github 最热的 100 个 Skill:它能一次性划分出 100 个子 Agent 和 100 个云沙箱并行执行。每个子 Agent 负责一个仓库的内容调研,大幅提升了材料调研类任务的执行速度。
  • 直出一份 5 万字的播客稿:它会自动分配角色并创建对应的指令。例如调研历史朝代事迹时,会分出史料研究、事实验证、播客撰稿、文稿整合等 Agent,共同拆分并整合复杂任务,最终轻松完成 5 万字以上的长文。

客观评价 Agent 集群: Kimi 基于强化学习训练的 Agent 集群优点明显:

  • 能一次性执行极多步数的任务且运行稳定(官方称可调度多达 100 个分身,并行处理 1500 个步骤)。
  • 子 Agent 分解任务,执行速度更快。
  • 子任务间上下文互相隔离,保障了任务长期运行的稳定性。
  • 主 Agent 具有极强的任务合理分配能力,分解任务无需人工干预。

局限与建议: 目前虽然具备云端浏览器的 Playwright 能力,但会受到网络与登录限制,对部分任务支持有限。建议 Kimi 未来能调用 MCP 使用本地浏览器,补充 Agent 的访问能力以解决登录和网络问题。

适用场景: Agent 集群非常适合调研和长内容编写类复杂任务:

  • 多材料调研:Kimi 擅长网络搜索和交叉比对信源,也支持上传文件(论文、表格等),自动划分任务并行处理获取结果。
  • 播客、视频脚本稿件:音视频类文本更注重口述逻辑的顺畅和内容本身,对文案细节考究不多,这正是 AI 的优势区间,能够达到中长视频科普类节目的文案效果。

Kimi 的 Agent 集群不仅展现了其模型实力,更重要的是将智能分解与执行复杂长程任务的工具交给了广泛的办公用户群体,大幅降低了 AI Agent 的使用门槛。

Kimi Code:开源版 Claude Code

Kimi 推出了开源版的 Claude Code,用户可以直接在终端里运行,也可以将其集成到 VSCode、Cursor、JetBrains 和 Zed 等主流编辑器中。

得益于 K2.5 多模态模型的加入,Kimi Code 支持直接输入图片和视频进行编程辅助,体验得到了明显飞跃。这使得更多开发者能够方便地使用此类 Coding 框架。

总结

Kimi 这次赶在年前连发新品,诚意十足。

最大的亮点 K2.5 在大幅提升前端 Coding 设计水平的同时,补齐了国产模型在多模态理解和 Coding 能力上的关键短板。从实测来看,其前端水平已经追平甚至部分超越了海外顶级模型,尤其是对参考图的理解和设计调性的迁移能力有了质的提升。

Agent 集群则进一步放大了 Kimi 在 Agentic 任务上的优势。仅靠国产模型就能实现上百个子 Agent 的稳定快速并行,且网页版直接可用的低门槛,将进一步扩大办公群体对 Agent 应用的接受范围。

建议用户前往网页版亲自体验 K2.5 Agent 和 Agent 集群,尤其是看图 Coding 的能力,实际的上手体验远比评测更加精彩。

关联主题