摘要
1) 一句话总结 作者在春节期间耗时6天开发了一套包含970道题的原创大模型评测集,并在克服出题与上下文限制的过程中,总结出了一份各细分领域能力最强的大模型推荐名单。
2) 关键要点
- 评测集规模:构建了包含18个大维度、近100个小维度、共计970道题的原创大模型评测集。
- 核心目的:实现新模型发布后3小时内通过全自动评测与人工实测,快速摸清模型真实能力,避开“刷分”模型。
- 原创素材:为丰富评测集信息量,作者专门撰写了3本共计15万字的小说作为评测素材。
- 代码与开发最强:GPT-5.3 codex 在软件工程与代码生成、代码理解与推理、调试测试与维护方面表现最佳。
- 工程与工具调用最强:Claude Opus 4.6 在数据与后端、前端与产品、Agent工具调用、Web与桌面自动化、指令遵循及创作审美方面体感最强。
- 推理与知识最强:Gemini 3.1 Pro 擅长数学与形式推理、逻辑与规划;Gemini DeepThink 擅长知识广度与事实核验。
- 长文本与多模态最强:GPT-5.2 Thinking 在阅读理解、长上下文记忆与多轮一致性、多模态理解与视觉推理方面表现最优。
- 特定领域推荐:GPT-5.2 Pro 适合研究与知识工作Agent;GPT-4.5 擅长情商与协作沟通;Grok 4.2 在搜索最新AI资讯(如OpanClaw玩法)时效果显著。
3) 风险/缺口
- API额度消耗极快:高强度的生成任务在4天内几乎耗尽了三大主流大模型最高档Coding plan的额度。
- 初始生成质量不佳(Skill迭代成本高):初期模型出题缺乏经验和约束条件导致质量极差,必须依赖顶级模型互相出题、互相审查并迭代2天后,Skills才达到稳定可用状态。
- 上下文管理受限:近千道题的信息量超出单一Agent的生成能力,例如Claude Code一次性生成一个小类的10道题就已达到其最佳上下文的极限。
正文
这个春节,快快乐乐的在老家vibe coding了近6天。 我做了一个还蛮有趣的东西,就是一个18个大维度、近100个小维度,一共970道题的原创大模型评测集。
做这个东西的想法其实特别简单,就是我希望任何一个新模型一出来,就能用这套评测集直接过全自动过一遍,再配合我自己的实测,大概就能在3个小时里,就对新模型的能力比较清楚了,以方便我更好更快的对模型进行评测,同时也能避开一些刷分怪。
人啊,就是不知者无畏,想的很简单,但是没想到做起来,有这么的麻烦,4天几乎用光了我御三家大模型最高档Coding plan的额度,也真的踩了无数的坑。
比如Skill迭代,一开始我做了出题和审查skill之后,我发现,模型出的还是一坨屎,因为缺了太多的经验和约束条件。所以没办法,只能各个顶级模型互相出题再互相审查,然后再把经验迭代回skills,就这么迭代了2天,这个skills才算稳定可用。
就比如上下文管理,这1000道题的信息量过于恐怖,没有一个Agent能直接生成出来,更别提很多原创素材,我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code,一次性生成一个小类的10道题,就已经是最佳上下文的极限了。
不过这些坑归坑,但是也意外的帮我找到了各个维度里目前体感最强的模型。
毕竟出题模型的能力上限,几乎也影响出题的质量和未来评测的质量,毕竟出题的拉了,那未来评测必拉。
所以,也给大家分享一下,不保证对,只是我自己的体感:
- 软件工程与代码生成:GPT-5.3 codex
- 代码理解、推理与质量:GPT-5.3 codex
- 调试、测试与维护:GPT-5.3 codex
- 数据工程与后端服务:Claude Opus 4.6
- 前端与产品工程:Claude Opus 4.6
- Agent工具调用:Claude Opus 4.6
- Web与桌面自动化(静态) :Claude Opus 4.6
- 研究与知识工作Agent(静态):GPT-5.2 Pro
- 数学与形式推理:Gemini 3.1 Pro
- 逻辑与规划:Gemini 3.1 Pro
- 知识广度与事实核验:Gemini DeepThink
- 阅读理解与信息抽取:GPT-5.2 Thinking
- 长上下文记忆与多轮一致性:GPT-5.2 Thinking
- 指令遵循与对齐:Claude Opus 4.6
- 多模态理解与视觉推理:GPT-5.2 Thinking
- 情商与协作沟通:GPT-4.5
- 创作表达与审美:Claude Opus 4.6
以上,希望能帮大家节省一点时间。 哦对了,再额外提一句,在搜索上如果你想搜关于AI的最新的信息,比如OpanClaw的最新玩法之类的。 相信我,用Grok 4.2,有奇效。