春节6天，我找到了各个领域最强的大模型。

摘要

1) 一句话总结 作者在春节期间耗时6天开发了一套包含970道题的原创大模型评测集，并在克服出题与上下文限制的过程中，总结出了一份各细分领域能力最强的大模型推荐名单。

2) 关键要点

评测集规模：构建了包含18个大维度、近100个小维度、共计970道题的原创大模型评测集。
核心目的：实现新模型发布后3小时内通过全自动评测与人工实测，快速摸清模型真实能力，避开“刷分”模型。
原创素材：为丰富评测集信息量，作者专门撰写了3本共计15万字的小说作为评测素材。
代码与开发最强：GPT-5.3 codex 在软件工程与代码生成、代码理解与推理、调试测试与维护方面表现最佳。
工程与工具调用最强：Claude Opus 4.6 在数据与后端、前端与产品、Agent工具调用、Web与桌面自动化、指令遵循及创作审美方面体感最强。
推理与知识最强：Gemini 3.1 Pro 擅长数学与形式推理、逻辑与规划；Gemini DeepThink 擅长知识广度与事实核验。
长文本与多模态最强：GPT-5.2 Thinking 在阅读理解、长上下文记忆与多轮一致性、多模态理解与视觉推理方面表现最优。
特定领域推荐：GPT-5.2 Pro 适合研究与知识工作Agent；GPT-4.5 擅长情商与协作沟通；Grok 4.2 在搜索最新AI资讯（如OpanClaw玩法）时效果显著。

3) 风险/缺口

API额度消耗极快：高强度的生成任务在4天内几乎耗尽了三大主流大模型最高档Coding plan的额度。
初始生成质量不佳（Skill迭代成本高）：初期模型出题缺乏经验和约束条件导致质量极差，必须依赖顶级模型互相出题、互相审查并迭代2天后，Skills才达到稳定可用状态。
上下文管理受限：近千道题的信息量超出单一Agent的生成能力，例如Claude Code一次性生成一个小类的10道题就已达到其最佳上下文的极限。

这个春节，快快乐乐的在老家vibe coding了近6天。我做了一个还蛮有趣的东西，就是一个18个大维度、近100个小维度，一共970道题的原创大模型评测集。

做这个东西的想法其实特别简单，就是我希望任何一个新模型一出来，就能用这套评测集直接过全自动过一遍，再配合我自己的实测，大概就能在3个小时里，就对新模型的能力比较清楚了，以方便我更好更快的对模型进行评测，同时也能避开一些刷分怪。

人啊，就是不知者无畏，想的很简单，但是没想到做起来，有这么的麻烦，4天几乎用光了我御三家大模型最高档Coding plan的额度，也真的踩了无数的坑。

比如Skill迭代，一开始我做了出题和审查skill之后，我发现，模型出的还是一坨屎，因为缺了太多的经验和约束条件。所以没办法，只能各个顶级模型互相出题再互相审查，然后再把经验迭代回skills，就这么迭代了2天，这个skills才算稳定可用。

就比如上下文管理，这1000道题的信息量过于恐怖，没有一个Agent能直接生成出来，更别提很多原创素材，我甚至写了3本15万字的小说作为评测集的素材之一。像Claude Code，一次性生成一个小类的10道题，就已经是最佳上下文的极限了。

不过这些坑归坑，但是也意外的帮我找到了各个维度里目前体感最强的模型。

毕竟出题模型的能力上限，几乎也影响出题的质量和未来评测的质量，毕竟出题的拉了，那未来评测必拉。

所以，也给大家分享一下，不保证对，只是我自己的体感：

以上，希望能帮大家节省一点时间。哦对了，再额外提一句，在搜索上如果你想搜关于AI的最新的信息，比如OpanClaw的最新玩法之类的。相信我，用Grok 4.2，有奇效。