帝国时代2大语言模型基准测试：评估LLM的建造顺序生成能力

摘要

一句话总结 本文介绍了一项旨在评估大语言模型（LLM）在特定约束下生成《帝国时代2》建造顺序DSL（领域特定语言）文件能力的基准测试。

关键要点

风险与不足

大语言模型（LLM）在制定《帝国时代2》（AoE 2）建造顺序（Build Orders）方面表现如何？本文将介绍一项相关的基准测试。

该基准测试旨在比较在相似的约束条件下，不同的“LLM+测试框架（harness）”组合在生成具有竞争力的《帝国时代2》建造顺序DSL（领域特定语言）文件方面的表现。

这项测试本质上是一个代码优化问题，它能够很好地代表我们希望智能体程序员（agentic coders）去完成的工作。不过，这是一个有些奇特的测试，其独特性足以让它成为一种“分布外（out-of-distribution）”的测试。

具体的测试维度包括：

在测试设置中，我会提供给模型一个简单的提示词、描述游戏数据的JSON文件、语法帮助，以及一个几乎空白的建造顺序模板。

需要说明的是，出于成本考虑，我并没有对这些基准测试进行太多次的重复运行。老实说，我认为结果的方差不会那么大，但这一点仍值得注意。

总体而言，结果并不令人惊艳。不过，所有我能够运行的模型都成功编写出了DSL脚本。公平地说，LLM所使用的交互接口略显劣势，但我原本对它们的期望会更高。

有趣的是，尽管这些模型都“擅长写代码”，但它们在测试中展现出了非常明显的技能分化：

Opus： 展现出了明显的世界知识。它的初稿在概念上非常出色，好到不可能是随机生成的。
Codex 5.3： 在默认提示词下表现出严重的“偷懒”现象，总是很早就停止生成，导致结果方差很大。但另一方面，由于它保留了剩余的上下文，后续我可以很容易地引导它得出更好的结果。

（注：本测试部分受到了出色的 minebench.ai 的启发。）

整个网站采用GPL3开源协议，基准测试的相关资产均已公开。我在相同的约束和访问权限下运行了模型，不过“pi”在处理其中几个模型时遇到了一些问题。