摘要

1) 一句话总结 Hugging Face 推出了一种去中心化且透明的社区评估机制,允许用户通过拉取请求(PR)公开提交模型评估分数,并在基准数据集和模型卡片之间实现数据的自动汇总与互联。

2) 关键要点

  • 行业痛点:当前基准测试(如 MMLU、GSM8K)得分已趋于饱和,但与模型在真实世界中的表现存在明显鸿沟,且不同来源报告的分数往往不一致。
  • 去中心化机制:推出透明的评估报告机制,初期从 MMLU-Pro、GPQA 和 HLE 等 4 个精选基准测试开始。
  • 基准测试端:数据集仓库可注册为基准测试,通过 eval.yaml(基于 Inspect AI 格式)定义评估规范以确保可复现,并自动汇总全站结果展示排行榜。
  • 模型端:评估分数以 YAML 格式存储在模型仓库的 .eval_results/ 目录中,同步显示在模型卡片和基准数据集中。
  • 社区参与:任何人均可通过 PR 提交评估结果(带有“社区”标签),无需等待模型作者合并即可展示,并可链接至论文、第三方平台或评估日志。
  • 作者权限:模型作者有权关闭社区提交的分数 PR 并隐藏特定结果。
  • 数据开放与透明:所有分数通过 Hub API 开放,方便构建定制化仪表盘;基于 Git 的底层架构确保了评估添加与修改的历史记录完全透明。

3) 风险与不足

  • 该机制无法彻底解决基准测试分数饱和的问题。
  • 无法消除基准测试得分与模型现实世界表现之间的鸿沟。
  • 不能阻止模型在测试集上进行训练(数据污染)。
  • 该功能目前仍处于 Beta 阶段。

正文

核心摘要: Hugging Face 上的基准数据集现在可以托管排行榜了。模型可以存储自身的评估分数,且所有内容相互关联。社区成员可以通过 PR(拉取请求)提交结果,经过验证的徽章将证明这些结果具备可复现性。

评估机制的现状与困境

让我们认清 2026 年模型评估的现状:MMLU 的准确率已经饱和并超过 91%,GSM8K 突破了 94%,HumanEval 也已被攻克。然而,根据实际使用反馈,一些在基准测试中表现优异的模型,仍然无法可靠地浏览网页、编写生产级代码,或在不产生幻觉的情况下处理多步任务。基准测试分数与真实世界表现之间存在着明显的鸿沟。

此外,报告的基准分数本身也存在差异。从模型卡片(Model Cards)、学术论文到各大评估平台,不同来源报告的结果往往不一致。这导致社区缺乏一个统一、权威的真实数据来源。

我们推出了什么

去中心化且透明的评估报告机制。

我们将通过去中心化的报告方式,允许整个社区公开报告基准测试分数,从而引领 Hugging Face Hub 上的模型评估走向新的方向。初期我们将从 4 个精选基准测试开始,并随着时间的推移扩展到更多相关的基准测试。

  • 对于基准测试(Benchmarks): 数据集仓库现在可以注册为基准测试(MMLU-Pro、GPQA 和 HLE 现已上线)。它们会自动汇总来自整个 Hub 的报告结果,并在数据集卡片中展示排行榜。基准测试通过 eval.yaml(基于 Inspect AI 格式)定义评估规范,确保任何人都可以复现。报告的结果必须与任务定义保持一致。
  • 对于模型(Models): 评估分数存储在模型仓库的 .eval_results/*.yaml 文件中。它们会显示在模型卡片上,并同步到基准数据集中。模型作者的结果和公开的 PR 结果都会被汇总。模型作者也有权关闭分数 PR 并隐藏特定结果。
  • 对于社区(The Community): 任何用户都可以通过 PR 为任何模型提交评估结果。这些结果会以“社区(community)”的标签展示,无需等待模型作者合并或关闭。社区可以链接到论文、模型卡片、第三方评估平台或 inspect 评估日志等来源,并像讨论普通 PR 一样讨论这些分数。由于 Hub 是基于 Git 的,因此添加评估、修改内容的时间等历史记录都将一目了然。

为什么这很重要

去中心化的评估机制将整合社区中(如模型卡片和论文中)已经存在的分数。通过公开这些数据,社区可以在此基础上进行汇总、追踪,并深入了解整个领域的评估现状。同时,所有分数都将通过 Hub API 开放,方便开发者聚合数据并构建定制化的排行榜和仪表盘。

社区评估并不会取代现有的基准测试,因此传统的排行榜和带有公开结果的封闭评估仍然至关重要。但我们认为,基于可复现的评估规范为行业贡献开放的评估结果同样重要。

这并不能彻底解决基准测试饱和的问题,也无法消除基准与现实之间的鸿沟,更不能阻止模型在测试集上进行训练。但它通过公开“评估内容、评估方式、评估时间以及评估者”,让整个博弈过程变得透明可见。

最重要的是,我们希望将 Hub 打造成一个积极构建和分享可复现基准测试的平台,特别是聚焦于那些能对前沿(SOTA)模型提出更大挑战的新任务和新领域。

如何开始

  • 阅读文档: 查阅官方文档以了解更多关于评估结果的信息。
  • 添加评估结果: 将您执行的评估以 YAML 文件的形式发布到任何模型仓库的 .eval_results/ 目录中。
  • 查看分数: 浏览基准数据集上的最新得分。
  • 注册新基准测试: 在您的数据集仓库中添加 eval.yaml,并联系我们以加入精选列表。

注:该功能目前处于 Beta 阶段。我们坚持公开构建,欢迎随时提供反馈。

相关文档

关联主题