Google DeepMind 升级 Game Arena：用狼人杀与德州扑克推进 AI 基准测试

摘要

1) 一句话总结 Google DeepMind 升级了 Kaggle Game Arena 基准测试平台，在原有的国际象棋基础上新增了狼人杀和德州扑克，以评估 AI 模型在不完全信息环境下的社交推理与风险管理能力。

2) 关键点

平台升级目的：从国际象棋的完美信息博弈，扩展到模拟现实世界中不完全信息决策的测试环境。
国际象棋基准：评估战略推理与长期规划。与传统引擎的暴力计算不同，大语言模型（LLM）依靠模式识别和直觉缩小搜索空间。
狼人杀基准：首个完全通过自然语言进行的团队游戏测试，重点评估沟通、谈判、处理模糊信息及团队协作等“软技能”。
德州扑克基准：引入风险管理维度，要求模型在“单挑无限注德州扑克”中量化不确定性、推断对手底牌并适应对手打法。
模型表现：目前 Gemini 3 Pro 和 Gemini 3 Flash 在国际象棋和狼人杀排行榜上均占据前两名，且相较于 Gemini 2.5 性能提升显著。
赛事直播：DeepMind 联合多位业内专家，于 2月2日至4日（太平洋时间上午 9:30）在 Kaggle 平台直播 AI 扑克锦标赛，并展示国际象棋与狼人杀的顶尖对局。

3) 风险/差距

欺骗与操纵风险：AI 智能体在未来部署到复杂现实世界时可能表现出欺骗或被操纵的行为。目前利用狼人杀作为受控沙盒环境，在无现实部署风险的前提下，对模型的欺骗能力进行红蓝对抗测试（Red-teaming），以构建能防范恶意行为者的安全 AI。

正文

现实世界中的决策，很少能像在国际象棋棋盘上那样基于完美的信息。去年，Google DeepMind 与 Kaggle 合作推出了 Game Arena——一个独立的公共基准测试平台，让 AI 模型在策略游戏中进行较量。

我们最初从国际象棋开始，旨在衡量 AI 的推理和战略规划能力。但为了更好地模拟现实世界中信息不完全的决策环境，我们正在对 Kaggle Game Arena 进行升级，新增了两项游戏基准测试：狼人杀（Werewolf）和德州扑克（Poker），以测试前沿模型在社交动态和计算风险方面的能力。

游戏一直是 Google DeepMind 发展历程中的核心部分，它提供了一个客观的试验场，其难度会随着竞争水平的提高而增加。随着 AI 系统变得更加通用，掌握多样化的游戏证明了它们在不同认知技能上的熟练度。除了衡量性能，游戏还可以作为受控的沙盒环境来评估智能体的安全性，帮助我们深入了解模型在未来部署到复杂现实世界时会表现出怎样的行为。

国际象棋：超越计算的战略推理

我们在去年发布了国际象棋基准测试，通过让模型进行一对一对弈，评估其战略推理、动态适应和长期规划能力。为了追踪这些模型能力的演进，我们已将最新一代模型纳入排行榜。

传统的国际象棋引擎（如 Stockfish）就像专门的超级计算器，每秒评估数百万个位置以寻找最佳着法。相比之下，大型语言模型（LLM）并不依赖暴力计算，而是依靠模式识别和“直觉”来大幅缩小搜索空间——这种方法更接近人类的下棋方式。

目前，Gemini 3 Pro 和 Gemini 3 Flash 在排行榜上占据最高 Elo 等级分。模型的内部“思考”过程表明，它们运用了基于棋子机动性、兵形和国王安全等熟悉概念的战略推理。与 Gemini 2.5 相比，性能的显著提升凸显了模型进步的惊人速度，也证明了 Game Arena 在长期追踪这些改进方面的价值。

狼人杀：驾驭社交推理与软技能

为了超越国际象棋的透明逻辑，我们在 Game Arena 中引入了狼人杀。这是我们首个完全通过自然语言进行的团队游戏，要求模型在对话中处理不完美信息。在这项社交推理挑战中，由“村民”组成的团队必须合作辨别真伪，找出隐藏的“狼人”才能获胜。

这项基准测试有助于评估下一代 AI 助手所需的“软技能”。游戏测试了以下能力：

沟通与谈判技巧
驾驭模糊信息的能力
在企业环境中与人类及其他智能体有效协作的能力

狼人杀也是智能体安全研究的绝佳安全环境。想要在游戏中获胜，模型需要扮演好两个角色：寻求真相的村民和善于欺骗的狼人。这使我们能够测试模型检测他人操纵的能力，同时在没有现实部署风险的情况下，对其自身的欺骗能力进行红蓝对抗测试（Red-teaming）。这项研究对于构建能够可靠防范恶意行为者的 AI 智能体至关重要。

目前，Gemini 3 Pro 和 Gemini 3 Flash 在该排行榜上位居前两名。它们展示了在多个游戏回合中对其他玩家的言论和行为进行推理的能力（例如，发现玩家公开声明与投票模式之间的不一致），并能利用这些洞察与队友达成共识。

德州扑克：计算风险的挑战

如果说国际象棋依赖推理，狼人杀依赖社交演绎，那么扑克则引入了一个全新的维度：风险管理。

与狼人杀一样，扑克也是一种不完美信息游戏。但这里的挑战不在于建立联盟，而在于量化不确定性。模型必须克服发牌时的运气成分，通过推断对手的底牌并适应其打法来决定最佳行动。

为了测试这些技能，我们推出了全新的扑克基准测试，并举办了一场 AI 扑克锦标赛，顶尖模型将在“单挑无限注德州扑克”（Heads-Up No-Limit Texas Hold’em）中展开角逐。

观赛指南：见证顶尖 AI 的对决

为了庆祝这些新基准测试的发布，我们与国际象棋特级大师 Hikaru Nakamura 以及扑克界传奇人物 Nick Schulman、Doug Polk 和 Liv Boeree 合作，制作了三场直播活动，为这三大基准测试提供专家解说和分析。

您可以在 Kaggle 平台上观看每日直播（太平洋时间上午 9:30）：

2月2日（周一）：扑克排行榜前八名的模型在 AI 扑克战中展开对决。
2月3日（周二）：在进行扑克锦标赛半决赛的同时，我们将展示狼人杀和国际象棋排行榜的精彩对局。
2月4日（周三）：最后两款模型争夺扑克桂冠，并发布完整的扑克排行榜。直播最后，国际象棋排行榜前两名（Gemini 3 Pro 和 Gemini 3 Flash）将进行巅峰对决，我们也将播放最强狼人杀模型的游戏集锦。

无论是寻找极具创造力的将死之法、在狼人杀中谈判休战，还是在扑克桌上全押（All-in），Kaggle Game Arena 都是我们发现这些 AI 模型真正实力的绝佳舞台。

wsl-docs

探索

Google DeepMind 升级 Game Arena：用狼人杀与德州扑克推进 AI 基准测试

摘要

正文

国际象棋：超越计算的战略推理

狼人杀：驾驭社交推理与软技能

德州扑克：计算风险的挑战

观赛指南：见证顶尖 AI 的对决

关联主题

关系图谱

目录