摘要
1) 一句话总结 DeepMind与暴雪娱乐在2016年暴雪嘉年华上宣布达成合作,将《星际争霸 II》打造为全新的人工智能与机器学习研究环境,并向全球研究人员开放。
2) 关键要点
- 合作发布:DeepMind与暴雪合作构建的《星际争霸 II》AI研究环境计划于次年(2017年)向所有研究人员开放。
- 研究价值:《星际争霸 II》作为复杂的即时战略游戏,为通往现实世界提供了一座桥梁,智能体在游戏中掌握的技能有望转移到现实任务中。
- 核心AI挑战:游戏具有部分可观测性(需侦察和记忆)、高维动作空间以及层级性规划,与国际象棋或围棋等完美信息博弈形成显著对比。
- 操作限制:为确保测试的是AI的智能而非单纯的计算机控制速度,智能体的“每分钟操作数”(APM)将被限制在人类灵巧度的范围内。
- API开发:双方联合开发了全新的API,支持对单个单位进行编程控制并访问完整的游戏状态。
- 视觉与特征接口:开发了基于图像的新接口,可输出简化的低分辨率RGB图像数据,并提供地形高度、单位类型、生命值等独立的“特征层”,最终目标是让智能体直接从像素进行游戏。
- 测试场景与工具:官方将提供难度递增的“课程”场景供研究人员进行基准测试,同时允许使用现有的《星际争霸 II》编辑工具创建自定义任务。
3) 风险/差距
- 目前AI在《星际争霸 II》游戏中挑战人类职业选手还有很长的路要走。
正文
Oriol Vinyals
今天,在加利福尼亚州安纳海姆举行的2016年暴雪嘉年华(BlizzCon 2016)上,我们宣布了与暴雪娱乐(Blizzard Entertainment)的合作,将向全球的人工智能和机器学习研究人员开放《星际争霸 II》(StarCraft II)。
近20年来,《星际争霸》游戏系列一直被广泛公认为1v1竞技电子游戏的巅峰之作,也是有史以来最优秀的PC游戏之一。初代《星际争霸》是电子竞技的早期先驱,自90年代末以来一直由精英职业选手在最高水平上进行较量,至今仍保持着极强的竞技性。《星际争霸》系列在竞技游戏领域的长盛不衰,证明了暴雪的设计实力,以及他们多年来为平衡和完善游戏所做的不懈努力。《星际争霸 II》延续了该系列著名的电竞传统,也成为了我们与暴雪合作的重点。
DeepMind的科学使命是推动AI的边界,开发能够学会解决任何复杂问题而无需被告知如何去做的程序。游戏是实现这一目标的完美环境,它使我们能够快速、高效地开发和测试更智能、更灵活的AI算法,同时还能通过分数提供关于我们表现的即时反馈。
在过去的五年里,我们率先将游戏作为AI研究环境,以推动我们的机器学习和强化学习研究向前发展,从Atari的2D游戏,到Torcs等全3D环境,再到掌握围棋(Go),以及我们即将推出的DeepMind Labyrinth。以下是这些研究环境的展示(从左至右分别为Atari和Labyrinth)。
对于当前的AI研究来说,《星际争霸》是一个有趣的测试环境,因为它为通往复杂混乱的现实世界提供了一座有用的桥梁。智能体(agent)在环境中取得进展并玩好《星际争霸》所需的技能,最终可能会转移到现实世界的任务中。
在一局《星际争霸》游戏开始时,玩家需要从三个种族中选择一个,每个种族都有独特的单位能力和游戏方式。玩家的行动受游戏内经济的制约;必须收集矿物和天然气(瓦斯)才能建造新的建筑和生产单位。对手在同一时间也在建设他们的基地,但每个玩家只能看到自己单位视野范围内的地图部分。因此,玩家必须派遣单位去侦察未见区域,以获取有关对手的信息,并在很长一段时间内记住这些信息。随着环境变得部分可观测(partially observable),这构成了一个更加复杂的挑战——与国际象棋或围棋等完美信息博弈(perfect information games)形成了有趣的对比。而且这是一款即时战略游戏——双方玩家同时进行操作,因此每一个决策都需要快速高效地计算出来。
一个能够游玩《星际争霸》的智能体需要展示出对记忆的有效利用、长期规划的能力,以及根据新信息调整计划的能力。计算机能够进行极快的控制,但这并不一定代表智能,因此智能体必须在“每分钟操作数”(Actions Per Minute, APM)方面,在人类灵巧度的限制范围内与游戏进行交互。《星际争霸》的高维动作空间与以往强化学习研究中调查的空间截然不同;要执行像“将基地扩张到某个位置”这样简单的操作,必须协调鼠标点击、摄像头和可用资源。这使得动作和规划具有层级性,而这正是强化学习中极具挑战性的一个方面。
我们感到特别高兴的是,我们与暴雪合作构建的这个环境将在明年向所有研究人员开放和提供。我们认可近年来《母巢之战》(Brood War)社区的开发者和研究人员所付出的努力,并希望这个由暴雪团队直接支持的全新、现代且灵活的环境,能够被广泛用于推动最先进技术的发展。
我们与《星际争霸 II》团队密切合作,开发了一个API,它支持类似于以前使用“脚本化”接口编写的机器人的功能,允许对单个单位进行编程控制并访问完整的游戏状态(还提供了一些新选项)。最终,智能体将直接从像素进行游戏,为了实现这一目标,我们开发了一个新的基于图像的接口,该接口为地图和小地图输出简化的低分辨率RGB图像数据,并提供了将特征分解为独立“层”的选项,例如地形高度场、单位类型、单位生命值等。以下是特征层API外观的示例。
我们还在与暴雪合作创建“课程”(curriculum)场景,这些场景提供日益复杂的任务,使任何水平的研究人员都能让智能体运行起来,并对不同的算法和进展进行基准测试。研究人员还将拥有充分的灵活性和控制权,可以使用现有的《星际争霸 II》编辑工具来创建自己的任务。
我们非常期待看到与暴雪的合作将把我们带向何方。虽然我们在《星际争霸 II》游戏中挑战人类职业选手还有很长的路要走,但我们希望与暴雪合作完成的这项工作,能为更广泛的AI研究社区提供一个有用的测试平台。