摘要
1) 一句话总结
Genie 2 是一个能够通过单张图像生成多样化、动作可控且可玩的3D环境的大规模基础世界模型,旨在为具身智能体提供无限的训练与评估场景。
2) 关键要点
- 核心交互:只需提供一张提示图像(可由 Imagen 3 生成),人类或AI智能体即可通过键盘和鼠标在生成的3D环境中进行游玩和交互。
- 生成时长:模型能够生成长达1分钟的连贯世界,大多数生成示例的持续时间在10到20秒之间。
- 涌现能力:在海量视频数据上训练后,展现出动作控制、长视野记忆、反事实体验生成、复杂角色动画、NPC建模以及精准物理特效(如水流、重力、光照)等能力。
- 强大的泛化性:具备分布外泛化(OOD)能力,能够将真实世界照片、概念艺术或手绘草图转化为完全交互式的3D环境,支持快速原型设计。
- 赋能智能体研究:可为具身智能体(如 SIMA)生成训练期间未见过的评估任务;同时也可利用智能体执行指令(如“转过身”)来反向评估 Genie 2 生成环境的连贯性。
- 模型架构:采用自回归的潜在扩散模型(Latent Diffusion Model),结合自编码器和带有因果掩码的大型 Transformer 动力学模型。
- 动作可控性:在推理阶段,使用无分类器引导(Classifier-free guidance)技术来提高动作控制的准确性。
- 版本差异:当前高质量演示样本由未蒸馏的基础模型生成;另有蒸馏版本可实现实时游玩,但输出质量较低。
3) 风险与不足
- 技术成熟度:该研究仍处于早期阶段,模型在通用性和连贯性等环境生成能力上仍有很大的提升空间。
- 性能权衡:为了实现实时游玩而使用的蒸馏版本模型,会导致输出质量下降。
- 不可控的异常表现:模型偶尔会生成意料之外的画面(例如在无动作输入时出现幽灵,或角色面对滑雪板时选择跑酷而非滑雪)。
正文
今天,我们正式推出 Genie 2——一个基础世界模型。它能够生成种类繁多、动作可控且可玩的3D环境,用于训练和评估具身智能体(Embodied Agents)。只需提供一张提示图像,人类或AI智能体就可以通过键盘和鼠标在生成的环境中进行游玩。
游戏在人工智能(AI)研究领域一直扮演着关键角色。它们具有吸引力、独特的挑战性以及可衡量的进步空间,是安全测试和提升AI能力的理想环境。从早期的Atari游戏研究,到AlphaGo和AlphaStar的突破,再到与游戏开发者合作的通用智能体(如SIMA),游戏始终处于我们研究的中心。然而,训练更通用的具身智能体,传统上一直受限于缺乏足够丰富和多样化的训练环境。
Genie 2 的出现,使得未来的智能体能够在无限量的新颖世界课程中进行训练和评估。同时,这项研究也为交互式体验的原型设计开辟了全新的创意工作流。
基础世界模型的涌现能力
在此之前,世界模型大多局限于对狭窄领域的建模。在 Genie 1 中,我们引入了生成多种2D世界的方法;而今天的 Genie 2 则在通用性上实现了重大飞跃,能够生成极其丰富多样的3D世界。
作为一个世界模型,Genie 2 能够模拟虚拟世界以及采取任何动作(如跳跃、游泳等)所带来的后果。它在海量视频数据集上进行了训练,并与其他生成式模型一样,在规模化后展现出了多种涌现能力,例如物体交互、复杂的角色动画、物理规律,以及对其他智能体行为进行建模和预测的能力。
用户可以通过 GDM 最先进的文本到图像模型 Imagen 3 生成单张图像作为提示。这意味着任何人都可以用文字描述他们想要的世界,选择最喜欢的渲染效果,然后步入并与这个新创建的世界互动(或者让AI智能体在其中进行训练和评估)。在每一步中,人类或智能体输入键盘和鼠标动作,Genie 2 就会模拟出下一个观察画面。Genie 2 能够生成长达一分钟的连贯世界,大多数示例的持续时间在10到20秒之间。
Genie 2 具备以下核心能力:
- 动作控制: 模型能智能响应键盘按键动作,准确识别并移动角色(例如,模型能理解方向键应该移动机器人,而不是树木或云彩)。
- 生成反事实体验: 从同一个起始帧开始,根据人类玩家采取的不同动作,可以生成截然不同的轨迹,这为训练智能体提供了模拟反事实体验的可能。
- 长视野记忆: 能够记住离开视线范围的世界部分,并在它们重新进入视野时准确地将其渲染出来。
- 长视频与新内容生成: 能够即时生成合理的新内容,并维持长达一分钟的连贯世界。
- 多样化环境与3D结构: 支持创建不同的视角(如第一人称、等距视角或第三人称驾驶视角),并学会了创建复杂的3D视觉场景。
- 物体可供性与交互: 能够对各种物体交互进行建模,例如戳破气球、开门和射击爆炸桶。
- 角色动画与NPC: 学会了如何让不同类型的角色执行各种活动,并能对其他智能体(NPC)及其复杂的交互进行建模。
- 物理与环境特效: 能够精准模拟水流、烟雾、重力、点光源与平行光、反射、泛光以及彩色光照等物理和视觉效果。
- 真实图像驱动: 即使输入真实世界的照片,Genie 2 也能进行模拟,例如展现风中摇曳的草或河流中流动的水。
支持快速原型设计
Genie 2 使得快速构建多样化交互体验的原型变得异常简单,研究人员可以借此快速实验新颖的环境,以训练和测试具身AI智能体。
例如,我们可以输入不同的图像,测试 Genie 2 如何模拟驾驶纸飞机、龙、老鹰或降落伞的区别,并检验其动画化不同化身的能力。得益于 Genie 2 的分布外泛化(OOD)能力,概念艺术和手绘草图也能被转化为完全交互式的环境。这使得艺术家和设计师能够快速制作原型,从而启动环境设计的创意过程,进一步加速研究。
AI智能体在世界模型中的应用
通过使用 Genie 2 快速创建丰富多样的环境,研究人员可以生成智能体在训练期间从未见过的评估任务。
例如,我们与游戏开发者合作开发的 SIMA 智能体,可以遵循自然语言指令在 3D 游戏世界中完成任务。我们利用 Genie 2 生成了一个包含红蓝两扇门的 3D 环境,并指示 SIMA 智能体分别打开它们。在这个过程中,SIMA 通过键盘和鼠标输入控制化身,而 Genie 2 则负责生成游戏画面。
同时,我们也可以利用 SIMA 来评估 Genie 2 的能力。例如,通过指示 SIMA “转过身”或“走到房子后面”,来测试 Genie 2 生成连贯环境的能力。
尽管这项研究仍处于早期阶段,智能体和环境生成能力都有很大的提升空间,但我们相信,Genie 2 是解决安全训练具身智能体这一结构性问题的有效途径,并能提供迈向通用人工智能(AGI)所需的广度和通用性。
扩散世界模型架构
Genie 2 是一个自回归的潜在扩散模型(Latent Diffusion Model),在大型视频数据集上进行训练。视频帧首先通过自编码器(Autoencoder)处理,随后这些潜在帧被输入到一个大型 Transformer 动力学模型中,该模型使用了类似于大型语言模型的因果掩码(Causal Mask)进行训练。
在推理阶段,Genie 2 可以以自回归的方式进行采样,逐帧接收单个动作和过去的潜在帧。我们使用了无分类器引导(Classifier-free guidance)技术来提高动作的可控性。
为了展示模型的潜力,目前演示的样本均由未蒸馏的基础模型生成。我们也可以运行一个蒸馏版本的模型来实现实时游玩,但输出质量会有所降低。
负责任的开发与趣味花絮
Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的巨大潜力。这一研究方向尚处于起步阶段,我们期待在通用性和连贯性方面继续提升 Genie 的世界生成能力。与 SIMA 一样,我们的研究旨在构建更通用的 AI 系统和智能体,使其能够理解并安全地执行广泛的任务,从而在网络和现实世界中为人类提供帮助。
在开发过程中,我们也发现了一些有趣的“花絮”:例如在没有任何动作输入的情况下,花园里突然出现了一个幽灵;或者角色在面对滑雪板时,却更倾向于表演跑酷。这些意料之外的表现也为世界模型的探索增添了独特的趣味。