Genie 3：探索世界模型的新前沿

摘要

1) 一句话总结 Google DeepMind 推出了首个支持实时交互的通用世界模型 Genie 3，能够通过文本提示生成动态虚拟世界，并在 720p 分辨率和 24 fps 帧率下保持长达数分钟的环境一致性。

2) 核心要点

性能指标：支持用户以 24 帧/秒（fps）的速度进行实时导航，生成的世界在 720p 分辨率下可维持数分钟的物理一致性，其视觉记忆可追溯至长达一分钟前。
核心模拟能力：能够生成并模拟复杂的物理特性（如水流、光影）、自然生态系统、奇幻动画场景，以及跨越地理与时间的真实或历史场景。
技术架构突破：Genie 3 的一致性属于“涌现能力”，它不依赖 NeRF 或 3D 高斯溅射等显式 3D 表示，而是完全基于世界描述和用户动作逐帧自回归生成。
可提示的世界事件：支持基于文本的交互，允许在导航控制之外改变天气条件或引入新物体和角色，有助于构建反事实（假设性）场景。
赋能具身智能体：已使用最新版 SIMA 智能体进行兼容性测试，Genie 3 的长周期一致性使得智能体能够执行更长的动作序列以完成复杂目标。
发布决策：目前作为“有限的研究预览版”发布，仅向一小部分学者和创作者提供早期访问权限，以收集反馈并评估风险。

3) 风险与局限性

动作空间受限：智能体可以直接执行的动作范围仍然有限，环境干预（如可提示的世界事件）不一定由智能体自身执行。
多智能体模拟挑战：在共享环境中准确模拟多个独立智能体之间的复杂交互仍是一个未解决的研究难题。
地理准确度不足：目前无法以完美的地理准确度来模拟现实世界中的具体位置。
文本渲染限制：通常只有在输入提示中明确要求时，模型才能生成清晰易读的文本。
交互时长瓶颈：目前的连续交互时间仅限于几分钟，尚未达到数小时的级别。
安全与责任风险：其开放式和实时生成能力带来了新的安全挑战，可能产生意外影响，需配合负责任开发团队进行风险缓解。

正文

今天，我们正式推出 Genie 3——一个能够生成前所未有多样化交互式环境的通用世界模型。

只需输入文本提示，Genie 3 就能生成动态的虚拟世界。用户可以在这些世界中以 24 帧/秒（fps）的速度进行实时导航，并在 720p 的分辨率下保持长达数分钟的环境一致性。

迈向世界模拟

在 Google DeepMind，我们在模拟环境领域的前沿研究已超过十年，涵盖了从训练智能体掌握即时战略游戏，到为开放式学习和机器人技术开发模拟环境。这些工作促使我们开发了“世界模型”（World Models）——这是一种能够利用对世界的理解来模拟其各个方面的 AI 系统，使智能体能够预测环境的演变以及自身行为将如何影响环境。

世界模型也是通向通用人工智能（AGI）的关键基石，因为它们使得在无限丰富的模拟环境中训练 AI 智能体成为可能。继去年推出首批基础世界模型 Genie 1 和 Genie 2，以及在视频生成领域不断突破的 Veo 2 和 Veo 3 之后，Genie 3 成为了我们首个允许实时交互的世界模型，同时在一致性和真实感上较 Genie 2 有了显著提升。

Genie 3 的核心能力

Genie 3 能够生成高度一致且可进行长周期交互的世界，其主要能力包括：

模拟物理特性： 能够呈现水流、光影等自然现象以及复杂的环境交互。例如，模拟驾驶越野车穿越火山地形、在飓风和暴雨中漫步佛罗里达海岸，或是以第一人称视角在深海中跟随水母高速游动。
模拟自然世界： 生成充满活力的生态系统，涵盖动物行为到复杂的植物形态。例如，生成冰川湖畔的野生动物群落、发光的深海生物、精致的日式枯山水庭院，以及光影斑驳的茂密热带雨林。
构建动画与虚构场景： 激发想象力，创造奇幻场景和生动的动画角色。例如，在彩虹桥上奔跑的 3D 风格毛茸茸生物、折纸风格的蜥蜴、由萤火虫视角的魔法森林，甚至是重力颠倒、湖泊悬空的超现实爱尔兰风景。
探索真实地点与历史场景： 跨越地理和时间的界限，探索不同的地点和过去的时代。例如，阿尔卑斯山的崎岖地形、威尼斯的运河与贡多拉、古希腊克诺索斯宫殿的昔日辉煌，或是印度的悬崖公路。

突破实时交互与长期一致性的边界

在 Genie 3 中实现高度可控性和实时交互性需要重大的技术突破。在自回归生成每一帧的过程中，模型必须考虑随时间增长的先前生成轨迹。例如，如果用户在一分钟后重返某个地点，模型必须回溯一分钟前的相关信息。为了实现实时交互，这种计算必须在一秒钟内进行多次，以响应不断输入的用户指令。

为了让 AI 生成的世界具有沉浸感，它们必须在长周期内保持物理一致性。自回归地生成环境通常比生成完整视频更难，因为误差容易随时间累积。尽管面临挑战，Genie 3 生成的环境在几分钟内仍能保持高度一致，其视觉记忆可以追溯到长达一分钟前。

值得注意的是，Genie 3 的一致性是一种“涌现能力”。与 NeRF 或 3D 高斯溅射（Gaussian Splatting）等依赖显式 3D 表示的方法不同，Genie 3 生成的世界更加动态和丰富，因为它们是完全基于世界描述和用户动作逐帧生成的。

可提示的世界事件 (Promptable World Events)

除了导航输入外，Genie 3 还支持一种更具表现力的基于文本的交互形式，我们称之为“可提示的世界事件”。

这使得改变生成的世界成为可能，例如改变天气条件或引入新的物体和角色，从而在导航控制之外进一步增强了体验。这种能力也拓宽了反事实（或“假设性”）场景的范围，可用于帮助从经验中学习的智能体处理突发状况。

赋能具身智能体研究

为了测试 Genie 3 生成的世界对未来智能体训练的兼容性，我们为最新版本的 SIMA 智能体（我们用于 3D 虚拟环境的通用智能体）生成了测试世界。在每个世界中，我们指示智能体追求一系列不同的目标，智能体通过向 Genie 3 发送导航动作来实现这些目标。像任何其他环境一样，Genie 3 并不知道智能体的目标，它只是根据智能体的动作来模拟未来。

由于 Genie 3 能够保持环境一致性，现在可以执行更长的动作序列，从而实现更复杂的目标。随着我们向 AGI 迈进以及智能体在现实世界中发挥更大作用，我们预计这项技术将发挥至关重要的作用。

当前的局限性

尽管 Genie 3 拓宽了世界模型的边界，但仍需认识到其目前的局限性：

有限的动作空间： 虽然“可提示的世界事件”允许广泛的环境干预，但这些干预不一定是由智能体自身执行的。智能体可以直接执行的动作范围目前仍受限。
其他智能体的交互与模拟： 在共享环境中准确模拟多个独立智能体之间的复杂交互，仍然是一个持续的研究挑战。
真实世界地点的准确呈现： Genie 3 目前无法以完美的地理准确度模拟现实世界的具体位置。
文本渲染： 通常只有在输入的世界描述中提供了明确提示时，才能生成清晰易读的文本。
交互时长有限： 模型目前支持几分钟的连续交互，尚无法达到数小时的级别。

责任与下一步计划

我们认为，基础技术从一开始就需要对责任有深刻的承诺。Genie 3 的技术创新（特别是其开放式和实时能力）为安全和责任带来了新的挑战。为了在最大化收益的同时应对这些独特风险，我们正与负责任开发与创新团队密切合作。

在 Google DeepMind，我们致力于以放大人类创造力、同时限制意外影响的方式开发顶尖模型。目前，我们将 Genie 3 作为一个有限的研究预览版发布，为一小部分学者和创作者提供早期访问权限。这种方法使我们能够在探索这一新前沿时收集关键反馈和跨学科观点，并继续加深对风险及其适当缓解措施的理解。

我们相信 Genie 3 是世界模型发展的一个重要时刻，它将开始对 AI 研究和生成式媒体等多个领域产生影响。为此，我们正在探索未来如何将 Genie 3 提供给更多测试人员。

Genie 3 有望为教育和培训创造新机会，帮助学生学习并让专家积累经验。它不仅可以为训练机器人和自动驾驶系统等智能体提供广阔的空间，还能用于评估智能体的性能并探索其弱点。在每一步中，我们都将持续探索这项工作的影响，并安全、负责任地为其造福人类而努力。

wsl-docs

探索

Genie 3：探索世界模型的新前沿

摘要

正文

迈向世界模拟

Genie 3 的核心能力

突破实时交互与长期一致性的边界

可提示的世界事件 (Promptable World Events)

赋能具身智能体研究

当前的局限性

责任与下一步计划

相关文档

关联主题

关系图谱

目录

反向链接