摘要

一句话总结 谷歌向美国18岁及以上的Google AI Ultra订阅用户推出实验性研究原型Project Genie,允许用户通过文本和图像创建、探索并重组沉浸式的交互世界。

关键要点

  • 开放范围:目前仅向美国18岁及以上的Google AI Ultra订阅用户开放,未来计划扩展至更多地区。
  • 技术架构:Project Genie是一个网络应用程序,由Genie 3(通用世界模型)、Nano Banana Pro和Gemini共同驱动。
  • 核心能力(Genie 3):能够随着用户的移动和交互实时生成前方路径,并为动态世界模拟物理规律和交互。
  • 功能一:绘制世界草图:用户可通过文本或图像创建环境、角色及移动方式(如步行、飞行、驾驶等)。结合Nano Banana Pro,用户可在进入世界前预览图像、微调细节并设定视角(第一或第三人称)。
  • 功能二:探索世界:在可导航的环境中,系统根据用户的动作实时生成路径,并支持在穿越世界时动态调整视角。
  • 功能三:重组世界:支持在现有提示词或画廊精选世界的基础上进行二次创作,完成后可下载世界及探索过程的视频。

风险与不足

  • 生成的世界可能缺乏逼真度,或无法严格遵循提示词、图像以及现实世界的物理规律。
  • 角色控制可能存在困难,或在操作时出现较高的延迟。
  • 单次生成时间目前被严格限制在60秒以内。
  • 功能缺失:此前8月份公布的部分Genie 3模型功能(例如在探索时改变世界的可提示事件)尚未包含在当前原型中。

正文

谷歌正在向美国的 Google AI Ultra 订阅用户(18岁及以上)推出 Project Genie 的访问权限。这是一个实验性的研究原型,让用户能够通过文本和图像创建、探索并重组(remix)属于自己的交互式世界。

今年 8 月,我们预览了 Genie 3,这是一个能够生成多样化交互式环境的通用世界模型。即使在早期阶段,受信任的测试人员就已经能够创造出一系列令人惊叹的奇妙世界和体验,并发现了全新的使用方式。我们的下一步,是通过一个专注于沉浸式世界创建的专用交互式原型,扩大该技术的访问范围。

我们如何推进世界模型

世界模型可以模拟环境的动态变化,预测其演变过程以及动作对其产生的影响。虽然 Google DeepMind 过去曾为国际象棋或围棋等特定环境开发过智能体,但构建通用人工智能(AGI)需要能够驾驭现实世界多样性的系统。

为了应对这一挑战并支持我们的 AGI 使命,我们开发了 Genie 3。与静态 3D 快照中的探索体验不同,Genie 3 能够随着你的移动和与世界的交互,实时生成前方的路径。它为动态世界模拟物理规律和交互,其突破性的一致性使得模拟任何现实世界场景成为可能——从机器人技术、动画和小说建模,到探索特定地点和历史场景。

在各行业和领域的受信任测试人员的模型研究基础之上,我们迈出了下一步,推出了实验性研究原型:Project Genie。

Project Genie 的工作原理

Project Genie 是一个由 Genie 3、Nano Banana Pro 和 Gemini 驱动的原型网络应用程序,允许用户亲身体验我们世界模型的沉浸式效果。该体验以三个核心功能为中心:

  • 绘制世界草图 (World sketching) 通过文本提示以及生成或上传的图像,创建一个不断扩展的生动环境。你可以创建自己的角色、世界,并定义你想要的探索方式——无论是步行、骑行、飞行还是驾驶,甚至更多。 为了实现更精确的控制,我们将“世界草图绘制”与 Nano Banana Pro 进行了集成。这使你能够在进入世界之前预览其外观,并修改图像以微调你的世界。你还可以为角色定义视角(例如第一人称或第三人称),从而在进入场景之前控制你的体验方式。

  • 探索世界 (World exploration) 你的世界是一个可导航的环境,等待着你去探索。随着你的移动,Project Genie 会根据你采取的行动实时生成前方的路径。你还可以在穿越世界时调整视角。

  • 重组世界 (World remixing) 通过在现有提示词的基础上进行构建,将现有的世界重组为全新的演绎。你还可以在画廊中探索精选的世界,或者点击随机图标获取灵感,并在它们的基础上进行创作。完成后,你可以下载你的世界和探索过程的视频。

我们如何负责任地进行构建

Project Genie 是 Google Labs 中的一个实验性研究原型,由 Genie 3 驱动。与我们致力于通用 AI 系统的所有工作一样,我们的使命是负责任地构建 AI 以造福人类。由于 Genie 3 是一个早期的研究模型,目前存在一些已知的改进空间:

  • 生成的世界可能看起来不够逼真,或者不总是严格遵循提示词、图像或现实世界的物理规律。
  • 角色有时可能难以控制,或者在控制时出现较高的延迟。
  • 生成时间目前限制在 60 秒以内。

我们在 8 月份宣布的一些 Genie 3 模型功能(例如在探索时改变世界的可提示事件)尚未包含在此原型中。

基于我们与受信任测试人员所做的工作,我们很高兴能与我们最先进 AI 的用户分享这个原型,以更好地了解人们将如何在 AI 研究和生成式媒体等众多领域使用世界模型。

Project Genie 的访问权限从今天开始向美国的 Google AI Ultra 订阅用户(18岁及以上)推出,并将在适当的时候扩展到更多地区。我们期待看到用户创造出无限多样的世界,我们的最终目标是让更多用户能够体验到这些技术。

关联主题