摘要

一句话总结 Lumine 是一个以《原神》为基础训练的 3D 开放世界通用智能体,能够通过纯视觉输入和物理键鼠输出,端到端地执行复杂游戏任务,并具备强大的跨区域与跨游戏泛化能力。

核心要点

  • 定位与范式:3D 开放世界通用智能体,采用统一感知、推理与实时行动的端到端交互方案。
  • 纯视觉与物理交互:不依赖游戏底层 API,以 5Hz 频率接收屏幕原始像素输入,以 30Hz 频率直接输出键盘和鼠标物理指令。
  • 多维操作能力:内置战斗、Boss 机制应对、解谜、NPC 交互、图形界面(GUI)操作及上下文学习等核心模块。
  • 训练数据规模:模型基于 1731 小时人类游戏预训练数据、200 小时指令跟随数据以及 15 小时推理数据训练而成。
  • 原神内任务表现:能够完成蒙德区域 5 小时(三幕)的主线流程,并在分布外区域(璃月)成功完成主线并到达特定地点。
  • 跨游戏泛化能力:在未见过的同类环境中表现出泛化性,完成了《崩坏:星穹铁道》约 7 小时流程及《鸣潮》约 100 分钟的主线内容。

风险与不足

  • 资源暂未开源:目前官网仅作为研究成果展示,代码、数据集、文档与教程等资源入口均为占位符,尚未提供可直接访问的独立资源。

功能与定位

Lumine 的定位是面向 3D 开放世界任务的通用智能体研究系统。站点展示其在游戏环境中统一处理感知、推理与行动的端到端范式,以及长时程任务执行与跨环境泛化能力。

典型使用场景

  • 在开放世界游戏中执行长流程主线任务。
  • 在分布外区域验证任务泛化能力。
  • 在跨游戏环境中验证迁移与稳健执行能力。

核心功能

  • 端到端交互链路:原始像素输入到键鼠动作输出的一体化执行。
  • 能力模块覆盖:Combat、Boss Fight、Puzzle、NPC Interaction、GUI Manipulation、In-Context Learning。
  • 长时程任务执行:支持小时级任务连续推进。
  • 跨环境泛化:支持原神内跨区域与跨游戏迁移验证。

特色与差异点

  • 强调“类人交互”路径:基于屏幕视觉与物理操作,不依赖特定游戏 API。
  • 训练配方可量化:站点明确公开训练数据时长结构(1731h/200h/15h)。
  • 展示粒度较细:包含多段任务演示视频与场景分类说明。

使用方式概览

  1. 访问官网查看任务演示与能力模块说明。
  2. 通过论文链接了解方法细节与实验设置。
  3. 关注后续代码、数据集与文档入口是否从占位状态转为可访问资源。

限制与注意事项

  • 当前站点主要用于研究展示,尚未提供可直接复现的代码与数据下载入口。
  • 页脚中的 Paper/Code/Dataset/Documentation/Tutorials 等部分入口仍为占位链接。
  • 站点展示结果属于官方公开陈述,落地评估仍需结合后续开源材料验证。

链接

关联主题