摘要
一句话总结 Lumine 是一个以《原神》为基础训练的 3D 开放世界通用智能体,能够通过纯视觉输入和物理键鼠输出,端到端地执行复杂游戏任务,并具备强大的跨区域与跨游戏泛化能力。
核心要点
- 定位与范式:3D 开放世界通用智能体,采用统一感知、推理与实时行动的端到端交互方案。
- 纯视觉与物理交互:不依赖游戏底层 API,以 5Hz 频率接收屏幕原始像素输入,以 30Hz 频率直接输出键盘和鼠标物理指令。
- 多维操作能力:内置战斗、Boss 机制应对、解谜、NPC 交互、图形界面(GUI)操作及上下文学习等核心模块。
- 训练数据规模:模型基于 1731 小时人类游戏预训练数据、200 小时指令跟随数据以及 15 小时推理数据训练而成。
- 原神内任务表现:能够完成蒙德区域 5 小时(三幕)的主线流程,并在分布外区域(璃月)成功完成主线并到达特定地点。
- 跨游戏泛化能力:在未见过的同类环境中表现出泛化性,完成了《崩坏:星穹铁道》约 7 小时流程及《鸣潮》约 100 分钟的主线内容。
风险与不足
- 资源暂未开源:目前官网仅作为研究成果展示,代码、数据集、文档与教程等资源入口均为占位符,尚未提供可直接访问的独立资源。
功能与定位
Lumine 的定位是面向 3D 开放世界任务的通用智能体研究系统。站点展示其在游戏环境中统一处理感知、推理与行动的端到端范式,以及长时程任务执行与跨环境泛化能力。
典型使用场景
- 在开放世界游戏中执行长流程主线任务。
- 在分布外区域验证任务泛化能力。
- 在跨游戏环境中验证迁移与稳健执行能力。
核心功能
- 端到端交互链路:原始像素输入到键鼠动作输出的一体化执行。
- 能力模块覆盖:Combat、Boss Fight、Puzzle、NPC Interaction、GUI Manipulation、In-Context Learning。
- 长时程任务执行:支持小时级任务连续推进。
- 跨环境泛化:支持原神内跨区域与跨游戏迁移验证。
特色与差异点
- 强调“类人交互”路径:基于屏幕视觉与物理操作,不依赖特定游戏 API。
- 训练配方可量化:站点明确公开训练数据时长结构(1731h/200h/15h)。
- 展示粒度较细:包含多段任务演示视频与场景分类说明。
使用方式概览
- 访问官网查看任务演示与能力模块说明。
- 通过论文链接了解方法细节与实验设置。
- 关注后续代码、数据集与文档入口是否从占位状态转为可访问资源。
限制与注意事项
- 当前站点主要用于研究展示,尚未提供可直接复现的代码与数据下载入口。
- 页脚中的 Paper/Code/Dataset/Documentation/Tutorials 等部分入口仍为占位链接。
- 站点展示结果属于官方公开陈述,落地评估仍需结合后续开源材料验证。