简介
NitroGen 是 NVIDIA 开发的一个开源通用游戏智能体(Generalist Gaming Agent)基础模型。它是一个视觉-动作模型(Vision-Action Model),能够直接从游戏像素输入中预测手柄或键盘操作。
技术特点
- 通用性:在超过 1,000 个不同的游戏中展示了能力,涵盖 3D 动作、2D 平台和程序生成世界。
- 视觉-动作映射:采用端到端架构,将游戏画面直接映射为控制指令。
- 架构基础:基于 GR00T N1.5 架构(最初为机器人设计的具身智能架构)。
- 训练数据:在 40,000 小时的公开游戏视频数据集上训练,并带有提取的操作标签。
开源资源
- 模型权重:已在 GitHub/Hugging Face 开源。
- 数据集:提供带标注的视频-动作数据集,用于推进具身智能研究。
- 评估套件:包含一套用于测试通用智能体在不同游戏中表现的工具。
意义与影响
NitroGen 的研究不仅限于游戏领域,它对于开发能够在未知环境中操作的通用具身智能体(Embodied Agents)具有重要意义。通过在复杂多样的游戏世界中学习,智能体能够习得更强的泛化能力,从而为机器人学和模拟训练提供借鉴。
官方资源
- GitHub: https://github.com/NVlabs/NitroGen
- 项目主页: https://minedojo.org/ (作为 MineDojo 项目的延续)