简介

NitroGen 是 NVIDIA 开发的一个开源通用游戏智能体(Generalist Gaming Agent)基础模型。它是一个视觉-动作模型(Vision-Action Model),能够直接从游戏像素输入中预测手柄或键盘操作。

技术特点

  • 通用性:在超过 1,000 个不同的游戏中展示了能力,涵盖 3D 动作、2D 平台和程序生成世界。
  • 视觉-动作映射:采用端到端架构,将游戏画面直接映射为控制指令。
  • 架构基础:基于 GR00T N1.5 架构(最初为机器人设计的具身智能架构)。
  • 训练数据:在 40,000 小时的公开游戏视频数据集上训练,并带有提取的操作标签。

开源资源

  • 模型权重:已在 GitHub/Hugging Face 开源。
  • 数据集:提供带标注的视频-动作数据集,用于推进具身智能研究。
  • 评估套件:包含一套用于测试通用智能体在不同游戏中表现的工具。

意义与影响

NitroGen 的研究不仅限于游戏领域,它对于开发能够在未知环境中操作的通用具身智能体(Embodied Agents)具有重要意义。通过在复杂多样的游戏世界中学习,智能体能够习得更强的泛化能力,从而为机器人学和模拟训练提供借鉴。

官方资源