简介

Genie 是 Google DeepMind 开发的基础世界模型 (Foundation World Model),能够从单张图片或文本提示生成可交互的 3D 环境。被认为是通向 AGI 的重要里程碑。

版本演进

版本发布时间关键突破
Genie 12024.02概念验证
Genie 22024.1210-20 秒 360p 可交互世界
Genie 32025.08实时 720p@24fps,数分钟连贯性

Genie 3 核心能力

实时交互

  • 从文本提示生成可探索的 3D 世界
  • 实时渲染 720p 分辨率、24 帧/秒
  • 支持键盘/鼠标实时控制

技术架构

采用自回归架构 (Auto-regressive):

  • 每一帧基于前序帧 + 用户动作生成
  • 无需显式 3D 模型即可保持环境一致性
  • Nvidia 科学家 Jim Fan 称其为 ” 游戏引擎 2.0”

物理理解

  • 物体交互(碰撞、拾取)
  • 角色动画
  • 基础物理模拟
  • Agent 行为建模

核心应用

1. AI Agent 训练

DeepMind 使用 Genie 3 为其 SIMA 智能体生成训练环境:

” 一个 AI 在另一个 AI 的想象世界中游玩 ” — Demis Hassabis

2. 游戏开发原型

快速生成游戏关卡概念原型。

3. 机器人学习

在模拟环境中训练后迁移到真实世界。

当前限制

  1. 物理可靠性悖论:仍会出现物理错误(如人物倒着走)
  2. 时间限制:连贯性仅维持数分钟
  3. 视觉幻觉:偶尔出现不合理的视觉元素
  4. 未公开使用:目前仅用于研究,无公开产品

荣誉

  • 入选 TIME 2025 年度最佳发明

官方资源

与视频生成的关系

Genie 与 SoraVeo 的关键区别:

维度Sora/VeoGenie 3
输出被动视频可交互世界
控制生成后固定实时响应
类比电影游戏

Genie 的目标不是创作内容,而是创造可以训练 AI 的虚拟现实