简介
Genie 是 Google DeepMind 开发的基础世界模型 (Foundation World Model),能够从单张图片或文本提示生成可交互的 3D 环境。被认为是通向 AGI 的重要里程碑。
版本演进
| 版本 | 发布时间 | 关键突破 |
|---|---|---|
| Genie 1 | 2024.02 | 概念验证 |
| Genie 2 | 2024.12 | 10-20 秒 360p 可交互世界 |
| Genie 3 | 2025.08 | 实时 720p@24fps,数分钟连贯性 |
Genie 3 核心能力
实时交互
- 从文本提示生成可探索的 3D 世界
- 实时渲染 720p 分辨率、24 帧/秒
- 支持键盘/鼠标实时控制
技术架构
采用自回归架构 (Auto-regressive):
- 每一帧基于前序帧 + 用户动作生成
- 无需显式 3D 模型即可保持环境一致性
- Nvidia 科学家 Jim Fan 称其为 ” 游戏引擎 2.0”
物理理解
- 物体交互(碰撞、拾取)
- 角色动画
- 基础物理模拟
- Agent 行为建模
核心应用
1. AI Agent 训练
DeepMind 使用 Genie 3 为其 SIMA 智能体生成训练环境:
” 一个 AI 在另一个 AI 的想象世界中游玩 ” — Demis Hassabis
2. 游戏开发原型
快速生成游戏关卡概念原型。
3. 机器人学习
在模拟环境中训练后迁移到真实世界。
当前限制
- 物理可靠性悖论:仍会出现物理错误(如人物倒着走)
- 时间限制:连贯性仅维持数分钟
- 视觉幻觉:偶尔出现不合理的视觉元素
- 未公开使用:目前仅用于研究,无公开产品
荣誉
- 入选 TIME 2025 年度最佳发明
官方资源
与视频生成的关系
| 维度 | Sora/Veo | Genie 3 |
|---|---|---|
| 输出 | 被动视频 | 可交互世界 |
| 控制 | 生成后固定 | 实时响应 |
| 类比 | 电影 | 游戏 |
Genie 的目标不是创作内容,而是创造可以训练 AI 的虚拟现实。