Genie

简介

Genie 是 Google DeepMind 开发的基础世界模型 (Foundation World Model)，能够从单张图片或文本提示生成可交互的 3D 环境。被认为是通向 AGI 的重要里程碑。

版本演进

版本	发布时间	关键突破
Genie 1	2024.02	概念验证
Genie 2	2024.12	10-20 秒 360p 可交互世界
Genie 3	2025.08	实时 720p@24fps，数分钟连贯性

Genie 3 核心能力

实时交互

从文本提示生成可探索的 3D 世界
实时渲染 720p 分辨率、24 帧/秒
支持键盘/鼠标实时控制

技术架构

采用自回归架构 (Auto-regressive)：

每一帧基于前序帧 + 用户动作生成
无需显式 3D 模型即可保持环境一致性
Nvidia 科学家 Jim Fan 称其为 ” 游戏引擎 2.0”

物理理解

物体交互（碰撞、拾取）
角色动画
基础物理模拟
Agent 行为建模

核心应用

1. AI Agent 训练

DeepMind 使用 Genie 3 为其 SIMA 智能体生成训练环境：

” 一个 AI 在另一个 AI 的想象世界中游玩 ” — Demis Hassabis

2. 游戏开发原型

快速生成游戏关卡概念原型。

3. 机器人学习

在模拟环境中训练后迁移到真实世界。

当前限制

物理可靠性悖论：仍会出现物理错误（如人物倒着走）
时间限制：连贯性仅维持数分钟
视觉幻觉：偶尔出现不合理的视觉元素
未公开使用：目前仅用于研究，无公开产品

荣誉

入选 TIME 2025 年度最佳发明

官方资源

与视频生成的关系

Genie 与 Sora、Veo 的关键区别：

维度	Sora/Veo	Genie 3
输出	被动视频	可交互世界
控制	生成后固定	实时响应
类比	电影	游戏

Genie 的目标不是创作内容，而是创造可以训练 AI 的虚拟现实。

Sean's Blog

探索