世界模型

这页作为世界模型主题的概览，区分“生成式模拟器”和“预测式模型”两条路线，并连接到更详细的世界模型技术调研。

什么是世界模型

世界模型 (World Model) 是一类能够理解、预测和模拟物理世界运行规律的 AI 系统。与单纯的视频生成不同，世界模型强调：

物理规律理解：模拟重力、碰撞、流体等物理现象
因果关系推理：理解动作与结果的因果链
可交互性：生成的环境可以实时响应用户/AI 的操作
时间一致性：长时间保持环境的连贯性

世界模型 vs 视频生成

维度	视频生成	世界模型
输出形式	被动视频片段	可交互的环境
用户控制	生成后不可改变	实时响应输入
物理要求	视觉逼真即可	需符合物理规律
时间尺度	几秒到几十秒	理论上无限持续
主要应用	内容创作	AI 训练、机器人、游戏
代表产品	Sora, Runway, Pika	Genie 3, SIMA

两大技术路线

生成式模拟器 (Generative Simulators)

创建视觉场景，侧重于生成逼真的视频/环境。

OpenAI Sora（被称为”世界模拟器”，但实际是视频生成）
Google Veo
Runway

预测式模型 (Predictive Models)

侧重于准确预测动作结果，用于规划和决策。

Google DeepMind Genie 系列
Wayve GAIA
Meta V-JEPA

应用场景

AI Agent 训练：在模拟环境中训练 AI，降低真实世界试错成本
机器人学习：让机器人在虚拟世界学习后迁移到真实世界
自动驾驶：模拟各种驾驶场景进行训练
游戏开发：自动生成游戏关卡和环境
科学研究：模拟物理/化学/生物过程

当前挑战

物理准确性：仍会出现违反物理规律的情况
长期一致性：难以保持长时间的环境连贯性
计算成本：实时渲染需要大量算力
泛化能力：对未见过的场景适应性有限

相关入口

世界模型技术调研：更完整的论文、产品和训练数据路线梳理。
具身智能：世界模型在机器人学习和任务规划中的落点。
强化学习：预测模型与模型基础 RL 的关系。

代表产品

Genie：Google DeepMind 的交互式世界模型
Veo：Google 的视频生成模型（世界模型特性）

参考资料

此文件夹下有1条笔记。

2026年3月17日
世界模型技术调研