世界模型技术调研

摘要：世界模型正从 RL 辅助工具跃迁为通用物理 AI 基础设施（2024–2026）。三大路线——生成式（Cosmos/Genie 3/GAIA-3）、预测式（V-JEPA 2/Dreamer 4）、多感知融合（Visuo-Tactile WM）——各有生态。机器人方向最活跃：LLM+VLA+WM 三层融合、逆动力学（PIDM +43%）、跨本体迁移（LAC-WM +46.7%）、多任务（MoW 110.4%）均取得突破。应用扩展至驾驶（Tesla 1 天=500 年）、游戏（DIAMOND +46%）、医疗（F1 +13%）、导航、社会模拟。资本加速：AMI Labs $10.3 亿 + W or l d L ab s$ 10 亿 + General Intuition $1.34 亿。 P h y s i c a l A I 市场 2025 年$ 54 亿 → 2035 年 $836 亿（CAGR 34.4%）。2026 年是 LLM 时代向 LWM 时代过渡的元年。

章节导航：一背景 → 二分类 → 三架构 → 四系统 → 五应用 → 六评测 → 七产业 → 八基础设施 → 九前沿 → 十争议 → 十一缺口 → 十二结论 → 性能表 → 参考文献

一、背景与调研目标

世界模型（World Model） 是能够对物理世界的动态建立内部表示、预测未来状态并支撑规划决策的 AI 系统。与纯视频生成的核心区别：

因果推理：理解动作-结果因果链，而非统计相关
可交互性：实时响应动作输入
物理可信度：正确建模重力、碰撞、流体等物理规律
时间一致性：长时序下环境状态的连贯维护

调研范围：2024 下半年至 2026 年 3 月，覆盖分类框架、架构技术、代表系统、应用领域、评测基准、产业格局与核心争议。

基础概念 → 世界模型；经典模型 → Dreamer、MuZero

二、分类框架

2.1 功能轴：理解 vs 预测（ACM CSUR 2025，arXiv 2411.14499）

清华 FIB-Lab 综述（49 页，被 ACM Computing Surveys 2025 收录）提出层级分类体系：

隐式表示类（Implicit Representation） — 理解当前状态

决策中的世界模型
- 基于模型的强化学习（MBRL）：Dreamer 系列、MuZero
- 语言主干方法：以 LLM 为规划核心
模型中的世界知识
- 全局物理知识（重力、碰撞、流体）
- 局部物理知识（物体间交互）
- 人类社会知识（Theory of Mind、社会模拟）

未来预测类（Future Prediction） — 模拟世界动态

视频生成方法：长时预测 / 多模态 / 交互可控
具身环境：室内（AI2-THOR）/ 室外（MetaUrban 2024）/ 动态生成（UniSim、Pandora）

四大应用领域：生成式游戏 / 自动驾驶 / 机器人 / 社会模拟。

2.2 三轴分类法（具身 AI 专版，arXiv 2510.16732）

轴	类别 A	类别 B
功能	决策耦合型（任务专用，与策略绑定）	通用型（任务无关，跨应用模拟）
时间建模	序列模拟推理（自回归逐步展开）	全局差分预测（并行估计整体变化）
空间表示	全局隐向量 → 令牌序列 → 空间隐网格 → 分解渲染	—

空间表示四种策略代表：

全局隐向量：PlaNet、DreamerV2/V3（紧凑，适合 RL）
令牌序列：IRIS、V-JEPA、Genie（时空依赖建模）
空间隐网格：DriveDreamer、OccWorld（BEV/体素，几何对齐）
分解渲染：ManiGaussian、DreMa（3DGS/NeRF，可微渲染）

三、技术架构全景

3.1 RSSM → Dreamer 系列（强化学习路线）

RSSM：编码器将图像映射为潜状态（32 类别分布 × 32 类的离散变量），动态模型在潜空间展开想象轨迹，Actor-Critic 在潜空间训练。

版本	时间	核心贡献
DreamerV1	2019	完整 RSSM + 世界模型 RL 框架
DreamerV2	2021	离散表示 + KL 正则化，Atari SOTA
DreamerV3	2023	统一超参无任务调整，12 个领域 SOTA
Dreamer 4	2025-09	块因果 Transformer + Diffusion Forcing

Dreamer 4（arXiv 2509.24527）：

块因果 Transformer 同时注意空间 patch 和时间序列
Shortcut Forcing 目标函数：扩散 forcing 推广，少步去噪潜状态
单 GPU 实时推理，知识主要来自无标注视频
里程碑：首个仅从离线数据（无环境交互）在 Minecraft 中获得钻石的 Agent

3.2 JEPA 路线（Meta / LeCun）

核心哲学：预测抽象表示空间中的状态，不重建像素——避免在纹理等无关细节上浪费容量。

V-JEPA 2（arXiv 2506.09985，2025-06）：

项目	参数
架构	Encoder(ViT-g) + Predictor(ViT-g)，1B 参数
位置编码	3D RoPE（时间/高度/宽度分区）
分块策略	Tubelet 2×16×16 时空维度
掩码策略	Multiblock masking，多块连续遮蔽
训练数据	VideoMix22M（2200 万视频 / 超 100 万小时）
训练时长	252K 步，分辨率 384×384，64 帧片段
效率优化	渐进式分辨率训练：GPU 时间节省 8.4×

性能：SSv2 动作理解 77.3 top-1；Epic-Kitchens-100 行为预测 39.7 recall@5（SOTA）。

V-JEPA 2-AC（动作条件化扩展）：

冻结预训练编码器 + 新增 300M 参数块因果 Transformer Predictor
训练数据：仅 62 小时无标注 Droid 机器人数据
机器人部署（Franka，零样本，两个实验室）：抓取 65%，Pick-and-Place 65–80%
规划速度：16 秒/动作（vs Cosmos 基线 4 分钟，快 15×）

VL-JEPA（arXiv 2512.10942）：JEPA 扩展至视觉-语言联合嵌入，跨模态统一预测。

3.3 自回归 Transformer（Genie 系列，Google DeepMind）

版本	时间	分辨率/交互	核心特点
Genie 1	2024-02	256×256，非实时	无标注视频 → 2D 可交互环境
Genie 2	2024-12	3D，非实时	单图 → 3D 环境，涌现物理行为
Genie 3	2025-08	720p@24fps，实时	文本 → 3D 世界，~1min 视觉记忆

Genie 3 局限：动作空间有限、多智能体交互弱、文字生成不稳定、连续交互上限数分钟。

Waymo World Model（2026-02）：以 Genie 3 为基底，适配多传感器驾驶场景。

3.4 扩散-Transformer（DiT）路线

NVIDIA Cosmos v1（arXiv 2501.03575，2025-01）：

子模型	功能
Cosmos-Predict	预测世界未来状态（视频形式）
Cosmos-Transfer	多空间控制输入条件化生成
Cosmos-Reason	物理常识推理 + 具身决策语言输出

训练：2000 万小时视频，NeMo Curator 清洗管线；开放权重，宽松许可证。

NVIDIA Cosmos-Predict2.5（2025-11，arXiv 2511.00062）：

Flow-based 架构，统一 Text2World / Image2World / Video2World 于单模型
训练数据：2 亿经过筛选的视频片段 + RL 后训练（强化指令对齐）
规模：2B 和 14B 两档，视频质量和指令对齐显著优于 Predict1
Cosmos-Transfer2.5：3.5× 更小参数，更高保真度，更强长时序生成
Cosmos Reason 2（CES 2026）：最先进推理视觉语言模型，支持边缘部署（Jetson）
Cosmos Policy（2026-02）：机器人动作条件化模型

NVIDIA 数据管线：NeMo Curator + CUDA 加速，20M 小时视频 2 周内处理完成。

Wayve GAIA 系列（自动驾驶专用）：

版本	参数	核心突破
GAIA-1（2023）	—	文本/动作 → 驾驶视频
GAIA-2（2024）	—	多摄像头空时一致，地理多样性
GAIA-3（2025）	15B	5× 算力，10× 数据；“world-on-rails” 控制；合成测试拒绝率 ↓5×

GAIA-3 技术特点：潜扩散模型，新 tokenizer（2× GAIA-2）；世界-导轨扰动（修改自车同时保持场景一致）；跨传感器渲染；UK 政府 DriveSafeSim 资助。

3.5 3D 神经渲染路线（World Labs）

World Labs / Marble（李飞飞，累计融资 $10 亿）：

高级生成模型 + 显式 3D 结构（区别于 Genie 3 的纯帧生成）
持久可导航 3D 世界，多场景无缝拼接（2025-09）
Autodesk 战略投资 $2 亿用于 3D 设计工作流集成

3.6 触觉融合世界模型（Visuo-Tactile WM，ICLR 2026）

Visuo-Tactile World Models（arXiv 2602.06001，ICLR 2026）：

核心洞察：视觉世界模型在接触丰富任务中存在系统性失败——物体消失、穿透、不合理形变（统称「物理幻觉」）。触觉信号提供视觉遮挡下的接触真值，能消除这类幻觉。

架构：

视觉编码器：Cosmos tokenizer（冻结）
触觉编码器：Sparsh-X（Digit 360 传感器，冻结）
预测器：12 层 Transformer，视觉+触觉 latent token 沿空间维度拼接后处理
注意力机制：交替时空自注意力（帧内+跨帧 token 交互）+ 对 action token 的交叉注意力
规划：CEM（Cross-Entropy Method）在预测潜空间内迭代搜索最优动作序列

定量结果：

指标	提升幅度
物体永久性（Normalized Fréchet Distance）	↑33% vs 纯视觉模型
因果合规性（幻觉动作减少）	↑29%
接触丰富任务成功率（零样本真实机器人）	↑35%（reach&push），↑31%（wipe cloth）
少样本新任务（plate-insertion，20 demos）	77% 成功率

适用场景：仅需触觉的接触丰富操控（推、擦、叠、抓）；自由空间到达任务纯视觉已足够。

3.7 MBRL 规划算法谱系

从紧凑 RL 到大规模物理 AI 的连续演进谱系：

算法	时间	核心机制	适用场景
PlaNet	2019	RSSM 潜空间 + CEM 规划	连续控制，图像观测
Dreamer 系列	2019–2025	潜空间想象 + Actor-Critic	RL 多领域，无需 rollout 交互
MBPO	2019	模型生成短 rollout，混合模型无关更新	样本效率优化
TD-MPC	2022	时序差分 + MPC，潜状态轨迹规划	连续控制任务
TD-MPC2	2023	SimNorm + 集成 Q，317M 单模型 80 任务	DMControl/Meta-World/ManiSkill2/MyoSuite，104 任务
TD-M(PC)²	2025-02	策略约束减少 OOD 查询	HumanoidBench 61D 动作空间
WorldPlanner	2025	MCTS + MPC，对世界模型幻觉进行抗干扰规划	长程机器人任务
V-JEPA 2-AC	2025	JEPA 潜空间 + teacher-forcing + rollout loss	机器人操作，16s/action

规划算法分类：

基于想象的规划（Dreamer）：Actor-Critic 在潜空间轨迹上训练
基于 CEM 的规划（PlaNet、V-JEPA 2-AC 变体）：从高斯分布采样动作序列，迭代精化
基于 MCTS 的规划（WorldPlanner）：树搜索，适合离散或多分支决策
基于 MPC 的规划（TD-MPC2）：滚动时域优化，适合连续控制

3.8 4D 世界模型（新兴）

TeleWorld（arXiv 2601.00051，2026-01）：

实时多模态 4D 框架：视频生成 + 动态场景重建 + 长期世界记忆的闭环
生成-重建-引导范式（Generated video → 4D spatio-temporal reconstruction → guides next generation）
Macro-from-Micro Planning（MMPL）：段级层级规划，降低帧级误差累积

OmniWorld（arXiv 2509.12201，2025-09）：

多领域多模态 4D 数据集：深度图 + 相机位姿 + 文本描述 + 光流 + 前景 Mask
联合捕获空间几何与时间动态

MLLM-4D（arXiv 2603.00515）：仅从 2D 视频理解 3D 空间随时间的演变（空时智能）。

四、代表系统深析对比

系统	机构	架构	规模	开源	核心数字
Cosmos Predict1	NVIDIA	DiT	20M 小时数据	✅	3 类子模型
Cosmos Predict2.5	NVIDIA	Flow-based DiT	2 亿视频，RL 后训练	✅	2B/14B
Genie 3	Google DeepMind	自回归 Transformer	—	❌	720p@24fps，~1min 记忆
V-JEPA 2 / 2-AC	Meta	JEPA（ViT-g）	1B 参数，1M+ h 视频	✅	65% 抓取，16s/action
Dreamer 4	Hafner et al.	块因果 Transformer	—	社区实现	首得 Minecraft 钻石（离线）
GAIA-3	Wayve	潜扩散	15B	❌	合成拒绝率 ↓5×
Waymo WM	Waymo+DeepMind	基于 Genie 3	—	❌	多传感器一致
Marble	World Labs	3D 生成	—	❌	持久可导航 3D 世界
HunyuanWorld-1.0	腾讯	DiT（二阶段）	—	✅	支持物理仿真，WAIC 2025
Emu3.5	BAAI	Decoder-only Transformer	34B	✅	10 万亿 token，DiDA 加速 20×
LingBot-World	蚂蚁灵搏	MoT（视频-动作联合）	—	✅	720p@16fps，10min 视频，VBench 动态度 0.8857
GigaWorld-0	GigaAI	Video+3D 混合	—	✅	无实机数据训练 VLA
DreamDojo（arXiv 2602.06949，2026-02）	多机构	持续潜动作 + Transformer	44k 小时人类视频	✅	零样本泛化新物体/环境；蒸馏 10.81 FPS 实时遥操作
Runway GWM-1（2025-12）	Runway	多模态生成	—	❌	Video Arena #1；Worlds/Avatars/Robotics 三变体；原生音频+物理预测
1X World Model（2026-01）	1X Technologies	物理基础模型	—	部分	NEO 机器人无需先验训练即学习新任务

五、应用领域专项

5.1 自动驾驶

驾驶世界模型已从研究工具进入量产评测阶段：

系统	机构	定位
GAIA-3（15B）	Wayve	合成安全测试，替代真实驾驶评测
Waymo World Model	Waymo+DeepMind	基于 Genie 3，同时生成 2D 视频 + 3D lidar，模拟从未被车队观测过的场景
Tesla World Simulator	Tesla	神经网络仿真世界，1 天 = 500 年人类驾驶，FSD+Optimus 统一架构
World4Drive（ICCV 2025）	—	意图感知潜空间，nuScenes 碰撞率 ↓83%
SynAD（ICCV 2025）	—	合成数据增强，真实世界 E2E 驾驶
Cosmos-Drive-Dreams	NVIDIA	可扩展合成驾驶数据
DriveDreamer	—	真实驾驶场景学习，nuScenes 评测，扩散双阶段训练
DriveDreamer4D（CVPR 2025）	—	4D 驾驶场景表示，利用世界模型先验增强场景生成
DriveX	—	Omni Scene Modeling，跨场景泛化世界知识（2025-05）

5.2 机器人：数据飞轮范式 + VLA 集成

核心问题：机器人高质量交互数据极度稀缺，世界模型充当「合成数据引擎」：

世界模型生成多样化轨迹数据 → 训练 VLA 策略 → VLA 在真实机器人验证 → 反馈改进世界模型

GigaWorld-0（arXiv 2511.19861）：

GigaWorld-0-Video：大规模视频生成，细粒度控制的具身序列
GigaWorld-0-3D：3DGS 重建 + 物理可微分系统辨识 + 可执行运动规划
GigaBrain-0（配套 VLA）：零真实机器人数据训练，强跨任务泛化

RoboVerse：多仿真器平台 + 高保真物理渲染合成数据集 + 统一 benchmark。

LLM + VLA + 世界模型三者融合：

层次	模型类型	功能	代表
高层语义规划	MLLM / LLM	理解指令、分解任务、常识推理	Gemini Robotics、GR00T N1
动作生成	VLA	视觉+语言 → 低级动作	RT-2、OpenVLA（7B，OXE 数据集）、GR00T N1
物理环境建模	世界模型	预测动作结果、提供训练数据	V-JEPA 2-AC、GigaWorld-0

研究共识（IEEE CAS Magazine 2025）：MLLM 擅长语义推理但忽略物理约束，WM 擅长物理仿真但缺乏高层语义，「MLLM-WM 联合驱动」是下一代具身 AI 架构方向。

LingBot-VA（Ant Lingbo 蚂蚁灵搏，arXiv 2601.21998，2026-01，开源）：

视频-动作自回归统一模型：视频 token 和动作 token 在同一交错序列中联合生成
架构：Mixture-of-Transformers（MoT），共享视觉-动作潜空间
闭环 rollout：持续获取真实观测反馈，实时纠错
异步推理管线：动作预测与电机执行并行
性能：RoboTwin 2.0 双臂协同 >90%，LIBERO 长时学习 98.5%；新任务仅需 30–50 条演示
完全开源（权重+推理代码）

人形机器人专用世界模型（2025-2026 突破）：

系统	机构	arXiv	核心能力
Humanoid WM（2025-06）	多机构	2506.01182	轻量开源，1-2 GPU 可运行；100 小时示范视频训练；Masked Transformer + Flow-Matching 两架构
GR00T N1（2025-03）	NVIDIA	2503.14734	双系统 VLA：VLM 解释环境 + 扩散 Transformer 生成电机动作；Fourier GR-1 双臂操控部署
1X World Model Challenge（2025-10）	1X Technologies	2510.07092	开源 benchmark：采样轨迹（预测帧）+ 压缩轨迹（预测离散潜码）双赛道
Figure 03（2025-10）	Figure AI	—	第三代人形；Helix AI 系统；完全重设计用于通用学习
Atlas RL（2025）	Boston Dynamics	—	从脚本控制器转向多任务示范数据训练的大型行为模型

Diffusion Policy + 世界模型集成（2025-2026 新范式）：

系统	arXiv	核心创新
DiWA（2025-08）	2508.03645	世界模型辅助扩散策略离线 RL 微调；数百至数千条 play 数据即可有效适应
World4RL（2025-09）	2509.19080	两阶段：先在冻结扩散 WM 内预训练，再在冻结模型内精化策略，避免在线交互
GPC（Generative Predictive Control）（2025-02）	2502.00622	三组件：扩散策略克隆 + 动作条件 WM + 在线规划（WM lookahead 排序动作）；持续优于行为克隆
AdaWorldPolicy（2026-02）	2602.20057	在线自适应学习，LoRA 更新减少视觉/物理域偏移

跨本体迁移（Cross-Embodiment Transfer）（2025 突破）：

系统	arXiv	核心贡献
Scaling CWM（2025-11）	2511.01177	环境动力学本体无关假设；人类视频 → 机器人零样本迁移
ET-VLA（2025-11）	2511.01224	Synthetic Continued Pretraining（SCP）绕过真实人工演示，新本体无需数据采集
LAC-WM（OpenReview）	—	统一潜动作空间（latent action space）；未见本体上 +46.7% vs 基线；更多本体预训练→更强迁移
DexWM（2025-12）	2512.13644	灵巧操作 WM；900+ 小时人类视频训练；Hand Consistency Loss；Franka+Allegro 平台；vs Diffusion Policy +50%
GEN-0（Generalist AI，2025-11）	—	27 万+ 小时真实操作数据，每周 1 万小时增长；6/7/16DoF 泛化

核心洞察：动力学本体无关假设（Scaling CWM）是跨本体迁移可行性的理论基础；统一潜动作空间（LAC-WM）是最有效的工程实现路径；人类视频是廉价的预训练数据来源（DexWM 验证）。

RBench + RoVid-X（arXiv 2601.15282，2026-01）：

RBench：650 个评测样本（5 类任务 × 4 类机器人本体）
RoVid-X：400 万标注视频片段，1,300+ 技能，720P + 光流标注
评测 25 个 SOTA 模型：最优模型 Wan 2.6 平均分仅 0.607（视觉推理是最大瓶颈）
结论：「视觉流畅度」≠「物理可信度」，范式需从媒体消费优化转向物理智能

5.3 GUI/Web Agent 专项

世界模型正向 GUI 操控（网页/桌面 Agent）延伸，以界面截图序列 + 操作作为「世界状态」，核心研究方向包括：

系统	来源	规模	核心特点
WebWorld（arXiv 2602.14721，2026-02）	—	1M+ 网页交互轨迹	网页操控专用 WM；Qwen3-14B 基础上 +9.2% WebArena 评分；任务依存状态建模
CUWM（Computer-Using WM）	—	—	因子化多模态架构（布局/文字/图标分离预测）；专为桌面软件多步操控设计
R-WoM（Retrieval-augmented WM）	—	—	检索增强 + WM 规划；通过检索相似历史轨迹改善分布外场景的规划

核心洞察：GUI/Web 环境具有不连续动作空间（点击/输入/滚动）和高度符号化状态（HTML/DOM），与机器人连续控制差异显著，需要专用的 WM 建模方案。视觉 WM 可提供从截图到下一截图的预测，为 Agent 规划「数字世界」中的操控序列。

5.4 游戏引擎：神经游戏引擎

世界模型正在重新定义游戏引擎的边界：

系统	时间	关键指标	特点
GameNGen（ICLR 2025，arXiv 2408.14837）	2024-08	单 TPU 20fps，PSNR 29.4	扩散运行 DOOM；人类评分者 5min 内仅略好于随机区分真伪
DIAMOND（arXiv 2405.12399）	2024-05	Atari 100k 1.46 human-normalized score	比人类基线高 46%；CS:GO 场景 RTX 3090 @10fps；扩散保留视觉细节优于离散 token
Oasis（Etched+Decart）	2024-10	500M 参数，前代 10× 快	Minecraft @20fps，360p；无传统物理引擎
GameGen-X（ICLR 2025，arXiv 2411.00769）	2024-11	OGameData：150+ 游戏，1M+ clips	DiT + InstructNet 多模态控制，首个统一生成+交互控制的开放世界模型
Scalable Generative Game Engine（arXiv 2602.00608）	2026-02	720×480 @ 26.4–48.3fps	硬件-算法协同设计解决「Memory Wall」，像素吞吐量 50× 提升
Genie 3	2025-08	720p@24fps，~1min 记忆	文本 → 实时可交互 3D 世界
Dreamer 4（arXiv 2509.24527）	2025-09	首获 Minecraft 钻石（离线）	块因果 Transformer + Diffusion Forcing

Dreamer 4 开源实现（2025-09 后）：

JAX：edwhu/dreamer4-jax
PyTorch：nicklashansen/dreamer4（7,200 条轨迹，3.6M 帧，30 控制任务）

位置论文（arXiv 2503.17359）：「交互式生成视频是下一代游戏引擎」——无需传统游戏引擎代码，AI 直接生成可玩环境。

5.5 科学模拟

世界模型开始进入科学领域，以「地球系统 = 需要建模的世界」为切入点：

项目	机构	成果
WOW（World of Our World）	KIT（卡尔斯鲁厄理工）	多专项 AI 子模型通过潜空间整合，模拟全球气候 + 局部野火/洪水；Carl Zeiss 基金会 600 万欧元资助
UW 气候模型	华盛顿大学	单处理器 12 小时模拟地球气候 1,000 年（传统需超算数月）
CliMA	—	混合物理-AI 模型，云端运行，融合高达 100TB 数据

研究方向：混合物理-AI（保留物理方程，AI 建模超分辨率过程）→ 比纯 ML 更可信、比纯物理更高效。

最新气候基础模型（2025-2026）：

模型	机构	亮点
NVIDIA cBottle（arXiv 2505.06474，2025-05）	NVIDIA	全球首个生成式 AI 气候基础模型，km 级分辨率，基于扩散框架；可按时间/季节/海温条件生成大气状态
THOR（arXiv 2601.16011，2026-01）	—	地球观测多用途基础模型；统一 Copernicus Sentinel-1/2/3 数据；覆盖 10m–1000m 分辨率
Prithvi WxC（arXiv 2409.13598）	IBM+NASA	天气/气候基础模型；160 个大气变量；MERRA-2 数据集训练

医疗/临床世界模型（2025 新兴方向）：

Medical World Model（arXiv 2506.02327，2025-06）：医学中首个视觉世界模型；VLM 为策略模型 + 肿瘤生成模型为动态模型；Turing 测试通过放射科医师验证；TACE 治疗方案选择 F1 分数提升 13%
Beyond Generative AI for Clinical（arXiv 2511.16333，2025-11）：覆盖医学影像/疾病进展建模/手术规划；WM 的反事实推理和因果结构是临床价值的核心
蛋白质折叠 WM（biorxiv 2025-03）：耶鲁大学，演化策略训练 + 潜在时空表示，生成原子分辨率构象动态（传统 MD 替代）

5.6 社会模拟

以 LLM 为 Agent 核心，世界模型提供环境动态。代表系统：SocioVerse（1000 万真实用户池）、MetaMind（Meta-Theory of Mind 多 Agent）。涌现行为包括规范形成、信息扩散、回音室、极化等宏观社会现象。详见。

六、评测基准现状

主要 Benchmark

基准	来源	评测维度
WorldModelBench（arXiv 2502.20694）	CVPR’25 口头报告	14 个模型；350 测试 prompt；7 领域 56 子领域；67,000 人工标注；三维评分（指令跟随/常识/物理遵守 0-3 分制）；自训练 judge 比 GPT-4o 精度高 8.6%
WorldScore（ICCV 2025，arXiv 2504.00983）	—	20 个模型（13 视频+6 3D+1 4D）；3,000 测试样本；三维：可控性+质量+动态性；发现 T2V 控制性↑，I2V 质量↑，3D 户外长序列↑
WorldBench（arXiv 2601.21282）	—	物理概念、常数、材料属性
WorldArena（arXiv 2602.08971）	—	16 指标，6 维度（视觉/运动/内容/物理/3D/可控）
WoWBench	—	物理一致性 + 因果推理 + 指令跟随
RBench（arXiv 2601.15282）	—	机器人专项，5 类任务，4 类本体，650 样本
Spatial4D-Bench（arXiv 2601.00092）	—	4D 空间智能，~4 万 QA 对，18 任务
DrivingGen	2026	自动驾驶视频世界模型综合评测

核心评测问题（⚠️ 社区共识）

像素保真度偏见：FID/FVD/PSNR 衡量视觉质量，高分模型仍可能出现严重物理幻觉
统一数据集缺失：跨系统比较困难（Survey 2510.16732 首要瓶颈）
任务性能 ≠ 世界建模质量：下游 RL 成绩好不等于世界模型本身准确
RBench 发现：最优模型仅 0.607，视觉推理是最大瓶颈，商业模型显著优于开源

七、产业格局

7.1 BAAI 悟界·Emu3.5（2025-10）

技术架构：

规模：34B 参数，标准 Decoder-only Transformer
训练数据：超 10 万亿多模态 Token（主要为互联网视频，总时长约 790 年）
统一范式：所有任务（视觉叙事/图像编辑/世界探索/具身操作）统一为「下一状态预测（Next-State Prediction）」——比 Next-Token Prediction 更抽象，学习动态-因果-时序规律
DiDA（离散扩散适配）：将自回归逐 Token 生成转为并行双向预测，图像推理速度 提升 20×
开源（代码+权重）

悟界系列全景：

Emu3.5（原生多模态世界模型）
见微 Brainμ（脑科学多模态基础模型）
RoboBrain 2.0 + RoboOS 2.0（具身大脑 + 框架）
OpenComplex2（全原子微观生命模型）

7.2 腾讯 HunyuanWorld（2025-07）

HunyuanWorld-1.0（WAIC 2025，开源）：

基座：扩散 Transformer（DiT）
两阶段生成范式：
1. 阶段一：DiT 生成高质量 360° 全景图（世界代理/World Proxy）
2. 阶段二：基于语义分层重建为 3D 场景（语义分层 → 分层重建）
三”可”特性：可漫游（键鼠自由移动）/ 可编辑（导出标准 3D 网格）/ 可仿真（物体赋予物理属性）
业界首个支持物理仿真的开源世界生成系统

HunyuanWorld-Voyager（2025-09，开源）：

超长漫游世界模型，原生 3D 重建，视频可直接导出 3D 格式
训练数据：超 10 万视频片段的专用数据集

7.3 全球 WM 专项机构总览

机构	成果	路线	开源
智源 BAAI	Emu3.5（34B，Next-State Prediction）	Decoder-only Transformer	✅
腾讯	HunyuanWorld-1.0 / Voyager	DiT + 3D 重建	✅
蚂蚁灵搏	LingBot-VA（视频-动作自回归，2026-01）	MoT，视频+动作联合	✅
清华+神数	Motus（统一五范式，2025-12）	MoT + UniDiffuser	✅
字节跳动	豆包 1.8（多模态 Agent）	多模态 LLM	❌
百度	文心 4.5（原生多模态）	基础大模型	部分
AMI Labs（LeCun，美国）	JEPA 商业化（ $10.3 亿种子轮，估值$ 35 亿，2026-03）	JEPA	❌
World Labs（李飞飞，美国）	Marble（ $10 亿， 3 D 空间智能； A u t o d es k 战略投$ 2 亿）	3D 神经渲染	❌
General Intuition（美国）	空间推理 Agent WM（$1.34 亿种子轮）	专用空间 WM	❌

Motus（清华 ML Lab + 神数科技，arXiv，2025-12，开源）：

统一五范式：首次将 VLA / 世界模型 / 视频生成 / 逆动力学模型 / 视频-动作联合生成统一到同一框架
架构：MoT（三专家：理解、动作、视频生成）+ UniDiffuser 调度器（灵活切换建模模式）
潜动作学习：用光流提取像素级「delta action」，实现大规模动作预训练（无需动作标注）
三阶段训练 + 六层数据金字塔
性能：RoboTwin 2.0 87.02%（+15% vs X-VLA，+45% vs π₀.₅）

判断（中国方阵）：国内大厂以视频积累为基底走生成式路线，BAAI 的 Next-State Prediction 理念与 JEPA 精神高度契合但实现路线不同（仍基于 Transformer Token）；中国整体与国际 SOTA 差距约 6–12 个月。

八、训练基础设施与开源生态

8.1 训练规模金字塔

层级	代表	数据规模	算力
超大规模	Cosmos Predict1	20M 小时视频	NVIDIA A100 集群
大规模	V-JEPA 2	1M+ 小时（VideoMix22M）	—
中等规模	Emu3.5	~790 年视频（10 万亿 token）	—
领域数据	V-JEPA 2-AC	62 小时机器人数据	轻量
合成增强	GigaWorld-0	无真实机器人数据	—

8.2 数据管线关键技术

NeMo Curator（NVIDIA）：CUDA 加速视频清洗，20M 小时视频 2 周处理完成
GigaWorld-0-3D：3DGS 重建 + 物理系统辨识 → 无需真实机器人数据的合成训练
RoVid-X：4M 标注视频，720P + 光流 + 物理属性标注，1,300+ 技能

大规模机器人数据集生态：

数据集	规模	来源	特点
Open X-Embodiment（OXE）	1M+ 轨迹，22 本体，527 技能，160K 任务	34 个机器人实验室	60+ 数据集联合；跨本体训练 +50% 性能
OXE-AugE（arXiv 2512.13100）	4.4M 轨迹（3× OXE）	多机构	9 个额外本体；OpenVLA/π₀ 微调 +24-45% 成功率
NVIDIA Physical AI Dataset	15TB，320K+ 轨迹，1,000 OpenUSD 场景资产	NVIDIA	专为基础 WM 预训练/后训练设计
DreamDojo 预训练集	44k 小时自我中心人类视频	—	迄今最大 WM 预训练视频数据集

8.3 商业化产品与 API 生态

产品	机构	状态	商业模式	核心特点
Marble / World API	World Labs	2026-01 上线	免费+付费分层	持久可下载 3D 世界；支持文本/图片/视频/多视角输入；可导出至下游工具
Runway GWM-1	Runway	2025-12 发布	SaaS	Video Arena 1（超 Veo 3 和 Sora 2 Pro）；三变体：Worlds/Avatars/Robotics
Cosmos NIM	NVIDIA	2025（规划中）	云微服务	Hugging Face/NGC 免费开放模型已达 200 万次下载；NIM 微服务商业部署路径
Genie 3	Google DeepMind	2025-08	Google One Ultra 用户	实时交互 3D 世界；在美国 Google Ultra 用户可用

世界模型市场规模（Acumen Research 2025）：

Physical AI 市场 2025：$50–54 亿美元
Physical AI 市场 2035（预测）：$836 亿美元（CAGR 34.4%）
地区分布：北美 40.4%，亚太 31%（增速最快，CAGR 36.2%）

重大融资（2025-2026 WM 专项轮）：

公司	融资	估值	焦点
AMI Labs（LeCun 创立）	$10.3 亿种子轮	$35 亿	JEPA 架构，制造/机器人/航天/生物医学
World Labs（李飞飞创立）	$10 亿	—	3D 空间智能；Autodesk 战略投资 $2 亿
General Intuition	$1.34 亿种子轮	—	教 Agent 空间推理的专用世界模型
SpAItial	$1300 万种子轮	—	空间 AI

AMI Labs 投资方包括 Temasek、NVIDIA、Bezos Expeditions、Eric Schmidt、Xavier Niel 等；General Intuition $1.34 亿为世界模型赛道最大单笔种子轮之一。

8.4 算力规模与世代演进

世代	代表	训练 FLOPs	硬件要求	估算成本
Gen 1（2022-2023）	DreamerV3, PlaNet	10^23–10^24	单机 8× A100	< $1M
Gen 2（2024）	Genie 1, GAIA-2, Cosmos v1	10^25–10^26	千卡级 A100/H100	$10 M -$ 100M
Gen 3（2025-2026）	Cosmos Predict2.5, GAIA-3 15B	10^26–10^27	万卡级 H100/B200	$100 M -$ 1B+

Cosmos Predict1 训练细节（14B 参数）：

VRAM：280 GB（参数/梯度/优化器状态 + 激活）
Tokenizer 压缩：时间 8×，空间 16×16（离散）/ 8×8（连续）
NeMo Curator：20M 小时视频 → Hopper 40 天 / Blackwell 14 天（3×）

预测（McKinsey/Epoch AI）：全球 AI 数据中心需求 156 GW by 2030；资本支出 ~$5.2T。

8.5 模型压缩与边缘推理

WM 量化专项研究（arXiv 2602.02110，2026-02）：

发现：WM 量化影响不止于精度，会直接影响 latent rollout 动态（与标准 LLM 量化不同）
关键现象：模型各组件量化灵敏度高度不对称；任务依存的 rollout 失败模式
指导意义：WM 量化需联合优化 rollout 保真度 + 推理延迟 + 内存占用，不能单独套用 LLM 量化策略

精度	模型大小	推理速度	质量损失
32-bit（FP32）	基准	基准	—
8-bit（INT8）	50% 减小	2× 提速	极小
4-bit（INT4）	75% 减小	2.4× 提速	可接受
KV Cache 3-bit	—	—	几乎无损

边缘部署框架（2025-2026）：

ExecuTorch 1.0 GA（Meta，2025-10）：50KB 基础占用，支持 12+ 硬件后端，覆盖微控制器到智能手机
Cosmos Reason 2（CES 2026）：首个支持 Jetson 边缘部署的世界模型推理能力模型
hybrid edge-cloud 策略（Jan 2025 研究）：75% 节能 + 80%+ 成本降低 vs 纯云端推理
MiniCPM-V（8B）：移动端运行，11 项 benchmark 超 GPT-4V（2026 边缘视觉语言 SOTA）

8.6 可实际使用的开源模型

模型	机构	仓库	特点
V-JEPA 2	Meta	facebookresearch/vjepa2	1B ViT-g，视频理解+机器人规划
Cosmos-Predict2.5	NVIDIA	nvidia-cosmos/cosmos-predict2.5	2B/14B，开放权重
HunyuanWorld-1.0	腾讯	OSCHINA/HunyuanWorld	3D 场景生成，可仿真
Emu3.5	BAAI	—	34B，Next-State Prediction
LingBot-World	蚂蚁灵搏	robbyant/lingbot-world	720p@16fps，<1s 延迟，2026-03 发布权重
GigaWorld-0	GigaAI	open-gigaai/giga-brain-0	具身 AI 数据引擎
World-in-World（ICLR’26 Oral）	—	World-In-World	闭环接口，具身 Agent 评测，2026-02 更新操控任务
Dreamer 4	Hafner et al.	nicklashansen/dreamer4	7,200 轨迹数据集，30 控制任务，JAX+PyTorch

九、新兴研究方向

9.0 物理先验与安全约束

Newton Physics Engine（NVIDIA + Google DeepMind + Disney Research，2025-09，捐赠 Linux Foundation）：

GPU 加速、可微分物理引擎，专为机器人设计
支持通过整个物理仿真的反向传播：直接策略梯度计算、系统辨识、端到端轨迹优化
意义：将传统物理引擎的精确性与神经网络的可优化性结合，填补纯神经世界模型在物理精度上的缺口

DREAM（Differentiable Real-to-Sim-to-Real Engine）：可微分实体到仿真再到实体的引擎，通过神经网络学习残差物理。

不确定性量化（Uncertainty Quantification for World Models）：

C3（arXiv 2512.05927）：连续尺度校准可控视频模型，子 patch 级置信度估计，精确定位每帧的不确定性区域
Conformal Prediction for Safety：利用世界模型认知不确定性作为 OOD 代理，通过共形预测校准阈值，在潜空间可达性分析中合成安全监控器——将系统从已知和 OOD 失败区域引导远离
WIMLE（ICLR 2026）：将隐式最大似然估计扩展到随机、多模态世界模型，无需迭代采样

9.1 层级世界模型

H-WM（arXiv 2602.11291）：任务与运动规划的层级世界模型，同时捕获符号逻辑转换和视觉观察，支持任务层（高层）+ 运动层（低层）的联合预测。

Semantic World Models（arXiv 2510.19818）：不重建未来帧像素，只预测与任务相关的语义信息（将世界建模转为「对未来帧的视觉问答」）——大幅降低计算成本，更直接服务规划。

MetaWorld-X（arXiv 2603.08572）：VLM 编排的人形机器人全身操控层级框架。

9.2 记忆与长程一致性

当前世界模型面临的记忆挑战：「遗忘」和「漂移」（误差随时间累积导致质量退化）。当前 SOTA 记忆长度：Genie 3 约 1 分钟，LingBot-World 约 60 秒视觉记忆 + 10 分钟视频生成——而真实场景需要跨分钟乃至小时的持续记忆。

三机制记忆框架（arXiv 2506.05284）：

短期工作记忆：最近几帧上下文
长期空间记忆：点云表示（静态场景结构）
长期事件记忆：稀疏历史参考帧

系统	arXiv	核心机制	关键指标
WorldMem（2025-04）	2504.12369	记忆库（帧+状态）+ 记忆注意力机制	改善长时序场景生成一致性
PERSIST	2603.03482	持久 3D 状态世界模型；进化潜在 3D 场景替代像素历史	几何一致的长时序仿真
Flow Equivariant WM（2026-01）	2601.01075	流等变记忆，适合部分可观测动态环境	超越扩散方法 SOTA；泛化至训练时域之外
THICK（OpenReview）	—	层级 WM 算法；下层稀疏更新状态，上层预测状态切换	提升长程推理效率

SSM + 扩散混合（arXiv 2512.06983）：用状态空间模型的长时上下文弥补扩散世界模型的记忆缺陷——改善长时记忆，但增加采样延迟（需权衡）。

层级时间抽象（arXiv 2512.20605，2025-12）：大型自回归模型通过时间抽象实现层级 RL——层级任务成功率 0.5–0.7（100K episodes 内），基线方法 1M episodes 内完全无法学习。

关键洞察（arXiv 2512.06983）：WM 长程规划瓶颈主要来自骨干架构的有效记忆跨度，不同记忆编码机制 vs 注入机制需分开研究。

9.3 具身世界模型与 LLM 隐式世界知识

专用具身世界仿真器：

Interactive World Simulator（arXiv 2603.08546）：专为机器人策略训练和评测设计的交互式世界仿真器
Robotic World Model（arXiv 2501.10100）：神经网络模拟器，双自回归机制处理部分可观测随机动态

LLM 作为隐式世界模型

「从词到世界」（arXiv 2512.18832）：提出三层评估框架评估 LLM 世界模型能力：

保真度与一致性：LLM 对世界状态的表示是否准确
可扩展性与鲁棒性：是否随 context 增大保持稳定
Agent 效用：是否真正服务于下游规划决策

研究共识：LLM 具备「隐式世界知识」（物理常识、因果关系），但缺乏「显式动态预测」能力——在需要精确物理推演的任务上远落后于专用世界模型。

9.4 多模态世界模型（视觉-音频-物理）

视频是 WM 的主导模态，但 2025-2026 出现了 音频-视觉 统一建模的突破：

系统	arXiv	关键能力
AV-CDiT（Audio-Visual Conditional DiT，2025-12）	2512.00883	AVW-4k 数据集（30h 双耳音频-视觉轨迹，76 室内环境）；首次统一精确动作控制 + 双耳空间音频 + 奖励预测；SoundSpaces 2.0 物理精确声传播
Runway GWM-1（2025-12）	—	交互控制：相机位姿 + 机器人指令 + 音频输入；帧级物理预测；首个原生音频世界模型产品
WAVE（ICLR 2026，arXiv 2509.21990）	2509.21990	通用多模态嵌入；视频+音频+音视频联合场景下 SOTA

宏观趋势：4D WM（TeleWorld/OmniWorld）+ 音频模态 + 物理接触（Visuo-Tactile）三轴融合，正在构建超越视频帧的统一「多感知世界模型」。AR/MR 应用场景下，WM 需维护用户空间的持久 3D+音频地图。

9.5 逆动力学与无动作标注世界模型

机器人数据标注代价高，从无动作视频/人类视频提取潜动作是主流数据效率提升路径：

系统	arXiv	核心方法	关键指标
PIDM（Predictive IDM，2024-12）	2412.15109	以预测的视觉未来状态为条件生成动作	LIBERO-LONG +13%；CALVIN ABC-D +21%；真实机器人 +43%
VPP（Video Prediction Policy，2024-12）	2412.14803	视频扩散模型内置隐式逆动力学	CALVIN ABC-D +18.6%；灵巧操作 +31.6%
FLAM（Factored LAM，2026-02）	2602.16229	分解潜状态为因子，每因子预测潜动作；可从无动作网络视频学习	—
HiLAM（Hierarchical LAM，2026-03）	2603.05815	将潜动作序列编码为潜技能（latent skills），支持可变长技能	—
DreamDojo（2026-02）	2602.06949	44k 小时自我中心人类视频；连续潜动作作为统一代理动作	零样本泛化；10.81 FPS 蒸馏
RLIR（2025-09）	2509.23958	用逆动力学奖励信号做 WM 后训练	动作跟踪 +5-10%，视觉质量 +10%

关键洞察：逆动力学模型（IDM）将「从视频观察提取动作」从后处理步骤提升为WM核心组件，使大规模无标注视频数据可用于机器人策略预训练。

9.6 多任务世界模型

单一世界模型服务多任务/多领域是规模化部署的关键：

系统	arXiv	覆盖范围	关键指标
DreamerV3	—	150+ 多样化任务，单配置无任务调整	12 领域 SOTA（Nature 2025 发表）
MoW（Mixture-of-World Models，2026-02）	2602.01270	Atari 26 游戏	110.4% 人类归一化得分；模块 VAE + 任务条件专家 + 共享骨干 + 梯度任务聚类
One Model for All Tasks（2025-09）	2509.07945	多规划任务	单 WM 跨任务效率验证
Unified Surgical WM（ICLR 2026）	—	手术规划	结构化理解 + 长程预测 + 细粒度生成，医疗专域 WM
Ctrl-World（2025-10）	2510.10125	机器人操控	帧级动作条件 + 位姿条件记忆检索

9.7 可解释性、潜空间分析与安全

研究	arXiv	核心发现
DisWM（ICCV 2025）	2503.08751	解耦世界模型：阶段1学解耦表示；阶段2对比+蒸馏约束微调；支持跨域语义迁移
Latent WM Taxonomy（arXiv 2603.09086，2026-03）	2603.09086	Exp-Latent：自动扰动潜维度探查控制输出影响；BRYANT：频率感知时间解耦
Geometric Probing（arXiv 2506.02996，2025-06）	2506.02996	LLM 世界模型空间关系几何结构：k-means 77.5% 纯度；3 个 PCA 方向解释约 100% 方差
Critiques of WM（arXiv 2507.05169）	2507.05169	倡导离散 token（可解释符号推理）+ 连续嵌入（细粒度感知）混合表示

安全性专项 — UNISafe（CMU IntentionLab）：

问题：潜在安全过滤器可能错误将新型危险归类为安全的 OOD 情况
方案：将 WM 潜空间可达性分析 + 认知不确定性（OOD 代理）+ 共形预测（阈值校准）统一
效果：从已知失败区和 OOD 区域主动引导系统远离危险状态

9.8 多 Agent 与社会模拟

MetaMind（arXiv 2603.00808）：多 Agent 系统中的 Meta-Theory of Mind 框架，Agent 推断其他 Agent 的目标和信念，支持涌现式集体意图适应。

SocioVerse（arXiv 2504.10157）：社会模拟世界模型，1000 万真实用户池，验证政治/新闻/经济三个领域。

9.9 自主导航世界模型

室内、空中、腿式机器人导航是世界模型从游戏/驾驶向通用具身 AI 扩展的关键前沿。

室内导航：

系统	arXiv	核心方法	亮点
DreamerNav（2025-06）	—	扩展 DreamerV3 + 多模态空间感知	动态室内环境中的自主导航，已同行评审（PMC）
ReasonNav（2025-09）	2509.21189	VLM 解读标牌+人群信息辅助大型建筑寻路	室内配送场景；理解社会语义线索
IROS 双进程（2026-01）	2601.21506	快反射 + 慢深思双路径；VLM 在延迟约束下运行	启发自双进程理论；实时速度约束下的语言推理
NaVILA（2024-12）	2412.04453	VLA 模型专用于腿式机器人导航	自然语言指令 + 避障 + 地形穿越 + 爬楼梯

空中（UAV）导航：

FM-Planner（arXiv 2505.20783，2025-05）：LLM-Vision 规划器系统评测 8 类 LLM/VLM 方案，提供标准化无人机导航基准
LogisticsVLN（arXiv 2505.03460，2025-05）：低空末端配送 VLN；VLD 数据集含多楼型、CARLA 仿真验证
LLM Drone Control（arXiv 2601.15486，2026-01）：基于 MCP 标准协议的 LLM-无人机控制接口，支持 Mavlink 协议

腿式机器人地形导航：

GrandTour 数据集（arXiv 2602.18164，2026-02）：戈壁/沙漠/草地/湿地四类地形；越障/爬坡任务；LiDAR-惯性+视觉-惯性多模态里程计基准
Whole-Body MPC（iLQR）（arXiv 2503.04613，2026-03）：MuJoCo 动力学 + iLQR 算法；四足+人形双平台；最小仿真参数调整即可 sim-to-real 迁移

关键趋势：VLM/LLM 正成为导航规划的高层语义层，世界模型负责底层动态预测；双系统（感知推理+世界预测）架构在室内、UAV、腿式三个领域同步收敛。

9.10 预训练策略与数据工程

基础世界模型的训练质量高度依赖数据配方和 tokenization 质量：

视频 Tokenization（2025-2026）：

框架	来源	核心创新
LARP（2025）	OpenReview	用可学习查询做全局语义 tokenization；比 patch 级 token 捕获更多高层信息；专为自回归生成设计
VTP（2025-12）	—	联合优化：图文对比 + 自监督 + 重建三损失；关键发现：像素精度 ≠ 生成质量，高层语义才是性能瓶颈
Emu3/Next-Token WM（Nature 2026-01）	BAAI	仅用下一 token 预测训练多模态模型；对标任务特定 SOTA；支持视觉-语言-动作联合建模

数据配方与混合策略：

Dreamer 4 配方：50% 均匀序列（动力学损失）+ 50% 相关任务序列（BC 损失）；避免乐观生成伪影
AdaWorld 语料（arXiv 2503.18938）：自动生成跨数千环境——自我视角/第三人称视角/虚拟游戏/真实活动全覆盖
WorldPrediction / POSMDP（arXiv 2506.04363）：以部分可观测半马尔可夫决策过程（POSMDP）为数学基础的数据集设计框架；捕获部分可观测性 + 语义/时间抽象

关键洞察：数据多样性（本体数量）比数据量（轨迹条数）对跨本体泛化的贡献更大（OXE 发现）。

十、前沿争议

确信度：✅ 社区共识 | ⚠️ 有争议 | ❓ 推测

10.1 JEPA vs LLM Token Prediction

LeCun 立场（2025-10 公开，AMI Labs 2026-03 创立）：

LLM 预测 Token（文字），JEPA 预测抽象状态变化
LLM 只处理语言 Token，JEPA 原生多模态
预言「LLM 5 年内无用」；离 Meta 创 AMI Labs， $10.3 亿种子轮，估值$ 35 亿

反驳与现实（⚠️ 争议）：

多数研究者认为「LLM + 世界模型」混合是更可能的未来
V-JEPA 2 本身通过与 LLM 对齐获得语言推理能力，两路线并非互斥
BAAI Emu3.5 的「Next-State Prediction」与 JEPA 哲学相似，但实现上仍是 Transformer Token

关键实证：V-JEPA 2-AC 的 16s/action vs Cosmos 4min——在数据效率和推理速度上 JEPA 路线领先。

10.2 Gen2Real Gap（⚠️）

生成式世界模型面临比传统 sim-to-real 更深的问题：

「生成式世界模型基于训练数据的统计相关预测 Token，而非真正理解物理规律」

具体表现：

物理幻觉：训练分布外出现违反物理规律的生成（物体穿透、重力异常）
灾难性外推：超出训练域时可能完全崩溃
力控缺失：视频数据不含力/接触/摩擦信息，难以直接指导机器人力控
Gen2Real 差距：即便视觉逼真，物理精度仍不足以直接部署

生成式方阵（NVIDIA/Google）的应对：物理标注数据 + 物理损失 + RL 后训练（Cosmos Predict2.5 引入 RL 后训练即是回应）。

10.3 神经游戏引擎 vs 传统引擎（⚠️）

神经游戏引擎（Genie 3/GameNGen）能生成逼真可交互环境，但：

开发者无法精确控制游戏规则和机制
内容一致性上限（数分钟）远低于传统引擎
计算成本仍高（实时 720p 需高端 GPU）

传统引擎仍在精确性和可编程性上具有不可替代优势；短期更可能是「传统引擎 + 神经渲染增强」的混合方案。

十一、研究缺口与开放问题

统一评测基准 ✅ 6+ 个独立 benchmark 各自聚焦，跨系统比较困难；RBench 发现最优模型仅 0.607，说明性能缺口真实存在。
物理一致性度量 ✅ 当前评测以像素指标（FID/FVD）为主；WorldBench 尝试物理概念测试，WorldArena 加入物理一致性维度，但覆盖范围有限，缺乏力控、接触力学等关键物理量的评测。
长时序稳定性 ✅ 当前 SOTA 约 1 分钟连贯（Genie 3 / LingBot-World），「遗忘」和「漂移」是系统性问题；三机制记忆框架是方向，尚未有成熟解决方案。
感知-预测-决策稳定闭环 ⚠️ V-JEPA 2-AC 是最接近闭环的系统，但相机敏感、长时规划脆弱、目标指定受限。真正稳定的商业闭环系统尚未出现。
真实物理理解 vs 统计相关 ⚠️ 核心工程瓶颈：Scaling + RL 是否足够，还是需要引入显式物理先验（神经-符号混合）。Cosmos Predict2.5 引入 RL 后训练是当前主流应对，最终效果争议未决。
机器人数据瓶颈 ✅ 高质量物理交互数据极度稀缺；世界模型作为「数据引擎」（GigaWorld-0 路线）是当前最有希望的应对——但零真实机器人数据训练的 VLA 能否泛化到复杂操作仍存疑。
边缘部署效率 ❓ 高保真生成需要企业级 GPU；Cosmos Reason 2 开始支持 Jetson 边缘部署，V-JEPA 2-AC 的 16s/action 仍不够实时。机器人端侧实时推理路径尚不清晰。WM 量化（arXiv 2602.02110）发现 latent rollout 的量化敏感性高于普通 LLM，需专用压缩策略。
跨本体泛化的数据效率瓶颈 ⚠️ LAC-WM 和 Scaling CWM 验证了跨本体迁移的可行性，但异构机器人数据联合训练的收益/成本分析尚无系统研究；「人类视频 → 机器人零样本」（DexWM）在复杂接触任务上的泛化边界尚不清楚。

十二、结论与判断

技术现状

格局清晰，两大路线各有生态：

生成式路线：NVIDIA/Google/Wayve 领衔，商业化步伐快，应用于合成数据生成/驾驶仿真/Agent 评测
预测式路线：Meta/DeepMind 领衔，数据效率高，适合实时机器人规划

2025 年五大里程碑（✅ 确信）：

Genie 3：首个实时可交互世界模型（视觉侧）
V-JEPA 2-AC：62 小时数据 → 可用机器人规划（数据效率侧）
Cosmos Predict2.5：RL 后训练 + 200M 视频（工业化侧）
GAIA-3（15B）：合成测试与真实驾驶结果相关性验证（AV 商业化侧）
Emu3.5 + HunyuanWorld：中国技术参与深度提升，开源模型可用（生态侧）

短中长期判断

时间	预期进展	主要不确定性
2026	LWM（Large World Models）作为独立研究方向成型；DIAMOND 类游戏世界模型达到无法区分真实游戏品质；特斯拉 FSD+Optimus 统一世界模型首个量产系统；ICLR 2026 确认 WM 专属轨道	新架构突破还是工程化纯 scaling
2026–2027	统一 benchmark 初步标准化；数据飞轮（GigaWorld 路线）加速具身落地；Cosmos Jetson 推动边缘部署；小鹏人形机器人世界模型量产（2026 年底）	Gen2Real Gap 能否被 RL 后训练 + 物理标注缩短
3–5 年	感知-预测-决策稳定闭环第一个商业系统出现；JEPA vs Transformer 在机器人上的实验性定论；神经-符号混合是否成为主流；医疗/气候 WM 进入产业部署	LLM + 世界模型 vs 纯 JEPA 路线的架构之争
5 年+	世界模型成为通用 AI Agent 核心认知模块，类比 LLM 对语言理解的作用 ❓	AGI 路线整体方向高度不确定

行业共识（2026-03）：2026 年是从 LLM 时代向 LWM（Large World Model）时代的过渡元年。核心驱动力从「Scaling」转向「新架构 + 多模态接地 + 物理约束」。

关键性能数字汇总（截至 2026-03）

机器人操控与策略

系统	任务	数字	来源
V-JEPA 2-AC	Franka 抓取（零样本）	65% 成功率，16s/action	arXiv 2506.09985
Visuo-Tactile WM	接触丰富任务 / 物体永久性	+35% / +33% vs 纯视觉	arXiv 2602.06001
LingBot-VA	LIBERO 长时 / RoboTwin 双臂	98.5% / >90%	arXiv 2601.21998
Motus	RoboTwin 2.0	87.02%（+45% vs π₀.₅）	thu-ml/Motus
DexWM	灵巧操作 vs Diffusion Policy	+50%	arXiv 2512.13644
PIDM	LIBERO-LONG / CALVIN / 真实机器人	+13% / +21% / +43%	arXiv 2412.15109
VPP	CALVIN ABC-D / 灵巧操作	+18.6% / +31.6%	arXiv 2412.14803
LAC-WM	未见本体迁移	+46.7%	OpenReview
OXE-AugE	泛化到未见本体	+24–45%	arXiv 2512.13100
WAP	EB-ALFRED 成功率提升	+60.7 绝对值	arXiv 2506.21230
GEN-0	训练数据规模	27 万小时（+1 万/周）	Generalist AI

RL 与多任务

系统	任务	数字	来源
TD-MPC2	104 连续控制任务	SOTA，317M 参数，80 任务	—
MoW	Atari 26 游戏	110.4% 人类归一化	arXiv 2602.01270
DIAMOND	Atari 100k	1.46 human-normalized	arXiv 2405.12399
Dreamer 4	Minecraft 数据效率	100× 少标注	arXiv 2509.24527
Hierarchical RL WM	层级任务（100K ep.）	0.5–0.7（基线 1M 次失败）	arXiv 2512.20605
DreamDojo	实时遥操作	10.81 FPS	arXiv 2602.06949

自动驾驶与仿真

系统	任务	数字	来源
GAIA-3	合成测试拒绝率	↓5× vs GAIA-2	Wayve Blog
World4Drive	nuScenes 碰撞率	↓83%	ICCV 2025
Tesla World Simulator	仿真效率	1 天 = 500 年驾驶	Tesla AI Blog

游戏引擎

系统	任务	数字	来源
GameNGen	PSNR + fps（单 TPU）	29.4 / 20fps	arXiv 2408.14837
Scalable Game Engine	分辨率 + fps	720×480 @ 48fps，吞吐 ↑50×	arXiv 2602.00608

科学/医疗/GUI

系统	任务	数字	来源
Medical WM	TACE 方案 F1	+13%	arXiv 2506.02327
WebWorld	WebArena（Qwen3-14B）	+9.2%	arXiv 2602.14721

基础设施与评测

系统	任务	数字	来源
RBench 最优	机器人视频生成综合	仅 0.607（Wan 2.6）	arXiv 2601.15282
LingBot-World	VBench 动态度	0.8857	arXiv 2601.20540
Emu3.5	DiDA 推理加速	20×	BAAI
WM INT4 量化	模型压缩 + 速度	75% + 2.4×	arXiv 2602.02110
Cosmos NeMo Curator	20M 小时视频	2 周完成	NVIDIA Blog
NVIDIA Cosmos	下载量	200 万次	NVIDIA Blog
WorldModelBench	评测规模	14 模型，67K 人工标注	arXiv 2502.20694

附录：参考文献

综述论文：

核心系统：

自动驾驶专项：

游戏世界模型：

DIAMOND — arXiv 2405.12399
GameNGen — arXiv 2408.14837（ICLR 2025）
GameGen-X — arXiv 2411.00769（ICLR 2025）
Oasis — oasis-model.github.io
Scalable Generative Game Engine — arXiv 2602.00608

记忆与长程：

多模态世界模型：

医疗/科学：

评测基准：

WorldModelBench — arXiv 2502.20694（CVPR’25，14模型，350 prompts，67K标注）
WorldScore — arXiv 2504.00983（20模型，3K样本，T2V/I2V/3D对比）
WorldBench — arXiv 2601.21282
WorldArena — arXiv 2602.08971
RBench — arXiv 2601.15282

新兴方向：

规划算法：

人形机器人世界模型：

GR00T N1: An Open Foundation Model for Generalist Humanoid Robots — arXiv 2503.14734（NVIDIA, 2025-03）
Humanoid World Models for Agile Locomotion — arXiv 2506.01182（2025-06）

扩散策略与世界模型集成：

DiWA: Diffusion World Models for Autonomous Driving — arXiv 2508.03645（2025-08）
World4RL: World Models Improve Policy Gradients for Reinforcement Learning — arXiv 2509.19080（ICCV 2025）
GPC / GraspPredictControl — arXiv 2502.00622（2025-02）
AdaWorldPolicy: Adaptive World Models for Policy Learning — arXiv 2602.20057（2026-02）

逆动力学与无动作标注世界模型：

PIDM: Predictive Inverse Dynamics Models for Implicit Label-Free World Models — arXiv 2412.15109（2024-12）
VPP: Visual Policy Planner via World Model Prediction — arXiv 2412.14803（2024-12）
FLAM: Foundation Language Action Models — arXiv 2602.16229（2026-02）
HiLAM: Hierarchical Language Action Models — arXiv 2603.05815（2026-03）
DreamDojo: World Model for Real-Time Teleoperation — arXiv 2602.06949（2026-02）

多任务世界模型：

MoW: Mixture of World Models — arXiv 2602.01270（2026-02，Atari 26 110.4%）
WAP: World-Assisted Planning — arXiv 2506.21230（2025-06，EB-ALFRED +60.7）

可解释性与潜空间分析：

DisWM: Discovering World Models — arXiv 2503.08751（ICCV 2025）
Geometric Probing of World Model Representations — arXiv 2506.02996（2025-06）

灵巧操控与跨本体：

自主导航与具身导航：

DreamerNav — PMC 2025-06（DreamerV3 扩展，动态室内环境）
ReasonNav — arXiv 2509.21189（VLM 大型建筑寻路，2025-09）
IROS Dual-Process Navigation — arXiv 2601.21506（VLM 双进程室内导航，2026-01）
NaVILA: Legged Robot VLA Navigation — arXiv 2412.04453（2024-12）
FM-Planner: Foundation Model UAV Navigation — arXiv 2505.20783（2025-05）
LogisticsVLN: Low-Altitude Delivery Navigation — arXiv 2505.03460（2025-05）
LLM-Drone MCP Interface — arXiv 2601.15486（2026-01）
GrandTour Legged Robot Dataset — arXiv 2602.18164（2026-02）
Whole-Body MPC for Legged Robots — arXiv 2503.04613（2026-03）

预训练策略与数据工程：

WorldPrediction / POSMDP — arXiv 2506.04363（2025-06）
AdaWorld Large-Scale Corpus — arXiv 2503.18938（2025-03）
LARP Video Tokenizer — OpenReview
Foundation World Models for Agents (AAMAS 2026) — arXiv 2602.23997（2026-02）

学术社区活动：

GUI/Web Agent：

WebWorld — arXiv 2602.14721

算力与压缩：

中国开源：

产业与中国格局：

Sean's Blog

Explorer

世界模型技术调研

世界模型技术调研

一、背景与调研目标

二、分类框架

2.1 功能轴：理解 vs 预测（ACM CSUR 2025，arXiv 2411.14499）

2.2 三轴分类法（具身 AI 专版，arXiv 2510.16732）

三、技术架构全景

3.1 RSSM → Dreamer 系列（强化学习路线）

3.2 JEPA 路线（Meta / LeCun）

3.3 自回归 Transformer（Genie 系列，Google DeepMind）

3.4 扩散-Transformer（DiT）路线

3.5 3D 神经渲染路线（World Labs）

3.6 触觉融合世界模型（Visuo-Tactile WM，ICLR 2026）

3.7 MBRL 规划算法谱系

3.8 4D 世界模型（新兴）

四、代表系统深析对比

五、应用领域专项

5.1 自动驾驶

5.2 机器人：数据飞轮范式 + VLA 集成

5.3 GUI/Web Agent 专项

5.4 游戏引擎：神经游戏引擎

5.5 科学模拟

5.6 社会模拟

六、评测基准现状

主要 Benchmark

核心评测问题（⚠️ 社区共识）

七、产业格局

7.1 BAAI 悟界·Emu3.5（2025-10）

7.2 腾讯 HunyuanWorld（2025-07）

7.3 全球 WM 专项机构总览

八、训练基础设施与开源生态

8.1 训练规模金字塔

8.2 数据管线关键技术

8.3 商业化产品与 API 生态

8.4 算力规模与世代演进

8.5 模型压缩与边缘推理

8.6 可实际使用的开源模型

九、新兴研究方向

9.0 物理先验与安全约束

9.1 层级世界模型

9.2 记忆与长程一致性

9.3 具身世界模型与 LLM 隐式世界知识

LLM 作为隐式世界模型

9.4 多模态世界模型（视觉-音频-物理）

9.5 逆动力学与无动作标注世界模型

9.6 多任务世界模型

9.7 可解释性、潜空间分析与安全

9.8 多 Agent 与社会模拟

9.9 自主导航世界模型

9.10 预训练策略与数据工程

十、前沿争议

10.1 JEPA vs LLM Token Prediction

10.2 Gen2Real Gap（⚠️）

10.3 神经游戏引擎 vs 传统引擎（⚠️）

十一、研究缺口与开放问题

十二、结论与判断

技术现状

短中长期判断

关键性能数字汇总（截至 2026-03）

附录：参考文献

相关笔记

目录

Graph View

反向链接