世界模型技术调研
摘要:世界模型正从 RL 辅助工具跃迁为通用物理 AI 基础设施(2024–2026)。三大路线——生成式(Cosmos/Genie 3/GAIA-3)、预测式(V-JEPA 2/Dreamer 4)、多感知融合(Visuo-Tactile WM)——各有生态。机器人方向最活跃:LLM+VLA+WM 三层融合、逆动力学(PIDM +43%)、跨本体迁移(LAC-WM +46.7%)、多任务(MoW 110.4%)均取得突破。应用扩展至驾驶(Tesla 1 天=500 年)、游戏(DIAMOND +46%)、医疗(F1 +13%)、导航、社会模拟。资本加速:AMI Labs 10 亿 + General Intuition 54 亿 → 2035 年 $836 亿(CAGR 34.4%)。2026 年是 LLM 时代向 LWM 时代过渡的元年。
章节导航:一 背景 → 二 分类 → 三 架构 → 四 系统 → 五 应用 → 六 评测 → 七 产业 → 八 基础设施 → 九 前沿 → 十 争议 → 十一 缺口 → 十二 结论 → 性能表 → 参考文献
一、背景与调研目标
世界模型(World Model) 是能够对物理世界的动态建立内部表示、预测未来状态并支撑规划决策的 AI 系统。与纯视频生成的核心区别:
- 因果推理:理解动作-结果因果链,而非统计相关
- 可交互性:实时响应动作输入
- 物理可信度:正确建模重力、碰撞、流体等物理规律
- 时间一致性:长时序下环境状态的连贯维护
调研范围:2024 下半年至 2026 年 3 月,覆盖分类框架、架构技术、代表系统、应用领域、评测基准、产业格局与核心争议。
二、分类框架
2.1 功能轴:理解 vs 预测(ACM CSUR 2025,arXiv 2411.14499)
清华 FIB-Lab 综述(49 页,被 ACM Computing Surveys 2025 收录)提出层级分类体系:
隐式表示类(Implicit Representation) — 理解当前状态
- 决策中的世界模型
- 基于模型的强化学习(MBRL):Dreamer 系列、MuZero
- 语言主干方法:以 LLM 为规划核心
- 模型中的世界知识
- 全局物理知识(重力、碰撞、流体)
- 局部物理知识(物体间交互)
- 人类社会知识(Theory of Mind、社会模拟)
未来预测类(Future Prediction) — 模拟世界动态
- 视频生成方法:长时预测 / 多模态 / 交互可控
- 具身环境:室内(AI2-THOR)/ 室外(MetaUrban 2024)/ 动态生成(UniSim、Pandora)
四大应用领域:生成式游戏 / 自动驾驶 / 机器人 / 社会模拟。
2.2 三轴分类法(具身 AI 专版,arXiv 2510.16732)
| 轴 | 类别 A | 类别 B |
|---|---|---|
| 功能 | 决策耦合型(任务专用,与策略绑定) | 通用型(任务无关,跨应用模拟) |
| 时间建模 | 序列模拟推理(自回归逐步展开) | 全局差分预测(并行估计整体变化) |
| 空间表示 | 全局隐向量 → 令牌序列 → 空间隐网格 → 分解渲染 | — |
空间表示四种策略代表:
- 全局隐向量:PlaNet、DreamerV2/V3(紧凑,适合 RL)
- 令牌序列:IRIS、V-JEPA、Genie(时空依赖建模)
- 空间隐网格:DriveDreamer、OccWorld(BEV/体素,几何对齐)
- 分解渲染:ManiGaussian、DreMa(3DGS/NeRF,可微渲染)
三、技术架构全景
3.1 RSSM → Dreamer 系列(强化学习路线)
RSSM:编码器将图像映射为潜状态(32 类别分布 × 32 类的离散变量),动态模型在潜空间展开想象轨迹,Actor-Critic 在潜空间训练。
| 版本 | 时间 | 核心贡献 |
|---|---|---|
| DreamerV1 | 2019 | 完整 RSSM + 世界模型 RL 框架 |
| DreamerV2 | 2021 | 离散表示 + KL 正则化,Atari SOTA |
| DreamerV3 | 2023 | 统一超参无任务调整,12 个领域 SOTA |
| Dreamer 4 | 2025-09 | 块因果 Transformer + Diffusion Forcing |
Dreamer 4(arXiv 2509.24527):
- 块因果 Transformer 同时注意空间 patch 和时间序列
- Shortcut Forcing 目标函数:扩散 forcing 推广,少步去噪潜状态
- 单 GPU 实时推理,知识主要来自无标注视频
- 里程碑:首个仅从离线数据(无环境交互)在 Minecraft 中获得钻石的 Agent
3.2 JEPA 路线(Meta / LeCun)
核心哲学:预测抽象表示空间中的状态,不重建像素——避免在纹理等无关细节上浪费容量。
V-JEPA 2(arXiv 2506.09985,2025-06):
| 项目 | 参数 |
|---|---|
| 架构 | Encoder(ViT-g) + Predictor(ViT-g),1B 参数 |
| 位置编码 | 3D RoPE(时间/高度/宽度分区) |
| 分块策略 | Tubelet 2×16×16 时空维度 |
| 掩码策略 | Multiblock masking,多块连续遮蔽 |
| 训练数据 | VideoMix22M(2200 万视频 / 超 100 万小时) |
| 训练时长 | 252K 步,分辨率 384×384,64 帧片段 |
| 效率优化 | 渐进式分辨率训练:GPU 时间节省 8.4× |
性能:SSv2 动作理解 77.3 top-1;Epic-Kitchens-100 行为预测 39.7 recall@5(SOTA)。
V-JEPA 2-AC(动作条件化扩展):
- 冻结预训练编码器 + 新增 300M 参数块因果 Transformer Predictor
- 训练数据:仅 62 小时无标注 Droid 机器人数据
- 机器人部署(Franka,零样本,两个实验室):抓取 65%,Pick-and-Place 65–80%
- 规划速度:16 秒/动作(vs Cosmos 基线 4 分钟,快 15×)
VL-JEPA(arXiv 2512.10942):JEPA 扩展至视觉-语言联合嵌入,跨模态统一预测。
3.3 自回归 Transformer(Genie 系列,Google DeepMind)
| 版本 | 时间 | 分辨率/交互 | 核心特点 |
|---|---|---|---|
| Genie 1 | 2024-02 | 256×256,非实时 | 无标注视频 → 2D 可交互环境 |
| Genie 2 | 2024-12 | 3D,非实时 | 单图 → 3D 环境,涌现物理行为 |
| Genie 3 | 2025-08 | 720p@24fps,实时 | 文本 → 3D 世界,~1min 视觉记忆 |
Genie 3 局限:动作空间有限、多智能体交互弱、文字生成不稳定、连续交互上限数分钟。
Waymo World Model(2026-02):以 Genie 3 为基底,适配多传感器驾驶场景。
3.4 扩散-Transformer(DiT)路线
NVIDIA Cosmos v1(arXiv 2501.03575,2025-01):
| 子模型 | 功能 |
|---|---|
| Cosmos-Predict | 预测世界未来状态(视频形式) |
| Cosmos-Transfer | 多空间控制输入条件化生成 |
| Cosmos-Reason | 物理常识推理 + 具身决策语言输出 |
训练:2000 万小时视频,NeMo Curator 清洗管线;开放权重,宽松许可证。
NVIDIA Cosmos-Predict2.5(2025-11,arXiv 2511.00062):
- Flow-based 架构,统一 Text2World / Image2World / Video2World 于单模型
- 训练数据:2 亿经过筛选的视频片段 + RL 后训练(强化指令对齐)
- 规模:2B 和 14B 两档,视频质量和指令对齐显著优于 Predict1
- Cosmos-Transfer2.5:3.5× 更小参数,更高保真度,更强长时序生成
- Cosmos Reason 2(CES 2026):最先进推理视觉语言模型,支持边缘部署(Jetson)
- Cosmos Policy(2026-02):机器人动作条件化模型
NVIDIA 数据管线:NeMo Curator + CUDA 加速,20M 小时视频 2 周内处理完成。
Wayve GAIA 系列(自动驾驶专用):
| 版本 | 参数 | 核心突破 |
|---|---|---|
| GAIA-1(2023) | — | 文本/动作 → 驾驶视频 |
| GAIA-2(2024) | — | 多摄像头空时一致,地理多样性 |
| GAIA-3(2025) | 15B | 5× 算力,10× 数据;“world-on-rails” 控制;合成测试拒绝率 ↓5× |
GAIA-3 技术特点:潜扩散模型,新 tokenizer(2× GAIA-2);世界-导轨扰动(修改自车同时保持场景一致);跨传感器渲染;UK 政府 DriveSafeSim 资助。
3.5 3D 神经渲染路线(World Labs)
World Labs / Marble(李飞飞,累计融资 $10 亿):
- 高级生成模型 + 显式 3D 结构(区别于 Genie 3 的纯帧生成)
- 持久可导航 3D 世界,多场景无缝拼接(2025-09)
- Autodesk 战略投资 $2 亿用于 3D 设计工作流集成
3.6 触觉融合世界模型(Visuo-Tactile WM,ICLR 2026)
Visuo-Tactile World Models(arXiv 2602.06001,ICLR 2026):
核心洞察:视觉世界模型在接触丰富任务中存在系统性失败——物体消失、穿透、不合理形变(统称「物理幻觉」)。触觉信号提供视觉遮挡下的接触真值,能消除这类幻觉。
架构:
- 视觉编码器:Cosmos tokenizer(冻结)
- 触觉编码器:Sparsh-X(Digit 360 传感器,冻结)
- 预测器:12 层 Transformer,视觉+触觉 latent token 沿空间维度拼接后处理
- 注意力机制:交替时空自注意力(帧内+跨帧 token 交互)+ 对 action token 的交叉注意力
- 规划:CEM(Cross-Entropy Method)在预测潜空间内迭代搜索最优动作序列
定量结果:
| 指标 | 提升幅度 |
|---|---|
| 物体永久性(Normalized Fréchet Distance) | ↑33% vs 纯视觉模型 |
| 因果合规性(幻觉动作减少) | ↑29% |
| 接触丰富任务成功率(零样本真实机器人) | ↑35%(reach&push),↑31%(wipe cloth) |
| 少样本新任务(plate-insertion,20 demos) | 77% 成功率 |
适用场景:仅需触觉的接触丰富操控(推、擦、叠、抓);自由空间到达任务纯视觉已足够。
3.7 MBRL 规划算法谱系
从紧凑 RL 到大规模物理 AI 的连续演进谱系:
| 算法 | 时间 | 核心机制 | 适用场景 |
|---|---|---|---|
| PlaNet | 2019 | RSSM 潜空间 + CEM 规划 | 连续控制,图像观测 |
| Dreamer 系列 | 2019–2025 | 潜空间想象 + Actor-Critic | RL 多领域,无需 rollout 交互 |
| MBPO | 2019 | 模型生成短 rollout,混合模型无关更新 | 样本效率优化 |
| TD-MPC | 2022 | 时序差分 + MPC,潜状态轨迹规划 | 连续控制任务 |
| TD-MPC2 | 2023 | SimNorm + 集成 Q,317M 单模型 80 任务 | DMControl/Meta-World/ManiSkill2/MyoSuite,104 任务 |
| TD-M(PC)² | 2025-02 | 策略约束减少 OOD 查询 | HumanoidBench 61D 动作空间 |
| WorldPlanner | 2025 | MCTS + MPC,对世界模型幻觉进行抗干扰规划 | 长程机器人任务 |
| V-JEPA 2-AC | 2025 | JEPA 潜空间 + teacher-forcing + rollout loss | 机器人操作,16s/action |
规划算法分类:
- 基于想象的规划(Dreamer):Actor-Critic 在潜空间轨迹上训练
- 基于 CEM 的规划(PlaNet、V-JEPA 2-AC 变体):从高斯分布采样动作序列,迭代精化
- 基于 MCTS 的规划(WorldPlanner):树搜索,适合离散或多分支决策
- 基于 MPC 的规划(TD-MPC2):滚动时域优化,适合连续控制
3.8 4D 世界模型(新兴)
TeleWorld(arXiv 2601.00051,2026-01):
- 实时多模态 4D 框架:视频生成 + 动态场景重建 + 长期世界记忆的闭环
- 生成-重建-引导范式(Generated video → 4D spatio-temporal reconstruction → guides next generation)
- Macro-from-Micro Planning(MMPL):段级层级规划,降低帧级误差累积
OmniWorld(arXiv 2509.12201,2025-09):
- 多领域多模态 4D 数据集:深度图 + 相机位姿 + 文本描述 + 光流 + 前景 Mask
- 联合捕获空间几何与时间动态
MLLM-4D(arXiv 2603.00515):仅从 2D 视频理解 3D 空间随时间的演变(空时智能)。
四、代表系统深析对比
| 系统 | 机构 | 架构 | 规模 | 开源 | 核心数字 |
|---|---|---|---|---|---|
| Cosmos Predict1 | NVIDIA | DiT | 20M 小时数据 | ✅ | 3 类子模型 |
| Cosmos Predict2.5 | NVIDIA | Flow-based DiT | 2 亿视频,RL 后训练 | ✅ | 2B/14B |
| Genie 3 | Google DeepMind | 自回归 Transformer | — | ❌ | 720p@24fps,~1min 记忆 |
| V-JEPA 2 / 2-AC | Meta | JEPA(ViT-g) | 1B 参数,1M+ h 视频 | ✅ | 65% 抓取,16s/action |
| Dreamer 4 | Hafner et al. | 块因果 Transformer | — | 社区实现 | 首得 Minecraft 钻石(离线) |
| GAIA-3 | Wayve | 潜扩散 | 15B | ❌ | 合成拒绝率 ↓5× |
| Waymo WM | Waymo+DeepMind | 基于 Genie 3 | — | ❌ | 多传感器一致 |
| Marble | World Labs | 3D 生成 | — | ❌ | 持久可导航 3D 世界 |
| HunyuanWorld-1.0 | 腾讯 | DiT(二阶段) | — | ✅ | 支持物理仿真,WAIC 2025 |
| Emu3.5 | BAAI | Decoder-only Transformer | 34B | ✅ | 10 万亿 token,DiDA 加速 20× |
| LingBot-World | 蚂蚁灵搏 | MoT(视频-动作联合) | — | ✅ | 720p@16fps,10min 视频,VBench 动态度 0.8857 |
| GigaWorld-0 | GigaAI | Video+3D 混合 | — | ✅ | 无实机数据训练 VLA |
| DreamDojo(arXiv 2602.06949,2026-02) | 多机构 | 持续潜动作 + Transformer | 44k 小时人类视频 | ✅ | 零样本泛化新物体/环境;蒸馏 10.81 FPS 实时遥操作 |
| Runway GWM-1(2025-12) | Runway | 多模态生成 | — | ❌ | Video Arena #1;Worlds/Avatars/Robotics 三变体;原生音频+物理预测 |
| 1X World Model(2026-01) | 1X Technologies | 物理基础模型 | — | 部分 | NEO 机器人无需先验训练即学习新任务 |
五、应用领域专项
5.1 自动驾驶
驾驶世界模型已从研究工具进入量产评测阶段:
| 系统 | 机构 | 定位 |
|---|---|---|
| GAIA-3(15B) | Wayve | 合成安全测试,替代真实驾驶评测 |
| Waymo World Model | Waymo+DeepMind | 基于 Genie 3,同时生成 2D 视频 + 3D lidar,模拟从未被车队观测过的场景 |
| Tesla World Simulator | Tesla | 神经网络仿真世界,1 天 = 500 年人类驾驶,FSD+Optimus 统一架构 |
| World4Drive(ICCV 2025) | — | 意图感知潜空间,nuScenes 碰撞率 ↓83% |
| SynAD(ICCV 2025) | — | 合成数据增强,真实世界 E2E 驾驶 |
| Cosmos-Drive-Dreams | NVIDIA | 可扩展合成驾驶数据 |
| DriveDreamer | — | 真实驾驶场景学习,nuScenes 评测,扩散双阶段训练 |
| DriveDreamer4D(CVPR 2025) | — | 4D 驾驶场景表示,利用世界模型先验增强场景生成 |
| DriveX | — | Omni Scene Modeling,跨场景泛化世界知识(2025-05) |
5.2 机器人:数据飞轮范式 + VLA 集成
核心问题:机器人高质量交互数据极度稀缺,世界模型充当「合成数据引擎」:
世界模型生成多样化轨迹数据 → 训练 VLA 策略 → VLA 在真实机器人验证 → 反馈改进世界模型
GigaWorld-0(arXiv 2511.19861):
- GigaWorld-0-Video:大规模视频生成,细粒度控制的具身序列
- GigaWorld-0-3D:3DGS 重建 + 物理可微分系统辨识 + 可执行运动规划
- GigaBrain-0(配套 VLA):零真实机器人数据训练,强跨任务泛化
RoboVerse:多仿真器平台 + 高保真物理渲染合成数据集 + 统一 benchmark。
LLM + VLA + 世界模型三者融合:
| 层次 | 模型类型 | 功能 | 代表 |
|---|---|---|---|
| 高层语义规划 | MLLM / LLM | 理解指令、分解任务、常识推理 | Gemini Robotics、GR00T N1 |
| 动作生成 | VLA | 视觉+语言 → 低级动作 | RT-2、OpenVLA(7B,OXE 数据集)、GR00T N1 |
| 物理环境建模 | 世界模型 | 预测动作结果、提供训练数据 | V-JEPA 2-AC、GigaWorld-0 |
研究共识(IEEE CAS Magazine 2025):MLLM 擅长语义推理但忽略物理约束,WM 擅长物理仿真但缺乏高层语义,「MLLM-WM 联合驱动」是下一代具身 AI 架构方向。
LingBot-VA(Ant Lingbo 蚂蚁灵搏,arXiv 2601.21998,2026-01,开源):
- 视频-动作自回归统一模型:视频 token 和动作 token 在同一交错序列中联合生成
- 架构:Mixture-of-Transformers(MoT),共享视觉-动作潜空间
- 闭环 rollout:持续获取真实观测反馈,实时纠错
- 异步推理管线:动作预测与电机执行并行
- 性能:RoboTwin 2.0 双臂协同 >90%,LIBERO 长时学习 98.5%;新任务仅需 30–50 条演示
- 完全开源(权重+推理代码)
人形机器人专用世界模型(2025-2026 突破):
| 系统 | 机构 | arXiv | 核心能力 |
|---|---|---|---|
| Humanoid WM(2025-06) | 多机构 | 2506.01182 | 轻量开源,1-2 GPU 可运行;100 小时示范视频训练;Masked Transformer + Flow-Matching 两架构 |
| GR00T N1(2025-03) | NVIDIA | 2503.14734 | 双系统 VLA:VLM 解释环境 + 扩散 Transformer 生成电机动作;Fourier GR-1 双臂操控部署 |
| 1X World Model Challenge(2025-10) | 1X Technologies | 2510.07092 | 开源 benchmark:采样轨迹(预测帧)+ 压缩轨迹(预测离散潜码)双赛道 |
| Figure 03(2025-10) | Figure AI | — | 第三代人形;Helix AI 系统;完全重设计用于通用学习 |
| Atlas RL(2025) | Boston Dynamics | — | 从脚本控制器转向多任务示范数据训练的大型行为模型 |
Diffusion Policy + 世界模型集成(2025-2026 新范式):
| 系统 | arXiv | 核心创新 |
|---|---|---|
| DiWA(2025-08) | 2508.03645 | 世界模型辅助扩散策略离线 RL 微调;数百至数千条 play 数据即可有效适应 |
| World4RL(2025-09) | 2509.19080 | 两阶段:先在冻结扩散 WM 内预训练,再在冻结模型内精化策略,避免在线交互 |
| GPC(Generative Predictive Control)(2025-02) | 2502.00622 | 三组件:扩散策略克隆 + 动作条件 WM + 在线规划(WM lookahead 排序动作);持续优于行为克隆 |
| AdaWorldPolicy(2026-02) | 2602.20057 | 在线自适应学习,LoRA 更新减少视觉/物理域偏移 |
跨本体迁移(Cross-Embodiment Transfer)(2025 突破):
| 系统 | arXiv | 核心贡献 |
|---|---|---|
| Scaling CWM(2025-11) | 2511.01177 | 环境动力学本体无关假设;人类视频 → 机器人零样本迁移 |
| ET-VLA(2025-11) | 2511.01224 | Synthetic Continued Pretraining(SCP)绕过真实人工演示,新本体无需数据采集 |
| LAC-WM(OpenReview) | — | 统一潜动作空间(latent action space);未见本体上 +46.7% vs 基线;更多本体预训练→更强迁移 |
| DexWM(2025-12) | 2512.13644 | 灵巧操作 WM;900+ 小时人类视频训练;Hand Consistency Loss;Franka+Allegro 平台;vs Diffusion Policy +50% |
| GEN-0(Generalist AI,2025-11) | — | 27 万+ 小时真实操作数据,每周 1 万小时增长;6/7/16DoF 泛化 |
核心洞察:动力学本体无关假设(Scaling CWM)是跨本体迁移可行性的理论基础;统一潜动作空间(LAC-WM)是最有效的工程实现路径;人类视频是廉价的预训练数据来源(DexWM 验证)。
RBench + RoVid-X(arXiv 2601.15282,2026-01):
- RBench:650 个评测样本(5 类任务 × 4 类机器人本体)
- RoVid-X:400 万标注视频片段,1,300+ 技能,720P + 光流标注
- 评测 25 个 SOTA 模型:最优模型 Wan 2.6 平均分仅 0.607(视觉推理是最大瓶颈)
- 结论:「视觉流畅度」≠「物理可信度」,范式需从媒体消费优化转向物理智能
5.3 GUI/Web Agent 专项
世界模型正向 GUI 操控(网页/桌面 Agent)延伸,以界面截图序列 + 操作作为「世界状态」,核心研究方向包括:
| 系统 | 来源 | 规模 | 核心特点 |
|---|---|---|---|
| WebWorld(arXiv 2602.14721,2026-02) | — | 1M+ 网页交互轨迹 | 网页操控专用 WM;Qwen3-14B 基础上 +9.2% WebArena 评分;任务依存状态建模 |
| CUWM(Computer-Using WM) | — | — | 因子化多模态架构(布局/文字/图标分离预测);专为桌面软件多步操控设计 |
| R-WoM(Retrieval-augmented WM) | — | — | 检索增强 + WM 规划;通过检索相似历史轨迹改善分布外场景的规划 |
核心洞察:GUI/Web 环境具有不连续动作空间(点击/输入/滚动)和高度符号化状态(HTML/DOM),与机器人连续控制差异显著,需要专用的 WM 建模方案。视觉 WM 可提供从截图到下一截图的预测,为 Agent 规划「数字世界」中的操控序列。
5.4 游戏引擎:神经游戏引擎
世界模型正在重新定义游戏引擎的边界:
| 系统 | 时间 | 关键指标 | 特点 |
|---|---|---|---|
| GameNGen(ICLR 2025,arXiv 2408.14837) | 2024-08 | 单 TPU 20fps,PSNR 29.4 | 扩散运行 DOOM;人类评分者 5min 内仅略好于随机区分真伪 |
| DIAMOND(arXiv 2405.12399) | 2024-05 | Atari 100k 1.46 human-normalized score | 比人类基线高 46%;CS:GO 场景 RTX 3090 @10fps;扩散保留视觉细节优于离散 token |
| Oasis(Etched+Decart) | 2024-10 | 500M 参数,前代 10× 快 | Minecraft @20fps,360p;无传统物理引擎 |
| GameGen-X(ICLR 2025,arXiv 2411.00769) | 2024-11 | OGameData:150+ 游戏,1M+ clips | DiT + InstructNet 多模态控制,首个统一生成+交互控制的开放世界模型 |
| Scalable Generative Game Engine(arXiv 2602.00608) | 2026-02 | 720×480 @ 26.4–48.3fps | 硬件-算法协同设计解决「Memory Wall」,像素吞吐量 50× 提升 |
| Genie 3 | 2025-08 | 720p@24fps,~1min 记忆 | 文本 → 实时可交互 3D 世界 |
| Dreamer 4(arXiv 2509.24527) | 2025-09 | 首获 Minecraft 钻石(离线) | 块因果 Transformer + Diffusion Forcing |
Dreamer 4 开源实现(2025-09 后):
- JAX:edwhu/dreamer4-jax
- PyTorch:nicklashansen/dreamer4(7,200 条轨迹,3.6M 帧,30 控制任务)
位置论文(arXiv 2503.17359):「交互式生成视频是下一代游戏引擎」——无需传统游戏引擎代码,AI 直接生成可玩环境。
5.5 科学模拟
世界模型开始进入科学领域,以「地球系统 = 需要建模的世界」为切入点:
| 项目 | 机构 | 成果 |
|---|---|---|
| WOW(World of Our World) | KIT(卡尔斯鲁厄理工) | 多专项 AI 子模型通过潜空间整合,模拟全球气候 + 局部野火/洪水;Carl Zeiss 基金会 600 万欧元资助 |
| UW 气候模型 | 华盛顿大学 | 单处理器 12 小时模拟地球气候 1,000 年(传统需超算数月) |
| CliMA | — | 混合物理-AI 模型,云端运行,融合高达 100TB 数据 |
研究方向:混合物理-AI(保留物理方程,AI 建模超分辨率过程)→ 比纯 ML 更可信、比纯物理更高效。
最新气候基础模型(2025-2026):
| 模型 | 机构 | 亮点 |
|---|---|---|
| NVIDIA cBottle(arXiv 2505.06474,2025-05) | NVIDIA | 全球首个生成式 AI 气候基础模型,km 级分辨率,基于扩散框架;可按时间/季节/海温条件生成大气状态 |
| THOR(arXiv 2601.16011,2026-01) | — | 地球观测多用途基础模型;统一 Copernicus Sentinel-1/2/3 数据;覆盖 10m–1000m 分辨率 |
| Prithvi WxC(arXiv 2409.13598) | IBM+NASA | 天气/气候基础模型;160 个大气变量;MERRA-2 数据集训练 |
医疗/临床世界模型(2025 新兴方向):
- Medical World Model(arXiv 2506.02327,2025-06):医学中首个视觉世界模型;VLM 为策略模型 + 肿瘤生成模型为动态模型;Turing 测试通过放射科医师验证;TACE 治疗方案选择 F1 分数提升 13%
- Beyond Generative AI for Clinical(arXiv 2511.16333,2025-11):覆盖医学影像/疾病进展建模/手术规划;WM 的反事实推理和因果结构是临床价值的核心
- 蛋白质折叠 WM(biorxiv 2025-03):耶鲁大学,演化策略训练 + 潜在时空表示,生成原子分辨率构象动态(传统 MD 替代)
5.6 社会模拟
以 LLM 为 Agent 核心,世界模型提供环境动态。代表系统:SocioVerse(1000 万真实用户池)、MetaMind(Meta-Theory of Mind 多 Agent)。涌现行为包括规范形成、信息扩散、回音室、极化等宏观社会现象。详见 。
六、评测基准现状
主要 Benchmark
| 基准 | 来源 | 评测维度 |
|---|---|---|
| WorldModelBench(arXiv 2502.20694) | CVPR’25 口头报告 | 14 个模型;350 测试 prompt;7 领域 56 子领域;67,000 人工标注;三维评分(指令跟随/常识/物理遵守 0-3 分制);自训练 judge 比 GPT-4o 精度高 8.6% |
| WorldScore(ICCV 2025,arXiv 2504.00983) | — | 20 个模型(13 视频+6 3D+1 4D);3,000 测试样本;三维:可控性+质量+动态性;发现 T2V 控制性↑,I2V 质量↑,3D 户外长序列↑ |
| WorldBench(arXiv 2601.21282) | — | 物理概念、常数、材料属性 |
| WorldArena(arXiv 2602.08971) | — | 16 指标,6 维度(视觉/运动/内容/物理/3D/可控) |
| WoWBench | — | 物理一致性 + 因果推理 + 指令跟随 |
| RBench(arXiv 2601.15282) | — | 机器人专项,5 类任务,4 类本体,650 样本 |
| Spatial4D-Bench(arXiv 2601.00092) | — | 4D 空间智能,~4 万 QA 对,18 任务 |
| DrivingGen | 2026 | 自动驾驶视频世界模型综合评测 |
核心评测问题(⚠️ 社区共识)
- 像素保真度偏见:FID/FVD/PSNR 衡量视觉质量,高分模型仍可能出现严重物理幻觉
- 统一数据集缺失:跨系统比较困难(Survey 2510.16732 首要瓶颈)
- 任务性能 ≠ 世界建模质量:下游 RL 成绩好不等于世界模型本身准确
- RBench 发现:最优模型仅 0.607,视觉推理是最大瓶颈,商业模型显著优于开源
七、产业格局
7.1 BAAI 悟界·Emu3.5(2025-10)
技术架构:
- 规模:34B 参数,标准 Decoder-only Transformer
- 训练数据:超 10 万亿多模态 Token(主要为互联网视频,总时长约 790 年)
- 统一范式:所有任务(视觉叙事/图像编辑/世界探索/具身操作)统一为「下一状态预测(Next-State Prediction)」——比 Next-Token Prediction 更抽象,学习动态-因果-时序规律
- DiDA(离散扩散适配):将自回归逐 Token 生成转为并行双向预测,图像推理速度 提升 20×
- 开源(代码+权重)
悟界系列全景:
- Emu3.5(原生多模态世界模型)
- 见微 Brainμ(脑科学多模态基础模型)
- RoboBrain 2.0 + RoboOS 2.0(具身大脑 + 框架)
- OpenComplex2(全原子微观生命模型)
7.2 腾讯 HunyuanWorld(2025-07)
HunyuanWorld-1.0(WAIC 2025,开源):
- 基座:扩散 Transformer(DiT)
- 两阶段生成范式:
- 阶段一:DiT 生成高质量 360° 全景图(世界代理/World Proxy)
- 阶段二:基于语义分层重建为 3D 场景(语义分层 → 分层重建)
- 三”可”特性:可漫游(键鼠自由移动)/ 可编辑(导出标准 3D 网格)/ 可仿真(物体赋予物理属性)
- 业界首个支持物理仿真的开源世界生成系统
HunyuanWorld-Voyager(2025-09,开源):
- 超长漫游世界模型,原生 3D 重建,视频可直接导出 3D 格式
- 训练数据:超 10 万视频片段的专用数据集
7.3 全球 WM 专项机构总览
| 机构 | 成果 | 路线 | 开源 |
|---|---|---|---|
| 智源 BAAI | Emu3.5(34B,Next-State Prediction) | Decoder-only Transformer | ✅ |
| 腾讯 | HunyuanWorld-1.0 / Voyager | DiT + 3D 重建 | ✅ |
| 蚂蚁灵搏 | LingBot-VA(视频-动作自回归,2026-01) | MoT,视频+动作联合 | ✅ |
| 清华+神数 | Motus(统一五范式,2025-12) | MoT + UniDiffuser | ✅ |
| 字节跳动 | 豆包 1.8(多模态 Agent) | 多模态 LLM | ❌ |
| 百度 | 文心 4.5(原生多模态) | 基础大模型 | 部分 |
| AMI Labs(LeCun,美国) | JEPA 商业化(35 亿,2026-03) | JEPA | ❌ |
| World Labs(李飞飞,美国) | Marble(2 亿) | 3D 神经渲染 | ❌ |
| General Intuition(美国) | 空间推理 Agent WM($1.34 亿种子轮) | 专用空间 WM | ❌ |
Motus(清华 ML Lab + 神数科技,arXiv,2025-12,开源):
- 统一五范式:首次将 VLA / 世界模型 / 视频生成 / 逆动力学模型 / 视频-动作联合生成 统一到同一框架
- 架构:MoT(三专家:理解、动作、视频生成)+ UniDiffuser 调度器(灵活切换建模模式)
- 潜动作学习:用光流提取像素级「delta action」,实现大规模动作预训练(无需动作标注)
- 三阶段训练 + 六层数据金字塔
- 性能:RoboTwin 2.0 87.02%(+15% vs X-VLA,+45% vs π₀.₅)
判断(中国方阵):国内大厂以视频积累为基底走生成式路线,BAAI 的 Next-State Prediction 理念与 JEPA 精神高度契合但实现路线不同(仍基于 Transformer Token);中国整体与国际 SOTA 差距约 6–12 个月。
八、训练基础设施与开源生态
8.1 训练规模金字塔
| 层级 | 代表 | 数据规模 | 算力 |
|---|---|---|---|
| 超大规模 | Cosmos Predict1 | 20M 小时视频 | NVIDIA A100 集群 |
| 大规模 | V-JEPA 2 | 1M+ 小时(VideoMix22M) | — |
| 中等规模 | Emu3.5 | ~790 年视频(10 万亿 token) | — |
| 领域数据 | V-JEPA 2-AC | 62 小时机器人数据 | 轻量 |
| 合成增强 | GigaWorld-0 | 无真实机器人数据 | — |
8.2 数据管线关键技术
- NeMo Curator(NVIDIA):CUDA 加速视频清洗,20M 小时视频 2 周处理完成
- GigaWorld-0-3D:3DGS 重建 + 物理系统辨识 → 无需真实机器人数据的合成训练
- RoVid-X:4M 标注视频,720P + 光流 + 物理属性标注,1,300+ 技能
大规模机器人数据集生态:
| 数据集 | 规模 | 来源 | 特点 |
|---|---|---|---|
| Open X-Embodiment(OXE) | 1M+ 轨迹,22 本体,527 技能,160K 任务 | 34 个机器人实验室 | 60+ 数据集联合;跨本体训练 +50% 性能 |
| OXE-AugE(arXiv 2512.13100) | 4.4M 轨迹(3× OXE) | 多机构 | 9 个额外本体;OpenVLA/π₀ 微调 +24-45% 成功率 |
| NVIDIA Physical AI Dataset | 15TB,320K+ 轨迹,1,000 OpenUSD 场景资产 | NVIDIA | 专为基础 WM 预训练/后训练设计 |
| DreamDojo 预训练集 | 44k 小时自我中心人类视频 | — | 迄今最大 WM 预训练视频数据集 |
8.3 商业化产品与 API 生态
| 产品 | 机构 | 状态 | 商业模式 | 核心特点 |
|---|---|---|---|---|
| Marble / World API | World Labs | 2026-01 上线 | 免费+付费分层 | 持久可下载 3D 世界;支持文本/图片/视频/多视角输入;可导出至下游工具 |
| Runway GWM-1 | Runway | 2025-12 发布 | SaaS | **Video Arena 1**(超 Veo 3 和 Sora 2 Pro);三变体:Worlds/Avatars/Robotics |
| Cosmos NIM | NVIDIA | 2025(规划中) | 云微服务 | Hugging Face/NGC 免费开放模型已达 200 万次下载;NIM 微服务商业部署路径 |
| Genie 3 | Google DeepMind | 2025-08 | Google One Ultra 用户 | 实时交互 3D 世界;在美国 Google Ultra 用户可用 |
世界模型市场规模(Acumen Research 2025):
- Physical AI 市场 2025:$50–54 亿美元
- Physical AI 市场 2035(预测):$836 亿美元(CAGR 34.4%)
- 地区分布:北美 40.4%,亚太 31%(增速最快,CAGR 36.2%)
重大融资(2025-2026 WM 专项轮):
| 公司 | 融资 | 估值 | 焦点 |
|---|---|---|---|
| AMI Labs(LeCun 创立) | $10.3 亿 种子轮 | $35 亿 | JEPA 架构,制造/机器人/航天/生物医学 |
| World Labs(李飞飞创立) | $10 亿 | — | 3D 空间智能;Autodesk 战略投资 $2 亿 |
| General Intuition | $1.34 亿 种子轮 | — | 教 Agent 空间推理的专用世界模型 |
| SpAItial | $1300 万 种子轮 | — | 空间 AI |
AMI Labs 投资方包括 Temasek、NVIDIA、Bezos Expeditions、Eric Schmidt、Xavier Niel 等;General Intuition $1.34 亿为世界模型赛道最大单笔种子轮之一。
8.4 算力规模与世代演进
| 世代 | 代表 | 训练 FLOPs | 硬件要求 | 估算成本 |
|---|---|---|---|---|
| Gen 1(2022-2023) | DreamerV3, PlaNet | 10^23–10^24 | 单机 8× A100 | < $1M |
| Gen 2(2024) | Genie 1, GAIA-2, Cosmos v1 | 10^25–10^26 | 千卡级 A100/H100 | 100M |
| Gen 3(2025-2026) | Cosmos Predict2.5, GAIA-3 15B | 10^26–10^27 | 万卡级 H100/B200 | 1B+ |
Cosmos Predict1 训练细节(14B 参数):
- VRAM:280 GB(参数/梯度/优化器状态 + 激活)
- Tokenizer 压缩:时间 8×,空间 16×16(离散)/ 8×8(连续)
- NeMo Curator:20M 小时视频 → Hopper 40 天 / Blackwell 14 天(3×)
预测(McKinsey/Epoch AI):全球 AI 数据中心需求 156 GW by 2030;资本支出 ~$5.2T。
8.5 模型压缩与边缘推理
WM 量化专项研究(arXiv 2602.02110,2026-02):
- 发现:WM 量化影响不止于精度,会直接影响 latent rollout 动态(与标准 LLM 量化不同)
- 关键现象:模型各组件量化灵敏度高度不对称;任务依存的 rollout 失败模式
- 指导意义:WM 量化需联合优化 rollout 保真度 + 推理延迟 + 内存占用,不能单独套用 LLM 量化策略
| 精度 | 模型大小 | 推理速度 | 质量损失 |
|---|---|---|---|
| 32-bit(FP32) | 基准 | 基准 | — |
| 8-bit(INT8) | 50% 减小 | 2× 提速 | 极小 |
| 4-bit(INT4) | 75% 减小 | 2.4× 提速 | 可接受 |
| KV Cache 3-bit | — | — | 几乎无损 |
边缘部署框架(2025-2026):
- ExecuTorch 1.0 GA(Meta,2025-10):50KB 基础占用,支持 12+ 硬件后端,覆盖微控制器到智能手机
- Cosmos Reason 2(CES 2026):首个支持 Jetson 边缘部署的世界模型推理能力模型
- hybrid edge-cloud 策略(Jan 2025 研究):75% 节能 + 80%+ 成本降低 vs 纯云端推理
- MiniCPM-V(8B):移动端运行,11 项 benchmark 超 GPT-4V(2026 边缘视觉语言 SOTA)
8.6 可实际使用的开源模型
| 模型 | 机构 | 仓库 | 特点 |
|---|---|---|---|
| V-JEPA 2 | Meta | facebookresearch/vjepa2 | 1B ViT-g,视频理解+机器人规划 |
| Cosmos-Predict2.5 | NVIDIA | nvidia-cosmos/cosmos-predict2.5 | 2B/14B,开放权重 |
| HunyuanWorld-1.0 | 腾讯 | OSCHINA/HunyuanWorld | 3D 场景生成,可仿真 |
| Emu3.5 | BAAI | — | 34B,Next-State Prediction |
| LingBot-World | 蚂蚁灵搏 | robbyant/lingbot-world | 720p@16fps,<1s 延迟,2026-03 发布权重 |
| GigaWorld-0 | GigaAI | open-gigaai/giga-brain-0 | 具身 AI 数据引擎 |
| World-in-World(ICLR’26 Oral) | — | World-In-World | 闭环接口,具身 Agent 评测,2026-02 更新操控任务 |
| Dreamer 4 | Hafner et al. | nicklashansen/dreamer4 | 7,200 轨迹数据集,30 控制任务,JAX+PyTorch |
九、新兴研究方向
9.0 物理先验与安全约束
Newton Physics Engine(NVIDIA + Google DeepMind + Disney Research,2025-09,捐赠 Linux Foundation):
- GPU 加速、可微分物理引擎,专为机器人设计
- 支持通过整个物理仿真的反向传播:直接策略梯度计算、系统辨识、端到端轨迹优化
- 意义:将传统物理引擎的精确性与神经网络的可优化性结合,填补纯神经世界模型在物理精度上的缺口
DREAM(Differentiable Real-to-Sim-to-Real Engine):可微分实体到仿真再到实体的引擎,通过神经网络学习残差物理。
不确定性量化(Uncertainty Quantification for World Models):
- C3(arXiv 2512.05927):连续尺度校准可控视频模型,子 patch 级置信度估计,精确定位每帧的不确定性区域
- Conformal Prediction for Safety:利用世界模型认知不确定性作为 OOD 代理,通过共形预测校准阈值,在潜空间可达性分析中合成安全监控器——将系统从已知和 OOD 失败区域引导远离
- WIMLE(ICLR 2026):将隐式最大似然估计扩展到随机、多模态世界模型,无需迭代采样
9.1 层级世界模型
H-WM(arXiv 2602.11291):任务与运动规划的层级世界模型,同时捕获符号逻辑转换和视觉观察,支持任务层(高层)+ 运动层(低层)的联合预测。
Semantic World Models(arXiv 2510.19818):不重建未来帧像素,只预测与任务相关的语义信息(将世界建模转为「对未来帧的视觉问答」)——大幅降低计算成本,更直接服务规划。
MetaWorld-X(arXiv 2603.08572):VLM 编排的人形机器人全身操控层级框架。
9.2 记忆与长程一致性
当前世界模型面临的记忆挑战:「遗忘」和「漂移」(误差随时间累积导致质量退化)。当前 SOTA 记忆长度:Genie 3 约 1 分钟,LingBot-World 约 60 秒视觉记忆 + 10 分钟视频生成——而真实场景需要跨分钟乃至小时的持续记忆。
三机制记忆框架(arXiv 2506.05284):
- 短期工作记忆:最近几帧上下文
- 长期空间记忆:点云表示(静态场景结构)
- 长期事件记忆:稀疏历史参考帧
| 系统 | arXiv | 核心机制 | 关键指标 |
|---|---|---|---|
| WorldMem(2025-04) | 2504.12369 | 记忆库(帧+状态)+ 记忆注意力机制 | 改善长时序场景生成一致性 |
| PERSIST | 2603.03482 | 持久 3D 状态世界模型;进化潜在 3D 场景替代像素历史 | 几何一致的长时序仿真 |
| Flow Equivariant WM(2026-01) | 2601.01075 | 流等变记忆,适合部分可观测动态环境 | 超越扩散方法 SOTA;泛化至训练时域之外 |
| THICK(OpenReview) | — | 层级 WM 算法;下层稀疏更新状态,上层预测状态切换 | 提升长程推理效率 |
SSM + 扩散混合(arXiv 2512.06983):用状态空间模型的长时上下文弥补扩散世界模型的记忆缺陷——改善长时记忆,但增加采样延迟(需权衡)。
层级时间抽象(arXiv 2512.20605,2025-12):大型自回归模型通过时间抽象实现层级 RL——层级任务成功率 0.5–0.7(100K episodes 内),基线方法 1M episodes 内完全无法学习。
关键洞察(arXiv 2512.06983):WM 长程规划瓶颈主要来自骨干架构的有效记忆跨度,不同记忆编码机制 vs 注入机制需分开研究。
9.3 具身世界模型与 LLM 隐式世界知识
专用具身世界仿真器:
- Interactive World Simulator(arXiv 2603.08546):专为机器人策略训练和评测设计的交互式世界仿真器
- Robotic World Model(arXiv 2501.10100):神经网络模拟器,双自回归机制处理部分可观测随机动态
LLM 作为隐式世界模型
「从词到世界」(arXiv 2512.18832):提出三层评估框架评估 LLM 世界模型能力:
- 保真度与一致性:LLM 对世界状态的表示是否准确
- 可扩展性与鲁棒性:是否随 context 增大保持稳定
- Agent 效用:是否真正服务于下游规划决策
研究共识:LLM 具备「隐式世界知识」(物理常识、因果关系),但缺乏「显式动态预测」能力——在需要精确物理推演的任务上远落后于专用世界模型。
9.4 多模态世界模型(视觉-音频-物理)
视频是 WM 的主导模态,但 2025-2026 出现了 音频-视觉 统一建模的突破:
| 系统 | arXiv | 关键能力 |
|---|---|---|
| AV-CDiT(Audio-Visual Conditional DiT,2025-12) | 2512.00883 | AVW-4k 数据集(30h 双耳音频-视觉轨迹,76 室内环境);首次统一精确动作控制 + 双耳空间音频 + 奖励预测;SoundSpaces 2.0 物理精确声传播 |
| Runway GWM-1(2025-12) | — | 交互控制:相机位姿 + 机器人指令 + 音频输入;帧级物理预测;首个原生音频世界模型产品 |
| WAVE(ICLR 2026,arXiv 2509.21990) | 2509.21990 | 通用多模态嵌入;视频+音频+音视频联合场景下 SOTA |
宏观趋势:4D WM(TeleWorld/OmniWorld)+ 音频模态 + 物理接触(Visuo-Tactile)三轴融合,正在构建超越视频帧的统一「多感知世界模型」。AR/MR 应用场景下,WM 需维护用户空间的持久 3D+音频地图。
9.5 逆动力学与无动作标注世界模型
机器人数据标注代价高,从无动作视频/人类视频提取潜动作是主流数据效率提升路径:
| 系统 | arXiv | 核心方法 | 关键指标 |
|---|---|---|---|
| PIDM(Predictive IDM,2024-12) | 2412.15109 | 以预测的视觉未来状态为条件生成动作 | LIBERO-LONG +13%;CALVIN ABC-D +21%;真实机器人 +43% |
| VPP(Video Prediction Policy,2024-12) | 2412.14803 | 视频扩散模型内置隐式逆动力学 | CALVIN ABC-D +18.6%;灵巧操作 +31.6% |
| FLAM(Factored LAM,2026-02) | 2602.16229 | 分解潜状态为因子,每因子预测潜动作;可从无动作网络视频学习 | — |
| HiLAM(Hierarchical LAM,2026-03) | 2603.05815 | 将潜动作序列编码为潜技能(latent skills),支持可变长技能 | — |
| DreamDojo(2026-02) | 2602.06949 | 44k 小时自我中心人类视频;连续潜动作作为统一代理动作 | 零样本泛化;10.81 FPS 蒸馏 |
| RLIR(2025-09) | 2509.23958 | 用逆动力学奖励信号做 WM 后训练 | 动作跟踪 +5-10%,视觉质量 +10% |
关键洞察:逆动力学模型(IDM)将「从视频观察提取动作」从后处理步骤提升为WM核心组件,使大规模无标注视频数据可用于机器人策略预训练。
9.6 多任务世界模型
单一世界模型服务多任务/多领域是规模化部署的关键:
| 系统 | arXiv | 覆盖范围 | 关键指标 |
|---|---|---|---|
| DreamerV3 | — | 150+ 多样化任务,单配置无任务调整 | 12 领域 SOTA(Nature 2025 发表) |
| MoW(Mixture-of-World Models,2026-02) | 2602.01270 | Atari 26 游戏 | 110.4% 人类归一化得分;模块 VAE + 任务条件专家 + 共享骨干 + 梯度任务聚类 |
| One Model for All Tasks(2025-09) | 2509.07945 | 多规划任务 | 单 WM 跨任务效率验证 |
| Unified Surgical WM(ICLR 2026) | — | 手术规划 | 结构化理解 + 长程预测 + 细粒度生成,医疗专域 WM |
| Ctrl-World(2025-10) | 2510.10125 | 机器人操控 | 帧级动作条件 + 位姿条件记忆检索 |
9.7 可解释性、潜空间分析与安全
| 研究 | arXiv | 核心发现 |
|---|---|---|
| DisWM(ICCV 2025) | 2503.08751 | 解耦世界模型:阶段1学解耦表示;阶段2对比+蒸馏约束微调;支持跨域语义迁移 |
| Latent WM Taxonomy(arXiv 2603.09086,2026-03) | 2603.09086 | Exp-Latent:自动扰动潜维度探查控制输出影响;BRYANT:频率感知时间解耦 |
| Geometric Probing(arXiv 2506.02996,2025-06) | 2506.02996 | LLM 世界模型空间关系几何结构:k-means 77.5% 纯度;3 个 PCA 方向解释约 100% 方差 |
| Critiques of WM(arXiv 2507.05169) | 2507.05169 | 倡导离散 token(可解释符号推理)+ 连续嵌入(细粒度感知)混合表示 |
安全性专项 — UNISafe(CMU IntentionLab):
- 问题:潜在安全过滤器可能错误将新型危险归类为安全的 OOD 情况
- 方案:将 WM 潜空间可达性分析 + 认知不确定性(OOD 代理)+ 共形预测(阈值校准)统一
- 效果:从已知失败区和 OOD 区域主动引导系统远离危险状态
9.8 多 Agent 与社会模拟
MetaMind(arXiv 2603.00808):多 Agent 系统中的 Meta-Theory of Mind 框架,Agent 推断其他 Agent 的目标和信念,支持涌现式集体意图适应。
SocioVerse(arXiv 2504.10157):社会模拟世界模型,1000 万真实用户池,验证政治/新闻/经济三个领域。
9.9 自主导航世界模型
室内、空中、腿式机器人导航是世界模型从游戏/驾驶向通用具身 AI 扩展的关键前沿。
室内导航:
| 系统 | arXiv | 核心方法 | 亮点 |
|---|---|---|---|
| DreamerNav(2025-06) | — | 扩展 DreamerV3 + 多模态空间感知 | 动态室内环境中的自主导航,已同行评审(PMC) |
| ReasonNav(2025-09) | 2509.21189 | VLM 解读标牌+人群信息辅助大型建筑寻路 | 室内配送场景;理解社会语义线索 |
| IROS 双进程(2026-01) | 2601.21506 | 快反射 + 慢深思双路径;VLM 在延迟约束下运行 | 启发自双进程理论;实时速度约束下的语言推理 |
| NaVILA(2024-12) | 2412.04453 | VLA 模型专用于腿式机器人导航 | 自然语言指令 + 避障 + 地形穿越 + 爬楼梯 |
空中(UAV)导航:
- FM-Planner(arXiv 2505.20783,2025-05):LLM-Vision 规划器系统评测 8 类 LLM/VLM 方案,提供标准化无人机导航基准
- LogisticsVLN(arXiv 2505.03460,2025-05):低空末端配送 VLN;VLD 数据集含多楼型、CARLA 仿真验证
- LLM Drone Control(arXiv 2601.15486,2026-01):基于 MCP 标准协议的 LLM-无人机控制接口,支持 Mavlink 协议
腿式机器人地形导航:
- GrandTour 数据集(arXiv 2602.18164,2026-02):戈壁/沙漠/草地/湿地四类地形;越障/爬坡任务;LiDAR-惯性+视觉-惯性多模态里程计基准
- Whole-Body MPC(iLQR)(arXiv 2503.04613,2026-03):MuJoCo 动力学 + iLQR 算法;四足+人形双平台;最小仿真参数调整即可 sim-to-real 迁移
关键趋势:VLM/LLM 正成为导航规划的高层语义层,世界模型负责底层动态预测;双系统(感知推理+世界预测)架构在室内、UAV、腿式三个领域同步收敛。
9.10 预训练策略与数据工程
基础世界模型的训练质量高度依赖数据配方和 tokenization 质量:
视频 Tokenization(2025-2026):
| 框架 | 来源 | 核心创新 |
|---|---|---|
| LARP(2025) | OpenReview | 用可学习查询做全局语义 tokenization;比 patch 级 token 捕获更多高层信息;专为自回归生成设计 |
| VTP(2025-12) | — | 联合优化:图文对比 + 自监督 + 重建三损失;关键发现:像素精度 ≠ 生成质量,高层语义才是性能瓶颈 |
| Emu3/Next-Token WM(Nature 2026-01) | BAAI | 仅用下一 token 预测训练多模态模型;对标任务特定 SOTA;支持视觉-语言-动作联合建模 |
数据配方与混合策略:
- Dreamer 4 配方:50% 均匀序列(动力学损失)+ 50% 相关任务序列(BC 损失);避免乐观生成伪影
- AdaWorld 语料(arXiv 2503.18938):自动生成跨数千环境——自我视角/第三人称视角/虚拟游戏/真实活动全覆盖
- WorldPrediction / POSMDP(arXiv 2506.04363):以部分可观测半马尔可夫决策过程(POSMDP)为数学基础的数据集设计框架;捕获部分可观测性 + 语义/时间抽象
关键洞察:数据多样性(本体数量)比数据量(轨迹条数)对跨本体泛化的贡献更大(OXE 发现)。
十、前沿争议
确信度:✅ 社区共识 | ⚠️ 有争议 | ❓ 推测
10.1 JEPA vs LLM Token Prediction
LeCun 立场(2025-10 公开,AMI Labs 2026-03 创立):
- LLM 预测 Token(文字),JEPA 预测抽象状态变化
- LLM 只处理语言 Token,JEPA 原生多模态
- 预言「LLM 5 年内无用」;离 Meta 创 AMI Labs,35 亿
反驳与现实(⚠️ 争议):
- 多数研究者认为「LLM + 世界模型」混合是更可能的未来
- V-JEPA 2 本身通过与 LLM 对齐获得语言推理能力,两路线并非互斥
- BAAI Emu3.5 的「Next-State Prediction」与 JEPA 哲学相似,但实现上仍是 Transformer Token
关键实证:V-JEPA 2-AC 的 16s/action vs Cosmos 4min——在数据效率和推理速度上 JEPA 路线领先。
10.2 Gen2Real Gap(⚠️)
生成式世界模型面临比传统 sim-to-real 更深的问题:
「生成式世界模型基于训练数据的统计相关预测 Token,而非真正理解物理规律」
具体表现:
- 物理幻觉:训练分布外出现违反物理规律的生成(物体穿透、重力异常)
- 灾难性外推:超出训练域时可能完全崩溃
- 力控缺失:视频数据不含力/接触/摩擦信息,难以直接指导机器人力控
- Gen2Real 差距:即便视觉逼真,物理精度仍不足以直接部署
生成式方阵(NVIDIA/Google)的应对:物理标注数据 + 物理损失 + RL 后训练(Cosmos Predict2.5 引入 RL 后训练即是回应)。
10.3 神经游戏引擎 vs 传统引擎(⚠️)
神经游戏引擎(Genie 3/GameNGen)能生成逼真可交互环境,但:
- 开发者无法精确控制游戏规则和机制
- 内容一致性上限(数分钟)远低于传统引擎
- 计算成本仍高(实时 720p 需高端 GPU)
传统引擎仍在精确性和可编程性上具有不可替代优势;短期更可能是「传统引擎 + 神经渲染增强」的混合方案。
十一、研究缺口与开放问题
-
统一评测基准 ✅ 6+ 个独立 benchmark 各自聚焦,跨系统比较困难;RBench 发现最优模型仅 0.607,说明性能缺口真实存在。
-
物理一致性度量 ✅ 当前评测以像素指标(FID/FVD)为主;WorldBench 尝试物理概念测试,WorldArena 加入物理一致性维度,但覆盖范围有限,缺乏力控、接触力学等关键物理量的评测。
-
长时序稳定性 ✅ 当前 SOTA 约 1 分钟连贯(Genie 3 / LingBot-World),「遗忘」和「漂移」是系统性问题;三机制记忆框架是方向,尚未有成熟解决方案。
-
感知-预测-决策稳定闭环 ⚠️ V-JEPA 2-AC 是最接近闭环的系统,但相机敏感、长时规划脆弱、目标指定受限。真正稳定的商业闭环系统尚未出现。
-
真实物理理解 vs 统计相关 ⚠️ 核心工程瓶颈:Scaling + RL 是否足够,还是需要引入显式物理先验(神经-符号混合)。Cosmos Predict2.5 引入 RL 后训练是当前主流应对,最终效果争议未决。
-
机器人数据瓶颈 ✅ 高质量物理交互数据极度稀缺;世界模型作为「数据引擎」(GigaWorld-0 路线)是当前最有希望的应对——但零真实机器人数据训练的 VLA 能否泛化到复杂操作仍存疑。
-
边缘部署效率 ❓ 高保真生成需要企业级 GPU;Cosmos Reason 2 开始支持 Jetson 边缘部署,V-JEPA 2-AC 的 16s/action 仍不够实时。机器人端侧实时推理路径尚不清晰。WM 量化(arXiv 2602.02110)发现 latent rollout 的量化敏感性高于普通 LLM,需专用压缩策略。
-
跨本体泛化的数据效率瓶颈 ⚠️ LAC-WM 和 Scaling CWM 验证了跨本体迁移的可行性,但异构机器人数据联合训练的收益/成本分析尚无系统研究;「人类视频 → 机器人零样本」(DexWM)在复杂接触任务上的泛化边界尚不清楚。
十二、结论与判断
技术现状
格局清晰,两大路线各有生态:
- 生成式路线:NVIDIA/Google/Wayve 领衔,商业化步伐快,应用于合成数据生成/驾驶仿真/Agent 评测
- 预测式路线:Meta/DeepMind 领衔,数据效率高,适合实时机器人规划
2025 年五大里程碑(✅ 确信):
- Genie 3:首个实时可交互世界模型(视觉侧)
- V-JEPA 2-AC:62 小时数据 → 可用机器人规划(数据效率侧)
- Cosmos Predict2.5:RL 后训练 + 200M 视频(工业化侧)
- GAIA-3(15B):合成测试与真实驾驶结果相关性验证(AV 商业化侧)
- Emu3.5 + HunyuanWorld:中国技术参与深度提升,开源模型可用(生态侧)
短中长期判断
| 时间 | 预期进展 | 主要不确定性 |
|---|---|---|
| 2026 | LWM(Large World Models)作为独立研究方向成型;DIAMOND 类游戏世界模型达到无法区分真实游戏品质;特斯拉 FSD+Optimus 统一世界模型首个量产系统;ICLR 2026 确认 WM 专属轨道 | 新架构突破还是工程化纯 scaling |
| 2026–2027 | 统一 benchmark 初步标准化;数据飞轮(GigaWorld 路线)加速具身落地;Cosmos Jetson 推动边缘部署;小鹏人形机器人世界模型量产(2026 年底) | Gen2Real Gap 能否被 RL 后训练 + 物理标注缩短 |
| 3–5 年 | 感知-预测-决策稳定闭环第一个商业系统出现;JEPA vs Transformer 在机器人上的实验性定论;神经-符号混合是否成为主流;医疗/气候 WM 进入产业部署 | LLM + 世界模型 vs 纯 JEPA 路线的架构之争 |
| 5 年+ | 世界模型成为通用 AI Agent 核心认知模块,类比 LLM 对语言理解的作用 ❓ | AGI 路线整体方向高度不确定 |
行业共识(2026-03):2026 年是从 LLM 时代向 LWM(Large World Model)时代的过渡元年。核心驱动力从「Scaling」转向「新架构 + 多模态接地 + 物理约束」。
关键性能数字汇总(截至 2026-03)
机器人操控与策略
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| V-JEPA 2-AC | Franka 抓取(零样本) | 65% 成功率,16s/action | arXiv 2506.09985 |
| Visuo-Tactile WM | 接触丰富任务 / 物体永久性 | +35% / +33% vs 纯视觉 | arXiv 2602.06001 |
| LingBot-VA | LIBERO 长时 / RoboTwin 双臂 | 98.5% / >90% | arXiv 2601.21998 |
| Motus | RoboTwin 2.0 | 87.02%(+45% vs π₀.₅) | thu-ml/Motus |
| DexWM | 灵巧操作 vs Diffusion Policy | +50% | arXiv 2512.13644 |
| PIDM | LIBERO-LONG / CALVIN / 真实机器人 | +13% / +21% / +43% | arXiv 2412.15109 |
| VPP | CALVIN ABC-D / 灵巧操作 | +18.6% / +31.6% | arXiv 2412.14803 |
| LAC-WM | 未见本体迁移 | +46.7% | OpenReview |
| OXE-AugE | 泛化到未见本体 | +24–45% | arXiv 2512.13100 |
| WAP | EB-ALFRED 成功率提升 | +60.7 绝对值 | arXiv 2506.21230 |
| GEN-0 | 训练数据规模 | 27 万小时(+1 万/周) | Generalist AI |
RL 与多任务
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| TD-MPC2 | 104 连续控制任务 | SOTA,317M 参数,80 任务 | — |
| MoW | Atari 26 游戏 | 110.4% 人类归一化 | arXiv 2602.01270 |
| DIAMOND | Atari 100k | 1.46 human-normalized | arXiv 2405.12399 |
| Dreamer 4 | Minecraft 数据效率 | 100× 少标注 | arXiv 2509.24527 |
| Hierarchical RL WM | 层级任务(100K ep.) | 0.5–0.7(基线 1M 次失败) | arXiv 2512.20605 |
| DreamDojo | 实时遥操作 | 10.81 FPS | arXiv 2602.06949 |
自动驾驶与仿真
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| GAIA-3 | 合成测试拒绝率 | ↓5× vs GAIA-2 | Wayve Blog |
| World4Drive | nuScenes 碰撞率 | ↓83% | ICCV 2025 |
| Tesla World Simulator | 仿真效率 | 1 天 = 500 年驾驶 | Tesla AI Blog |
游戏引擎
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| GameNGen | PSNR + fps(单 TPU) | 29.4 / 20fps | arXiv 2408.14837 |
| Scalable Game Engine | 分辨率 + fps | 720×480 @ 48fps,吞吐 ↑50× | arXiv 2602.00608 |
科学/医疗/GUI
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| Medical WM | TACE 方案 F1 | +13% | arXiv 2506.02327 |
| WebWorld | WebArena(Qwen3-14B) | +9.2% | arXiv 2602.14721 |
基础设施与评测
| 系统 | 任务 | 数字 | 来源 |
|---|---|---|---|
| RBench 最优 | 机器人视频生成综合 | 仅 0.607(Wan 2.6) | arXiv 2601.15282 |
| LingBot-World | VBench 动态度 | 0.8857 | arXiv 2601.20540 |
| Emu3.5 | DiDA 推理加速 | 20× | BAAI |
| WM INT4 量化 | 模型压缩 + 速度 | 75% + 2.4× | arXiv 2602.02110 |
| Cosmos NeMo Curator | 20M 小时视频 | 2 周完成 | NVIDIA Blog |
| NVIDIA Cosmos | 下载量 | 200 万次 | NVIDIA Blog |
| WorldModelBench | 评测规模 | 14 模型,67K 人工标注 | arXiv 2502.20694 |
附录:参考文献
综述论文:
- Understanding World or Predicting Future? — arXiv 2411.14499(ACM CSUR 2025)
- A Comprehensive Survey on World Models for Embodied AI — arXiv 2510.16732
- Embodied AI: From LLMs to World Models — arXiv 2509.20021(清华 FIB-Lab)
- A Survey: Learning Embodied Intelligence from Physical Simulators and World Models — arXiv 2507.00917
- A Step Toward World Models: Robotic Manipulation — arXiv 2511.02097
- 3D and 4D World Modeling: A Survey — arXiv 2509.07996
- Video Generation Models in Robotics — arXiv 2601.07823
核心系统:
- Cosmos Predict1 — arXiv 2501.03575
- Cosmos Predict2.5 — arXiv 2511.00062
- V-JEPA 2 — arXiv 2506.09985
- Dreamer 4 — arXiv 2509.24527
- GAIA-3 — Wayve Blog
- Genie 3 — DeepMind Blog
- Waymo World Model — 2026-02
自动驾驶专项:
- Tesla World Simulator — Tesla AI Blog
- DriveDreamer — drivedreamer.github.io
- DriveDreamer4D — arXiv 2410.13571(CVPR 2025)
游戏世界模型:
- DIAMOND — arXiv 2405.12399
- GameNGen — arXiv 2408.14837(ICLR 2025)
- GameGen-X — arXiv 2411.00769(ICLR 2025)
- Oasis — oasis-model.github.io
- Scalable Generative Game Engine — arXiv 2602.00608
记忆与长程:
- WorldMem — arXiv 2504.12369
- PERSIST: Beyond Pixel Histories — arXiv 2603.03482
- Flow Equivariant WM — arXiv 2601.01075
- Emergent Temporal Abstractions for Hierarchical RL — arXiv 2512.20605
- On Memory in World Models — arXiv 2512.06983
多模态世界模型:
- Audio-Visual WM (AV-CDiT, AVW-4k) — arXiv 2512.00883
- WAVE Multimodal Embedding — arXiv 2509.21990(ICLR 2026)
- Runway GWM-1 — TechCrunch
医疗/科学:
- Medical World Model — arXiv 2506.02327
- Beyond Generative AI for Clinical — arXiv 2511.16333
- Climate in a Bottle (NVIDIA cBottle) — arXiv 2505.06474
- THOR Earth Observation FM — arXiv 2601.16011
- Prithvi WxC — arXiv 2409.13598
评测基准:
- WorldModelBench — arXiv 2502.20694(CVPR’25,14模型,350 prompts,67K标注)
- WorldScore — arXiv 2504.00983(20模型,3K样本,T2V/I2V/3D对比)
- WorldBench — arXiv 2601.21282
- WorldArena — arXiv 2602.08971
- RBench — arXiv 2601.15282
新兴方向:
- VL-JEPA: Visual-Language JEPA — arXiv 2512.10942
- MetaMind: Multi-Agent Meta-Theory of Mind — arXiv 2603.00808
- Interactive World Simulator — arXiv 2603.08546
- Robotic World Model — arXiv 2501.10100
- MLLM-4D — arXiv 2603.00515
- MetaWorld-X — arXiv 2603.08572
- TeleWorld — arXiv 2601.00051
- OmniWorld — arXiv 2509.12201
- GigaWorld-0 — arXiv 2511.19861
- H-WM — arXiv 2602.11291
- SocioVerse — arXiv 2504.10157
- Video World Models with Long-term Spatial Memory — arXiv 2506.05284
- Visuo-Tactile World Models — arXiv 2602.06001(ICLR 2026)
- Causal World Modeling / LingBot-VA — arXiv 2601.21998
- C3 Uncertainty for World Models — arXiv 2512.05927
- From Word to World: LLM as WM — arXiv 2512.18832
规划算法:
人形机器人世界模型:
- GR00T N1: An Open Foundation Model for Generalist Humanoid Robots — arXiv 2503.14734(NVIDIA, 2025-03)
- Humanoid World Models for Agile Locomotion — arXiv 2506.01182(2025-06)
扩散策略与世界模型集成:
- DiWA: Diffusion World Models for Autonomous Driving — arXiv 2508.03645(2025-08)
- World4RL: World Models Improve Policy Gradients for Reinforcement Learning — arXiv 2509.19080(ICCV 2025)
- GPC / GraspPredictControl — arXiv 2502.00622(2025-02)
- AdaWorldPolicy: Adaptive World Models for Policy Learning — arXiv 2602.20057(2026-02)
逆动力学与无动作标注世界模型:
- PIDM: Predictive Inverse Dynamics Models for Implicit Label-Free World Models — arXiv 2412.15109(2024-12)
- VPP: Visual Policy Planner via World Model Prediction — arXiv 2412.14803(2024-12)
- FLAM: Foundation Language Action Models — arXiv 2602.16229(2026-02)
- HiLAM: Hierarchical Language Action Models — arXiv 2603.05815(2026-03)
- DreamDojo: World Model for Real-Time Teleoperation — arXiv 2602.06949(2026-02)
多任务世界模型:
- MoW: Mixture of World Models — arXiv 2602.01270(2026-02,Atari 26 110.4%)
- WAP: World-Assisted Planning — arXiv 2506.21230(2025-06,EB-ALFRED +60.7)
可解释性与潜空间分析:
- DisWM: Discovering World Models — arXiv 2503.08751(ICCV 2025)
- Geometric Probing of World Model Representations — arXiv 2506.02996(2025-06)
灵巧操控与跨本体:
- DexWM: World Models Can Leverage Human Videos for Dexterous Manipulation — arXiv 2512.13644
- Scaling Cross-Embodiment World Models — arXiv 2511.01177
- ET-VLA: Embodiment Transfer Learning for VLA Models — arXiv 2511.01224
- LAC-WM: Latent Action Cross-Embodiment World Models — OpenReview
- OXE-AugE: Scaling Cross-Embodiment Data Augmentation — arXiv 2512.13100(2025-12)
- GEN-0 — Generalist AI Blog
自主导航与具身导航:
- DreamerNav — PMC 2025-06(DreamerV3 扩展,动态室内环境)
- ReasonNav — arXiv 2509.21189(VLM 大型建筑寻路,2025-09)
- IROS Dual-Process Navigation — arXiv 2601.21506(VLM 双进程室内导航,2026-01)
- NaVILA: Legged Robot VLA Navigation — arXiv 2412.04453(2024-12)
- FM-Planner: Foundation Model UAV Navigation — arXiv 2505.20783(2025-05)
- LogisticsVLN: Low-Altitude Delivery Navigation — arXiv 2505.03460(2025-05)
- LLM-Drone MCP Interface — arXiv 2601.15486(2026-01)
- GrandTour Legged Robot Dataset — arXiv 2602.18164(2026-02)
- Whole-Body MPC for Legged Robots — arXiv 2503.04613(2026-03)
预训练策略与数据工程:
- WorldPrediction / POSMDP — arXiv 2506.04363(2025-06)
- AdaWorld Large-Scale Corpus — arXiv 2503.18938(2025-03)
- LARP Video Tokenizer — OpenReview
- Foundation World Models for Agents (AAMAS 2026) — arXiv 2602.23997(2026-02)
学术社区活动:
- NeurIPS 2025 Embodied World Models Workshop
- ICLR 2025 Workshop: World Models — Understanding, Modelling and Scaling
GUI/Web Agent:
算力与压缩:
- An Empirical Study of World Model Quantization — arXiv 2602.02110
- Latent World Models for Automated Driving — arXiv 2603.09086
中国开源:
产业与中国格局:
- AMI Labs raises $1.03B — TechCrunch
- Emu3.5 — 量子位
- HunyuanWorld-1.0 — 量子位
- NVIDIA Cosmos CES 2026
- KIT WOW Earth System Model
- Awesome-World-Models(knightnemo)
- facebookresearch/vjepa2
相关笔记
- 世界模型 — 概述(基础背景)
- Dreamer — DreamerV1/V2/V3 + Dreamer 4
- MuZero — DeepMind MuZero
- Genie — Google DeepMind Genie 系列
- Veo 系列 — Google Veo
- 预训练与后训练及世界模型数据的训练用途 — 数据训练用途 Q&A
- 具身智能In-the-Wild数据采集方式综述 — 数据采集方法
- 具身机器人大模型&机器人公司 — 行业格局参考