世界模型技术调研

摘要:世界模型正从 RL 辅助工具跃迁为通用物理 AI 基础设施(2024–2026)。三大路线——生成式(Cosmos/Genie 3/GAIA-3)、预测式(V-JEPA 2/Dreamer 4)、多感知融合(Visuo-Tactile WM)——各有生态。机器人方向最活跃:LLM+VLA+WM 三层融合、逆动力学(PIDM +43%)、跨本体迁移(LAC-WM +46.7%)、多任务(MoW 110.4%)均取得突破。应用扩展至驾驶(Tesla 1 天=500 年)、游戏(DIAMOND +46%)、医疗(F1 +13%)、导航、社会模拟。资本加速:AMI Labs 10 亿 + General Intuition 54 亿 → 2035 年 $836 亿(CAGR 34.4%)。2026 年是 LLM 时代向 LWM 时代过渡的元年。

章节导航一 背景二 分类三 架构四 系统五 应用六 评测七 产业八 基础设施九 前沿十 争议十一 缺口十二 结论性能表参考文献


一、背景与调研目标

世界模型(World Model) 是能够对物理世界的动态建立内部表示、预测未来状态并支撑规划决策的 AI 系统。与纯视频生成的核心区别:

  1. 因果推理:理解动作-结果因果链,而非统计相关
  2. 可交互性:实时响应动作输入
  3. 物理可信度:正确建模重力、碰撞、流体等物理规律
  4. 时间一致性:长时序下环境状态的连贯维护

调研范围:2024 下半年至 2026 年 3 月,覆盖分类框架、架构技术、代表系统、应用领域、评测基准、产业格局与核心争议。

基础概念 → 世界模型;经典模型 → DreamerMuZero


二、分类框架

2.1 功能轴:理解 vs 预测(ACM CSUR 2025,arXiv 2411.14499)

清华 FIB-Lab 综述(49 页,被 ACM Computing Surveys 2025 收录)提出层级分类体系:

隐式表示类(Implicit Representation) — 理解当前状态

  • 决策中的世界模型
    • 基于模型的强化学习(MBRL):Dreamer 系列、MuZero
    • 语言主干方法:以 LLM 为规划核心
  • 模型中的世界知识
    • 全局物理知识(重力、碰撞、流体)
    • 局部物理知识(物体间交互)
    • 人类社会知识(Theory of Mind、社会模拟)

未来预测类(Future Prediction) — 模拟世界动态

  • 视频生成方法:长时预测 / 多模态 / 交互可控
  • 具身环境:室内(AI2-THOR)/ 室外(MetaUrban 2024)/ 动态生成(UniSim、Pandora)

四大应用领域:生成式游戏 / 自动驾驶 / 机器人 / 社会模拟

2.2 三轴分类法(具身 AI 专版,arXiv 2510.16732)

类别 A类别 B
功能决策耦合型(任务专用,与策略绑定)通用型(任务无关,跨应用模拟)
时间建模序列模拟推理(自回归逐步展开)全局差分预测(并行估计整体变化)
空间表示全局隐向量 → 令牌序列 → 空间隐网格 → 分解渲染

空间表示四种策略代表:

  • 全局隐向量:PlaNet、DreamerV2/V3(紧凑,适合 RL)
  • 令牌序列:IRIS、V-JEPA、Genie(时空依赖建模)
  • 空间隐网格:DriveDreamer、OccWorld(BEV/体素,几何对齐)
  • 分解渲染:ManiGaussian、DreMa(3DGS/NeRF,可微渲染)

三、技术架构全景

3.1 RSSM → Dreamer 系列(强化学习路线)

RSSM:编码器将图像映射为潜状态(32 类别分布 × 32 类的离散变量),动态模型在潜空间展开想象轨迹,Actor-Critic 在潜空间训练。

版本时间核心贡献
DreamerV12019完整 RSSM + 世界模型 RL 框架
DreamerV22021离散表示 + KL 正则化,Atari SOTA
DreamerV32023统一超参无任务调整,12 个领域 SOTA
Dreamer 42025-09块因果 Transformer + Diffusion Forcing

Dreamer 4(arXiv 2509.24527):

  • 块因果 Transformer 同时注意空间 patch 和时间序列
  • Shortcut Forcing 目标函数:扩散 forcing 推广,少步去噪潜状态
  • 单 GPU 实时推理,知识主要来自无标注视频
  • 里程碑:首个仅从离线数据(无环境交互)在 Minecraft 中获得钻石的 Agent

3.2 JEPA 路线(Meta / LeCun)

核心哲学:预测抽象表示空间中的状态,不重建像素——避免在纹理等无关细节上浪费容量。

V-JEPA 2(arXiv 2506.09985,2025-06):

项目参数
架构Encoder(ViT-g) + Predictor(ViT-g),1B 参数
位置编码3D RoPE(时间/高度/宽度分区)
分块策略Tubelet 2×16×16 时空维度
掩码策略Multiblock masking,多块连续遮蔽
训练数据VideoMix22M(2200 万视频 / 超 100 万小时
训练时长252K 步,分辨率 384×384,64 帧片段
效率优化渐进式分辨率训练:GPU 时间节省 8.4×

性能:SSv2 动作理解 77.3 top-1;Epic-Kitchens-100 行为预测 39.7 recall@5(SOTA)。

V-JEPA 2-AC(动作条件化扩展):

  • 冻结预训练编码器 + 新增 300M 参数块因果 Transformer Predictor
  • 训练数据:仅 62 小时无标注 Droid 机器人数据
  • 机器人部署(Franka,零样本,两个实验室):抓取 65%,Pick-and-Place 65–80%
  • 规划速度:16 秒/动作(vs Cosmos 基线 4 分钟,快 15×)

VL-JEPA(arXiv 2512.10942):JEPA 扩展至视觉-语言联合嵌入,跨模态统一预测。

3.3 自回归 Transformer(Genie 系列,Google DeepMind)

版本时间分辨率/交互核心特点
Genie 12024-02256×256,非实时无标注视频 → 2D 可交互环境
Genie 22024-123D,非实时单图 → 3D 环境,涌现物理行为
Genie 32025-08720p@24fps,实时文本 → 3D 世界,~1min 视觉记忆

Genie 3 局限:动作空间有限、多智能体交互弱、文字生成不稳定、连续交互上限数分钟。

Waymo World Model(2026-02):以 Genie 3 为基底,适配多传感器驾驶场景。

3.4 扩散-Transformer(DiT)路线

NVIDIA Cosmos v1(arXiv 2501.03575,2025-01):

子模型功能
Cosmos-Predict预测世界未来状态(视频形式)
Cosmos-Transfer多空间控制输入条件化生成
Cosmos-Reason物理常识推理 + 具身决策语言输出

训练:2000 万小时视频,NeMo Curator 清洗管线;开放权重,宽松许可证。

NVIDIA Cosmos-Predict2.5(2025-11,arXiv 2511.00062):

  • Flow-based 架构,统一 Text2World / Image2World / Video2World 于单模型
  • 训练数据:2 亿经过筛选的视频片段 + RL 后训练(强化指令对齐)
  • 规模:2B 和 14B 两档,视频质量和指令对齐显著优于 Predict1
  • Cosmos-Transfer2.5:3.5× 更小参数,更高保真度,更强长时序生成
  • Cosmos Reason 2(CES 2026):最先进推理视觉语言模型,支持边缘部署(Jetson)
  • Cosmos Policy(2026-02):机器人动作条件化模型

NVIDIA 数据管线:NeMo Curator + CUDA 加速,20M 小时视频 2 周内处理完成

Wayve GAIA 系列(自动驾驶专用):

版本参数核心突破
GAIA-1(2023)文本/动作 → 驾驶视频
GAIA-2(2024)多摄像头空时一致,地理多样性
GAIA-3(2025)15B5× 算力,10× 数据;“world-on-rails” 控制;合成测试拒绝率 ↓5×

GAIA-3 技术特点:潜扩散模型,新 tokenizer(2× GAIA-2);世界-导轨扰动(修改自车同时保持场景一致);跨传感器渲染;UK 政府 DriveSafeSim 资助。

3.5 3D 神经渲染路线(World Labs)

World Labs / Marble(李飞飞,累计融资 $10 亿):

  • 高级生成模型 + 显式 3D 结构(区别于 Genie 3 的纯帧生成)
  • 持久可导航 3D 世界,多场景无缝拼接(2025-09)
  • Autodesk 战略投资 $2 亿用于 3D 设计工作流集成

3.6 触觉融合世界模型(Visuo-Tactile WM,ICLR 2026)

Visuo-Tactile World Models(arXiv 2602.06001,ICLR 2026):

核心洞察:视觉世界模型在接触丰富任务中存在系统性失败——物体消失、穿透、不合理形变(统称「物理幻觉」)。触觉信号提供视觉遮挡下的接触真值,能消除这类幻觉。

架构

  • 视觉编码器:Cosmos tokenizer(冻结)
  • 触觉编码器:Sparsh-X(Digit 360 传感器,冻结)
  • 预测器:12 层 Transformer,视觉+触觉 latent token 沿空间维度拼接后处理
  • 注意力机制:交替时空自注意力(帧内+跨帧 token 交互)+ 对 action token 的交叉注意力
  • 规划:CEM(Cross-Entropy Method)在预测潜空间内迭代搜索最优动作序列

定量结果

指标提升幅度
物体永久性(Normalized Fréchet Distance)↑33% vs 纯视觉模型
因果合规性(幻觉动作减少)↑29%
接触丰富任务成功率(零样本真实机器人)↑35%(reach&push),↑31%(wipe cloth)
少样本新任务(plate-insertion,20 demos)77% 成功率

适用场景:仅需触觉的接触丰富操控(推、擦、叠、抓);自由空间到达任务纯视觉已足够。

3.7 MBRL 规划算法谱系

从紧凑 RL 到大规模物理 AI 的连续演进谱系:

算法时间核心机制适用场景
PlaNet2019RSSM 潜空间 + CEM 规划连续控制,图像观测
Dreamer 系列2019–2025潜空间想象 + Actor-CriticRL 多领域,无需 rollout 交互
MBPO2019模型生成短 rollout,混合模型无关更新样本效率优化
TD-MPC2022时序差分 + MPC,潜状态轨迹规划连续控制任务
TD-MPC22023SimNorm + 集成 Q,317M 单模型 80 任务DMControl/Meta-World/ManiSkill2/MyoSuite,104 任务
TD-M(PC)²2025-02策略约束减少 OOD 查询HumanoidBench 61D 动作空间
WorldPlanner2025MCTS + MPC,对世界模型幻觉进行抗干扰规划长程机器人任务
V-JEPA 2-AC2025JEPA 潜空间 + teacher-forcing + rollout loss机器人操作,16s/action

规划算法分类

  • 基于想象的规划(Dreamer):Actor-Critic 在潜空间轨迹上训练
  • 基于 CEM 的规划(PlaNet、V-JEPA 2-AC 变体):从高斯分布采样动作序列,迭代精化
  • 基于 MCTS 的规划(WorldPlanner):树搜索,适合离散或多分支决策
  • 基于 MPC 的规划(TD-MPC2):滚动时域优化,适合连续控制

3.8 4D 世界模型(新兴)

TeleWorld(arXiv 2601.00051,2026-01):

  • 实时多模态 4D 框架:视频生成 + 动态场景重建 + 长期世界记忆的闭环
  • 生成-重建-引导范式(Generated video → 4D spatio-temporal reconstruction → guides next generation)
  • Macro-from-Micro Planning(MMPL):段级层级规划,降低帧级误差累积

OmniWorld(arXiv 2509.12201,2025-09):

  • 多领域多模态 4D 数据集:深度图 + 相机位姿 + 文本描述 + 光流 + 前景 Mask
  • 联合捕获空间几何与时间动态

MLLM-4D(arXiv 2603.00515):仅从 2D 视频理解 3D 空间随时间的演变(空时智能)。


四、代表系统深析对比

系统机构架构规模开源核心数字
Cosmos Predict1NVIDIADiT20M 小时数据3 类子模型
Cosmos Predict2.5NVIDIAFlow-based DiT2 亿视频,RL 后训练2B/14B
Genie 3Google DeepMind自回归 Transformer720p@24fps,~1min 记忆
V-JEPA 2 / 2-ACMetaJEPA(ViT-g)1B 参数,1M+ h 视频65% 抓取,16s/action
Dreamer 4Hafner et al.块因果 Transformer社区实现首得 Minecraft 钻石(离线)
GAIA-3Wayve潜扩散15B合成拒绝率 ↓5×
Waymo WMWaymo+DeepMind基于 Genie 3多传感器一致
MarbleWorld Labs3D 生成持久可导航 3D 世界
HunyuanWorld-1.0腾讯DiT(二阶段)支持物理仿真,WAIC 2025
Emu3.5BAAIDecoder-only Transformer34B10 万亿 token,DiDA 加速 20×
LingBot-World蚂蚁灵搏MoT(视频-动作联合)720p@16fps,10min 视频,VBench 动态度 0.8857
GigaWorld-0GigaAIVideo+3D 混合无实机数据训练 VLA
DreamDojo(arXiv 2602.06949,2026-02)多机构持续潜动作 + Transformer44k 小时人类视频零样本泛化新物体/环境;蒸馏 10.81 FPS 实时遥操作
Runway GWM-1(2025-12)Runway多模态生成Video Arena #1;Worlds/Avatars/Robotics 三变体;原生音频+物理预测
1X World Model(2026-01)1X Technologies物理基础模型部分NEO 机器人无需先验训练即学习新任务

五、应用领域专项

5.1 自动驾驶

驾驶世界模型已从研究工具进入量产评测阶段:

系统机构定位
GAIA-3(15B)Wayve合成安全测试,替代真实驾驶评测
Waymo World ModelWaymo+DeepMind基于 Genie 3,同时生成 2D 视频 + 3D lidar,模拟从未被车队观测过的场景
Tesla World SimulatorTesla神经网络仿真世界,1 天 = 500 年人类驾驶,FSD+Optimus 统一架构
World4Drive(ICCV 2025)意图感知潜空间,nuScenes 碰撞率 ↓83%
SynAD(ICCV 2025)合成数据增强,真实世界 E2E 驾驶
Cosmos-Drive-DreamsNVIDIA可扩展合成驾驶数据
DriveDreamer真实驾驶场景学习,nuScenes 评测,扩散双阶段训练
DriveDreamer4D(CVPR 2025)4D 驾驶场景表示,利用世界模型先验增强场景生成
DriveXOmni Scene Modeling,跨场景泛化世界知识(2025-05)

5.2 机器人:数据飞轮范式 + VLA 集成

核心问题:机器人高质量交互数据极度稀缺,世界模型充当「合成数据引擎」:

世界模型生成多样化轨迹数据 → 训练 VLA 策略 → VLA 在真实机器人验证 → 反馈改进世界模型

GigaWorld-0(arXiv 2511.19861):

  • GigaWorld-0-Video:大规模视频生成,细粒度控制的具身序列
  • GigaWorld-0-3D:3DGS 重建 + 物理可微分系统辨识 + 可执行运动规划
  • GigaBrain-0(配套 VLA):零真实机器人数据训练,强跨任务泛化

RoboVerse:多仿真器平台 + 高保真物理渲染合成数据集 + 统一 benchmark。

LLM + VLA + 世界模型三者融合

层次模型类型功能代表
高层语义规划MLLM / LLM理解指令、分解任务、常识推理Gemini Robotics、GR00T N1
动作生成VLA视觉+语言 → 低级动作RT-2、OpenVLA(7B,OXE 数据集)、GR00T N1
物理环境建模世界模型预测动作结果、提供训练数据V-JEPA 2-AC、GigaWorld-0

研究共识(IEEE CAS Magazine 2025):MLLM 擅长语义推理但忽略物理约束,WM 擅长物理仿真但缺乏高层语义,「MLLM-WM 联合驱动」是下一代具身 AI 架构方向。

LingBot-VA(Ant Lingbo 蚂蚁灵搏,arXiv 2601.21998,2026-01,开源):

  • 视频-动作自回归统一模型:视频 token 和动作 token 在同一交错序列中联合生成
  • 架构:Mixture-of-Transformers(MoT),共享视觉-动作潜空间
  • 闭环 rollout:持续获取真实观测反馈,实时纠错
  • 异步推理管线:动作预测与电机执行并行
  • 性能:RoboTwin 2.0 双臂协同 >90%,LIBERO 长时学习 98.5%;新任务仅需 30–50 条演示
  • 完全开源(权重+推理代码)

人形机器人专用世界模型(2025-2026 突破):

系统机构arXiv核心能力
Humanoid WM(2025-06)多机构2506.01182轻量开源,1-2 GPU 可运行;100 小时示范视频训练;Masked Transformer + Flow-Matching 两架构
GR00T N1(2025-03)NVIDIA2503.14734双系统 VLA:VLM 解释环境 + 扩散 Transformer 生成电机动作;Fourier GR-1 双臂操控部署
1X World Model Challenge(2025-10)1X Technologies2510.07092开源 benchmark:采样轨迹(预测帧)+ 压缩轨迹(预测离散潜码)双赛道
Figure 03(2025-10)Figure AI第三代人形;Helix AI 系统;完全重设计用于通用学习
Atlas RL(2025)Boston Dynamics从脚本控制器转向多任务示范数据训练的大型行为模型

Diffusion Policy + 世界模型集成(2025-2026 新范式):

系统arXiv核心创新
DiWA(2025-08)2508.03645世界模型辅助扩散策略离线 RL 微调;数百至数千条 play 数据即可有效适应
World4RL(2025-09)2509.19080两阶段:先在冻结扩散 WM 内预训练,再在冻结模型内精化策略,避免在线交互
GPC(Generative Predictive Control)(2025-02)2502.00622三组件:扩散策略克隆 + 动作条件 WM + 在线规划(WM lookahead 排序动作);持续优于行为克隆
AdaWorldPolicy(2026-02)2602.20057在线自适应学习,LoRA 更新减少视觉/物理域偏移

跨本体迁移(Cross-Embodiment Transfer)(2025 突破):

系统arXiv核心贡献
Scaling CWM(2025-11)2511.01177环境动力学本体无关假设;人类视频 → 机器人零样本迁移
ET-VLA(2025-11)2511.01224Synthetic Continued Pretraining(SCP)绕过真实人工演示,新本体无需数据采集
LAC-WM(OpenReview)统一潜动作空间(latent action space);未见本体上 +46.7% vs 基线;更多本体预训练→更强迁移
DexWM(2025-12)2512.13644灵巧操作 WM;900+ 小时人类视频训练;Hand Consistency Loss;Franka+Allegro 平台;vs Diffusion Policy +50%
GEN-0(Generalist AI,2025-11)27 万+ 小时真实操作数据,每周 1 万小时增长;6/7/16DoF 泛化

核心洞察:动力学本体无关假设(Scaling CWM)是跨本体迁移可行性的理论基础;统一潜动作空间(LAC-WM)是最有效的工程实现路径;人类视频是廉价的预训练数据来源(DexWM 验证)。

RBench + RoVid-X(arXiv 2601.15282,2026-01):

  • RBench:650 个评测样本(5 类任务 × 4 类机器人本体)
  • RoVid-X:400 万标注视频片段,1,300+ 技能,720P + 光流标注
  • 评测 25 个 SOTA 模型:最优模型 Wan 2.6 平均分仅 0.607(视觉推理是最大瓶颈)
  • 结论:「视觉流畅度」≠「物理可信度」,范式需从媒体消费优化转向物理智能

5.3 GUI/Web Agent 专项

世界模型正向 GUI 操控(网页/桌面 Agent)延伸,以界面截图序列 + 操作作为「世界状态」,核心研究方向包括:

系统来源规模核心特点
WebWorld(arXiv 2602.14721,2026-02)1M+ 网页交互轨迹网页操控专用 WM;Qwen3-14B 基础上 +9.2% WebArena 评分;任务依存状态建模
CUWM(Computer-Using WM)因子化多模态架构(布局/文字/图标分离预测);专为桌面软件多步操控设计
R-WoM(Retrieval-augmented WM)检索增强 + WM 规划;通过检索相似历史轨迹改善分布外场景的规划

核心洞察:GUI/Web 环境具有不连续动作空间(点击/输入/滚动)和高度符号化状态(HTML/DOM),与机器人连续控制差异显著,需要专用的 WM 建模方案。视觉 WM 可提供从截图到下一截图的预测,为 Agent 规划「数字世界」中的操控序列。

5.4 游戏引擎:神经游戏引擎

世界模型正在重新定义游戏引擎的边界:

系统时间关键指标特点
GameNGen(ICLR 2025,arXiv 2408.14837)2024-08单 TPU 20fps,PSNR 29.4扩散运行 DOOM;人类评分者 5min 内仅略好于随机区分真伪
DIAMOND(arXiv 2405.12399)2024-05Atari 100k 1.46 human-normalized score比人类基线高 46%;CS:GO 场景 RTX 3090 @10fps;扩散保留视觉细节优于离散 token
Oasis(Etched+Decart)2024-10500M 参数,前代 10×Minecraft @20fps,360p;无传统物理引擎
GameGen-X(ICLR 2025,arXiv 2411.00769)2024-11OGameData:150+ 游戏,1M+ clipsDiT + InstructNet 多模态控制,首个统一生成+交互控制的开放世界模型
Scalable Generative Game Engine(arXiv 2602.00608)2026-02720×480 @ 26.4–48.3fps硬件-算法协同设计解决「Memory Wall」,像素吞吐量 50× 提升
Genie 32025-08720p@24fps,~1min 记忆文本 → 实时可交互 3D 世界
Dreamer 4(arXiv 2509.24527)2025-09首获 Minecraft 钻石(离线)块因果 Transformer + Diffusion Forcing

Dreamer 4 开源实现(2025-09 后):

位置论文(arXiv 2503.17359):「交互式生成视频是下一代游戏引擎」——无需传统游戏引擎代码,AI 直接生成可玩环境。

5.5 科学模拟

世界模型开始进入科学领域,以「地球系统 = 需要建模的世界」为切入点:

项目机构成果
WOW(World of Our World)KIT(卡尔斯鲁厄理工)多专项 AI 子模型通过潜空间整合,模拟全球气候 + 局部野火/洪水;Carl Zeiss 基金会 600 万欧元资助
UW 气候模型华盛顿大学单处理器 12 小时模拟地球气候 1,000 年(传统需超算数月)
CliMA混合物理-AI 模型,云端运行,融合高达 100TB 数据

研究方向:混合物理-AI(保留物理方程,AI 建模超分辨率过程)→ 比纯 ML 更可信、比纯物理更高效。

最新气候基础模型(2025-2026)

模型机构亮点
NVIDIA cBottle(arXiv 2505.06474,2025-05)NVIDIA全球首个生成式 AI 气候基础模型,km 级分辨率,基于扩散框架;可按时间/季节/海温条件生成大气状态
THOR(arXiv 2601.16011,2026-01)地球观测多用途基础模型;统一 Copernicus Sentinel-1/2/3 数据;覆盖 10m–1000m 分辨率
Prithvi WxC(arXiv 2409.13598)IBM+NASA天气/气候基础模型;160 个大气变量;MERRA-2 数据集训练

医疗/临床世界模型(2025 新兴方向):

  • Medical World Model(arXiv 2506.02327,2025-06):医学中首个视觉世界模型;VLM 为策略模型 + 肿瘤生成模型为动态模型;Turing 测试通过放射科医师验证;TACE 治疗方案选择 F1 分数提升 13%
  • Beyond Generative AI for Clinical(arXiv 2511.16333,2025-11):覆盖医学影像/疾病进展建模/手术规划;WM 的反事实推理和因果结构是临床价值的核心
  • 蛋白质折叠 WM(biorxiv 2025-03):耶鲁大学,演化策略训练 + 潜在时空表示,生成原子分辨率构象动态(传统 MD 替代)

5.6 社会模拟

以 LLM 为 Agent 核心,世界模型提供环境动态。代表系统:SocioVerse(1000 万真实用户池)、MetaMind(Meta-Theory of Mind 多 Agent)。涌现行为包括规范形成、信息扩散、回音室、极化等宏观社会现象。详见


六、评测基准现状

主要 Benchmark

基准来源评测维度
WorldModelBench(arXiv 2502.20694)CVPR’25 口头报告14 个模型350 测试 prompt;7 领域 56 子领域;67,000 人工标注;三维评分(指令跟随/常识/物理遵守 0-3 分制);自训练 judge 比 GPT-4o 精度高 8.6%
WorldScore(ICCV 2025,arXiv 2504.00983)20 个模型(13 视频+6 3D+1 4D);3,000 测试样本;三维:可控性+质量+动态性;发现 T2V 控制性↑,I2V 质量↑,3D 户外长序列↑
WorldBench(arXiv 2601.21282)物理概念、常数、材料属性
WorldArena(arXiv 2602.08971)16 指标,6 维度(视觉/运动/内容/物理/3D/可控)
WoWBench物理一致性 + 因果推理 + 指令跟随
RBench(arXiv 2601.15282)机器人专项,5 类任务,4 类本体,650 样本
Spatial4D-Bench(arXiv 2601.00092)4D 空间智能,~4 万 QA 对,18 任务
DrivingGen2026自动驾驶视频世界模型综合评测

核心评测问题(⚠️ 社区共识)

  1. 像素保真度偏见:FID/FVD/PSNR 衡量视觉质量,高分模型仍可能出现严重物理幻觉
  2. 统一数据集缺失:跨系统比较困难(Survey 2510.16732 首要瓶颈)
  3. 任务性能 ≠ 世界建模质量:下游 RL 成绩好不等于世界模型本身准确
  4. RBench 发现:最优模型仅 0.607,视觉推理是最大瓶颈,商业模型显著优于开源

七、产业格局

7.1 BAAI 悟界·Emu3.5(2025-10)

技术架构

  • 规模:34B 参数,标准 Decoder-only Transformer
  • 训练数据:超 10 万亿多模态 Token(主要为互联网视频,总时长约 790 年
  • 统一范式:所有任务(视觉叙事/图像编辑/世界探索/具身操作)统一为「下一状态预测(Next-State Prediction)」——比 Next-Token Prediction 更抽象,学习动态-因果-时序规律
  • DiDA(离散扩散适配):将自回归逐 Token 生成转为并行双向预测,图像推理速度 提升 20×
  • 开源(代码+权重)

悟界系列全景

  • Emu3.5(原生多模态世界模型)
  • 见微 Brainμ(脑科学多模态基础模型)
  • RoboBrain 2.0 + RoboOS 2.0(具身大脑 + 框架)
  • OpenComplex2(全原子微观生命模型)

7.2 腾讯 HunyuanWorld(2025-07)

HunyuanWorld-1.0(WAIC 2025,开源):

  • 基座:扩散 Transformer(DiT)
  • 两阶段生成范式:
    1. 阶段一:DiT 生成高质量 360° 全景图(世界代理/World Proxy)
    2. 阶段二:基于语义分层重建为 3D 场景(语义分层 → 分层重建)
  • 三”可”特性:可漫游(键鼠自由移动)/ 可编辑(导出标准 3D 网格)/ 可仿真(物体赋予物理属性)
  • 业界首个支持物理仿真的开源世界生成系统

HunyuanWorld-Voyager(2025-09,开源):

  • 超长漫游世界模型,原生 3D 重建,视频可直接导出 3D 格式
  • 训练数据:超 10 万视频片段的专用数据集

7.3 全球 WM 专项机构总览

机构成果路线开源
智源 BAAIEmu3.5(34B,Next-State Prediction)Decoder-only Transformer
腾讯HunyuanWorld-1.0 / VoyagerDiT + 3D 重建
蚂蚁灵搏LingBot-VA(视频-动作自回归,2026-01)MoT,视频+动作联合
清华+神数Motus(统一五范式,2025-12)MoT + UniDiffuser
字节跳动豆包 1.8(多模态 Agent)多模态 LLM
百度文心 4.5(原生多模态)基础大模型部分
AMI Labs(LeCun,美国)JEPA 商业化(35 亿,2026-03)JEPA
World Labs(李飞飞,美国)Marble(2 亿)3D 神经渲染
General Intuition(美国)空间推理 Agent WM($1.34 亿种子轮)专用空间 WM

Motus(清华 ML Lab + 神数科技,arXiv,2025-12,开源):

  • 统一五范式:首次将 VLA / 世界模型 / 视频生成 / 逆动力学模型 / 视频-动作联合生成 统一到同一框架
  • 架构:MoT(三专家:理解、动作、视频生成)+ UniDiffuser 调度器(灵活切换建模模式)
  • 潜动作学习:用光流提取像素级「delta action」,实现大规模动作预训练(无需动作标注)
  • 三阶段训练 + 六层数据金字塔
  • 性能:RoboTwin 2.0 87.02%(+15% vs X-VLA,+45% vs π₀.₅

判断(中国方阵):国内大厂以视频积累为基底走生成式路线,BAAI 的 Next-State Prediction 理念与 JEPA 精神高度契合但实现路线不同(仍基于 Transformer Token);中国整体与国际 SOTA 差距约 6–12 个月。


八、训练基础设施与开源生态

8.1 训练规模金字塔

层级代表数据规模算力
超大规模Cosmos Predict120M 小时视频NVIDIA A100 集群
大规模V-JEPA 21M+ 小时(VideoMix22M)
中等规模Emu3.5~790 年视频(10 万亿 token)
领域数据V-JEPA 2-AC62 小时机器人数据轻量
合成增强GigaWorld-0无真实机器人数据

8.2 数据管线关键技术

  • NeMo Curator(NVIDIA):CUDA 加速视频清洗,20M 小时视频 2 周处理完成
  • GigaWorld-0-3D:3DGS 重建 + 物理系统辨识 → 无需真实机器人数据的合成训练
  • RoVid-X:4M 标注视频,720P + 光流 + 物理属性标注,1,300+ 技能

大规模机器人数据集生态

数据集规模来源特点
Open X-Embodiment(OXE)1M+ 轨迹,22 本体,527 技能,160K 任务34 个机器人实验室60+ 数据集联合;跨本体训练 +50% 性能
OXE-AugE(arXiv 2512.13100)4.4M 轨迹(3× OXE)多机构9 个额外本体;OpenVLA/π₀ 微调 +24-45% 成功率
NVIDIA Physical AI Dataset15TB,320K+ 轨迹,1,000 OpenUSD 场景资产NVIDIA专为基础 WM 预训练/后训练设计
DreamDojo 预训练集44k 小时自我中心人类视频迄今最大 WM 预训练视频数据集

8.3 商业化产品与 API 生态

产品机构状态商业模式核心特点
Marble / World APIWorld Labs2026-01 上线免费+付费分层持久可下载 3D 世界;支持文本/图片/视频/多视角输入;可导出至下游工具
Runway GWM-1Runway2025-12 发布SaaS**Video Arena 1**(超 Veo 3 和 Sora 2 Pro);三变体:Worlds/Avatars/Robotics
Cosmos NIMNVIDIA2025(规划中)云微服务Hugging Face/NGC 免费开放模型已达 200 万次下载;NIM 微服务商业部署路径
Genie 3Google DeepMind2025-08Google One Ultra 用户实时交互 3D 世界;在美国 Google Ultra 用户可用

世界模型市场规模(Acumen Research 2025):

  • Physical AI 市场 2025:$50–54 亿美元
  • Physical AI 市场 2035(预测):$836 亿美元(CAGR 34.4%
  • 地区分布:北美 40.4%,亚太 31%(增速最快,CAGR 36.2%)

重大融资(2025-2026 WM 专项轮)

公司融资估值焦点
AMI Labs(LeCun 创立)$10.3 亿 种子轮$35 亿JEPA 架构,制造/机器人/航天/生物医学
World Labs(李飞飞创立)$10 亿3D 空间智能;Autodesk 战略投资 $2 亿
General Intuition$1.34 亿 种子轮教 Agent 空间推理的专用世界模型
SpAItial$1300 万 种子轮空间 AI

AMI Labs 投资方包括 Temasek、NVIDIA、Bezos Expeditions、Eric Schmidt、Xavier Niel 等;General Intuition $1.34 亿为世界模型赛道最大单笔种子轮之一。

8.4 算力规模与世代演进

世代代表训练 FLOPs硬件要求估算成本
Gen 1(2022-2023)DreamerV3, PlaNet10^23–10^24单机 8× A100< $1M
Gen 2(2024)Genie 1, GAIA-2, Cosmos v110^25–10^26千卡级 A100/H100100M
Gen 3(2025-2026)Cosmos Predict2.5, GAIA-3 15B10^26–10^27万卡级 H100/B2001B+

Cosmos Predict1 训练细节(14B 参数):

  • VRAM:280 GB(参数/梯度/优化器状态 + 激活)
  • Tokenizer 压缩:时间 ,空间 16×16(离散)/ 8×8(连续)
  • NeMo Curator:20M 小时视频 → Hopper 40 天 / Blackwell 14 天(3×)

预测(McKinsey/Epoch AI):全球 AI 数据中心需求 156 GW by 2030;资本支出 ~$5.2T。

8.5 模型压缩与边缘推理

WM 量化专项研究(arXiv 2602.02110,2026-02):

  • 发现:WM 量化影响不止于精度,会直接影响 latent rollout 动态(与标准 LLM 量化不同)
  • 关键现象:模型各组件量化灵敏度高度不对称;任务依存的 rollout 失败模式
  • 指导意义:WM 量化需联合优化 rollout 保真度 + 推理延迟 + 内存占用,不能单独套用 LLM 量化策略
精度模型大小推理速度质量损失
32-bit(FP32)基准基准
8-bit(INT8)50% 减小 提速极小
4-bit(INT4)75% 减小2.4× 提速可接受
KV Cache 3-bit几乎无损

边缘部署框架(2025-2026)

  • ExecuTorch 1.0 GA(Meta,2025-10):50KB 基础占用,支持 12+ 硬件后端,覆盖微控制器到智能手机
  • Cosmos Reason 2(CES 2026):首个支持 Jetson 边缘部署的世界模型推理能力模型
  • hybrid edge-cloud 策略(Jan 2025 研究):75% 节能 + 80%+ 成本降低 vs 纯云端推理
  • MiniCPM-V(8B):移动端运行,11 项 benchmark 超 GPT-4V(2026 边缘视觉语言 SOTA)

8.6 可实际使用的开源模型

模型机构仓库特点
V-JEPA 2Metafacebookresearch/vjepa21B ViT-g,视频理解+机器人规划
Cosmos-Predict2.5NVIDIAnvidia-cosmos/cosmos-predict2.52B/14B,开放权重
HunyuanWorld-1.0腾讯OSCHINA/HunyuanWorld3D 场景生成,可仿真
Emu3.5BAAI34B,Next-State Prediction
LingBot-World蚂蚁灵搏robbyant/lingbot-world720p@16fps,<1s 延迟,2026-03 发布权重
GigaWorld-0GigaAIopen-gigaai/giga-brain-0具身 AI 数据引擎
World-in-World(ICLR’26 Oral)World-In-World闭环接口,具身 Agent 评测,2026-02 更新操控任务
Dreamer 4Hafner et al.nicklashansen/dreamer47,200 轨迹数据集,30 控制任务,JAX+PyTorch

九、新兴研究方向

9.0 物理先验与安全约束

Newton Physics Engine(NVIDIA + Google DeepMind + Disney Research,2025-09,捐赠 Linux Foundation):

  • GPU 加速、可微分物理引擎,专为机器人设计
  • 支持通过整个物理仿真的反向传播:直接策略梯度计算、系统辨识、端到端轨迹优化
  • 意义:将传统物理引擎的精确性与神经网络的可优化性结合,填补纯神经世界模型在物理精度上的缺口

DREAM(Differentiable Real-to-Sim-to-Real Engine):可微分实体到仿真再到实体的引擎,通过神经网络学习残差物理。

不确定性量化(Uncertainty Quantification for World Models):

  • C3(arXiv 2512.05927):连续尺度校准可控视频模型,子 patch 级置信度估计,精确定位每帧的不确定性区域
  • Conformal Prediction for Safety:利用世界模型认知不确定性作为 OOD 代理,通过共形预测校准阈值,在潜空间可达性分析中合成安全监控器——将系统从已知和 OOD 失败区域引导远离
  • WIMLE(ICLR 2026):将隐式最大似然估计扩展到随机、多模态世界模型,无需迭代采样

9.1 层级世界模型

H-WM(arXiv 2602.11291):任务与运动规划的层级世界模型,同时捕获符号逻辑转换和视觉观察,支持任务层(高层)+ 运动层(低层)的联合预测。

Semantic World Models(arXiv 2510.19818):不重建未来帧像素,只预测与任务相关的语义信息(将世界建模转为「对未来帧的视觉问答」)——大幅降低计算成本,更直接服务规划。

MetaWorld-X(arXiv 2603.08572):VLM 编排的人形机器人全身操控层级框架。

9.2 记忆与长程一致性

当前世界模型面临的记忆挑战:「遗忘」和「漂移」(误差随时间累积导致质量退化)。当前 SOTA 记忆长度:Genie 3 约 1 分钟,LingBot-World 约 60 秒视觉记忆 + 10 分钟视频生成——而真实场景需要跨分钟乃至小时的持续记忆。

三机制记忆框架(arXiv 2506.05284):

  • 短期工作记忆:最近几帧上下文
  • 长期空间记忆:点云表示(静态场景结构)
  • 长期事件记忆:稀疏历史参考帧
系统arXiv核心机制关键指标
WorldMem(2025-04)2504.12369记忆库(帧+状态)+ 记忆注意力机制改善长时序场景生成一致性
PERSIST2603.03482持久 3D 状态世界模型;进化潜在 3D 场景替代像素历史几何一致的长时序仿真
Flow Equivariant WM(2026-01)2601.01075流等变记忆,适合部分可观测动态环境超越扩散方法 SOTA;泛化至训练时域之外
THICK(OpenReview)层级 WM 算法;下层稀疏更新状态,上层预测状态切换提升长程推理效率

SSM + 扩散混合(arXiv 2512.06983):用状态空间模型的长时上下文弥补扩散世界模型的记忆缺陷——改善长时记忆,但增加采样延迟(需权衡)。

层级时间抽象(arXiv 2512.20605,2025-12):大型自回归模型通过时间抽象实现层级 RL——层级任务成功率 0.5–0.7(100K episodes 内),基线方法 1M episodes 内完全无法学习

关键洞察(arXiv 2512.06983):WM 长程规划瓶颈主要来自骨干架构的有效记忆跨度,不同记忆编码机制 vs 注入机制需分开研究。

9.3 具身世界模型与 LLM 隐式世界知识

专用具身世界仿真器

  • Interactive World Simulator(arXiv 2603.08546):专为机器人策略训练和评测设计的交互式世界仿真器
  • Robotic World Model(arXiv 2501.10100):神经网络模拟器,双自回归机制处理部分可观测随机动态

LLM 作为隐式世界模型

「从词到世界」(arXiv 2512.18832):提出三层评估框架评估 LLM 世界模型能力:

  1. 保真度与一致性:LLM 对世界状态的表示是否准确
  2. 可扩展性与鲁棒性:是否随 context 增大保持稳定
  3. Agent 效用:是否真正服务于下游规划决策

研究共识:LLM 具备「隐式世界知识」(物理常识、因果关系),但缺乏「显式动态预测」能力——在需要精确物理推演的任务上远落后于专用世界模型。

9.4 多模态世界模型(视觉-音频-物理)

视频是 WM 的主导模态,但 2025-2026 出现了 音频-视觉 统一建模的突破:

系统arXiv关键能力
AV-CDiT(Audio-Visual Conditional DiT,2025-12)2512.00883AVW-4k 数据集(30h 双耳音频-视觉轨迹,76 室内环境);首次统一精确动作控制 + 双耳空间音频 + 奖励预测;SoundSpaces 2.0 物理精确声传播
Runway GWM-1(2025-12)交互控制:相机位姿 + 机器人指令 + 音频输入;帧级物理预测;首个原生音频世界模型产品
WAVE(ICLR 2026,arXiv 2509.21990)2509.21990通用多模态嵌入;视频+音频+音视频联合场景下 SOTA

宏观趋势:4D WM(TeleWorld/OmniWorld)+ 音频模态 + 物理接触(Visuo-Tactile)三轴融合,正在构建超越视频帧的统一「多感知世界模型」。AR/MR 应用场景下,WM 需维护用户空间的持久 3D+音频地图。

9.5 逆动力学与无动作标注世界模型

机器人数据标注代价高,从无动作视频/人类视频提取潜动作是主流数据效率提升路径:

系统arXiv核心方法关键指标
PIDM(Predictive IDM,2024-12)2412.15109以预测的视觉未来状态为条件生成动作LIBERO-LONG +13%;CALVIN ABC-D +21%;真实机器人 +43%
VPP(Video Prediction Policy,2024-12)2412.14803视频扩散模型内置隐式逆动力学CALVIN ABC-D +18.6%;灵巧操作 +31.6%
FLAM(Factored LAM,2026-02)2602.16229分解潜状态为因子,每因子预测潜动作;可从无动作网络视频学习
HiLAM(Hierarchical LAM,2026-03)2603.05815将潜动作序列编码为潜技能(latent skills),支持可变长技能
DreamDojo(2026-02)2602.0694944k 小时自我中心人类视频;连续潜动作作为统一代理动作零样本泛化;10.81 FPS 蒸馏
RLIR(2025-09)2509.23958用逆动力学奖励信号做 WM 后训练动作跟踪 +5-10%,视觉质量 +10%

关键洞察:逆动力学模型(IDM)将「从视频观察提取动作」从后处理步骤提升为WM核心组件,使大规模无标注视频数据可用于机器人策略预训练。

9.6 多任务世界模型

单一世界模型服务多任务/多领域是规模化部署的关键:

系统arXiv覆盖范围关键指标
DreamerV3150+ 多样化任务,单配置无任务调整12 领域 SOTA(Nature 2025 发表)
MoW(Mixture-of-World Models,2026-02)2602.01270Atari 26 游戏110.4% 人类归一化得分;模块 VAE + 任务条件专家 + 共享骨干 + 梯度任务聚类
One Model for All Tasks(2025-09)2509.07945多规划任务单 WM 跨任务效率验证
Unified Surgical WM(ICLR 2026)手术规划结构化理解 + 长程预测 + 细粒度生成,医疗专域 WM
Ctrl-World(2025-10)2510.10125机器人操控帧级动作条件 + 位姿条件记忆检索

9.7 可解释性、潜空间分析与安全

研究arXiv核心发现
DisWM(ICCV 2025)2503.08751解耦世界模型:阶段1学解耦表示;阶段2对比+蒸馏约束微调;支持跨域语义迁移
Latent WM Taxonomy(arXiv 2603.09086,2026-03)2603.09086Exp-Latent:自动扰动潜维度探查控制输出影响;BRYANT:频率感知时间解耦
Geometric Probing(arXiv 2506.02996,2025-06)2506.02996LLM 世界模型空间关系几何结构:k-means 77.5% 纯度;3 个 PCA 方向解释约 100% 方差
Critiques of WM(arXiv 2507.05169)2507.05169倡导离散 token(可解释符号推理)+ 连续嵌入(细粒度感知)混合表示

安全性专项 — UNISafe(CMU IntentionLab):

  • 问题:潜在安全过滤器可能错误将新型危险归类为安全的 OOD 情况
  • 方案:将 WM 潜空间可达性分析 + 认知不确定性(OOD 代理)+ 共形预测(阈值校准)统一
  • 效果:从已知失败区和 OOD 区域主动引导系统远离危险状态

9.8 多 Agent 与社会模拟

MetaMind(arXiv 2603.00808):多 Agent 系统中的 Meta-Theory of Mind 框架,Agent 推断其他 Agent 的目标和信念,支持涌现式集体意图适应。

SocioVerse(arXiv 2504.10157):社会模拟世界模型,1000 万真实用户池,验证政治/新闻/经济三个领域。

9.9 自主导航世界模型

室内、空中、腿式机器人导航是世界模型从游戏/驾驶向通用具身 AI 扩展的关键前沿。

室内导航:

系统arXiv核心方法亮点
DreamerNav(2025-06)扩展 DreamerV3 + 多模态空间感知动态室内环境中的自主导航,已同行评审(PMC)
ReasonNav(2025-09)2509.21189VLM 解读标牌+人群信息辅助大型建筑寻路室内配送场景;理解社会语义线索
IROS 双进程(2026-01)2601.21506快反射 + 慢深思双路径;VLM 在延迟约束下运行启发自双进程理论;实时速度约束下的语言推理
NaVILA(2024-12)2412.04453VLA 模型专用于腿式机器人导航自然语言指令 + 避障 + 地形穿越 + 爬楼梯

空中(UAV)导航:

  • FM-Planner(arXiv 2505.20783,2025-05):LLM-Vision 规划器系统评测 8 类 LLM/VLM 方案,提供标准化无人机导航基准
  • LogisticsVLN(arXiv 2505.03460,2025-05):低空末端配送 VLN;VLD 数据集含多楼型、CARLA 仿真验证
  • LLM Drone Control(arXiv 2601.15486,2026-01):基于 MCP 标准协议的 LLM-无人机控制接口,支持 Mavlink 协议

腿式机器人地形导航:

  • GrandTour 数据集(arXiv 2602.18164,2026-02):戈壁/沙漠/草地/湿地四类地形;越障/爬坡任务;LiDAR-惯性+视觉-惯性多模态里程计基准
  • Whole-Body MPC(iLQR)(arXiv 2503.04613,2026-03):MuJoCo 动力学 + iLQR 算法;四足+人形双平台;最小仿真参数调整即可 sim-to-real 迁移

关键趋势:VLM/LLM 正成为导航规划的高层语义层,世界模型负责底层动态预测;双系统(感知推理+世界预测)架构在室内、UAV、腿式三个领域同步收敛。

9.10 预训练策略与数据工程

基础世界模型的训练质量高度依赖数据配方和 tokenization 质量:

视频 Tokenization(2025-2026):

框架来源核心创新
LARP(2025)OpenReview用可学习查询做全局语义 tokenization;比 patch 级 token 捕获更多高层信息;专为自回归生成设计
VTP(2025-12)联合优化:图文对比 + 自监督 + 重建三损失;关键发现:像素精度 ≠ 生成质量,高层语义才是性能瓶颈
Emu3/Next-Token WM(Nature 2026-01)BAAI仅用下一 token 预测训练多模态模型;对标任务特定 SOTA;支持视觉-语言-动作联合建模

数据配方与混合策略:

  • Dreamer 4 配方:50% 均匀序列(动力学损失)+ 50% 相关任务序列(BC 损失);避免乐观生成伪影
  • AdaWorld 语料(arXiv 2503.18938):自动生成跨数千环境——自我视角/第三人称视角/虚拟游戏/真实活动全覆盖
  • WorldPrediction / POSMDP(arXiv 2506.04363):以部分可观测半马尔可夫决策过程(POSMDP)为数学基础的数据集设计框架;捕获部分可观测性 + 语义/时间抽象

关键洞察:数据多样性(本体数量)比数据量(轨迹条数)对跨本体泛化的贡献更大(OXE 发现)。


十、前沿争议

确信度:✅ 社区共识 | ⚠️ 有争议 | ❓ 推测

10.1 JEPA vs LLM Token Prediction

LeCun 立场(2025-10 公开,AMI Labs 2026-03 创立):

  • LLM 预测 Token(文字),JEPA 预测抽象状态变化
  • LLM 只处理语言 Token,JEPA 原生多模态
  • 预言「LLM 5 年内无用」;离 Meta 创 AMI Labs,35 亿

反驳与现实(⚠️ 争议):

  • 多数研究者认为「LLM + 世界模型」混合是更可能的未来
  • V-JEPA 2 本身通过与 LLM 对齐获得语言推理能力,两路线并非互斥
  • BAAI Emu3.5 的「Next-State Prediction」与 JEPA 哲学相似,但实现上仍是 Transformer Token

关键实证:V-JEPA 2-AC 的 16s/action vs Cosmos 4min——在数据效率和推理速度上 JEPA 路线领先。

10.2 Gen2Real Gap(⚠️)

生成式世界模型面临比传统 sim-to-real 更深的问题:

「生成式世界模型基于训练数据的统计相关预测 Token,而非真正理解物理规律」

具体表现:

  • 物理幻觉:训练分布外出现违反物理规律的生成(物体穿透、重力异常)
  • 灾难性外推:超出训练域时可能完全崩溃
  • 力控缺失:视频数据不含力/接触/摩擦信息,难以直接指导机器人力控
  • Gen2Real 差距:即便视觉逼真,物理精度仍不足以直接部署

生成式方阵(NVIDIA/Google)的应对:物理标注数据 + 物理损失 + RL 后训练(Cosmos Predict2.5 引入 RL 后训练即是回应)。

10.3 神经游戏引擎 vs 传统引擎(⚠️)

神经游戏引擎(Genie 3/GameNGen)能生成逼真可交互环境,但:

  • 开发者无法精确控制游戏规则和机制
  • 内容一致性上限(数分钟)远低于传统引擎
  • 计算成本仍高(实时 720p 需高端 GPU)

传统引擎仍在精确性和可编程性上具有不可替代优势;短期更可能是「传统引擎 + 神经渲染增强」的混合方案。


十一、研究缺口与开放问题

  1. 统一评测基准 ✅ 6+ 个独立 benchmark 各自聚焦,跨系统比较困难;RBench 发现最优模型仅 0.607,说明性能缺口真实存在。

  2. 物理一致性度量 ✅ 当前评测以像素指标(FID/FVD)为主;WorldBench 尝试物理概念测试,WorldArena 加入物理一致性维度,但覆盖范围有限,缺乏力控、接触力学等关键物理量的评测。

  3. 长时序稳定性 ✅ 当前 SOTA 约 1 分钟连贯(Genie 3 / LingBot-World),「遗忘」和「漂移」是系统性问题;三机制记忆框架是方向,尚未有成熟解决方案。

  4. 感知-预测-决策稳定闭环 ⚠️ V-JEPA 2-AC 是最接近闭环的系统,但相机敏感、长时规划脆弱、目标指定受限。真正稳定的商业闭环系统尚未出现。

  5. 真实物理理解 vs 统计相关 ⚠️ 核心工程瓶颈:Scaling + RL 是否足够,还是需要引入显式物理先验(神经-符号混合)。Cosmos Predict2.5 引入 RL 后训练是当前主流应对,最终效果争议未决。

  6. 机器人数据瓶颈 ✅ 高质量物理交互数据极度稀缺;世界模型作为「数据引擎」(GigaWorld-0 路线)是当前最有希望的应对——但零真实机器人数据训练的 VLA 能否泛化到复杂操作仍存疑。

  7. 边缘部署效率 ❓ 高保真生成需要企业级 GPU;Cosmos Reason 2 开始支持 Jetson 边缘部署,V-JEPA 2-AC 的 16s/action 仍不够实时。机器人端侧实时推理路径尚不清晰。WM 量化(arXiv 2602.02110)发现 latent rollout 的量化敏感性高于普通 LLM,需专用压缩策略。

  8. 跨本体泛化的数据效率瓶颈 ⚠️ LAC-WM 和 Scaling CWM 验证了跨本体迁移的可行性,但异构机器人数据联合训练的收益/成本分析尚无系统研究;「人类视频 → 机器人零样本」(DexWM)在复杂接触任务上的泛化边界尚不清楚。


十二、结论与判断

技术现状

格局清晰,两大路线各有生态:

  • 生成式路线:NVIDIA/Google/Wayve 领衔,商业化步伐快,应用于合成数据生成/驾驶仿真/Agent 评测
  • 预测式路线:Meta/DeepMind 领衔,数据效率高,适合实时机器人规划

2025 年五大里程碑(✅ 确信):

  1. Genie 3:首个实时可交互世界模型(视觉侧)
  2. V-JEPA 2-AC:62 小时数据 → 可用机器人规划(数据效率侧)
  3. Cosmos Predict2.5:RL 后训练 + 200M 视频(工业化侧)
  4. GAIA-3(15B):合成测试与真实驾驶结果相关性验证(AV 商业化侧)
  5. Emu3.5 + HunyuanWorld:中国技术参与深度提升,开源模型可用(生态侧)

短中长期判断

时间预期进展主要不确定性
2026LWM(Large World Models)作为独立研究方向成型;DIAMOND 类游戏世界模型达到无法区分真实游戏品质;特斯拉 FSD+Optimus 统一世界模型首个量产系统;ICLR 2026 确认 WM 专属轨道新架构突破还是工程化纯 scaling
2026–2027统一 benchmark 初步标准化;数据飞轮(GigaWorld 路线)加速具身落地;Cosmos Jetson 推动边缘部署;小鹏人形机器人世界模型量产(2026 年底)Gen2Real Gap 能否被 RL 后训练 + 物理标注缩短
3–5 年感知-预测-决策稳定闭环第一个商业系统出现;JEPA vs Transformer 在机器人上的实验性定论;神经-符号混合是否成为主流;医疗/气候 WM 进入产业部署LLM + 世界模型 vs 纯 JEPA 路线的架构之争
5 年+世界模型成为通用 AI Agent 核心认知模块,类比 LLM 对语言理解的作用 ❓AGI 路线整体方向高度不确定

行业共识(2026-03):2026 年是从 LLM 时代向 LWM(Large World Model)时代的过渡元年。核心驱动力从「Scaling」转向「新架构 + 多模态接地 + 物理约束」。


关键性能数字汇总(截至 2026-03)

机器人操控与策略

系统任务数字来源
V-JEPA 2-ACFranka 抓取(零样本)65% 成功率,16s/actionarXiv 2506.09985
Visuo-Tactile WM接触丰富任务 / 物体永久性+35% / +33% vs 纯视觉arXiv 2602.06001
LingBot-VALIBERO 长时 / RoboTwin 双臂98.5% / >90%arXiv 2601.21998
MotusRoboTwin 2.087.02%(+45% vs π₀.₅)thu-ml/Motus
DexWM灵巧操作 vs Diffusion Policy+50%arXiv 2512.13644
PIDMLIBERO-LONG / CALVIN / 真实机器人+13% / +21% / +43%arXiv 2412.15109
VPPCALVIN ABC-D / 灵巧操作+18.6% / +31.6%arXiv 2412.14803
LAC-WM未见本体迁移+46.7%OpenReview
OXE-AugE泛化到未见本体+24–45%arXiv 2512.13100
WAPEB-ALFRED 成功率提升+60.7 绝对值arXiv 2506.21230
GEN-0训练数据规模27 万小时(+1 万/周)Generalist AI

RL 与多任务

系统任务数字来源
TD-MPC2104 连续控制任务SOTA,317M 参数,80 任务
MoWAtari 26 游戏110.4% 人类归一化arXiv 2602.01270
DIAMONDAtari 100k1.46 human-normalizedarXiv 2405.12399
Dreamer 4Minecraft 数据效率100× 少标注arXiv 2509.24527
Hierarchical RL WM层级任务(100K ep.)0.5–0.7(基线 1M 次失败)arXiv 2512.20605
DreamDojo实时遥操作10.81 FPSarXiv 2602.06949

自动驾驶与仿真

系统任务数字来源
GAIA-3合成测试拒绝率↓5× vs GAIA-2Wayve Blog
World4DrivenuScenes 碰撞率↓83%ICCV 2025
Tesla World Simulator仿真效率1 天 = 500 年驾驶Tesla AI Blog

游戏引擎

系统任务数字来源
GameNGenPSNR + fps(单 TPU)29.4 / 20fpsarXiv 2408.14837
Scalable Game Engine分辨率 + fps720×480 @ 48fps,吞吐 ↑50×arXiv 2602.00608

科学/医疗/GUI

系统任务数字来源
Medical WMTACE 方案 F1+13%arXiv 2506.02327
WebWorldWebArena(Qwen3-14B)+9.2%arXiv 2602.14721

基础设施与评测

系统任务数字来源
RBench 最优机器人视频生成综合0.607(Wan 2.6)arXiv 2601.15282
LingBot-WorldVBench 动态度0.8857arXiv 2601.20540
Emu3.5DiDA 推理加速20×BAAI
WM INT4 量化模型压缩 + 速度75% + 2.4×arXiv 2602.02110
Cosmos NeMo Curator20M 小时视频2 周完成NVIDIA Blog
NVIDIA Cosmos下载量200 万次NVIDIA Blog
WorldModelBench评测规模14 模型,67K 人工标注arXiv 2502.20694

附录:参考文献

综述论文:

核心系统:

自动驾驶专项:

游戏世界模型:

记忆与长程:

多模态世界模型:

医疗/科学:

评测基准:

新兴方向:

规划算法:

人形机器人世界模型:

扩散策略与世界模型集成:

逆动力学与无动作标注世界模型:

多任务世界模型:

可解释性与潜空间分析:

灵巧操控与跨本体:

自主导航与具身导航:

预训练策略与数据工程:

学术社区活动:

GUI/Web Agent:

算力与压缩:

中国开源:

产业与中国格局:


相关笔记