Sean's Blog

❯

1D 人工智能知识库

❯

❯

❯

世界模型

2026年3月20日5分钟阅读

card/term

“世界模型”（World Model）通常指智能体在脑中或参数中学到的、用于预测环境如何随时间演化并据此做出决策的内部表征与机制。直观上，它像一个“心智模拟器”：给定当前情境与可能的动作，想象未来会发生什么，从而支持规划、推理与学习。

核心要素

状态表征：对环境关键信息的压缩表示，常为潜在变量（latent state）。
动态/转移：描述状态在动作作用下如何变化的函数（预测下一步或多步）。
观测模型：从潜在状态生成可观测数据（图像、文本、传感器读数等）。
奖励/成本：定义任务目标，用于评估或优化策略。
不确定性与因果：对噪声、未知与因果结构的建模，支持反事实推理与稳健性。

它能做什么

预测与想象：在“脑中”做滚动模拟（rollout），无需真实试错。
规划与控制：基于模型做搜索或 MPC（模型预测控制），挑选最优动作序列。
学习提效：用想象的数据训练策略（Dyna-style、Dreamer 等），显著减少真实交互数据需求。
反事实与泛化：问“如果…”并迁移到新任务或新环境。

主要类型

显式符号/因果模型：规则、图结构、结构方程模型。
神经/潜变量模型：VAE、RNN/Transformer、RSSM、扩散模型等学到的隐式世界动力学。
混合式：神经表征 + 可解释的因果/物理先验。
确定性 vs. 概率式；短视野局部模型 vs. 长时程全局模型。

应用场景

强化学习与机器人：基于模型的 RL（如 MuZero、Dreamer 系列）、MPC、样本高效控制。
生成建模与视频预测：通过学习时空动力学生成连贯视频或多模态序列。
语言与认知：LLM 在统计上内化世界规律，被称为“隐式世界模型”；结合工具与环境交互可增强“落地性”（grounding）。
神经科学与控制：前馈/逆向内部模型、预测编码、身体图式。

优势与挑战

优势：样本效率高、可规划、可安全测试、支持反事实与解释。
挑战：模型偏差与误差累积、分布偏移、表示学习难、长期信用分配与因果泛化。
常见缓解：不确定性与集成、短地平线 MPC、价值感知的模型学习、主动探索、约束与物理先验、因果发现。

典型构建流程（面向 RL/控制）

收集交互轨迹；2) 学习潜在状态与动态（序列模型/Transformer/RSSM）；3) 学观测解码与奖励/成本；4) 以预测损失和下游任务目标联合训练；5) 用模型做规划（MPC、树搜索）或在想象中训练策略/价值（Dreamer 式“想象学习”）；6) 持续修正模型以降低偏差。

评价方式

预测质量：似然/误差、多步滚动稳定性与校准。
控制表现：任务回报、样本效率、鲁棒性/泛化与反事实一致性。
可解释性与安全性：对关键因果因素和不确定性的把握。

一句话总结世界模型是让智能体“在脑中先试一遍”的内部模拟器：用来预测、计划与学习，从而以更少的真实试错完成更复杂、更安全、更高效的决策与生成。

目录

核心要素
它能做什么
主要类型
应用场景
优势与挑战
典型构建流程（面向 RL/控制）
评价方式

Graph View

反向链接

1D 人工智能知识库
预训练与后训练及世界模型数据的训练用途
世界模型技术调研
具身智能

Created with Quartz © 2026

GitHub
Email
RSS