VPP

VPP 是一种生成式机器人大模型范式，强调通过视频/视觉预测来进行规划与控制，核心理念是”所见即能做”：模型生成的未来视觉结果与真实机器人执行效果高度一致，从而用生成的视觉想象来驱动策略。

技术路线

与传统 VLA（Vision-Language-Action）路线通过微调 VLM 直接输出动作不同，VPP 走的是”生成式”路径。模型首先在大量视频数据上学习物理世界的视觉动态规律，然后在给定任务指令和当前观测后，生成未来执行过程的视频预测，最后由 Action Decoder 将视觉规划转化为具体的机器人动作序列。这种两阶段设计将”规划”和”执行”解耦，使模型可以利用海量互联网视频进行预训练，而非依赖昂贵的机器人遥操作数据。

优势与局限

VPP 的主要优势在于：数据效率高（可利用大量无标注视频数据），泛化能力强（视觉预测不绑定特定机器人形态），且视觉规划过程天然可解释（可以直观看到模型”想象”的执行效果）。不过，这条路线也面临视频生成计算开销大、生成画面的物理一致性难以保证、以及从视觉预测到精确动作的转换存在误差等挑战。

研究背景

在清华大学与星动纪元等团队的工作中，VPP 被视为与 VLA 路线并行的重要技术方向，目标是降低对真实机器人拍摄与标注数据的依赖，提升模型在未见场景下的泛化能力。这一范式的兴起与扩散模型在视频生成领域的突破密切相关。

Sean's Blog

Explorer

VPP

技术路线

优势与局限

研究背景

目录

Graph View

反向链接