VPP 是一种生成式机器人大模型范式,强调通过视频/视觉预测来进行规划与控制,核心理念是”所见即能做”:模型生成的未来视觉结果与真实机器人执行效果高度一致,从而用生成的视觉想象来驱动策略。

技术路线

与传统 VLA(Vision-Language-Action)路线通过微调 VLM 直接输出动作不同,VPP 走的是”生成式”路径。模型首先在大量视频数据上学习物理世界的视觉动态规律,然后在给定任务指令和当前观测后,生成未来执行过程的视频预测,最后由 Action Decoder 将视觉规划转化为具体的机器人动作序列。这种两阶段设计将”规划”和”执行”解耦,使模型可以利用海量互联网视频进行预训练,而非依赖昂贵的机器人遥操作数据。

优势与局限

VPP 的主要优势在于:数据效率高(可利用大量无标注视频数据),泛化能力强(视觉预测不绑定特定机器人形态),且视觉规划过程天然可解释(可以直观看到模型”想象”的执行效果)。不过,这条路线也面临视频生成计算开销大、生成画面的物理一致性难以保证、以及从视觉预测到精确动作的转换存在误差等挑战。

研究背景

在清华大学与星动纪元等团队的工作中,VPP 被视为与 VLA 路线并行的重要技术方向,目标是降低对真实机器人拍摄与标注数据的依赖,提升模型在未见场景下的泛化能力。这一范式的兴起与 扩散模型 在视频生成领域的突破密切相关。