VLA 动作解码:自回归 vs 扩散

概述

VLA 的核心架构分为”理解”(VLM 视觉-语言编码)和”执行”(动作解码器)两部分。动作解码器有两大流派:自回归 token 生成和扩散模型/Flow Matching。2025-2026 扩散派成为主流。

VLA 架构中的位置

图像 → 视觉编码器(ViT/SigLIP)─┐
                                 ├→ 融合 → 【动作解码器】→ 动作序列
语言指令 → LLM 骨干(Llama/Gemma)┘

扩散模型是【动作解码器】的一种实现,不是与 VLA 并列的概念。类比:Transformer 之于 LLM。

两大流派对比

维度自回归 token扩散/Flow Matching
原理动作离散化为 token,像生成文字一样逐个生成从噪声出发,逐步去噪生成连续动作轨迹
输出离散动作连续动作 chunk(16-64 步)
代表RT-2, OpenVLAπ0, RDT-1B, Octo
精度离散化丢精度连续输出保留精度
效率逐 token 生成,串行一次生成多步,并行
分布建模容易 mode collapse天然擅长多模态分布(同一指令多种合理抓取方式)
主流趋势2023-20242025-2026 主流

为什么扩散派胜出

  1. 连续输出:关节角度是连续值,离散化(如 256 bin)会丢精度,灵巧操作(如穿针、折纸)差异明显
  2. Action chunk:一次生成 16-64 步未来动作,比逐 token 更高效,减少推理次数
  3. 多模态分布:同一个”拿杯子”指令,从左抓和从右抓都是合理的。扩散模型可以同时建模这些峰,自回归倾向于只输出一种
  4. 与 VLM 解耦:扩散解码器可以独立于 VLM 运行在高频(50-100Hz),而 VLM 只需低频提供条件向量

π0 架构示例

π0(Physical Intelligence)是扩散派 VLA 的代表:

PaLiGemma(3B VLM)→ 视觉-语言条件向量
                          ↓
        Flow Matching 扩散专家(300M)→ 50Hz 连续动作轨迹

VLM 负责”理解要做什么”(低频),扩散模型负责”生成怎么做的轨迹”(高频)。两者参数量和推理频率解耦。

关键要点

  • 扩散模型是 VLA 动作解码器的一种实现,不是独立于 VLA 的方案
  • 2025-2026 扩散/Flow Matching 已成为 VLA 动作输出的主流选择
  • 核心优势:连续精度、action chunk 效率、多模态分布建模
  • VLM(理解)和扩散解码器(执行)可以在不同频率运行,这对力控很重要——VLM 1-5Hz 做语义决策,扩散解码器 50Hz+ 做运动生成

相关笔记