VLA 动作解码:自回归 vs 扩散
概述
VLA 的核心架构分为”理解”(VLM 视觉-语言编码)和”执行”(动作解码器)两部分。动作解码器有两大流派:自回归 token 生成和扩散模型/Flow Matching。2025-2026 扩散派成为主流。
VLA 架构中的位置
图像 → 视觉编码器(ViT/SigLIP)─┐
├→ 融合 → 【动作解码器】→ 动作序列
语言指令 → LLM 骨干(Llama/Gemma)┘
扩散模型是【动作解码器】的一种实现,不是与 VLA 并列的概念。类比:Transformer 之于 LLM。
两大流派对比
| 维度 | 自回归 token | 扩散/Flow Matching |
|---|---|---|
| 原理 | 动作离散化为 token,像生成文字一样逐个生成 | 从噪声出发,逐步去噪生成连续动作轨迹 |
| 输出 | 离散动作 | 连续动作 chunk(16-64 步) |
| 代表 | RT-2, OpenVLA | π0, RDT-1B, Octo |
| 精度 | 离散化丢精度 | 连续输出保留精度 |
| 效率 | 逐 token 生成,串行 | 一次生成多步,并行 |
| 分布建模 | 容易 mode collapse | 天然擅长多模态分布(同一指令多种合理抓取方式) |
| 主流趋势 | 2023-2024 | 2025-2026 主流 |
为什么扩散派胜出
- 连续输出:关节角度是连续值,离散化(如 256 bin)会丢精度,灵巧操作(如穿针、折纸)差异明显
- Action chunk:一次生成 16-64 步未来动作,比逐 token 更高效,减少推理次数
- 多模态分布:同一个”拿杯子”指令,从左抓和从右抓都是合理的。扩散模型可以同时建模这些峰,自回归倾向于只输出一种
- 与 VLM 解耦:扩散解码器可以独立于 VLM 运行在高频(50-100Hz),而 VLM 只需低频提供条件向量
π0 架构示例
π0(Physical Intelligence)是扩散派 VLA 的代表:
PaLiGemma(3B VLM)→ 视觉-语言条件向量
↓
Flow Matching 扩散专家(300M)→ 50Hz 连续动作轨迹
VLM 负责”理解要做什么”(低频),扩散模型负责”生成怎么做的轨迹”(高频)。两者参数量和推理频率解耦。
关键要点
- 扩散模型是 VLA 动作解码器的一种实现,不是独立于 VLA 的方案
- 2025-2026 扩散/Flow Matching 已成为 VLA 动作输出的主流选择
- 核心优势:连续精度、action chunk 效率、多模态分布建模
- VLM(理解)和扩散解码器(执行)可以在不同频率运行,这对力控很重要——VLM 1-5Hz 做语义决策,扩散解码器 50Hz+ 做运动生成
相关笔记
- VLA — VLA 术语卡片
- 扩散模型 — 扩散模型术语卡片
- Diffusion Policy — 扩散策略
- Pi0, Pi0.5 — π0 系列模型
- 遥操作力控展示方案 — 展会方案中 VLA 与力控的结合讨论