VLA 动作解码：自回归 vs 扩散

概述

VLA 的核心架构分为”理解”（VLM 视觉-语言编码）和”执行”（动作解码器）两部分。动作解码器有两大流派：自回归 token 生成和扩散模型/Flow Matching。2025-2026 扩散派成为主流。

VLA 架构中的位置

图像 → 视觉编码器（ViT/SigLIP）─┐
                                 ├→ 融合 → 【动作解码器】→ 动作序列
语言指令 → LLM 骨干（Llama/Gemma）┘

扩散模型是【动作解码器】的一种实现，不是与 VLA 并列的概念。类比：Transformer 之于 LLM。

两大流派对比

维度	自回归 token	扩散/Flow Matching
原理	动作离散化为 token，像生成文字一样逐个生成	从噪声出发，逐步去噪生成连续动作轨迹
输出	离散动作	连续动作 chunk（16-64 步）
代表	RT-2, OpenVLA	π0, RDT-1B, Octo
精度	离散化丢精度	连续输出保留精度
效率	逐 token 生成，串行	一次生成多步，并行
分布建模	容易 mode collapse	天然擅长多模态分布（同一指令多种合理抓取方式）
主流趋势	2023-2024	2025-2026 主流

为什么扩散派胜出

连续输出：关节角度是连续值，离散化（如 256 bin）会丢精度，灵巧操作（如穿针、折纸）差异明显
Action chunk：一次生成 16-64 步未来动作，比逐 token 更高效，减少推理次数
多模态分布：同一个”拿杯子”指令，从左抓和从右抓都是合理的。扩散模型可以同时建模这些峰，自回归倾向于只输出一种
与 VLM 解耦：扩散解码器可以独立于 VLM 运行在高频（50-100Hz），而 VLM 只需低频提供条件向量

π0 架构示例

π0（Physical Intelligence）是扩散派 VLA 的代表：

PaLiGemma（3B VLM）→ 视觉-语言条件向量
                          ↓
        Flow Matching 扩散专家（300M）→ 50Hz 连续动作轨迹

VLM 负责”理解要做什么”（低频），扩散模型负责”生成怎么做的轨迹”（高频）。两者参数量和推理频率解耦。

关键要点

扩散模型是 VLA 动作解码器的一种实现，不是独立于 VLA 的方案
2025-2026 扩散/Flow Matching 已成为 VLA 动作输出的主流选择
核心优势：连续精度、action chunk 效率、多模态分布建模
VLM（理解）和扩散解码器（执行）可以在不同频率运行，这对力控很重要——VLM 1-5Hz 做语义决策，扩散解码器 50Hz+ 做运动生成

相关笔记

VLA — VLA 术语卡片
扩散模型 — 扩散模型术语卡片
Diffusion Policy — 扩散策略
Pi0, Pi0.5 — π0 系列模型
遥操作力控展示方案 — 展会方案中 VLA 与力控的结合讨论