VLA

VLA（Vision-Language-Action）是将视觉、语言和机器人动作统一在一个模型中的多模态基础模型。给定相机图像和自然语言指令（如”拿起红色杯子”），模型直接输出机器人可执行的低级动作（末端位姿增量、关节角度、夹爪开合等）。

核心架构

图像 → 视觉编码器（ViT/SigLIP）
                                → 融合/交叉注意力 → 动作解码器 → 动作序列
语言指令 → LLM 骨干（Llama/Gemma）

动作输出方式分两大流派：

离散 token：将动作离散化为 token，用 LLM 自回归生成（RT-2、OpenVLA）
连续扩散/Flow Matching：用扩散模型或 flow matching 生成连续动作轨迹（π0、RDT-1B），更适合灵巧操作

代表模型（截至 2026）

模型	机构	参数量	动作输出	特点
RT-2	Google	55B	离散 token	首个大规模 VLA
OpenVLA	开源	7B	离散 token	开源 RT-2 等价
π0	Physical Intelligence	~3.3B	Flow matching	3B VLM + 300M 扩散专家，50Hz，高灵巧
π0.5	Physical Intelligence	~3.3B	Flow matching	开放世界泛化
RDT-1B	清华	1.2B	扩散	最大扩散基础模型，双臂
Gemini Robotics	Google DeepMind	未公开	混合	折纸、做沙拉，50-100 演示适配
GR00T N1	NVIDIA	未公开	双系统	系统 1（扩散 10ms）+ 系统 2（LLM 规划）
SmolVLA	Hugging Face	450M	Flow matching	轻量开源

与 VLM 的关系

VLA 在 VLM（视觉-语言模型）基础上增加了动作输出头。VLM 是”看+理解”，VLA 是”看+理解+动”。多数 VLA 的训练路径是：先用 VLM 预训练获得视觉-语言对齐能力，再用机器人轨迹数据微调出动作输出。

当前局限（截至 2026-03）

力控缺失：标准 VLA 输出位置轨迹（XYZ+旋转+夹爪 0/1），无力/力矩量级。抓鸡蛋等接触密集任务不可靠
开环动作块：一次预测 16-64 步未来动作，中间无力反馈修正
频率失配：VLM 推理 1-5Hz，精细力控需 100Hz+
训练数据缺力：主流数据集（Open X-Embodiment 等）不含力/力矩记录

力控相关前沿（2025-2026）

正在涌现一批将力/触觉信息融入 VLA 的工作：

ForceVLA（NeurIPS 2025）：6 轴力/力矩作为一等模态
Tactile-VLA（2025）：视觉+语言+触觉融合，少样本力控泛化
TaF-VLA（2026-01）：轻量触觉适配器
TA-VLA（CoRL 2025）：关节力矩反馈，零额外硬件
FAVLA（2026-02）：快慢双系统解决频率失配

国内代表

公司/团队	VLA 模型	特点
智元机器人 AgiBot	GO-1（ViLLA）	VLM+MoE，百万级轨迹数据
穹彻智能	Brain 2.0	”力”为核心的具身智能路线
银河通用	GraspVLA	十亿级合成抓取数据预训练
星动纪元	StarVLA	清华孵化，全栈人形
清华	RDT-1B	最大扩散基础模型，开源

相关术语

VLM — VLA 的”底座”，负责视觉-语言对齐
扩散模型 — VLA 常用的动作解码方式
MPC — 传统运动规划方法，VLA 的对比路线