VLA(Vision-Language-Action)是将视觉、语言和机器人动作统一在一个模型中的多模态基础模型。给定相机图像和自然语言指令(如”拿起红色杯子”),模型直接输出机器人可执行的低级动作(末端位姿增量、关节角度、夹爪开合等)。

核心架构

图像 → 视觉编码器(ViT/SigLIP)
                                → 融合/交叉注意力 → 动作解码器 → 动作序列
语言指令 → LLM 骨干(Llama/Gemma)

动作输出方式分两大流派:

  • 离散 token:将动作离散化为 token,用 LLM 自回归生成(RT-2、OpenVLA)
  • 连续扩散/Flow Matching:用扩散模型或 flow matching 生成连续动作轨迹(π0、RDT-1B),更适合灵巧操作

代表模型(截至 2026)

模型机构参数量动作输出特点
RT-2Google55B离散 token首个大规模 VLA
OpenVLA开源7B离散 token开源 RT-2 等价
π0Physical Intelligence~3.3BFlow matching3B VLM + 300M 扩散专家,50Hz,高灵巧
π0.5Physical Intelligence~3.3BFlow matching开放世界泛化
RDT-1B清华1.2B扩散最大扩散基础模型,双臂
Gemini RoboticsGoogle DeepMind未公开混合折纸、做沙拉,50-100 演示适配
GR00T N1NVIDIA未公开双系统系统 1(扩散 10ms)+ 系统 2(LLM 规划)
SmolVLAHugging Face450MFlow matching轻量开源

VLM 的关系

VLA 在 VLM(视觉-语言模型)基础上增加了动作输出头。VLM 是”看+理解”,VLA 是”看+理解+动”。多数 VLA 的训练路径是:先用 VLM 预训练获得视觉-语言对齐能力,再用机器人轨迹数据微调出动作输出。

当前局限(截至 2026-03)

  • 力控缺失:标准 VLA 输出位置轨迹(XYZ+旋转+夹爪 0/1),无力/力矩量级。抓鸡蛋等接触密集任务不可靠
  • 开环动作块:一次预测 16-64 步未来动作,中间无力反馈修正
  • 频率失配:VLM 推理 1-5Hz,精细力控需 100Hz+
  • 训练数据缺力:主流数据集(Open X-Embodiment 等)不含力/力矩记录

力控相关前沿(2025-2026)

正在涌现一批将力/触觉信息融入 VLA 的工作:

  • ForceVLA(NeurIPS 2025):6 轴力/力矩作为一等模态
  • Tactile-VLA(2025):视觉+语言+触觉融合,少样本力控泛化
  • TaF-VLA(2026-01):轻量触觉适配器
  • TA-VLA(CoRL 2025):关节力矩反馈,零额外硬件
  • FAVLA(2026-02):快慢双系统解决频率失配

国内代表

公司/团队VLA 模型特点
智元机器人 AgiBotGO-1(ViLLA)VLM+MoE,百万级轨迹数据
穹彻智能Brain 2.0”力”为核心的具身智能路线
银河通用GraspVLA十亿级合成抓取数据预训练
星动纪元StarVLA清华孵化,全栈人形
清华RDT-1B最大扩散基础模型,开源

相关术语

  • VLM — VLA 的”底座”,负责视觉-语言对齐
  • 扩散模型 — VLA 常用的动作解码方式
  • MPC — 传统运动规划方法,VLA 的对比路线