VLA(Vision-Language-Action)是将视觉、语言和机器人动作统一在一个模型中的多模态基础模型。给定相机图像和自然语言指令(如”拿起红色杯子”),模型直接输出机器人可执行的低级动作(末端位姿增量、关节角度、夹爪开合等)。
核心架构
图像 → 视觉编码器(ViT/SigLIP)
→ 融合/交叉注意力 → 动作解码器 → 动作序列
语言指令 → LLM 骨干(Llama/Gemma)
动作输出方式分两大流派:
- 离散 token:将动作离散化为 token,用 LLM 自回归生成(RT-2、OpenVLA)
- 连续扩散/Flow Matching:用扩散模型或 flow matching 生成连续动作轨迹(π0、RDT-1B),更适合灵巧操作
代表模型(截至 2026)
| 模型 | 机构 | 参数量 | 动作输出 | 特点 |
|---|---|---|---|---|
| RT-2 | 55B | 离散 token | 首个大规模 VLA | |
| OpenVLA | 开源 | 7B | 离散 token | 开源 RT-2 等价 |
| π0 | Physical Intelligence | ~3.3B | Flow matching | 3B VLM + 300M 扩散专家,50Hz,高灵巧 |
| π0.5 | Physical Intelligence | ~3.3B | Flow matching | 开放世界泛化 |
| RDT-1B | 清华 | 1.2B | 扩散 | 最大扩散基础模型,双臂 |
| Gemini Robotics | Google DeepMind | 未公开 | 混合 | 折纸、做沙拉,50-100 演示适配 |
| GR00T N1 | NVIDIA | 未公开 | 双系统 | 系统 1(扩散 10ms)+ 系统 2(LLM 规划) |
| SmolVLA | Hugging Face | 450M | Flow matching | 轻量开源 |
与 VLM 的关系
VLA 在 VLM(视觉-语言模型)基础上增加了动作输出头。VLM 是”看+理解”,VLA 是”看+理解+动”。多数 VLA 的训练路径是:先用 VLM 预训练获得视觉-语言对齐能力,再用机器人轨迹数据微调出动作输出。
当前局限(截至 2026-03)
- 力控缺失:标准 VLA 输出位置轨迹(XYZ+旋转+夹爪 0/1),无力/力矩量级。抓鸡蛋等接触密集任务不可靠
- 开环动作块:一次预测 16-64 步未来动作,中间无力反馈修正
- 频率失配:VLM 推理 1-5Hz,精细力控需 100Hz+
- 训练数据缺力:主流数据集(Open X-Embodiment 等)不含力/力矩记录
力控相关前沿(2025-2026)
正在涌现一批将力/触觉信息融入 VLA 的工作:
- ForceVLA(NeurIPS 2025):6 轴力/力矩作为一等模态
- Tactile-VLA(2025):视觉+语言+触觉融合,少样本力控泛化
- TaF-VLA(2026-01):轻量触觉适配器
- TA-VLA(CoRL 2025):关节力矩反馈,零额外硬件
- FAVLA(2026-02):快慢双系统解决频率失配
国内代表
| 公司/团队 | VLA 模型 | 特点 |
|---|---|---|
| 智元机器人 AgiBot | GO-1(ViLLA) | VLM+MoE,百万级轨迹数据 |
| 穹彻智能 | Brain 2.0 | ”力”为核心的具身智能路线 |
| 银河通用 | GraspVLA | 十亿级合成抓取数据预训练 |
| 星动纪元 | StarVLA | 清华孵化,全栈人形 |
| 清华 | RDT-1B | 最大扩散基础模型,开源 |