Action Decoder

Action Decoder 是具身智能系统中将潜在表示（如视觉特征、语言指令编码等）解码为机器人可执行动作序列的模块，是 VLA 和 VPP 等端到端策略架构中不可或缺的组成部分。

作用与位置

在典型的具身智能管线中，感知模块（如视觉编码器、语言编码器）负责将原始观测压缩为高维特征向量，而 Action Decoder 则负责最后一步：将这些特征转化为关节角度、末端位姿增量、夹爪开合等机器人可直接执行的低层动作。它的设计直接影响动作的精度、平滑度和多模态性（即是否能表达多种合理动作）。

常见实现方式

Action Decoder 的实现主要有两大流派。自回归式（Autoregressive）逐步预测每一维或每一步动作，类似语言模型逐词生成，优点是简单直接，但串行推理速度受限。扩散式（Diffusion Policy）则将动作生成建模为去噪过程，从随机噪声出发逐步细化为动作序列，天然支持多模态动作分布的表达，在接触丰富的操作任务中表现突出。此外还有 MLP 回归、流匹配（Flow Matching）等方案，各有精度和速度上的取舍。

设计考量

Action Decoder 的设计需要平衡多个因素：动作空间的维度与类型（关节空间 vs 笛卡尔空间）、预测的时间跨度（单步 vs 动作块 chunk）、与感知特征的融合方式（交叉注意力 vs 拼接后全连接）、以及推理延迟要求。在 ACT、Pi0, Pi0.5 等最新工作中，Action Decoder 往往采用动作分块（action chunking）策略，一次解码未来若干步的动作序列并滚动执行，以兼顾反应速度和执行平滑性。

Sean's Blog

Explorer

Action Decoder

作用与位置

常见实现方式

设计考量

目录

Graph View

反向链接