Action Decoder 是具身智能系统中将潜在表示(如视觉特征、语言指令编码等)解码为机器人可执行动作序列的模块,是 VLA 和 VPP 等端到端策略架构中不可或缺的组成部分。
作用与位置
在典型的具身智能管线中,感知模块(如 视觉编码器、语言编码器)负责将原始观测压缩为高维特征向量,而 Action Decoder 则负责最后一步:将这些特征转化为关节角度、末端位姿增量、夹爪开合等机器人可直接执行的低层动作。它的设计直接影响动作的精度、平滑度和多模态性(即是否能表达多种合理动作)。
常见实现方式
Action Decoder 的实现主要有两大流派。自回归式(Autoregressive)逐步预测每一维或每一步动作,类似语言模型逐词生成,优点是简单直接,但串行推理速度受限。扩散式(Diffusion Policy)则将动作生成建模为去噪过程,从随机噪声出发逐步细化为动作序列,天然支持多模态动作分布的表达,在接触丰富的操作任务中表现突出。此外还有 MLP 回归、流匹配(Flow Matching)等方案,各有精度和速度上的取舍。
设计考量
Action Decoder 的设计需要平衡多个因素:动作空间的维度与类型(关节空间 vs 笛卡尔空间)、预测的时间跨度(单步 vs 动作块 chunk)、与感知特征的融合方式(交叉注意力 vs 拼接后全连接)、以及推理延迟要求。在 ACT、Pi0, Pi0.5 等最新工作中,Action Decoder 往往采用动作分块(action chunking)策略,一次解码未来若干步的动作序列并滚动执行,以兼顾反应速度和执行平滑性。