ACT 这个缩写在机器学习/机器人里常指两种不同的“算法/模型”。结合你前面在聊操控与数采,我把两种都简要说明,并给出核心公式,方便你判断你要的是哪一个。
一) 自适应计算时间(Adaptive Computation Time,RNN/Transformer 的可变步推理)
- 核心思想:对每个输入,模型可以动态“多算几步”或“少算几步”,用一个“停机概率”来决定何时停止,从而在简单样本上省算力、在难样本上多推理。
- 关键机制
- 在同一时刻对同一输入做微步迭代 n=1,2,…,每步产生隐状态 h_n 和一个停机概率
- 累积停机概率并在达到阈值时停止:
- 用权重对各微步的输出做加权汇总(最后一步用余量 R_N):
- 训练时给一个“思考代价”惩罚,鼓励少步完成:
- 用途:最早用于 RNN;在视觉/Transformer 中也有类似“早停/可变深度”的变体。
二) 动作分块 Transformer(Action Chunking with Transformers,机器人模仿学习)
- 核心思想:不是一步只预测“下一帧动作”,而是一次预测未来 H 步的“动作块/chunk”,以降低闭环时延、提高动作平滑性,特别适合双臂/接触等高频控制任务。
- 统一表述
- 给定最近观测窗口和可选目标条件,模型输出长度为 H 的低层动作序列:
- 常见动作定义(与 UMI 接口对齐):末端自身坐标系的位姿增量 ΔT_{ee} 或 body-frame twist,加上夹爪开合 g。
- 行为克隆训练目标(回归式示例): 也可用概率建模(高斯/扩散)做极大似然。
- 在线执行多采用“滚动重计划”:每 Δt 前向一次,采用新预测覆盖后续窗口,兼顾低时延与反馈纠偏。
- 优点与取舍
- 优点:降低感知—决策—执行链路的等效时延;动作更平滑稳定;对双臂/接触任务鲁棒。
- 取舍:H 太大易积累偏差,H 太小减不下时延;通常配合高频重计划与安全限幅/IK 优化。
如何选择
- 若你在看操控/UMI/ALOHA 等机器人模仿学习语境,“ACT”多半指“动作分块 Transformer”这一类方法。
- 若你在读序列模型/可变计算量的基础模型,“ACT”多半是“自适应计算时间”。
你更关心哪一个 ACT?我可以针对那个版本展开更细的结构、训练细节与落地实现(含损失、掩码、推理节拍、与扩散策略的对比等)。