ACT

ACT 这个缩写在机器学习/机器人里常指两种不同的“算法/模型”。结合你前面在聊操控与数采，我把两种都简要说明，并给出核心公式，方便你判断你要的是哪一个。

一) 自适应计算时间（Adaptive Computation Time，RNN/Transformer 的可变步推理）

核心思想：对每个输入，模型可以动态“多算几步”或“少算几步”，用一个“停机概率”来决定何时停止，从而在简单样本上省算力、在难样本上多推理。
关键机制
- 在同一时刻对同一输入做微步迭代 n=1,2,…，每步产生隐状态 h_n 和一个停机概率 $p_{n} = σ (w^{⊤} h_{n} + b), p_{n} \in (0, 1) .$
- 累积停机概率并在达到阈值时停止： $s_{N} = n = 1 \sum N p_{n}, 若 s_{N} \geq 1 - ε 则停, R_{N} = 1 - n = 1 \sum N - 1 p_{n} .$
- 用权重对各微步的输出做加权汇总（最后一步用余量 R_N）： $y = n = 1 \sum N - 1 p_{n} o_{n} + R_{N} o_{N} .$
- 训练时给一个“思考代价”惩罚，鼓励少步完成： $L = L_{task} + τ (N + R_{N}) .$
用途：最早用于 RNN；在视觉/Transformer 中也有类似“早停/可变深度”的变体。

核心思想：不是一步只预测“下一帧动作”，而是一次预测未来 H 步的“动作块/chunk”，以降低闭环时延、提高动作平滑性，特别适合双臂/接触等高频控制任务。
统一表述
- 给定最近观测窗口和可选目标条件，模型输出长度为 H 的低层动作序列： $\hat{a}_{t : t + H} = f_{θ} (o_{t - k : t}, g), \hat{a}_{t : t + H} \equiv (\overset{a}{^}_{t + 1}, \dots, \overset{a}{^}_{t + H}) .$
- 常见动作定义（与 UMI 接口对齐）：末端自身坐标系的位姿增量 ΔT_{ee} 或 body-frame twist，加上夹爪开合 g。
- 行为克隆训练目标（回归式示例）： $L (θ) = t \sum h = 1 \sum H ℓ (\overset{a}{^}_{t + h}, a_{t + h}^{⋆}),$ 也可用概率建模（高斯/扩散）做极大似然。
- 在线执行多采用“滚动重计划”：每 Δt 前向一次，采用新预测覆盖后续窗口，兼顾低时延与反馈纠偏。
优点与取舍
- 优点：降低感知—决策—执行链路的等效时延；动作更平滑稳定；对双臂/接触任务鲁棒。
- 取舍：H 太大易积累偏差，H 太小减不下时延；通常配合高频重计划与安全限幅/IK 优化。

你更关心哪一个 ACT？我可以针对那个版本展开更细的结构、训练细节与落地实现（含损失、掩码、推理节拍、与扩散策略的对比等）。