Diffusion Policy(扩散策略)是一类把“扩散模型”用作控制策略的模仿学习方法:给定观测(如相机图像、末端位姿、夹爪宽度等),通过迭代去噪生成一段未来动作序列(例如若干步末端位姿与夹爪开口),再执行其中的前几步并滚动重规划。

它怎么做

  • 数据:用示范轨迹 {(o1, a1), …, (oT, aT)} 训练。
  • 训练:对整段动作(或动作片段)加噪,让网络学会在观测条件下“去噪还原”真实动作分布(DDPM 式条件生成)。网络通常是时序 U-Net/Transformer,输入历史观测与历史动作。
  • 推理:从高斯噪声采样动作片段,迭代 K 步去噪得到平滑、可执行的动作序列;执行前 1-N 步,下一时刻再基于新观测重复(类似 MPC 的滚动优化)。

为什么用它

  • 解决多模态:同一观测下可能有多种合理动作,扩散模型能表示复杂分布,避免“一步回归”导致的平均化动作。
  • 稳定易训:离线监督训练即可,不依赖在线 RL 的奖励设计与不稳定优化。
  • 时序一致性:一次生成动作片段,时间上更平滑、连贯。

与常见方法对比

  • vs 行为克隆(一步回归):Diffusion 更能刻画多解、抗“均值化”;但推理更慢。
  • vs 自回归策略(一步一步预测下个动作):Diffusion 用迭代细化整段动作,常更平滑、容错更强,但有迭代开销。
  • 可与价值/目标引导结合(如 classifier-free guidance、价值引导)以更好完成目标。

局限与权衡

  • 时延/算力:迭代去噪带来推理延迟,需要 GPU 或减少去噪步数、缩短片段长度。
  • 约束融入:动力学/安全约束需在训练数据、损失或采样时额外处理(如可行性过滤、引导、约束投影)。
  • 数据质量敏感:离线模仿依赖高质量、覆盖充分的示范。

在你提到的场景

  • 观测:腕相机 RGB + 末端 6DoF + 夹爪宽度(同步、零相对时延)。
  • 动作:未来若干步末端位姿增量与夹爪宽度(连续控制)。
  • 好处:能处理腕视角下的多样交互与多路径策略,在零样本迁移中更稳健。

举例说明

可以。下面用几个具体机器人例子,说明 Diffusion Policy(扩散策略)是如何工作的。

一段话概括

  • 训练:把示范里的“动作片段”加噪声,让模型在给定观测条件下学会把噪声“去噪”回真实动作分布。
  • 推理:从高斯噪声采样一段未来动作,通过 K 次去噪得到平滑可行的动作序列,执行前几步,滚动重复。

示例 1:桌面抓取→放置(多解问题)

  • 观测输入:腕相机 RGB + 末端 6DoF 位姿 + 夹爪宽度(同步)。
  • 动作输出:未来 H=16 步末端相对位姿增量和夹爪宽度曲线。
  • 多模态:同一画面可有多种抓法(从把手抓、从杯身抓、左/右侧接近)。扩散模型表示“多种合理动作分布”,采样后去噪会自然收敛到其中一种可行抓取;相较“单步回归”不易出现“折中动作”导致滑手。
  • 执行:去噪 K≈5–10 步得到动作片段,执行前 3–4 步,下一帧再重规划,轨迹更平滑、抗误差。

示例 2:绕障取物(策略风格可切换)

  • 场景:物体两侧都有通道,一侧更近但更窄,另一侧更远但更安全。
  • 扩散优势:一次生成整段动作,时间一致性好;通过改变随机种子或加入轻微引导(例如偏向“更安全路径”)可得到不同“风格”的解,避免自回归方法常见的抖动和局部死锁。

示例 3:抛掷/精确释放(连续夹爪控制)

  • 需求:在抛物线上某一时刻精准松爪,不同物体宽度不同。
  • 扩散输出:未来若干步夹爪宽度轨迹 + 末端位姿,模型学会把“释放时机”编码进宽度曲线(如在某帧快速打开到阈值)。
  • 优点:比二值开合更细腻;结合串联弹性末端(软指形变)可更稳地控制接触力与释放时机。

示例 4:开抽屉/门(长接触、约束动作)

  • 行为:先接近、对齐、沿约束方向拉/推,再退出。
  • 扩散好处:一次生成一个短时域片段(例如 1–2 秒),阶段间衔接平滑;训练时用“可行性筛选”的示范(HD6)即可把动力学/运动学约束隐含到分布里。

典型参数与实践要点

  • 观察窗与预测窗:历史 N 帧观测,预测 H=8–32 步动作,控制频率 10–30 Hz。
  • 去噪步数 K:5–20 步间权衡“实时性/质量”,低 K 更快,高 K 更稳。
  • 动作空间:用末端“相对位姿增量 + 夹爪宽度”,在末端坐标系表达,便于跨机械臂迁移。
  • 约束融入:用“基于运动学的数据筛选”确保训练分布内都是可执行的轨迹;上线时可加安全投影/限幅。

一句话总结

  • Diffusion Policy 把“动作生成”当成条件生成问题,能自然处理多解、生成平滑片段、在滚动执行中保持稳健,非常适合腕视角的多样操作与跨平台部署。

什么是高斯噪声采样