“数采方式 ALOHA”通常指用 ALOHA 平台做数据采集(teleoperation demonstrations)的方式。ALOHA 是一套低成本、开源的双臂远程操作硬件与流程,用人类遥操作真实机械臂,在执行真实任务的同时同步录制传感与控制数据,供模仿学习/行为克隆/扩散策略训练使用。

它具体意味着什么

  • 数据来源:人通过手持/VR/6DoF 控制器或力位混合(admittance)方式直接遥操作机器人(常见为单臂或双臂)。机器人真实执行,传感器与控制命令被高频记录。
  • 观测数据(常见项):腕上第一视角视频(左右腕/单腕)、外部相机视频(可选)、关节位置/速度/力矩、末端位姿、夹爪开度/力、时间戳。
  • 动作标签:与演示同步的控制信号(如末端位姿或其增量 ΔT、关节目标、夹爪开合 g),无需额外人工标注。
  • 标定与同步:手眼外参、相机内参、系统时延/时钟同步,保证图像与动作对齐。
  • 输出数据包:时序对齐的 {图像流、机器人状态、动作命令},可直接喂给模仿学习算法。

最小化的数据生成流程

  1. 远程操作映射:将人手/控制器的 6DoF 姿态映射为末端目标位姿(或速度/增量),解 IK 下发到机器人;
  2. 同步记录:以固定频率记录观测 o_t 与动作 u_t;
  3. 训练前处理:重采样/去抖、坐标统一、动作定义标准化(例如将关节命令转换为末端增量 ΔT 以及夹爪标量 g)。

数学表达

  • 人到末端的映射与记录
  • 用作模仿学习的训练对

与其他数采方式的对比

  • 相对“推着教/牵引(kinesthetic teaching)”:ALOHA 不需要手动拖动关节,更贴近日常操作的手部动作;双臂/精细接触更自然。
  • 相对“UMI 的人手持夹爪 + 视频”方案:ALOHA 是“机器人在环”的演示,数据天然对齐、无需从视频重建动作;UMI 则更便于“无机器人也能采集”,但需 SLAM/外参恢复动作。

优点

  • 高质量、时序对齐的状态 - 动作对,直接可训;双臂/接触任务表现好。
  • 开源、可复现,成本相对低,易在多实验室铺开形成共享数据分布。
  • 与“腕上第一视角 + 末端位姿增量 + 夹爪开合”的统一接口天然契合。

局限

  • 需要搭建遥操作硬件与标定流程;对时延、阻抗整定有要求。
  • 采集分布受操作者习惯/视角影响;跨机器人迁移仍需薄适配与少量微调。
  • 若没有腕上相机或多模态同步,后期会增加对齐成本。

一句话

  • “数采方式 ALOHA”就是用一套开源的双/单臂遥操作平台采集演示数据:人遥操作、机器人执行、系统同步录制多模态观测与动作,生成可直接用于模仿学习的训练集。