Sean's Blog

❯

1D 人工智能知识库

❯

❯

❯

数采方式 ALOHA

数采方式 ALOHA

2026年3月20日5分钟阅读

card/term

“数采方式 ALOHA”通常指用 ALOHA 平台做数据采集（teleoperation demonstrations）的方式。ALOHA 是一套低成本、开源的双臂远程操作硬件与流程，用人类遥操作真实机械臂，在执行真实任务的同时同步录制传感与控制数据，供模仿学习/行为克隆/扩散策略训练使用。

它具体意味着什么

数据来源：人通过手持/VR/6DoF 控制器或力位混合（admittance）方式直接遥操作机器人（常见为单臂或双臂）。机器人真实执行，传感器与控制命令被高频记录。
观测数据（常见项）：腕上第一视角视频（左右腕/单腕）、外部相机视频（可选）、关节位置/速度/力矩、末端位姿、夹爪开度/力、时间戳。
动作标签：与演示同步的控制信号（如末端位姿或其增量 ΔT、关节目标、夹爪开合 g），无需额外人工标注。
标定与同步：手眼外参、相机内参、系统时延/时钟同步，保证图像与动作对齐。
输出数据包：时序对齐的 {图像流、机器人状态、动作命令}，可直接喂给模仿学习算法。

最小化的数据生成流程

远程操作映射：将人手/控制器的 6DoF 姿态映射为末端目标位姿（或速度/增量），解 IK 下发到机器人；
同步记录：以固定频率记录观测 o_t 与动作 u_t；
训练前处理：重采样/去抖、坐标统一、动作定义标准化（例如将关节命令转换为末端增量 ΔT 以及夹爪标量 g）。

数学表达

人到末端的映射与记录

^{w} T_{ee, t}^{cmd} = F_{teleop} (h_{t},^{w} T_{ref}), u_{t} \equiv (Δ T_{ee, t}, g_{t}), Δ T_{ee, t} = (^{w} T_{ee, t - 1})^{- 1}^{w} T_{ee, t}^{cmd}

用作模仿学习的训练对

D = {(o_{t - k : t}, u_{t})}_{t = 1}^{T}

与其他数采方式的对比

相对“推着教/牵引（kinesthetic teaching）”：ALOHA 不需要手动拖动关节，更贴近日常操作的手部动作；双臂/精细接触更自然。
相对“UMI 的人手持夹爪 + 视频”方案：ALOHA 是“机器人在环”的演示，数据天然对齐、无需从视频重建动作；UMI 则更便于“无机器人也能采集”，但需 SLAM/外参恢复动作。

优点

高质量、时序对齐的状态 - 动作对，直接可训；双臂/接触任务表现好。
开源、可复现，成本相对低，易在多实验室铺开形成共享数据分布。
与“腕上第一视角 + 末端位姿增量 + 夹爪开合”的统一接口天然契合。

局限

需要搭建遥操作硬件与标定流程；对时延、阻抗整定有要求。
采集分布受操作者习惯/视角影响；跨机器人迁移仍需薄适配与少量微调。
若没有腕上相机或多模态同步，后期会增加对齐成本。

一句话

“数采方式 ALOHA”就是用一套开源的双/单臂遥操作平台采集演示数据：人遥操作、机器人执行、系统同步录制多模态观测与动作，生成可直接用于模仿学习的训练集。

目录

它具体意味着什么
最小化的数据生成流程
数学表达
与其他数采方式的对比
优点
局限

Graph View

反向链接

具身智能In-the-Wild数据采集方式综述

Created with Quartz © 2026

GitHub
Email
RSS