概述
目前机器人行业的数据采集系统可以按照操作方式和数据来源分为以下几大类,每种方法在数据质量、采集成本和可扩展性之间有不同的取舍。
直接人类远程操作
直接人类远程操作涉及操作员远程或现场控制机器人,以获取包括视觉输入、运动状态和动作指令在内的全面数据。
尽管这种方法提供了高质量的数据,但其成本高且劳动强度大。即使使用像 SpaceMouse 这样的六自由度控制器,收集细粒度操作的数据仍然具有挑战性,因为很难精确对准小目标物体。
参考:Viola: Imitation learning for vision-based manipulation with object proposal priors。
基于沉浸式技术的远程操作
利用数字孪生和混合现实技术,为操作员提供沉浸式的远程操控体验。操作员通过 VR 头显和力反馈设备控制机器人,能够获得更自然的操作感受和更丰富的触觉信息。
参考:Digital twin-driven mixed reality framework for immersive teleoperation with haptic rendering; Hubotverse 框架。
基于视觉的数据收集
基于视觉的数据收集使用摄像头(如可穿戴设备)以捕捉交互数据,而无需直接控制机器人。虽然这种方法收集了一些视觉信息,但它缺乏表示机器人手臂与其环境之间复杂交互的能力。
该类别还包括界面中介操控,通过人类视频来学习操作策略,代表性工作有 MimicPlay(长时域模仿学习)、Human-to-Robot Imitation in the Wild 等。
界面中介操作系统
以通用操作界面 UMI(Universal Manipulation Interface)为代表,使用手持夹具和专门的界面从人类演示中收集数据,特别是捕捉机器人手臂 末端执行器 的姿态。收集到的数据随后通过 Diffusion Policy 等策略学习算法推断出机器人动作,从而降低成本并简化数据收集过程。
UMI 的核心优势在于支持 in-the-wild 数据采集:操作员可以在任意真实环境中进行示教,不受实验室场地和机器人本体的限制。
方法对比
| 方法 | 数据质量 | 采集成本 | 可扩展性 | 是否需要机器人 |
|---|---|---|---|---|
| 直接远程操作 | 高 | 高 | 低 | 是 |
| 沉浸式远程操作 | 高 | 高 | 低 | 是 |
| 视觉数据收集 | 中 | 低 | 高 | 否 |
| 界面中介(UMI) | 高 | 中 | 高 | 采集时不需要 |