具身智能 In-the-Wild 数据采集方式综述
概述
具身智能的核心瓶颈不在模型架构,而在于物理交互数据的获取。“In-the-wild” 指在真实、非受控环境下采集数据,以弥合实验室(95% 成功率)与真实部署(~60%)之间的鸿沟。本文梳理截至 2026 年 3 月的 6 大主流采集方案。
方案总览
| 方案 | 成本 | 数据质量 | 可扩展性 | 场景多样性 | 代表 |
|---|---|---|---|---|---|
| 遥操作真机 | 极高 | ★★★★★ | 低 | 低 | DROID, GEN-0 |
| UMI 无本体采集 | 低 | ★★★★ | 高 | ★★★★★ | UMI, FastUMI Pro |
| 人类视频学习 | 极低 | ★★★ | 极高 | ★★★★★ | UniVLA, VidBot |
| 仿真生成 | 中 | ★★★ | 极高 | 中 | NVIDIA Isaac |
| 开放数据集汇聚 | 低 | 参差 | 高 | 高 | Open X-Embodiment |
| Egocentric 采集 | 低 | ★★★ | 高 | 高 | MotionTrans |
各方案详解
1. 遥操作真机采集(Teleoperation)
操作员通过 VR 手柄、力反馈设备远程操控真实机器人完成任务并记录轨迹。数据质量最高但成本极高。
- DROID:76k 轨迹 / 350 小时,564 场景,86 任务,52 栋建筑,50 名采集员,12 个月
- GEN-0(Generalist AI):27 万+ 小时预训练数据,每周增长 1 万小时,全球采集网络
- Genie Studio(智元机器人):单机单日产能 1000 条,端到端闭环
硬件成本:机器人本体 50 万+/台,精密动捕数十万/套。
2. UMI 无本体便携式采集(当前热点)
核心理念:手持夹爪代替真机,脱耦数据采集与机器人本体,实现 in-the-wild 低成本大规模采集。
UMI(Universal Manipulation Interface)
- 斯坦福提出,手持夹爪 + GoPro
- 12 人时内 3 名演示者在 30 个地点采集 1400 条演示
- 链接:https://umi-gripper.github.io/
UMI-FT
- 2026 年扩展版,集成六轴力/力矩传感器
- 支持擦白板、插灯泡等力敏感任务
- 链接:https://umi-ft.github.io/
FastUMI Pro(鹿明机器人)
国内工程化落地代表,关键数据:
- 单条采集时间:10 秒(遥操 ~50 秒),效率 5 倍提升
- 成本:仅为遥操作的 1/200
- 数据有效率:95%+(行业 ~70%)
- 已发布背包版,计划多城市投放 1 万台
- 2026 年目标:年采集百万小时
- 全球超 2/3 顶尖团队在使用
其他 UMI 变体
exUMI、MV-UMI(多视角)、DexUMI(灵巧手)、ActiveUMI、UMI-on-Legs、UMI-on-Air、FastUMI-100K(10 万+ episodes,54 任务)
局限:采集与部署存在 embodiment gap,需额外域迁移。
3. 从人类视频学习
利用互联网规模人类操作视频提取动作信息,成本最低、潜力最大。
| 方法 | 原理 |
|---|---|
| UniVLA | 从视频提取任务中心动作表征,互联网级数据学习策略 |
| VidBot | 视频→3D 手部轨迹→3D affordance→扩散模型生成动作 |
| UniSkill | 图像编辑管道逐帧动态,跨 embodiment 技能表征 |
| RIGVid | AI 生成视频→VLM 筛选→6D 位姿追踪,无需物理演示 |
| 单目视频重建 | 单目视频恢复人+场景几何→控制策略(Unitree G1 验证) |
局限:精度不如直接采集,存在漂移/鬼影问题。
4. 仿真生成 + Sim-to-Real
在仿真中生成海量数据,零样本迁移到真实世界。
- NVIDIA Isaac GR00T:少量演示→11 小时生成 78 万条合成轨迹(= 6500 小时人工数据)
- AI2 ProcTHOR / Objaverse:1000 万+ 3D 资产库,零样本迁移
- ARIO:~300 万 episodes,部分来自仿真
局限:sim-to-real gap 仍是核心瓶颈。
5. 多源开放数据集汇聚
| 数据集 | 规模 | 来源 |
|---|---|---|
| Open X-Embodiment | 100 万+ 真机轨迹,22 种形态 | 34 个实验室 60 个数据集 |
| ARIO | 258 系列,~300 万 episodes | 开源 + 仿真 + 真机 |
6. 第一人称(Egocentric)采集
佩戴头戴/胸挂相机以人类视角记录操作。2026 年被认为是 egocentric 数据爆发之年。
- MotionTrans:VR 设备实时捕获腕部/手部姿态→驱动机器人复现,30 任务联合训练,13 任务可直接迁移
行业趋势(2026)
- UMI 路线成为主流 — 无本体采集大幅降低成本,鹿明等推进工业化
- 多源数据融合 — 遥操作保底质量 + UMI 扩场景 + 视频/仿真增数量
- VLA 模型兴起 — Vision-Language-Action 架构成为主流范式
- 数据基础设施化 — 地方政府累计近 10 亿元采购数采机器人,区域性数据中心建立
- “数据战”打响 — 市场 2025 年 44.4 亿美元,年增长 39%,数据是核心壁垒
关键要点
- In-the-wild 的核心价值:弥合实验室与真实世界的鸿沟
- UMI 系列(尤其 FastUMI Pro)是当前性价比最优的 in-the-wild 采集方案
- 最佳实践是多源融合:不同方案互补而非替代
- 数据质量(有效率、标注精度)与数据规模同等重要