具身智能 In-the-Wild 数据采集方式综述

概述

具身智能的核心瓶颈不在模型架构,而在于物理交互数据的获取。“In-the-wild” 指在真实、非受控环境下采集数据,以弥合实验室(95% 成功率)与真实部署(~60%)之间的鸿沟。本文梳理截至 2026 年 3 月的 6 大主流采集方案。

方案总览

方案成本数据质量可扩展性场景多样性代表
遥操作真机极高★★★★★DROID, GEN-0
UMI 无本体采集★★★★★★★★★UMI, FastUMI Pro
人类视频学习极低★★★极高★★★★★UniVLA, VidBot
仿真生成★★★极高NVIDIA Isaac
开放数据集汇聚参差Open X-Embodiment
Egocentric 采集★★★MotionTrans

各方案详解

1. 遥操作真机采集(Teleoperation)

操作员通过 VR 手柄、力反馈设备远程操控真实机器人完成任务并记录轨迹。数据质量最高但成本极高。

  • DROID:76k 轨迹 / 350 小时,564 场景,86 任务,52 栋建筑,50 名采集员,12 个月
  • GEN-0(Generalist AI):27 万+ 小时预训练数据,每周增长 1 万小时,全球采集网络
  • Genie Studio(智元机器人):单机单日产能 1000 条,端到端闭环

硬件成本:机器人本体 50 万+/台,精密动捕数十万/套。

2. UMI 无本体便携式采集(当前热点)

核心理念:手持夹爪代替真机,脱耦数据采集与机器人本体,实现 in-the-wild 低成本大规模采集。

UMI(Universal Manipulation Interface)

UMI-FT

  • 2026 年扩展版,集成六轴力/力矩传感器
  • 支持擦白板、插灯泡等力敏感任务
  • 链接:https://umi-ft.github.io/

FastUMI Pro(鹿明机器人)

国内工程化落地代表,关键数据:

  • 单条采集时间:10 秒(遥操 ~50 秒),效率 5 倍提升
  • 成本:仅为遥操作的 1/200
  • 数据有效率:95%+(行业 ~70%)
  • 已发布背包版,计划多城市投放 1 万台
  • 2026 年目标:年采集百万小时
  • 全球超 2/3 顶尖团队在使用

其他 UMI 变体

exUMI、MV-UMI(多视角)、DexUMI(灵巧手)、ActiveUMI、UMI-on-Legs、UMI-on-Air、FastUMI-100K(10 万+ episodes,54 任务)

局限:采集与部署存在 embodiment gap,需额外域迁移。

3. 从人类视频学习

利用互联网规模人类操作视频提取动作信息,成本最低、潜力最大。

方法原理
UniVLA从视频提取任务中心动作表征,互联网级数据学习策略
VidBot视频→3D 手部轨迹→3D affordance→扩散模型生成动作
UniSkill图像编辑管道逐帧动态,跨 embodiment 技能表征
RIGVidAI 生成视频→VLM 筛选→6D 位姿追踪,无需物理演示
单目视频重建单目视频恢复人+场景几何→控制策略(Unitree G1 验证)

局限:精度不如直接采集,存在漂移/鬼影问题。

4. 仿真生成 + Sim-to-Real

在仿真中生成海量数据,零样本迁移到真实世界。

  • NVIDIA Isaac GR00T:少量演示→11 小时生成 78 万条合成轨迹(= 6500 小时人工数据)
  • AI2 ProcTHOR / Objaverse:1000 万+ 3D 资产库,零样本迁移
  • ARIO:~300 万 episodes,部分来自仿真

局限:sim-to-real gap 仍是核心瓶颈。

5. 多源开放数据集汇聚

数据集规模来源
Open X-Embodiment100 万+ 真机轨迹,22 种形态34 个实验室 60 个数据集
ARIO258 系列,~300 万 episodes开源 + 仿真 + 真机

6. 第一人称(Egocentric)采集

佩戴头戴/胸挂相机以人类视角记录操作。2026 年被认为是 egocentric 数据爆发之年。

  • MotionTrans:VR 设备实时捕获腕部/手部姿态→驱动机器人复现,30 任务联合训练,13 任务可直接迁移

行业趋势(2026)

  1. UMI 路线成为主流 — 无本体采集大幅降低成本,鹿明等推进工业化
  2. 多源数据融合 — 遥操作保底质量 + UMI 扩场景 + 视频/仿真增数量
  3. VLA 模型兴起 — Vision-Language-Action 架构成为主流范式
  4. 数据基础设施化 — 地方政府累计近 10 亿元采购数采机器人,区域性数据中心建立
  5. “数据战”打响 — 市场 2025 年 44.4 亿美元,年增长 39%,数据是核心壁垒

关键要点

  • In-the-wild 的核心价值:弥合实验室与真实世界的鸿沟
  • UMI 系列(尤其 FastUMI Pro)是当前性价比最优的 in-the-wild 采集方案
  • 最佳实践是多源融合:不同方案互补而非替代
  • 数据质量(有效率、标注精度)与数据规模同等重要

相关链接