具身智能 In-the-Wild 数据采集方式综述

概述

具身智能的核心瓶颈不在模型架构，而在于物理交互数据的获取。“In-the-wild” 指在真实、非受控环境下采集数据，以弥合实验室（95% 成功率）与真实部署（~60%）之间的鸿沟。本文梳理截至 2026 年 3 月的 6 大主流采集方案。

方案总览

方案	成本	数据质量	可扩展性	场景多样性	代表
遥操作真机	极高	★★★★★	低	低	DROID, GEN-0
UMI 无本体采集	低	★★★★	高	★★★★★	UMI, FastUMI Pro
人类视频学习	极低	★★★	极高	★★★★★	UniVLA, VidBot
仿真生成	中	★★★	极高	中	NVIDIA Isaac
开放数据集汇聚	低	参差	高	高	Open X-Embodiment
Egocentric 采集	低	★★★	高	高	MotionTrans

各方案详解

1. 遥操作真机采集（Teleoperation）

操作员通过 VR 手柄、力反馈设备远程操控真实机器人完成任务并记录轨迹。数据质量最高但成本极高。

DROID：76k 轨迹 / 350 小时，564 场景，86 任务，52 栋建筑，50 名采集员，12 个月
GEN-0（Generalist AI）：27 万+ 小时预训练数据，每周增长 1 万小时，全球采集网络
Genie Studio（智元机器人）：单机单日产能 1000 条，端到端闭环

硬件成本：机器人本体 50 万+/台，精密动捕数十万/套。

2. UMI 无本体便携式采集（当前热点）

核心理念：手持夹爪代替真机，脱耦数据采集与机器人本体，实现 in-the-wild 低成本大规模采集。

UMI（Universal Manipulation Interface）

斯坦福提出，手持夹爪 + GoPro
12 人时内 3 名演示者在 30 个地点采集 1400 条演示
链接：https://umi-gripper.github.io/

UMI-FT

2026 年扩展版，集成六轴力/力矩传感器
支持擦白板、插灯泡等力敏感任务
链接：https://umi-ft.github.io/

FastUMI Pro（鹿明机器人）

国内工程化落地代表，关键数据：

单条采集时间：10 秒（遥操 ~50 秒），效率 5 倍提升
成本：仅为遥操作的 1/200
数据有效率：95%+（行业 ~70%）
已发布背包版，计划多城市投放 1 万台
2026 年目标：年采集百万小时
全球超 2/3 顶尖团队在使用

其他 UMI 变体

exUMI、MV-UMI（多视角）、DexUMI（灵巧手）、ActiveUMI、UMI-on-Legs、UMI-on-Air、FastUMI-100K（10 万+ episodes，54 任务）

局限：采集与部署存在 embodiment gap，需额外域迁移。

3. 从人类视频学习

利用互联网规模人类操作视频提取动作信息，成本最低、潜力最大。

方法	原理
UniVLA	从视频提取任务中心动作表征，互联网级数据学习策略
VidBot	视频→3D 手部轨迹→3D affordance→扩散模型生成动作
UniSkill	图像编辑管道逐帧动态，跨 embodiment 技能表征
RIGVid	AI 生成视频→VLM 筛选→6D 位姿追踪，无需物理演示
单目视频重建	单目视频恢复人+场景几何→控制策略（Unitree G1 验证）

局限：精度不如直接采集，存在漂移/鬼影问题。

4. 仿真生成 + Sim-to-Real

在仿真中生成海量数据，零样本迁移到真实世界。

NVIDIA Isaac GR00T：少量演示→11 小时生成 78 万条合成轨迹（= 6500 小时人工数据）
AI2 ProcTHOR / Objaverse：1000 万+ 3D 资产库，零样本迁移
ARIO：~300 万 episodes，部分来自仿真

局限：sim-to-real gap 仍是核心瓶颈。

5. 多源开放数据集汇聚

数据集	规模	来源
Open X-Embodiment	100 万+ 真机轨迹，22 种形态	34 个实验室 60 个数据集
ARIO	258 系列，~300 万 episodes	开源 + 仿真 + 真机

6. 第一人称（Egocentric）采集

佩戴头戴/胸挂相机以人类视角记录操作。2026 年被认为是 egocentric 数据爆发之年。

MotionTrans：VR 设备实时捕获腕部/手部姿态→驱动机器人复现，30 任务联合训练，13 任务可直接迁移

行业趋势（2026）

UMI 路线成为主流 — 无本体采集大幅降低成本，鹿明等推进工业化
多源数据融合 — 遥操作保底质量 + UMI 扩场景 + 视频/仿真增数量
VLA 模型兴起 — Vision-Language-Action 架构成为主流范式
数据基础设施化 — 地方政府累计近 10 亿元采购数采机器人，区域性数据中心建立
“数据战”打响 — 市场 2025 年 44.4 亿美元，年增长 39%，数据是核心壁垒

关键要点

In-the-wild 的核心价值：弥合实验室与真实世界的鸿沟
UMI 系列（尤其 FastUMI Pro）是当前性价比最优的 in-the-wild 采集方案
最佳实践是多源融合：不同方案互补而非替代
数据质量（有效率、标注精度）与数据规模同等重要

Sean's Blog

探索

具身智能In-the-Wild数据采集方式综述