Xperience-10M 数据集调研

概述

Xperience-10M 是 Ropedia 发布的大规模第一人称(egocentric)多模态人类体验数据集,面向 embodied AI、机器人、世界模型和空间智能研究。它是目前规模最大的带结构化 3D/4D 标注的第一人称数据集,总存储量约 1 PB。

  • 发布方Ropedia
  • 许可证:CC BY-NC 4.0(非商业)
  • 访问方式:需登录 HuggingFace 并提交联系信息
  • HuggingFaceropedia-ai/xperience-10m
  • 配套工具HOMIE-toolkit(数据加载/可视化)
  • 样例数据ropedia-ai/xperience-10m-sample(咖啡制作示例)

数据规模

指标数值
交互(experience)数1000 万
视频时长10,000 小时
RGB 帧28.8 亿
深度帧7.2 亿
相机位姿5.76 亿
动捕帧5.76 亿
IMU 帧72 亿
描述句子 / 词汇1600 万句 / 2 亿词 / 6000 词汇量
独特物体35 万
轨迹总长39,000 km
总存储~1 PB

模态组成

视觉

  • 4 路鱼眼摄像头视频流(fisheye_cam0-3.mp4
  • 2 路矫正立体视频(stereo_left/right.mp4
  • 立体深度图(含置信度、尺度信息)

音频

  • 与所有视频流时间对齐

运动数据

  • 相机位姿 / SLAM 轨迹:四元数 + 平移 + 点云
  • 双手动捕:3D 关节位置、MANO 手部模型参数(pose/orient/betas)
  • 全身动捕:关键点、接触状态、全身四元数
  • IMU:加速度计 + 陀螺仪,纳秒级时间戳

语义标注

层次化语言描述,从粗到细:

task → subtask → action → interaction → objects
  • 1600 万句描述,2 亿词
  • 6000 词汇量

数据格式

每个 episode 的文件结构:

episode/
├── fisheye_cam0.mp4          # 鱼眼相机 0
├── fisheye_cam1.mp4          # 鱼眼相机 1
├── fisheye_cam2.mp4          # 鱼眼相机 2
├── fisheye_cam3.mp4          # 鱼眼相机 3
├── stereo_left.mp4           # 矫正立体左
├── stereo_right.mp4          # 矫正立体右
└── annotation.hdf5           # 所有标注和元数据

annotation.hdf5 内部结构:

annotation.hdf5
├── calibration/          # 相机标定参数
├── slam/                 # SLAM 轨迹(四元数、平移、点云)
├── depth/                # 深度图(深度、置信度、尺度)
├── hand_mocap/           # 双手动捕(3D 关节、MANO 参数)
├── full_body_mocap/      # 全身动捕(关键点、接触、四元数)
├── imu/                  # IMU 数据(加速度、陀螺仪)
├── video/                # 视频元数据
├── metadata/             # episode 元数据
└── caption/              # 层次化语言描述

应用场景

感知与理解

  • 第一人称动作识别与描述
  • 时序动作定位
  • 人-物交互理解
  • 物体定位与识别
  • 视听学习

3D/空间智能

  • 立体与单目深度估计
  • 视觉里程计与轨迹学习
  • SLAM 与相机位姿估计
  • 手部/全身运动估计

基础模型训练

  • 视觉-语言预训练
  • 多模态预训练
  • 具身推理
  • 世界模型训练

机器人学

  • 模仿学习与行为建模
  • 策略学习
  • 多模态传感器融合

限制与注意事项

  • 数据分布受采集环境/设备/活动类型限制
  • 深度、位姿、SLAM、动捕标注可能存在噪声或估计误差
  • 语义标注未必覆盖所有相关上下文因素
  • 训练需要大量存储与算力基础设施(~1 PB)
  • 禁止用于:身份识别、人员再识别、生物特征分析、监控等

与同类数据集对比

数据集规模视角模态3D 标注
Xperience-10M10,000 h / 1 PB第一人称视觉+深度+音频+动捕+IMU+语义完整 3D/4D
Ego4D3,670 h第一人称视觉+音频+部分 3D部分
DROID350 h机器人视角视觉+动作有(机器人状态)
Open X-Embodiment多源汇聚混合视觉+动作部分

Xperience-10M 在规模(10x Ego4D)和模态完整性上均领先,尤其是同时具备动捕、IMU、深度、SLAM 和层次化语义描述的组合在同类数据集中独一无二。

参考

@dataset{xperience_10m,
  title={Xperience-10M: A Large-Scale Egocentric Multimodal Dataset
         with Structured 3D/4D Annotations},
  author={Ropedia},
  year={2026},
  publisher={Hugging Face}
}