Xperience-10M 数据集调研
概述
Xperience-10M 是 Ropedia 发布的大规模第一人称(egocentric)多模态人类体验数据集,面向 embodied AI、机器人、世界模型和空间智能研究。它是目前规模最大的带结构化 3D/4D 标注的第一人称数据集,总存储量约 1 PB。
- 发布方:Ropedia
- 许可证:CC BY-NC 4.0(非商业)
- 访问方式:需登录 HuggingFace 并提交联系信息
- HuggingFace:
ropedia-ai/xperience-10m - 配套工具:HOMIE-toolkit(数据加载/可视化)
- 样例数据:
ropedia-ai/xperience-10m-sample(咖啡制作示例)
数据规模
| 指标 | 数值 |
|---|---|
| 交互(experience)数 | 1000 万 |
| 视频时长 | 10,000 小时 |
| RGB 帧 | 28.8 亿 |
| 深度帧 | 7.2 亿 |
| 相机位姿 | 5.76 亿 |
| 动捕帧 | 5.76 亿 |
| IMU 帧 | 72 亿 |
| 描述句子 / 词汇 | 1600 万句 / 2 亿词 / 6000 词汇量 |
| 独特物体 | 35 万 |
| 轨迹总长 | 39,000 km |
| 总存储 | ~1 PB |
模态组成
视觉
- 4 路鱼眼摄像头视频流(
fisheye_cam0-3.mp4) - 2 路矫正立体视频(
stereo_left/right.mp4) - 立体深度图(含置信度、尺度信息)
音频
- 与所有视频流时间对齐
运动数据
- 相机位姿 / SLAM 轨迹:四元数 + 平移 + 点云
- 双手动捕:3D 关节位置、MANO 手部模型参数(pose/orient/betas)
- 全身动捕:关键点、接触状态、全身四元数
- IMU:加速度计 + 陀螺仪,纳秒级时间戳
语义标注
层次化语言描述,从粗到细:
task → subtask → action → interaction → objects
- 1600 万句描述,2 亿词
- 6000 词汇量
数据格式
每个 episode 的文件结构:
episode/
├── fisheye_cam0.mp4 # 鱼眼相机 0
├── fisheye_cam1.mp4 # 鱼眼相机 1
├── fisheye_cam2.mp4 # 鱼眼相机 2
├── fisheye_cam3.mp4 # 鱼眼相机 3
├── stereo_left.mp4 # 矫正立体左
├── stereo_right.mp4 # 矫正立体右
└── annotation.hdf5 # 所有标注和元数据
annotation.hdf5 内部结构:
annotation.hdf5
├── calibration/ # 相机标定参数
├── slam/ # SLAM 轨迹(四元数、平移、点云)
├── depth/ # 深度图(深度、置信度、尺度)
├── hand_mocap/ # 双手动捕(3D 关节、MANO 参数)
├── full_body_mocap/ # 全身动捕(关键点、接触、四元数)
├── imu/ # IMU 数据(加速度、陀螺仪)
├── video/ # 视频元数据
├── metadata/ # episode 元数据
└── caption/ # 层次化语言描述
应用场景
感知与理解
- 第一人称动作识别与描述
- 时序动作定位
- 人-物交互理解
- 物体定位与识别
- 视听学习
3D/空间智能
- 立体与单目深度估计
- 视觉里程计与轨迹学习
- SLAM 与相机位姿估计
- 手部/全身运动估计
基础模型训练
- 视觉-语言预训练
- 多模态预训练
- 具身推理
- 世界模型训练
机器人学
- 模仿学习与行为建模
- 策略学习
- 多模态传感器融合
限制与注意事项
- 数据分布受采集环境/设备/活动类型限制
- 深度、位姿、SLAM、动捕标注可能存在噪声或估计误差
- 语义标注未必覆盖所有相关上下文因素
- 训练需要大量存储与算力基础设施(~1 PB)
- 禁止用于:身份识别、人员再识别、生物特征分析、监控等
与同类数据集对比
| 数据集 | 规模 | 视角 | 模态 | 3D 标注 |
|---|---|---|---|---|
| Xperience-10M | 10,000 h / 1 PB | 第一人称 | 视觉+深度+音频+动捕+IMU+语义 | 完整 3D/4D |
| Ego4D | 3,670 h | 第一人称 | 视觉+音频+部分 3D | 部分 |
| DROID | 350 h | 机器人视角 | 视觉+动作 | 有(机器人状态) |
| Open X-Embodiment | 多源汇聚 | 混合 | 视觉+动作 | 部分 |
Xperience-10M 在规模(10x Ego4D)和模态完整性上均领先,尤其是同时具备动捕、IMU、深度、SLAM 和层次化语义描述的组合在同类数据集中独一无二。
参考
@dataset{xperience_10m,
title={Xperience-10M: A Large-Scale Egocentric Multimodal Dataset
with Structured 3D/4D Annotations},
author={Ropedia},
year={2026},
publisher={Hugging Face}
}