Xperience-10M 数据集调研

概述

Xperience-10M 是 Ropedia 发布的大规模第一人称（egocentric）多模态人类体验数据集，面向 embodied AI、机器人、世界模型和空间智能研究。它是目前规模最大的带结构化 3D/4D 标注的第一人称数据集，总存储量约 1 PB。

发布方：Ropedia
许可证：CC BY-NC 4.0（非商业）
访问方式：需登录 HuggingFace 并提交联系信息
HuggingFace：ropedia-ai/xperience-10m
配套工具：HOMIE-toolkit（数据加载/可视化）
样例数据：ropedia-ai/xperience-10m-sample（咖啡制作示例）

数据规模

指标	数值
交互（experience）数	1000 万
视频时长	10,000 小时
RGB 帧	28.8 亿
深度帧	7.2 亿
相机位姿	5.76 亿
动捕帧	5.76 亿
IMU 帧	72 亿
描述句子 / 词汇	1600 万句 / 2 亿词 / 6000 词汇量
独特物体	35 万
轨迹总长	39,000 km
总存储	~1 PB

模态组成

视觉

4 路鱼眼摄像头视频流（fisheye_cam0-3.mp4）
2 路矫正立体视频（stereo_left/right.mp4）
立体深度图（含置信度、尺度信息）

音频

与所有视频流时间对齐

运动数据

相机位姿 / SLAM 轨迹：四元数 + 平移 + 点云
双手动捕：3D 关节位置、MANO 手部模型参数（pose/orient/betas）
全身动捕：关键点、接触状态、全身四元数
IMU：加速度计 + 陀螺仪，纳秒级时间戳

语义标注

层次化语言描述，从粗到细：

task → subtask → action → interaction → objects

1600 万句描述，2 亿词
6000 词汇量

数据格式

每个 episode 的文件结构：

episode/
├── fisheye_cam0.mp4          # 鱼眼相机 0
├── fisheye_cam1.mp4          # 鱼眼相机 1
├── fisheye_cam2.mp4          # 鱼眼相机 2
├── fisheye_cam3.mp4          # 鱼眼相机 3
├── stereo_left.mp4           # 矫正立体左
├── stereo_right.mp4          # 矫正立体右
└── annotation.hdf5           # 所有标注和元数据

annotation.hdf5 内部结构：

annotation.hdf5
├── calibration/          # 相机标定参数
├── slam/                 # SLAM 轨迹（四元数、平移、点云）
├── depth/                # 深度图（深度、置信度、尺度）
├── hand_mocap/           # 双手动捕（3D 关节、MANO 参数）
├── full_body_mocap/      # 全身动捕（关键点、接触、四元数）
├── imu/                  # IMU 数据（加速度、陀螺仪）
├── video/                # 视频元数据
├── metadata/             # episode 元数据
└── caption/              # 层次化语言描述

应用场景

感知与理解

第一人称动作识别与描述
时序动作定位
人-物交互理解
物体定位与识别
视听学习

3D/空间智能

立体与单目深度估计
视觉里程计与轨迹学习
SLAM 与相机位姿估计
手部/全身运动估计

基础模型训练

视觉-语言预训练
多模态预训练
具身推理
世界模型训练

机器人学

模仿学习与行为建模
策略学习
多模态传感器融合

限制与注意事项

数据分布受采集环境/设备/活动类型限制
深度、位姿、SLAM、动捕标注可能存在噪声或估计误差
语义标注未必覆盖所有相关上下文因素
训练需要大量存储与算力基础设施（~1 PB）
禁止用于：身份识别、人员再识别、生物特征分析、监控等

与同类数据集对比

数据集	规模	视角	模态	3D 标注
Xperience-10M	10,000 h / 1 PB	第一人称	视觉+深度+音频+动捕+IMU+语义	完整 3D/4D
Ego4D	3,670 h	第一人称	视觉+音频+部分 3D	部分
DROID	350 h	机器人视角	视觉+动作	有（机器人状态）
Open X-Embodiment	多源汇聚	混合	视觉+动作	部分

Xperience-10M 在规模（10x Ego4D）和模态完整性上均领先，尤其是同时具备动捕、IMU、深度、SLAM 和层次化语义描述的组合在同类数据集中独一无二。

参考

@dataset{xperience_10m,
  title={Xperience-10M: A Large-Scale Egocentric Multimodal Dataset
         with Structured 3D/4D Annotations},
  author={Ropedia},
  year={2026},
  publisher={Hugging Face}
}

Sean's Blog

Explorer

Xperience-10M 数据集调研

Xperience-10M 数据集调研

概述

数据规模

模态组成

视觉

音频

运动数据

语义标注

数据格式

应用场景

感知与理解

3D/空间智能

基础模型训练

机器人学

限制与注意事项

与同类数据集对比

参考

目录

Graph View

反向链接