具身智能
具身智能(Embodied Intelligence / Embodied AI)是人工智能的一个核心分支,研究如何让智能体通过物理身体与真实世界进行感知、交互和学习。与纯数字域的 AI(如语言模型、推荐系统)不同,具身智能强调智能必须”扎根”于物理实体,通过传感器获取环境信息、通过执行器改变环境状态,在闭环交互中完成任务。
相关入口
- 架构路线:VLA、VLM、VLA 动作解码:自回归 vs 扩散。
- 数据路线:Xperience-10M 数据集调研、具身智能In-the-Wild数据采集方式综述。
- 规划与模拟:世界模型、MPC、Diffusion Policy。
核心问题
具身智能要解决的核心问题是:如何让机器人在非结构化的真实环境中,像人一样灵活地感知、理解、规划和操作。这涉及多个交叉领域的挑战:
- 感知:融合视觉、触觉、本体感知、IMU 等多模态信息,构建对环境和自身状态的理解
- 决策与规划:基于高层语义指令(如自然语言)分解任务、制定动作序列
- 控制与执行:将规划结果转化为精确的关节运动,处理接触、力控等物理约束
- 学习与泛化:从有限的示范或交互经验中学习策略,并迁移到新任务和新环境
技术路线
当前具身智能的主流技术路线可大致分为以下几类:
| 路线 | 代表方法 | 特点 |
|---|---|---|
| VLA(视觉-语言-动作) | VLA、RT-2、Pi0, Pi0.5 | 在 VLM 基础上微调,端到端输出动作 |
| VPP(视觉预训练规划) | VPP | 通过视频生成做视觉规划,再解码为动作 |
| 扩散策略 | Diffusion Policy、ACT | 用 扩散模型 生成动作序列,擅长多模态分布 |
| 模型预测控制 | MPC + 学习的 世界模型 | 在学到的动力学模型中做在线优化 |
| 模仿学习 | 行为克隆、DAgger | 从人类示范中直接学习策略映射 |
关键挑战
- 数据瓶颈:真实机器人数据采集成本高、速度慢,且不同形态之间难以复用。跨平台数据集(如 Xperience-10M)和仿真到真实(sim-to-real)迁移是重要研究方向
- 泛化能力:当前系统在训练分布外的新物体、新场景、新指令上表现不稳定
- 长时程任务:复杂家务、组装等需要数十步连贯操作的任务,对规划和纠错能力要求极高
- 安全与鲁棒性:物理世界的交互不可逆,对失败容忍度低