具身智能

具身智能（Embodied Intelligence / Embodied AI）是人工智能的一个核心分支，研究如何让智能体通过物理身体与真实世界进行感知、交互和学习。与纯数字域的 AI（如语言模型、推荐系统）不同，具身智能强调智能必须”扎根”于物理实体，通过传感器获取环境信息、通过执行器改变环境状态，在闭环交互中完成任务。

核心问题

具身智能要解决的核心问题是：如何让机器人在非结构化的真实环境中，像人一样灵活地感知、理解、规划和操作。这涉及多个交叉领域的挑战：

感知：融合视觉、触觉、本体感知、IMU 等多模态信息，构建对环境和自身状态的理解
决策与规划：基于高层语义指令（如自然语言）分解任务、制定动作序列
控制与执行：将规划结果转化为精确的关节运动，处理接触、力控等物理约束
学习与泛化：从有限的示范或交互经验中学习策略，并迁移到新任务和新环境

技术路线

当前具身智能的主流技术路线可大致分为以下几类：

路线	代表方法	特点
VLA（视觉-语言-动作）	VLA、RT-2、Pi0, Pi0.5	在 VLM 基础上微调，端到端输出动作
VPP（视觉预训练规划）	VPP	通过视频生成做视觉规划，再解码为动作
扩散策略	Diffusion Policy、ACT	用扩散模型生成动作序列，擅长多模态分布
模型预测控制	MPC + 学习的世界模型	在学到的动力学模型中做在线优化
模仿学习	行为克隆、DAgger	从人类示范中直接学习策略映射

关键挑战

数据瓶颈：真实机器人数据采集成本高、速度慢，且不同形态之间难以复用。跨平台数据集（如 Xperience-10M）和仿真到真实（sim-to-real）迁移是重要研究方向
泛化能力：当前系统在训练分布外的新物体、新场景、新指令上表现不稳定
长时程任务：复杂家务、组装等需要数十步连贯操作的任务，对规划和纠错能力要求极高
安全与鲁棒性：物理世界的交互不可逆，对失败容忍度低

Sean's Blog

Explorer

具身智能

具身智能

相关入口

核心问题

技术路线

关键挑战

相关资源

_terms

Xperience-10M 数据集调研

VLA 动作解码：自回归 vs 扩散

具身智能In-the-Wild数据采集方式综述

目录

Graph View

反向链接