具身智能大模型与公司技术图谱

本文聚焦具身智能大模型的技术演进与架构对比。公司详细信息见 _cards/ 下各公司卡片。

VLA 模型演进

Vision-Language-Action (VLA) 模型将视觉感知、语言理解和动作生成统一到单一模型，是具身智能的核心技术方向。

关键模型时间线

模型	机构	时间	关键创新
RFM-1	Covariant	2024 H1	80 亿参数，首个真实任务数据训练的机器人大模型
π0	Physical Intelligence	2024-10	预训练 VLM + 条件流匹配动作专家，首个通用机器人基础模型
WALL-A	自变量机器人	2024-10	VLA + 世界模型融合，具身多模态思维链
Helix	Figure AI	2025 Q1	双系统（直觉 + 思考），端到端联合训练
GR00T N1	NVIDIA	2025-03	双系统（S1 运动策略 + S2 VLM），首个高频全身控制 VLA，开源
Gemini Robotics	Google DeepMind	2025-03	基于 Gemini 2.0，动作作为新输出模态，灵巧操作
Gemini Robotics-ER	Google DeepMind	2025-03	具身推理，代码生成 + 轨迹规划
Thinker	优必选	2025 Q1	百亿参数多模态，三项国际基准全球第一
Genie Operator-1	智元机器人	2025-03	VILLA 架构 + MOE，小样本泛化，成功率 +32%
EFM-1	星海图	2025 Q1	快-慢双系统，感知到控制闭环
Spirit V1	千寻智能	2025 Q1	首个攻克柔性物体长程操作的 VLA
ERA-42	星动纪元	2025 Q1	端到端原生具身大模型，100+ 动态任务
RoboBrain 2.0	智源研究院	2025 H1	7B/32B 参数，感知-推理-规划统一，开源
π0.5	Physical Intelligence	2025-04	开放世界泛化，异构任务协同训练，开源 (openpi)
Gemini Robotics On-Device	Google DeepMind	2025-06	端侧轻量化，低延迟高可靠
WALL-OSS	自变量机器人	2025-09	WALL-A 开源版，RoboChallenge 全球第二（超越 π0）
Noematrix Brain 2.0	穹彻智能	2025 H2	3D 模仿学习 + 视-触觉融合
Helix 02	Figure AI	2025-10	Helix 扩展到全身控制（行走 + 平衡）
π*0.6	Physical Intelligence	2025-11	RECAP 强化学习，从经验和纠正中持续学习
KAI0	HKU MMLab	2025-12	模态一致性 + 模型算术 + 阶段优势，20h 演示达成高可靠
1X World Model	1X	2026-01	视频世界模型，零样本学习未见过的物体和环境
GR00T N2	NVIDIA	2026-03	World Action Model（DreamZero），性能 2×，排名第一

架构模式分析

端到端统一架构

以 π 系列为代表，将感知-理解-规划-执行融合在单一模型中。

π0：预训练 VLM + 条件流匹配动作专家，预训练 + 后训练范式
π0.5：异构任务协同训练（多机器人、高层语义预测、Web 数据混合），实现开放世界泛化
π*0.6：RECAP（RL with Experience and Corrections via Advantage-conditioned Policies），从真实交互中持续优化
Gemini Robotics：Gemini 2.0 基座上增加动作输出模态，继承强推理能力

双系统架构（快/慢系统）

模仿人类认知——System 1（快速直觉）+ System 2（深度推理）：

GR00T N1：S1 = 视觉运动策略（高频控制），S2 = VLM（场景理解）
GR00T N2：升级为 World Action Model 架构（基于 DreamZero 研究）
Helix (Figure AI)：双系统端到端联合训练
EFM-1 (星海图)：快慢系统闭环决策

VLA + 世界模型融合

将物理世界运行规律的理解融入 VLA：

WALL-A (自变量)：VLA + 世界模型深度融合，原生多模态输入输出，具身多模态思维链
LimX VGM (逐际动力)：视频生成技术驱动具身大脑

分层控制 / 力控架构

智元”具身智脑”：云端超脑（任务级）→ 大脑（技能级）→ 小脑（指令级）→ 脑干（伺服级）
Noematrix Brain (穹彻智能)：实体世界大模型 + 行为大模型，力反馈驱动决策。2.0 版新增 3D 模仿学习、视-触觉融合
Skild Brain：低频高层策略 → 高频低层策略，跨形态通用控制

数据策略

策略	代表	方法
真实世界数据为主	自变量机器人、千寻智能	强调真实数据质量与规模
合成数据驱动	银河通用 (GraspVLA)	无需大规模真实数据，仅合成数据预训练
Real2Sim2Real	星海图 (RSR 引擎)、逐际动力 (DreamActor)	真实 → 仿真 → 真实闭环
异构协同训练	π0.5	多机器人 / 多任务 / Web 数据混合
低资源高效	KAI0	模态一致性对齐 + 模型权重插值，20h 演示
经验强化学习	π*0.6	RECAP：从真实经验和人类纠正中迭代优化

公司技术定位

大脑层（AI / 大模型）

公司	核心技术	定位
Physical Intelligence	π 系列 VLA	最强通用 VLA，开源生态 (openpi)
Google DeepMind	Gemini Robotics	Gemini 基座，最强推理，端侧部署
NVIDIA	GR00T 系列	平台级方案，开源开放
自变量机器人	WALL-A	VLA + 世界模型融合，累计融资 30 亿+
银河通用	GraspVLA / GroceryVLA / TrackVLA	合成数据路线先锋，估值 200 亿+
无界动力	通用操作大脑	前地平线副总裁创办，累计融资近 8 亿
穹彻智能	Noematrix Brain	力控中心，端到端力反馈
星海图	EFM-1 + DP3 + RSR	一脑多形，Real2Sim2Real
智源研究院	RoboBrain 2.0	开源研究，7B/32B

全栈（大脑 + 本体）

公司	产品 + 模型	特点
Figure AI	Figure 03 + Helix 02	BMW 量产部署（30K 辆车），BotQ 工厂 12K/年，$39B 估值
智元机器人	远征 A1 + Genie Operator-1	自研关节 + 大模型，2025 出货 5100 台
优必选	Walker S2 + Thinker	商业化领先，年订单 14 亿元
Tesla	Optimus Gen 3	Giga Texas 目标千万台/年，50 执行器灵巧手
Boston Dynamics	Atlas (Electric) + Spot + Stretch	Hyundai 30K 机器人/年工厂，DeepMind 合作
星动纪元	STAR1 + ERA-42	端到端原生，55 自由度高动态
千寻智能	Moz1 + Spirit V1	柔性操作，力控关节密度领先
逐际动力	CL-2 + LimX VGM / DreamActor	运动智能先锋，Real2Sim2Real

本体 / 硬件

公司	形态	特点
宇树科技	四足 + 人形	四足全球 70% 份额，人形 1500 台出货，IPO 辅导中
1X	人形 NEO + 轮式 EVE	消费级 $20K，EQT 签约万台
傅利叶	人形 GR-2	康复起家，53 自由度
开普勒	人形 K2	低成本（目标 <3 万美元），高国产化
众擎科技	双足 PM01	高动态运动
松延动力	人形 N2	后空翻能力，3.99 万元起
加速进化	人形 T1	科研教育，19.9 万元起
小鹏机器人	人形 Iron	图灵芯片 3000T 算力，鹰眼视觉
越疆	协作臂 + 人形 DobotAtom	港交所上市，累计出货 8 万台

学术前沿

VoxPoser (Stanford 李飞飞) — VLM/LLM 常识 → 3D 空间映射 → 零样本操作
RoboAgent (Meta + CMU) — MT-ACT 架构，语义增强数据倍增，低数据预算恢复高性能策略
DP3 (星海图) — 3D 扩散策略，仅 10 次演示 → 85% 成功率
KAI0 (HKU MMLab) — 模态一致性 + 模型算术 + 阶段优势估计，20h 演示 + 8×A100 达成高可靠衣物操作

Sean's Blog

Explorer

具身机器人大模型&机器人公司

具身智能大模型与公司技术图谱

VLA 模型演进

关键模型时间线

架构模式分析

端到端统一架构

双系统架构（快/慢系统）

VLA + 世界模型融合

分层控制 / 力控架构

数据策略

公司技术定位

大脑层（AI / 大模型）

全栈（大脑 + 本体）

本体 / 硬件

学术前沿

目录

Graph View

反向链接