具身智能大模型与公司技术图谱
本文聚焦具身智能大模型的技术演进与架构对比。公司详细信息见
_cards/下各公司卡片。
VLA 模型演进
Vision-Language-Action (VLA) 模型将视觉感知、语言理解和动作生成统一到单一模型,是具身智能的核心技术方向。
关键模型时间线
| 模型 | 机构 | 时间 | 关键创新 |
|---|---|---|---|
| RFM-1 | Covariant | 2024 H1 | 80 亿参数,首个真实任务数据训练的机器人大模型 |
| π0 | Physical Intelligence | 2024-10 | 预训练 VLM + 条件流匹配动作专家,首个通用机器人基础模型 |
| WALL-A | 自变量机器人 | 2024-10 | VLA + 世界模型融合,具身多模态思维链 |
| Helix | Figure AI | 2025 Q1 | 双系统(直觉 + 思考),端到端联合训练 |
| GR00T N1 | NVIDIA | 2025-03 | 双系统(S1 运动策略 + S2 VLM),首个高频全身控制 VLA,开源 |
| Gemini Robotics | Google DeepMind | 2025-03 | 基于 Gemini 2.0,动作作为新输出模态,灵巧操作 |
| Gemini Robotics-ER | Google DeepMind | 2025-03 | 具身推理,代码生成 + 轨迹规划 |
| Thinker | 优必选 | 2025 Q1 | 百亿参数多模态,三项国际基准全球第一 |
| Genie Operator-1 | 智元机器人 | 2025-03 | VILLA 架构 + MOE,小样本泛化,成功率 +32% |
| EFM-1 | 星海图 | 2025 Q1 | 快-慢双系统,感知到控制闭环 |
| Spirit V1 | 千寻智能 | 2025 Q1 | 首个攻克柔性物体长程操作的 VLA |
| ERA-42 | 星动纪元 | 2025 Q1 | 端到端原生具身大模型,100+ 动态任务 |
| RoboBrain 2.0 | 智源研究院 | 2025 H1 | 7B/32B 参数,感知-推理-规划统一,开源 |
| π0.5 | Physical Intelligence | 2025-04 | 开放世界泛化,异构任务协同训练,开源 (openpi) |
| Gemini Robotics On-Device | Google DeepMind | 2025-06 | 端侧轻量化,低延迟高可靠 |
| WALL-OSS | 自变量机器人 | 2025-09 | WALL-A 开源版,RoboChallenge 全球第二(超越 π0) |
| Noematrix Brain 2.0 | 穹彻智能 | 2025 H2 | 3D 模仿学习 + 视-触觉融合 |
| Helix 02 | Figure AI | 2025-10 | Helix 扩展到全身控制(行走 + 平衡) |
| π*0.6 | Physical Intelligence | 2025-11 | RECAP 强化学习,从经验和纠正中持续学习 |
| KAI0 | HKU MMLab | 2025-12 | 模态一致性 + 模型算术 + 阶段优势,20h 演示达成高可靠 |
| 1X World Model | 1X | 2026-01 | 视频世界模型,零样本学习未见过的物体和环境 |
| GR00T N2 | NVIDIA | 2026-03 | World Action Model(DreamZero),性能 2×,排名第一 |
架构模式分析
端到端统一架构
以 π 系列为代表,将感知-理解-规划-执行融合在单一模型中。
- π0:预训练 VLM + 条件流匹配动作专家,预训练 + 后训练范式
- π0.5:异构任务协同训练(多机器人、高层语义预测、Web 数据混合),实现开放世界泛化
- π*0.6:RECAP(RL with Experience and Corrections via Advantage-conditioned Policies),从真实交互中持续优化
- Gemini Robotics:Gemini 2.0 基座上增加动作输出模态,继承强推理能力
双系统架构(快/慢系统)
模仿人类认知——System 1(快速直觉)+ System 2(深度推理):
- GR00T N1:S1 = 视觉运动策略(高频控制),S2 = VLM(场景理解)
- GR00T N2:升级为 World Action Model 架构(基于 DreamZero 研究)
- Helix (Figure AI):双系统端到端联合训练
- EFM-1 (星海图):快慢系统闭环决策
VLA + 世界模型融合
将物理世界运行规律的理解融入 VLA:
- WALL-A (自变量):VLA + 世界模型深度融合,原生多模态输入输出,具身多模态思维链
- LimX VGM (逐际动力):视频生成技术驱动具身大脑
分层控制 / 力控架构
- 智元”具身智脑”:云端超脑(任务级)→ 大脑(技能级)→ 小脑(指令级)→ 脑干(伺服级)
- Noematrix Brain (穹彻智能):实体世界大模型 + 行为大模型,力反馈驱动决策。2.0 版新增 3D 模仿学习、视-触觉融合
- Skild Brain:低频高层策略 → 高频低层策略,跨形态通用控制
数据策略
| 策略 | 代表 | 方法 |
|---|---|---|
| 真实世界数据为主 | 自变量机器人、千寻智能 | 强调真实数据质量与规模 |
| 合成数据驱动 | 银河通用 (GraspVLA) | 无需大规模真实数据,仅合成数据预训练 |
| Real2Sim2Real | 星海图 (RSR 引擎)、逐际动力 (DreamActor) | 真实 → 仿真 → 真实闭环 |
| 异构协同训练 | π0.5 | 多机器人 / 多任务 / Web 数据混合 |
| 低资源高效 | KAI0 | 模态一致性对齐 + 模型权重插值,20h 演示 |
| 经验强化学习 | π*0.6 | RECAP:从真实经验和人类纠正中迭代优化 |
公司技术定位
大脑层(AI / 大模型)
| 公司 | 核心技术 | 定位 |
|---|---|---|
| Physical Intelligence | π 系列 VLA | 最强通用 VLA,开源生态 (openpi) |
| Google DeepMind | Gemini Robotics | Gemini 基座,最强推理,端侧部署 |
| NVIDIA | GR00T 系列 | 平台级方案,开源开放 |
| 自变量机器人 | WALL-A | VLA + 世界模型融合,累计融资 30 亿+ |
| 银河通用 | GraspVLA / GroceryVLA / TrackVLA | 合成数据路线先锋,估值 200 亿+ |
| 无界动力 | 通用操作大脑 | 前地平线副总裁创办,累计融资近 8 亿 |
| 穹彻智能 | Noematrix Brain | 力控中心,端到端力反馈 |
| 星海图 | EFM-1 + DP3 + RSR | 一脑多形,Real2Sim2Real |
| 智源研究院 | RoboBrain 2.0 | 开源研究,7B/32B |
全栈(大脑 + 本体)
| 公司 | 产品 + 模型 | 特点 |
|---|---|---|
| Figure AI | Figure 03 + Helix 02 | BMW 量产部署(30K 辆车),BotQ 工厂 12K/年,$39B 估值 |
| 智元机器人 | 远征 A1 + Genie Operator-1 | 自研关节 + 大模型,2025 出货 5100 台 |
| 优必选 | Walker S2 + Thinker | 商业化领先,年订单 14 亿元 |
| Tesla | Optimus Gen 3 | Giga Texas 目标千万台/年,50 执行器灵巧手 |
| Boston Dynamics | Atlas (Electric) + Spot + Stretch | Hyundai 30K 机器人/年工厂,DeepMind 合作 |
| 星动纪元 | STAR1 + ERA-42 | 端到端原生,55 自由度高动态 |
| 千寻智能 | Moz1 + Spirit V1 | 柔性操作,力控关节密度领先 |
| 逐际动力 | CL-2 + LimX VGM / DreamActor | 运动智能先锋,Real2Sim2Real |
本体 / 硬件
| 公司 | 形态 | 特点 |
|---|---|---|
| 宇树科技 | 四足 + 人形 | 四足全球 70% 份额,人形 1500 台出货,IPO 辅导中 |
| 1X | 人形 NEO + 轮式 EVE | 消费级 $20K,EQT 签约万台 |
| 傅利叶 | 人形 GR-2 | 康复起家,53 自由度 |
| 开普勒 | 人形 K2 | 低成本(目标 <3 万美元),高国产化 |
| 众擎科技 | 双足 PM01 | 高动态运动 |
| 松延动力 | 人形 N2 | 后空翻能力,3.99 万元起 |
| 加速进化 | 人形 T1 | 科研教育,19.9 万元起 |
| 小鹏机器人 | 人形 Iron | 图灵芯片 3000T 算力,鹰眼视觉 |
| 越疆 | 协作臂 + 人形 DobotAtom | 港交所上市,累计出货 8 万台 |
学术前沿
- VoxPoser (Stanford 李飞飞) — VLM/LLM 常识 → 3D 空间映射 → 零样本操作
- RoboAgent (Meta + CMU) — MT-ACT 架构,语义增强数据倍增,低数据预算恢复高性能策略
- DP3 (星海图) — 3D 扩散策略,仅 10 次演示 → 85% 成功率
- KAI0 (HKU MMLab) — 模态一致性 + 模型算术 + 阶段优势估计,20h 演示 + 8×A100 达成高可靠衣物操作