具身智能大模型与公司技术图谱

本文聚焦具身智能大模型的技术演进与架构对比。公司详细信息见 _cards/ 下各公司卡片。

VLA 模型演进

Vision-Language-Action (VLA) 模型将视觉感知、语言理解和动作生成统一到单一模型,是具身智能的核心技术方向。

关键模型时间线

模型机构时间关键创新
RFM-1Covariant2024 H180 亿参数,首个真实任务数据训练的机器人大模型
π0Physical Intelligence2024-10预训练 VLM + 条件流匹配动作专家,首个通用机器人基础模型
WALL-A自变量机器人2024-10VLA + 世界模型融合,具身多模态思维链
HelixFigure AI2025 Q1双系统(直觉 + 思考),端到端联合训练
GR00T N1NVIDIA2025-03双系统(S1 运动策略 + S2 VLM),首个高频全身控制 VLA,开源
Gemini RoboticsGoogle DeepMind2025-03基于 Gemini 2.0,动作作为新输出模态,灵巧操作
Gemini Robotics-ERGoogle DeepMind2025-03具身推理,代码生成 + 轨迹规划
Thinker优必选2025 Q1百亿参数多模态,三项国际基准全球第一
Genie Operator-1智元机器人2025-03VILLA 架构 + MOE,小样本泛化,成功率 +32%
EFM-1星海图2025 Q1快-慢双系统,感知到控制闭环
Spirit V1千寻智能2025 Q1首个攻克柔性物体长程操作的 VLA
ERA-42星动纪元2025 Q1端到端原生具身大模型,100+ 动态任务
RoboBrain 2.0智源研究院2025 H17B/32B 参数,感知-推理-规划统一,开源
π0.5Physical Intelligence2025-04开放世界泛化,异构任务协同训练,开源 (openpi)
Gemini Robotics On-DeviceGoogle DeepMind2025-06端侧轻量化,低延迟高可靠
WALL-OSS自变量机器人2025-09WALL-A 开源版,RoboChallenge 全球第二(超越 π0)
Noematrix Brain 2.0穹彻智能2025 H23D 模仿学习 + 视-触觉融合
Helix 02Figure AI2025-10Helix 扩展到全身控制(行走 + 平衡)
π*0.6Physical Intelligence2025-11RECAP 强化学习,从经验和纠正中持续学习
KAI0HKU MMLab2025-12模态一致性 + 模型算术 + 阶段优势,20h 演示达成高可靠
1X World Model1X2026-01视频世界模型,零样本学习未见过的物体和环境
GR00T N2NVIDIA2026-03World Action Model(DreamZero),性能 2×,排名第一

架构模式分析

端到端统一架构

以 π 系列为代表,将感知-理解-规划-执行融合在单一模型中。

  • π0:预训练 VLM + 条件流匹配动作专家,预训练 + 后训练范式
  • π0.5:异构任务协同训练(多机器人、高层语义预测、Web 数据混合),实现开放世界泛化
  • π*0.6:RECAP(RL with Experience and Corrections via Advantage-conditioned Policies),从真实交互中持续优化
  • Gemini Robotics:Gemini 2.0 基座上增加动作输出模态,继承强推理能力

双系统架构(快/慢系统)

模仿人类认知——System 1(快速直觉)+ System 2(深度推理):

  • GR00T N1:S1 = 视觉运动策略(高频控制),S2 = VLM(场景理解)
  • GR00T N2:升级为 World Action Model 架构(基于 DreamZero 研究)
  • Helix (Figure AI):双系统端到端联合训练
  • EFM-1 (星海图):快慢系统闭环决策

VLA + 世界模型融合

将物理世界运行规律的理解融入 VLA:

  • WALL-A (自变量):VLA + 世界模型深度融合,原生多模态输入输出,具身多模态思维链
  • LimX VGM (逐际动力):视频生成技术驱动具身大脑

分层控制 / 力控架构

  • 智元”具身智脑”:云端超脑(任务级)→ 大脑(技能级)→ 小脑(指令级)→ 脑干(伺服级)
  • Noematrix Brain (穹彻智能):实体世界大模型 + 行为大模型,力反馈驱动决策。2.0 版新增 3D 模仿学习、视-触觉融合
  • Skild Brain:低频高层策略 → 高频低层策略,跨形态通用控制

数据策略

策略代表方法
真实世界数据为主自变量机器人千寻智能强调真实数据质量与规模
合成数据驱动银河通用 (GraspVLA)无需大规模真实数据,仅合成数据预训练
Real2Sim2Real星海图 (RSR 引擎)、逐际动力 (DreamActor)真实 → 仿真 → 真实闭环
异构协同训练π0.5多机器人 / 多任务 / Web 数据混合
低资源高效KAI0模态一致性对齐 + 模型权重插值,20h 演示
经验强化学习π*0.6RECAP:从真实经验和人类纠正中迭代优化

公司技术定位

大脑层(AI / 大模型)

公司核心技术定位
Physical Intelligenceπ 系列 VLA最强通用 VLA,开源生态 (openpi)
Google DeepMindGemini RoboticsGemini 基座,最强推理,端侧部署
NVIDIAGR00T 系列平台级方案,开源开放
自变量机器人WALL-AVLA + 世界模型融合,累计融资 30 亿+
银河通用GraspVLA / GroceryVLA / TrackVLA合成数据路线先锋,估值 200 亿+
无界动力通用操作大脑前地平线副总裁创办,累计融资近 8 亿
穹彻智能Noematrix Brain力控中心,端到端力反馈
星海图EFM-1 + DP3 + RSR一脑多形,Real2Sim2Real
智源研究院RoboBrain 2.0开源研究,7B/32B

全栈(大脑 + 本体)

公司产品 + 模型特点
Figure AIFigure 03 + Helix 02BMW 量产部署(30K 辆车),BotQ 工厂 12K/年,$39B 估值
智元机器人远征 A1 + Genie Operator-1自研关节 + 大模型,2025 出货 5100 台
优必选Walker S2 + Thinker商业化领先,年订单 14 亿元
TeslaOptimus Gen 3Giga Texas 目标千万台/年,50 执行器灵巧手
Boston DynamicsAtlas (Electric) + Spot + StretchHyundai 30K 机器人/年工厂,DeepMind 合作
星动纪元STAR1 + ERA-42端到端原生,55 自由度高动态
千寻智能Moz1 + Spirit V1柔性操作,力控关节密度领先
逐际动力CL-2 + LimX VGM / DreamActor运动智能先锋,Real2Sim2Real

本体 / 硬件

公司形态特点
宇树科技四足 + 人形四足全球 70% 份额,人形 1500 台出货,IPO 辅导中
1X人形 NEO + 轮式 EVE消费级 $20K,EQT 签约万台
傅利叶人形 GR-2康复起家,53 自由度
开普勒人形 K2低成本(目标 <3 万美元),高国产化
众擎科技双足 PM01高动态运动
松延动力人形 N2后空翻能力,3.99 万元起
加速进化人形 T1科研教育,19.9 万元起
小鹏机器人人形 Iron图灵芯片 3000T 算力,鹰眼视觉
越疆协作臂 + 人形 DobotAtom港交所上市,累计出货 8 万台

学术前沿

  • VoxPoser (Stanford 李飞飞) — VLM/LLM 常识 → 3D 空间映射 → 零样本操作
  • RoboAgent (Meta + CMU) — MT-ACT 架构,语义增强数据倍增,低数据预算恢复高性能策略
  • DP3 (星海图) — 3D 扩散策略,仅 10 次演示 → 85% 成功率
  • KAI0 (HKU MMLab) — 模态一致性 + 模型算术 + 阶段优势估计,20h 演示 + 8×A100 达成高可靠衣物操作