在“具身智能”(embodied intelligence / embodied AI / Physical Intelligence)这个领域,**π₀(Pi-zero)** 和 π₀.₅(Pi-zero-point-five) 是由 Physical Intelligence 公司提出的两种 Vision-Language-Action (VLA) / 机器人基础模型(robot foundation models),用于让机器人具备更强的通用性和环境泛化能力。下面我来详细介绍它们是什么、有什么区别,以及它们推动了具身智能哪些方面的进展。
π₀(Pi-Zero)
全名/论文:“π₀: A Vision-Language-Action Flow Model for General Robot Control” (physicalintelligence.company)
核心目标
构建一个通用的机器人策略模型(generalist robot policy / foundation model),能在多种机器人平台、多任务环境下工作,并且能从视觉(vision)、语言(language)和动作(action)等多模态中学习。目标是让机器人“听得到自然语言指令 + 看得到环境 + 做出运动控制”的能力变得更强、更通用。 (physicalintelligence.company)
主要特性
- 跨具身/跨平台(cross-embodiment)训练:模型在多个机器人平台上训练,包括单臂、双臂、移动操作臂等。 (physicalintelligence.company)
- 多任务数据集:训练任务包括洗衣服叠衣、装箱、整理桌面、拿东西、扔垃圾、整理杂物等多种实际的操作任务。 (physicalintelligence.company)
- 视觉+语言+动作融合(Vision-Language-Action, VLA):基础模型从视觉和语言预训练模型(vision-language model, VLM)继承语义理解能力,再加上动作(robotic actions)输出部分,以实现真实动作控制。 (physicalintelligence.company)
- 动作生成方式:采用流匹配(flow matching,一种类似 diffusion 的连续动作分布表示方式)来生成连续动作轨迹,可以支持较高频率的控制(例如 50 Hz)以应对精细操作。 (physicalintelligence.company)
- 预训练 + 后训练(pre-training + finetuning / specialization):模型先在非常多样性的数据上做预训练/大规模多任务训练,然后可以为特定场景或任务做微调,以提升性能和效率。 (physicalintelligence.company)
局限/适用范围
- 虽已很强,但在未见过的环境、未见过的物体、完全新房间或家庭环境中,泛化能力仍有限。也就是说,“新环境 + 新任务 + 新摆设”那种真实世界的复杂多变性,对 π₀ 来说仍是挑战。 (physicalintelligence.company)
π₀.₅(Pi-Zero-Point-Five)
全名/论文:“π_{0.5}: a Vision-Language-Action Model with Open-World Generalization” (arXiv)
为什么提出
因为 π₀ 在“实验环境”或“训练环境”之外的泛化还有缺口——对于在新的房屋(“新家居环境”)、新的摆设、未见过的物体甚至完全新的任务组合,其性能会下降。为了让机器人在现实世界中更实用,需要更强的“开世界泛化”(open-world generalization)。于是就有了 π₀.₅。
核心改进
- 联合训练更多异构任务/数据源(co-training on heterogeneous data):不仅有机器人操作任务,也包含网页数据、物體侦测、语义子任务(semantic subtask)预测、高级指令 / 语言指导等。这样模型能学会不仅“如何动作”,也能学会“语义结构”,“任务拆解”,“对未知对象/场景做语义判断”之类的东西。 (arXiv)
- 更强的环境 /场景泛化:在完全没在训练中见过的房屋中执行任务,例如厨房、卧室清理、整理物品等长期/多步任务,结果比 π₀ 更好。 (physicalintelligence.company)
- 高粗粒度+低粗粒度的指令/子任务结合:既能接收高层次的语义指令(例如 “清理厨房”),也能执行较低层次/具体的动作(比如 “用海绵擦地板 / 拿起叉子放在水槽里”)。模型在不同层级上都有能力。 (physicalintelligence.company)
- 模型结构改进以支持这种泛化:保留 π₀ 的 VLA + flow matching 架构,但在训练 recipe 中加入更多不同环境、不同机器人的数据,以及加入 web 上的视觉/语言任务(标注、检测等),使得模型学习“更通用”的语义 + 物理共感知能力。 (arXiv)
成果和效果
- 可以让机器人在全新房屋(从来没见过训练里的房间)里完成清理厨房、卧室等任务。 (physicalintelligence.company)
- 在“open-world”设定下的成功率比 π₀ 明显更高。 (physicalintelligence.company)
- 模型在语义对齐、物体识别新类别、任务步骤拆分等语义理解方面有更好表现。 (physicalintelligence.company)
总结对比(Pi₀ vs Pi₀.₅)
| 方面 | π₀ | π₀.₅ |
|---|---|---|
| 目标 | 通用机器人控制 / foundation model,支持多任务、多机器人、多模态 | 在 π₀ 基础上进一步增强真实世界环境的泛化能力,尤其是未见过的环境/场景 |
| 训练数据 | 多机器人、多任务、视觉+语言+动作,但环境与任务组合受限于训练中见过的场景 | 包含更多异构数据源,比如 web 数据 + 语义子任务 + 物体检测等,还看到完全未见过的环境进行测试 |
| 泛化能力 | 对于训练环境之外或稍有差异的任务有一定能力,但在真实 open-world 情况下局限性明显 | open-world 泛化明显更强,能在新房屋中完成复杂多步任务,有更强的语义理解 + 动作灵活性 |
| 指令/层级 | 可处理语言指令 + 低层动作控制;任务执行相对明确的环境中效果好 | 在更朦胧/复杂/不确定环境中,也能处理高层 + 子任务 + 低层动作的混合指令,并适应环境不熟悉的情况 |
在具身智能领域的意义
这些工作标志着具身智能 /机器人基础模型往“实际家居/现实环境”里迈进一步,不仅只是“在实验室里看起来不错”,而是希望能有“走出实验室”的能力。Open-world 泛化是具身智能中一个非常重要的难点,因为现实世界非常复杂、多样、不确定——光照、物体类型配置、桌椅摆放、人的行为干扰、空间布局都很多变。
所以 π₀ / π₀.₅ 的贡献主要是:
- 跨环境与跨机器人的通用性:减轻了为每一种机器人/每一个环境都从头训练的成本。
- 语义 + 感知 + 动作的整合:让机器人不只是“按图执行动作”,而是理解任务语义、目标语义(做什么),环境语义(什么是桌子,什么是垃圾桶),并把动作和这些语义结合起来。
- 长期任务/多步任务能力:不仅是一个移一个物体,而是能组合多个动作/子任务完成较长流程(例如清理房间、折衣服)等。
- 流程向真实世界靠拢:在未见过的房屋中操作,遇到新物体、新位置,需要一定的适应和鲁棒性。