在“具身智能”(embodied intelligence / embodied AI / Physical Intelligence)这个领域,**π₀(Pi-zero)** 和 π₀.₅(Pi-zero-point-five) 是由 Physical Intelligence 公司提出的两种 Vision-Language-Action (VLA) / 机器人基础模型(robot foundation models),用于让机器人具备更强的通用性和环境泛化能力。下面我来详细介绍它们是什么、有什么区别,以及它们推动了具身智能哪些方面的进展。


π₀(Pi-Zero)

全名/论文“π₀: A Vision-Language-Action Flow Model for General Robot Control” (physicalintelligence.company)

核心目标

构建一个通用的机器人策略模型(generalist robot policy / foundation model),能在多种机器人平台、多任务环境下工作,并且能从视觉(vision)、语言(language)和动作(action)等多模态中学习。目标是让机器人“听得到自然语言指令 + 看得到环境 + 做出运动控制”的能力变得更强、更通用。 (physicalintelligence.company)

主要特性

  • 跨具身/跨平台(cross-embodiment)训练:模型在多个机器人平台上训练,包括单臂、双臂、移动操作臂等。 (physicalintelligence.company)
  • 多任务数据集:训练任务包括洗衣服叠衣、装箱、整理桌面、拿东西、扔垃圾、整理杂物等多种实际的操作任务。 (physicalintelligence.company)
  • 视觉+语言+动作融合(Vision-Language-Action, VLA):基础模型从视觉和语言预训练模型(vision-language model, VLM)继承语义理解能力,再加上动作(robotic actions)输出部分,以实现真实动作控制。 (physicalintelligence.company)
  • 动作生成方式:采用流匹配(flow matching,一种类似 diffusion 的连续动作分布表示方式)来生成连续动作轨迹,可以支持较高频率的控制(例如 50 Hz)以应对精细操作。 (physicalintelligence.company)
  • 预训练 + 后训练(pre-training + finetuning / specialization):模型先在非常多样性的数据上做预训练/大规模多任务训练,然后可以为特定场景或任务做微调,以提升性能和效率。 (physicalintelligence.company)

局限/适用范围

  • 虽已很强,但在未见过的环境、未见过的物体、完全新房间或家庭环境中,泛化能力仍有限。也就是说,“新环境 + 新任务 + 新摆设”那种真实世界的复杂多变性,对 π₀ 来说仍是挑战。 (physicalintelligence.company)

π₀.₅(Pi-Zero-Point-Five)

全名/论文“π_{0.5}: a Vision-Language-Action Model with Open-World Generalization” (arXiv)

为什么提出

因为 π₀ 在“实验环境”或“训练环境”之外的泛化还有缺口——对于在新的房屋(“新家居环境”)、新的摆设、未见过的物体甚至完全新的任务组合,其性能会下降。为了让机器人在现实世界中更实用,需要更强的“开世界泛化”(open-world generalization)。于是就有了 π₀.₅。

核心改进

  • 联合训练更多异构任务/数据源(co-training on heterogeneous data):不仅有机器人操作任务,也包含网页数据、物體侦测、语义子任务(semantic subtask)预测、高级指令 / 语言指导等。这样模型能学会不仅“如何动作”,也能学会“语义结构”,“任务拆解”,“对未知对象/场景做语义判断”之类的东西。 (arXiv)
  • 更强的环境 /场景泛化:在完全没在训练中见过的房屋中执行任务,例如厨房、卧室清理、整理物品等长期/多步任务,结果比 π₀ 更好。 (physicalintelligence.company)
  • 高粗粒度+低粗粒度的指令/子任务结合:既能接收高层次的语义指令(例如 “清理厨房”),也能执行较低层次/具体的动作(比如 “用海绵擦地板 / 拿起叉子放在水槽里”)。模型在不同层级上都有能力。 (physicalintelligence.company)
  • 模型结构改进以支持这种泛化:保留 π₀ 的 VLA + flow matching 架构,但在训练 recipe 中加入更多不同环境、不同机器人的数据,以及加入 web 上的视觉/语言任务(标注、检测等),使得模型学习“更通用”的语义 + 物理共感知能力。 (arXiv)

成果和效果


总结对比(Pi₀ vs Pi₀.₅)

方面π₀π₀.₅
目标通用机器人控制 / foundation model,支持多任务、多机器人、多模态在 π₀ 基础上进一步增强真实世界环境的泛化能力,尤其是未见过的环境/场景
训练数据多机器人、多任务、视觉+语言+动作,但环境与任务组合受限于训练中见过的场景包含更多异构数据源,比如 web 数据 + 语义子任务 + 物体检测等,还看到完全未见过的环境进行测试
泛化能力对于训练环境之外或稍有差异的任务有一定能力,但在真实 open-world 情况下局限性明显open-world 泛化明显更强,能在新房屋中完成复杂多步任务,有更强的语义理解 + 动作灵活性
指令/层级可处理语言指令 + 低层动作控制;任务执行相对明确的环境中效果好在更朦胧/复杂/不确定环境中,也能处理高层 + 子任务 + 低层动作的混合指令,并适应环境不熟悉的情况

在具身智能领域的意义

这些工作标志着具身智能 /机器人基础模型往“实际家居/现实环境”里迈进一步,不仅只是“在实验室里看起来不错”,而是希望能有“走出实验室”的能力。Open-world 泛化是具身智能中一个非常重要的难点,因为现实世界非常复杂、多样、不确定——光照、物体类型配置、桌椅摆放、人的行为干扰、空间布局都很多变。

所以 π₀ / π₀.₅ 的贡献主要是:

  1. 跨环境与跨机器人的通用性:减轻了为每一种机器人/每一个环境都从头训练的成本。
  2. 语义 + 感知 + 动作的整合:让机器人不只是“按图执行动作”,而是理解任务语义、目标语义(做什么),环境语义(什么是桌子,什么是垃圾桶),并把动作和这些语义结合起来。
  3. 长期任务/多步任务能力:不仅是一个移一个物体,而是能组合多个动作/子任务完成较长流程(例如清理房间、折衣服)等。
  4. 流程向真实世界靠拢:在未见过的房屋中操作,遇到新物体、新位置,需要一定的适应和鲁棒性。