Pi0, Pi0.5

在“具身智能”（embodied intelligence / embodied AI / Physical Intelligence）这个领域，**π₀（Pi-zero）** 和 π₀.₅（Pi-zero-point-five） 是由 Physical Intelligence 公司提出的两种 Vision-Language-Action (VLA) / 机器人基础模型（robot foundation models），用于让机器人具备更强的通用性和环境泛化能力。下面我来详细介绍它们是什么、有什么区别，以及它们推动了具身智能哪些方面的进展。

π₀（Pi-Zero）

全名／论文：“π₀: A Vision-Language-Action Flow Model for General Robot Control” (physicalintelligence.company)

核心目标

构建一个通用的机器人策略模型（generalist robot policy / foundation model），能在多种机器人平台、多任务环境下工作，并且能从视觉（vision）、语言（language）和动作（action）等多模态中学习。目标是让机器人“听得到自然语言指令 + 看得到环境 + 做出运动控制”的能力变得更强、更通用。 (physicalintelligence.company)

主要特性

跨具身／跨平台（cross-embodiment）训练：模型在多个机器人平台上训练，包括单臂、双臂、移动操作臂等。 (physicalintelligence.company)
多任务数据集：训练任务包括洗衣服叠衣、装箱、整理桌面、拿东西、扔垃圾、整理杂物等多种实际的操作任务。 (physicalintelligence.company)
视觉＋语言＋动作融合（Vision-Language-Action, VLA）：基础模型从视觉和语言预训练模型（vision-language model, VLM）继承语义理解能力，再加上动作（robotic actions）输出部分，以实现真实动作控制。 (physicalintelligence.company)
动作生成方式：采用流匹配（flow matching，一种类似 diffusion 的连续动作分布表示方式）来生成连续动作轨迹，可以支持较高频率的控制（例如 50 Hz）以应对精细操作。 (physicalintelligence.company)
预训练 + 后训练（pre-training + finetuning / specialization）：模型先在非常多样性的数据上做预训练／大规模多任务训练，然后可以为特定场景或任务做微调，以提升性能和效率。 (physicalintelligence.company)

局限／适用范围

虽已很强，但在未见过的环境、未见过的物体、完全新房间或家庭环境中，泛化能力仍有限。也就是说，“新环境 + 新任务 + 新摆设”那种真实世界的复杂多变性，对 π₀ 来说仍是挑战。 (physicalintelligence.company)

π₀.₅（Pi-Zero-Point-Five）

全名／论文：“π_{0.5}: a Vision-Language-Action Model with Open-World Generalization” (arXiv)

为什么提出

因为 π₀ 在“实验环境”或“训练环境”之外的泛化还有缺口——对于在新的房屋（“新家居环境”）、新的摆设、未见过的物体甚至完全新的任务组合，其性能会下降。为了让机器人在现实世界中更实用，需要更强的“开世界泛化”（open-world generalization）。于是就有了 π₀.₅。

核心改进

联合训练更多异构任务／数据源（co-training on heterogeneous data）：不仅有机器人操作任务，也包含网页数据、物體侦测、语义子任务（semantic subtask）预测、高级指令 / 语言指导等。这样模型能学会不仅“如何动作”，也能学会“语义结构”，“任务拆解”，“对未知对象/场景做语义判断”之类的东西。 (arXiv)
更强的环境 /场景泛化：在完全没在训练中见过的房屋中执行任务，例如厨房、卧室清理、整理物品等长期／多步任务，结果比 π₀ 更好。 (physicalintelligence.company)
高粗粒度＋低粗粒度的指令/子任务结合：既能接收高层次的语义指令（例如 “清理厨房”），也能执行较低层次／具体的动作（比如 “用海绵擦地板 / 拿起叉子放在水槽里”）。模型在不同层级上都有能力。 (physicalintelligence.company)
模型结构改进以支持这种泛化：保留 π₀ 的 VLA + flow matching 架构，但在训练 recipe 中加入更多不同环境、不同机器人的数据，以及加入 web 上的视觉／语言任务（标注、检测等），使得模型学习“更通用”的语义 + 物理共感知能力。 (arXiv)

成果和效果

可以让机器人在全新房屋（从来没见过训练里的房间）里完成清理厨房、卧室等任务。 (physicalintelligence.company)
在“open-world”设定下的成功率比 π₀ 明显更高。 (physicalintelligence.company)
模型在语义对齐、物体识别新类别、任务步骤拆分等语义理解方面有更好表现。 (physicalintelligence.company)

总结对比（Pi₀ vs Pi₀.₅）

方面	π₀	π₀.₅
目标	通用机器人控制 / foundation model，支持多任务、多机器人、多模态	在 π₀ 基础上进一步增强真实世界环境的泛化能力，尤其是未见过的环境／场景
训练数据	多机器人、多任务、视觉＋语言＋动作，但环境与任务组合受限于训练中见过的场景	包含更多异构数据源，比如 web 数据 + 语义子任务 + 物体检测等，还看到完全未见过的环境进行测试
泛化能力	对于训练环境之外或稍有差异的任务有一定能力，但在真实 open-world 情况下局限性明显	open-world 泛化明显更强，能在新房屋中完成复杂多步任务，有更强的语义理解 + 动作灵活性
指令／层级	可处理语言指令 + 低层动作控制；任务执行相对明确的环境中效果好	在更朦胧／复杂／不确定环境中，也能处理高层 + 子任务 + 低层动作的混合指令，并适应环境不熟悉的情况

在具身智能领域的意义

这些工作标志着具身智能 /机器人基础模型往“实际家居／现实环境”里迈进一步，不仅只是“在实验室里看起来不错”，而是希望能有“走出实验室”的能力。Open-world 泛化是具身智能中一个非常重要的难点，因为现实世界非常复杂、多样、不确定——光照、物体类型配置、桌椅摆放、人的行为干扰、空间布局都很多变。

所以 π₀ / π₀.₅ 的贡献主要是：

跨环境与跨机器人的通用性：减轻了为每一种机器人／每一个环境都从头训练的成本。
语义 + 感知 + 动作的整合：让机器人不只是“按图执行动作”，而是理解任务语义、目标语义（做什么），环境语义（什么是桌子，什么是垃圾桶），并把动作和这些语义结合起来。
长期任务／多步任务能力：不仅是一个移一个物体，而是能组合多个动作／子任务完成较长流程（例如清理房间、折衣服）等。
流程向真实世界靠拢：在未见过的房屋中操作，遇到新物体、新位置，需要一定的适应和鲁棒性。

Sean's Blog

Explorer