VLM 和 VLA 已拆为独立术语卡片,详见 VLMVLA。本卡片保留 VLN 定义。

VLN(Vision-and-Language Navigation)

视觉-语言导航。给定自然语言指令,智能体在真实/模拟环境中导航到目标位置的任务。

  • 输入/输出:环境视觉流 + 指令 → 导航动作序列
  • 数据集/基准:R2R、RxR、REVERIE、VLN-CE
  • 评估指标:SR(成功率)、SPL(成功加权路径长度)、nDTW

VLN 是一个特定任务/基准,可由 VLA 类方法求解。与 VLA 的区别在于 VLN 专注导航(移动到某处),而 VLA 覆盖更广泛的操作任务(抓取、放置、组装等)。

相关术语

  • VLM — 视觉-语言理解底座
  • VLA — 视觉-语言-动作,覆盖操作任务