VLM 和 VLA 已拆为独立术语卡片,详见 VLM 和 VLA。本卡片保留 VLN 定义。
VLN(Vision-and-Language Navigation)
视觉-语言导航。给定自然语言指令,智能体在真实/模拟环境中导航到目标位置的任务。
- 输入/输出:环境视觉流 + 指令 → 导航动作序列
- 数据集/基准:R2R、RxR、REVERIE、VLN-CE
- 评估指标:SR(成功率)、SPL(成功加权路径长度)、nDTW
VLN 是一个特定任务/基准,可由 VLA 类方法求解。与 VLA 的区别在于 VLN 专注导航(移动到某处),而 VLA 覆盖更广泛的操作任务(抓取、放置、组装等)。
相关术语
- VLM — 视觉-语言理解底座
- VLA — 视觉-语言-动作,覆盖操作任务