Sean's Blog

❯

1D 人工智能知识库

❯

❯

❯

VLM，VLA，VLN

VLM，VLA，VLN

2026年3月18日1分钟阅读

card/term

VLM 和 VLA 已拆为独立术语卡片，详见 VLM 和 VLA。本卡片保留 VLN 定义。

VLN（Vision-and-Language Navigation）

视觉-语言导航。给定自然语言指令，智能体在真实/模拟环境中导航到目标位置的任务。

输入/输出：环境视觉流 + 指令 → 导航动作序列
数据集/基准：R2R、RxR、REVERIE、VLN-CE
评估指标：SR（成功率）、SPL（成功加权路径长度）、nDTW

VLN 是一个特定任务/基准，可由 VLA 类方法求解。与 VLA 的区别在于 VLN 专注导航（移动到某处），而 VLA 覆盖更广泛的操作任务（抓取、放置、组装等）。

相关术语

VLM — 视觉-语言理解底座
VLA — 视觉-语言-动作，覆盖操作任务

目录

VLN（Vision-and-Language Navigation）
相关术语

Graph View

反向链接

具身智能In-the-Wild数据采集方式综述

Created with Quartz © 2026

GitHub
Email
RSS