VLM(Vision-Language Model)是将视觉和语言两种模态统一理解的多模态基础模型。输入图像/视频 + 文本,输出文本或多模态表征。核心能力是视觉-语言对齐——让模型”看懂”图片并用语言描述/推理。

典型架构

图像 → 视觉编码器(ViT / SigLIP / CLIP)→ 视觉 token
                                            → LLM 骨干 → 文本输出
文本 → Tokenizer → 文本 token ──────────────→

关键组件:

  • 视觉编码器:提取图像特征,常用 ViT 系列
  • 对齐模块:将视觉特征投射到 LLM 的 token 空间(Q-Former、线性投影等)
  • LLM 骨干:处理融合后的多模态 token,生成文本响应

代表模型

模型机构特点
CLIPOpenAI对比学习对齐图文,开创性工作
BLIP-2SalesforceQ-Former 桥接冻结视觉编码器和 LLM
LLaVA开源简单线性投影 + 视觉指令微调
FlamingoDeepMind交叉注意力融合,少样本能力强
PaLI / PaLI-XGoogle大规模多语言视觉-语言模型
GeminiGoogle DeepMind原生多模态,非后接桥接
GPT-4oOpenAI原生多模态
Qwen-VL阿里开源多模态系列
InternVL上海 AI Lab开源,多分辨率

VLA 的关系

VLM 是 VLA(视觉-语言-动作模型)的”底座”。VLM 负责”看+理解”,VLA 在此基础上增加动作输出头实现”看+理解+动”。大多数 VLA 的训练从 VLM 预训练权重出发,再用机器人数据微调。

应用场景

  • 视觉问答:给图片提问(“图中有几个人?”)
  • 图像描述:生成图片文字描述
  • 视觉推理:基于图像的逻辑推理
  • 多模态检索:文本搜图 / 图搜文本
  • 机器人语义理解:理解场景中物体属性(如”这个物体是易碎的吗?”)——piper_grasp 中的 GLM-4 语义判断即此类应用

相关术语

  • VLA — 在 VLM 基础上增加动作输出,用于机器人控制
  • 视觉编码器 — VLM 的视觉特征提取组件