VLM(Vision-Language Model)是将视觉和语言两种模态统一理解的多模态基础模型。输入图像/视频 + 文本,输出文本或多模态表征。核心能力是视觉-语言对齐——让模型”看懂”图片并用语言描述/推理。
典型架构
图像 → 视觉编码器(ViT / SigLIP / CLIP)→ 视觉 token
→ LLM 骨干 → 文本输出
文本 → Tokenizer → 文本 token ──────────────→
关键组件:
- 视觉编码器:提取图像特征,常用 ViT 系列
- 对齐模块:将视觉特征投射到 LLM 的 token 空间(Q-Former、线性投影等)
- LLM 骨干:处理融合后的多模态 token,生成文本响应
代表模型
| 模型 | 机构 | 特点 |
|---|---|---|
| CLIP | OpenAI | 对比学习对齐图文,开创性工作 |
| BLIP-2 | Salesforce | Q-Former 桥接冻结视觉编码器和 LLM |
| LLaVA | 开源 | 简单线性投影 + 视觉指令微调 |
| Flamingo | DeepMind | 交叉注意力融合,少样本能力强 |
| PaLI / PaLI-X | 大规模多语言视觉-语言模型 | |
| Gemini | Google DeepMind | 原生多模态,非后接桥接 |
| GPT-4o | OpenAI | 原生多模态 |
| Qwen-VL | 阿里 | 开源多模态系列 |
| InternVL | 上海 AI Lab | 开源,多分辨率 |
与 VLA 的关系
VLM 是 VLA(视觉-语言-动作模型)的”底座”。VLM 负责”看+理解”,VLA 在此基础上增加动作输出头实现”看+理解+动”。大多数 VLA 的训练从 VLM 预训练权重出发,再用机器人数据微调。
应用场景
- 视觉问答:给图片提问(“图中有几个人?”)
- 图像描述:生成图片文字描述
- 视觉推理:基于图像的逻辑推理
- 多模态检索:文本搜图 / 图搜文本
- 机器人语义理解:理解场景中物体属性(如”这个物体是易碎的吗?”)——piper_grasp 中的 GLM-4 语义判断即此类应用