VLM

VLM（Vision-Language Model）是将视觉和语言两种模态统一理解的多模态基础模型。输入图像/视频 + 文本，输出文本或多模态表征。核心能力是视觉-语言对齐——让模型”看懂”图片并用语言描述/推理。

典型架构

图像 → 视觉编码器（ViT / SigLIP / CLIP）→ 视觉 token
                                            → LLM 骨干 → 文本输出
文本 → Tokenizer → 文本 token ──────────────→

关键组件：

视觉编码器：提取图像特征，常用 ViT 系列
对齐模块：将视觉特征投射到 LLM 的 token 空间（Q-Former、线性投影等）
LLM 骨干：处理融合后的多模态 token，生成文本响应

代表模型

模型	机构	特点
CLIP	OpenAI	对比学习对齐图文，开创性工作
BLIP-2	Salesforce	Q-Former 桥接冻结视觉编码器和 LLM
LLaVA	开源	简单线性投影 + 视觉指令微调
Flamingo	DeepMind	交叉注意力融合，少样本能力强
PaLI / PaLI-X	Google	大规模多语言视觉-语言模型
Gemini	Google DeepMind	原生多模态，非后接桥接
GPT-4o	OpenAI	原生多模态
Qwen-VL	阿里	开源多模态系列
InternVL	上海 AI Lab	开源，多分辨率

与 VLA 的关系

VLM 是 VLA（视觉-语言-动作模型）的”底座”。VLM 负责”看+理解”，VLA 在此基础上增加动作输出头实现”看+理解+动”。大多数 VLA 的训练从 VLM 预训练权重出发，再用机器人数据微调。

应用场景

视觉问答：给图片提问（“图中有几个人？”）
图像描述：生成图片文字描述
视觉推理：基于图像的逻辑推理
多模态检索：文本搜图 / 图搜文本
机器人语义理解：理解场景中物体属性（如”这个物体是易碎的吗？”）——piper_grasp 中的 GLM-4 语义判断即此类应用

相关术语

VLA — 在 VLM 基础上增加动作输出，用于机器人控制
视觉编码器 — VLM 的视觉特征提取组件