“视觉编码器”(vision encoder)是把原始图像或视频帧转换成可供后续模型使用的紧凑特征表示的神经网络模块。它的作用是提取有用的视觉信息(形状、纹理、位置、语义等),并输出特征向量或特征图,供任务头(如分类器、检测器、策略网络等)使用。

要点

  • 输入/输出:输入为 RGB(可含深度)图像,输出为高维特征(如全局 embedding 或空间特征图/一串 token)。
  • 常见架构:卷积网络(ResNet-34/50 等)、视觉 Transformer(ViT-B/16、ViT-L/14)、混合架构。
  • 预训练方式:监督分类预训(ImageNet)、自监督/对比学习(CLIP、DINO)、掩码图像建模(MAE)等;可冻结或微调以适配下游任务。
  • 在机器人/视觉运动控制中:视觉编码器把相机画面编码为特征,再与本体感知(proprioception,如末端位姿、夹爪宽度)融合,输入策略网络以输出动作。
  • 选择与效果:更强大的预训练编码器通常带来更好的泛化(如 CLIP 预训练的 ViT 相比从零训练的 ResNet),尤其在“野外”多样环境中更稳健。