视觉编码器 语言编码器
视觉语言模型通常由 3 个关键元素组成: 图像编码器、文本编码器以及融合两个编码器的信息的策略。
模型能力的检验指标?
学习策略
视觉语言模型的学习策略有哪些
根据文档内容,视觉语言模型的学习策略围绕“图像编码器、文本编码器、信息融合策略”三大核心元素设计,通过多样化预训练目标实现跨模态对齐,具体可分为以下5类,各类策略的核心逻辑、代表模型及适用场景如下:
1. 对比学习(Contrastive Learning)
核心目标:将图像与文本映射到同一特征空间,通过对比损失使“匹配的图文对嵌入距离最小化,不匹配的距离最大化”,实现跨模态基础对齐。 关键细节:
- 距离度量:CLIP采用余弦距离;ALIGN、DeCLIP针对“数据集噪声”设计定制化距离度量;
- 优化变种:LiT提出“冻结图像编码器,仅微调文本编码器”,让文本编码器“读懂”图像嵌入,样本效率优于CLIP;
- 混合应用:FLAVA将对比学习与其他策略结合,强化多模态对齐效果。
- 代表模型:CLIP、CLOOB、ALIGN、DeCLIP、LiT
- 适用场景:零样本图像分类、图文检索等基础跨模态任务。
2. PrefixLM(前缀语言建模)
核心目标:将图像视为“语言模型的前缀”,通过统一的Transformer编解码器架构,联合学习图像与文本嵌入,聚焦文本生成类任务。 关键细节:
- 基础逻辑:
- 文本前缀:如给定“一个男人站在”,模型预测下一词“墙角”;
- 图像前缀:ViT将图像分割为patch(块),与文本前缀拼接为“联合前缀”,输入编码器后,由解码器预测文本续接内容;
- 训练流程:SimVLM等模型先在纯文本数据集预训练,再在对齐图文数据集微调;
- 冻结变种:Frozen、MAPL、ClipCap仅更新“图像编码器”,生成可适配“冻结语言模型”的图像嵌入;Flamingo进一步冻结“视觉编码器+语言模型”,通过添加感知器重采样器和交叉注意力层刷新少样本学习性能。
- 优势:可使用有限对齐图文数据训练,适用于缺乏多模态数据的领域。
- 代表模型:SimVLM、VirTex、Frozen、ClipCap、Flamingo
- 适用场景:图像标题生成、视觉问答(VQA)等生成式跨模态任务。
3. 多模态融合与交叉注意力(Cross-Attention Fusion)
核心目标:不将图像作为“附加前缀”,而是通过交叉注意力机制,将视觉信息直接融入语言模型解码器的各层,实现更深度的模态融合。 关键细节:
- 融合逻辑:视觉编码器生成图像嵌入后,通过交叉注意力层与语言解码器交互,平衡“视觉信息融入”与“文本生成能力”;
- 优化升级:FIBER在视觉/语言主干模型中插入“带门控机制的交叉注意力层”,支持图文互搜、开放域目标检测等复杂任务。
- 代表模型:VisualGPT、VC-GPT、Flamingo、FIBER
- 适用场景:高精度图像标题生成、复杂视觉问答(需深度模态交互)。
4. 掩膜语言建模及图文匹配(MLM/ITM)
核心目标:通过“局部语义预测(MLM,Masked-Language Modeling)+全局匹配判断(ITM, Image-Text Matching)”,实现图像“局部区域”与文本“局部词汇”的精细对齐。 关键细节:
- 掩膜语言建模(MLM):给定部分遮盖的文本(如“图中有一只
[MASK]猫”),模型结合图像预测被遮盖的单词;需依赖“带边界框标注的数据集”或“目标检测模型生成候选区域”; - 图文匹配(ITM):给定图文对,模型判断文本是否与图像匹配(正样本为真实配对,负样本随机抽取);
- 联合应用:VisualBERT(基于BERT架构)通过自注意力隐式对齐“文本元素与图像区域”,预训练时同时启用MLM+ITM;FLAVA进一步加入“掩膜图像建模(MIM)”,强化视觉端局部特征学习。
- 代表模型:VisualBERT、FLAVA、ViLBERT、LXMERT、BridgeTower
- 适用场景:视觉常识推理、文本引导目标检测、精细图文对齐任务(如短语关联)。
5. 无训练(No-Training)
核心目标:无需额外训练,通过“预训练单模态模型+迭代优化/相似性搜索”,直接适配新的多模态任务,降低数据依赖。 关键实现:
- MaGiC:用预训练自回归语言模型生成图像标题,通过“生成词的CLIP嵌入与图像CLIP嵌入”计算“魔法分数(magic score)”,迭代优化生成结果;
- ASIF:基于“相似图像的标题也相似”的直觉,用小型多模态数据集构建“相似性表示空间”,通过搜索实现图像标题生成,无需更新模型参数。 代表模型:MaGiC、ASIF 适用场景:缺乏大规模对齐数据的场景,或需快速适配新任务的场景(如小领域图像标题生成)。
总结:
各策略的核心差异与选择逻辑
| 学习策略 | 核心对齐粒度 | 数据依赖度 | 代表任务 | 关键优势 | |
|---|---|---|---|---|---|
| 对比学习 | 全局特征对齐 | 高(需大规模图文对) | 零样本分类、图文检索 | 基础跨模态能力强,泛化性好 | |
| PrefixLM | 前缀-文本对齐 | 中(可冻结LM降依赖) | 图像标题生成、VQA | 生成式任务适配性优 | |
| 交叉注意力融合 | 层间深度对齐 | 中(需平衡模态交互) | 复杂VQA、开放域检测 | 模态融合更精细,支持复杂任务 | |
| MLM/ITM | 局部语义对齐 | 高(需标注或检测辅助) | 文本引导检测、常识推理 | 图文局部对齐精度高 | |
| 无训练 | 无参数更新 | 低(仅需小型数据集) | 小领域标题生成 | 快速适配,无需训练成本 |