学习策略

视觉语言模型的学习策略有哪些

根据文档内容，视觉语言模型的学习策略围绕“图像编码器、文本编码器、信息融合策略”三大核心元素设计，通过多样化预训练目标实现跨模态对齐，具体可分为以下5类，各类策略的核心逻辑、代表模型及适用场景如下：

核心目标：将图像与文本映射到同一特征空间，通过对比损失使“匹配的图文对嵌入距离最小化，不匹配的距离最大化”，实现跨模态基础对齐。 关键细节：

距离度量：CLIP采用余弦距离；ALIGN、DeCLIP针对“数据集噪声”设计定制化距离度量；
优化变种：LiT提出“冻结图像编码器，仅微调文本编码器”，让文本编码器“读懂”图像嵌入，样本效率优于CLIP；
混合应用：FLAVA将对比学习与其他策略结合，强化多模态对齐效果。
- 代表模型：CLIP、CLOOB、ALIGN、DeCLIP、LiT
- 适用场景：零样本图像分类、图文检索等基础跨模态任务。

核心目标：将图像视为“语言模型的前缀”，通过统一的Transformer编解码器架构，联合学习图像与文本嵌入，聚焦文本生成类任务。 关键细节：

基础逻辑：
1. 文本前缀：如给定“一个男人站在”，模型预测下一词“墙角”；
2. 图像前缀：ViT将图像分割为patch（块），与文本前缀拼接为“联合前缀”，输入编码器后，由解码器预测文本续接内容；
训练流程：SimVLM等模型先在纯文本数据集预训练，再在对齐图文数据集微调；
冻结变种：Frozen、MAPL、ClipCap仅更新“图像编码器”，生成可适配“冻结语言模型”的图像嵌入；Flamingo进一步冻结“视觉编码器+语言模型”，通过添加感知器重采样器和交叉注意力层刷新少样本学习性能。
优势：可使用有限对齐图文数据训练，适用于缺乏多模态数据的领域。
代表模型：SimVLM、VirTex、Frozen、ClipCap、Flamingo
适用场景：图像标题生成、视觉问答（VQA）等生成式跨模态任务。

核心目标：不将图像作为“附加前缀”，而是通过交叉注意力机制，将视觉信息直接融入语言模型解码器的各层，实现更深度的模态融合。 关键细节：

核心目标：通过“局部语义预测（MLM，Masked-Language Modeling）+全局匹配判断（ITM， Image-Text Matching）”，实现图像“局部区域”与文本“局部词汇”的精细对齐。 关键细节：

掩膜语言建模（MLM）：给定部分遮盖的文本（如“图中有一只[MASK]猫”），模型结合图像预测被遮盖的单词；需依赖“带边界框标注的数据集”或“目标检测模型生成候选区域”；
图文匹配（ITM）：给定图文对，模型判断文本是否与图像匹配（正样本为真实配对，负样本随机抽取）；
联合应用：VisualBERT（基于BERT架构）通过自注意力隐式对齐“文本元素与图像区域”，预训练时同时启用MLM+ITM；FLAVA进一步加入“掩膜图像建模（MIM）”，强化视觉端局部特征学习。
代表模型：VisualBERT、FLAVA、ViLBERT、LXMERT、BridgeTower
适用场景：视觉常识推理、文本引导目标检测、精细图文对齐任务（如短语关联）。

核心目标：无需额外训练，通过“预训练单模态模型+迭代优化/相似性搜索”，直接适配新的多模态任务，降低数据依赖。 关键实现：

MaGiC：用预训练自回归语言模型生成图像标题，通过“生成词的CLIP嵌入与图像CLIP嵌入”计算“魔法分数（magic score）”，迭代优化生成结果；
ASIF：基于“相似图像的标题也相似”的直觉，用小型多模态数据集构建“相似性表示空间”，通过搜索实现图像标题生成，无需更新模型参数。 代表模型：MaGiC、ASIF 适用场景：缺乏大规模对齐数据的场景，或需快速适配新任务的场景（如小领域图像标题生成）。

各策略的核心差异与选择逻辑

学习策略	核心对齐粒度	数据依赖度	代表任务	关键优势
对比学习	全局特征对齐	高（需大规模图文对）	零样本分类、图文检索	基础跨模态能力强，泛化性好
PrefixLM	前缀-文本对齐	中（可冻结LM降依赖）	图像标题生成、VQA	生成式任务适配性优
交叉注意力融合	层间深度对齐	中（需平衡模态交互）	复杂VQA、开放域检测	模态融合更精细，支持复杂任务
MLM/ITM	局部语义对齐	高（需标注或检测辅助）	文本引导检测、常识推理	图文局部对齐精度高
无训练	无参数更新	低（仅需小型数据集）	小领域标题生成	快速适配，无需训练成本