深入了解视觉语言模型_huggingface

huggingface 深入了解视觉语言模型-豆包总结

视觉编码器 语言编码器

视觉语言模型通常由 3 个关键元素组成: 图像编码器、文本编码器以及融合两个编码器的信息的策略

模型能力的检验指标?

学习策略

视觉语言模型的学习策略有哪些

根据文档内容,视觉语言模型的学习策略围绕“图像编码器、文本编码器、信息融合策略”三大核心元素设计,通过多样化预训练目标实现跨模态对齐,具体可分为以下5类,各类策略的核心逻辑、代表模型及适用场景如下:

1. 对比学习(Contrastive Learning)

核心目标:将图像与文本映射到同一特征空间,通过对比损失使“匹配的图文对嵌入距离最小化,不匹配的距离最大化”,实现跨模态基础对齐。 关键细节

  • 距离度量:CLIP采用余弦距离;ALIGN、DeCLIP针对“数据集噪声”设计定制化距离度量;
  • 优化变种:LiT提出“冻结图像编码器,仅微调文本编码器”,让文本编码器“读懂”图像嵌入,样本效率优于CLIP;
  • 混合应用:FLAVA将对比学习与其他策略结合,强化多模态对齐效果。
    • 代表模型:CLIP、CLOOB、ALIGN、DeCLIP、LiT
    • 适用场景:零样本图像分类、图文检索等基础跨模态任务。

2. PrefixLM(前缀语言建模)

核心目标:将图像视为“语言模型的前缀”,通过统一的Transformer编解码器架构,联合学习图像与文本嵌入,聚焦文本生成类任务。 关键细节

  • 基础逻辑:
    1. 文本前缀:如给定“一个男人站在”,模型预测下一词“墙角”;
    2. 图像前缀:ViT将图像分割为patch(块),与文本前缀拼接为“联合前缀”,输入编码器后,由解码器预测文本续接内容;
  • 训练流程:SimVLM等模型先在纯文本数据集预训练,再在对齐图文数据集微调;
  • 冻结变种:Frozen、MAPL、ClipCap仅更新“图像编码器”,生成可适配“冻结语言模型”的图像嵌入;Flamingo进一步冻结“视觉编码器+语言模型”,通过添加感知器重采样器交叉注意力层刷新少样本学习性能。
  • 优势:可使用有限对齐图文数据训练,适用于缺乏多模态数据的领域。
  • 代表模型:SimVLM、VirTex、Frozen、ClipCap、Flamingo
  • 适用场景:图像标题生成、视觉问答(VQA)等生成式跨模态任务。

3. 多模态融合与交叉注意力(Cross-Attention Fusion)

核心目标:不将图像作为“附加前缀”,而是通过交叉注意力机制,将视觉信息直接融入语言模型解码器的各层,实现更深度的模态融合。 关键细节

  • 融合逻辑:视觉编码器生成图像嵌入后,通过交叉注意力层与语言解码器交互,平衡“视觉信息融入”与“文本生成能力”;
  • 优化升级:FIBER在视觉/语言主干模型中插入“带门控机制的交叉注意力层”,支持图文互搜、开放域目标检测等复杂任务。
  • 代表模型:VisualGPT、VC-GPT、Flamingo、FIBER
  • 适用场景:高精度图像标题生成、复杂视觉问答(需深度模态交互)。

4. 掩膜语言建模及图文匹配(MLM/ITM)

核心目标:通过“局部语义预测(MLM,Masked-Language Modeling)+全局匹配判断(ITM, Image-Text Matching)”,实现图像“局部区域”与文本“局部词汇”的精细对齐。 关键细节

  • 掩膜语言建模(MLM):给定部分遮盖的文本(如“图中有一只[MASK]猫”),模型结合图像预测被遮盖的单词;需依赖“带边界框标注的数据集”或“目标检测模型生成候选区域”;
  • 图文匹配(ITM):给定图文对,模型判断文本是否与图像匹配(正样本为真实配对,负样本随机抽取);
  • 联合应用:VisualBERT(基于BERT架构)通过自注意力隐式对齐“文本元素与图像区域”,预训练时同时启用MLM+ITM;FLAVA进一步加入“掩膜图像建模(MIM)”,强化视觉端局部特征学习。
  • 代表模型:VisualBERT、FLAVA、ViLBERT、LXMERT、BridgeTower
  • 适用场景:视觉常识推理、文本引导目标检测、精细图文对齐任务(如短语关联)。

5. 无训练(No-Training)

核心目标:无需额外训练,通过“预训练单模态模型+迭代优化/相似性搜索”,直接适配新的多模态任务,降低数据依赖。 关键实现

  • MaGiC:用预训练自回归语言模型生成图像标题,通过“生成词的CLIP嵌入与图像CLIP嵌入”计算“魔法分数(magic score)”,迭代优化生成结果;
  • ASIF:基于“相似图像的标题也相似”的直觉,用小型多模态数据集构建“相似性表示空间”,通过搜索实现图像标题生成,无需更新模型参数。 代表模型:MaGiC、ASIF 适用场景:缺乏大规模对齐数据的场景,或需快速适配新任务的场景(如小领域图像标题生成)。

总结:

各策略的核心差异与选择逻辑

学习策略核心对齐粒度数据依赖度代表任务关键优势
对比学习全局特征对齐高(需大规模图文对零样本分类、图文检索基础跨模态能力强,泛化性好
PrefixLM前缀-文本对齐中(可冻结LM降依赖)图像标题生成、VQA生成式任务适配性优
交叉注意力融合层间深度对齐中(需平衡模态交互)复杂VQA、开放域检测模态融合更精细,支持复杂任务
MLM/ITM局部语义对齐高(需标注或检测辅助)文本引导检测、常识推理图文局部对齐精度高
无训练无参数更新低(仅需小型数据集)小领域标题生成快速适配,无需训练成本