Vision-Language Pre-training - Basics, Recent Advances, and Future Trends

论文链接: arXiv:2210.09263 PDF: 2210.09263.pdf

概述

这是一篇关于视觉语言预训练(Vision-Language Pre-training, VLP)的综述论文,共 102 页。论文系统性地回顾了近年来 VLP 方法的发展,并将其分为三大类别进行详细讨论。

三大类别

1. 图像-文本任务(Image-Text Tasks)

任务说明
Image Captioning图像描述生成
Image-Text Retrieval图像-文本检索
Visual Question Answering (VQA)视觉问答
Visual Grounding视觉定位

代表性模型:

  • CLIP (OpenAI)
  • ALIGN (Google)
  • BLIP / BLIP-2
  • ViLT
  • Florence

2. 核心计算机视觉任务(Core CV Tasks)

任务说明
Open-set Image Classification开放集图像分类
Object Detection目标检测
Segmentation分割

关键特点:

  • 利用语言信息增强视觉任务
  • 开放词汇检测/分割
  • 零样本迁移能力

3. 视频-文本任务(Video-Text Tasks)

任务说明
Video Captioning视频描述生成
Video-Text Retrieval视频-文本检索
Video Question Answering视频问答

代表性模型:

  • VideoCLIP
  • VIOLET
  • MERLOT

VLP 核心技术

架构设计

架构类型说明代表模型
Single-stream图像和文本使用同一个 TransformerViLT
Dual-stream图像和文本分别编码后再融合CLIP
Hybrid结合单流和双流特点ALBEF

预训练目标

目标说明
Image-Text Contrastive (ITC)图像-文本对比学习
Image-Text Matching (ITM)图像-文本匹配
Masked Language Modeling (MLM)掩码语言建模
Masked Image Modeling (MIM)掩码图像建模
Word-Region Alignment词-区域对齐

数据集

数据集规模说明
COCO330K图像描述
Visual Genome108KVQA
CC3M / CC12M3M / 12M图像-文本对
LAION-400M400M大规模图像-文本

高级主题

大型基础模型(Foundation Models)

  • 规模化预训练的重要性
  • 多任务统一建模 -涌现能力(Emergent Abilities)

统一建模(Unified Modeling)

  • 单一模型处理多种任务
  • 任务提示(Task Prompts)
  • 统一输入输出格式

上下文少样本学习(In-context Few-shot Learning)

  • 无需微调的快速适应
  • 提示工程(Prompt Engineering)
  • 多模态上下文理解

知识增强(Knowledge)

  • 外部知识库集成
  • 知识图谱对齐
  • 事实性推理

鲁棒性(Robustness)

  • 对抗样本防御
  • 分布外(OOD)检测
  • 跨域泛化

真实场景视觉(Computer Vision in the Wild)

  • 长尾分布问题
  • 噪声标签处理
  • 真实世界部署挑战

发展趋势

从专用到通用

早期模型针对特定任务设计,现代模型趋向于通用多任务能力。

从小规模到大规模

数据规模从百万级发展到十亿级,模型参数从几十M发展到几十B。

从单模态到多模态

从纯视觉或纯语言模型,发展到深度融合的多模态模型。

从监督到自监督

从依赖标注数据,发展到利用大规模无标注数据进行自监督学习。

关键模型时间线

时间模型贡献
2021CLIP对比学习,零样本迁移
2021ViLT无卷积的 VLP
2021ALBEF对比+匹配联合训练
2022BLIP数据清洗+预训练
2022BLIP-2Q-Former 架构
2022Florence大规模统一模型

挑战与未来方向

报告的挑战

  1. 数据质量: 大规模数据中的噪声和低质量样本
  2. 计算成本: 大模型训练的资源消耗
  3. 评估标准: 缺乏统一的多模态评估基准
  4. 可解释性: 多模态模型的决策过程难以解释
  5. 长尾问题: 真实场景中的类别不平衡

未来研究方向

  1. 更大规模的预训练数据
  2. 更高效的训练方法
  3. 统一的多任务架构
  4. 更强的零样本/少样本能力
  5. 与大语言模型(LLM)的深度融合

参考资源

  • arXiv: 2210.09263
  • 论文类型: 综述(Survey)
  • 页数: 102 页
  • 领域: Computer Vision (cs.CV), Computation and Language (cs.CL)