Vision-Language Pre-training - Basics, Recent Advances, and Future Trends
论文链接: arXiv:2210.09263 PDF: 2210.09263.pdf
概述
这是一篇关于视觉语言预训练(Vision-Language Pre-training, VLP)的综述论文,共 102 页。论文系统性地回顾了近年来 VLP 方法的发展,并将其分为三大类别进行详细讨论。
三大类别
1. 图像-文本任务(Image-Text Tasks)
| 任务 | 说明 |
|---|---|
| Image Captioning | 图像描述生成 |
| Image-Text Retrieval | 图像-文本检索 |
| Visual Question Answering (VQA) | 视觉问答 |
| Visual Grounding | 视觉定位 |
代表性模型:
- CLIP (OpenAI)
- ALIGN (Google)
- BLIP / BLIP-2
- ViLT
- Florence
2. 核心计算机视觉任务(Core CV Tasks)
| 任务 | 说明 |
|---|---|
| Open-set Image Classification | 开放集图像分类 |
| Object Detection | 目标检测 |
| Segmentation | 分割 |
关键特点:
- 利用语言信息增强视觉任务
- 开放词汇检测/分割
- 零样本迁移能力
3. 视频-文本任务(Video-Text Tasks)
| 任务 | 说明 |
|---|---|
| Video Captioning | 视频描述生成 |
| Video-Text Retrieval | 视频-文本检索 |
| Video Question Answering | 视频问答 |
代表性模型:
- VideoCLIP
- VIOLET
- MERLOT
VLP 核心技术
架构设计
| 架构类型 | 说明 | 代表模型 |
|---|---|---|
| Single-stream | 图像和文本使用同一个 Transformer | ViLT |
| Dual-stream | 图像和文本分别编码后再融合 | CLIP |
| Hybrid | 结合单流和双流特点 | ALBEF |
预训练目标
| 目标 | 说明 |
|---|---|
| Image-Text Contrastive (ITC) | 图像-文本对比学习 |
| Image-Text Matching (ITM) | 图像-文本匹配 |
| Masked Language Modeling (MLM) | 掩码语言建模 |
| Masked Image Modeling (MIM) | 掩码图像建模 |
| Word-Region Alignment | 词-区域对齐 |
数据集
| 数据集 | 规模 | 说明 |
|---|---|---|
| COCO | 330K | 图像描述 |
| Visual Genome | 108K | VQA |
| CC3M / CC12M | 3M / 12M | 图像-文本对 |
| LAION-400M | 400M | 大规模图像-文本 |
高级主题
大型基础模型(Foundation Models)
- 规模化预训练的重要性
- 多任务统一建模 -涌现能力(Emergent Abilities)
统一建模(Unified Modeling)
- 单一模型处理多种任务
- 任务提示(Task Prompts)
- 统一输入输出格式
上下文少样本学习(In-context Few-shot Learning)
- 无需微调的快速适应
- 提示工程(Prompt Engineering)
- 多模态上下文理解
知识增强(Knowledge)
- 外部知识库集成
- 知识图谱对齐
- 事实性推理
鲁棒性(Robustness)
- 对抗样本防御
- 分布外(OOD)检测
- 跨域泛化
真实场景视觉(Computer Vision in the Wild)
- 长尾分布问题
- 噪声标签处理
- 真实世界部署挑战
发展趋势
从专用到通用
早期模型针对特定任务设计,现代模型趋向于通用多任务能力。
从小规模到大规模
数据规模从百万级发展到十亿级,模型参数从几十M发展到几十B。
从单模态到多模态
从纯视觉或纯语言模型,发展到深度融合的多模态模型。
从监督到自监督
从依赖标注数据,发展到利用大规模无标注数据进行自监督学习。
关键模型时间线
| 时间 | 模型 | 贡献 |
|---|---|---|
| 2021 | CLIP | 对比学习,零样本迁移 |
| 2021 | ViLT | 无卷积的 VLP |
| 2021 | ALBEF | 对比+匹配联合训练 |
| 2022 | BLIP | 数据清洗+预训练 |
| 2022 | BLIP-2 | Q-Former 架构 |
| 2022 | Florence | 大规模统一模型 |
挑战与未来方向
报告的挑战
- 数据质量: 大规模数据中的噪声和低质量样本
- 计算成本: 大模型训练的资源消耗
- 评估标准: 缺乏统一的多模态评估基准
- 可解释性: 多模态模型的决策过程难以解释
- 长尾问题: 真实场景中的类别不平衡
未来研究方向
- 更大规模的预训练数据
- 更高效的训练方法
- 统一的多任务架构
- 更强的零样本/少样本能力
- 与大语言模型(LLM)的深度融合
参考资源
- arXiv: 2210.09263
- 论文类型: 综述(Survey)
- 页数: 102 页
- 领域: Computer Vision (cs.CV), Computation and Language (cs.CL)