Vision-Language Pre-training - Basics, Recent Advances, and Future Trends

论文链接: arXiv:2210.09263 PDF: 2210.09263.pdf

概述

这是一篇关于视觉语言预训练（Vision-Language Pre-training, VLP）的综述论文，共 102 页。论文系统性地回顾了近年来 VLP 方法的发展，并将其分为三大类别进行详细讨论。

三大类别

1. 图像-文本任务（Image-Text Tasks）

任务	说明
Image Captioning	图像描述生成
Image-Text Retrieval	图像-文本检索
Visual Question Answering (VQA)	视觉问答
Visual Grounding	视觉定位

代表性模型:

CLIP (OpenAI)
ALIGN (Google)
BLIP / BLIP-2
ViLT
Florence

2. 核心计算机视觉任务（Core CV Tasks）

任务	说明
Open-set Image Classification	开放集图像分类
Object Detection	目标检测
Segmentation	分割

关键特点:

利用语言信息增强视觉任务
开放词汇检测/分割
零样本迁移能力

3. 视频-文本任务（Video-Text Tasks）

任务	说明
Video Captioning	视频描述生成
Video-Text Retrieval	视频-文本检索
Video Question Answering	视频问答

代表性模型:

VideoCLIP
VIOLET
MERLOT

VLP 核心技术

架构设计

架构类型	说明	代表模型
Single-stream	图像和文本使用同一个 Transformer	ViLT
Dual-stream	图像和文本分别编码后再融合	CLIP
Hybrid	结合单流和双流特点	ALBEF

预训练目标

目标	说明
Image-Text Contrastive (ITC)	图像-文本对比学习
Image-Text Matching (ITM)	图像-文本匹配
Masked Language Modeling (MLM)	掩码语言建模
Masked Image Modeling (MIM)	掩码图像建模
Word-Region Alignment	词-区域对齐

数据集

数据集	规模	说明
COCO	330K	图像描述
Visual Genome	108K	VQA
CC3M / CC12M	3M / 12M	图像-文本对
LAION-400M	400M	大规模图像-文本

高级主题

大型基础模型（Foundation Models）

规模化预训练的重要性
多任务统一建模 -涌现能力（Emergent Abilities）

统一建模（Unified Modeling）

单一模型处理多种任务
任务提示（Task Prompts）
统一输入输出格式

上下文少样本学习（In-context Few-shot Learning）

无需微调的快速适应
提示工程（Prompt Engineering）
多模态上下文理解

知识增强（Knowledge）

外部知识库集成
知识图谱对齐
事实性推理

鲁棒性（Robustness）

对抗样本防御
分布外（OOD）检测
跨域泛化

真实场景视觉（Computer Vision in the Wild）

长尾分布问题
噪声标签处理
真实世界部署挑战

发展趋势

从专用到通用

早期模型针对特定任务设计，现代模型趋向于通用多任务能力。

从小规模到大规模

数据规模从百万级发展到十亿级，模型参数从几十M发展到几十B。

从单模态到多模态

从纯视觉或纯语言模型，发展到深度融合的多模态模型。

从监督到自监督

从依赖标注数据，发展到利用大规模无标注数据进行自监督学习。

关键模型时间线

时间	模型	贡献
2021	CLIP	对比学习，零样本迁移
2021	ViLT	无卷积的 VLP
2021	ALBEF	对比+匹配联合训练
2022	BLIP	数据清洗+预训练
2022	BLIP-2	Q-Former 架构
2022	Florence	大规模统一模型

挑战与未来方向

报告的挑战

数据质量: 大规模数据中的噪声和低质量样本
计算成本: 大模型训练的资源消耗
评估标准: 缺乏统一的多模态评估基准
可解释性: 多模态模型的决策过程难以解释
长尾问题: 真实场景中的类别不平衡

未来研究方向

更大规模的预训练数据
更高效的训练方法
统一的多任务架构
更强的零样本/少样本能力
与大语言模型（LLM）的深度融合

参考资源

arXiv: 2210.09263
论文类型: 综述（Survey）
页数: 102 页
领域: Computer Vision (cs.CV), Computation and Language (cs.CL)

CS Notes

导航

Vision-Language Pre-training - Basics, Recent Advances, and Future Trends

Vision-Language Pre-training - Basics, Recent Advances, and Future Trends

概述

三大类别

1. 图像-文本任务（Image-Text Tasks）

2. 核心计算机视觉任务（Core CV Tasks）

3. 视频-文本任务（Video-Text Tasks）

VLP 核心技术

架构设计

预训练目标

数据集

高级主题

大型基础模型（Foundation Models）

统一建模（Unified Modeling）

上下文少样本学习（In-context Few-shot Learning）

知识增强（Knowledge）

鲁棒性（Robustness）

真实场景视觉（Computer Vision in the Wild）

发展趋势

从专用到通用

从小规模到大规模

从单模态到多模态

从监督到自监督

关键模型时间线

挑战与未来方向

报告的挑战

未来研究方向

参考资源

关系图谱

目录

反向链接