目前视觉预训练(Vision Pre-training)已经从早期的“有监督时代”全面转向“自监督时代”,演化路径主要分为以下三大技术流派:

1. 掩码图像建模流派 (Masked Image Modeling, MIM)

这一流派将视觉任务“BERT化”,核心逻辑是:遮住图像的一部分,让模型预测缺失的内容

  • MAE (Masked Autoencoders): 由何恺明团队提出。采用非对称的编码器-解码器结构,仅处理未掩码的像素,通过极高的遮挡率(75%)强迫模型学习高层抽象特征。其预训练效率极高,是目前 ViT 架构 的标配。
  • BEiT: 引入了类似 NLP 中“词表”的概念,将图像 Patch 映射为离散 Token,预测被遮挡位置的 Token ID。
  • iBOT: 通过自蒸馏机制实现了“在线分词”,解决了 BEiT 需要预训练分词器的痛点。

2. 对比学习流派 (Contrastive Learning)

核心逻辑是:将同一张图的不同增强版本拉近,将不同图的表示推远,学习具有判别性的全局特征。

  • MoCo / SimCLR: 经典的对比学习框架,奠定了利用正负样本对进行无监督学习的基础。
  • DINO / DINOv2: Meta 提出的自蒸馏方法。DINOv2 不再依赖掩码,仅通过大规模数据的自监督对比,生成的特征直接用于下游任务(如深度估计、语义分割)时效果惊人,被称为视觉领域的 基础模型(Foundation Model)

3. 多模态对齐流派 (Vision-Language Pre-training, VLP)

核心逻辑是:将图片与文字在同一向量空间对齐,使模型具备理解语义和图文关联的能力。

  • CLIP (OpenAI): 划时代的作品。利用数亿对“图-文”对进行对比学习,使模型具备了强大的 Zero-shot(零样本) 迁移能力,是目前 Stable Diffusion 和 GPT-4V 等多模态模型的核心组件。
  • ALIGN / BLIP: 进一步优化了图文对齐的效率和质量,BLIP 系列通过引入文本生成任务,增强了模型对图像细节的描述能力。

总结与趋势

特性MIM (如 MAE)对比学习 (如 DINO)多模态 (如 CLIP)
学习目标局部重构/补全全局语义一致性图文语义对齐
优势细节理解强,适合分割检测特征判别力强,适合检索分类零样本迁移,具备文字理解
现状成为大模型 Backbone 的主流预训练方式演进为高精度的特征提取器演进为多模态大模型(VLM)的核心

您是正在考虑为特定任务(如工业检测自动驾驶)选择预训练模型,还是想了解如何在大规模自定义数据集上进行预训练?