视觉预训练（Vision Pre-training）路线

目前视觉预训练（Vision Pre-training）已经从早期的“有监督时代”全面转向“自监督时代”，演化路径主要分为以下三大技术流派：

1. 掩码图像建模流派 (Masked Image Modeling, MIM)

这一流派将视觉任务“BERT化”，核心逻辑是：遮住图像的一部分，让模型预测缺失的内容。

MAE (Masked Autoencoders): 由何恺明团队提出。采用非对称的编码器-解码器结构，仅处理未掩码的像素，通过极高的遮挡率（75%）强迫模型学习高层抽象特征。其预训练效率极高，是目前 ViT 架构的标配。
BEiT: 引入了类似 NLP 中“词表”的概念，将图像 Patch 映射为离散 Token，预测被遮挡位置的 Token ID。
iBOT: 通过自蒸馏机制实现了“在线分词”，解决了 BEiT 需要预训练分词器的痛点。

核心逻辑是：将同一张图的不同增强版本拉近，将不同图的表示推远，学习具有判别性的全局特征。

MoCo / SimCLR: 经典的对比学习框架，奠定了利用正负样本对进行无监督学习的基础。
DINO / DINOv2: Meta 提出的自蒸馏方法。DINOv2 不再依赖掩码，仅通过大规模数据的自监督对比，生成的特征直接用于下游任务（如深度估计、语义分割）时效果惊人，被称为视觉领域的 基础模型（Foundation Model）。

核心逻辑是：将图片与文字在同一向量空间对齐，使模型具备理解语义和图文关联的能力。

CLIP (OpenAI): 划时代的作品。利用数亿对“图-文”对进行对比学习，使模型具备了强大的 Zero-shot（零样本） 迁移能力，是目前 Stable Diffusion 和 GPT-4V 等多模态模型的核心组件。
ALIGN / BLIP: 进一步优化了图文对齐的效率和质量，BLIP 系列通过引入文本生成任务，增强了模型对图像细节的描述能力。

总结与趋势

特性	MIM (如 MAE)	对比学习 (如 DINO)	多模态 (如 CLIP)
学习目标	局部重构/补全	全局语义一致性	图文语义对齐
优势	细节理解强，适合分割检测	特征判别力强，适合检索分类	零样本迁移，具备文字理解
现状	成为大模型 Backbone 的主流预训练方式	演进为高精度的特征提取器	演进为多模态大模型（VLM）的核心

您是正在考虑为特定任务（如工业检测或自动驾驶）选择预训练模型，还是想了解如何在大规模自定义数据集上进行预训练？