LLM concept

SFT 监督微调（Supervised Fine-Tuning）

在人工智能，尤其是大语言模型（LLM）训练中，SFT（Supervised Fine-Tuning） 指“监督微调”。它是在预训练模型基础上，用带标签的数据进一步训练，使模型更贴合具体任务（如对话、摘要、翻译）。例如，用高质量指令数据集对 LLaMA-3-8B 进行一次 epoch、学习率 2×10⁻⁵ 的微调，就属于 SFT 。

少样本ICL

少样本 ICL (Few-Shot In-Context Learning) 是大语言模型（LLM）中一种极其重要的能力，它允许模型在**不更新参数（不进行训练或微调）**的情况下，仅通过在提示词（Prompt）中提供少量的输入 - 输出示例，就能学会执行新的任务。

以下是对少样本 ICL 的详细解释，包括其定义、工作原理、核心要素、与相关概念的对比以及实际应用技巧。

1. 核心定义

ICL (In-Context Learning，上下文学习)：指模型利用输入上下文中的信息来推断任务规律并生成响应的能力。
Few-Shot (少样本)：指在上下文中提供的示例数量很少（通常为 1 到 10 个，有时稍多），远少于传统机器学习训练所需的数据量。
结合含义：用户在一个 Prompt 中给出几个“问题 + 答案”的配对示例，模型观察这些示例的模式，然后对最后一个没有答案的“新问题”进行推理并生成答案。

2. 工作原理：它是如何“学习”的？

严格来说，ICL 不是传统意义上的“学习”（即没有发生梯度下降或权重更新）。它的机制主要基于以下两点：

模式匹配与泛化：大模型在预训练阶段阅读了海量的文本，其中包含了无数种“问题 - 答案”、“指令 - 执行”的模式。当你在 Prompt 中提供示例时，实际上是在激活模型内部已有的相关知识分布。模型通过注意力机制（Attention Mechanism）识别示例中的输入与输出之间的映射关系（如格式、逻辑、风格），并将这种关系泛化应用到新的查询上。
贝叶斯推断视角：从理论角度看，ICL 可以被理解为模型在进行隐式的贝叶斯推断。示例作为“证据”，帮助模型缩小了潜在任务空间的范围，从而计算出最可能的下一个 token 序列。

3. Prompt 结构示例

一个典型的少样本 Prompt 结构如下：

[任务描述/指令] (可选，但推荐)
[示例 1 输入] -> [示例 1 输出]
[示例 2 输入] -> [示例 2 输出]
[示例 3 输入] -> [示例 3 输出]
...
[测试输入] ->

具体案例（情感分析任务）：

 **User:**
 请判断以下评论的情感是“正面”还是“负面”。
 
 评论：这部电影太棒了，剧情扣人心弦！
 情感：正面
 
 评论：演员演技尴尬，浪费了我的时间。
 情感：负面
 
 评论：画面很美，但故事逻辑混乱。
 情感：负面
 
 评论：配乐感人，结局出乎意料的好。
 情感：
 
 **Model:**
 正面

在这个例子中，模型并没有重新训练，而是通过前三个示例学会了“根据评论内容判断情感”以及“输出格式仅为‘正面’或‘负面’”。

4. 关键影响因素

少样本 ICL 的效果高度依赖于 Prompt 的设计，主要受以下因素影响：

示例的数量 (Shot Count)：
- Zero-shot (0 样本)：只给指令，不给示例。适用于常见任务。
- One-shot (1 样本)：提供一个示例，往往能显著提升格式遵循度。
- Few-shot (2-10 样本)：通常随着示例增加，效果提升，但在达到某个阈值后可能饱和甚至下降（由于上下文窗口限制或注意力分散）。
示例的质量：
- 示例必须准确无误。错误的示例会导致模型“学坏”。
- 示例应涵盖不同的情况（多样性），避免模型过拟合到某种特定句式。
示例的顺序：
- 研究表明，示例的排列顺序对结果有影响。有时将最相似的示例放在最后效果更好，有时随机排序更稳健。
标签空间的一致性：
- 所有示例的输出格式必须严格一致（例如，不要混用“是/否”和“True/False”）。

5. 与其他方法的对比

特性	Zero-Shot ICL	Few-Shot ICL	Fine-Tuning (微调)
示例数量	0	少量 (1~10+)	大量 (数百至数万)
参数更新	无	无	有 (权重改变)
计算成本	低 (仅推理)	低 (仅推理，Token 略多)	高 (需要训练算力)
响应速度	快	稍慢 (上下文变长)	快 (模型已内化知识)
适用场景	通用任务、简单指令	复杂逻辑、特定格式、新领域概念	专业领域深度适配、私有数据
灵活性	高，随时切换任务	高，通过改 Prompt 切换	低，每次换任务需重新微调

6. 高级技巧与最佳实践

为了获得最佳的少样本 ICL 效果，可以采用以下策略：

思维链 (Chain-of-Thought, CoT)：在少样本示例中，不仅给出答案，还写出推理过程。
- 示例：问：罗杰有 5 个网球，又买了两筒，每筒 3 个。他现在有多少个？答：罗杰开始有 5 个球。2 筒每筒 3 个，即 2 * 3 = 6 个。总共 5 + 6 = 11 个。
- 效果：这能显著提升模型处理数学、逻辑推理等复杂任务的能力。
选择最具代表性的示例：不要随机选示例。选择那些最能体现任务难点、边界情况或与当前测试输入最相似的样本。
保持格式整洁：使用清晰的分隔符（如 ###, ---, \n\n）将指令、示例和测试输入分开，帮助模型更好地区分结构。
动态示例选择 (Dynamic Example Selection)：在自动化系统中，可以先计算测试输入与候选示例库中样本的相似度（如向量相似度），实时检索出最相关的几个示例放入 Prompt 中。

7. 局限性

上下文窗口限制：示例越多，占用的 Token 越多，可能挤占处理长文档的空间，且增加推理成本和延迟。
幻觉风险：如果示例中存在细微的错误模式，模型可能会模仿并放大这些错误。
任务复杂度上限：对于极度复杂、需要深层领域知识且预训练数据中未充分覆盖的任务，仅靠几个示例可能无法让模型完全掌握，此时微调（Fine-tuning）或 RAG（检索增强生成）可能更有效。

总结

少样本 ICL 是大语言模型“智能涌现”的核心体现之一。它让用户能够以极低的成本（无需训练数据标注和 GPU 训练），通过精心设计的自然语言提示，快速将通用模型适配到特定的下游任务中。掌握构造高质量 Few-Shot Prompt 的技巧，是使用大模型的关键能力。

CS Notes

导航

概念