传统强化学习
机器学习的一个分支,核心思想是通过试错来学习。
机器学习的一种范式,核心思想是:
👉 智能体(Agent)通过与环境(Environment)不断交互,根据得到的奖励(Reward)来学习最优行为策略(Policy)。
核心要素:
- 智能体(Agent):学习和做决策的主体。
- 环境(Environment):智能体所处的外部世界,会根据智能体的动作给出反馈。
- 状态(State):环境在某一时刻的情况描述。
- 动作(Action):智能体可以做出的行为。
- 奖励(Reward):环境对智能体动作的即时反馈(一个数值)。
- 策略(Policy):智能体的行为准则,规定了在什么状态下应该采取什么动作。
- 价值(Value):对长期累积奖励的预测,代表一个状态或动作的“长远好坏”。
强化学习与其他机器学习的区别
| 特性 | 监督学习 (Supervised) | 强化学习 (Reinforcement) |
|---|---|---|
| 数据源 | 已经标记好的数据(正确答案) | 通过与环境交互产生的数据 |
| 反馈机制 | 告诉你是或错 | 给出分数值(奖励/惩罚) |
| 决策性质 | 独立预测(看图识猫) | 序列决策(下一步怎么走影响未来) |
| 学习目标 | 减小预测误差 | 最大化长期回报 |
目标- > 最大化长期累计奖励(Expected Cumulative Reward)
找到一种行动方案(), 使得智能体agent从现在开始到未来所有能拿到的奖金()总和,在考虑了未来的不确定性和打折()之后,其平均预期值()达到最大。
| 符号 | 名称 | 含义解释 |
|---|---|---|
| 策略 (Policy) | 智能体的“决策蓝图”。它定义了在特定状态下,智能体应该采取什么动作。 表示我们要找到一个最优策略。 | |
| 期望 (Expectation) | 因为环境往往具有随机性(比如掷骰子或风向变化),我们无法保证每次结果一样,所以我们要计算所有可能结果的平均预期值。 | |
| 累加和 | 表示从时间步 开始,一直到无穷远的未来,将所有获得的奖励加在一起。 | |
| 奖励 (Reward) | 在时间步 时,智能体因为执行了某个动作而从环境获得的即时反馈(如得分或扣分)。 | |
| (Gamma) | 折扣因子 (Discount Factor) | 取值范围通常在 之间。它决定了智能体有多看重未来的奖励。 |
奖励计算方式
- 稀疏奖励
- 密集奖励
- 惩罚项
策略(Policy)
策略 π:
给定状态 s,选择动作 a 的规则
- 确定性策略:
- 随机策略:
典型算法分类
1️⃣ 基于价值(Value-based)
学习“这个状态/动作值不值钱”
- Q-learning
- SARSA
- DQN(Deep Q-Network)
2️⃣ 基于策略(Policy-based)
直接学习策略
- REINFORCE
- Policy Gradient
3️⃣ Actor-Critic(混合)
- Actor:学策略
- Critic:学价值 常见算法:
- A2C / A3C
- PPO
- DDPG / SAC
主要挑战
- 奖励稀疏(Sparse rewards):智能体很难获得有效反馈。
- 探索与利用的权衡(Exploration vs. Exploitation)。
- 样本效率低(需要大量交互)。
- 环境动态复杂或部分可观测。
强化学习应用
擅长处理需要连续决策的复杂任务。
- 🎮 游戏(AlphaGo、Atari)
- 🚗 自动驾驶
- 🤖 机器人控制
- 📈 资源调度、推荐策略
- 🧠 大模型对齐(RLHF)
大模型强化学习
大模型强化学习 RLHF SFT PPO 这几个概念的逻辑关系
SFT 本质上就是强化学习力的 Imitation Learning / Behavior Cloning
RLHF
RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)
目标
让模型“说人话、做人事”,即实现 人类对齐(Human Alignment)。 RLHF的核心思想是:将人类模糊的“偏好”转化为一个可优化的数学目标。
Hugging Face RLHF Blog
huggingface-ChatGPT 背后的“功臣”——RLHF 技术详解
RLHF 三步骤
- SFT (Supervised Fine-Tuning)
- RM 奖励模型
- PPO
SFT
PPO(Proximal Policy Optimization)
chat with gpt 什么是强化学习
目标 在提高策略表现的同时,限制每一次更新不要改得太猛。
四个模型
| 模型名称 | 角色 (Role) | 作用 | 是否更新参数 |
|---|---|---|---|
| Policy Model | Actor (演员) | 正在被优化的 LLM,负责生成回复。 | 是 |
| Value Model | Critic (评论家) | 预测当前状态能获得的长期回报,辅助 Actor 更新。 | 是 |
| Reward Model | Reward (奖励) | 根据人类偏好给回复打分(由 RLHF 第二步训练好)。 | 否 |
| Reference Model | Ref (参考) | 初始的 SFT 模型,用来防止 Policy 偏离太远(KL 散度约束)。 | 否 |
| 符号 | 含义 |
|---|---|
| 状态(环境当前情况) | |
| 在状态 (s) 下采取的动作 | |
| Advantage(优势),表示“这个动作比平均好多少” | |
| 对很多采样取平均 |
概率比率(ratio)
| 符号 | 含义 |
|---|---|
| 时间步 | |
| 当前要更新的参数 | |
| 采样数据时的旧参数 | |
| 第 t 步的状态 | |
| 第 t 步采取的动作 |
clip
把 限制在 之间
PPO
Advantage
KL散度
KL 散度(Kullback–Leibler Divergence)定义为:
DPO (Direct Preference Optimization)
DPO(Direct Preference Optimization,直接偏好优化)
GRPO (Group Relative Policy Optimization)
Group Relative Policy Optimization(分组相对策略优化)
TRL (Transformer Reinforcement Learning)
TRLX