传统强化学习

机器学习的一个分支，核心思想是通过试错来学习。机器学习的一种范式，核心思想是：
👉 智能体（Agent）通过与环境（Environment）不断交互，根据得到的奖励（Reward）来学习最优行为策略（Policy）。

核心要素：

智能体（Agent）：学习和做决策的主体。
环境（Environment）：智能体所处的外部世界，会根据智能体的动作给出反馈。
状态（State）：环境在某一时刻的情况描述。
动作（Action）：智能体可以做出的行为。
奖励（Reward）：环境对智能体动作的即时反馈（一个数值）。
策略（Policy）：智能体的行为准则，规定了在什么状态下应该采取什么动作。
价值（Value）：对长期累积奖励的预测，代表一个状态或动作的“长远好坏”。

强化学习与其他机器学习的区别

特性	监督学习 (Supervised)	强化学习 (Reinforcement)
数据源	已经标记好的数据（正确答案）	通过与环境交互产生的数据
反馈机制	告诉你是或错	给出分数值（奖励/惩罚）
决策性质	独立预测（看图识猫）	序列决策（下一步怎么走影响未来）
学习目标	减小预测误差	最大化长期回报

目标- > 最大化长期累计奖励（Expected Cumulative Reward）

找到一种行动方案（ $π$ ），使得智能体agent从现在开始到未来所有能拿到的奖金（ $r$ ）总和，在考虑了未来的不确定性和打折（ $γ$ ）之后，其平均预期值（ $E$ ）达到最大。 $r_{t} = R (s_{t}, a_{t}, s_{t + 1})$ $π_{m a x} E [\sum_{t = 0}^{\infty} γ^{t} r_{t}]$

符号	名称	含义解释
$π$	策略 (Policy)	智能体的“决策蓝图”。它定义了在特定状态下，智能体应该采取什么动作。 $π_{m a x}$ 表示我们要找到一个最优策略。
$E$	期望 (Expectation)	因为环境往往具有随机性（比如掷骰子或风向变化），我们无法保证每次结果一样，所以我们要计算所有可能结果的平均预期值。
$\sum_{t = 0}^{\infty}$	累加和	表示从时间步 $t = 0$ 开始，一直到无穷远的未来，将所有获得的奖励加在一起。
$r_{t}$	奖励 (Reward)	在时间步 $t$ 时，智能体因为执行了某个动作而从环境获得的即时反馈（如得分或扣分）。
$γ$ (Gamma)	折扣因子 (Discount Factor)	取值范围通常在 $[0, 1]$ 之间。它决定了智能体有多看重未来的奖励。

奖励计算方式

稀疏奖励
密集奖励
惩罚项

策略（Policy）

策略 π：

给定状态 s，选择动作 a 的规则

确定性策略： $a = π (s)$
随机策略： $π (a ∣ s) = P (a ∣ s)$

典型算法分类

1️⃣ 基于价值（Value-based）

学习“这个状态/动作值不值钱”

Q-learning
SARSA
DQN（Deep Q-Network）

2️⃣ 基于策略（Policy-based）

直接学习策略

REINFORCE
Policy Gradient

3️⃣ Actor-Critic（混合）

Actor：学策略
Critic：学价值常见算法：
A2C / A3C
PPO
DDPG / SAC

主要挑战

奖励稀疏（Sparse rewards）：智能体很难获得有效反馈。
探索与利用的权衡（Exploration vs. Exploitation）。
样本效率低（需要大量交互）。
环境动态复杂或部分可观测。

强化学习应用

擅长处理需要连续决策的复杂任务。

🎮 游戏（AlphaGo、Atari）
🚗 自动驾驶
🤖 机器人控制
📈 资源调度、推荐策略
🧠 大模型对齐（RLHF）

大模型强化学习

大模型强化学习 RLHF SFT PPO 这几个概念的逻辑关系

SFT 本质上就是强化学习力的 Imitation Learning / Behavior Cloning

RLHF

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）

目标

让模型“说人话、做人事”，即实现 人类对齐（Human Alignment）。 RLHF的核心思想是：将人类模糊的“偏好”转化为一个可优化的数学目标。

Hugging Face RLHF Blog

huggingface-ChatGPT 背后的“功臣”——RLHF 技术详解

RLHF 三步骤

SFT （Supervised Fine-Tuning）
RM 奖励模型
PPO

SFT

L_{S F T} = - t \sum l o g π_{θ} (y_{t} ∣ x, y_{< t})

PPO（Proximal Policy Optimization）

chat with gpt 什么是强化学习

目标在提高策略表现的同时，限制每一次更新不要改得太猛。

四个模型

模型名称	角色 (Role)	作用	是否更新参数
Policy Model	Actor (演员)	正在被优化的 LLM，负责生成回复。	是
Value Model	Critic (评论家)	预测当前状态能获得的长期回报，辅助 Actor 更新。	是
Reward Model	Reward (奖励)	根据人类偏好给回复打分（由 RLHF 第二步训练好）。	否
Reference Model	Ref (参考)	初始的 SFT 模型，用来防止 Policy 偏离太远（KL 散度约束）。	否

符号	含义
$s$	状态（环境当前情况）
$a$	在状态 (s) 下采取的动作
$\hat{A}$	Advantage（优势），表示“这个动作比平均好多少”
$E$	对很多采样取平均

$π_{θ} (a ∣ s)$

概率比率（ratio）

r_{t} ​ (θ) = \frac{π _{θ} ​ ( a _{t} ​ ∣ s _{t} ​ )}{π _{θ_{o l d}} ​​ ( a _{t} ​ ∣ s _{t} ) ​ )} ​​

符号	含义
$t$	时间步
$θ$	当前要更新的参数
$θ_{old}$	采样数据时的旧参数
$s_{t}$	第 t 步的状态
$a_{t}$	第 t 步采取的动作

clip

c l i p (r t ​, 1 - ϵ, 1 + ϵ)

把 $r_{t}$ 限制在 $[1 - ϵ, 1 + ϵ]$ 之间

PPO

L_{P P O} ​ (θ) = E_{t} ​ [min (r_{t} ​ (θ) A^{t} ​, c l i p (r_{t} ​ (θ), 1 - ϵ, 1 + ϵ) A^{t} ​)]

Advantage

\hat{A_{t}} = R_{t} - V (s_{t})

KL散度

KL 散度（Kullback–Leibler Divergence）定义为：

K L (π θ ​∥ π r e f ​) = E_{a \sim π θ} ​​ [l o g \frac{π _{θ} ( a ∣ s )}{π _{r e f} ​ ( a ∣ s )} ​]

DPO (Direct Preference Optimization)

DPO（Direct Preference Optimization，直接偏好优化）

GRPO (Group Relative Policy Optimization)

Group Relative Policy Optimization（分组相对策略优化）

TRL (Transformer Reinforcement Learning)

TRLX

CS Notes

导航

强化学习RL