传统强化学习

机器学习的一个分支,核心思想是通过试错来学习。 机器学习的一种范式,核心思想是:
👉 智能体(Agent)通过与环境(Environment)不断交互,根据得到的奖励(Reward)来学习最优行为策略(Policy)

核心要素:

  1. 智能体(Agent):学习和做决策的主体。
  2. 环境(Environment):智能体所处的外部世界,会根据智能体的动作给出反馈。
  3. 状态(State):环境在某一时刻的情况描述。
  4. 动作(Action):智能体可以做出的行为。
  5. 奖励(Reward):环境对智能体动作的即时反馈(一个数值)。
  6. 策略(Policy):智能体的行为准则,规定了在什么状态下应该采取什么动作。
  7. 价值(Value):对长期累积奖励的预测,代表一个状态或动作的“长远好坏”。

强化学习与其他机器学习的区别

特性监督学习 (Supervised)强化学习 (Reinforcement)
数据源已经标记好的数据(正确答案)通过与环境交互产生的数据
反馈机制告诉你是或错给出分数值(奖励/惩罚)
决策性质独立预测(看图识猫)序列决策(下一步怎么走影响未来)
学习目标减小预测误差最大化长期回报

目标- > 最大化长期累计奖励(Expected Cumulative Reward)

找到一种行动方案(), 使得智能体agent从现在开始到未来所有能拿到的奖金()总和,在考虑了未来的不确定性和打折()之后,其平均预期值()达到最大。

符号名称含义解释
策略 (Policy)智能体的“决策蓝图”。它定义了在特定状态下,智能体应该采取什么动作。 表示我们要找到一个最优策略
期望 (Expectation)因为环境往往具有随机性(比如掷骰子或风向变化),我们无法保证每次结果一样,所以我们要计算所有可能结果的平均预期值
累加和表示从时间步 开始,一直到无穷远的未来,将所有获得的奖励加在一起。
奖励 (Reward)在时间步 时,智能体因为执行了某个动作而从环境获得的即时反馈(如得分或扣分)。
(Gamma)折扣因子 (Discount Factor)取值范围通常在 之间。它决定了智能体有多看重未来的奖励

奖励计算方式

  1. 稀疏奖励
  2. 密集奖励
  3. 惩罚项

策略(Policy)

策略 π

给定状态 s,选择动作 a 的规则

  • 确定性策略
  • 随机策略

典型算法分类

1️⃣ 基于价值(Value-based)

学习“这个状态/动作值不值钱”

  • Q-learning
  • SARSA
  • DQN(Deep Q-Network)

2️⃣ 基于策略(Policy-based)

直接学习策略

  • REINFORCE
  • Policy Gradient

3️⃣ Actor-Critic(混合)

  • Actor:学策略
  • Critic:学价值 常见算法:
  • A2C / A3C
  • PPO
  • DDPG / SAC

主要挑战

  • 奖励稀疏(Sparse rewards):智能体很难获得有效反馈。
  • 探索与利用的权衡(Exploration vs. Exploitation)。
  • 样本效率低(需要大量交互)。
  • 环境动态复杂或部分可观测。

强化学习应用

擅长处理需要连续决策的复杂任务。

  • 🎮 游戏(AlphaGo、Atari)
  • 🚗 自动驾驶
  • 🤖 机器人控制
  • 📈 资源调度、推荐策略
  • 🧠 大模型对齐(RLHF)

大模型强化学习

大模型强化学习 RLHF SFT PPO 这几个概念的逻辑关系

SFT 本质上就是强化学习力的 Imitation Learning / Behavior Cloning

RLHF

RLHF(Reinforcement Learning from Human Feedback,人类反馈强化学习)

目标

让模型“说人话、做人事”,即实现 人类对齐(Human Alignment)RLHF的核心思想是:将人类模糊的“偏好”转化为一个可优化的数学目标。

Hugging Face RLHF Blog

huggingface-ChatGPT 背后的“功臣”——RLHF 技术详解

RLHF 三步骤

  1. SFT (Supervised Fine-Tuning)
  2. RM 奖励模型
  3. PPO

SFT

PPO(Proximal Policy Optimization)

chat with gpt 什么是强化学习

目标 在提高策略表现的同时,限制每一次更新不要改得太猛。

四个模型

模型名称角色 (Role)作用是否更新参数
Policy ModelActor (演员)正在被优化的 LLM,负责生成回复。
Value ModelCritic (评论家)预测当前状态能获得的长期回报,辅助 Actor 更新。
Reward ModelReward (奖励)根据人类偏好给回复打分(由 RLHF 第二步训练好)。
Reference ModelRef (参考)初始的 SFT 模型,用来防止 Policy 偏离太远(KL 散度约束)。
符号含义
状态(环境当前情况)
在状态 (s) 下采取的动作
Advantage(优势),表示“这个动作比平均好多少”
对很多采样取平均

概率比率(ratio)

符号含义
时间步
当前要更新的参数
采样数据时的旧参数
第 t 步的状态
第 t 步采取的动作

clip

限制在 之间

PPO

Advantage

KL散度

KL 散度(Kullback–Leibler Divergence)定义为:

DPO (Direct Preference Optimization)

DPO(Direct Preference Optimization,直接偏好优化

GRPO (Group Relative Policy Optimization)

Group Relative Policy Optimization(分组相对策略优化)

TRL (Transformer Reinforcement Learning)

TRLX