核心定位:严格推导 RLHF 三阶段(SFT → RM → PPO)的数学目标函数,证明 DPO 如何将 RL 目标转化为闭式解的监督学习问题,深入剖析 KL 约束的对齐角色、KTO 的前景理论基础,以及 Reward Hacking 的形成机制。
1. RLHF 三阶段完整流程
阶段 1:SFT (Supervised Fine-Tuning)
LSFT=−E(x,y)∼Dhumant=1∑∣y∣logπθ(yt∣x,y<t) 标准的 Next-Token Prediction,在人类标注的高质量数据上微调。
阶段 2:RM (Reward Modeling)
阶段 3:PPO (Policy Optimization)
2. 奖励模型 (Reward Model) 推导
2.1 Bradley-Terry 偏好模型
给定 Prompt $x$,人类标注两个回答 $y_w$(Winner)和 $y_l$(Loser)的偏好。假设偏好概率遵循 Bradley-Terry 模型:
P(yw≻yl∣x)=σ(rϕ(x,yw)−rϕ(x,yl)) 其中 $\sigma(\cdot)$ 是 Sigmoid 函数,$r_\phi$ 是带参数 $\phi$ 的奖励模型。
LRM=−E(x,yw,yl)∼Dpref[logσ(rϕ(x,yw)−rϕ(x,yl))] 直觉:最大化"好回答的奖励 $>$ 坏回答的奖励"这件事的概率。
奖励的绝对值无意义,只有差值有意义(因为 Bradley-Terry 模型只依赖差值)。
通常在 SFT 模型基础上,将最后一层的 LM Head 替换为标量输出 Head。
J(θ)=Ex∼D,y∼πθ(⋅∣x)[rϕ(x,y)]−β⋅KL(πθ∥πref) $\mathbb{E}[r_\phi(x, y)]$
$\beta \cdot \text{KL}(\pi_\theta \parallel \pi_{\text{ref}})$
KL(πθ∥πref)=Ey∼πθ[logπref(y∣x)πθ(y∣x)] 3.3 $\beta$ 的权衡
Reward Hacking:策略找到奖励模型的漏洞,生成高分但低质量的回答
学不到新东西,策略退化为 $\pi_{\text{ref}}$(过度保守)
给定目标函数 $J(\theta)$,可以证明最优策略为:
π∗(y∣x)=Z(x)1πref(y∣x)⋅exp(βrϕ(x,y)) 其中 $Z(x) = \sum_y \pi_{\text{ref}}(y|x) \exp(r_\phi(x,y)/\beta)$ 是归一化常数。
证明:对 $J(\theta)$ 关于 $\pi_\theta$ 取变分导数,令其为零,利用 KL 散度的凸性得到上述闭式解。$\blacksquare$
4. DPO (Direct Preference Optimization)
出处:Rafailov et al., "Direct Preference Optimization: Your Language Model is Secretly a Reward Model", 2023
从最优策略的闭式解反解出奖励函数:
rϕ(x,y)=βlogπref(y∣x)π∗(y∣x)+βlogZ(x) 将其代入 Bradley-Terry 偏好概率(归一化常数 $Z(x)$ 在差值中消掉):
P(yw≻yl∣x)=σ(βlogπref(yw∣x)π∗(yw∣x)−βlogπref(yl∣x)π∗(yl∣x)) 用策略 $\pi_\theta$ 替代 $\pi^*$,直接优化:
LDPO=−E(x,yw,yl)[logσ(β(logπref(yw∣x)πθ(yw∣x)−logπref(yl∣x)πθ(yl∣x)))] $r(x,y) = \beta \log(\pi_\theta / \pi_{\text{ref}}) + \text{const}$
5. KTO (Kahneman-Tversky Optimization)
出处:Ethayarajh et al., "KTO: Model Alignment as Prospect Theoretic Optimization", 2024
DPO 需要成对偏好数据($y_w, y_l$ 对同一 $x$),但实际中更容易获得单独的 good/bad 标签。
LKTO=E(x,y)∼Good[−logσ(rθ)]+λ⋅E(x,y)∼Bad[−logσ(−rθ)] 其中 $r_\theta = \beta \log(\pi_\theta(y|x) / \pi_{\text{ref}}(y|x))$。
$\lambda > 1$(典型值 $\lambda \approx 1.5$–$2.0$)体现了损失厌恶(Loss Aversion):模型对坏回答的惩罚力度大于对好回答的奖励力度。
6. Reward Hacking 的数学分析
6.1 Goodhart 定律的形式化
True Reward=rtrue(x,y) Proxy Reward=rϕ(x,y)≈rtrue(x,y)+ϵ(x,y) 当 $\pi_\theta$ 过度优化 $r_\phi$ 时:
Eπθ[rϕ]↑butEπθ[rtrue]↓ 策略学会了利用 $\epsilon$ 中的系统性误差(代理模型的漏洞),而非真正提升回答质量。
KL 惩罚限制了策略的探索范围,使其不能偏离 $\pi_{\text{ref}}$ 太远。在 $\pi_{\text{ref}}$ 附近,$r_\phi \approx r_{\text{true}}$(代理模型的训练数据主要来自 $\pi_{\text{ref}}$ 的分布),因此 KL 约束间接保证了奖励的可靠性。
方法
数据需求
需要 RM
需要 RL
训练稳定性
核心数学
"RLHF 的核心权衡是 reward 最大化 vs KL 约束:太贪心会 reward hack,太保守学不到新能力。DPO 的数学贡献是证明了最优策略的闭式解可以消掉 RM,将 RL 问题转化为标准监督损失,本质上 $\pi_\theta$ 自身就是一个隐式的 Reward Model。"