大模型成功背后的 RLHF 到底是什么?
· 7 min read
RLHF 是大模型从"能用"到"好用"的关键一步。它不解决"模型知不知道答案",而是解决"答案像不像人话"。
- 三阶段工作流:SFT 教指令遵循 → 奖励模型学打分 → PPO 用打分信号优化策略。
- 奖励模型的核心任务:给任意 prompt+response 打出标量分数,替代人类实时标注。
- PPO 的奖励不是纯 RM 分,而是 RM 分减 KL 惩罚——防止模型为刷高分胡说八道。
- PPO 对超参极度敏感,RM 不准确会导致优化跑偏,这是 RLHF 最大的工程难点。
- DPO(NeurIPS 2023)直接砍掉奖励模型和 RL,把偏好对齐 变成分类问题。
- DPO 更稳定更省资源,已成 RLHF 主流替代方案。