Skip to main content

2 posts tagged with "RLHF"

View All Tags

大模型成功背后的 RLHF 到底是什么?

· 7 min read

RLHF 是大模型从"能用"到"好用"的关键一步。它不解决"模型知不知道答案",而是解决"答案像不像人话"。

  • 三阶段工作流:SFT 教指令遵循 → 奖励模型学打分 → PPO 用打分信号优化策略。
  • 奖励模型的核心任务:给任意 prompt+response 打出标量分数,替代人类实时标注。
  • PPO 的奖励不是纯 RM 分,而是 RM 分减 KL 惩罚——防止模型为刷高分胡说八道
  • PPO 对超参极度敏感,RM 不准确会导致优化跑偏,这是 RLHF 最大的工程难点。
  • DPO(NeurIPS 2023)直接砍掉奖励模型和 RL,把偏好对齐变成分类问题。
  • DPO 更稳定更省资源,已成 RLHF 主流替代方案。

强化学习强在哪?

· 6 min read

强化学习强在哪?一句话:它不需要正确答案,只需要对错信号

监督学习从标注数据里找规律,强化学习从环境奖惩里学策略。两者的区别不是"强弱",而是解决问题的类型完全不同——SL 学映射,RL 学决策。

最容易被误解的一点:强化学习的目标不是每次选最优动作,而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别,价值函数才是它的灵魂。

Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策,一个负责评判,互相对抗、一起进化,AlphaGo 的底层思路也源于此。

最关键的应用:PPO 算法驱动了 RLHF,让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下,RL 是提升模型推理能力的核心引擎。