2 posts tagged with "RLHF"

大模型成功背后的 RLHF 到底是什么？

June 10, 2026 · 7 min read

RLHF 是大模型从"能用"到"好用"的关键一步。它不解决"模型知不知道答案"，而是解决"答案像不像人话"。

May 26, 2026 · 6 min read

强化学习强在哪？一句话：它不需要正确答案，只需要对错信号。

监督学习从标注数据里找规律，强化学习从环境奖惩里学策略。两者的区别不是"强弱"，而是解决问题的类型完全不同——SL 学映射，RL 学决策。

最容易被误解的一点：强化学习的目标不是每次选最优动作，而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别，价值函数才是它的灵魂。

Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策，一个负责评判，互相对抗、一起进化，AlphaGo 的底层思路也源于此。

最关键的应用：PPO 算法驱动了 RLHF，让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下，RL 是提升模型推理能力的核心引擎。