强化学习强在哪?
· 6 min read
强化学习强在哪?一句话:它不需要正确答案,只需要对错信号。
监督学习从标注数据里找规律,强化学习从环境奖惩里学策略。两者的区别不是"强弱",而是解决问题的类型完全不同——SL 学映射,RL 学决策。
最容易被误解的一点:强化学习的目标不是每次选最优动作,而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别,价值函数才是它的灵魂。
Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策,一个负责评判,互相对抗、一起进化,AlphaGo 的底层思路也源于此。
最关键的应用:PPO 算法驱动了 RLHF,让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下,RL 是提升模型推理能力的核心引擎。
监督学习和强化学习,到底差在哪?
监督学习和强化学习的根本区别,不是"谁更强",而是学习的信号来源完全不同。
监督学习需要标注数据。给你一堆图片,每张标好"猫"或"狗",模型照着学。本质上是在模仿正确答案——数据质量决定模型上限。
强化学习不需要正确答案。它只需要一个环境和一个奖励函数。做对了加分,做错了扣分,模型自己在试错中摸索策略。整个过程没有人告诉它"应该怎么做",只有环境告诉它"做得好不好"。
1898 年,心理学家桑代克做了个实验:把猫关进笼子,只有成功逃脱才能吃到食物。一开始猫乱抓乱碰,90 秒才逃出来。随着训练次数增加,逃离时间一路缩短到 6 秒。不断试错、不断获得奖励、最后学会——这就是强化学习的核心思想,比"机器学习"这个词的出现早了 60 年。
这个实验也暴露了 RL 最大的难点:奖励信号是延迟的、稀疏的。猫不是每抓一下笼子就有反馈,而是逃脱那一刻才知道"刚才那套动作是对的"。怎么把最后的成功归功到过程中具体哪个动作?这就是 RL 要解决的核心问题。