大模型算法:强化学习、微调与对齐 - 余昌叶

系统地讲解了大模型技术、训练算法(包括强化学习、RLHF、PPO、GRPO、DPO、SFT 与 CoT 蒸馏等)、多种效果优化措施及其实践。
关于作者
余昌叶 是大模型技术领域的专家:
- AI 研究 员:专注于大语言模型和强化学习研究
- 技术实践者:在大模型训练和对齐方面有丰富实战经验
- 技术布道师:致力于将复杂的大模型算法以系统化的方式传播
- 开源贡献者:参与多个大模型相关开源项目
余昌叶以其"理论与实践并重"的写作风格著称,不仅讲解算法原理,更注重实际应用和工程实践。
核心内容
1. 大模型技术概览
大模型发展脉络:
1. 预训练时代 (Pre-training)
- GPT 系列:生成式预训练
- BERT 系列:双向编码
- T5:文本到文本转换
2. 指令微调时代 (Instruction Tuning)
- InstructGPT
- ChatGPT
- 遵循指令的能力
3. 对齐时代 (Alignment)
- RLHF:人类反馈强化学习
- DPO:直接偏好优化
- 价值观对齐
4. 高效微调时代 (PEFT)
- LoRA:低秩适配
- Prefix Tuning
- 参数高效微调