Skip to main content

20 posts tagged with "AI Model"

大模型成功背后的 RLHF 到底是什么？

June 10, 2026 · 7 min read

RLHF 是大模型从"能用"到"好用"的关键一步。它不解决"模型知不知道答案"，而是解决"答案像不像人话"。

三阶段工作流：SFT 教指令遵循 → 奖励模型学打分 → PPO 用打分信号优化策略。
奖励模型的核心任务：给任意 prompt+response 打出标量分数，替代人类实时标注。
PPO 的奖励不是纯 RM 分，而是 RM 分减 KL 惩罚——防止模型为刷高分胡说八道。
PPO 对超参极度敏感，RM 不准确会导致优化跑偏，这是 RLHF 最大的工程难点。
DPO（NeurIPS 2023）直接砍掉奖励模型和 RL，把偏好对齐变成分类问题。
DPO 更稳定更省资源，已成 RLHF 主流替代方案。

什么是模型对齐？

June 8, 2026 · 6 min read

对齐是把"会说话的模型"变成"能帮忙的助手"的关键一步。

问题：基座模型只会续写 token，不会服从指令。
定义：对齐 = 让输出符合有用、诚实、无害三个标准。
SFT：用"指令→回答"样例做监督微调，教会模型执行任务。
RLHF：人类打分排序 → 训练奖励模型 → PPO 强化学习优化。
DPO：直接从偏好数据学习，省掉奖励模型，训练更稳定。
代价：过度对齐有"对齐税"——创造力下降，安全与能力需要取舍。
现实：对齐不是一锤子买卖，用户反馈是最好的持续对齐信号。

英伟达主流的企业级显卡有几种？

June 1, 2026 · 4 min read

英伟达目前的企业级显卡主要分为两条产品线（注：两者本质上都是 GPU，只是市场定位不同）：

训练卡：

Ampere 架构：A100
Hopper 架构：H100 / H200 / H800（中国特供） / H20（中国特供）
Blackwell 架构：B100 / GB200 / B200

推理卡：

Ada Lovelace 架构：L4 / L40 / L40S

此外，华为也有昇腾系列 NPU（如 2026 年发布的 950PR）作为替代方案。

选购建议：训练选 H100/H200，推理选 L40S，尝鲜等 B100。

DeepSeek 多模态视觉源语是什么？

May 26, 2026 · 8 min read

多模态模型的真正瓶颈不是 "看不清"，而是 "指不准"。

Reference Gap（指代断裂）：模型看到了目标对象，但在推理链中无法稳定引用"到底是哪一个"。"左边那个""他旁边的"这类自然语言描述在视觉空间里不是精确地址——场景越复杂、相似物体越多，语言变量就越容易在几步推理后漂移到另一个实体上。
解法：把边界框和坐标点变成推理链的中间变量。 每写下一个框 = 在草稿纸上钉一颗钉子，后续推理围绕这些坐标展开，不再依赖模糊的自然语言指代。论文将框和点定义为"视觉原语（Visual Primitive）"——本质上就是把人类"用手指点着数"的动作形式化到了 token 序列里。
工程压缩比 7056×：2916 patch tokens → 3×3 空间压缩 → 324 → CSA 注意力缓存压缩 → 81。语言模型 DeepSeek V4 Flash（284B/13B MoE）+ 从头训练 DeepSeek ViT，视觉 token 限制在 81–384，不靠无限堆 token。
数据说话：~90 个视觉缓存条目跑出 77.2 分，Gemini 3 Flash 用 1100 个拿 76.5 分。视觉 token 不是越多越好，关键是模型有没有办法把"这个对象"稳定地绑定到图像坐标上。

强化学习强在哪？

May 26, 2026 · 6 min read

强化学习强在哪？一句话：它不需要正确答案，只需要对错信号。

监督学习从标注数据里找规律，强化学习从环境奖惩里学策略。两者的区别不是"强弱"，而是解决问题的类型完全不同——SL 学映射，RL 学决策。

最容易被误解的一点：强化学习的目标不是每次选最优动作，而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别，价值函数才是它的灵魂。

Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策，一个负责评判，互相对抗、一起进化，AlphaGo 的底层思路也源于此。

最关键的应用：PPO 算法驱动了 RLHF，让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下，RL 是提升模型推理能力的核心引擎。

特征 Feature vs. 标签 Label

October 20, 2025 · One min read

ZXSSQ3

训练集 vs. 验证集 vs. 测试集

October 20, 2025 · One min read

q7LjdN

词向量 Vector, 词嵌入 Embedding, 余弦相似度 cosθ

October 16, 2025 · One min read

QmcLtG

Token / Tokenization 是什么？

October 9, 2025 · One min read

QpbVvY

Transfer Learning 迁移学习

October 5, 2025 · One min read

7y4jId