AI制裁无效！DeepSeek-R1、DeepSeek-V3和GRPO论文总结

最新推荐文章于 2025-05-29 16:31:56 发布

Python编程杰哥

最新推荐文章于 2025-05-29 16:31:56 发布

阅读量1k

点赞数 27

文章标签：人工智能机器学习深度学习重构算法无人机 microsoft

本文链接：https://blog.csdn.net/xx_nm98/article/details/145501796

版权

RL 并不是你所需要的一切：DeepSeek-R1 使用了两次 RL 和两次 SFT。
GRPO 是 PPO 的一个非常棒的变体，每个实验室都应该考虑使用，因为它使用的内存和计算资源远少于传统方法。
推理 heavily 依赖可验证的结果，如数学和编程，这可能无法推广到模糊推理任务，如“这个广告布局比另一个好么？”
强大模型生成的合成数据对帮助启动更好的模型至关重要。OpenAI/Anthropic 和 Google 有这种优势，因为他们可以不受限制地访问最先进的模型并从中提取数据，而你则无法这么做。
蒸馏的 Qwen 和 Llama 模型并未使用 RL，只用了 SF****T。
扩展硬推理是否能提升模糊推理是目前 AI 领域的开放性问题！（可能不能，但让我们拭目以待。）

RL 并不是你所需要的一切

许多人说“RL 是你所需要的一切”，但这并不是全部。

为什么？因为他们训练了两个主要模型：

DeepSeek-R1-Zero：只使用 RL，没有 SFT。
DeepSeek-R1：该模型解决了 DeepSeek-R1-Zero 的局限，使用了两次 RL 和两次 SFT。

令人惊讶的是，他们只用 RL 训练了一个模型（类似 AlphaGo 风格），并使其具备了自发推理能力。但该模型也存在一些问题，如 COT（思维链）可读性差和语言混用（可能是中文和英语混合）等。

那么，RL 就是你需要的一切吗？并不是。但是它依然非常令人兴奋，现在其他实验室肯定会复制这一点，我们很快可能会看到一个纯 RL 模型，类似 AlphaGo Zero。

蒸馏模型

他们还发布了几个蒸馏模型（即从更大更聪明的模型中学习的小模型），这些模型基于 Qwen 和 Llama。

这些模型没有使用 RL，它们是纯 SFT 的，主要是因为用完整的 RL 和 SFT 流程训练 5 或 6 个模型成本太高。

训练数据

拥有强大的基准模型来创建合成数据至关重要。这是 OpenAI/Anthropic/Google 相对于其他公司的优势。它们可以访问自己的不受限制、未审查的模型，生成合成数据来启动新模型，并通过服务条款限制你无法这样做。

DeepSeek 也是这么做的。他们使用强大的 DeepSeek-V3 模型创建了以下数据集：

60 万条合成推理数据集
20 万条非推理数据集

非推理数据有助于避免过度思考，并教会模型快速返回答案，例如事实问答回答，而不是浪费时间在简单问题上思考太多。

“我们通过结合额外的数据扩展数据集，其中一些使用生成奖励模型，将真实数据和模型预测输入 DeepSeek-V3 进行判断。此外，因为模型输出有时混乱且难以阅读，我们过滤掉了混合语言的思维链、长段落和代码块。对于每个提示，我们采样多个响应，并仅保留正确的响应。总的来说，我们收集了大约60万条与推理相关的训练样本。”

“对于非推理数据，例如写作、事实问答、自我认知和翻译，我们采用 DeepSeek-V3 流程，并重新使用 DeepSeek-V3 的部分 SFT 数据集。”

对可验证结果的依赖

模型的奖励建模基于准确性和可验证的结果：

数学：最终答案的正确性。
编程：LeetCode 问题、编译生成的代码、在测试用例上运行的代码。

这意味着，如果你想用 RL 教它一些没有可验证结果的内容（比如判断一篇文章好不好，或是这个广告设计是否比另一个更好），那么你就不能真正使用 RL，而这并不好。

任何现在在做 Agent 工作的实验室，如果想用 RL，必须找到一种方式来验证结果。我们实验室正在尝试用图形用户界面上的任务来做到这一点。

但我们希望模型做的许多事情，并不属于可验证的终极状态，比如判断一个广告设计是否比另一个更好，或者一幅马的卡通画是否美观。

专门训练硬推理（如数学/科学/编程）的模型，是否能推广到其他领域的模糊推理中？

这是一个开放的研究问题，也许是目前 AI 领域最重要的一个。

一些 OpenAI 的人员公开表示，模型可以实现这种推广。但也有其他人表示怀疑，我也有同样的疑虑。

我们很快就会看到答案。

GRPO

GRPO 的主要优势在于它使用了极少的内存和计算资源，并且不需要评论模型。

它是如何工作的：

对于每个问题，GRPO 从旧的策略中抽取一组输出样本。
然后，它计算这些样本输出的奖励。优势根据组内的相对奖励来计算。奖励通过减去组平均值并除以组标准差来进行标准化。
GRPO 然后通过最大化一个目标来优化策略模型，该目标使用这些优势。

与 PPO 的主要区别：

没有评论模型：PPO 通常使用评论模型（一个值函数）来估算基准，而 GRPO 省略了评论模型，使用多个样本输出的平均奖励作为基准。这减少了内存和计算负担。
基准计算：PPO 使用广义优势估计（GAE），依赖于学习的值函数和奖励。GRPO 根据每组样本输出的相对奖励来计算优势。
KL 惩罚：PPO 在奖励中加入了来自参考模型的每个 token 的 KL 惩罚。而 GRPO 直接将训练策略和参考策略之间的KL散度加入到损失中。

GRPO的最大优势？

它基本上降低了训练成本。没有评论模型，内存和计算使用量大大减少。GRPO 对 LLM 特别有效，因为值函数可能非常复杂，通常只有最后一个 token 会获得奖励。

GRPO 的组内相对优势计算方式与奖励模型的比较性质非常契合，这些模型通常通过比较同一问题的不同输出进行训练。更好的是，GRPO 可以同时使用结果监督和过程监督。通过结果监督，奖励在输出结束时给出；通过过程监督，奖励则在推理的每一步给出。

最棒的是，GRPO 还可以以迭代方式使用，通过回放机制不断更新奖励模型，并使用新奖励模型训练策略模型。

AI 制裁无效，且永远不会有效

“有些东西并不喜欢墙，想把它推倒。” —— 罗伯特·弗罗斯特

试图阻止中国发展 AGI 是一场注定失败的游戏，成功的机会为0%。

DeepSeek 实验室的大佬已经开发出了更智能的方式，适用于全球所有实验室，因为每个人都希望减少计算和内存的使用。

由于资源有限，他们开发了更智能的分布式训练方法，可以在较慢的 GPU 上进行切分训练。详见 DeepSeek-V3 论文。
他们还开发了 GRPO，一种比 PPO 更节省内存和计算资源的方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述