图解DeepSeek R1训练流程

最新推荐文章于 2025-04-14 14:51:49 发布

致Great

最新推荐文章于 2025-04-14 14:51:49 发布

阅读量1.7k

点赞数 32

分类专栏：大模型文章标签：大模型 DeepSeek

本文链接：https://blog.csdn.net/yanqianglifei/article/details/145500223

版权

大模型专栏收录该内容

100 篇文章

订阅专栏

来源：Deepseek R1 论文解读-chance10010

链接🔗：https://www.bilibili.com/opus/1030715086492139523?spm_id_from=333.1387.0.0&unique_id=10e7841f-b314-45fa-ab72-0cf629421321&code=061eQNll2XANZe4Zm1pl24Ts2O0eQNll&state=

DeepSeek-R1：通过强化学习提升大型语言模型的推理能力

论文题目：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
》

论文链接：https://arxiv.org/abs/2501.12948

论文试图解决的问题

这篇论文介绍了一种新的第一代推理模型——DeepSeek-R1系列，旨在通过强化学习（Reinforcement Learning, RL）提升大型语言模型（Large Language Models, LLMs）的推理能力。具体来说，论文试图解决以下几个问题：

无监督数据的推理能力培养
- 传统LLMs依赖大量监督数据来提升推理能力。
- 论文提出了一种不依赖监督微调（Supervised Fine-Tuning, SFT）的方法，通过纯强化学习过程来培养模型的推理能力。
推理时的性能扩展
- 研究如何有效地在测试时扩展推理能力，例如增加推理链（Chain-of-Thought, CoT）的长度。
模型的自进化能力
- 论文探索LLMs在没有监督数据的情况下，通过自我进化发展推理能力的可能性，特别是纯RL过程。
提高模型的可读性和泛化能力
- 通过引入冷启动数据和多阶段训练流程，提升模型的可读性和语言混合问题。
小型模型的推理能力提升
- 通过知识蒸馏技术，将大型模型的推理能力迁移到小型模型，以提高效率。

论文如何解决这些问题？

1. 引入DeepSeek-R1-Zero模型

无监督强化学习（RL）: 不依赖SFT，展示出色推理能力。
自进化: 训练过程中自然发展推理行为，如自我验证、反思、长CoT推理链。

2. 引入DeepSeek-R1模型

多阶段训练 & 冷启动数据: 解决DeepSeek-R1-Zero的可读性和语言混合问题。
冷启动数据收集: 通过少量提示和模型自生成答案，微调DeepSeek-V3-Base模型作为RL起点。

3. 强化学习算法

Group Relative Policy Optimization (GRPO): 通过组分数估计基线，避免使用与策略模型同样大小的评论模型，降低RL训练成本。

4. 奖励建模

准确性奖励和格式奖励: 采用基于规则的奖励系统，训练模型生成特定格式的推理过程和最终答案。

5. 训练模板

推理过程和答案的模板: 训练模型首先生成推理过程，然后生成最终答案。

6. 知识蒸馏

大型模型向小型模型迁移推理能力: 使用Qwen2.5和Llama作为基础模型，从DeepSeek-R1进行蒸馏，提升小型模型推理能力。

7. 实验和评估

广泛基准测试: 数学、编程、知识问答等任务，验证模型性能。

论文实验

DeepSeek-R1 评估
- 基准测试: MMLU、C-Eval、SWE-Bench Verified、Codeforces等。
- 开放性任务: 采用AlpacaEval 2.0和Arena-Hard评估。
- 与其他模型比较: DeepSeek-V3, Claude-Sonnet-3.5, GPT-4o, OpenAI-o1-mini等。
知识蒸馏模型评估
- 小型模型性能: AIME 2024, GPQA Diamond, Codeforces等任务。
- 与开源模型比较: 与QwQ-32B-Preview等进行对比。
实验设置
- 最大生成长度: 32,768个token。
- 评估方法: 使用pass@k评估，并报告pass@1结果。
- 共识结果: 对AIME 2024，报告使用64个样本的共识（多数投票）结果。