DeepSeek模型蒸馏范式

最新推荐文章于 2025-05-02 22:26:06 发布

陌陌623

最新推荐文章于 2025-05-02 22:26:06 发布

阅读量366

点赞数 5

文章标签： ai

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45653525/article/details/146196009

版权

前言

DeepSeek公开了一套模型蒸馏的基本范式，同时公开了基于Qwen2.5、Llama3的蒸馏模型。

本文仅为简单介绍DeepSeep模型蒸馏范式的基本流程。

其中，Qwen1.5B的推理性能已经超过了GPT4o，而Qwen32B到推理性能可以达到GPTo1-mini的水平。

AIME2024pass@1：测试模型在高难度数学推理和问题解决中的一次性表现能力。
AIME2024cons@64：测试模型在复杂数学任务中的稳定性和一致性能力。
MATH500pass@1：测试模型在广泛数学知识和高难度数学问题中的一次性解决能力。
GPQADiamondpass@1：测试模型在跨学科通用知识和复杂问答任务中的一次性表现能力。
LiveCodeBenchpass@1：测试模型在编程任务中的代码生成和问题解决能力。
CodeForcesrating：测试模型在算法设计和编程竞赛中的综合表现能力。

模型蒸馏范式

在这里插入图片描述

模型厂家对某个模型一般会开源两个版本，Base和Chat。

Base：只经过了预训练，没有经过全量指令微调，对话可能会胡言乱语，但有更好的调教空间。
Chat：经过了全量指令微调，有对话能力。

DeepSeek R1提出的模型蒸馏路径：

选择某个Base模型。 DeepSeek开源的蒸馏模型都基于Base版本。
对Base模型进行全量指令微调，利用高质量的问答数据，数据量不用大，几千条数据。知道基本的对话范式，学会开符、终止符。
利用非常大量COT数据进行训练。训练后会把思考连看成是回答用户内容的一部分，输出时携带思考内容。所以需要经过大量的数据进行微调。
经过COT数据微调之后，可能模型还有很多问答上的问题，需要再进行训练。

DeepSeek模型训练路径（简化版）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。