DeepSeek模型蒸馏范式

前言

DeepSeek公开了一套模型蒸馏的基本范式,同时公开了基于Qwen2.5、Llama3的蒸馏模型。

本文仅为简单介绍DeepSeep模型蒸馏范式的基本流程。

其中,Qwen1.5B的推理性能已经超过了GPT4o,而Qwen32B到推理性能可以达到GPTo1-mini的水平。

  1. AIME2024pass@1:测试模型在高难度数学推理和问题解决中的一次性表现能力。
  2. AIME2024cons@64:测试模型在复杂数学任务中的稳定性和一致性能力。
  3. MATH500pass@1:测试模型在广泛数学知识和高难度数学问题中的一次性解决能力。
  4. GPQADiamondpass@1:测试模型在跨学科通用知识和复杂问答任务中的一次性表现能力。
  5. LiveCodeBenchpass@1:测试模型在编程任务中的代码生成和问题解决能力。
  6. CodeForcesrating:测试模型在算法设计和编程竞赛中的综合表现能力。

image-20250302124007897

模型蒸馏范式

在这里插入图片描述

模型厂家对某个模型一般会开源两个版本,Base和Chat。

  • Base:只经过了预训练,没有经过全量指令微调,对话可能会胡言乱语,但有更好的调教空间。
  • Chat:经过了全量指令微调,有对话能力。

DeepSeek R1提出的模型蒸馏路径:

  1. 选择某个Base模型。 DeepSeek开源的蒸馏模型都基于Base版本。
  2. 对Base模型进行全量指令微调,利用高质量的问答数据,数据量不用大,几千条数据。知道基本的对话范式,学会开符、终止符。
  3. 利用非常大量COT数据进行训练。训练后 会把思考连看成是回答用户内容的一部分,输出时携带思考内容。所以需要经过大量的数据进行微调。
  4. 经过COT数据微调之后,可能模型还有很多问答上的问题,需要再进行训练。

image-20250302131513338

image-20250302130725332

DeepSeek模型训练路径(简化版)

image-20250302130756674

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值