【大模型】大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

szZack

已于 2025-02-15 09:13:03 修改

阅读量977

点赞数 26

分类专栏：大语言模型文章标签：人工智能 DeepSeek-R1 deepseek-ai 推理模型

于 2025-02-15 09:11:41 首次发布

本文链接：https://blog.csdn.net/zengNLP/article/details/145646127

版权

大语言模型专栏收录该内容

43 篇文章

订阅专栏

【大模型】大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1 模型介绍
Model Summary
- 后训练：在基础模型上进行大规模强化学习
- 蒸馏：小模型也可以很强大
下载
DeepSeek-R1-Evaluation
Distilled Model Evaluation
github
模型运行示例
开源协议
参考

DeepSeek-R1 模型介绍

第一代推理模型 DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，它在推理任务上表现出色，且未经过监督微调（SFT）作为初步步骤。借助强化学习，DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而，DeepSeek-R1-Zero也面临一些挑战，例如无休止的重复、可读性差以及语言混合等问题。为了应对这些问题并进一步提升推理性能，我们推出了DeepSeek-R1，该模型在进行强化学习之前引入了冷启动数据。DeepSeek-R1在数学、编程和推理任务上的表现与OpenAI-o1相当。为了支持研究社区，我们已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1蒸馏出的六个密集模型。其中，DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini，为密集模型创造了新的最佳性能记录。

性能

Model Summary

后训练：在基础模型上进行大规模强化学习

我们直接在基础模型上应用强化学习（RL），而不依赖于监督微调（SFT）作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链（CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了诸如自我验证、反思以及生成长思维链的能力，这标志着研究社区的一个重要里程碑。值得注意的是，它是首次公开研究验证，通过纯粹的强化学习（无需SFT）可以激励大型语言模型（LLM）的推理能力。这一突破为该领域的未来发展铺平了道路。
我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段，旨在发现更好的推理模式并使其与人类偏好对齐，以及两个监督微调阶段，作为模型推理和非推理能力的种子。我们相信，这一流程将通过创造更好的模型而惠及整个行业。

蒸馏：小模型也可以很强大

我们证明了较大模型的推理模式可以被蒸馏到较小模型中，与通过在小模型上进行强化学习发现的推理模式相比，表现更好。开源的DeepSeek-R1及其API将有助于研究社区在未来蒸馏出更好的小模型。
利用DeepSeek-R1生成的推理数据，我们对研究社区广泛使用的几种密集模型进行了微调。评估结果显示，这些经过蒸馏的小型密集模型在基准测试中表现卓越。我们基于Qwen2.5和Llama3系列，向社区开源了1.5B、7B、8B、14B、32B和70B的蒸馏模型checkpoints。

发布时间

2025年1月28日

下载

model_id: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
下载地址：https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 不需要翻墙

DeepSeek-R1-Distill Models

DeepSeek-R1-Evaluation

在这里插入图片描述

Distilled Model Evaluation

在这里插入图片描述

github

https://github.com/deepseek-ai/DeepSeek-R1

模型运行示例

vLLM

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
SGLang

python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

开源协议

MIT License

DeepSeek-R1-Distill-Llama-8B is derived from Llama3.1-8B-Base and is originally licensed under llama3.1 license.
DeepSeek-R1-Distill-Llama-70B is derived from Llama3.3-70B-Instruct and is originally licensed under llama3.3 license.