【大模型】 大模型 deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

DeepSeek-R1 模型介绍

第一代推理模型 DeepSeek-R1-Zero和DeepSeek-R1。

DeepSeek-R1-Zero是一个通过大规模强化学习(RL)训练的模型,它在推理任务上表现出色,且未经过监督微调(SFT)作为初步步骤。借助强化学习,DeepSeek-R1-Zero自然地展现出了许多强大且有趣的推理行为。然而,DeepSeek-R1-Zero也面临一些挑战,例如无休止的重复、可读性差以及语言混合等问题。为了应对这些问题并进一步提升推理性能,我们推出了DeepSeek-R1,该模型在进行强化学习之前引入了冷启动数据。DeepSeek-R1在数学、编程和推理任务上的表现与OpenAI-o1相当。为了支持研究社区,我们已经开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Llama和Qwen从DeepSeek-R1蒸馏出的六个密集模型。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超越了OpenAI-o1-mini,为密集模型创造了新的最佳性能记录。

  • 性能

    在这里插入图片描述

Model Summary

后训练:在基础模型上进行大规模强化学习

  • 我们直接在基础模型上应用强化学习(RL),而不依赖于监督微调(SFT)作为初步步骤。这种方法使模型能够探索用于解决复杂问题的思维链(CoT),从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了诸如自我验证、反思以及生成长思维链的能力,这标志着研究社区的一个重要里程碑。值得注意的是,它是首次公开研究验证,通过纯粹的强化学习(无需SFT)可以激励大型语言模型(LLM)的推理能力。这一突破为该领域的未来发展铺平了道路。
  • 我们介绍了开发DeepSeek-R1的流程。该流程包含两个强化学习阶段,旨在发现更好的推理模式并使其与人类偏好对齐,以及两个监督微调阶段,作为模型推理和非推理能力的种子。我们相信,这一流程将通过创造更好的模型而惠及整个行业。

蒸馏:小模型也可以很强大

  • 我们证明了较大模型的推理模式可以被蒸馏到较小模型中,与通过在小模型上进行强化学习发现的推理模式相比,表现更好。开源的DeepSeek-R1及其API将有助于研究社区在未来蒸馏出更好的小模型。
  • 利用DeepSeek-R1生成的推理数据,我们对研究社区广泛使用的几种密集模型进行了微调。评估结果显示,这些经过蒸馏的小型密集模型在基准测试中表现卓越。我们基于Qwen2.5和Llama3系列,向社区开源了1.5B、7B、8B、14B、32B和70B的蒸馏模型checkpoints。
  • 发布时间

    2025年1月28日

下载

model_id: deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
下载地址:https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 不需要翻墙

  • DeepSeek-R1-Distill Models

    在这里插入图片描述

DeepSeek-R1-Evaluation

在这里插入图片描述
在这里插入图片描述

Distilled Model Evaluation

在这里插入图片描述

github

https://github.com/deepseek-ai/DeepSeek-R1

模型运行示例

  • vLLM

    vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

  • SGLang

    python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

开源协议

MIT License

DeepSeek-R1-Distill-Llama-8B is derived from Llama3.1-8B-Base and is originally licensed under llama3.1 license.
DeepSeek-R1-Distill-Llama-70B is derived from Llama3.3-70B-Instruct and is originally licensed under llama3.3 license.

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

szZack

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值