《DeepSeek-R1:使用说明译文》:此文为AI自动翻译

1. 引言

我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,没有监督微调 (SFT) 作为初步步骤,在推理方面表现出了卓越的性能。 随着 RL 的出现,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。 然而,DeepSeek-R1-Zero 遇到了无休止的重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能, 我们介绍了 DeepSeek-R1,它在 RL 之前整合了冷启动数据。 DeepSeek-R1 在数学、代码和推理任务方面的性能可与 OpenAI-o1 相媲美。 为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 提炼出来的六个密集模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中都优于 OpenAI-o1-mini,为密集模型实现了新的先进结果。

注意:在本地运行 DeepSeek-R1 系列模型之前,我们建议您查看使用建议部分。

2. 模型概述


训练后:在基础模型上进行大规模强化学习

  • 我们直接将强化学习 (RL) 应用于基础模型,而不依赖监督微调 (SFT) 作为初步步骤。这种方法允许模型探索解决复杂问题的思维链 (CoT),从而开发 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能,标志着研究界的一个重要里程碑。值得注意的是,这是第一项公开研究,验证了 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。

  • 我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好保持一致,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。 我们相信,该管道将通过创建更好的模型使行业受益。


蒸馏:较小的模型也可以很强大

  • 我们证明,较大模型的推理模式可以提炼成较小的模型,与通过 RL 在小型模型上发现的推理模式相比,性能更好。开源 DeepSeek-R1 及其 API 将使研究社区在未来能够提炼出更好的更小模型。
  • 使用 DeepSeek-R1 生成的推理数据,我们微调了研究界广泛使用的几个密集模型。评估结果表明,蒸馏的较小密集模型在基准上表现非常出色。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点给社区。

3. 模型下载

DeepSeek-R1 模型

#Total Params #Activated Params 上下文长度 下载
深度求索-R1-Zero 671B 系列 编号 37B 128K 🤗 拥抱脸
深度求索-R1 671B 系列 编号 37B 128K 🤗 拥抱脸

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 进行训练。 有关模型架构的更多详细信息,请参阅 DeepSeek-V3 仓库。

DeepSeek-R1-Distill 模型

基本模型 下载
DeepSeek-R1-蒸馏-Qwen-1.5B
### 比较 DeepSeek Docker 镜像版本 对于想要了解 `deepseek-r1:7b` 和 `deepseek-r1:latest` 这两个 DeepSeek Docker 镜像之间差异的情况,可以采取多种方式来实现这一目标。通常情况下,Docker 镜像之间的主要区别体现在基础操作系统、依赖库以及应用程序本身的更新上。 #### 使用 Docker 命令行工具对比镜像层 通过拉取并分析这两个特定标签的镜像,能够识别出它们各自所基于的基础镜像及其附加组件的变化: ```bash docker pull deepseek/deepseek-r1:7b docker pull deepseek/deepseek-r1:latest ``` 接着可以通过查看两者的分层信息来进行初步比较: ```bash docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:7b | jq . docker inspect --format='{{json .RootFS.Layers}}' deepseek-r1:latest | jq . ``` 上述命令会展示每个镜像内部结构中的不同层次,从而帮助理解两者间的具体变化[^1]。 #### 查看官方文档或发布说明 更为直接的方法是从官方渠道获取关于各个版本的具体改动记录。如果存在详细的变更日志,则可以直接从中了解到新旧版本间的主要改进点和技术细节上的调整[^3]。 #### 执行容器运行测试 实际操作也是检验版本差别的有效手段之一。启动两个分别对应于不同版本的容器实例,在相同条件下执行相同的任务流程,观察性能表现、资源消耗等方面是否存在显著差距。 ```bash docker run -it --rm deepseek/deepseek-r1:7b python test_script.py docker run -it --rm deepseek/deepseek-r1:latest python test_script.py ``` 这有助于发现潜在的功能增强或是兼容性问题[^2].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

空云风语

人工智能,深度学习,神经网络

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值