《DeepSeek-R1：使用说明译文》：此文为AI自动翻译

空云风语

已于 2025-02-22 08:56:41 修改

阅读量2.4k

点赞数 27

分类专栏：深度学习人工智能神经网络文章标签：人工智能

于 2025-01-29 23:39:14 首次发布

本文链接：https://blog.csdn.net/zheng_ruiguo/article/details/145396009

版权

1. 引言

我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一种通过大规模强化学习（RL）训练的模型，没有监督微调（SFT）作为初步步骤，在推理方面表现出了卓越的性能。随着 RL 的出现，DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。然而，DeepSeek-R1-Zero 遇到了无休止的重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能，我们介绍了 DeepSeek-R1，它在 RL 之前整合了冷启动数据。 DeepSeek-R1 在数学、代码和推理任务方面的性能可与 OpenAI-o1 相媲美。为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及基于 Llama 和 Qwen 从 DeepSeek-R1 提炼出来的六个密集模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中都优于 OpenAI-o1-mini，为密集模型实现了新的先进结果。

注意：在本地运行 DeepSeek-R1 系列模型之前，我们建议您查看使用建议部分。

2. 模型概述

训练后：在基础模型上进行大规模强化学习

我们直接将强化学习（RL）应用于基础模型，而不依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索解决复杂问题的思维链（CoT），从而开发 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能，标志着研究界的一个重要里程碑。值得注意的是，这是第一项公开研究，验证了 LLM 的推理能力可以纯粹通过 RL 来激励，而无需 SFT。这一突破为该领域的未来发展铺平了道路。
我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段，旨在发现改进的推理模式并与人类偏好保持一致，以及两个 SFT 阶段，作为模型推理和非推理能力的种子。我们相信，该管道将通过创建更好的模型使行业受益。

蒸馏：较小的模型也可以很强大

我们证明，较大模型的推理模式可以提炼成较小的模型，与通过 RL 在小型模型上发现的推理模式相比，性能更好。开源 DeepSeek-R1 及其 API 将使研究社区在未来能够提炼出更好的更小模型。
使用 DeepSeek-R1 生成的推理数据，我们微调了研究界广泛使用的几个密集模型。评估结果表明，蒸馏的较小密集模型在基准上表现非常出色。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点给社区。