DeepSeek为何迅速走红？技术层面的深度剖析（建议收藏）

最新推荐文章于 2025-04-23 16:14:44 发布

AI2AGI

最新推荐文章于 2025-04-23 16:14:44 发布

阅读量1.2k

点赞数 46

分类专栏： AI教程文章标签：人工智能 ai AIGC 机器人

本文链接：https://blog.csdn.net/xinzhaobuxuan/article/details/145625859

版权

AI教程专栏收录该内容

7 篇文章

订阅专栏

在春节期间，DeepSeek强势破圈，不仅成为全民热议的焦点，更在全球范围内引发了广泛关注。凭借卓越的技术实力，它迅速崛起为全球增速最快的AI应用，甚至有取代ChatGPT的趋势。DeepSeek不仅登顶美国苹果应用商店，还获得了众多名人的高度评价。如今，国家队也正式出手，国家超算互联网平台上线了DeepSeek系列模型，并计划推出更大规模的版本。

DeepSeek凭借其创新的技术架构、高效的训练方法、卓越的性能表现以及显著的成本优势，迅速在AI领域崭露头角，成为行业关注的焦点。本文将从技术角度深入分析DeepSeek爆火的原因，以及其背后的核心技术原理。

DeepSeek 有何不同

DeepSeek 推出第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero 完全基于大规模强化学习（RL）训练而成，未经过传统的监督微调（SFT）作为前置步骤。在训练过程中，它展现出卓越且独特的推理能力。然而，该模型也存在一些挑战，例如可读性欠佳和语言混合问题。

为了解决这些问题并进一步提升推理性能，DeepSeek又开发了DeepSeek-R1。该模型采用多阶段训练策略，并在强化学习之前引入冷启动数据，从而优化了模型的结构和表现。经过改进，DeepSeek-R1在推理任务上的表现与OpenAI的o1-1217不相上下，展现出强大的竞争力。

DeepSeek在多个任务上的表现超越了其他模型，特别是在数学推理和编程能力方面。最新的测试结果显示，DeepSeek在Math 500、A 2024和Code Force等任务中均取得了优异的成绩，展现了其处理复杂问题的强大能力。更多请查看：DeepSeek 3.0 大模型深度解析。

从技术角度来看，DeepSeek之所以突然火起来，主要得益于其在架构设计、训练方法、性能表现以及成本控制等方面的显著优势：

1、创新的技术架构

混合专家架构（MoE）：DeepSeek采用了混合专家（Mixture of Experts, MoE）架构，这种架构类似于一个由多个专家组成的团队，每个专家负责处理特定的任务。例如，DeepSeek-V3拥有6710亿总参数，但每个输入仅激活370亿参数。这种设计大幅减少了不必要的计算量，提升了模型的效率和经济性。
多头潜在注意力机制（MLA）：MLA架构通过多层注意力机制，让DeepSeek在处理复杂任务时表现更加出色。例如，在精确计算质数的任务中，DeepSeek R1能够准确给出第十亿个质数，展示了卓越的逻辑推理能力。
RMSNorm归一化策略：结合RMSNorm归一化策略，DeepSeek在模型效率与计算能力之间实现了新的平衡。

2、高效的训练方法

无辅助损失的负载均衡策略：DeepSeek创新性地提出了无辅助损失的负载均衡策略，有效克服了跨节点MoE训练中的通信瓶颈，提高了训练效率。
多token预测训练目标：通过引入多token预测训练目标，DeepSeek显著提升了模型的解码效率。例如，DeepSeek-V3的解码速度提升至原来的1.8倍。
FP8训练技术：DeepSeek首次在大规模模型上验证了FP8训练的可行性和有效性，进一步降低了训练成本。

3、卓越的性能表现

任务完成能力强：在多项评测中，DeepSeek的表现优异。例如，在数学任务上，DeepSeek-R1在AIME2024测试中的Pass@1准确率达到79.8%，超过OpenAI的O1-1217模型。在代码任务方面，DeepSeek在Codeforces上获得2029Elo评级，竞赛中表现优于96.3%的人类参与者。
响应速度快：DeepSeek在与用户交互时响应迅速，能在短时间内给出高质量回答，提升了用户体验。
上下文窗口较大：尽管DeepSeek-V3的上下文窗口为13万个token，略小于平均水平，但其在处理复杂任务时的表现依然出色。

4、成本优势显著

训练成本低：DeepSeek-V3的训练仅耗费266.4万H800 GPU小时，总成本仅为557.6万美元。相比之下，其他模型的训练成本往往高达数亿美元，DeepSeek的低成本优势使其在商业应用中更具吸引力。
使用成本低：DeepSeek的API调用成本相对较低，约为GPT-4的1/10。例如，每100万个token的价格仅为0.48美元，这使得更多的企业和开发者能够负担得起使用DeepSeek的成本。

5、开源与生态优势

开源促进发展：DeepSeek完整开放了1.5B-70B参数的模型，为不同需求的开发者提供了丰富的选择。这种开放的姿态吸引了大量开发者参与，形成了活跃的开发者社区，推动了AI技术的普及和创新。
生态构建潜力大：随着开源策略的推进，基于DeepSeek模型开发的应用和工具不断涌现，逐渐构建起一个庞大的生态系统。

底层技术揭秘：强化学习和蒸馏技术

在 DeepSeek-R1 的论文中提到，R1 通过结合冷启动数据、多阶段训练流程以及纯粹的强化学习方法，显著提升了大型语言模型的推理能力，其性能达到了与 OpenAI 的 o1 系列模型相当的水平。此外，R1 还借助蒸馏技术将这种强大的推理能力传递给了更小的模型版本。

这里其实涉及到了两项关键技术：强化学习和蒸馏技术。

那么，强化学习和蒸馏技术究竟是什么呢？抛开那些晦涩难懂的技术原理，让我们用通俗易懂的方式来解释一下。

1、强化学习

强化学习是一种机器学习方法，它通过与环境的交互来学习如何做出决策。在这个过程中，算法（代理）会尝试不同的动作，并根据结果获得反馈（奖励或惩罚），以此来调整其行为，以优化长期的累积奖励。

简而言之，强化学习就像是一个不断尝试和改正错误的学习过程，目的是找到实现特定目标的最佳策略。

强化学习的核心是马尔可夫决策过程（MDP），这是一个数学框架，用于描述一个系统如何做出决策。MDP包括以下几个基本组成部分：

状态（State）：系统的当前情况或配置。
动作（Action）：在特定状态下可能执行的操作。
奖励（Reward）：执行动作后立即获得的反馈。
转移概率（Transition Probability）：一个状态通过执行某一动作转移到另一个状态的概率。

强化学习算法，如Q学习和SARSA，通过不断更新价值函数来预测每个状态或动作的价值，以便做出更好的决策。价值函数可以基于贝尔曼方程来计算，该方程定义了最优价值函数的递归关系。

DeepSeek-R1-Zero 表明大型语言模型（Large Language Models）的推理能力可以仅通过强化学习来激励，而无需监督微调。

DeepSeek直接在基础模型上应用强化学习（Reinforcement Learning，简称RL），而不依赖于监督微调（Supervised Fine-Tuning，简称SFT）作为初步步骤。

这种方法使模型能够探索用于解决复杂问题的思维链（Chain of Thought，简称CoT），从而开发出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长思维链等能力，为研究领域树立了重要里程碑。

2、模型蒸馏

模型蒸馏技术是一种机器学习模型优化技术，通过将一个复杂模型的知识转移到一个更简单的模型上，实现在保持模型性能的同时减少模型的复杂度和计算成本。

模型蒸馏技术可以理解为一种“知识压缩”的过程。想象一下，你有一个知识丰富的老师傅（大模型），和一个初出茅庐的徒弟（小模型）。老师傅的经验丰富，但行动缓慢，而徒弟虽然行动迅速，但缺乏经验。通过模型蒸馏，我们希望徒弟能够从老师傅那里学习到宝贵的经验，以快速而有效地解决问题。

在机器学习中，这意味着我们通过训练一个轻量级的模型来模仿一个大型复杂模型的行为，从而获得一个既快速又高效的模型。

模型蒸馏技术的核心在于教师-学生框架（Teacher-Student Framework）。在这个框架中，我们有两个模型：教师模型（通常是已经训练好的、性能较好的大型模型）和学生模型（我们希望训练的更小、更高效的模型）。教师模型对学生模型的输出进行指导，帮助学生模型学习到如何更好地预测输出。

蒸馏过程通常包括以下几个步骤：

1. 预训练教师模型：首先，我们需要一个在特定任务上表现良好的教师模型。

2. 学生模型初始化：接着，初始化一个结构更简单、参数更少的学生模型。

3. 训练学生模型：在训练过程中，学生模型不仅学习原始的标签数据，还学习教师模型的输出，即软标签（Soft Targets）。这些软标签包含了教师模型的不确定性信息，有助于学生模型学习。

4. 优化和调整：通过调整损失函数，包括教师模型输出的一致性损失和原始标签的损失，来优化学生模型的性能。

大模型的推理模式可以被蒸馏到小模型中，与通过小模型上的强化学习发现的推理模式相比，这种方法能获得更好的性能。

DeepSeek-R1系列蒸馏的小模型在多个基准测试中的评估结果显著优于之前的开源模型，其中DeepSeek-R1-Distill-Qwen-32B等表现尤为突出，其性能可与o1-mini相媲美，且DeepSeek已向研究界开源了基于Qwen2.5和Llama3系列的15亿、70亿、80亿、140亿、320亿和700亿等多个参数规模的检查点。

这一技术创新被国内外技术人员进行了验证，大家发现按照R1论文的方法可以成功基于DeepSeek-R1蒸馏出性能与o1-mini相媲美的小模型。

DeepSeek 的蒸馏技术特点

1. 高效知识迁移

DeepSeek采用了监督微调（Supervised Fine-Tuning, SFT）的方式进行蒸馏。通过教师模型生成的大量推理数据样本（如800,000个样本），对较小的基础模型（如Qwen和Llama系列）进行微调。这种蒸馏过程不包括额外的强化学习（Reinforcement Learning, RL）阶段，从而显著提高了蒸馏的效率。这种方法不仅加速了训练过程，还确保了知识从教师模型到学生模型的有效传递。

2. 性能显著提升

经过蒸馏的小型模型在推理基准测试中取得了显著的性能提升。例如，DeepSeek-R1-Distill-Qwen-7B在AIME 2024测试中实现了55.5%的Pass@1，超越了其他先进模型。这表明，尽管学生模型的参数量较小，但通过蒸馏技术，它们能够继承教师模型的强大推理能力，从而在实际应用中表现出色。

3. 多种蒸馏策略

DeepSeek结合了基于特征的蒸馏（Feature-based Distillation）和特定任务蒸馏（Task-specific Distillation）。通过将教师模型中间层的特征信息传递给学生模型，DeepSeek帮助学生模型更好地捕捉数据的本质特征。这种多策略结合的方法不仅提高了模型的泛化能力，还使其在特定任务上表现出色。