DeepSeek为何能低算力实现高性能模型？-CSDN博客

本文链接：https://blog.csdn.net/zhangzhentiyes/article/details/145601687

本文在掘金同步发布：文章地址
更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号

在人工智能领域，在有限算力条件下实现高性能模型一直是研究热点。Deepseek 通过一系列创新技术，成功打造出低算力成本高性能的模型，为该领域带来新的突破，下面将详细介绍其实现方式。

一、模型架构

（一）稀疏注意力机制

注意力机制在深度学习模型中广泛应用，它让模型自动关注输入序列中的重要部分，提升性能和泛化能力。稀疏注意力机制则更进一步，以稀疏方式表示输入序列的相关元素。

传统注意力机制为输入序列的每个元素分配注意力权重，通过加权求和计算。而稀疏注意力机制只给少数关键点分配高注意力权重，其他部分权重较低，使模型聚焦重要信息，提升计算效率和性能。

具体实现步骤如下：

编码器：将输入序列编码成一组向量，用来表示序列里的每个元素。以文本处理为例，把每个单词转化为对应的向量，这些向量承载了单词的语义信息，为后续计算做准备。

计算注意力权重：依据编码器的输出，算出每个元素和目标元素的关联程度，得到注意力权重。就像判断每个单词和目标语义的相关程度，权重越高表示该元素与目标的关联越紧密。

稀疏化处理：对注意力权重进行稀疏化，只保留部分权重高的元素。这一步就像是从众多单词中筛选出最重要的那些，去除相对不重要的信息，减少计算量。

加权求和：根据稀疏化后的注意力权重，对目标元素的编码进行加权求和，得出最终输出。通过这种方式，模型能够突出关键信息对输出的影响。

输出：把加权求和的结果作为预测结果输出。

在机器翻译中，通过稀疏注意力机制，模型能更精准地捕捉源语言句子中的关键信息，从而提高翻译的准确性。例如，在翻译 “我喜欢苹果，因为它很美味” 这句话时，模型能准确关注到 “苹果”“美味” 等关键信息，避免因其他次要词汇干扰而出现翻译错误。

（二）混合专家系统（MoE）

混合专家系统（MoE）是一种独特的模型架构，它把多个子模型（即 “专家”）组合起来，以此提高模型的预测性能和效率。每个子模型专门处理输入空间的一个子集，还有一个门控网络（GateNet）来决定每个数据该由哪个模型训练，减少不同样本类型间的干扰。

MoE 模型主要基于两个核心组件运作：

GateNet：负责判定输入样本该由哪个专家模型处理。比如在处理不同类型的文本时，它能判断出该用擅长处理新闻文本的专家模型，还是擅长处理小说文本的专家模型。它通过对输入数据的特征分析，计算出每个专家模型对该输入的适配度，然后选择适配度最高的专家模型进行处理。

Experts：由一组相对独立的子网络构成，每个子网络就是一个 “专家”。在 MoE 架构里，前馈神经网络（FFN）层被分解成多个 “专家”，每个专家是 FFN 参数的一个子集，可根据特定功能设计成处理不同类型的输入或特征。例如，有的专家擅长处理数值计算相关的任务，有的则擅长处理语义理解相关的任务。

以 Google 提出的 Switch Transformer 为例，作为 MoE 的一个实例，在预训练任务上展现出比 T5-XXL 模型更高的样本效率。在处理大规模文本数据时，Switch Transformer 能够根据文本的特点动态分配计算资源，让每个专家模型专注于自己擅长的部分，从而提高整体的训练和推理效率。

Deepseek 的部分模型如 DeepSeek-V3 采用了 MoE 架构，拥有 6710 亿参数，其中激活参数为 370 亿，在 14.8 万亿 token 上进行了预训练。该模型在多语言处理，尤其是算法代码和数学方面表现出色，在多语言编程测试排行榜中，已超越 Anthropic 的 Claude 3.5 Sonnet 大模型，仅次于 OpenAI o1 大模型。其生成速度相比 V2.5 模型实现了 3 倍的提升，达到每秒吞吐量 60 token（V2.5 为 20TPS）。

二、训练方式

（一）渐进式蒸馏

渐进式蒸馏是一种知识迁移技术，从一个大的、性能好的 “教师” 模型中提取知识，然后转移到一个小的、更高效的 “学生” 模型中。与传统一次性知识迁移不同，它分阶段、逐步地进行知识迁移。

具体分为三个阶段：

知识萃取阶段：使用 T=10 的高温软化标签，捕获教师模型的决策逻辑。此时的损失函数为 KL 散度 + 对比损失。KL 散度用于衡量学生模型与教师模型输出分布的差异，对比损失则促使相似样本在特征空间中更接近，不同样本更远离，从而更好地学习教师模型的知识。

结构对齐阶段：匹配注意力矩阵（MSE 损失），使学生模型的注意力分布向教师模型靠拢；进行隐状态投影对齐（线性映射 + 余弦相似度），让学生模型的隐层状态与教师模型在特征表达上更相似，进一步提升知识迁移效果。

微调阶段：逐步降低温度至 T=2，使模型输出更加聚焦。同时引入真实任务数据（如指令微调），让学生模型在实际任务中进一步优化，提升对真实场景的适应性。

通过这样的渐进式训练，学生模型能在低算力条件下，逐步吸收教师模型的精华，在保持一定性能的同时，降低计算成本。

（二）量化感知训练 —— 让模型 “适应低精度”

在深度学习中，传统模型训练通常使用较高精度的数据类型，如 32 位浮点数。但量化感知训练可以让模型在训练过程中适应低精度的数据类型，比如 8 位整数。

具体实现是在训练过程中，模拟低精度数据的运算过程。在进行乘法和加法运算时，按照低精度数据的表示范围和精度进行模拟计算，让模型学习如何在这种低精度下依然保持良好的性能。这样在推理阶段，就可以使用低精度的数据进行计算，大大减少计算量和内存占用。例如在一些移动设备上，由于硬件资源有限，使用量化感知训练后的模型，能在有限的内存和计算能力下快速运行，实现实时的语音识别、图像分类等功能，同时又不会使模型性能下降太多。

三、推理优化

（一）自适应计算 - 动态计算策略

自适应计算，也叫动态计算策略，能根据输入数据的复杂度，动态调整模型的计算资源分配。对于简单的输入，模型可以使用较少的计算资源快速得出结果；而对于复杂的输入，则分配更多的计算资源来保证准确性。

具体采用了以下两种策略：

早期退出机制：在中间层设置置信度阈值（如 softmax 熵 < 0.2），当模型在中间层计算时，如果输出的置信度达到阈值，即认为模型已经能够准确判断，30% 样本提前 3 层终止计算，节省计算资源。比如在图像分类任务中，如果模型在早期层就能够明确判断图像类别，就无需继续进行后续复杂的计算。

可变长度处理：动态检测 [PAD] token 位置，实际计算长度减少平均 27%。在处理文本时，通常会对不同长度的文本进行填充使其长度一致，但填充部分在计算时是多余的。通过可变长度处理，模型只对实际文本内容进行计算，避免了对填充部分的无效计算，提高计算效率。

（二）混合精度推理 —— 精度与速度的平衡术

混合精度推理是在推理过程中同时使用不同精度的数据类型。通常会结合单精度（32 位）和半精度（16 位）浮点数。对于一些对精度要求不高的计算步骤，使用半精度浮点数，这样可以加快计算速度，减少内存占用；而对于一些关键的计算步骤，使用单精度浮点数，以保证模型的准确性。

在神经网络的矩阵乘法运算中，大部分运算可以用半精度浮点数快速完成，因为矩阵乘法主要是数值的线性变换，半精度浮点数在一定范围内能够满足精度要求，且计算速度更快。而在最后的输出层，为了保证结果的准确性，使用单精度浮点数进行计算。通过这种方式，在不明显降低模型精度的前提下，大大提高了推理速度。

在硬件加速方面，启用 NVIDIA TensorCore，利用其高效的矩阵乘法计算能力，进一步提升计算速度；使用 CUDA Graph 捕获计算流，将多次重复的计算操作合并成一个计算图，减少计算过程中的开销。相比全 FP32 推理，混合精度推理速度提升 2.8 倍，显存占用减少 45% 。

四、硬件协同

（一）显存革命 —— 突破硬件限制

显存对于深度学习模型的运行至关重要，Deepseek 通过一系列技术实现了 “显存革命”。

梯度检查点：仅保存关键层的激活值，显存占用减少 50%。在模型训练过程中，激活值的存储会占用大量显存。通过梯度检查点技术，只保存对计算梯度必不可少的关键层激活值，在需要计算梯度时，通过重新计算部分激活值来完成，从而大幅减少显存占用。

显存池化：预分配统一地址空间，碎片率降低 90%。传统的显存分配方式容易产生内存碎片，导致显存利用率低下。显存池化技术预先分配一块统一的显存地址空间，当模型需要显存时，从这个空间中分配，使用完毕后再回收，有效减少了碎片的产生，提高了显存的利用率。

零冗余优化器：优化器状态显存占用减少 75%。优化器在训练过程中会保存一些状态信息，这些信息也会占用显存。零冗余优化器通过优化状态信息的存储方式，减少了不必要的冗余存储，从而降低了优化器状态对显存的占用。

（二）编译优化 —— 释放硬件潜力

编译优化是将深度学习模型的代码转化为更高效的机器代码的过程。Deepseek 通过专门的编译器，对模型代码进行深度优化。

算子融合：将 LayerNorm+GeLU 合并为单一内核。在深度学习模型中，LayerNorm 和 GeLU 是常见的操作，将它们融合成一个内核可以减少函数调用开销，提高计算效率。

自动调优：基于硬件特性搜索最优内核配置。不同的硬件设备具有不同的性能特点，自动调优技术根据硬件的缓存大小、核心频率等特性，搜索最适合该硬件的内核配置，充分发挥硬件性能。

内存布局优化：转换为 NHWC 格式提升 GPU 利用率。在 GPU 计算中，内存布局对计算效率有很大影响。将数据转换为 NHWC（N 表示 batch size，H 表示高度，W 表示宽度，C 表示通道数）格式，更符合 GPU 的并行计算特性，能够提高 GPU 对数据的访问效率，进而提升 GPU 利用率。

通过以上从模型架构、训练方式、推理优化到硬件协同等多方面的创新技术，Deepseek 成功实现了低算力成本高性能的模型，为人工智能的发展和应用开辟了新的道路。其在模型训练成本上具有显著优势，例如 DeepSeek-V3 的全部训练成本总计远低于通常用于预训练大语言模型的上亿美元成本。