一文搞懂DeepSeek-R1训练和推理显存需求

Python编程杰哥

于 2025-04-08 10:50:53 发布

阅读量1.2k

点赞数 28

文章标签：数据库前端人工智能知识图谱金融

本文链接：https://blog.csdn.net/xx_nm98/article/details/147062587

版权

*要弄清楚DeepSeek等大语言模型（LLM）对显卡的要求，需结合其应用场景（训练、推理）和模型规模。*

训练大型模型（如百亿参数以上，70B）时，推荐显存≥80GB的显卡（如NVIDIA A100/H100），特别是进行全参数训练的情况下。

如果只是对中等模型（十亿参数，7B）进行推理，则需16GB–24GB显存的显卡（如RTX 3090/4090或A10/A6000）。

对于本地轻量级推理任务，最低需8GB显存的显卡（如RTX 3060/4060）。

一、训练（Training）

模型训练（Training）是什么？模型训练（Training）是机器学习和深度学习中的一个核心过程，通过使用大量的数据来调整和优化模型的参数，使其能够执行特定的任务或做出准确的预测。

一、选择模型架构

根据任务类型和数据特点，选择合适的模型架构。例如，对于图像识别任务，可以选择卷积神经网络（CNN）；对于序列预测任务，可以选择循环神经网络（RNN）或Transformer等。

二、准备数据

对原始数据进行必要的预处理，如数据增强（如旋转、缩放、翻转等）以及归一化或标准化等，以提高模型的学习效果和泛化能力。同时将数据集划分为训练集、验证集和测试集。训练集用于训练模型，验证集用于调整模型参数和选择最优模型，测试集用于评估模型的最终性能。

三、设置训练参数

确定适当的超参数，如学习率、批处理大小、训练周期（或迭代次数）、优化器等。这些参数对模型的训练效果和速度有重要影响。

如何计算模型训练时内存需求？模型计算显存主要由模型参数、优化器状态、梯度信息以及激活值等多方面因素共同决定。

总内存 = 模型参数内存 + 激活内存 + 梯度内存 + 优化器状态内存 + KV缓存内存 + 额外开销**（如临时张量、内存碎片化等），额外开销通常可以估算为总内存需求的一定比例（如10-20%）。**

假设有一个拥有10亿个参数的模型，使用float16精度进行训练，批大小为32，序列长度为512，隐藏层大小为4096，使用Adam优化器。

模型参数内存 = 700亿 × 1.86 ≈ 130GB
激活内存（前向 + 反向） = 80层 × 288MB × 2 ≈ 45GB
梯度内存 = 700亿 × 1.86 ≈ 130GB（梯度与参数量相同，数据类型为 float16）
优化器状态内存 = 2 × 130.4GB = 260.8GB（Adam需要维护一阶矩和二阶矩）
缓冲区内存 = 框架开销（PyTorch/TensorFlow）：4-8 GB
KV缓存内存 = 2 × 1 × 80 × 64 × 128 × 2048 × 2字节 ≈ 5.24GB
额外开销 = (130GB + 45GB + 130GB + 260GB + 4 + 5) × 10% = 50GB

**总内存需求约为600GB（具体值取决于激活内存和额外开销的大小），**需多卡并行（如A100 80G × 8）。

**** DeepSeek-R1: Affordable, Efficient, and State-of-the-Art AI Reasoning | by LM Po | Jan, 2025 | Medium

二、推理（Inference）

什么是模型推理（Inference）？在模型训练完成后，使用训练好的模型对新数据进行预测或生成的过程。

在模型训练阶段，模型通过大量数据的学习，掌握了某种特定的能力或模式。而在推理阶段，模型则利用这种能力对新的、未见过的数据进行处理，以产生预期的输出。

训练好的大语言模型（LLM）可以导出为可部署格式（如ONNX、PyTorch、TensorFlow模型文件），并保存模型权重和配置文件。在部署平台上加载模型后进行初始化，就可以开始进行模型推理。

**如何计算模型推理时内存需求？模型推理显存主要取决于模型参数、激活值、KV缓存以及缓冲区内存等，主要取决于模型参数。

总内存=模型参数内存+激活内存+KV缓存内存+缓冲区内存

以DeepSeek-R1 70B模型为例，使用float16类型，序列长度为2048，批量大小为1，隐藏层层数为80，隐藏层维度为8192，注意力头数量为64，头维度为128，使用KV缓存。

模型参数内存 = 700亿 × 1.86 ≈ 130GB
激活内存 = 80层 × 288MB=22.5GB
KV缓存内存 = 2 × 1 × 80 × 64 × 128 × 2048 × 2 ≈ 5.24GB（2×batch_size×num_layers×num_heads×head_dim×seq_len×2字节）
缓冲区内存 = 框架开销（PyTorch/TensorFlow）约 *4 GB*

总内存需求约为160GB（具体值取决于激活内存和额外开销的大小），需多卡并行（如****4090 24G × 8）。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述