一文读懂：接触DeepSeek等AI大模型时常接触到的7B/32B/671B、Q2/Q4/Q8、AWQ、Zero、Distill等名词或代码的含义

吳所畏惧

已于 2025-02-10 16:38:43 修改

阅读量1.9w

点赞数 87

分类专栏： DeepSeek 求索之路文章标签：深度学习人工智能自然语言处理知识图谱语言模型数据分析 nlp

于 2025-02-06 14:47:12 首次发布

本文链接：https://blog.csdn.net/wushuaihua520/article/details/145471810

版权

DeepSeek 求索之路专栏收录该内容

14 篇文章

订阅专栏

文章目录

一、大模型的参数量

我们经常会看到大模型后面，会跟一个奇怪的后缀，如：

DeepSeek-R1 - 1.5b
DeepSeek-R1 - 7b
DeepSeek-R1 - 8b
DeepSeek-R1 - 14b
DeepSeek-R1 - 32b
DeepSeek-R1 - 70b
DeepSeek-R1 - 671b

这个xxb，是什么意思呢？

原来，在大模型里面，有一个极其重要的概念，叫：参数量。
b是英文billion的简写，意思是十亿。7b就是70亿，8b就是80亿，是指大模型的神经元参数（权重参数weight+bias）的总量。

也就是说：

DeepSeek-R1 - 1.5b ，有15亿参数
DeepSeek-R1 - 7b，有70亿参数
DeepSeek-R1 - 8b ，有80亿参数
DeepSeek-R1 - 14b ，有140亿参数
DeepSeek-R1 - 32b ，有320亿参数
DeepSeek-R1 - 70b，有700亿参数
DeepSeek-R1 - 671b，有6710亿参数

理论上，参数量越多，大模型越“聪明”，不过得看具体的调试及应用

二、大模型的量化

大模型量化是通过降低模型参数的精度来减少模型存储需求和计算复杂度的技术，同时尽量保持模型的性能。
说得直白一点，就是：在不明显损失效果的前提下，降低显存，提高推理速度。

一般情况下，主要有以下2种：

仅量化模型参数
代表为 W4A16（AWQ）
同时量化模型参数和激活值
代表为W8A8（SmoothQuant）

推理评估指标为：吞吐量（Throughput）和延迟（Latency）。
对于W4A16和W8A8，可以根据业务场景的实际需求分别选用：

高吞吐 + 一般延迟：采用W8A8
低延迟 + 一般吞吐：采用W4A16

三、Q2/Q4/Q8分别什么意思

AI大模型中的Q2、Q4、Q8是指模型量化精度不同的版本。

量化是指将模型参数（如权重和偏置）从高精度的浮点数转换为较低位精度的整数的过程。具体来说：

Q2：表示量化精度为2位，即使用2位整数来表示原来的浮点数。
Q4：表示量化精度为4位，即使用4位整数来表示原来的浮点数。
Q8：表示量化精度为8位，即使用8位整数来表示原来的浮点数。

量化可以减少模型的参数精度，从而减少模型的存储空间和计算需求。不同量化精度的模型在显存占用和性能上会有所不同：

显存占用‌：量化精度越低，模型占用的显存越小。例如，Q4版本的模型占用的显存比Q8版本更小。
性能差异‌：虽然量化会降低模型的精度，但在某些情况下，性能的提升可能会超过精度的损失。例如，Q8版本的模型在显存占用更小的情况下，性能可能仍然优于高精度的模型版本。

选择合适的量化版本可以根据设备性能和任务需求来权衡。
Q2、Q3、Q4、Q5、Q6、Q8，这些数字表示模型权重的位数。位数越高，模型的精度通常越高，但所需的存储空间和计算资源也越多。
如果设备显存有限，可以选择Q2或更低精度的版本；如果对性能有更高要求，可以考虑Q8或更高精度的版本‌。

四、Zero

Zero模型通常是某大模型的一种版本，突出某方面的功能和性能。
比如DeepSeek-R1-Zero，就是DeepSeek-R1的原始版本，会犯错，但更有创意。自主性和探索能力更强。

四、大模型蒸馏

模型蒸馏（Model Distillation）：AI模型小型化与高效化之道。

当下大型语言模型如 DeepSeek-R1 等凭借其强大的能力推动着各行业的创新。
然而，这些模型动辄拥有数万亿参数，其计算成本高昂且资源消耗巨大。
在实际应用场景中，尤其是对计算资源有限的设备和追求高效响应的系统而言，迫切需要一种既能保留模型性能又能降低资源需求的方法，模型蒸馏（Model Distillation）应运而生。
它犹如一把钥匙，开启了通往高效人工智能应用的大门，成为当前研究与应用的热点领域之一。

比如：