大语言模型LLM基础：推理/不同模型/量化对显存、推理速度和性能的影响

最新推荐文章于 2025-04-14 01:15:15 发布

sagima_sdu

最新推荐文章于 2025-04-14 01:15:15 发布

阅读量7.1k

点赞数 24

分类专栏：大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_45498383/article/details/140058934

版权

12 篇文章

订阅专栏

通过本文，你将了解以下几个方面的内容：

本文内容和测试数据主要来自Qwen，零一万物，Nvidia等官方材料（相关文档请查看参考资料部分）。

实验设置：batch-size = 1
部分模型只推荐GPU，没有显存数据。

Int4量化，约2K上下文

模型（int4）	所需显存 (GB)	推荐GPU	参考模型
0.5B	<5G		Qwen2-0.5B-Instruct
1.5B	<3G		Qwen-1_8B-Chat, Qwen2-1.5B-Instruct
6B	4G		Yi-6B-Chat-4bits
7B	<11G		Qwen2-7B-Instruct，Qwen-7B-Chat-Int4
14B	13G		Qwen-14B-Chat-Int4
34B	20G		Yi-34B-Chat-4bits
57B	<35G		Qwen2-57B-A14B-Instruct
72B	<47G		Qwen2-72B-Instruct
130B	-	8 * RTX 2080 Ti(11G) 4 * RTX 3090(24G)	GLM-130B
236B	130G	8xA100(80G)	DeepSeek-V2-Chat

Int8量化，4K、6K上下文

模型（int8）	所需显存 (GB)	推荐GPU	参考模型
0.5B	6G		Qwen2-0.5B-Instruct
1.5B	8G		Qwen2-1.5B-Instruct
6B	8G		Yi-6B-Chat-8bits
7B	14G		Qwen2-7B-Instruct
14B	27G		Qwen-14B-Chat-Int8
34B	38G		Yi-34B-Chat-8bits
57B	117G (bf16)		Qwen2-57B-A14B-Instruct
72B	80G		Qwen2-72B-Instruct
130B	-	8xRTX3090 (24G)	GLM-130B
236B	490G (fb16)	8xA100 (80G)	DeepSeek-V2-Chat
340B	-	16xA100(80G) 16xH100(80G) 8xH200	Nemotron-4-340B-Instruct

性能优先，不量化，数据格式FB16，32K上下文

模型（fb16）	所需显存 (GB)	推荐GPU	参考模型
0.5B	27G		Qwen2-0.5B-Instruct
1.5B	30G		Qwen2-1.5B-Instruct
6B	20G		Yi-6B-200K
7B	43G		Qwen2-7B-Instruct
14B	39G (8k)		Qwen-14B-Chat
34B	200G (200k)	4 x A800 (80G)	Yi-34B-200K
57B	117G		Qwen2-57B-A14B-Instruct
72B	209G		Qwen2-72B-Instruct

若以上内容无法帮助你做出判断，你可以参考Qwen官网更详细的数据：Qwen速度基准

要点：

Model	batch=1	batch=4	batch=16	batch=32
Yi-6B-Chat	12 GB	13 GB	15 GB	18 GB
Yi-6B-Chat-8bits	7 GB	8 GB	10 GB	14 GB
Yi-6B-Chat-4bits	4 GB	5 GB	7 GB	10 GB
Yi-34B-Chat	65 GB	68 GB	76 GB	>80 GB
Yi-34B-Chat-8bits	35 GB	37 GB	46 GB	58 GB
Yi-34B-Chat-4bits	19 GB	20 GB	30 GB	40 GB

数据来源：Yi-6B-Chat

要点：

数据整理自Qwen2官方测试报告。

要点：

Qwen2模型的测试结果如下：

Qwen2-0.5B模型：量化模型速度变慢。
Qwen2-1.5B模型：量化与fb16相比速度持平。
Qwen2-7B模型：稍微变慢，使用vLLM时，量化版本更快。
Qwen2-72B模型：速度变快（尤其是Int4量化后，从2GPU变为1GPU后推理速度明显变快），但使用长context时（120k），量化版本推理速度变慢。

详细结果请访问：Qwen速度基准