千问Qwen1.5中GPTQ、AWQ量化模型

最新推荐文章于 2024-05-25 20:32:51 发布

Archerya

最新推荐文章于 2024-05-25 20:32:51 发布

阅读量1.6k

点赞数 21

文章标签： python 人工智能

本文链接：https://blog.csdn.net/weixin_46437074/article/details/137785055

版权

2024年2月6日阿里巴巴开源了他们家第二代的Qwen系列大语言模型（准确说是1.5代），从官方给出的测评结果看，Qwen1.5系列大模型相比较第一代有非常明显的进步，其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型，在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

在Qwen抱抱脸中发布的多款模型中，GPTQ、AWQ这类都是量化模型。

什么是模型量化

模型量化(Model Quantization) 是一种通过减少模型参数表示的位数来降低模型计算和存储开销的技术。般来说，模型参数在深度学习模型中以浮点数(例如32位浮点数)的形式存储，而模型量化可以将这些参数转换为较低位宽的整数或定点数。这有几个主要的作用:

减小模型大小:通过减少每个参数的位数，模型占用的存储空间变得更小。这对于在移动设备、嵌入式系统或者边缘设备上部署模型时尤其有用，因为这些设备的存储资源通常有限。

加速推理: 量化可以降低模型推理时的计算开销。使用较低位宽的整数或定点数进行计算通常比使用浮点数更高效，因为它可以减少内存带宽需求，提高硬件的并行计算能力。这对于实时推理和响应时间敏感的应用程序非常重要

减少功耗: 量化可以降低模型在部署环境中的能耗，因为计算和存储操作通常是耗电的。通过减少模型参数的位数，可以减少在部署设备上执行推理时的功耗。

提高模型在资源受限环境中的可用性: 在一些场景中，设备的存储和计算资源可能非常有限，例如在边缘设备或物联网设备上。模型量化使得在这些资源受限的环境中部署深度学习模型更加可行。

总体而言，模型量化是一种权衡计算、存储和功耗的技术，可以使得深度学习模型更适应于各种不同的部署场景。

常用的量化技术有哪些呢？

1、GPTQ: Post-Training Quantization for GPT Models

GPTQ 的思想最初来源于 Yann LeCun 在 1990 年提出的 OBD 算法，随后 OBS、OBC (OBQ) 等方法不断进行改进，而 GPTQ 是OBQ 方法的加速版。简单来说，GPTQ 对某个 block 内的所有参数逐个量化，每个参数量化后，需要适当调整这个 block 内其他未量化的参数，以弥补量化造成的精度损失。GPTQ 量化票要准备校准数据集。

GPTQ是一种4位量化的训练后量化(PTQ)方法，主要关注GPU推理和性能。该方法背后的思想是，尝试通过最小化该权重的均方误差将所有权重压缩到4位。在推理过程中，它将动态地将其权重去量化为float16，以提高性能，同时保持低内存。

2、AWQ: Activation-aware Weight Quantization-激活感知权重量化

激活感知权重量化(AWQ)，一种新格式是AWQ(激活感知权重量化)，它是一种类似于GPTQ的量化方法。一种面向LLM低比特权重量化的硬件友好方法。我们的方法基于这样一个观察:权重并非同等重要，仅保护1%的显著权重可以大大减少量化误差。然后，我们建议通过观察激活而不是权重来搜索保护显著权重的最佳通道缩放。AWQ不依赖于任何反向传播或重构，因此可以很好地保留LLMs在不同领域和模态中的泛化能力，而不会过度拟合校准集。AWQ在各种语言建模和特定领域基准上优于现有工作。由于更好的泛化能力，它在面向指令调整的LMs上实现了出色的量化性能，并且首次在多模态LMs上取得了成功

AWQ在量化过程中会跳过一小部分权重，这有助于减轻量化损失。所以他们的论文提到了与GPTQ相比的可以由显著加速，同时保持了相似的，有时甚至更好的性能。

3、GGUF:GPT-Generated Unified Format

尽管GPTQ在压缩方面做得很好，但如果没有运行它的硬件，那么就需要使用其他的方法。

GGUF(以前称为GGML)是一种量化方法，允许用户使用CPU来运行LLM，但也可以将其某些层加载到GPU以提高速度。

虽然使用CPU进行推理通常比使用GPU慢，但对于那些在CPU或苹果设备上运行模型的人来说，这是一种非常好的格式。

4、(最近整数量化)Round nearest quantization

是一种常见的模型量化技术，它用于将浮点数参数量化为整数或定点数。在这种量化中，每人浮点数参数被四舍五入到最接近的整数或定点数。这种方法旨在保留尽可能多的信息，同时将参数映射到有限的整数或定点值

5、Transformers量化技术BitsAndBytes

BitsAndBytes 通过将模型参数量化为较低比特位宽的整数表示，从而在不显著影响任务性能的前提下减小了模型的存储需求和计算复杂度。然而，需要仔细选择位宽度，以平衡性能和信息损失之间的权衡。