2024软件学院创新项目实训--大模型量化

小透明==

已于 2024-06-17 19:16:16 修改

阅读量861

点赞数 31

分类专栏： 2024软件学院创新项目实训-基于大模型的知识题库系统文章标签：深度学习机器学习

于 2024-06-17 19:11:36 首次发布

本文链接：https://blog.csdn.net/weixin_63647250/article/details/139751904

版权

2024软件学院创新项目实训-基于大模型的知识题库系统专栏收录该内容

7 篇文章 0 订阅

订阅专栏

量化技术背景：在自然语言处理领域，大型语言模型（LLM）在自然语言处理领域的应用越来越广泛。然而，随着模型规模的增大，计算和存储资源的需求也急剧增加。为了降低计算和存储开销，同时保持模型的性能，LLM大模型的量化技术应运而生。

由于我们的项目部署在云端，符合大模型量化的使用场景，因此我们要通过大模型量化来压缩模型的存储空间大小，优化存储空间、提高性能。

1.量化相关知识

1.1量化技术

LLM大模型的量化技术主要是通过对模型参数进行压缩和量化，从而降低模型的存储和计算复杂度。具体来说如下：

1.参数压缩
通过将模型中的浮点数参数转换为低精度的整数参数，量化技术可以实现参数的压缩。这不仅可以减少模型所需的存储空间，还可以降低模型加载的时间。
2.计算加速
由于低精度整数运算的速度远快于浮点数运算，量化技术还可以通过降低计算复杂度来实现计算加速。这可以在保证模型性能的同时，提高模型的推理速度。

量化技术的目的：节省显存、加速计算、降低通讯量。它们往往不会同时在场，不同的应用场景下应当对症下药

1.2量化示例

模型量化是指以较低的推理精度损失将连续取值（通常为float32或者大量可能的离散值）的浮点型权重近似为有限多个离散值（通常为int8）的过程。通过以更少的位数表示浮点数据，模型量化可以减少模型尺寸，进而减少在推理时的内存消耗，并且在一些低精度运算较快的处理器上可以增加推理速度。具体如下图所示，[-T, T]是量化前的数据范围，[-127, 127]是量化后的数据范围。

量化如何缩小模型：

1.3量化对象

模型量化的对象主要包括以下几个方面：

权重（weight）：weight的量化是最常规也是最常见的。量化weight可达到减少模型大小内存和占用空间。
激活（activation）：实际中activation往往是占内存使用的大头，因此量化activation不仅可以大大减少内存占用。更重要的是，结合weight的量化可以充分利用整数计算获得性能提升。
KV cache：量化 KV 缓存对于提高长序列生成的吞吐量至关重要。
梯度（Gradients）：相对上面两者略微小众一些，因为主要用于训练。在训练深度学习模型时，梯度通常是浮点数，它主要作用是在分布式计算中减少通信开销，同时，也可以减少backward时的开销。

1.4量化分类

根据应用量化压缩模型的阶段，可以将模型量化分为：

量化感知训练（Quantization Aware Training, QAT）：在模型训练过程中加入伪量化算子，通过训练时统计输入输出的数据范围可以提升量化后模型的精度，适用于对模型精度要求较高的场景；其量化目标无缝地集成到模型的训练过程中。这种方法使LLM在训练过程中适应低精度表示，增强其处理由量化引起的精度损失的能力。这种适应旨在量化过程之后保持更高性能。
量化感知微调（Quantization-Aware Fine-tuning，QAF）：在微调过程中对LLM进行量化。主要目标是确保经过微调的LLM在量化为较低位宽后仍保持性能。通过将量化感知整合到微调中，以在模型压缩和保持性能之间取得平衡。
训练后量化（Post Training Quantization, PTQ）：在LLM训练完成后对其参数进行量化，只需要少量校准数据，适用于追求高易用性和缺乏训练资源的场景。主要目标是减少LLM的存储和计算复杂性，而无需对LLM架构进行修改或进行重新训练。PTQ的主要优势在于其简单性和高效性。但PTQ可能会在量化过程中引入一定程度的精度损失。

1.5量化形式

另外，根据量化数据表示的原始数据范围是否均匀，还可以将量化方法分为线性量化和非线性量化。实际的深度神经网络的权重和激活值通常是不均匀的，因此理论上使用非线性量化导致的精度损失更小，但在实际推理中非线性量化的计算复杂度较高，通常使用线性量化。

线性量化：

2.量化的使用及好处

2.1使用场景

LLM量化技术在以下场景中非常有用：

移动设备和边缘计算：大型语言模型通常需要大量的存储和计算资源。通过量化，可以将模型压缩到适合移动设备和边缘设备的大小，以便实现更高效的推理。
云端部署：在云端部署大型语言模型时，存储和计算成本也是一个重要考虑因素。量化可以帮助降低云端服务器的资源需求。

2.2量化的优势及影响

存储空间优化：大型语言模型的参数数量庞大，存储这些参数需要大量的显存。通过量化可以显著减小模型的存储空间。
计算速度优化：低精度的整数运算比浮点数运算更快。量化可以加速模型的推理过程。
精度损失：量化技术会引入一定的精度损失，这可能导致模型性能的下降。因此，如何在保证性能的同时实现高效的量化是亟待解决的问题。
可移植性：由于不同的硬件平台对量化技术的支持程度不同，因此模型的移植性可能会受到影响。在实际应用中，需要考虑不同硬件平台的兼容性和优化。

小透明==

关注

31
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
2024软件学院创新项目实训--大模型量化

量化技术背景：在领域，大型语言模型（LLM）在自然语言处理领域的应用越来越广泛。然而，随着模型规模的增大，计算和存储资源的需求也急剧增加。为了降低计算和存储开销，同时保持模型的性能，LLM大模型的量化技术应运而生。由于我们的项目部署在云端，符合大模型量化的使用场景，因此我们要通过大模型量化来压缩模型的存储空间大小，优化存储空间、提高性能。LLM大模型的量化技术主要是通过对模型参数进行压缩和量化，从而降低模型的存储和计算复杂度。具体来说如下：1.参数压缩。
复制链接

扫一扫