模型压缩实战：深入解析高通AIMET的量化模拟

WPG大大通

于 2024-10-11 09:00:00 发布

阅读量1.7k

点赞数 46

分类专栏： QUALCOMM产线文章标签：大大通深度学习自动化笔记经验分享 tensorflow

本文链接：https://blog.csdn.net/wpgddt/article/details/142817177

版权

QUALCOMM产线专栏收录该内容

65 篇文章

订阅专栏

前言

高通AIMET [1] 是一个开源程式库，用于优化已训练的神经网络模型。开发者可以将 AIMET 的压缩和量化算法整合到 PyTorch 和 TensorFlow 的模型构建流程中，用于自动化后训练优化及模型微调，从而省去手动优化神经网络的繁琐过程。而AIMET 的量化模拟 (Quantization Simulation) 提供了模拟量化硬体效果的功能，让使用者可以在模拟过程中应用后训练或微调技术，以恢复模型的准确度，最终将模型部署在目标设备上。本篇将介绍量化模拟的基本原理与流程，了解其如何找到模型的最佳量化缩放与偏移参数，以观察应用这些技术后量化准确度的变化，并以VGG11 [2] 模型为例示范。

QuantSim 工作流程

QuantSim为AIMET之API之一，当 QuantSim 被创建后，可以使用其现有的管道在 QuantSim 物件中微调模型，以下是模拟目标量化精度的工作流程:

从预训练的浮点 FP32 模型开始，并通过在模型图中插入量化模拟操作来创建模拟模型。
找到插入的量化模拟操作的最佳量化参数，如缩放和偏移值，且需要使用者提供回调方法，会将一些具代表性的数据样本传递给模型，以找到最佳量化参数。
返回一个量化模拟模型，该模型可以在评估管道中替代原始模型使用。
使用者可以调用 .export() 函式保存移除量化节点的模型副本，并生成一个包含每个激活函式和权重张量量化缩放和偏移参数的编码文件。

图一、反量化过程中这些四舍五入的值会回到最接近的定点数，从而产生量化噪声。

QuantSim最佳量化参数原理

导入量化噪声: 由于反量化后的值可能与量化前的值不完全相同，这两者之间的差异即为量化噪声，为了模拟量化噪声，QuantSim 在模型图中添加了量化操作节点。生成的模型图可以直接用于使用者的评估或训练流程中，图一显示如何将实数值（如 rmin 和 rmax）对应到量化值的范围（如 0 到 255）。
确认量化参数: 使用 QuantSim时会分析并确定每个量化操作的最佳量化编码（即缩放和偏移参数）。会将一些校准样本通过模型，为每一层的输出张量创建直方图来得知浮点数的分布，如图二所示，而每层的编码包括四个数值：Min (qmin)、Max (qmax)、Delta、Offset。

图二、透过输出张量创建直方图来得知浮点数的分布。

QuantSim以VGG11为例之程式实现

VGG11介绍: VGGNet 在 2014 年由牛津大学 Visual Geometry Group 提出，特点是重复采用同一组基础模组，并改用小卷积核替代中大型卷积核，其架构由 n 个 VGG Block 与3个全连接层所组成，如图三所示。

图三、vgg16 论文上的架构图。

如图四所示，我们使用PyTorch训练和评估VGG11模型以进行CIFAR-10图像分类，首先定义了数据预处理操作和载入CIFAR-10数据集，然后建立了一个适合CIFAR-10的VGG11模型，并使用非预训练模型进行训练。

图四、建立VGG11模型与载入CIFAR-10数据集。

QuantSim 程式解释: 如图五所示，首先，建立一个大小为(1, 3, 32, 32)的随机张量作为dummy_input，用于模拟输入资料。然后，使用QuantizationSimModel [3] 建立一个量化模拟模型，设定量化方案为'tf'（TensorFlow风格），且预设输出和参数均为8bits。接着，定义一个forward_pass_callback函式，用于在计算编码时评估模型，而 compute_encoding函式则是用来确定最佳的量化参数，随后，使用测试资料集评估量化后的模型准确率。