深度学习之模型量化学习笔记

最新推荐文章于 2024-08-10 11:02:39 发布

IEEEagent RL

最新推荐文章于 2024-08-10 11:02:39 发布

阅读量1.4k

点赞数 2

分类专栏： python 笔记文章标签：深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_45776027/article/details/112864948

版权

29 篇文章 2 订阅

订阅专栏

22 篇文章 27 订阅

订阅专栏

模型部署时，往往考虑实际问题，算力、内存、带宽、速度、FPS、功耗、时延等等。特别是在移动端和嵌入式设备等资源受限的边缘侧应用场景中更加需要我们进行优化。

模型量化: 即以较低的推理精度损失将连续取值（或者大量可能的离散取值）的浮点型模型权重或流经模型的张量数据定点近似（通常为int8）为有限多个（或较少的）离散值的过程，它是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程
模型的输入输出依然是浮点型，从而达到减少模型尺寸大小、减少模型内存消耗及加快模型推理速度等目标。

8-bit 低精度推理中，我们将一个原本 FP32 的 weight/activation 浮点数张量转化成一个 int8/uint8 张量来处理。

如下图：量化前与量化后
在这里插入图片描述

一. 好处：

二、缺点：
1）增加了操作复杂度，在量化时需要做一些特殊的处理，否则精度损失更严重
2）必定损失一定的精度，虽然在微调后可以减少精度损失，但推理精度确实下降

数据类型表示：
在这里插入图片描述
量化算法负责将 FP32 数据映射到 int8/uint8 数据。量化算法分为对称算法和非对称算法，下面我们主要介绍这两种算法的详细内容及其区别。

非对称算法：
非对称算法那的基本思想是通过收缩因子（scale）和零点（zero point）将 FP32 张量的 min/max 映射分别映射到 8-bit 数据的 min/max。
如果我们用 x_f 表示原始浮点数张量, 用 x_q 表示量化张量, 用 q_x 表示 scale，用 zp_x 表示 zero_point, n 表示量化数值的 bit数，这里 n=8，那么非对称算法的量化公式如下：
上述公式中引入了 zero_point 的概念。它通常是一个整数，即 zp_x= rounding(q_x * min_x_f)。因此，在量化之后，浮点数中的 0 刚好对应这个整数。这也意味着 zero_point 可以无误差地量化浮点数中的数据 0，从而减少补零操作（比如卷积中的padding zero）在量化中产生额外的误差。

但是，从上述公式我们可以发现 x_q 的结果只能是一个非负数，这也意味着其无法合理地处理有符号的 int8 量化，Pytorch 的处理措施是将零点向左移动 -128，并限制其在 [-128,127] 之间。