AI&dl&ml（人工智能&深度学习&机器学习相关笔记） note 1.1-CSDN博客

本文链接：https://blog.csdn.net/weixin_55626974/article/details/134368722

AI 人工智能学习笔记

量化 quantification

Basic Knowledge

Concept

Convert the weights and activation values of the high-level width representation to low bit width. Such as convert: Float32 -> Float16/Int8(most popular,-128-127) / uint8(low precision,0-255)

Pros

Reduce model size, the model of Int8 will have only 1/4 size of a model of Float32
Imporve the speed of inference and handle more data during the same time.
Fit in some hardware accelerators such as DSP/NPU

Symmetrical & asymmetrical quantification

Symmetrical Quantize

Float -> Int8
对称量化

量化因子:
$\Delta = max(abs(rmax), abs(rmin))$
量化过程：
根据量化因子做一个最近邻取整，之后做一个卡断，转成定点数
$x_{init} = round(\frac{x}{\Delta})$
$x_Q = clip(\frac{-N_{levels}}{2}, \frac{N_{levels}}{2}-1), x_{init}, if \ signed$
$N_{levels} = 256\ for\ 8-bits\ of\ precision$

Asymmetrical Quantize

非对称量化

量化过程与原理和对称量化类似，只是范围有所改变，加上了一个偏置Z
$\Delta = (rmax - rmin)/255$
$-\frac{rmin}{\Delta}$
$x_{init} = round(\frac{x}{\Delta}) + z$
$x_Q = clip(0,N_{level}-1, x_{init})$
$N_{levels} = 256\ for\ 8-bits\ of\ precision$

但是人们认为这种不饱和线性量化，损失的精度比较大

Post Quantification & Training Quantification

(Post) Tensor RT Quantize

activation value（激活值） -> 饱和量化，选择合适的阈值 $ab s (T)$
weights（权重） -> 直接非饱和量化

训练模拟量化

Forward过程中，将权值和激活值量化到8bit之后再反量化到有误差的32bit，训练还是浮点数
Backward求得梯度是模拟量化之后权值的梯度，用这个梯度去更新量化前的权值weights
以对称量化为例子：
$x_{init} = round(\frac{x}{\Delta})$
$x_Q = clip(\frac{-N_{levels}}{2}, \frac{N_{levels}}{2}-1), x_{init}, if \ signed$
$x_{out} = x_Q \Delta$
其中 $x_{out}$ 即为反量化的输出，会引入一定的误差，之后用这个数值来做前向传播forward
而对于梯度：
$\omega_{float} = \omega_{float} - \eta \frac{\partial L}{\partial \omega_{out}} \cdot{I_{\omega_{out}\in (\omega_{min}, \omega_{max})}}$
$\omega_{out} = SimQuant(\omega_{float})$
其中 $S im Q u an t$ 就是上面计算 $x_{out}$ 同样的步骤， $\eta$ 是学习速率learning rate。
其目的是让网络学习量化带来的误差
权值weight的scale直接根据每次forward的最大值求得：
$\ scale = \max(abs(weight))/128$
激活值activation的scale类似，但是max值是通过训练中使用EMA（exponential moving averages）的方式求得。
$\max * momenta + max(abs(activation))*(1- momenta), \ momenta=0.95$
$sc a l e = ma x /128$
同时模拟量化训练时需要推理把batch norm融合进卷积参数。其中一个卷积层接受原始的浮点数值，算出激活值activation value之后会去计算 $\gamma$ 和 $\beta$ ，计算得到的均值和方差，再进入卷积层进行量化，量化完进行卷积回去计算 $\gamma$ 和 $\beta$ ，计算得到的均值和方差，再进入卷积层进行量化，量化完进行卷积

实现细节

量化之后的权值限制在（-127，127）之间。正常8bit的取值在[ $2^7$ , $2^7$ -1]，相乘之后取值区间是(- $2^{14}$ , $2^{14}$ ]，累加两次之后就到了(- $2^{15}$ , $2^{15}$ ]，就会有超过int16正数表示的最大值 $2^{15}-1$ 的范围。这样一次乘法的结果就会小于 $2^{14}$