BRECQ

最新推荐文章于 2024-09-14 17:02:52 发布

xdxd3c

最新推荐文章于 2024-09-14 17:02:52 发布

阅读量313

点赞数 2

文章标签：人工智能

本文链接：https://blog.csdn.net/xdxd3c/article/details/134926183

版权

文章介绍了BRECQ，一种在训练后量化（PTQ）中采用块粒度重建的优化方法，平衡了二阶误差和跨层依赖。通过实验，BRECQ在2位权重量化中兼容混合精度，且在性能上超越了其他PTQ方法，甚至接近4位QAT水平。

摘要由CSDN通过智能技术生成

块重建-BRECQ

在PTQ的框架下，使用了以块为单位的量化方法，将PTQ的位宽提升到int 2的水准。

量化背景

均匀对称量化中，我们需要最小化量化误差

第一个W是浮点权重，第二个是量化权重

在QAT中，研究者追求最小化任务目标也就是任务损失

但是在PTQ中我们只有，并且只有很少数量的校准数据

泰勒展开

为了分析量化带来的损失，研究者使用了泰勒展开定量分析

是梯度，是Hessian矩阵，是权重的变动

块重建

在PTQ中，network-wise reconstruction对二阶误差有准确的估计，但是它在PTQ的校准数据集上容易出现过拟合的现象，因此我们寻求另一种方法。

layer-wise reconstruction 是一个不错的选择，它类似于贪心算法，致力于得到量化后每一层的输出与原模型FP32的输出形状一致，layer reconstruction相当于一个逐层的正则化器。在局部看来这是一个很好的方法，能够具有更高的泛化能力。但是将目光格局放大，layer reconstruction的最终结果不一定是最佳的结果。

因此作者找到了在这两者之间的一个粒度-block reconstruction。块被定义成神经网络的基本模块，通常只有三四层。在文章中定义了四个粒度

本文在这四个重建粒度之间进行了选择，发现块重建在大量网络结构以及图像分类和检测任务中都是最优的选择。

同时，为了进一步提升离线量化上限，本文也探索了离线量化的混合精度问题。在以往的文献中，混合精度往往都是层间独立的，即用不同的比特数求出每层的敏感度，再将敏感度加起来得到整个网络的敏感度。可以用如下公式来表示，c 是比特向量，包含了每层的比特数，H© 是硬件评估函数，测量了模型的规模，或者延迟等硬件参数。层与层之间不是独立的，因此使用块敏感度度量，将每个块内所有的比特排列的敏感度测量出来，块之间的敏感度则是认为独立可直接相加。