量化感知训练实践：实现精度无损的模型压缩和推理加速

阿里云云栖号

于 2021-12-24 14:36:13 发布

阅读量2.7k

点赞数 1

分类专栏：云栖号技术分享文章标签：计算机视觉目标检测深度学习

本文链接：https://blog.csdn.net/yunqiinsight/article/details/122126991

版权

简介：本文以近期流行的YOLOX[8]目标检测模型为例，介绍量化感知训练的原理流程，讨论如何实现精度无损的实践经验，并展示了量化后的模型能够做到精度不低于原始浮点模型，模型压缩4X、推理加速最高2.3X的优化效果。

1. 概述

对深度学习模型进行低比特量化，可以有效地降低模型部署时在存储、计算、通信上的开销，是一种常见的模型压缩和推理优化技术。然而，模型量化在实际应用中仍然存在不少挑战，最为常见的问题就是模型精度下降（如无特殊说明，本文中“模型精度”是指准确率等模型应用于具体任务的效果指标）。以计算机视觉领域为例，在目标检测、图像分割等复杂任务上，量化带来的精度下降更为明显。

通过在模型训练阶段引入量化相关约束，即量化感知训练（Quantization-aware training，QAT），能够更好地解决模型量化的精度问题。本文以近期流行的YOLOX[8]目标检测模型为例，介绍量化感知训练的原理流程，讨论如何实现精度无损的实践经验，并展示了量化后的模型能够做到精度不低于原始浮点模型，模型压缩4X、推理加速最高2.3X的优化效果。

2. 量化原理

在数字信号处理领域，量化是指将信号的连续取值（或者大量可能的离散取值）近似为有限多个（或较少的）离散值的过程。具体到深度学习领域，模型量化是指将浮点激活值或权重（通常以32比特浮点数表示）近似为低比特的整数（16比特或8比特），进而在低比特的表示下完成计算的过程。通常而言，模型量化可以压缩模型参数，进而降低模型存储开销；并且通过降低访存和有效利用低比特计算指令等，能够取得推理速度的提升，这对于在资源受限设备上部署模型尤为重要。

给定浮点类型的值，可以通过如下公式将它转化成8比特量化值：