AI模型部署:TensorRT模型INT8量化的Python实现
本文首发于公众号【DeepDriving】,欢迎关注。
概述
目前深度学习模型的参数在训练阶段基本上都是采用32
位浮点(FP32
)来表示,以便能有更大的动态范围用于在训练过程中更新参数。然而在推理阶段,采用FP32
的精度会消耗较多的计算资源和内存空间,为此,在部署模型的时候往往会采用降低模型精度的方法,用16
位浮点(FP16
)或者8
位有符号整型(INT8
)来表示。从FP32
转换为FP16
一般不会有什么精度损失,但是FP32
转换为INT8
则可能会造成较大的精度损失,尤其是当模型的权重分布在较大的动态范围内时。
虽然有一定的精度损失,但是转换为INT8