【YOLOv5】【模型压缩与加速】【量化】FP32、FP16、INT8

程序员萌芽

已于 2023-11-30 18:41:25 修改

阅读量9.5k

点赞数 10

分类专栏：人工智能实训文章标签： YOLO python 人工智能

于 2023-11-12 18:52:14 首次发布

叶茂林

本文链接：https://blog.csdn.net/weixin_62264287/article/details/134355704

版权

人工智能实训专栏收录该内容

7 篇文章

订阅专栏

量化是将模型参数的存储类型从高精度存储降到低精度存储，从而达到减小模型体积大小、加快模型推理速度的效果。

目录

FP32量化

FP16量化

INT8量化

FP32量化

这个直接使用yolov5的export导出32位存储的 engine格式模型即可

python export.py --weights runs/train/exp4/weights/best.pt --include onnx engine --device 0

可以看到32位浮点型模型的onnx大小为7.1MB，engine大小为9.5MB。

然后我们用32位的engine模型进行推理

python detect.py --weights runs/train/exp4/weights/FP32.engine --source ikunData/images

其每张照片的推理速度为4.9ms，比我们用原模型推理的速度要快上一倍（9.5ms）。

32位engine模型的检测效果如下图所示。

FP16量化

python export.py --weights runs/train/exp4/weights/best.pt --include onnx engine --half --device 0

从32位浮点型转为16位浮点型的onnx模型大小减小了一半，从7.1MB减小到了3.6MB，其engine模型大小从9.5MB减小到了6.1MB，模型压缩效果模型。

再看看16位的模型加速效果

python detect.py --weights runs/train/exp4/weights/FP16.engine --source ikunData/images

此时的模型已经从32位的4.9ms推理速度提高到了2.3ms，加速效果明显。

与之同时，16位模型的检测效果却与32位的效果基本一样，在模型体积减小，推理速度加快的情况下，能够达到检测效果基本一样，说明16位量化效果十分成功。

INT8量化

我们还可以进一步量化，我们可以将模型量化为int8位存储，但是由于yolov5自带的export的int8导出效果好像并不好，因此int8量化要复杂一下。

我们首先拿到onnx格式的模型，这个我们在FP32量化的时候已经拿到了，在网上搜罗了一番，勉强可以找到一个将onnx转换为int8存储的engine的代码，但是由于这个代码有点年份了，使用到的TensorRT的版本老了，新的TensorRT已经不支持一些属性。

于是，经过一晚上加一下午代码的愉悦修改

具体请看【yolov5】onnx的INT8量化engine-CSDN博客

终于把代码给改对了，最后拿到的模型大小只有4MB。

但是int8的推理速度和FP16的差不多。

Int8目标检测的效果也要差上一些，从图中可以看到有些鸡没有被检测到，可见改用int8存储后的模型精度要差上一些。

评论 32

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序员萌芽 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。