yolov11、yolov8部署的7种方法(yolov11、yolov8部署rknn的7种方法),一天一种部署方法,7天入门部署

  由于涉及量化、部署两个领域,本博文难免有不对之处,欢迎指正。

  本博客对 yolov11(yolov8)尝试了7种不同的部署方法,在最基础的模型上一步一步的去掉解码相关的操作(移到后处理中进行),直到不能再删减,保留到模型最本质的部分。

  随着解码相关的操作越来越多的移入后处理,模型的推理的时耗在减少,后处理的时耗在增加;但也随着解码操作从模型种移除,量化的效果也在逐步变好。

  对每种方法的优势进行了简单总结,不同的平台、不同的时耗或CPU占用需求,总有一种方法是适用的。当然对想了解部署的也是一个很好的参考学习资料。

  春节期间一天一种部署方法,这个春节收获满满。

  yolov11的7种部署方法代码链接

  本博客种使用的板端芯片rk3588,模型yolov11n,模型输入分辨率640x640,检测类别80类。

0 七种方法汇总

编号推理时耗ms后处理时耗ms总时耗msCPU占用相比上一种方法int8量化友好性
第1种最少最简单不友好
第2种33.754.497238.2472同1不友好
第3种32.444.497136.4971增多不友好
第4种30.784.5535.33增多较友好
第5种30.754.8435.58增多,增加到最多较友好
第6种30.247.0837.32同5较友好
第7种30.177.3437.51同5友好

  若NPU负载不是瓶颈,当然可以考虑把多的操作放在NPU上,反之将操作往CPU上挪一部分;若量化掉点较多,则可以考虑量化稍微友好的方式。

1 代码目录结构

  yolov11的 7 种部署方法

yolov11_onnx  # onnx 推理脚本、模型、测试图片、测试效果图
yolov11_rknn  # 转并推理 rknn 脚本、模型、测试图片、测试效果图
yolov11_cpp   # 部署 rk388 完整 C++ 代码、模型、测试图片、测试效果图

2 yolov11(v8)的7种部署方法

2.1 第1种部署方法

模型结构

  按照yolov11官方导出的onnx模型,模型输出直接是类别和解码后的框,模型结构如下图。
在这里插入图片描述

onnx效果

  很遗憾的是转换成rknn的int8模型,检测不到任何结果。转换rknn的int8时把模型输出结果都打印出来发现,模型输出的84这个维度,前4个坐标框值正常,后80个得分输出全为0。导致这样的原因:坐标框值取值范围是1-640,而得分输出的值取值范围0-1,使得对量化很不友好,导致模型得分输出的值基本都为0。尝试转rknn的时不进行量化结果输出正常。因此该方法对量化不友好。这种部署方式模型时耗最长,后处理操作最少。
在这里插入图片描述

板端效果

  由于该种部署方法转rknn的int8时量化效果非常差,因此不做板端部署。

2.2 第2种部署方法

模型结构

  在第1种部署方法的模型基础上,去掉了最后的把坐标框和得分concat在一起的操作。
在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

  第1种部署方法由于坐标框值取和得分的取值范围差异较大,concat在一起使得量化成int8模型基本不可用。这种方法是去掉了最后的concat,量化能正常输出结果,但在板端测试效果不是很好。
在这里插入图片描述

板端时耗

在这里插入图片描述

2.3 第3种部署方法

模型结构

  在第2种部署方法的模型基础上,去掉坐标框解码到模型输入尺寸的计算。
在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

在这里插入图片描述

板端时耗

在这里插入图片描述

2.4 第4种部署方法

模型结构

  在第3种部署方法的模型基础上,继续去掉坐标框的DFL,输出2个头。第2、3两种部署方法,可能是对于量化不友好,导致检测效果明显有问题。该种方法检测效果没有明显问题。
在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

在这里插入图片描述

板端时耗

在这里插入图片描述

2.5 第5种部署方法

模型结构

  在第4种署方法的模型基础上,继续去掉把坐标框和得分进行分开的split,以及得分的sigmoid函数,输出1个头。到达这一种部署方法后,后处理占用cpu不会在增加。
在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

在这里插入图片描述

板端时耗在这里插入图片描述

2.6 第6种部署方法

模型结构

  在第5种署方法的模型基础上,继续把三个检测头concat在一起的操起去掉,输出3个头。

在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

在这里插入图片描述

板端时耗

在这里插入图片描述

2.7 第7种部署方法

模型结构

  在第6种署方法的模型基础上,继续把三个检测头的坐标框和得分concat在一起的操起去掉,输出6个头。到这一步模型内封装的操作能去的都去了,模型的速度达到了最快,量化友好性达到了最好。

在这里插入图片描述

onnx效果

  onnx的测试效果和第一种一样,就不再贴图了。

板端效果

在这里插入图片描述

板端时耗

在这里插入图片描述

### YOLOv11 转换为 RKNN 格式并在 Rockchip 平台上部署 #### 准备工作 为了成功将YOLOv11模型转换为RKNN格式并部署到Rockchip平台,需准备如下工具和环境: - 安装 `rknn-toolkit` 工具包。此工具支持多种框架下的模型转制为RKNN格式[^1]。 ```bash git clone https://github.com/rockchip-linux/rknn-toolkit.git cd rknn-toolkit git checkout c5360f6e7 pip install . ``` #### 模型转换过程 对于YOLOv11模型的转换流程主要分为几个部分处理: - **导出ONNX模型**:首先需要把原始训练好的YOLOv11 PyTorch(.pt)模型文件通过官方提供的脚本或其他方式转化为中间表示形式即ONNX格式。 - **优化ONNX模型**:利用onnx-simplifier等工具进步简化和优化该ONNX版本的网络结构以提高效率减少冗余操作节点数量。 - **转换至RKNN格式**:最后步就是采用上述安装完成后的`rknn-toolkit`来进行最终的目标转换动作,具体命令如下所示: ```python from rknn.api import RKNN # 创建RKNN对象实例化 rknn = RKNN() # 加载ONNX模型路径 print('--> Loading ONNX model') ret = rknn.load_onnx(model='path_to_your_optimized_model.onnx') if ret != 0: print('Load ONNX model failed!') exit(ret) # 构建RKNN模型配置参数设置 print('--> Building model') ret = rknn.build(do_quantization=True, dataset='./dataset.txt') if ret != 0: print('Build RKNN model failed!') exit(ret) # 导出RKNN模型保存位置指定 print('--> Export RKNN model') ret = rknn.export_rknn('./yolov11.rknn') if ret != 0: print('Export RKNN model failed!') exit(ret) ``` 以上代码片段展示了如何使用Python API接口来加载、构建以及导出个适用于Rockchip硬件加速器上的RKNN模型文件。 #### 部署与测试 当已经获得`.rknn`结尾的目标文件之后,则可以将其传输给目标设备(RK3588),并通过编写相应的应用程序调用API函数实现图像输入输出等功能验证实际效果是否满足预期性能指标要求。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值