YOLOv10改进系列，YOLOv10替换主干网络为MobileNetV3

挂科边缘(毕业版)

已于 2024-09-04 10:15:19 修改

阅读量108

点赞数

分类专栏： YOLOv10改进文章标签： YOLO

于 2024-09-03 18:30:00 首次发布

本文链接：https://blog.csdn.net/weixin_44779079/article/details/141859651

版权

YOLOv10改进专栏收录该内容

11 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

在这里插入图片描述

原论文摘要

MobileNetV3通过结合硬件感知网络架构搜索（NAS）和NetAdapt算法，通过新颖的架构改进进一步提升了性能。本文开始探讨了自动化搜索算法与网络设计如何协同工作，以利用互补方法来提升整体技术水平。通过这一过程，创建了两个新的MobileNet模型：MobileNetV3-Large和MobileNetV3-Small，分别针对高资源和低资源使用场景。这些模型随后被适配并应用于目标检测和语义分割任务。对于语义分割（或任何密集像素预测）任务，提出了一种新的高效分割解码器——Lite Reduced Atrous Spatial Pyramid Pooling（LR-ASPP）。我们在移动端的分类、检测和分割任务中取得了新的最先进的成果。相比于MobileNetV2，MobileNetV3-Large在ImageNet分类上精度提高了3.2%，同时延迟减少了15%；MobileNetV3-Small的精度提高了4.6%，而延迟减少了5%。在COCO检测任务中，MobileNetV3-Large的检测速度比MobileNetV2快25%，而精度几乎相同。对于Cityscapes分割任务，MobileNetV3-Large LR-ASPP比MobileNetV2 R-ASPP快30%，且精度相近。

介绍

MobileNetV3，使用平台感知NAS来搜索全局网络结构，通过优化每个网络块来实现这一目标。然后，使用NetAdapt算法逐层搜索滤波器的数量。这些技术是互补的，可以结合起来有效地找到针对特定硬件平台优化的模型。
通过架构搜索找到模型后，观察到一些最后几层以及一些早期层的计算成本较高。我们提出了一些架构修改，以减少这些慢层的延迟，同时保持准确性。这些修改超出了当前搜索空间的范围。
第一个修改是重新设计网络的最后几层的交互方式，以更高效地产生最终特征。基于MobileNetV2倒置瓶颈结构和变体的当前模型使用1x1卷积作为最终层，以扩展到更高维度的特征空间。这一层对于提供丰富的预测特征至关重要，但代价是增加了延迟。
为了减少延迟并保留高维特征，我们将这一层移到最终平均池化之后。现在，这组最终特征在1x1的空间分辨率上计算，而不是7x7的空间分辨率。这一设计选择的结果是，特征的计算在计算和延迟方面几乎变得免费。一旦这一特征生成层的成本得到缓解，先前的瓶颈投影层就不再需要用于减少计算。这一观察使我们能够去除先前瓶颈层中的投影和滤波层，进一步减少计算复杂度。图中展示了原始和优化的最后阶段。高效的最后阶段减少了7毫秒的延迟，占运行时间的11%，并减少了3000万MAdds的操作量，而几乎没有损失准确性。
如图原始最后阶段与高效最后阶段的比较。这个更高效的最后阶段能够在不损失准确性的情况下，删除网络末端的三个高代价层。
在这里插入图片描述

MobileNetV3理论详解可以参考链接：论文地址
MobileNetV3代码可在这个链接找到：代码地址

本文在YOLOv10中的主干网络替换成MobileNetV3，代码已经整理好了，

了解本专栏

挂科边缘(毕业版)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
YOLOv10改进系列，YOLOv10替换主干网络为MobileNetV3

MobileNetV3，使用平台感知NAS来搜索全局网络结构，通过优化每个网络块来实现这一目标。然后，使用NetAdapt算法逐层搜索滤波器的数量。这些技术是互补的，可以结合起来有效地找到针对特定硬件平台优化的模型。通过架构搜索找到模型后，观察到一些最后几层以及一些早期层的计算成本较高。我们提出了一些架构修改，以减少这些慢层的延迟，同时保持准确性。这些修改超出了当前搜索空间的范围。第一个修改是重新设计网络的最后几层的交互方式，以更高效地产生最终特征。
复制链接

扫一扫