改进1(主干网络替换MobileNetV3):
原论文摘要
MobileNetV3通过结合硬件感知网络架构搜索(NAS)和NetAdapt算法,通过新颖的架构改进进一步提升了性能。本文开始探讨了自动化搜索算法与网络设计如何协同工作,以利用互补方法来提升整体技术水平。通过这一过程,创建了两个新的MobileNet模型:MobileNetV3-Large和MobileNetV3-Small,分别针对高资源和低资源使用场景。这些模型随后被适配并应用于目标检测和语义分割任务。对于语义分割(或任何密集像素预测)任务,提出了一种新的高效分割解码器——Lite Reduced Atrous Spatial Pyramid Pooling(LR-ASPP)。我们在移动端的分类、检测和分割任务中取得了新的最先进的成果。相比于MobileNetV2,MobileNetV3-Large在ImageNet分类上精度提高了3.2%,同时延迟减少了15%;MobileNetV3-Small的精度提高了4.6%,而延迟减少了5%。在COCO检测任务中,MobileNetV3-Large的检测速度比MobileNetV2快25%,而精度几乎相同。对于Cityscapes分割任务,MobileNetV3-Large LR-ASPP比MobileNetV2 R-ASPP快30%,且精度相近。
MobileNetV3理论详解可以参考链接:论文地址
MobileNetV3代码可在这个链接找到:代码地址
改进2(引入CA注意机制):
原论文摘要
在本文中,提出了一种新的移动网络注意力机制,将位置信息嵌入到信道注意力中称之为“协调注意力”。与渠道关注不同通过2D全局池将特征张量转换为单个特征向量,坐标注意力因子将通道注意力转化为两个1D特征编码过程,这两个过程分别沿着两个空间方向聚合特征。通过这种方式,可以沿着一个空间方向捕获长程依赖性和均值,同时可以沿着另一个空间方向。生成的特征图为然后分别编码为一对方向感知和位置敏感注意力图,其可以被完全应用于输入特征图以增加感兴趣对象的表示。坐标保持简单,可以灵活插入经典网络。
CA理论详解可以参考链接:论文地址