YOLOv10全网最新创新点改进系列：Involution新卷积网络算子融合于YOLOv10网络，更大的空间范围中总结上下文信息，助力YOLOv10检测性能再上新台阶！

AI棒棒牛

于 2024-06-24 10:14:30 发布

阅读量552

点赞数 15

分类专栏： YOLOv10全网最新创新点改进文章标签： YOLO 网络 YOLO模型创新模型改进 yolov10 目标检测 sci

本文链接：https://blog.csdn.net/weixin_51692073/article/details/139917593

版权

YOLOv10全网最新创新点改进专栏收录该内容

39 篇文章 39 订阅

订阅专栏

YOLOv10全网最新创新点改进系列：Involution新卷积网络算子融合于YOLOv10网络，更大的空间范围中总结上下文信息，助力YOLOv10检测性能再上新台阶！

所有改进代码均经过实验测试跑通！截止目前，此项目已更新40种改进！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站博主：Ai学术叫叫兽er！

B站全文戳这里！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

Involution新卷积网络算子提出原文

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

摘要

卷积是现代神经网络的核心组成部分，引发了视觉深度学习的热潮。在这项工作中，我们重新思考了视觉任务的标准卷积的固有原理，特别是空间不可知和通道特定的。相反，我们通过反转上述卷积的设计原理，为深度神经网络提出了一种新的原子操作，称为对合。我们还揭开了最近流行的自我注意力运营商和subsidiaries到我们的对合家庭作为一个过于复杂的实例。所提出的对合运算符可以作为构建新一代视觉识别神经网络的基础，为几个流行的基准提供不同的深度学习模型，包括ImageNet分类，COCO检测和分割，以及Cityscapes分割。我们的基于卷积的模型使用ResNet-50将卷积基线的性能提高了1.6%的top-1准确度，2.5%和2.4%的边界框AP以及4.7%的绝对平均IoU，同时将上述基准的计算成本分别压缩到66%，65%，72%和57%。

1 简介

尽管神经网络架构的快速发展，卷积仍然是深度神经网络的主要构建方式。从经典的图像滤波方法中汲取灵感，卷积核具有两个显着的特性，这有助于其吸引力和流行性，即空间不可知性和通道特定性。在空间范围内，前一个属性通过在不同位置之间重用卷积核来保证卷积核的效率，并追求平移等价[63]。在信道域中，卷积核的频谱负责收集在不同信道中编码的各种信息，满足后一个属性。此外，自开创性的VGGNet出现以来，现代神经网络通过将其空间跨度限制为不超过3 × 3来欣赏卷积核的紧凑性[42]。一方面，虽然空间不可知沿着空间紧凑的性质在提高效率和解释翻译等价性方面是有意义的，但它剥夺了卷积核适应关于不同空间位置的不同视觉模式的能力。此外，局部性限制了卷积的感受野，这对在单次拍摄中捕获长距离空间相互作用构成了挑战。另一方面，众所周知，卷积滤波器内部的通道间冗余在许多成功的深度神经网络中非常突出[23]，这使得卷积核相对于不同通道的巨大灵活性受到质疑。为了克服上述限制，我们提出了操作创造的卷积，具有对称逆的固有特性相比，卷积，即，空间特定的和通道不可知的。具体地说，对合核在空间范围上是不同的，但在通道之间是共享的。由于其空间特定性，如果对合核被参数化为像卷积核一样的固定大小的矩阵，并使用反向传播算法进行更新，则学习的对合核将无法在具有可变分辨率的输入图像之间传输。为了处理可变特征分辨率，作为直观而有效的实例，可以仅以相应位置本身处的传入特征向量为条件来生成属于特定空间位置的对合核。此外，我们通过在通道维度上沿着共享对合核来减少核的冗余。综合考虑上述两个因素，对合运算的计算复杂度随着特征通道的数量线性增加，基于此，动态参数化的对合核可以在空间维度上广泛覆盖。通过逆向设计方案，我们提出的对合具有卷积的双重特权：（i）对合可以在更广泛的空间安排中概括上下文，从而克服了很好地建模长程相互作用的困难;（ii）对合可以自适应地分配

2 相关工作

在过去的十年中，为了改进卷积神经网络（CNN）架构以适应一般的图像识别任务，已经做了大量的研究工作。除了AlexNet [13]和Inception [14]网络之外，这些CNN架构中的核设计主要局限于3×3（例如VGG [40]、ResNet [15]、MobileNets [41]），这是因为它具有随着权重层深度的增加而提高的计算效率。为了尝试使用较大的核大小，文献[42]中的作者提出了一个由相对较大的7×7核组成的局部关系网络（LR-Net）。尽管其性能优于传统的ResNets（具有相同的核大小），但当核大小进一步增加时，LR-Net的性能下降了。为了弥补层次变换器和CNN之间的性能差距，ConvNeXt [33]通过逐渐将Transformer的设计引入ResNet来进行实证研究。他们发现了几个关键组件，可以改善CNN的性能，例如改变训练过程（如Swin Transformer）、改变阶段计算比率、使用更少的激活和归一化层以及使用更大的核大小。与LR-Net类似，他们发现当核大小超过7×7时，性能会趋于饱和。

最近，[35]中的作者重新审视了长期以来被忽视的大型核CNN设计。他们证明，在MobileNetV2中，通过将一组小型权重核替换为少数重新参数化的大型权重核，可以获得大型的有效感受野(ERFs)，并部分模拟人类对物体形状的理解。他们提出的大型核网络(ReplkNet)具有31×31的大型核大小，在ImageNet分类上比Swin Transformer高出0.3%，在MS-COCO检测上比ResNet-101高出4.4%。然而，ReplkNet会产生高昂的计算开销，从而限制了其在其他领域（如分割）的有效性。例如，[43]的作者表明，原始的大型核卷积会损害分割任务的性能，因为随着核大小的增加，参数大小增加导致模型出现过度拟合问题。为了解决这个问题，他们提出了具有大型1×k和k×1卷积核的全局卷积网络(GCN) [43]，以提高语义分割性能。

最近的一项工作，SLaK [44]，观察到随着核大小增加到31、51和61以上，ReplkNet [35]的性能开始趋于平稳。为了解决大型核的可训练性问题，SLaK将大型核分解为两个矩形核（即51×5和5×51），并使用动态稀疏技术来减少可学习参数。与这些方法不同，我们在基于CNN的视觉注意力网络（VAN）中采用可分离核进行深度卷积和深度膨胀卷积，并引入注意力模块，以进一步提高其计算效率。在不同的位置上的权重，以便在空间域中优先考虑信息量最大的视觉元素。类似地，最近的方法已经超越了卷积，优先考虑自我注意力，以捕获长期依赖性[39，64]。在这些工作中，纯自我注意力可以用来构建具有良好性能的独立模型。有趣的是，我们揭示了自我注意特殊化我们一般定义的对合通过一个复杂的制定有关内核的建设。相比之下，在这项工作中采用的对合核是根据单个像素而不是其与相邻像素的关系生成的。为了更进一步，我们在实验中证明，即使使用我们非常简单的版本，对合也可以实现与自我注意力竞争的准确性-成本权衡。充分意识到通过比较查询与自注意中的每个键获得的亲和矩阵也是对合核的实例化，我们质疑组合查询和键特征以产生这样的核的必要性，因为我们简化的对合核也可以获得不错的性能，同时避免键内容的多余出席，更不用说自注意中的专用位置编码了。所提出的对合操作很容易通过将可扩展和可切换的空间建模嵌入到表示学习范式中，以相当轻量级的方式促进视觉识别。基于这个重新设计的视觉原语，我们建立了一个骨干架构家族，称为RedNet，它可以实现上级性能超过基于卷积的ResNet和基于自注意力的图像分类模型。在包括检测和分割在内的下游任务中，我们全面地进行了一步一步的研究，以检查对合在检测器和分割器的不同组件上的有效性，例如它们的主干和颈部。对合被证明对每个所考虑的组件都有帮助，并且它们的组合导致最大的效率。
综上所述，本文的主要贡献如下：
1.我们重新思考卷积的固有属性，与空间和通道范围相关。这促使我们提倡其他潜在的运营商体现了识别能力和表现力的视觉识别作为一种替代，突破现有的归纳偏见的卷积。
2.我们将自我注意力融入视觉表征的学习过程中，这是一种新兴的哲学。在这种情况下，组成像素对的关系建模的desiderata的挑战。此外，我们通过对合的透镜统一了自我注意和卷积的观点。
3.卷积驱动的架构在各种视觉任务中普遍工作良好，包括图像分类，对象检测，实例和语义分割，提供比基于卷积的同行更好的性能。

详细方法请家人们仔细研读原文一手资料！！！

3 结论

卷积神经网络的拓扑连接性[18,21,55,57]和超参数配置[15,38,48]经历了快速的演变，但开发全新的算子却很少引起人们对构建创新架构的关注。在这项工作中，我们希望通过分解卷积元素并将它们重新组装成更有效和高效的对合来弥补这一遗憾。与此同时，神经架构工程当前的前沿之一是自动搜索网络结构[3,32,37,67,68]。我们的发明还可以填充大多数现有神经架构搜索（NAS）策略的搜索空间池。在不久的将来，我们期待在 NAS 的帮助下发现更有效的配备卷积的神经网络。

4 修改步骤！

5、验证是否成功即可

执行命令

python train.py

改完收工！
关注B站：Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行！！！！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽er 源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

AI棒棒牛

关注

15
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
YOLOv10全网最新创新点改进系列：Involution新卷积网络算子融合于YOLOv10网络，更大的空间范围中总结上下文信息，助力YOLOv10检测性能再上新台阶！

YOLOv10全网最新创新点改进系列：Involution新卷积网络算子融合于YOLOv10网络，更大的空间范围中总结上下文信息，助力YOLOv10检测性能再上新台阶！
复制链接

扫一扫