YOLOv8分割-全网最新创新点改进系列:分割模型优化卷积操作为AKConv(可改变核卷积),加强特征提取,拉升检测性能!

YOLOv8分割-全网最新创新点改进系列:分割模型优化卷积操作为AKConv(可改变核卷积),加强特征提取,拉升检测性能!

所有改进代码均经过实验测试跑通!截止发稿时YOLOv8分割已改进40+!自己排列组合2-4种后,考虑位置不同后可排列组合上千万种!改进不重样!!专注AI学术,关注B站up主:Ai学术叫叫兽er!

购买相关资料后畅享一对一答疑

# YOLOv8分割-全网最新创新点改进系列:分割模型优化卷积操作为AKConv(可改变核卷积),加强特征提取,拉升检测性能!


AKconv(提出原文戳这)

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

摘要

​摘要:基于卷积运算的神经网络在深度学习领域取得了显著的成果,但标准卷积运算存在两个固有缺陷。一方面,卷积运算局限于局部窗口,无法从其他位置捕获信息,并且其采样形状是固定的。另一方面,卷积核的大小固定为k×k,这是一个固定的正方形形状,并且参数的数量倾向于随大小成直角增长。很明显,在不同的数据集和不同的位置,目标的形状和大小是不同的。具有固定样本形状和正方形的卷积核不能很好地适应变化的目标。针对上述问题,本工作探讨了可变核卷积(AKConv),它为卷积核提供了任意数量的参数和任意采样形状,为网络开销和性能之间的权衡提供了更丰富的选择。在AKConv中,我们通过一种新的坐标生成算法定义了任意大小卷积核的初始位置。为了适应目标的变化,我们引入偏移来调整每个位置的样本形状。此外,我们还通过使用具有相同大小和不同初始采样形状的AKConv来探索神经网络的效果。AKConv通过不规则卷积运算完成了高效特征提取的过程,并为卷积采样形状带来了更多的探索选择。在代表性数据集COCO2017、VOC 7+12和VisDrone-DET2021上的目标检测实验充分展示了AKConv的优势。AKConv可以用作即插即用卷积运算,以取代卷积运算,从而提高网络性能。请添加图片描述
上图所示:卷积参数数量随卷积尺寸增加的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。

1 简介

卷积神经网络(CNN),如ResNet [1]、DenseNet [2]和YOLO [3],在各种应用中表现出了优异的性能,并引领了现代社会许多方面的技术进步。 从自动驾驶汽车图像识别[4]和医学图像分析[5]到智能监控[6]和个性化推荐系统[7],它已经变得不可或缺。 这些成功的网络模型很大程度上依赖于卷积运算,它可以有效地提取图像中的局部特征并确保模型的复杂性。 尽管CNN在分类[8]、目标检测[9]、语义分割[10]等方面取得了许多成功,但它们仍然存在一些局限性。 最显着的限制之一涉及卷积样本形状和大小的选择。 标准卷积运算往往依赖于采样位置固定的方核,如1×1、3×3、5×5和7×7等。规则核的采样位置不可变形,不能动态改变。 对物体形状变化的反应。 Deformable Conv [11, 12]通过偏移增强网络性能,以灵活调整图1的采样形状。随着卷积尺寸增加,卷积参数数量的趋势。 很明显,与 Deformable 和标准 Conv 相比,AKConv 有更多的选择,并且卷积参数的数量随着卷积核大小呈线性增加。 为了便于描述,我们忽略了 Deformable Conv 和 AKConv 学习偏移量的参数数量,因为它比特征提取中涉及的卷积参数数量要少得多。 卷积核,适应目标的变化。 例如,在[13,14,15]中,他们利用它来对齐特征。 赵等人。 [16]通过将其添加到YOLOv4[17]中,提高了死鱼检测的效率。 杨等人。 [18]改进了YOLOv8 [19],通过将其添加到骨干中来检测牛。 李等人。 [20] 将 Deformable Conv 引入深度图像压缩任务 [21, 22] 以获得内容自适应感受野以提高网络性能。 重要的是,AKConv 允许卷积参数数量呈线性上升或下降趋势,这对硬件环境有利,并且可以作为轻量级模型的替代方案,以减少模型参数数量和计算开销。 其次,在资源充足的大内核中,它有更多的选择来提高网络性能。 图1显示,常规卷积核使得参数数量呈现平方增加趋势,而AKConv仅呈现线性增加趋势。 相比于平方的增长趋势,AKConv增长平缓,为卷积核的选择提供了更多的选择。 此外,它的想法可以扩展到特定领域。 因为,可以根据先验知识创建特殊的采样形状进行卷积运算,然后通过偏移动态自动适应目标形状的变化。 在代表性数据集VOC[23]、COCO2017[24]、VisDrone-DET2021[25]上进行的物体检测实验充分证明了AKConv的优势。
总之,我们的贡献如下:
1.对于不同大小的卷积核,我们提出了一种算法来为任意大小的卷积核生成初始采样坐标。
2.为了适应目标的不同变化,我们通过获得的偏移量来调整不规则卷积核的采样位置。
3. 与常规卷积核相比,所提出的AKConv实现了不规则卷积核提取特征的功能,为各种不同目标提供任意采样形状和大小的卷积核,弥补了常规卷积的缺点。

2 相关工作

近年来,许多工作从不同角度考虑和分析标准卷积运算,然后设计新颖的卷积运算来提高网络性能。 李等人。 [26]认为卷积核在所有空间位置共享参数,这导致跨不同空间位置的建模能力有限,并且不能有效捕获空间长程关系。 其次,为每个输出通道使用不同的卷积核的方法实际上效率不高。 因此,为了解决这些缺点,他们提出了Involution算子,通过反转卷积运算的特征来提高网络性能。 齐等人。 [27]提出了基于Deformable Conv的DSConv。 Deformable Conv中学习得到的偏移是自由的,导致模型丢失了一小部分精细结构特征,这对分割细长管状结构的任务提出了很大的挑战,因此,他们提出了DSConv。 张等人。 [28]从新的角度理解了空间注意力机制,他们认为空间注意力机制本质上解决了卷积运算的参数共享问题。 然而,一些空间注意力机制,例如CBAM [29]和CA [30],并没有完全解决大尺寸卷积参数共享的问题。 因此,他们提出了RFAConv。 陈等人。 [31]提出了动态转换。 与每层使用卷积核不同,动态卷积根据注意力动态聚合多个并行卷积核。 动态卷积提供了更好的特征表示。 谭等人。 [32]认为CNNS中经常忽略内核大小,这可能会影响网络的准确性和效率。 其次,仅使用逐层卷积并不能充分发挥卷积网络的潜力。 因此,他们提出了 MixConv,它自然地在单个卷积中混合多个内核大小,以提高网络的性能。 尽管这些方法提高了卷积运算的性能,但它们仍然仅限于常规卷积运算,并且不允许卷积样本形状的多种变化。 相比之下,我们提出的 AKConv 可以使用具有任意数量参数和样本形状的卷积核有效地提取特征。

3 方法

…详细方法在跑出研读原文!

4 结论

显然,在现实生活中以及计算机视觉领域中,物体的形状呈现出各种变化。 卷积运算固定的样本形状无法适应这种变化。 尽管Deformable Conv可以通过调整offset来灵活改变卷积的样本形状,但它仍然存在局限性。 因此,我们提出了AKConv,它真正实现了允许卷积具有任意样本形状和大小,这为卷积核的选择提供了多样性。 此外,针对不同的领域,我们可以设计特定的采样坐标初始形状以满足实际需要。 虽然在本文中,我们仅针对大小为 5 的 AKConv 设计了多种形状的采样坐标。但是,AKConv 的灵活性在于它可以针对任何大小的采样核来提取信息。 因此,未来我们希望针对该领域的特定任务探索具有适当大小和样本形状的 AKConv,这将为后续任务增添动力。

5 修改步骤!

5.1 修改YAML文件

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

5.2 新建.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

5.3 修改tasks.py

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

六、验证是否成功即可

执行命令

python train.py

改完收工!
关注B站:Ai学术叫叫兽er
从此走上科研快速路
遥遥领先同行!!!!

详细的改进教程以及源码,戳这!戳这!!戳这!!!B站:AI学术叫叫兽er 源码在相簿的链接中,动态中也有链接,感谢支持!祝科研遥遥领先!

  • 20
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值