原论文摘要
BoTNet是一种概念上简单但功能强大的骨干架构,它结合了MHSA意力机制,适用于图像分类、目标检测和实例分割等多种计算机视觉任务。仅通过在ResNet的最后三个瓶颈块中将空间卷积替换为MHSA注意力,不做其他任何更改,我们的方法在实例分割和目标检测上显著优于基准,同时减少了参数,延迟开销最小。
理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址
本文在YOLOv10中引入iRMB注意力机制(反向残差注意力),并与C2f结构融合,代码已经整理好了,跟着文章复制粘贴,即可直接运行