文章目录
前言
DCNv3在DCNv2版本上进行了改进,上一期我们在YOLOv8中添加了DCNv2,这一期我们将添加DCNv3,DCNv3代码详解可以参考链接: 代码详解——可变形卷积(DCNv3)
DCNv3介绍
基于卷积神经网络 (CNNs) 的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型,称为InternImage。与近期聚焦于大密度卷积核的大型CNN不同,InternImage以可变形卷积作为核心算子,因此模型不仅具备下游任务(如检测和分割)所需的大有效感受野,还具备适应输入和任务信息的自适应空间聚合能力。

图(a) 显示了多头自注意力 (MHSA) 的全局聚合,其计算和内存成本在需要高分辨率输入的下游任务中非常昂贵。图(b) 将MHSA的范围限制在一个局部窗口内,以减少成本。图© 是具有非常大卷积核的深度卷积,用于建模长距离依赖关系。图
订阅专栏 解锁全文
218

被折叠的 条评论
为什么被折叠?



