YOLOv9改进系列,YOLOv9添加DCNv3可变性卷积与RepNCSPELAN4结构融合(无需编译)

24 篇文章 3 订阅 ¥49.90 ¥99.00

在这里插入图片描述

前言

基于卷积神经网络 (CNNs) 的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型,称为InternImage。与近期聚焦于大密度卷积核的大型CNN不同,InternImage以可变形卷积作为核心算子,因此模型不仅具备下游任务(如检测和分割)所需的大有效感受野,还具备适应输入和任务信息的自适应空间聚合能力。

DCNv3介绍

在这里插入图片描述

图(a) 显示了多头自注意力 (MHSA) 的全局聚合,其计算和内存成本在需要高分辨率输入的下游任务中非常昂贵。图(b) 将MHSA的范围限制在一个局部窗口内,以减少成本。图© 是具有非常大卷积核的深度卷积,用于建模长距离依赖关系。图(d) 是可变形卷积,具有与MHSA相似的有利属性,并且在大规模模型中足够高效。从可变形卷积开始,构建了一个大规模的卷积神经网络 (CNN)。

DCNv3在DCNv2版本上进行了改进:
在实践中,DCNv2通常用作常规卷积的扩展,加载预训练权重并进行微调,以获得更好的性能,但这并不完全适用于需要从头开始训练的大规模视觉基础模型。为了解决这个问题,DCNv3从以下几个方面扩展了DCNv2:
1.在卷积神经元之间共享权重:与常规卷积类似,原始 DCNv2 中的不同卷积神经元具有独立的线性投影权重,因此其参数和内存复杂度与采样点的总数成线性关系,这大大限制了模型的效率,特别是在大规模模型中。为了解决这个问题,我们借鉴了可分离卷积的思想,将原始卷积权重 w_k拆分为深度方向和点方向部分,其中深度方向部分由原始位置感知的调制标量 m_k 负责,而点方向部分则是在采样点之间共享的投影权重 w。
2.引入多组机制:多组(头)设计最早出现在组卷积中,它广泛用于变换器中的 MHSA 并与自适应空间聚合一起工作,以有效地从不同位置的不同表示子空间中学习更丰富的信息。受到此启发,我们将空间聚合过程分成 G 组,每组具有单独的采样偏移量 和调制尺度,因此单个卷积层上的不同组可以具有不同的空间聚合模式,从而为下游任务生成更强的特征。
3.沿采样点归一化调制标量:原始 DCNv2 中的调制标量通过 Sigmoid 函数逐元素归一化。因此,每个调制标量的范围是 [0, 1],所有采样点的调制标量之和不稳定,范围为 0 到 K。这导致 DCNv2 层在训练大规模参数和数据时梯度不稳定。为缓解不稳定性问题,我们将逐元素 Sigmoid 归一化更改为沿采样点维度的 Softmax 归一化。通过这种方式,调制标量的和限制为1,使得模型在不同规模的训练过程更加稳定。

DCNv3理论详解可以参考链接:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

挂科边缘(毕业版)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值