YOLOv9改进系列，YOLOv9添加DCNv3可变性卷积与RepNCSPELAN4结构融合(无需编译)

挂科边缘(毕业版)

于 2024-08-27 20:33:09 发布

阅读量6

点赞数

分类专栏： YOLOv9改进文章标签： cnn YOLO 深度学习

本文链接：https://blog.csdn.net/weixin_44779079/article/details/141609808

版权

YOLOv9改进专栏收录该内容

24 篇文章 3 订阅 ¥49.90 ¥99.00

订阅专栏

在这里插入图片描述

前言

基于卷积神经网络 (CNNs) 的大规模模型仍处于早期阶段。本文提出了一种新的基于CNN的大规模基础模型，称为InternImage。与近期聚焦于大密度卷积核的大型CNN不同，InternImage以可变形卷积作为核心算子，因此模型不仅具备下游任务（如检测和分割）所需的大有效感受野，还具备适应输入和任务信息的自适应空间聚合能力。

DCNv3介绍

在这里插入图片描述

图(a) 显示了多头自注意力 (MHSA) 的全局聚合，其计算和内存成本在需要高分辨率输入的下游任务中非常昂贵。图(b) 将MHSA的范围限制在一个局部窗口内，以减少成本。图© 是具有非常大卷积核的深度卷积，用于建模长距离依赖关系。图(d) 是可变形卷积，具有与MHSA相似的有利属性，并且在大规模模型中足够高效。从可变形卷积开始，构建了一个大规模的卷积神经网络 (CNN)。

DCNv3在DCNv2版本上进行了改进：
在实践中，DCNv2通常用作常规卷积的扩展，加载预训练权重并进行微调，以获得更好的性能，但这并不完全适用于需要从头开始训练的大规模视觉基础模型。为了解决这个问题，DCNv3从以下几个方面扩展了DCNv2：
1.在卷积神经元之间共享权重：与常规卷积类似，原始 DCNv2 中的不同卷积神经元具有独立的线性投影权重，因此其参数和内存复杂度与采样点的总数成线性关系，这大大限制了模型的效率，特别是在大规模模型中。为了解决这个问题，我们借鉴了可分离卷积的思想，将原始卷积权重 w_k拆分为深度方向和点方向部分，其中深度方向部分由原始位置感知的调制标量 m_k 负责，而点方向部分则是在采样点之间共享的投影权重 w。
2.引入多组机制：多组（头）设计最早出现在组卷积中，它广泛用于变换器中的 MHSA 并与自适应空间聚合一起工作，以有效地从不同位置的不同表示子空间中学习更丰富的信息。受到此启发，我们将空间聚合过程分成 G 组，每组具有单独的采样偏移量和调制尺度，因此单个卷积层上的不同组可以具有不同的空间聚合模式，从而为下游任务生成更强的特征。
3.沿采样点归一化调制标量：原始 DCNv2 中的调制标量通过 Sigmoid 函数逐元素归一化。因此，每个调制标量的范围是 [0, 1]，所有采样点的调制标量之和不稳定，范围为 0 到 K。这导致 DCNv2 层在训练大规模参数和数据时梯度不稳定。为缓解不稳定性问题，我们将逐元素 Sigmoid 归一化更改为沿采样点维度的 Softmax 归一化。通过这种方式，调制标量的和限制为1，使得模型在不同规模的训练过程更加稳定。

DCNv3理论详解可以参考链接：

了解本专栏

挂科边缘(毕业版)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
YOLOv9改进系列，YOLOv9添加DCNv3可变性卷积与RepNCSPELAN4结构融合(无需编译)

CNv3在DCNv2版本上进行了改进，在实践中，DCNv2通常用作常规卷积的扩展，加载预训练权重并进行微调，以获得更好的性能，但这并不完全适用于需要从头开始训练的大规模视觉基础模型。为了解决这个问题，DCNv3从以下几个方面扩展了DCNv2：1.在卷积神经元之间共享权重、2.引入多组机制、3.沿采样点归一化调制标量。
复制链接

扫一扫