YOLOv10改进，YOLOv10二次创新C2f结构采用WTConv卷积（感受野的小波卷积），ECCV 2024

最新推荐文章于 2025-04-18 21:13:29 发布

挂科边缘

最新推荐文章于 2025-04-18 21:13:29 发布

阅读量686

点赞数 2

分类专栏： YOLOv10改进文章标签： YOLO 目标检测深度学习人工智能 python

本文链接：https://blog.csdn.net/weixin_44779079/article/details/143086380

版权

YOLOv10改进专栏收录该内容

71 篇文章 ¥159.90 ¥299.90

订阅专栏

在这里插入图片描述

摘要

WTConv（基于小波变换的卷积层），用于在卷积神经网络（CNN）中实现大感受野。作者通过利用小波变换，设计了一个卷积层，可以在保持少量可训练参数的情况下大幅扩大感受野。WTConv 被设计为可以无缝替换现有 CNN 架构中的深度卷积层，适用于图像分类、语义分割、物体检测等任务。

理论介绍

WTConv 的核心思想是通过结合卷积神经网络（CNN）的强大特征提取能力与小波变换的多尺度特性，来实现大感受野的卷积操作，同时避免传统大卷积核带来的参数爆炸问题。传统的卷积操作通过滑动小窗口在图像上逐步执行局部特征提取，感受野的大小直接取决于卷积核的尺寸。随着卷积核的增大，参数量呈指数增长，导致网络训练效率降低、计算资源消耗增加。为解决这些问题，WTConv 提出了在小波域中执行卷积操作的策略。小波变换是一种常用于信号处理的技术，能够将信号分解为不同频率成分。WTConv 使用了其中的 Haar 小波变换，作为一种简单高效的工具，将输入图像进行分解，得到不同频带的低频和高频分量。在图像经过小波变换之后，低频分量保留了图像的全局结构信息，而高频分量则包含了图像的细节特征。通过对低频部分递归应用小波变换，WTConv 能够以较少的参数对大尺度特征进行捕捉，从而有效扩大感受野，而无需显著增加计算复杂度。在小波域中进行卷积操作可以带来更大的感受野对第二级小波域的低频带 XLL(2) 进行 3 × 3 卷积，产生一个包含 9 个参数的卷积操作，该操作响应输入 X 中 12 × 12 感受野的低频部分，如下图（摘自官网论文）所示：
在这里插入图片描述