YOLOv10全网最新创新点改进系列：YOLOv10融合SwinUNet中的Patch Expanding Layer模块，恢复特征空间分辨率，全新上采样助力模型改进！

AI棒棒牛

已于 2024-09-06 09:13:41 修改

阅读量814

点赞数 24

分类专栏： YOLOv10全网最新创新点改进文章标签： YOLO 目标检测创新点模型改进 YOLOv10 涨点优化

于 2024-09-05 23:05:04 首次发布

本文链接：https://blog.csdn.net/weixin_51692073/article/details/141942783

版权

YOLOv10全网最新创新点改进专栏收录该内容

51 篇文章 118 订阅

订阅专栏

YOLOv10全网最新创新点改进系列：YOLOv10融合SwinUNet中的Patch Expanding Layer模块，恢复特征空间分辨率，全新上采样助力模型改进！

所有改进代码均经过实验测试跑通！截止发稿时YOLOv10已改进40+！自己排列组合2-4种后，考虑位置不同后可排列组合上千万种！改进不重样！！专注AI学术，关注B站up主：Ai学术叫叫兽er！

购买相关资料后畅享一对一答疑！

YOLOv10全网最新创新点改进系列：YOLOv10融合SwinUNet中的Patch Expanding Layer模块，恢复特征空间分辨率，全新上采样助力模型改进！

详细的改进教程以及源码，戳这！戳这！！戳这！！！B站：AI学术叫叫兽源码在相簿的链接中，动态中也有链接，感谢支持！祝科研遥遥领先！

一、简介

将是卷积运算的公开性。在本文中，我们提出了 Swin-Unet，它是一个类似 Unet 的纯 Transformer，用于医学图像分割。标记化的图像块被输入到基于 Transformer 的 U 型编码器-解码器架构中，并具有用于局部全局语义特征学习的跳跃连接。具体来说，我们使用具有移位窗口的分层 Swin Transformer 作为编码器来提取上下文特征。并且设计了具有补丁扩展层的基于对称 Swin Transformer 的解码器来执行上采样操作以恢复特征图的空间分辨率。在对输入和输出进行 4 倍直接下采样和上采样的情况下，多器官和心脏分割任务的实验表明，纯基于 Transformer 的 U 形 Encoder-Decoder 网络优于全卷积或组合的方法变压器和卷积。在过去的几年里，卷积神经网络（CNN）在医学图像分析方面取得了里程碑式的成就。特别是基于U型结构和跳跃连接的深度神经网络已广泛应用于各种医学图像任务。然而，尽管CNN取得了优异的性能，但由于卷积运算的局部性，它无法很好地学习全局和远程语义信息交互。在本文中，我们提出了 Swin-Unet，它是一个类似 Unet 的纯 Transformer，用于医学图像分割。标记化的图像块被输入到基于 Transformer 的 U 型编码器-解码器架构中，并具有用于局部全局语义特征学习的跳跃连接。具体来说，我们使用具有移位窗口的分层 Swin Transformer 作为编码器来提取上下文特征。并且设计了具有补丁扩展层的基于对称 SwinTransformer 的解码器来执行上采样操作以恢复特征图的空间分辨率。

patch expanding layer：以第一个patch expanding layer为例，在上采样之前，在输入特征（W 32 × H 32 ×8C）上应用线性层，将特征维度增加到原始维度（W 32×高32×16℃）。然后，我们使用重新排列操作将输入特征的分辨率扩展到输入分辨率的2倍，并将特征维度减少到输入维度的四分之一（W 32 × H 32 × 16C → W 16 × H 16 × 4C）。

二、方法

在每个Stage中首先要通过一个Patch Merging层进行下采样（Stage1除外）。假设输入Patch Merging的是一个4x4大小的单通道特征图（feature map），Patch Merging会将每个2x2的相邻像素划分为一个patch，然后将每个patch中相同位置（同一颜色）像素给拼在一起就得到了4个feature map。接着将这四个feature map在深度方向进行concat拼接，然后在通过一个LayerNorm层。最后通过一个全连接层在feature map的深度方向做线性变化，将feature map的深度由C变成C/2。通过这个简单的例子可以看出，通过Patch Merging层后，feature map的高和宽会减半，深度会翻倍。
Synapse多器官CT数据集上不同方法的分割结果。 Swin-Unet的架构，由编码器、瓶颈、解码器和跳过连接组成。编码器、瓶颈和解码器均基于 swin Transformer 块构建