基于高效变压器和CNN的轻量级实时语义分割网络

一只眠羊，咩

于 2023-04-10 15:46:50 发布

阅读量568

点赞数

文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/weixin_44796609/article/details/130060252

版权

Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN

https://arxiv.org/pdf/2302.10484.pdf

前言

分享的文章将从发现的问题、提出的创新点、创新方法的细节层面和实验总结等方面进行描述。

一、问题

1、CNN模型具有非常出色的性能，但捕获全局表示的能力仍然不足，这导致了次优结果；

2、基于fcn的模型的接受领域是有限的。因此，不可能学习到远程依赖关系，不利于提取全局语义信息，而全局语义信息对于密集任务，尤其是语义分割任务至关重要；最近的一些方法提出了使用大卷积核、扩张卷积和特征金字塔来扩展感觉场。另一种方法是将自然语言处理(NLP)域中的Non-local集成到FCN结构中，该结构旨在模拟特征图中所有像素的全局交互，但具有高内存和高计算成本。

3、Transformer也引起了计算机视觉研究人员的极大关注，他们将图像处理任务重新定义为序列对序列的预测，但导致局部特征细节恶化；在图像处理领域使用Transformer时，二维图像被切片并作为一维序列输入到模型中，从而打破了局部结构之间的联系，在所有阶段只关注全局上下文。因此，低分辨率特征缺乏详细的定位信息，不能通过直接上采样到全分辨率有效地恢复，导致分割结果粗糙；Transformer相比CNN必须在大量数据集上进行预训练；

二、创新

提出了一个轻量级的实时语义分割网络，称为LETNet。LETNet以胶囊嵌入的方式有效地将Ushaped CNN与Transformer结合起来，以弥补各自的不足。同时，精心设计的轻量级扩展瓶颈(LDB)模块和特征增强(FE)模块同时对训练产生了积极的影响。在具有挑战性的数据集上进行的大量实验表明，LETNet在准确性和效率平衡方面取得了优异的性能。具体来说，它只包含0.95M参数和13.6G FLOPs，但在cityscape测试集上以120 FPS产生72.8% mIoU，在CamVid测试集上以250 FPS产生70.5% mIoU，使用单个RTX 3090 GPU。

1.创新来源

Transformer虽然可以实现全局信息建模，但不能提取精细的空间细节。相反，CNN可以提供一种提取低级视觉线索的方法，可以很好地补偿这种精细的空间细节。因此，一些方法尝试将CNN与Transformer结合起来处理语义分割任务。

2.主要贡献

1、提出了一个轻量级扩展瓶颈(LDB)来提取重要的语义信息。LDB由扩张卷积和深度可分离卷积组成，在参数和计算量方面实现了极大的减重。

2、提出了一种混合网络LETNet来进行语义分割。LETNet采用最简洁的编码器-解码器结构，将高效的Transformer作为一个胶囊网络来学习全局信息。同时，在跳转连接中加入了Feature Enhancement (FM)模块，用于在恢复分辨率时补充边界细节信息。

三、方法细节

1.网络结构

如图2所示，LETNet由一个编码器、一个解码器、一个高效变压器和三个长跳接组成。具体来说，编码器和解码器是CNN结构，用于提取局部特征，以更好地表示图像。该变压器可以通过自注意和多层感知器(MLP)结构反映复杂的空间变换和长距离特征依赖，从而获得全局特征表示。三种远程连接的灵感来自于UNet，它将低级空间信息与高级语义信息相结合，以实现高质量的分割。

2、轻量级扩展瓶颈(LDB)模块

如图3所示，LDB的结构总体上采用了ResNet[16]的思想，模块设计为一个残差模块，在尽可能少的网络层数的情况下收集更多的特征信息。

在瓶颈处（最上边三层），通过1×1卷积，输入特征的通道数减少了一半。减少通道数量后，参数和计算量大大减少。虽然这样会损失一部分精度，但在这一点上，堆叠两个模块会比弥补损失更有利。同时，由于使用1 × 1卷积，网络深度必须加深才能获得更大的感受野。因此，在1× 1卷积之后，加入3×1和1×3的分解卷积来扩大感觉，以捕捉更大范围的上下文信息。

此外，分解卷积也是基于考虑参数的数量和计算量。同样，在接下来的两个分支结构中，两个分支也都使用了分解卷积，其中一个分支（中间左边分支）负责局部和短距离的特征信息，另一个分支（中间右边分支）使用了atrous卷积，负责在不同的atrous速率下从更大的接受场提取特征信息。

在这两个分支之后的是信道关注（CA），其灵感来自ECANet[14]，旨在信道维度上建立注意矩阵，增强特征表达，抑制噪声干扰，因为CNN的大部分特征信息都包含在信道中。然后，将两个低维分支和中间特征融合，输入到下面的1 × 1点卷积中，恢复特征图的通道数与输入特征图的通道数相同。最后，采用信道shuffle策略，避免了信道深度卷积导致的信息独立和信道间无相关性的缺点，促进了不同信道间语义信息的交换。完整的操作如下所示:

3、高效Transformer（ET）和特征增强(FE)

在EMHA（高效多头注意力机制）中，首先将Q、K、V分割为s个分段，然后依次执行Qi、Ki、Vi的比例点积注意。之后，我们将得到的O1.....Os进行串联得到整个输出O，实际上它依靠的是群卷积的思想，将大的矩阵分割成小的矩阵，然后计算，最后合并，从而达到减少计算量的目的。最后，利用扩展层恢复通道数。EMHA的架构如图4 (a)所示。

在神经网络中，下层具有较高的分辨率和准确的空间信息(分辨率对应于空间位置)，但语义信息较少。相比之下，高层分辨率较低，缺乏空间位置信息，但语义信息丰富。因此，在分割任务中，为了使高级信息中也有足够的空间信息，通常将低级空间信息和高级语义信息结合起来进行高质量的分割。因此，我们使用unet风格的结构来融合相同分辨率的高级和低级特征图。

同时，在三个长连接的过程中，我们提出了一个特征增强(Feature Enhancement, FE)模块来提高特征的表达能力。如图4 (b)所示，从信道维度（右边分支）和空间维度（左边分支）两个维度进行特征依赖建模，并同时对两个维度进行变换，最终融合，从而更有效地将底层信息传递到高层次。操作可以定义为: