XNet: Wavelet-Based Low and High Frequency Fusion Networks for Fully- and Semi-Supervised 论文阅读

code:Yanfeng-Zhou/XNet: [ICCV2023] XNet: Wavelet-Based Low and High Frequency Merging Networks for Semi- and Supervised Semantic Segmentation of Biomedical Images (github.com)

paper:ICCV 2023 Open Access Repository (thecvf.com)

摘要:

随着深度神经网络(dnn)的发展,生物医学图像的全监督和半监督语义分割得到了进一步的发展。然而,到目前为止,深度神经网络模型通常被设计为支持这两种学习方案中的一种,支持全监督和半监督分割的统一模型仍然有限。此外,很少有全监督模型关注图像的固有低频(LF)和高频(HF)信息来提高性能。基于一致性的半监督模型中的扰动通常是人为设计的。他们可能会引入不利于训练的消极学习偏见。在这项研究中,我们提出了一种基于小波的LF和HF融合模型XNet,它支持全监督和半监督语义分割,并且在这两个领域都优于最先进的模型。强调提取低频和高频信息进行一致性训练,以减轻人为扰动造成的学习偏差。在两个二维和两个三维数据集上的大量实验证明了该模型的有效性。代码可从https: //github.com/Yanfeng-Zhou/XNet获得。

1介绍

语义分割是生物医学图像分析中的一项基本任务,其目标是为每个像素分配一个类标签。基于卷积神经网络(convolutional neural networks, cnn)的生物医学图像语义分割方法已经取得了显著的成功[42,47,23,8]。一些研究将这些方法扩展到三维,并在体积分割方面取得了令人鼓舞的结果[35,10,62,37]。最近,变压器和cnn的结合已成为流行[5,54,53,20,54]。变压器可以捕获远程依赖关系[50,13,30],以补偿cnn有限的接受域。然而,现有的方法大多侧重于模型架构,以更好地提取特征[67,38,65]。很少有方法探索图像的固有LF和HF信息,这些信息可能对分割有用[58,49]。对于生物医学图像的语义分割,监督方法需要大规模的标记图像,这是昂贵和耗时的。为了缓解这一问题,研究人员提出了半监督方法,即使用少量标记图像和大量未标记图像进行学习[48,51,59]。常见的解决方案包括对抗性训练[36,46]、伪标记[16,60,56]和一致性正则化[6,12]。一致性正则化是目前表现最好的方法[32,34],它扰动输入图像、中间特征或输出预测,允许模型从扰动中学习一致性[26,39,34]。然而,目前的摄动策略是人为设计的,如旋转[26]、噪声添加[39]、距离映射[32]和dropout[39]等。它们可能会引入负面的学习偏差,例如分割噪声图像相当于学习一个额外的去噪任务。此外,完全监督和半监督语义分割被视为两个不同的研究领域。同时达到最先进水平的统一模型仍然有限。为了解决上述问题,我们提出了一种基于小波的低频与高频融合模型XNet。XNet可以同时实现基于LF和HF信息融合的全监督学习,以及基于LF和HF输出一致性的半监督学习。具体来说,我们使用小波变换生成低频和高频图像,并将其输入到XNet中。XNet融合它们的LF和HF信息,然后生成双分支分割预测。这篇ICCV论文是开放获取版本,由计算机视觉基金会提供。除了这个水印,它与接受的版本是相同的;会议记录的最终出版版本可在IEEE探索网站上找到。对于监督学习,分割预测吸收原始图像的完整LF和HF信息。对于半监督学习,双输出对低频和高频信息的关注不同,导致一致性差异。这些差异用于未标记图像的训练动机。对于语义分割问题,高频信息一般表示图像细节,而低频信息往往是抽象语义(图2中低频和高频图像直观地显示了它们的区别)。
提取和融合不同频率信息的策略可以帮助模型更好地关注低频语义和高频细节,从而提高性能。此外,我们的模型使用小波变换生成低频和高频图像,用于一致性差分半监督学习。这些一致性差异源于对LF和HF信息的关注程度不同,减轻了人为设计造成的学习偏差。
我们提出了一种低频和高频融合模型XNet,该模型同时实现了生物医学图像的全监督和半监督语义分割。
•XNet使用小波变换生成LF和HF图像进行一致性学习,可以减轻人为扰动造成的学习偏差。
•对两个2D和两个3D公共生物医学数据集的广泛基准测试证实了XNet的有效性。

2.相关工作

生物医学图像的全监督语义分割。随着深度学习的兴起,cnn被广泛应用于语义分割[57,22,15,61],如FCN[31]、DeepLab v3+[8]等。对于生物医学图像,高效的编解码器架构实现了卓越的性能[63,23],如UNet[42]、UNet++[67]、UNet 3+[21]等。此外,研究人员将该架构扩展到3D以满足体积分割的需求。[35]提出了一个3D全CNN VNet。[10]将UNet扩展到3D。ConResNet[62]提出了片间上下文残差学习。最近,将变压器与编码器-解码器架构结合在一起取得了令人印象深刻的成果[54,66],如SwinUNet [5], TransBTS [53], UNETR[20]等。这些模型捕获了远程依赖关系和本地特性,以提高性能。
生物医学图像的半监督语义分割。为了缓解标记图像的缺失,生物医学图像的半监督语义分割成为一种关键方法[29,24,27]。目前的主流策略包括对抗性训练[36,46]、伪标记[16,60,56]和一致性正则化[6,12]。对抗训练使用生成式对抗网络[19]来不断提高生成分割预测的生成器和判断预测真实性的判别器的性能。伪标签利用高置信度预测来提高模型性能。基于一致性正则化的方法具有更好的性能[32,33,34]。他们通过加强不同预测之间的一致性来利用未标记的图像。DTC[32]提出了一种双任务一致性网络,用于预测分割映射和几何感知水平集表示。TCSMv2[26]利用变换一致性使网络能够对不同的扰动输入产生一致的预测。[34]提出了一种不确定性校正金字塔一致性(URPC)策略。
基于小波的深度神经网络语义分割。
基于小波变换强大的频率和空间表示能力,人们将小波变换与深度神经网络相结合,并探索了一些语义分割方法[58,49,64,44,18,28]。常用的策略包括使用小波变换作为预处理或后处理[49,58],以及用小波变换替换cnn的某些层(如上采样和下采样)[18,64]。然而,它们大多只适用于特定的分割对象,这限制了它们的推广和应用。[1]提出了一种基于小波变换增强的对称CNN (Aerial LaneNet),用于航拍图像的车道标记语义分割。
CWNN[14]使用小波约束池化层代替传统池化用于合成孔径雷达图像分割。WaveSNet[25]在下采样时使用小波变换提取图像细节,在上采样时使用逆变换恢复细节。相反,我们使用小波变换生成低频和高频图像作为双支路输入提取低频和高频特征。我们将我们的模型与先前4.4节中基于小波的模型进行了比较,并显示了我们模型的优越性能。

3. Method 方法

在本节中,我们将概述3.1节中提出的XNet模型。然后我们分析了小波变换的作用,并在3.2节中提出了一种生成低频和高频图像的方法。我们将在3.3节中进一步介绍LF和HF融合模块。最后,我们在3.4节中分析了XNet在全监督和半监督学习上的可行性。

3.1. Overview 概述

图1显示了所提出的模型XNet的概述,该模型由四个模块组成,包括低频编码器、高频编码器、低频与高频融合模块和双支路解码器。LF和HF编码器分别从LF和HF图像中提取语义特征和细节特征。融合模块对它们进行融合,生成具有LF语义和HF细节的融合特征。双支路解码器利用融合特征输出分割预测。训练过程如图1所示。通过对原始图像进行小波变换,得到相应的LF和HF图像,分别输入到LF和HF编码器中生成LF和HF特征。这些特征在融合模块中融合,然后送入解码器分别生成低频和高频分支的分割预测。对于监督训练,通过最小化标记图像上的监督损失和双输出一致性损失来优化模型。对于半监督训练,通过最小化标记图像上的监督损失和最小化未标记图像上的双输出一致性损失来优化模型。因此,无论是全监督训练还是半监督训练,总损失函数Ltotal定义为:

其中Lsup为监督损失,Lunsup为无监督损失,即双输出一致性损失,λ为控制Lsup与Lunsup之间平衡的权值。具体来说,监督损失Lsup由LF监督损失ll sup(·)和HF监督损失lh sup(·)组成。Lsup定义为:

其中,p1和p1分别表示第i幅图像的LF和HF分割预测。Yi表示第i个图像的基本真值。无监督损失Lunsup是通过交叉伪监督(cross pseudo- supervision, CPS)损失来实现的[9]:使用一个分支预测作为伪标签来监督另一个分支,反之亦然。Lunsup的定义为:

式中L L unsup(·)和L H unsup(·)分别表示LF和HF无监督损失。p1 L i和p1 H i分别表示p1 i和p1 H i生成的LF和HF伪标签(伪标签生成我们采用一种简单的策略:将像素标记为预测置信度最高的类)。在本研究中,L L sup(·)、L H sup(·)、L L unsup(·)和L H unsup(·)均使用了骰子损失[35]。我们选择在训练阶段表现较好的分支作为推理的最终输出。

3.2. Wavelet Transform 小波变换

二维(三维)图像本质上是二维(三维)离散的非平稳信号,包含不同的频率范围和空间位置信息。小波变换可以在分解信息的同时有效地保留这些信息。具体以二维图像为例。我们利用小波变换将原始图像分解为LF、水平HF、垂直HF和对角HF分量(LL、HL、LH和HH)。分别保存原始图像的LF和不同HF信息。我们用LF分量表示LF图像L,用HF分量在不同方向上的和表示HF图像H。L和H定义为:

为什么要用小波变换?与其他方法(如傅里叶变换)相比,小波变换是生成L和h的有效方法。使用L作为输入,XNet可以更多地关注LF语义,因为L具有更少的噪声和细节。相比之下,H噪声更多,但物体边界更清晰,这有助于模型更关注HF细节。此外,使用L和H进行半监督训练时,一致性差来自图像的固有LF和HF信息,可以减轻人为扰动带来的学习偏差。

3.3. LF and HF Fusion Module  LF和HF融合模块

LF和HF融合模块架构如图3所示。融合模块使用低频和高频特征作为输入,使用3×3卷积获取相同大小的上采样或下采样特征,并将其通道连接起来。然后将信道连接的特征输入到1×1过渡卷积中,生成LF和HF融合特征。


为什么使用融合模块?融合模块可以将低频和高频特征融合为完整的特征。如果没有融合,每个分支将缺乏语义或细节,这不利于分割。我们证明了分离融合的x形网络架构是提高烧蚀研究性能的关键。

图3。LF和HF融合模块结构。相同大小的Conv表示输出和输入特征具有相同的大小。Down-Sampling Conv将输出特征的大小减少了一半。Up-Sampling Conv使输出特征的大小加倍。转换转换使用通道连接特征作为输入和输出融合特征。

3.4. Feasibility of Fully- and Semi-Supervision  全监管和半监管的可行性

对于生物医学图像,我们假设原始图像I由LF特征FL、HF特征FH、LF加性噪声NL和HF加性噪声NH组成。因此,定义I为:

我们之所以做出这样的假设,是因为相关研究表明,生物医学图像中的噪声通常是加性的[3,2,43,41]。对于语义分割问题,准确分割需要LF语义(如形状、颜色等)和HF细节(如边缘、纹理等)。小波变换W可以对图像I进行解耦,生成低频图像L和高频图像H:

对于监督学习,解码完整信息可以获得分割预测。对于半监督学习,由于每个解码分支对低频和高频信息的关注程度不同,双分支解码器的预测结果在低频语义和高频细节上存在差异。这些差异可以用于基于一致性正则化的半监督训练。LF和HF分支的分割预测定义为:

总之,XNet既可以用于全监督学习,也可以用于半监督学习。图4为XNet分段过程的拓扑流程图。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值