频率自适应膨胀卷积语义分割
论文链接:https://arxiv.org/abs/2403.05369
项目链接:https://github.com/ying-fu/FADC
Abstract
膨胀卷积通过在连续元素之间插入间隙来扩展感受野,在计算机视觉中得到了广泛的应用。在本研究中,我们从频谱分析的角度提出了三种策略来改进膨胀卷积的各个阶段。与将全局膨胀率固定为超参数的传统做法不同,我们引入了频率自适应膨胀卷积(FADC),它基于局部频率分量在空间上动态调整膨胀率。随后,我们设计了两个插件模块来直接提高有效带宽和感受野大小。自适应核(AdaKern)模块将卷积权重分解为低频和高频分量,并在每个通道的基础上动态调整这些分量之间的比例。通过增加卷积权值的高频部分,AdaKern捕获更多的高频分量,从而提高有效带宽。频率选择(FreqSelect)模块通过空间可变重加权来最佳地平衡特征表示中的高频和低频分量。它抑制了背景中的高频,以鼓励FADC学习更大的膨胀,从而增加了扩大范围的感受野。大量的分割和目标检测实验一致地验证了我们的方法的有效性。
1. Introduction
膨胀卷积以膨胀率(D)在滤波器值之间插入间隙,以扩大感受野,而不会显著增加计算负荷。该技术广泛应用于计算机视觉任务,如语义分割[9,78]和目标检测[55]。
虽然以较大的膨胀率有效地扩大了感受野的大小,但这是以高频分量响应为代价的[78]。将膨胀率从1增加到D,相当于通过插入零将卷积核膨胀一个因子D。根据傅里叶变换的缩放特性[51,56],卷积核的频响曲线和带宽都会缩放到 1 D \frac{1}{D} D1。如图1所示,D = 4时红色曲线的带宽仅为D = 1时蓝色曲线的四分之一。减少的带宽极大地限制了层处理高频组件的能力。例如,当特征映射的频率高于膨胀卷积的采样率时,就会出现网格伪影[67,78]。
本文从频谱分析的角度,引入频率自适应膨胀卷积(FADC)来增强膨胀卷积。如图2所示,FADC包括三个关键策略,即自适应膨胀率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect),旨在增强vanilla膨胀卷积的各个阶段。AdaDR空间调节膨胀率,AdaKern对卷积核权值进行操作,而FreqSelect直接平衡输入特征的频率功率,以鼓励感受野的膨胀。
与传统的全局确定膨胀率的方法不同,我们的AdaDR基于频谱动态地局部分配膨胀率。例如,在图1(a)的patch1中,车辆边界呈现出大量高频成分(用蓝色实线表示),AdaDR应用较小的膨胀率(D = 1),有效带宽较宽(用蓝点曲线表示)。相反,对于patch2中的车门,其中频率功率主要集中在低频域,AdaDR将膨胀率D增加到4,因为减少的带宽仍然可以包含大量的频率功率。这两个斑块的扩张图如图1(d)所示。与固定的扩张率相比(例如,D = 1,2,4在[41,78]中),我们的AdaDR将图1的理论平均感受野大小从~ 440提高到~ 1000像素。
AdaKern是一个插件模块,通过操作卷积核来优化图3中的频率响应曲线,增强有效带宽。如图3所示,该模块将卷积权值分解为低频和高频分量。这允许我们在每个通道的基础上动态地操作这两个组件。例如,增加高频核的权重(图2底部用红色标记),高频分量的响应会更强,从而增加有效带宽,如图3左侧λh/λl = 2曲线所示。
FreqSelect在输入扩张卷积之前,通过平衡特征中的高频和低频分量来增加感受野的大小。由于卷积倾向于放大高频成分[48],经过膨胀卷积的特征往往表现出更高比例的高频成分。为了捕获这些增加的高频成分,较小的膨胀率D将受到青睐,因为它具有较大的有效带宽,但代价是受损的感受野大小。通过抑制输入特征上的高频功率,我们的FreqSelect模块能够增加相应的字段大小。如图2所示,FreqSelect将feature map从low到high分解为4个频率通道。然后,我们使用选择映射在空间上重新加权每个通道以平衡频率功率,使FADC能够有效地学习更大的感受野。
在语义分割方面的实验结果表明,本文提出的方法持续地带来了改进,从而验证了本文方法的有效性。特别是,当我们提出的方法应用于PIDNet时,它在城市景观上实现了推理速度和精度之间的最佳平衡,在37.7 FPS下获得了81.0 mIoU。此外,我们提出的策略还可以集成到可变形卷积和膨胀注意力中,从而在分割和目标检测任务中获得一致的性能提升。我们的贡献可以总结如下:
- 我们使用频率分析对膨胀卷积进行了深入的探索,将膨胀分配重新定义为一个涉及平衡有效带宽和感受野的权衡问题。
- 我们引入了频率自适应膨胀卷积(FADC)。它采用自适应膨胀率(AdaDR)、自适应核(AdaKern)和频率选择(FreqSelect)策略。AdaDR以空间变化的方式动态调整膨胀率,以实现有效带宽和感受野之间的平衡。AdaKern自适应地调整核以充分利用带宽,FreqSelect学习频率平衡特性以鼓励更大的感受野。
- 我们通过在分割任务中的综合实验验证了我们的方法,一致地证明了它的有效性。此外,本文提出的AdaKern和FreqSelect在与可变形卷积和膨胀注意力相结合的情况下,在目标检测和分割任务中也被证明是有效的。
2. Related work
Content-Adaptive网络。随着深度学习技术的进步[? ? ? ? ? ? ? ],内容自适应特征的有效性已被各种研究证明[13,20,57,59,65,83]。一种内容自适应策略涉及权重调整,这种策略被广泛采用。最近的视觉Transformer[15,22,42]结合了注意力机制来预测输入自适应注意值。这些模型在感受野大的情况下取得了显著的成功,但存在计算量大的问题。
除了权值调整外,[1,13,30,68,74,84]还修改了卷积核的采样网格,这与我们的工作密切相关。可变形卷积[13,68,84]用于各种计算机视觉任务,包括目标检测。它为采样网格中的每个位置引入K ×K ×2不对称偏移量,导致提取的特征呈现空间偏差。在目标检测任务中,通过回归来校正估计框以减轻这些偏差。然而,在语义分割等位置敏感任务中,每个位置的密度和特征的强一致性至关重要,具有空间偏差的特征可能导致错误的学习。相比之下,提出的频率自适应膨胀卷积只需要一个值作为每个位置的膨胀率。这种方法需要更少的额外标准卷积来计算采样坐标,使其轻量级。此外,它消除了空间偏差,从而减少了错误学习的风险,有利于位置敏感任务。
自适应膨胀卷积[1,30,74]也放弃了全局固定膨胀的使用。[30]将核中每个点的膨胀作为习得的固定权值,而[1,74]则根据膨胀值与卷积层之间的层间模式或物体尺度相关联的假设,经验性地调整膨胀率。与[1,30,74]依赖于直觉假设不同,我们提出的方法是由定量频率分析驱动的。此外,它们忽略了当特征频率超过采样率时发生的混叠伪影,使它们暴露于潜在的退化风险中。
神经网络中的混叠伪影。神经网络中的混叠伪影问题在计算机视觉界受到越来越多的关注。一些研究分析了神经网络下采样过程中由于采样不足导致的混叠伪影[27,32,64,80,85]。其他人已经扩大了他们的重点,包括各种应用中的抗混叠技术,如视觉Transformer[52],微小物体检测[45],以及生成对抗网络(GAN)中的图像生成[29]。对于膨胀卷积中的混叠伪影,通常称为网格伪影,当特征映射包含比膨胀卷积的采样率更高的频率内容时,就会出现混叠伪影[78]。先前的研究要么经验地应用学习卷积来获得低通滤波器以抗混叠[78],要么采用多种膨胀率的膨胀卷积[61,67],要么使用完全连接层平滑膨胀卷积[69]。然而,这些方法主要是经验设计的,涉及堆叠更多的层,并且没有从频率的角度明确地处理问题。相反,我们提出的方法通过基于局部频率动态调整膨胀率来避免网格伪影。此外,FreqSelect有助于抑制背景或物体中心的高频。这种方法为解决混叠工件提供了更有原则和更有效的解决方案。
频域学习。传统的信号处理长期依赖于频域分析作为基本工具[2,50]。值得注意的是,这些成熟的方法最近在深度学习中得到了应用,发挥了关键作用。在这种情况下,它们被用来研究深度神经网络(DNN)的优化策略[75]和泛化能力[66]。此外,这些频域技术已经无缝集成到深度神经网络架构中。这种整合促进了非局部特征[11,19,28,35,54]或域概化表示[36]的学习。最近的研究[48,79]表明,捕获高频和低频成分的平衡表示可以提高模型的性能。因此,我们的方法为膨胀卷积提供了一个频率视图,并提高了其捕获不同频率信息的能力。
3. Frequency Adaptive Dilated Convolution
拟议的FADC概述如图2所示。在本节中,我们首先介绍AdaDR策略,概述我们如何平衡带宽和感受野。随后,我们深入研究了AdaKern和FreqSelect策略的细节,旨在充分利用带宽并促进大的感受野。
3.1. 自适应膨胀率
膨胀卷积。广泛使用的膨胀卷积可表述为:
Y ( p ) = ∑ i = 1 K × K W i X ( p + Δ p i × D ) , (1) \mathbf{Y}(p)=\sum_{i=1}^{K\times K}\mathbf{W}_i\mathbf{X}(p+\Delta p_i\times D), \tag{1} Y(p)=i=1∑K×KWiX(p+Δpi×D),(1)
式中, Y ( p ) Y(p) Y(p)为输出特征图中 p p p位置的像素值, K K K为核大小,Wi为核的权值参数, X ( p + ∆ p i ) X(p +∆p_i) X(p+∆pi)为输入特征图中 p p p被 ∆ p i ∆p_i ∆pi偏移对应位置的像素值。变量 ∆ p i ∆p_i ∆pi表示预定义网格采样的第 i i i个位置(−1,−1),(−1,0),(−1,+1),… ,(+ 1, + 1)。通过增加膨胀率可使感受野扩大。
频率分析。先前的研究已经发现,膨胀的增加会导致频率信息捕获的退化[67,69,78]。具体来说,根据傅里叶变换的缩放特性,将膨胀率从1增加到D,将卷积核放大D倍。因此,卷积核的响应频率降低到$\frac{1}{D} ,导致频率响应从高频向低频偏移 [ 51 , 56 ] ,如图 1 所示。此外,膨胀卷积在 ,导致频率响应从高频向低频偏移[51,56],如图1所示。此外,膨胀卷积在 ,导致频率响应从高频向低频偏移[51,56],如图1所示。此外,膨胀卷积在\frac{1}{D} 的采样率下有效地工作,使其无法捕获 N y q u i s t 频率以上的频率,即采样率 的采样率下有效地工作,使其无法捕获Nyquist频率以上的频率,即采样率 的采样率下有效地工作,使其无法捕获Nyquist频率以上的频率,即采样率\frac{1}{2D} $的一半。
具体来说,我们首先使用离散傅立叶变换(DFT)将特征映射 X ∈ R H × W X∈R^{H×W} X∈RH×W变换到频域, X F = F ( X ) X_F = \mathcal{F}(X) XF=F(X),它可以表示为:
X F ( u , v ) = 1 H W ∑ h = 0 H − 1 ∑ w = 0 W − 1 X ( h , w ) e − 2 π j ( u h + v w ) , (2) \mathbf{X}_{F}(u,v)=\frac{1}{HW}\sum_{h=0}^{H-1}\sum_{w=0}^{W-1}\mathbf{X}(h,w)e^{-2\pi j(uh+vw)}, \tag{2} XF(u,v)=HW1h=0∑H−1w=0∑W−1X(h,w)e−2πj(uh+v