Submitted to ICLR 2024:<REVITALIZING CHANNEL-DIMENSION FOURIER TRANSFORM FOR IMAGE ENHANCEMENT>论文笔记

一、概述

本研究提出了一个新的视角——通道维度傅里叶变换,用于图像增强,包括三个直接的步骤:(本文重点) 

        1、对通道维度应用傅里叶变换,获得通道级别的傅里叶域特征。

        2、对幅度和相位分量执行通道级别的转换。

        3、将结果转换回空间域。

论文还提供了三种不同的通道变换实施方案(以适应不同的图像增强任务),这些方案在不同的操作空间中执行:

        1、在全局向量中执行高阶操作。

        2、在全局向量中按通道组执行操作。

        3、使用基于空间傅里叶变换得到的傅里叶特征。

二、背景介绍

        基于深度学习的方法在图像增强方面取得了显着进步,并在建模亮度和对比度调整过程中显示出强大的能力。以往的一系列工作定制了退化先验感知范例,以明确地学习亮度分量,例如曲线调整(Guo等人,2020)和基于Retinex理论的方法(Wei等人,2018年)。这些研究通常将学习过程分为全局和局部组件,并且可能无法完全捕获特征空间内的依赖关系。此外,另一条研究线集中于粗略地设计复杂网络以隐式地学习亮度和对比度增强过程(Xu等人,2022年)。然而,这些方法没有深入探索图像增强的潜在机制或引入用于处理全局分量的专用操作,从而限制了它们有效学习亮度和对比度调整的能力。

1. 现有方法的不足:尽管当前的一些图像增强技术已经取得了一定的进展,但它们并没有深入探究图像增强的底层机制。

2. 底层机制:图像增强的底层机制涉及对图像的全局和局部特征的理解,包括但不限于图像的亮度、对比度、颜色分布、纹理等。

3. 全局组件的处理:有效的图像增强需要对图像的全局信息(如整体亮度和对比度)进行专门的操作和调整。然而,现有方法并没有引入专门针对这些全局组件的操作。

4. 学习亮度和对比度调整:由于缺乏对全局信息的深入处理,现有方法在学习如何有效调整图像的亮度和对比度方面受到了限制。

5. 效果限制:这种对全局信息处理的不足限制了模型的性能,可能无法达到最佳的图像增强效果。

三、相关知识

3.1 傅里叶变换

        傅立叶变换广泛用于分析图像的频率表示。通常,这个操作是在每个单独通道的空间维度上独立进行的。给定一个图像,其中 H、W和 C分别代表图像的高度、宽度和通道数,傅立叶变换将其转换到傅立叶空间,获得复数成分F(x)。这个过程可以用以下公式表示:

        对于每个通道 C,其中 c ∈{1, 2, …, C},我们首先定义一个二维傅立叶变换,针对该通道的空间维度 (H, W),有

其中, (u, v)是傅立叶空间中的频率坐标,e是自然对数的底数,j是虚数单位。

        上述公式中,表示通道C在频率域中的表示,它是通过对空间域中的每个像素点x_{i,j,c}加权求和得到的,权重由e的指数函数决定,指数函数的参数由空间坐标(i, j)和频率坐标(u, v)确定。

        得到每个通道的傅立叶变换后,我们可以将这些变换组合起来,形成完整的傅立叶空间表示 F(x)。这个表示包含了图像的所有通道信息,并且每个通道都转换到了频率域。在这个空间中,我们可以进行各种操作,例如滤波、特征提取、变换等,以便进行进一步的图像分析和处理。

        在傅立叶空间中进行操作后,如果需要将图像转换回空间域,我们可以应用逆傅立叶变换。对于每个通道 c ,逆变换可以表示为:

        通过这种方式,傅立叶变换为我们提供了一种强大的工具,用于分析和处理图像的频率内容,这在许多图像处理和计算机视觉任务中都是非常有用的。

3.2 快速傅里叶变换及其逆变换(FFT/IFFT)

        在论文中提到的傅里叶变换及其逆过程可以通过快速傅里叶变换(Fast Fourier Transform, FFT)和快速逆傅里叶变换(Inverse Fast Fourier Transform, IFFT)算法高效实现。这些算法是由Frigo和Johnson在1998年提出的,它们能够快速计算离散傅里叶变换及其逆过程,广泛应用于信号处理和图像处理等领域。

        傅里叶变换将信号从时域(或空间域)转换到频域,而逆傅里叶变换则将信号从频域转换回时域(或空间域)。在图像处理中,傅里叶变换可以用来分析图像的频率成分,这对于图像增强、滤波、压缩等任务非常重要。

傅里叶变换的结果包含幅度成分(Amplitude Component)和相位成分(Phase Component),它们分别表示为:

   - 幅度成分 A(x)(u, v):这是复数频率分量的模(magnitude),表示为图像在频率 (u, v) 处的强度。幅度成分是频率域中每个频率点的重要性指标,可以用来分析图像中的频率分布。

   - 相位成分 P(x)(u, v):这是复数频率分量的相位角(phase angle),表示为图像在频率 (u, v) 处的波形相对于参考波形的偏移。相位成分包含了图像中的结构信息,对于图像的空间布局和特征形状非常重要。

具体的数学表达式为:

其中,R(x)(u, v)I(x)(u, v)分别代表复数频率分量的实部(Real Part)和虚部(Imaginary Part)。

        通过对图像进行傅里叶变换并操作其幅度和相位成分,可以对图像进行各种滤波和增强操作。例如,通过调整幅度成分可以实现图像的对比度增强,而保持相位成分不变可以确保图像的结构信息不被破坏。这种操作在图像处理中非常有用,尤其是在需要保留图像细节的同时进行全局调整时。

3.3 全局信息的主要特征

        先前的工作已经证明,诸如亮度的全局信息主要保留在幅度分量中(Li等人,2023年)。然而,作者认为全局信息的主要特征在A(x)(0,0)中保持保守。图2 在论文中展示了在傅里叶域中交换幅度分量对于图像全局亮度调整的影响。

这个实验通过以下步骤来揭示傅里叶域中不同操作对图像亮度调整的影响:

        (a) 交换幅度导致全局亮度的交换,但交换结果包含许多伪影(artifacts)。

        (b) 交换 A(x)(0,0) 在幅度中也导致全局亮度的交换,但交换结果包含较少的伪影。

1.傅里叶变换:图像首先通过傅里叶变换被转换到频率域。在这个域中,图像的每个频率成分都被表示为一个复数,包含幅度(Amplitude)和相位(Phase)信息。

2.幅度分量:幅度分量是频率域中每个频率点的强度指标,它反映了图像中该频率成分的重要性。在图像增强任务中,全局亮度通常与低频分量有关,而低频分量的幅度分量尤其重要。

3.交换操作:在实验中,研究者通过交换幅度分量来模拟亮度调整。具体来说,就是将一幅图像的幅度分量与另一幅图像的幅度分量进行交换。这种操作可以改变图像的全局亮度,但可能会导致伪影的产生。

4.伪影(Artifacts):当直接在幅度分量上进行操作时,可能会引入不自然的亮度变化或噪声,这些不期望的变化被称为伪影。在图像增强中,我们希望避免这些伪影,以保持图像的自然性和真实感。

5.特定点的操作:在 (b) 中,通过仅交换全局平均幅度 A(x)(0,0),可以更精确地控制全局亮度的调整,同时减少伪影的产生。这是因为 A(x)(0,0) 包含了图像的全局信息,而不影响局部细节。

        总结来说,Figure 2 展示了在傅里叶域中对幅度分量进行操作时,如何影响图像的全局亮度以及操作可能导致的伪影问题。通过精细地控制这些操作,可以更有效地进行图像增强,尤其是在调整图像亮度时。论文中提出的CFTL机制正是基于这样的观察,通过在通道维度上应用傅里叶变换来增强图像的全局表示能力,从而提高图像增强的性能。

四、思路分析(引出在通道维度使用傅里叶变换-CFTL)

4.1 基础思路

        傅里叶变换已被证明在全局信息建模方面非常有效,这表明它可以捕捉图像的全局统计特性。通过在空间维度上应用傅里叶变换,可以为每个通道提供全局统计信息,这有助于改善不同全局表示形式的可区分性,并简化学习过程。尽管在空间维度上应用傅里叶变换很有效,但作者认为通过建模通道分布也可以提高全局表示的区分度。

例:(为了展示傅立叶变换在全局信息建模中的建模能力)

        假设我们有一个图像,其全局风格信息分布在不同的频率分量中。通过傅立叶变换,我们可以将这些风格信息分离出来,并在频域中对它们进行操作。例如,我们可以增加高频分量的强度来增强图像的边缘和细节,或者减少低频分量来减少噪声。通过这种方式,我们不仅能够改善图像的视觉质量,还能够在全局层面上调整图像的风格和情感表达。

        通过在图像的空间维度上应用傅立叶变换,可以提取每个通道的全局统计信息。这意味着我们可以从整个图像中获取关于不同通道的整体特征,这有助于使图像的表示更加清晰和易于学习。

        但是仅仅使用傅立叶变换可能不足以充分解决全局表示的区分性问题。作者认为通过建模通道分布,即考虑不同通道之间的关系,也可以达到同样的目的。这里提到了 Gram 矩阵,它是一种数学工具,用于描述不同通道之间的相关性,尤其在建模全局风格信息时很有效。通过这种方式,傅立叶变换有助于改善图像增强的性能。

        最后,作者建议结合使用傅立叶变换和 Gram 矩阵的思想,即在通道维度空间中使用傅立叶变换进行学习,以增强全局表示的区分性,并最终提高性能。这种方法综合利用了两种技术的优势,从而能够更好地捕捉图像的特征,提高图像处理的准确性和鲁棒性。

        本文优点:它不仅考虑了图像的空间特征,还利用了通道维度的区分性特征,从而能够更全面地理解和处理图像数据。

4.2 简单的通道维FFT实验

图Figure1在论文中展示了通道维度傅里叶变换(CFTL)在图像增强任务中的动机和基本原理。

其中,Figure 1(a) 展示了三种不同的全局信息提取操作:

        1. 空间维度FFT:这是一种传统的傅里叶变换,它在空间维度上进行,用于提取图像的频域特征。

        2. 全局池化:这是一种简单的全局信息提取方法,通过在空间维度上对所有像素值求平均来获得全局特征。(两个旧的)

        3. 通道维度FFT:这是论文中提出的方法,它在通道维度上应用傅里叶变换,以增强全局表示的判别能力。(本文提出新的)

Figure 1(b) 和 Figure 1(c) 展示了在曝光校正任务中,使用SICE数据集进行的实验结果。这些实验比较了上述三种全局信息提取操作的效果。

        1. 在Figure 1(b)中,作者使用了一个简单的图像增强网络,该网络只包含1x1卷积操作,并分别使用全局池化、空间维度FFT和通道维度FFT作为操作。实验结果表明,使用通道维度FFT的方法在调整亮度方面表现最佳,这说明通道维度FFT能够有效地捕捉和调整图像的全局亮度信息。

        2. 在Figure 1(c)中,作者展示了不同光照条件下的特征响应曲线。通道维度FFT的特征响应在不同光照条件下显示出更高的判别能力,这表明该方法能够更好地处理不同光照条件下的图像增强任务。

总结来说,Figure 1 通过理论和实验结果展示了通道维度FFT在图像增强任务中的潜力和优势。通过在通道维度上进行傅里叶变换,该方法能够增强全局表示的判别能力,从而在多种图像增强任务中取得更好的性能。这种方法为图像增强领域提供了一种新的全局信息建模机制,有助于提高图像处理算法的性能和效率。

4.3 CFTL基础步骤简述

        在这项工作中,提出的一维傅立叶变换学习(CFTL)图像增强机制是一种创新的方法,旨在通过有效地建模通道维度差异来捕获图像的全局判别表示。这种方法的核心思想是通过傅立叶变换来增强图像的全局表示能力,从而提高图像增强的效果。下面将详细解释CFTL的三个步骤以及其对图像增强任务的潜在影响。

第一步:全局平均向量的傅立叶变换

        首先对图像的通道维度进行全局平均,得到一个代表整个图像特征的向量。然后,对这个全局平均向量进行一维傅立叶变换。这一步骤的目的是为了在频域中表示图像的全局信息,从而更好地捕捉图像的全局特征。

第二步:特征的幅度和相位分量的信道调制

        傅立叶变换后,图像特征被分解为幅度和相位分量。在这一步骤中,对这些分量进行信道调制,即通过调整它们的值来改变图像的全局表示。这种调制可以增强或减弱图像中的某些特征,从而为图像增强提供更多的灵活性。

第三步:逆傅立叶变换和特征添加

        在完成信道调制后,通过逆傅立叶变换将修改后的特征从频域转换回其原始的空间域。然后,将这些特征添加到原始的空间特征中,得到最终的增强图像。这一步骤的目的是将全局调整与局部细节相结合,以实现更自然和有效的图像增强。

结论

        综上所述,CFTL作为一种新的图像增强机制,通过在通道维度上应用傅立叶变换,有效地增强了图像的全局表示能力。这种方法不仅提高了图像的亮度调节能力,还增强了不同亮度表示之间的区分度,从而为图像增强任务提供了一种有效的解决方案。随着进一步的研究和优化,CFTL有望在图像处理和计算机视觉领域发挥更大的作用。

五、模型介绍

5.1 CFTL公式

        给定一个特征张量,其中:H是特征图的高度,W是特征图的宽度,C是特征图的通道数。对于特征张量x中的每个空间位置(h,w),其中

我们可以提取该位置(h, w)在所有通道上的像素值,记为。这个操作可以被简化表示为其中y是一个包含通道维度上所有像素值的向量

        接下来,对 y 应用傅里叶变换 ,将其从空间域转换到频率域。傅里叶变换的结果 F(y) 是一个复数向量,其每个元素代表了一个特定的频率成分。在数学上,这个转换可以表示为:

其中,是对y中第c个通道的像素值进行傅里叶变换的结果,c {0, 1, , C-1}。 

F(y(0:C-1))(z) = \frac{1}{C} \sum_{c=0}^{C-1} y(c) e^{-j \frac{2\pi}{C} cz}

        在上述公式中中,频率索引z是用于表示频率域中的不同频率分量的一个索引变量。当对图像中的通道数据 y(0:C-1) 应用傅里叶变换时,我们不是只获取一个单一的频率分量,而是获取一组频率分量,每个分量都对应一个特定的频率 z 。

其对应的幅度成分和相位成分公式为: 

1. 幅度成分 A(y(0:C-1))(z) :傅里叶变换的结果是复数,其幅度可以通过复数的实部(Real part)和虚部(Imaginary part)的平方和再开平方得到。这里, R(y(0:C-1))(z) 表示复数结果的实部,而 I(y(0:C-1))(z) 表示虚部。幅度成分的公式为:

这个公式计算了频率分量 z 对应的复数 F(y(0:C-1))(z) 的幅度。

2. 相位成分:相位是复数的另一个属性,它描述了复数在复平面上的位置角度。相位可以通过计算复数的实部和虚部的比值的反正切(arctangent)得到。相位成分的公式为:

        这些操作也可以应用于通过池化操作导出的全局向量x\in R^{H\times W\times C}。以这种方式,A(y)(z)和P(y)(z)分别表示各个信道频率的幅度和幅度的方向变化。这两个度量都封装了与信道信息相关的全局统计信息。

作者在图16中提供了可视化来建议该操作的属性。很明显,亮度的不同表示在基于通道的傅里叶变换之后在A(y)(z)和P(y)(z)方面变得更加可辨别。这表明该操作提高了全局信息分量的可区分性,并且调整信道统计量将显著影响其属性。因此,变换后的特征可以作为全局信息自适应的代表空间。

注:

全局信息的可区分性:变换后的特征不仅改善了全局信息成分的区分度,还表明调整通道统计特性将显著影响其属性。

代表性特征空间:由于变换后的特征能够作为全局信息的代表,因此它可以用作一个特征空间,以适应不同的全局信息。

5.2 CFTL实现

        CFTL的第一步:使用全局平均池化(GAP , Global Average Pooling)将特征 x 转换为全局向量。全局平均池化的公式如下:

   - H 和 W 分别是特征图的高度和宽度。

   - x(h, w) 表示在位置 (h, w) 的原始特征值。

   - 是一个 1 ×1 ×C 的张量,其中每个通道的值是原始特征图在该通道上所有像素值的平均。

        执行全局平均池化后,包含了原始特征图的全局统计信息,每个通道的值可以代表该通道的整体激活情况。这里等于如上所述的A(x)(0,0),从而有效地封装全局信息。 随后,对应用傅里叶变换,以获得通道级的频域特征,这些特征可以反映出不同通道的频率特性。

        CFTL的关键在于第二步:即在频域中对幅度和相位进行特定的变换。这可以包括滤波操作,比如保留或去除某些频率分量,或者进行更复杂的信号处理,以提取或增强有用的特征。

1. 傅里叶变换:使用C-FFT公式将全局特征 x_g 转换为频域特征 F(x_g)(z)

2. 分离幅度和相位:将分解为幅度成分 A(x_g)(z) 和相位成分 P(x_g)(z) 。这样做的目的是为了更直接地操作这些具有明确物理意义的成分。

3. 注意力机制(Attention-based operations):由于幅度成分和相位成分具有明确信息含义,所以直接在它们上执行操作,而不是在上。这样可以更精确地控制特征的调整。

4. 1x1卷积和LeakyReLU激活:其中序列Seq1和Seq2表示1×1卷积,后接 LeakyReLU 激活函数来生成注意力权重。1x1 卷积被用来在通道维度上进行特征变换,而 LeakyReLU 激活函数可以引入非线性,帮助模型学习更复杂的特征表示。

5. 元素乘法:通过元素级乘法将注意力权重应用到幅度和相位特征上,得到调整后的幅度 A(x_g)(z)' 和相位 P(x_g)(z)'

6. 全局信息的调整:上述操作的目的是修改通道统计信息A(x_g)(z) 和 P(x_g)(z)中包含的全局信息。通过这种方式,可以有选择性地强调或抑制特征的某些方面,从而提高模型对特定信息的敏感度。

第二步总结:可以对特征图中的全局信息进行精细的调整,这在图像分类、目标检测和其他计算机视觉任务中可能非常有用。注意力机制的使用进一步提高了模型的能力,使其能够自适应地关注对当前任务最重要的特征。

        最后:通过逆傅里叶变换将处理后的特征从频域转换回空间域,以便它们可以用于网络的后续部分或其他图像处理任务。这种结合了空间域和频域处理的方法可以提高网络对图像特征的提取能力,从而提高图像分析任务的性能。

经过处理的通道维度傅里叶域特征P(x_g)(z)'通过逆用通道基础的傅里叶变换转换回原始的空间域,得到最终处理后的特征。这一步骤涉及以下几个关键操作:

1. 逆傅里叶变换:使用逆傅里叶变换F^{-1}将处理过的幅度和相位成分转换回空间域,得到

2. 特征重放(Resizing by replication):由于的分辨率可能已经通过全局池化操作降低,因此需要将其重放到原始分辨率 H ×W ×C,以便与原始特征 x 的尺寸一致。这通常通过复制(replication)或上采样(upsampling)实现。

3. 特征融合:将处理后的全局特征与原始特征 x 融合,以确保CFTL能够与现有的骨干网络架构兼容。考虑到和 x 之间的分辨率差异,可以通过将重复 H ×W 次来扩展其尺寸,使其与 x 的尺寸匹配。

4. 局部信息分支:在基于CNN的骨干网络中,原始特征 x 会经过局部信息分支(例如卷积层)进行局部信息处理。这一步通常用于捕捉图像的细节和局部特征。

5. 集成到骨干网络:将经过CFTL处理的特征与局部信息分支的特征 x 集成(积分),以增强模型对全局和局部信息的捕捉能力。

通过这种方式,CFTL作为一个处理层,可以有效地将全局统计信息和频域分析集成到深度学习模型中,从而提高模型对图像特征的理解。这种处理方法特别适用于那些需要同时考虑全局和局部信息的计算机视觉任务,如图像分类、目标检测和语义分割等。

在实际应用中,CFTL可以根据具体任务的需求与其他类型的网络层(如卷积层、池化层、归一化层等)结合使用,以构建更加强大和适应性强的深度学习模型。

5.3 CFTL变体

High-order CFTL 是一种增强全局特征表示的方法。这种方法通过引入更高阶的统计矩(如方差、标准差等)来丰富和加强全局向量的表示能力。下面是对 High-order CFTL 原理的详细解释:

  1. 全局平均向量: 这是通过全局平均池化得到的,代表了输入特征图 x 的一阶全局信息。

  2. 高阶全局信息: 对于 k 阶全局信息,定义为:

  其中, HW 是特征图的宽度和高度,是原始特征图中位置 (h, w) 的像素值, 是全局平均向量, k 是高阶矩的阶数。

  3. 高阶矩的物理意义:当 k = 2 时, 表示的是原始特征图 x 的标准差,它是衡量特征图像素值分布离散程度的一种度量。高阶矩能够捕捉到特征图中更丰富的统计信息。

  4. 全局向量的加强:将 k 阶全局信息 与原始的全局平均向量结合,形成加强版的全局向量:

  这样, 就包含了从一阶到 k 阶的全局信息,从而更全面地表示输入特征图的统计特性。

  5. CFTL 操作:使用加强后的全局向量,按照 CFTL 的操作流程进行处理,包括通道维度的傅里叶变换、幅度和相位的调整以及逆变换等。

High-order CFTL 的核心思想是通过增加全局特征的统计矩来增强特征的表达能力,从而使得模型能够更好地捕捉输入数据的全局特性,并提高图像增强任务的性能。这种方法可以应用于各种图像处理任务,如低光照图像增强、曝光校正、SDR 到 HDR 的转换等。

Group CFTL 在原始 CFTL 的基础上进行了修改,通过将全局向量 x_g 分成多个组来处理不同的通道统计信息。这种方法类似于组归一化(Group Normalization)技术。下面是 Group CFTL 的原理和步骤:

1. 分组:将全局向量沿着通道维度分成 K 组,每组包含个通道。这样,可以表示为 K 个组的集合:

 其中,的第 k 个通道组。

2. 独立处理:在 Group CFTL 中,每个通道组独立地进行 CFTL 操作。这意味着每个组都会经历自己的傅里叶变换、幅度和相位的调整,以及逆变换。

3. 不同权重:在处理每个组时,可能会使用不同的权重,这取决于特定的实现和应用场景。

4. 拼接:处理完所有组后,将它们沿着通道维度拼接起来,形成最终的全局向量

 

其中,表示沿通道维度的拼接操作。

5. 参数减少:由于每个通道组独立处理,Group CFTL 通常比原始的 CFTL 有更少的参数,这有助于减少计算复杂度和模型大小。

6. 保持竞争力的性能:尽管参数减少,Group CFTL 仍然能够保持与原始 CFTL 相当的性能,这使得它在需要平衡性能和效率的应用中非常有用。

Group CFTL 的设计允许模型在处理通道信息时更加灵活,可以针对不同的通道组采用不同的处理策略,同时保持了模型的轻量化。这种方法可以提高图像增强任务的效率,同时仍然提取有用的全局特征信息。

Spatial-Fourier CFTL 是一种将空间域的傅里叶变换与通道维度的傅里叶变换结合起来的方法。这种方法扩展了全局向量的概念,将其作为通过空间傅里叶变换得到的特征的幅度成分 A(x)(u, v) 。下面是 Spatial-Fourier CFTL 的原理和步骤:

1. 空间傅里叶变换:首先,对输入特征 x 应用空间域的傅里叶变换,得到 A(x)(u, v) 和相位成分 P(x)(u, v) 。

2. 扩展全局向量:将 A(x)(u, v) 作为全局向量,它与原始特征图 x 具有相同的空间维度 H×W,并且能够展示全局表示。

3. 通道维度的傅里叶变换:对幅度部分 A(x)(u, v) 应用通道维度的傅里叶变换,得到通道-空间联合特征。

4. CFTL 操作:按照 CFTL 的规则处理,包括对幅度和相位成分的调整。由于某些操作可能导致训练不稳定,因此在实际操作中可能需要丢弃一些操作,具体细节在附录和图 10 中有描述。

5. 逆空间傅里叶变换:处理完成后,将和 P(x)(u, v) 通过逆空间傅里叶变换转换回原始特征图 x 的空间域:

6. 特征融合:最后,将逆变换得到的特征 x' 与原始特征图 x 结合,以便于后续的图像处理任务。

Spatial-Fourier CFTL 的核心思想是利用空间傅里叶变换的全局特性,结合通道维度的变换,以增强特征的全局表示能力。这种方法能够在保持特征图空间结构的同时,对特征进行更深层次的频域分析和处理,从而提升图像增强任务的性能。

六、实验

6.1 Toy Experiments

在论文中提到的实验旨在突出展示使用基于通道的傅里叶变换提高全局信息可区分性的能力。以下是实验的详细步骤和结果解释:

1. 实验目的:验证基于通道的傅里叶变换是否能够提高图像全局信息的区分能力,特别是在图像曝光不足和过度曝光的情况下。

2. 数据集:使用 MIT-FiveK 数据集训练一个编码器-解码器架构的图像重建模型,该数据集包含 1000 个样本。测试阶段,使用 SICE 数据集中的 100 个曝光不足和 100 个过度曝光的样本,因为这些样本在全局信息上存在显著变化。

3. 特征处理:对编码器-解码器的特征执行以下操作:
   - 空间域傅里叶变换:将特征图转换到频率域。
   - 全局平均池化:计算特征图所有元素的平均值。
   - 基于通道的傅里叶变换:对全局向量 x_g 应用傅里叶变换。

4. 结果分析:通过比较不同操作处理后的特征,论文中的附录部分(见 Sec. E)展示了基于通道的傅里叶变换在区分曝光不足和过度曝光样本方面具有最高的可区分性。这种可区分性通过最大分布距离来表示,即不同类别(曝光不足和过度曝光)的特征在特征空间中的距离越大,模型区分这两种情况的能力越强。

5. 结论:实验结果表明,基于通道的傅里叶变换能够有效地提高图像全局信息的区分能力,这对于图像增强任务,如曝光校正,是非常有益的。

这项实验的意义在于展示了基于通道的傅里叶变换作为一种特征增强技术,在图像处理任务中的潜力,尤其是在需要处理图像全局信息变化的场景中。通过提高特征的区分能力,可以帮助模型更好地学习如何根据图像的全局信息进行调整和优化,从而提高图像增强的性能。

6.2 图像增强经典实验

在论文中提到的几个段落概述了用于评估图像增强模型性能的四个不同任务,以及相应的数据集和基线模型。以下是每个任务的详细说明:

6.2.1 实验介绍

1. 低光照图像增强 (Low-light image enhancement):
   - 目的:改善低光照条件下捕获的图像的可见度和质量。
   - 数据集:使用 LOL dataset、Huawei dataset 和 MIT-FiveK dataset,这些都是广泛用于测试低光照图像增强算法的数据集。
   - 基线模型:选择了 DRBN (Yang et al., 2020) 和 Restormer (Zamir et al., 2022) 作为性能比较的基线模型。

2. 曝光校正 (Exposure correction):
   - 目的:调整图像的曝光水平,以纠正过曝或欠曝的问题,使图像的亮度更加自然。
   - 数据集:采用 MSEC dataset 和 SICE dataset,这两个数据集包含不同曝光条件下的图像。
   - 基线模型:选择了 DRBN (Yang et al., 2020) 和 LCDPNet (Wang et al., 2022) 作为基线模型。

3. SDR 到 HDR 转换 (SDR2HDR translation):
   - 目的:将标准动态范围(SDR)图像转换为高动态范围(HDR)图像,以增强图像的对比度和颜色饱和度。
   - 数据集:使用 HDRTV dataset 进行评估,这是一个包含HDR图像的数据集。
   - 基线模型:选择 CSRNet (He et al., 2020) 作为基线模型。

4. 水下图像增强 (Underwater image enhancement):
   - 目的:改善水下图像的质量,因为水下环境通常会降低图像的对比度和颜色质量。
   - 数据集:使用 UIEB dataset 进行验证,这是一个专门用于水下图像增强的数据集。
   - 基线模型:选择 UIECˆ2-Net (Wang et al., 2021) 作为基线模型。

在每个任务中,论文的作者们可能对提出的 CFTL 方法进行了实验,以验证其在不同图像增强任务中的有效性。通过与基线模型的比较,可以展示 CFTL 在改善图像质量方面的贡献。这些实验结果有助于证明 CFTL 在多种图像增强场景中的通用性和有效性。

Comparison operators(比较操作):

在提供的论文内容中,提到了两种比较操作符,它们用于评估和比较不同图像增强方法的性能。这些操作符基于不同的图像处理技术,具体如下:

1. Pooling Attention:
   - 这种操作符基于全局池化(Global Pooling, GAP)的概念。全局池化是一种减少特征图空间维度的技术,它通常用于提取图像的全局统计信息。
   - 在图像增强的上下文中,Pooling Attention 可能涉及到对输入图像的特征进行全局池化,然后可能通过某种形式的注意力机制来增强这些全局特征,以此来提升图像的特定属性,如亮度或对比度。

2. Spatial Fourier:
   - 这种操作符基于空间傅里叶变换(Spatial FFT)。空间FFT是一种将图像从空间域转换到频率域的数学工具,它可以揭示图像的频率成分。
   - 在图像增强任务中,Spatial Fourier 可能被用来分析和处理图像的频率信息,例如通过应用高通滤波器来增强图像的边缘,或通过低通滤波器来减少图像噪声。

论文中提到的这两种操作符都是作为比较基准(baselines)来评估提出的 CFTL(Channel-Frequency Transform Learning)方法的性能。CFTL 方法结合了通道维度的傅里叶变换,旨在提高图像增强任务中全局信息的表示能力。

6.2.2 实验结果

定量评估(Quantitative Evaluation):

1. 表格结果:在表格 1、2、3 和 4 中展示了不同方法的性能。这些表格可能包含了多种评价指标,如峰值信噪比(PSNR)和结构相似性(SSIM),这些都是图像质量评估的常用指标。

2. 结果突出显示:在表格中,最好的结果会用粗体(bold)显示,以便于读者快速识别性能最佳的模型。

3. 性能提升:实验结果表明,所有提出的 CFTL 方法的变体都能在所有任务和数据集上提高基线模型的性能。这验证了所提出方法的有效性。

4. 与基线方法的比较:
   - Pooling Attention:一种基于池化操作的注意力机制。
   - Spatial Fourier Transform:空间傅里叶变换,用于处理图像的频率信息。
   - 在大多数数据集上,这两种方法的性能都不如提出的 CFTL 方法。

5. CFTL-Net:特别提出的 CFTL-Net 在保持较少参数的同时,也实现了有效的性能。

6. 训练性能:如图 5 所示,CFTL 方法在训练阶段实现了更高的 PSNR,表明该方法不仅提高了最终的图像质量,还有助于提升训练过程的效率。

7. 计算成本:所有的评估结果表明,应用 CFTL 方法可以在不显著增加计算成本的情况下提高性能。

定性评估(Qualitative Evaluation):

与定量评估不同,定性评估侧重于通过观察和分析来评价图像处理结果的视觉质量。

1. SICE 数据集:曝光校正的实验使用了 SICE 数据集进行。SICE 数据集包含了不同曝光条件下的图像,适合用来评估曝光校正算法的性能。

2. CFTL 集成效果:作者们指出,将 CFTL集成到图像增强模型中,能够得到更令人视觉愉悦的效果。这意味着 CFTL 处理后的图像在视觉上更加自然和舒适。如图六所示。

3. 光度和色彩偏移问题:与原始基线模型相比,CFTL 方法在处理曝光校正时产生的亮度和色彩偏移问题更少。这表明 CFTL 能够更准确地调整图像的亮度和色彩,而不会引入不自然的视觉效果。

4. 附录中的更多结果:作者们还提到附录中提供了更多的视觉结果,这可能包含了额外的定性分析,如更多的图像对比、处理前后的视觉效果展示等。

定性评估是图像处理领域中非常重要的一部分,因为它提供了对算法性能的直观理解。通过观察处理后的图像,研究人员和用户可以评估算法在实际应用中的表现,以及它是否能够满足特定的视觉质量要求。在图像增强任务中,定性评估尤其关键,因为最终的目标是提高图像的视觉吸引力和可读性。

6.2.3 消融实验(Ablation Studies)

消融研究是一种通过移除或修改模型的某些部分来评估这些部分对整体性能影响的方法。作者们讨论了对 CFTL设计进行的消融研究,通过改变 CFTL 的配置来进行实验,以探究不同设计选择对性能的影响。具体的量化结果在表 5 中展示。这些研究是在曝光校正和低光照图像增强任务上进行的,使用深度残差块网络(DRBN)作为比较的基线模型。以下是对这段内容的分析:

1. 全局池化的影响:研究表明,在 CFTL 中引入全局池化可以显著提高性能。全局池化有助于提取图像的全局统计信息。

2. 通道维度 IFFT:将特征通过通道维度的 IFFT 转换回原始空间也是一个有效的方法。

3. 幅度和相位成分的操作:仅对幅度或相位成分进行操作会导致次优的结果,因为这种方法没有完全利用傅里叶变换的信息。

4. CFTL 数量的影响:进一步研究了 CFTL 数量对曝光校正任务的影响。通过在图 7 中报告 K(CFTL 数量)从 1 到 4 的量化比较,发现仅使用一个 CFTL 就可以显著提高性能。随着 CFTL 数量的增加,性能进一步提升,超过了其他比较操作,这归因于 CFTL 在调整全局信息方面的优越能力。

七、结论

在这篇论文的结论部分,作者总结了他们提出的基于通道的傅里叶变换学习(Channel-Frequency Transform Learning, CFTL)机制的主要贡献和优势,包括:

1. 新颖性:介绍了一种新的图像增强机制,即 CFTL,这是一种利用通道维度上的傅里叶变换来增强全局信息的表示能力的方法。

2. 全局信息增强:CFTL 旨在提高全局信息的区分能力,这对于图像增强任务至关重要,因为它涉及到图像的整体亮度、对比度和颜色等属性的调整。

3. 多种实现格式:CFTL 提供了多种实现格式,这些格式可以根据不同的图像增强任务和技术需求灵活选择和调整。

4. 易于集成:CFTL 可以轻松地集成到现有的图像增强架构中,这意味着它可以与多种现有的图像处理网络结合使用,而不需要对架构进行大规模的修改。

5. 计算成本:集成 CFTL 的计算成本有限,这表明该方法在提高性能的同时,对计算资源的需求增加不多,这使得它在实际应用中更具吸引力。

6. 性能提升:通过广泛的实验,证明了 CFTL 及其变体在多种图像增强任务中的有效性和可扩展性。这些任务可能包括低光照图像增强、曝光校正、超分辨率、去噪等。实验结果表明,CFTL 能够提升基线模型的性能,这是通过改善图像的全局特征表示和调整来实现的。

总的来说,这篇论文的结论强调了 CFTL 作为一种新的图像增强工具的潜力,它通过在通道维度上应用傅里叶变换,提供了一种增强全局信息表示和调整的方法。此外,CFTL 的灵活性和效率使其成为一个有前景的研究方向,可以在未来的图像处理应用中进一步探索和利用。

原文链接:Revitalizing Channel-dimension Fourier Transform for Image Enhancement | OpenReview

原文pdf链接:openreview.net/pdf?id=3tjTJeXyA7

本篇论文笔记因本人能力有限,如有问题,请多批评指导!

相关知识:图像处理(5)--图像的傅里叶变换_求一个图像的傅里叶变换-CSDN博客

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
<template> <div class="box-content"> <a-form :style="{ width: '600px' }" @submit="handleSubmit"> <a-form-item label="任务名称"> <a-input v-model="form.name" placeholder="网站名称" /> </a-form-item> <a-form-item label="采集网址"> <a-input v-model="form.gather" placeholder="例如:https://ecp.sgcc.com.cn" /> </a-form-item> <a-form-item label="网站介绍"> <a-space direction="vertical" size="large" style="width: 100%"> <a-mention v-model="form.introduction" :data="['Bytedance', 'Bytedesign', 'Bytenumner']" type="textarea" placeholder="请输入网站介绍" /> </a-space> </a-form-item> <a-form-item label="模板名称"> <a-button class="custom-button" html-type="submit">选择模板</a-button> </a-form-item> <a-form-item> <a-button class="save-button">保存设置</a-button> </a-form-item> </a-form> </div> </template> <script lang="ts" setup> import { reactive, defineExpose } from 'vue'; interface FormData { name: string; gather: string; introduction: string; } const form = reactive<FormData>({ name: '', gather: '', introduction: '', }); function handleSubmit() { console.log('Form submitted:', form); } defineExpose({ form, handleSubmit, }); </script> <style lang="less" scoped> .custom-button { border: 1px solid rgb(25, 141, 147); color:rgb(25,141,147); } .custom-button:hover{ border: 1px solid rgb(25, 141, 147); color:rgb(25,141,147); } .box-content { width: 100%; background-color: #ffffff; border-radius: 4px; padding: 16px; margin: 16px; } .save-button { width: 120px; background-color: rgb(25, 141, 147); color: #ffffff; } </style>请检查代码并修复
07-22
代码中存在一个错误,在 `<a-input>` 组件的 `v-model` 属性中,`form.name` 和 `form.gather` 的绑定应该使用 `.trim` 进行修饰,以去除输入的前后空格。修复后的代码如下: ```html <template> <div class="box-content"> <a-form :style="{ width: '600px' }" @submit="handleSubmit"> <a-form-item label="任务名称"> <a-input v-model.trim="form.name" placeholder="网站名称" /> </a-form-item> <a-form-item label="采集网址"> <a-input v-model.trim="form.gather" placeholder="例如:https://ecp.sgcc.com.cn" /> </a-form-item> <a-form-item label="网站介绍"> <a-space direction="vertical" size="large" style="width: 100%"> <a-mention v-model="form.introduction" :data="['Bytedance', 'Bytedesign', 'Bytenumner']" type="textarea" placeholder="请输入网站介绍" /> </a-space> </a-form-item> <a-form-item label="模板名称"> <a-button class="custom-button" html-type="submit">选择模板</a-button> </a-form-item> <a-form-item> <a-button class="save-button">保存设置</a-button> </a-form-item> </a-form> </div> </template> <script lang="ts" setup> import { reactive, defineExpose } from 'vue'; interface FormData { name: string; gather: string; introduction: string; } const form = reactive<FormData>({ name: '', gather: '', introduction: '', }); function handleSubmit() { console.log('Form submitted:', form); } defineExpose({ form, handleSubmit, }); </script> <style lang="less" scoped> .custom-button { border: 1px solid rgb(25, 141, 147); color: rgb(25, 141, 147); } .custom-button:hover { border: 1px solid rgb(25, 141, 147); color: rgb(25, 141, 147); } .box-content { width: 100%; background-color: #ffffff; border-radius: 4px; padding: 16px; margin: 16px; } .save-button { width: 120px; background-color: rgb(25, 141, 147); color: #ffffff; } </style> ``` 修复后的代码中,使用 `v-model.trim` 替代了原先的 `v-model`,确保输入的值不包含前后空格。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值