文章目录
Learning to Restore Low-Light Images via Decomposition-and-Enhancement(学习通过分解和增强恢复弱光图像)
0 Abstract
低光照图像缺点:(1)可见性低,像素值小。(2)低信噪比,噪声多干扰图像内容。
大多数低光照图像增强方法都是从低噪声数据集中学习获得的。
发现:噪声在不同频率层表现出不同程度的对比度,在低频层比在高频层更容易检测到噪声。
提出一种基于频率的图像增强分解模型,首先该网络学习恢复低频层图像对象,然后基于恢复后的图像对象增强高频细节。
提供一个新的带有真实噪声的低光照数据集。
1 Contribution
(1)提供一种新的基于频率的分解增强模型来增强微光图像,首先抑制噪声并恢复低频层的图像内容,然后恢复高频层的图像细节。
(2)包含注意上下文编码(ACE)模型来分解输入图像,自适增强高频层和低频层,使用一个跨域变换(CDT)模块来抑制噪声和细节增强。
(3)提供一个带有真实噪声的弱光图像数据集和相应ground truth 图像。
2 Proposed Model
观察结果:
(1)低频层的噪声更容易检测和抑制,所以对有噪声的低光照图像进行低频层增强比直接对整个图像进行增强更容易,通过分析图像低频层的全局属性,可以正确地估计图像的照明和颜色。
(2)已知自然图像的原始部分(边缘和角落)具有非常地的本征维度(intrinsic dimensionality),低维数意味着少量的图像样本就足以表示图像原语,通过给定基元的低频信息,就可以推断出高频信息。
基于观察结果,提出模型,其具有两个阶段。
第一阶段:低频图像增强函数C(·),然后学习一个放大函数A(·)进行颜色恢复,建立从C(·)到A(·)的映射模型,网络不需要同时学习全局信息(照明)和局部信息(颜色),从而获得更有效的增强结果。
给定低光照sRGB图像 I ,第一阶段形式公式:
I a = α A ( C ( I ) ) ⋅ C ( I ) I^a = αA(C(I)) · C(I) Ia=αA(C(I))⋅C(I)
I a I^a Ia是放大的低频层,A不同于基于视网膜方法的光照图映射,从增强内容C估计出相对放大映射到可学习全局比α(αA(·)就是自注意方式增强C的误差映射)
(A is different from the illumination map in retinex-based methods, as we estimate a relative amplification map to a learnable global ratio α from the enhanced content C.)
第二阶段:从第一阶段 I a I^a Ia中学习高频细节增强函数D(·),而不是直接从原始输入图像 I I I中恢复有噪声的高频细节,然后对D(·)进行残差建模,最终获得增强图像为:
I
c
=
I
a
⋅
D
(
I
a
)
I^c = I^a · D(I^a)
Ic=Ia⋅D(Ia)
该模型使用了注意上下文编码(ACE)模块和跨域转换(CDT)模型。
2.1 ACE Module
ACE模块的目标:学习用于图像分解的频率感知特征,最初提出用于编码远程关系的非局域运算扩展为频率自适应上下文信息。
输入 X i n ∈ R H × W × C X_{in} ∈ R^{H×W×C} Xin∈RH×W×C,使用两组扩张卷积(一组卷积大小为1,扩张率为1;一组卷积大小为3,扩张率为2),分别记作 f d 1 f_{d1} fd1, f d 2 f_{d2} fd2,用于提取不同接受域,然后计算这两个特征之间的对比感知注意映射:
C a = s i g m o i d ( f d 1 ( X i n ) ➖ f d 2 ( X i n ) ) C_a = sigmoid(f_{d1}(X_{in}) ➖ f_{d2}(X_{in})) Ca=sigmoid(fd1(Xin)➖fd2(Xin))
C a C_a Ca:逐像素相对对比度信息,其中高对比度的像素被认为高频层。
然后计算逆映射 C a ‾ = 1 − C a \overline{C_a} = 1 - C_{a} Ca=1−Ca,通过 X c = C a ‾ ⋅ X i n X_c = \overline{C_a} · X_{in} Xc=Ca⋅Xin获得 X i n X_{in} Xin的特征作为低频内容。
通过max-pooling进一步缩小所选择特征 X c X_{c} Xc,获得紧凑特征 X c ↓ X_{c}^↓ Xc↓,减少GPU内存并建立非局域像素对像素依赖关系的计算, X c ↓ ∈ R H ′ × W ′ × C X_{c}^↓∈R^{H′×W′×C} Xc↓∈RH′×W′×C
非局部上下文编码过程: X c r = g ( X c ↓ ) ⊤ × h ( X c ↓ ) × f ( x c ↓ ) ⊤ X^r_c = g(X^↓_c)^⊤× h(X^↓_c) × f(x^↓_c)^⊤ Xcr=g(Xc↓)⊤×h(Xc↓)×f(xc↓)⊤
g
、
h
和
f
g、h和f
g、h和f表示一组卷积、重塑和矩阵转置操作,这些操作首先计算了一个像素affinity table
M
∈
R
H
′
W
′
×
H
′
W
′
M∈ R^{H′W′×H′W′}
M∈RH′W′×H′W′,然后考虑每个像素与所有其他像素的关系,计算非局部增强特征
X
c
r
X^r_c
Xcr,最后以残差方式获得频率感知的非局域增强特性
X
o
u
t
=
U
n
p
o
o
l
(
X
c
r
)
+
x
c
X_{out} = Unpool(X^r_c) + x_c
Xout=Unpool(Xcr)+xc
模型存在两个ACE模块,它们共享权重,
第一阶段:第一个ACE模块使用 C a ‾ \overline{C_a} Ca,趋向于突出背景区域。
第二阶段:为了从高频层特征中学习图像特征,第二个ACE模块使用contrast-aware attention map C a {C_a} Ca,趋向于突出物体重建高频细节。
2.2 CDT Module
CDT模块在低光域和增强域缩小差距时,增加了接受域,其可以获取更多全局信息用于帮助恢复光线和图像内容,作用:比较在噪声低光域和增强域提取的频率感知特征。
第一阶段:在与相应解码器特征 X d e X_{de} Xde连接之前,编码器 X e n X_{en} Xen的噪声特征首先通过self-derived inverse contrast-aware map C a ‾ \overline{C_a} Ca进行空间重加权,以过滤掉高对比度信息。然后,从连接的特征 [ X e n , X d e ] [X_{en},X_{de}] [Xen,Xde]计算全局尺度向量v,以通道方式自适应地重新缩放不同域的特征。
第二阶段,使用对比感知注意力映射 C a C_a Ca来学习图像细节。
2.3 Proposed Dataset
提供一个新的包含真实噪声低光照和真值的sRGB数据集。
(1)Noise in low-light:基于SID数据集训练模型,该数据集包含原始数据和ground truth图像对。这些原始数据在低光照短曝光(0.1s或0.04s曝光时间)下拍摄,对应的ground truth图像时在长曝光时间(10s或30s)下拍摄,噪声可以忽略不计。
线性照相机原始数据与非线性sRGB数据有明显的不同,特别是在噪声和图像增强方面,所以原始数据上训练的模型不能直接应用于sRGB图像,为了解决这个问题,在图像生成过程中考虑了曝光补偿、白平衡和去线化步骤,并进行操作来模拟真实世界中不同相机拍摄的低光照sRGB图像。
(2)Exposure compensation(自动曝光):根据传感器感知的光强,自动确定曝光时间和相机增益,这种方式根据摄像机不同而有所不同,为了增加曝光时间多样性,本文以0.5EV为间隔,从[0EV,2EV]范围内随机采样曝光补偿值。
(3)White balance(白平衡化):通过估计每个信道的增益来矫正不现实的cast,cast在不同摄像机中也有所不同,根据卡尔文温度颜色图,在[2100K,4000K](典型家庭照明和日出/日落照明色温)的范围内随机选取色温来增大cast。
(4)De-linearization:由于相机响应函数引入的非线性在不同的相机是不同的,很难进行逆向工程,因此采用伽马函数作为去线性化函数。
2.4 Training
Loss function:使用L2损失来测量两阶段训练过程中的重建准确性,
在第一阶段,鼓励网络关注预测输入图像的低频分量,并准备相应的ground truth,表示为 I f g t I^{gt}_f Ifgt,通过引导滤波器高频细节,同时保持ground truth图像的主要结构和内容。
重构损失: L a c c = λ 1 ∣ ∣ C − I f g t ∣ ∣ 2 + λ 2 ∣ ∣ I c − I g t ∣ ∣ 2 L_{acc} = λ_1||C − I^{gt}_f||_2+ λ_2||I^c − I^{gt}||2 Lacc=λ1∣∣C−Ifgt∣∣2+λ2∣∣Ic−Igt∣∣2
C、 I c I^c Ic、 I f g t I_f^{gt} Ifgt、 I g t I^{gt} Igt为重构图像内容、恢复图像、低频层ground truth、增强图像ground truth、 λ 1 λ_1 λ1和 λ 2 λ_2 λ2为平衡参数。
通过使用L1损失比较 I c I^c Ic和 I g t I^{gt} Igt的VGG特征距离,合并感知损失。
L v g g = λ 3 ∣ ∣ Φ ( I c ) − Φ ( I g t ) ∣ ∣ 1 L_{vgg} = λ_3||Φ(I^c) − Φ(I^{gt})||_1 Lvgg=λ3∣∣Φ(Ic)−Φ(Igt)∣∣1
Φ Φ Φ为VGG网,$ λ_3$为平衡参数。
3 Conclusion
噪声在不同频率层对图像的影响不同。
提出一种基于频率的图像分解增强模型,在不同频率层上自适应增强图像的内容和细节,同时抑制噪声。
提供了一个网络包含注意上下文编码ACE模块,用于自适应增强高低频层,以及跨域变换CDT模块,用于噪声抑制和细节增强。
提供一个新的低光照数据集。
局限性:在对象较小的场景中,可能会失败,本网络可能无法从周围区域提取有意义的上下文信息来恢复内容。
抑制噪声。
提供了一个网络包含注意上下文编码ACE模块,用于自适应增强高低频层,以及跨域变换CDT模块,用于噪声抑制和细节增强。
提供一个新的低光照数据集。
局限性:在对象较小的场景中,可能会失败,本网络可能无法从周围区域提取有意义的上下文信息来恢复内容。