-
这是PR2023的一篇暗图增强的论文
-
提出了两个模块,一个EIKS模块用局部熵来代表图像的局部频率特性(高频为主还是低频为主),利用熵图来指导卷积的感受野(文章认为高频噪声不突出,用小感受野,低频噪声突出,用大感受野);另一个是基于illumination map来做注意力的IAT模块
-
文章提出,从人的视觉系统来看,噪声在图像的平滑区域(低频为主,即熵值大的区域)更加显眼而在高频区域则由于人的视觉掩盖机制(人眼无法同时接受太多信息从而有选择性地忽略一些信息)而相对不显眼。
-
网络结构遵从GAN的模式,由一个多尺度的generator和两个discriminator(一个局部一个全局)组成,如下图所示:
-
EIKS模块长这样,首先用不同size 的卷积核去卷积(但5x5的卷积核换成了3x3带2dilation的卷积核),产生两个特征图:
其中,熵图用的是局部区域熵,但是这样算太慢了,用了integral hisogram:
得到熵图及其反图后,用可训练的权重(虽然公式里写的是 W ( m , n ) W(m,n) W(m,n),但文章说用的实际上是 1 × 1 1\times 1 1×1卷积,所以其实就是各两个权重共4个权重而已,而且从公式来看其实是冗余的,两个权重就够了)将两个图加权平均,得到两个互补的注意力图,并用他们来分别乘以前面提到的两个分支的特征图:
-
接下来的注意力机制写得,em,一言难尽,符号都统一,全程不知所言,画图也画的很奇怪,看不下去了。
-
IAT模块其实就是对illumination map的反图做1x1的卷积和sigmoid生成element-wise的注意力图,去乘以特征图:
-
损失函数就是GAN的对抗损失和输入输出在vgg域的距离的加权。
-
实验比较了NIQE和LOL-Real上的PSNR
-
em,无论是从方法部分的阐述和还是选择的对比方法都感觉像是一篇水文。。