这是CVPR2021的一篇半监督暗图增强论文,利用了成对数据集(合成的)和真实数据集(不成对)进行训练。
- 网络结构如下图所示
- 输入的图片首先用于预测相机响应曲线(CRF),根据预测的曲线将图像线性化,送进下一阶段。第二阶段将图像分解为低频分量和高频分量,高频分量进行去噪,低频分量去除散光效应后送进增强网络进行动态范围扩充,得到的结果与去噪后的高频分量加和得到最终的增强结果。图片中涉及了4个网络,CRF预测网络用的是ResNet-18,其它网络用到是带有skip-connection的encoder-decoder结构。
- 文章提到的一个处理流程很有意思,先获取一些raw image,然后获取一些相机响应曲线CRF,然后对raw data 应用相机响应曲线生成RGB图片,添加高斯噪声,并进行JPEG压缩,这样就可以得到一个用于输入的RGB图片,训练网络去预测其CRF曲线,而你手中又有生成这张图片所用到的CRF曲线,这样可以有监督地区训练第一阶段的CRF曲线预测网络。除了这里涉及到的raw 图像数据集 Z Z Z 和CRF曲线数据集 F F F,网络还需要用到成对图像数据集 X X X 和不成对图像暗图数据集 Y Y Y
CRF 预测网络
- CRF预测网络是一个ResNet-18,最后的输出是11通道,表示11个权重,用来加权11条预先定义好的曲线:
- 损失函数由两部分组成,一部分是和GT曲线的MSE,一部分是线性化结果和GT曲线线性化结果的L1距离:
- CRF预测网络的训练分两阶段进行,第一阶段是上述的有监督训练,然后利用不成对的暗图进行第二阶段的无监督finetune。这一阶段的损失函数包括单调性的损失,如下,H是阶跃函数,t是从0到1均匀分布的1024个离散值,这一损失是为了让CRF预测网络预测出单调递增的CRF。
- 还有一个无监督损失函数很复杂,说起来基于这样一个认知:边缘区域的像素值沿着垂直方向呈现出在RGB-3D空间中线性的变化趋势,所以基于这样的认知设计了下面的损失函数,其中S方向上的求和是因为对图片进行切patch处理。
HDR预测部分
- 第二部分的高、低频分解和损失函数都是基于现有方法的:
- Huikai Wu, Shuai Zheng, Junge Zhang, and Kaiqi Huang. Fast end-to-end trainable guided filter. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1838–1847, 2018. 2, 4
- Nima Khademi Kalantari and Ravi Ramamoorthi. Deep high dynamic range imaging of dynamic scenes. ACM Trans. Graph., 36(4):144–1, 2017. 2, 4
- HDR预测的网络也分两阶段进行训练,上面是第一阶段的有监督训练,第二阶段的无监督训练损失函数如下:
- 文章的实验结果主要在HDR数据集上与HDR方法对比。
这篇文章我写得很粗糙,是因为一方面论文写得也很乱,一方面我读得也很囫囵吞枣,读来读去也没有搞明白是哪部分起了light suppression的作用,就这样了吧,以后要用到再仔细读一遍。