论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network

最新推荐文章于 2023-06-21 10:36:12 发布

LZ-CH

最新推荐文章于 2023-06-21 10:36:12 发布

阅读量1.2k

点赞数 6

分类专栏：论文阅读笔记弱光增强文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/weixin_45937009/article/details/115565046

版权

论文阅读笔记同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

弱光增强

2 篇文章 0 订阅

订阅专栏

论文阅读笔记:Low-Light Image Enhancement via a Deep Hybrid Network

摘要
论文要点
- 研究目的
- 解决方案简要
网络设计
相关试验
个人对论文、模型的评价
相关链接

摘要

在光线不足的环境中，摄像头传感器通常无法捕捉清晰的图像或视频。在这篇论文中，作者提出一个可训练的混合网路来提升退化影像的可见度。该网络由两个不同的流组成，在一个统一的网络中同时学习全局内容和清晰图像的显著结构。更具体地说，内容流(content stream)通过编码器-解码器网络估计低光输入的全局内容。然而，内容流中的编码器往往会丢失一些结构细节。为了弥补这一缺陷，我们提出了一种新的空间变异递归神经网络（RNN）作为边缘流(edge stream)，在另一个自动编码器的引导下对边缘细节进行建模。实验结果表明，与现有的微光图像增强算法相比，该网络具有良好的性能。

论文要点

研究目的

旨在弥补现有的弱光增强模型在结构细节上有所丢失的缺陷；

解决方案简要

提出了一种新的空间变异递归神经网络（RNN）作为边缘流(edge stream)，在另一个自动编码器的引导下对边缘细节进行建模。(就是除了利用图像原本的信息之外，还利用了从图像提取而来的边缘隐藏信息。)

网络设计

总体网络结构如下:
在这里插入图片描述
该网络主要包括content stream和Edge stream；前者旨在初步预测图像的全局特征，后者旨在利用RNN来提取图像的边缘隐藏信息的特征；然后再联合两种features map来进一步增强图像的对比度。

content stream

在这里插入图片描述

近年来编码器-解码器网络在图像去噪、除雾、修复、消光和协调(harmonization)上都有比较好的效果；于是作者在content stream中采用的也是 encoder-decoder 的结构，值得注意的是，前两层卷积层采用的是膨胀卷积；其余部分与U-Net结构类似；

edge stream

在一维方向上(以图像第一行从左到右为例)，作者采用以下方式来提取边缘信息；
… 在这里插入图片描述
h为所求结构,g、p为权重参数，x为图像元素，k表示位置；总体上来说，h[k]上包含有图像在k位置x[k]的信息，还包含有上一个位置的边缘信息h[k-1]，这两者的所占程度受g[k]和p[k]控制；而g，p是未知的，或者说本应有人为给定，但是人为又难以给定，因此作者采用可学习的g,p来协助提取边缘信息；以下为edge stream的网络结构:
在这里插入图片描述

edge stream部分是整篇论文的主要说明部分，也是其亮点之处；edge stream也包含一个Encode-Deconde结构，该结构旨在求解出g，h；而下方的结构为下采样+conv和resize的操作；把inputimage分别下采样到1/2,1/4,1/8，然后进行一次卷积操作；然后再将1/2,1/4,1/8大小的map resize到和原来的大小一致。然后分别从左->右，右->左，上->下，下->上四个方向根据上面提到的公式来得出各方向上的h，最后用每个k位置的四个方向的h[k]的最大值来作为k位置的边缘隐藏信息(即图中的Max-pooling)；
以下为从左->右的示意图:
在这里插入图片描述

最后的融合

在这里插入图片描述

最后采用两个卷积层来融合前面所得到的两种feature；

损失函数

作者采用三种loss来指导该模型的训练.
第一种为MSE Loss，ground-truth与生成的图 $I$ 的MSE:
在这里插入图片描述

第二种Perceptual Loss，反映groud-truth与生成的图 $I$ 在一个预训练的VGG-16下提取的特征的差距:

在这里插入图片描述
第三种为Adversarial Loss，引入了一个鉴别器与原网络构成一个对抗网络；其对抗损失为:

最终将三个损失按一定比例结合起来:

其中 $\lambda _p=0.05,\lambda_p=1e^{-5}$ ；

个人对论文、模型的评价

我觉得新颖的是人为加入一些可解释的功能模块(即那个edge stream来对细节的补充)，而不是一股脑的放一些功能都难以解释清楚虽然效果确实好的模型；作了很充足的实验，如各loss与edge stream的消融实验。
整篇论文读下来之后，让我比较疑惑的是作者是从何得知经过edge stream那样的模型结构就能够提取出各方向的边缘信息，而不是高频的内容信息呢(因为内容信息也可以通过RNN提取得到)?读的过程中期待着能有损失函数来特别指导着edge-stream往边缘信息提取的方向进行，但是并没有使用特别的损失函数来指导其进行。也许是作者根据先验知识(该先验知识是我尚且不了解的)来构建的，或者是本抱着尝试的方式，然后从结果中来看，确实起到了边缘信息的提取作用。这些疑惑可能要等后面再深入了解才能很好的得以解决吧。