ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

St-sun

已于 2022-04-18 21:30:04 修改

阅读量2k

点赞数

分类专栏：图像处理文章标签： python 图像处理

于 2022-04-17 22:29:48 首次发布

本文链接：https://blog.csdn.net/weixin_44622686/article/details/124238192

版权

图像处理专栏收录该内容

15 篇文章 1 订阅

订阅专栏

文章目录

ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

0 Abstract and Introduction

ReLLIE：将LLIE建模成一个马尔科夫过程（依次和递归地估计像素级图像特定曲线）

可以处理各种低光照测量，灵活应用不同时间的策略，提出定制的增强输出。

通过 a plug-and-play降噪器，增强图像中的混合干扰。

低光照图像建模： $S_{low} = R ○ I_{low} + n_{add}$

$S_{low}$ 为低光照图像， $R$ 为底层反射率， $I_{low}$ 是照光不足， $n_{add}$ 是附加噪声， $○$ 为元素乘法。

LLIE从观察到的低光照图像 $S_{low}$ 中恢复最佳光照 $I_{opt}$ ，同时保持一致反射率 $R$ 和抑制噪声 $n_{add}$ ，

$S_{low}$ 和 $I_{opt}$ 对于不同人或应用可能不同，这导致LLIE在实践时很复杂。

将LLIE方法增加自定义，其可以处理不同程度的输入 $S_{low}$ ，也可以提供不同主观的 $I_{opt}$ 输出。用于满足不同用户偏好。

$R e L L I E$ 将LLIE定义为序列图像特定曲线估计问题。其以低光照或中间图像作为输入，在每一步都按照学习的策略产生二阶曲线作为输出，该策略由一个轻量级的全卷积网络参数化，并使用一组专门为LLIE设计的非参考损耗函数进行训练。 $R e L L I E$ 采用了一种循环的方式，利用图像特定的曲线来实现稳健和精确的动态范围调整。

$R e L L I E$ 学习一种随机策略，可以处理不同低光照的输入，提供特定的增强输出。增强步骤数量可由用户决定。

$R e L L I E$ 采用非参考损失函数作为奖励函数，在训练过程不需要成对或不成对的数据。

Contribution：

1.提出了一个基于DRL的轻量级框架，即ReLLIE，以实现更定制的LLIE方案

2.提出了一种新的非参考LLIE损耗（信道比恒常性损耗(CRL)）和一种新的信道依赖动量更新(CDMU)模块，用于训练更robust的LLIE模型。提出了增强引导细化(RF)模块来处理LLIE场景中的附加噪声。

3.大量实验表明，所提出的ReLLIE算法可以有效地应用于zero-shot和无监督的LLIE基准。

2 Approach

2.1 LLIE via Curve Adjustment

LLIE可由人类专家通过应用照片编辑软件中的曲线调整来实现，其中自适应曲线参数仅依赖于输入的图像。具有挑战性的弱光图像的最佳曲线通常是非常高的阶数。

每一步应用了二阶光增强曲线(LEC)，它可以表示为:

$L E (I (x); A (x)) = I (x) + A (x) I (x) (1 - I (x))$

$I$ 是输入微光图像， $x$ 表示像素坐标， $L E (I (x); A (x))$ 在x处，使用学习特征参数A(x)，输出与图像相同大小的增强图像。

LE多次应用于高级LEC近似，在第t步骤，增强的输出为：

$LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x))$

在每个步骤t中，找到最佳像素参数map $A_t(x)$

2.2 LLIE as Markov Decision Process

在 $LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x))$ 基础上，证明LLIE可以被描述为一个有特定任务状态，行动和奖励组成的马尔科夫决策过程。

state：在每t步骤，低光照图片 $I_t ∈ R$ 是状态( $s_t∈S$ )，t=0表示原始输入的初始状态，t ≥ 1表示上一步图像部分增强的中间状态。

action：行动 $s_t$ 为LEC的每个像素选择一个参数 $a_t(x)$ ， $a_t(x)$ 被限制在预定义的范围A中，所有的 $a_t$ 构成一个参数map $A_t(x)$ 。

将一系列的参数映射应用到输入的原始图像中，会得到一个状态和动作的轨迹𝑇:

$𝑇 = (𝑠_0, A_0, 𝑠_1, A_1, · · · , 𝑠_{𝑁 −1}, A_{𝑁 −1}, 𝑠_𝑁 , A_𝑁 )$

N是步骤数， $S_N$ 是停止状态，

reward：S × A --> R评估给定状态下的动作。

在MDP期间，实现最大限度提高累积收益的policy π。

采用随机策略agent，参数是 $\pi_\theta(A_t|s_t)$ ，这里 $\theta$ 是可训练参数。

policy $\pi_\theta$ :S–>P(A)将当前状态 $s_t ∈ S$ 映射到动作的概率密度集P(A)，即 $P(A_t|s_t)$

综上所述，当agent进入一个状态，其会根据概率密度函数对一个动作进行采样，然后收到奖励，然后转到下一个状态。

给定一个轨迹 $T$ ，返回的是 $s_k$ 之后的折扣回报的总和 $r_k^\gamma$ :
$r^\gamma_k=\sum^{N-k}_{k'=0}\gamma^{k'}r(s_{k+k'},A_{k+k'})$
$\gamma ∈[0,1]$ 是折扣因子，更重视近期的回报。

使用 $J(\pi_\theta)=E_ {s_0\sim S_0}[r^\gamma_0|\pi_\theta]$ 评估policy， $s_0$ 是输入图像， $S_0$ 为输入分布， $J(\pi_\theta) =E_{s_0\sim S_0}[r^\gamma_0|\pi_\theta]$ 引发了所有可能轨迹的预期回报。agent目标是最大化目标$𝐽 (𝜋_𝜃) $，这与被反馈r定义的最终图像质量有关，因为质量越高的图像（状态）得到的奖励越多。

3 Proposed RELLIE

3.1 Agent

在这里插入图片描述

本论文采用全卷积（FCNs）网络异步actor-critic（A3C）作为随机policy agent，ReLLIE总框架如图2所示。

在A3C中，使用了一个策略网络 $\pi _ \theta$ 和一个网络 $V_{\theta_v}$ 用于使DRL训练正常稳定。

基于FCN的编码器 $E_{FCN}$ 提取输入图像 $I_t$ ，这时输出 $s_t$ ，t为状态。

$E_{FCN}$ 由于 $\pi_{\theta}$ 和 $V_{\theta_v}$ 共享，使用 $s_t$ ，policy网络输出概率 $P(A_t | s_t, \theta_\pi)$ ，从中参数map $A_t (x)$ 被采样。

价值网络输出 $V_{\theta_v}(s_t)$ ，是对长期折扣回报的估计。

$V_{\theta_v}(s_t) = E_{s_0=s_t}[r^\gamma_0]$

在ReLLIE中加入skip链接用于使得输入图片 $I_t$ 更新为原始输入图像 $I_0$ 并增强图像的加权和。

更新过程为 $I_t = wLE_t (x) + (1 − w)I_0$ ，w是一个可调参数，经验设置为0.8。

在颜色增强之后，本框架包含了一个可选的去噪模块。

两个网络 $\theta_\pi\ \theta_v$ 的参数梯度被计算：

$r^\gamma_t= r_t + \gamma^V (s_t+1)$

$d\theta_v = ∇_{\theta_v}(r^\gamma_t−V_{\theta_v}(s_t))^2$

$d\theta_\pi = −∇\theta_\pi log P (A_t|s_t, \theta_\pi ) (r^\gamma_t−V_{\theta_v}(s^t))$

Action space:

对于一个像素的LEC，状态 $s_t$ 的动作选择参数是一个参数 $a_t(x)$ ， $a_t(x)$ 被限制在一个预定范围A内，所有 $a_t$ 构成参数映射 $A_t(x)$ 。

范围A是对agent很重要，小范围导致增强被限制，大范围导致搜索空间巨大，将A经验地设为[-0.3,1]，刻度为0.05。

设置要求：

1、每个像素都在[0,1]的归一化范围内

2、LEC单调

降低搜索合适LEC用于低光照图像增强的成本。

在图3中，对于不同N，LEC可以在建议的action space设置中有效覆盖像素空间。

Reward：

采用四个非参考损耗（空间一致性损失、曝光控制损失、光照平滑损失、通道比恒常性损耗）来评估增强后的图像，并使用它们的负权重和作为训练agent的reward。

非参考损耗的使用摆脱了对成对数据收集的需要。

不同非参考损耗的加权和为用户偏好提供了更大的灵活性。
在这里插入图片描述

3.2 Non-Reference Losses

对于零参考LLIE，采用了空间一致性损失、曝光控制损失和光照平滑损失。

本文提出一种新的非参考损耗（通道比恒常性损耗/channel-ratio constancy loss/CRL）。

Spatial consistency loss：

空间一致性损失 $L_{spa}$ 鼓励在增强过程中保留相邻区域之间的差异。

$𝐿_{𝑠𝑝𝑎} =\frac{1}{𝐾}\sum^K_{𝑖=1}\sum_{𝑗 ∈Ω(𝑖)}(|𝑌_𝑖 − 𝑌_𝑗| − |𝐼_𝑖 − 𝐼_𝑗|)^2$

$K$ 是局域区域的数量

$Ω (i)$ 是四个相邻区域（上、下、左、右）

$Y$ 表示增强版本中局部区域的平均强度值

$I$ 表示输入图像中局部区域的平均强度值

Exposure control loss:

曝光控制损失 $L_{exp}$ 测量局部区域平均强度值到一个预定义的良好曝光水平 $E$ 的距离，即 $R G B$ 颜色空间中的灰度: $𝐿_{𝑒𝑥𝑝} =\frac{1}{𝑀}\sum^𝑀_{𝑘=1}|𝑌𝑚 − 𝐸|$ 。

$M$ 表示大小为16*16的非重叠局域区域个数。

$Y_m$ 是增强图像中一个局域区域m的平均强度值。

$E$ 被设置为0.6。

Illumination smoothness loss:

防止相邻像素之间的距离发生强烈变化，采用光照平滑损失来控制每个状态下的曲线参数map A：

$L_{tvA} =\frac{1}{N} \sum^N_{t=1}\sum_{c ∈ \epsilon}(|∇_xA^c_t| + |∇_yA^c_t|)^2, \epsilon = R,G, B$

$N$ 为迭代次数

$_x$ 为水平梯度计算

$_y$ 为垂直梯度计算

Channel-ratio constancy loss：

提出一种通道比恒常性损耗 $L_{crl}$ 来约束通道之间的比例，防止增强图像中可能出现的颜色偏差：

$𝐿_{𝑐𝑟𝑙} =\sum(| \frac{𝐼_𝑅}{𝐼_𝐺}−\frac{𝑌_𝑅}{𝑌_𝐺}| + |\frac{𝐼_𝑅}{𝐼_𝐵}−\frac{𝑌_𝑅}{𝑌_𝐵}| + | \frac{𝐼_𝐺}{𝐼_𝐵}−\frac{𝑌_𝐺}{𝑌_𝐵}|)^2$

$\frac{𝐼_𝑅}{𝐼_𝐺}$ 表示输入图像 $I$ 的 $R$ 通道和 $G$ 通道之间的像素比。

$\frac{𝑌_𝑅}{𝑌_𝐺}$ 表示增强后图像 $Y$ 的 $R$ 通道与 $G$ 通道的像素比。

$\sum$ 表示所有比率的总和。

$𝐿_{𝑐𝑟l}$ 约束输入图像的通道之间的固有比率来避免颜色偏移。

Agent reward

总的学习目标是：

$𝐿_{𝑡𝑜𝑡𝑎𝑙} = 𝑊_{𝑠𝑝𝑎}𝐿_{𝑠𝑝𝑎} +𝑊_{𝑒𝑥𝑝}𝐿_{𝑒𝑥𝑝} +𝑊_{𝑡𝑣𝐴}𝐿_{𝑡𝑣𝐴} +𝑊_{𝑐𝑟𝑙}𝐿_{𝑐𝑟l}$

$𝑊_{𝑠𝑝A}$ 、 $W_exp$ 、 $W_{tvA}$ 和 $W_{crl}$ 是调和参数（能根据用户进行调整），

对于给定的增强图像，在特定状态 $s_t$ 下reward $r$ ：

$𝑟(𝑠_𝑡, A_𝑡) = −𝐿_{𝑡𝑜𝑡𝑎𝑙}(𝑠_{𝑡+1})$

3.3 Channel Dependent Momentum Update

提出一种基于通道的动量更新算法（CDMU）。

在每个状态下，agent分别输出不同的通道像素 $A_R(x)$ ， $A_G(x)$ ， $A_B(x)$ 。

实参数映射到每个通道上 $A^*_R(x)$ ， $A^*_G(x)$ 和 $A^*_B(x)$ ，

$A^∗_𝑅(x) = A_𝑅 (x)$

$A^∗_G(x) = w_{CD}A_G (x) + (1 − w_{CD})A_R(x)$

$A^∗_B(x) = w_{CD}A_B (x) + (1 − w_{CD})A_R (x)$

$w_{CD}$ 是个可调参数，用于控制通道之间的依赖关系。

不同通道之间执行 $C D M U$ ，因为natural 图像中RGB通道通常相互关联。这样的更新避免在单个通道上激进的修改，这可能导致不平衡的风格性能。

3.4 Enlightening-guided Recursive Refinement

对于低光照图像，退化模型可以混合使用，

本文引入一个可选的去噪block来运行enlightening-guided recursive refinement (RF)启发引导递归细化。

本文采用 $F F D N e t$ 作为去噪block，并将一个格外的noise level map作为一个指导处理空间变体噪声。

noise level map是每个像素被enlightened的比例，其可以表示噪声的介入程度。

去噪block在本框架中是可选项，不涉及训练过程。

agent在无去噪下学习，用户可以在测试阶段的每个步骤使用 $F F D N e t$ 对增强图像进行去噪处理（这种机制使得训练更加稳定，其可以在测试阶段允许灵活选择去噪器）。

4 Experiments and Results

4.1 Experiments Setting

Dataset

对两种类型的LLIE数据进行实验：

1、带有配对数据的标准数据集

2、没有 $g r o u n d t r u t h$ 的数据集

Baselines：

有监督方法： $R e t i n e x - N e$ 和 $K i n D$

无监督方法： $E n l i g h t e n G A N$ 和 $Z e r o - D C E$

zero-shot方法：LIME和Kar

传统zero-shot：使用学习过的模型来处理看不见的类别图像。

本文zero-shot：模型在训练过程中只能观察单个图像。

Implementation details：

使用pytorch实现两个版本ReLLI，用于无监督和zero-shot设置。

无监督学习：

采用七层神经网络作为policy agent，

zero-shot：

采用四层神经网络作为policy agent

无监督和zero-shot超参数相同，损失系数 $W_{spa}=1$ ， $W_{wxp}=100$ ， $W_{crl}=20$ ， $W_{tvA}=200$ 。

在CDMU中， $w_{CD}$ =0.2，对于agent学习，折扣因子 $\gamma=0.05$ ，learning rate = 0.001

训练迭代次数在无监督和zero-shot分别为20000和1000次，所有实验在GTX 1080Ti GPU上运行。

4.2 Quantitative Comparsion

采用峰值信噪比Peak Signal-to-Noise Ratio (PSNR, dB)、结构相似度Structural Similarity（SSM）和学习感知图像贴片相似度Learned Perceptual Image Patch Similarity (LPIPS)
在这里插入图片描述

图1：总结ReLLIE和Baseline在LOL Dataset的性能，在监督学习（有配对数据）的指导下，KinD性能最好，ReLLIE在无监督和zero-shot下由于其他baseline，证明了DRL对于LLIE任务的有效性。
在这里插入图片描述

图5，展示zero-shot LLIE的结果，第一行显示ReLLIE保存了更多的上下文信息，具有更好的对比，第二行显示了ReLLIE避免了存在所有baseline中的artifacts。更多细节用红色box进一步比较。

4.3 Visual Quality Comparison

在这里插入图片描述

图4和图5比较了低光照图像的视觉质量。

图4显示了ground truth可用的无监督LLIE，本文ReLLIE提供的图像增强在没有明显噪声和色差时具有视觉效果，ReLLIE结果清晰，保留更多细节。
在这里插入图片描述

图8，本文采用N=6的情况（可以根据用户偏好更改N）对于一些图像，N=6可能不是最好选择，但还可以获得较好的结果。

4.4 Visualization of Customized LLIE

在这里插入图片描述

图8，ReLLIE在zero-shot场景下提供的特定增强图像。

图6，显示了不同N时，SSIM和PNSR。给定一个低光照图像，用固定的步数训练一个随机初始化的agent，N=8，进行1000次迭代，直到收敛。

ReLLIE是自定义的，以固定步数训练一个随机初始化的agent，例如：N=8，进行1000次迭代，直到收敛。

4.5 Ablation Study

在这里插入图片描述

通过添加CRL、CDMU、RF，PSNR从7.76dB提高到19.52dB

5 Conclusion

提出基于非参考DRL的框架ReLLIE，可以高效、robust、定制地进行低光照增强。

ReLLIE通过学习随机的图像平移策略，而不是一对一的平移模型，提供了不同的图像增强候选对象，以满足不同个体的偏好。

提出了一系列学习模块，包括CRL、CDMU和RF，以增强LLIE方法的鲁棒性。

验证了ReLLIE在无监督/零镜头LLIE场景下相对于现有方法的优越性。

1000次迭代，直到收敛。

St-sun

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

文章目录ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement0 Abstract and Introduction2 Approach2.1 LLIE via Curve Adjustment2.2 LLIE as Markov Decision Process3 Proposed RELLIE3.1 Agent3.2 Non-Reference Losses3.3 Channel Dependent M
复制链接

扫一扫