ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement

0 Abstract and Introduction

ReLLIE:将LLIE建模成一个马尔科夫过程(依次和递归地估计像素级图像特定曲线)

可以处理各种低光照测量,灵活应用不同时间的策略,提出定制的增强输出。

通过 a plug-and-play降噪器,增强图像中的混合干扰。

低光照图像建模: S l o w = R ○ I l o w + n a d d S_{low} = R ○ I_{low} + n_{add} Slow=RIlow+nadd

S l o w S_{low} Slow为低光照图像, R R R为底层反射率, I l o w I_{low} Ilow是照光不足, n a d d n_{add} nadd是附加噪声, ○ ○ 为元素乘法。

LLIE从观察到的低光照图像 S l o w S_{low} Slow中恢复最佳光照 I o p t I_{opt} Iopt,同时保持一致反射率 R R R和抑制噪声 n a d d n_{add} nadd

S l o w S_{low} Slow I o p t I_{opt} Iopt对于不同人或应用可能不同,这导致LLIE在实践时很复杂。

将LLIE方法增加自定义,其可以处理不同程度的输入 S l o w S_{low} Slow,也可以提供不同主观的 I o p t I_{opt} Iopt输出。用于满足不同用户偏好。

R e L L I E ReLLIE ReLLIE将LLIE定义为序列图像特定曲线估计问题。其以低光照或中间图像作为输入,在每一步都按照学习的策略产生二阶曲线作为输出,该策略由一个轻量级的全卷积网络参数化,并使用一组专门为LLIE设计的非参考损耗函数进行训练。 R e L L I E ReLLIE ReLLIE采用了一种循环的方式,利用图像特定的曲线来实现稳健和精确的动态范围调整。

R e L L I E ReLLIE ReLLIE学习一种随机策略,可以处理不同低光照的输入,提供特定的增强输出。增强步骤数量可由用户决定。

R e L L I E ReLLIE ReLLIE采用非参考损失函数作为奖励函数,在训练过程不需要成对或不成对的数据。

Contribution:

1.提出了一个基于DRL的轻量级框架,即ReLLIE,以实现更定制的LLIE方案

2.提出了一种新的非参考LLIE损耗(信道比恒常性损耗(CRL))和一种新的信道依赖动量更新(CDMU)模块,用于训练更robust的LLIE模型。 提出了增强引导细化(RF)模块来处理LLIE场景中的附加噪声。

3.大量实验表明,所提出的ReLLIE算法可以有效地应用于zero-shot和无监督的LLIE基准。

2 Approach

2.1 LLIE via Curve Adjustment

LLIE可由人类专家通过应用照片编辑软件中的曲线调整来实现,其中自适应曲线参数仅依赖于输入的图像。 具有挑战性的弱光图像的最佳曲线通常是非常高的阶数。

每一步应用了二阶光增强曲线(LEC),它可以表示为:

L E ( 𝐼 ( x ) ; A ( x ) ) = 𝐼 ( x ) + A ( x ) 𝐼 ( x ) ( 1 − 𝐼 ( x ) ) LE(𝐼(x); A(x)) = 𝐼(x) + A(x)𝐼(x) (1 − 𝐼(x)) LE(I(x);A(x))=I(x)+A(x)I(x)(1I(x))

I I I是输入微光图像, x x x表示像素坐标, L E ( I ( x ) ; A ( x ) ) LE(I(x);A(x)) LE(I(x);A(x))在x处,使用学习特征参数A(x),输出与图像相同大小的增强图像。

LE多次应用于高级LEC近似,在第t步骤,增强的输出为:

L E 𝑡 ( x ) = L E 𝑡 − 1 ( x ) + A 𝑡 ( x ) L E 𝑡 − 1 ( x ) ( 1 − L E 𝑡 − 1 ( x ) ) LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x)) LEt(x)=LEt1(x)+At(x)LEt1(x)(1LEt1(x))

在每个步骤t中,找到最佳像素参数map A t ( x ) A_t(x) At(x)

2.2 LLIE as Markov Decision Process

L E 𝑡 ( x ) = L E 𝑡 − 1 ( x ) + A 𝑡 ( x ) L E 𝑡 − 1 ( x ) ( 1 − L E 𝑡 − 1 ( x ) ) LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x)) LEt(x)=LEt1(x)+At(x)LEt1(x)(1LEt1(x))基础上,证明LLIE可以被描述为一个有特定任务状态,行动和奖励组成的马尔科夫决策过程。

state:在每t步骤,低光照图片 I t ∈ R I_t ∈ R ItR 是状态( s t ∈ S s_t∈S stS),t=0表示原始输入的初始状态,t ≥ 1表示上一步图像部分增强的中间状态。

action:行动 s t s_t st为LEC的每个像素选择一个参数 a t ( x ) a_t(x) at(x) a t ( x ) a_t(x) at(x)被限制在预定义的范围A中,所有的 a t a_t at构成一个参数map A t ( x ) A_t(x) At(x)

将一系列的参数映射应用到输入的原始图像中,会得到一个状态和动作的轨迹𝑇:

𝑇 = ( 𝑠 0 , A 0 , 𝑠 1 , A 1 , ⋅ ⋅ ⋅ , 𝑠 𝑁 − 1 , A 𝑁 − 1 , 𝑠 𝑁 , A 𝑁 ) 𝑇 = (𝑠_0, A_0, 𝑠_1, A_1, · · · , 𝑠_{𝑁 −1}, A_{𝑁 −1}, 𝑠_𝑁 , A_𝑁 ) T=(s0,A0,s1,A1,,sN1,AN1,sN,AN)

N是步骤数, S N S_N SN是停止状态,

reward:S × A --> R评估给定状态下的动作。

在MDP期间,实现最大限度提高累积收益的policy π。

采用随机策略agent,参数是 π θ ( A t ∣ s t ) \pi_\theta(A_t|s_t) πθ(Atst),这里 θ \theta θ是可训练参数。

policy π θ \pi_\theta πθ:S–>P(A)将当前状态 s t ∈ S s_t ∈ S stS映射到动作的概率密度集P(A),即 P ( A t ∣ s t ) P(A_t|s_t) P(Atst)

综上所述,当agent进入一个状态,其会根据概率密度函数对一个动作进行采样,然后收到奖励,然后转到下一个状态。

给定一个轨迹 T T T,返回的是 s k s_k sk之后的折扣回报的总和 r k γ r_k^\gamma rkγ:
r k γ = ∑ k ′ = 0 N − k γ k ′ r ( s k + k ′ , A k + k ′ ) r^\gamma_k=\sum^{N-k}_{k'=0}\gamma^{k'}r(s_{k+k'},A_{k+k'}) rkγ=k=0Nkγkr(sk+k,Ak+k)
γ ∈ [ 0 , 1 ] \gamma ∈[0,1] γ[0,1]是折扣因子,更重视近期的回报。

使用 J ( π θ ) = E s 0 ∼ S 0 [ r 0 γ ∣ π θ ] J(\pi_\theta)=E_ {s_0\sim S_0}[r^\gamma_0|\pi_\theta] J(πθ)=Es0S0[r0γπθ]评估policy, s 0 s_0 s0是输入图像, S 0 S_0 S0为输入分布, J ( π θ ) = E s 0 ∼ S 0 [ r 0 γ ∣ π θ ] J(\pi_\theta) =E_{s_0\sim S_0}[r^\gamma_0|\pi_\theta] J(πθ)=Es0S0[r0γπθ]引发了所有可能轨迹的预期回报。agent目标是最大化目标$𝐽 (𝜋_𝜃) $,这与被反馈r定义的最终图像质量有关,因为质量越高的图像(状态)得到的奖励越多。

3 Proposed RELLIE

3.1 Agent

在这里插入图片描述

本论文采用全卷积(FCNs)网络异步actor-critic(A3C)作为随机policy agent,ReLLIE总框架如图2所示。

在A3C中,使用了一个策略网络 π θ \pi _ \theta πθ和一个网络 V θ v V_{\theta_v} Vθv用于使DRL训练正常稳定。

基于FCN的编码器 E F C N E_{FCN} EFCN提取输入图像 I t I_t It,这时输出 s t s_t st,t为状态。

E F C N E_{FCN} EFCN由于 π θ \pi_{\theta} πθ V θ v V_{\theta_v} Vθv共享,使用 s t s_t st,policy网络输出概率 P ( A t ∣ s t , θ π ) P(A_t | s_t, \theta_\pi) P(Atst,θπ),从中参数map A t ( x ) A_t (x) At(x)被采样。

价值网络输出 V θ v ( s t ) V_{\theta_v}(s_t) Vθv(st),是对长期折扣回报的估计。

V θ v ( s t ) = E s 0 = s t [ r 0 γ ] V_{\theta_v}(s_t) = E_{s_0=s_t}[r^\gamma_0] Vθv(st)=Es0=st[r0γ]

在ReLLIE中加入skip链接用于使得输入图片 I t I_t It更新为原始输入图像 I 0 I_0 I0并增强图像的加权和。

更新过程为 I t = w L E t ( x ) + ( 1 − w ) I 0 I_t = wLE_t (x) + (1 − w)I_0 It=wLEt(x)+(1w)I0,w是一个可调参数,经验设置为0.8。

在颜色增强之后,本框架包含了一个可选的去噪模块。

两个网络 θ π   θ v \theta_\pi\ \theta_v θπ θv的参数梯度被计算:

r t γ = r t + γ V ( s t + 1 ) r^\gamma_t= r_t + \gamma^V (s_t+1) rtγ=rt+γV(st+1)

d θ v = ∇ θ v ( r t γ − V θ v ( s t ) ) 2 d\theta_v = ∇_{\theta_v}(r^\gamma_t−V_{\theta_v}(s_t))^2 dθv=θv(rtγVθv(st))2

d θ π = − ∇ θ π l o g P ( A t ∣ s t , θ π ) ( r t γ − V θ v ( s t ) ) d\theta_\pi = −∇\theta_\pi log P (A_t|s_t, \theta_\pi ) (r^\gamma_t−V_{\theta_v}(s^t)) dθπ=θπlogP(Atst,θπ)(rtγVθv(st))

Action space:

对于一个像素的LEC,状态 s t s_t st 的动作选择参数是一个参数 a t ( x ) a_t(x) at(x) a t ( x ) a_t(x) at(x)被限制在一个预定范围A内,所有 a t a_t at构成参数映射 A t ( x ) A_t(x) At(x)

范围A是对agent很重要,小范围导致增强被限制,大范围导致搜索空间巨大,将A经验地设为[-0.3,1],刻度为0.05。

设置要求:

1、每个像素都在[0,1]的归一化范围内

2、LEC单调

降低搜索合适LEC用于低光照图像增强的成本。

在图3中,对于不同N,LEC可以在建议的action space设置中有效覆盖像素空间。

Reward:

采用四个非参考损耗(空间一致性损失、曝光控制损失、光照平滑损失、通道比恒常性损耗)来评估增强后的图像,并使用它们的负权重和作为训练agent的reward。

非参考损耗的使用摆脱了对成对数据收集的需要。

不同非参考损耗的加权和为用户偏好提供了更大的灵活性。
在这里插入图片描述

3.2 Non-Reference Losses

对于零参考LLIE,采用了空间一致性损失、曝光控制损失和光照平滑损失。

本文提出一种新的非参考损耗(通道比恒常性损耗/channel-ratio constancy loss/CRL)。

Spatial consistency loss:

空间一致性损失 L s p a L_{spa} Lspa鼓励在增强过程中保留相邻区域之间的差异。

𝐿 𝑠 𝑝 𝑎 = 1 𝐾 ∑ 𝑖 = 1 K ∑ 𝑗 ∈ Ω ( 𝑖 ) ( ∣ 𝑌 𝑖 − 𝑌 𝑗 ∣ − ∣ 𝐼 𝑖 − 𝐼 𝑗 ∣ ) 2 𝐿_{𝑠𝑝𝑎} =\frac{1}{𝐾}\sum^K_{𝑖=1}\sum_{𝑗 ∈Ω(𝑖)}(|𝑌_𝑖 − 𝑌_𝑗| − |𝐼_𝑖 − 𝐼_𝑗|)^2 Lspa=K1i=1KjΩ(i)(YiYjIiIj)2

K K K是局域区域的数量

Ω ( i ) Ω(i) Ω(i)是四个相邻区域(上、下、左、右)

Y Y Y表示增强版本中局部区域的平均强度值

I I I表示输入图像中局部区域的平均强度值

Exposure control loss:

曝光控制损失 L e x p L_{exp} Lexp测量局部区域平均强度值到一个预定义的良好曝光水平 E E E的距离,即 R G B RGB RGB颜色空间中的灰度: 𝐿 𝑒 𝑥 𝑝 = 1 𝑀 ∑ 𝑘 = 1 𝑀 ∣ 𝑌 𝑚 − 𝐸 ∣ 𝐿_{𝑒𝑥𝑝} =\frac{1}{𝑀}\sum^𝑀_{𝑘=1}|𝑌𝑚 − 𝐸| Lexp=M1k=1MYmE

M M M表示大小为16*16的非重叠局域区域个数。

Y m Y_m Ym是增强图像中一个局域区域m的平均强度值。

E E E被设置为0.6。

Illumination smoothness loss:

防止相邻像素之间的距离发生强烈变化,采用光照平滑损失来控制每个状态下的曲线参数map A:

L t v A = 1 N ∑ t = 1 N ∑ c ∈ ϵ ( ∣ ∇ x A t c ∣ + ∣ ∇ y A t c ∣ ) 2 , ϵ = R , G , B L_{tvA} =\frac{1}{N} \sum^N_{t=1}\sum_{c ∈ \epsilon}(|∇_xA^c_t| + |∇_yA^c_t|)^2, \epsilon = R,G, B LtvA=N1t=1Ncϵ(xAtc+yAtc)2,ϵ=R,G,B

N N N为迭代次数

∇ x ∇_x x为水平梯度计算

∇ y ∇_y y为垂直梯度计算

Channel-ratio constancy loss:

提出一种通道比恒常性损耗 L c r l L_{crl} Lcrl来约束通道之间的比例,防止增强图像中可能出现的颜色偏差:

𝐿 𝑐 𝑟 𝑙 = ∑ ( ∣ 𝐼 𝑅 𝐼 𝐺 − 𝑌 𝑅 𝑌 𝐺 ∣ + ∣ 𝐼 𝑅 𝐼 𝐵 − 𝑌 𝑅 𝑌 𝐵 ∣ + ∣ 𝐼 𝐺 𝐼 𝐵 − 𝑌 𝐺 𝑌 𝐵 ∣ ) 2 𝐿_{𝑐𝑟𝑙} =\sum(| \frac{𝐼_𝑅}{𝐼_𝐺}−\frac{𝑌_𝑅}{𝑌_𝐺}| + |\frac{𝐼_𝑅}{𝐼_𝐵}−\frac{𝑌_𝑅}{𝑌_𝐵}| + | \frac{𝐼_𝐺}{𝐼_𝐵}−\frac{𝑌_𝐺}{𝑌_𝐵}|)^2 Lcrl=(IGIRYGYR+IBIRYBYR+IBIGYBYG)2

𝐼 𝑅 𝐼 𝐺 \frac{𝐼_𝑅}{𝐼_𝐺} IGIR表示输入图像 I I I R R R通道和 G G G通道之间的像素比。

𝑌 𝑅 𝑌 𝐺 \frac{𝑌_𝑅}{𝑌_𝐺} YGYR表示增强后图像 Y Y Y R R R通道与 G G G通道的像素比。

∑ \sum 表示所有比率的总和。

𝐿 𝑐 𝑟 l 𝐿_{𝑐𝑟l} Lcrl约束输入图像的通道之间的固有比率来避免颜色偏移。

Agent reward

总的学习目标是:

𝐿 𝑡 𝑜 𝑡 𝑎 𝑙 = 𝑊 𝑠 𝑝 𝑎 𝐿 𝑠 𝑝 𝑎 + 𝑊 𝑒 𝑥 𝑝 𝐿 𝑒 𝑥 𝑝 + 𝑊 𝑡 𝑣 𝐴 𝐿 𝑡 𝑣 𝐴 + 𝑊 𝑐 𝑟 𝑙 𝐿 𝑐 𝑟 l 𝐿_{𝑡𝑜𝑡𝑎𝑙} = 𝑊_{𝑠𝑝𝑎}𝐿_{𝑠𝑝𝑎} +𝑊_{𝑒𝑥𝑝}𝐿_{𝑒𝑥𝑝} +𝑊_{𝑡𝑣𝐴}𝐿_{𝑡𝑣𝐴} +𝑊_{𝑐𝑟𝑙}𝐿_{𝑐𝑟l} Ltotal=WspaLspa+WexpLexp+WtvALtvA+WcrlLcrl

𝑊 𝑠 𝑝 A 𝑊_{𝑠𝑝A} WspA W e x p W_exp Wexp W t v A W_{tvA} WtvA W c r l W_{crl} Wcrl是调和参数(能根据用户进行调整),

对于给定的增强图像,在特定状态 s t s_t st下reward r r r

𝑟 ( 𝑠 𝑡 , A 𝑡 ) = − 𝐿 𝑡 𝑜 𝑡 𝑎 𝑙 ( 𝑠 𝑡 + 1 ) 𝑟(𝑠_𝑡, A_𝑡) = −𝐿_{𝑡𝑜𝑡𝑎𝑙}(𝑠_{𝑡+1}) r(st,At)=Ltotal(st+1)

3.3 Channel Dependent Momentum Update

提出一种基于通道的动量更新算法(CDMU)。

在每个状态下,agent分别输出不同的通道像素 A R ( x ) A_R(x) AR(x) A G ( x ) A_G(x) AG(x) A B ( x ) A_B(x) AB(x)

实参数映射到每个通道上 A R ∗ ( x ) A^*_R(x) AR(x) A G ∗ ( x ) A^*_G(x) AG(x) A B ∗ ( x ) A^*_B(x) AB(x)

A 𝑅 ∗ ( x ) = A 𝑅 ( x ) A^∗_𝑅(x) = A_𝑅 (x) AR(x)=AR(x)

A G ∗ ( x ) = w C D A G ( x ) + ( 1 − w C D ) A R ( x ) A^∗_G(x) = w_{CD}A_G (x) + (1 − w_{CD})A_R(x) AG(x)=wCDAG(x)+(1wCD)AR(x)

A B ∗ ( x ) = w C D A B ( x ) + ( 1 − w C D ) A R ( x ) A^∗_B(x) = w_{CD}A_B (x) + (1 − w_{CD})A_R (x) AB(x)=wCDAB(x)+(1wCD)AR(x)

w C D w_{CD} wCD是个可调参数,用于控制通道之间的依赖关系。

不同通道之间执行 C D M U CDMU CDMU,因为natural 图像中RGB通道通常相互关联。这样的更新避免在单个通道上激进的修改,这可能导致不平衡的风格性能。

3.4 Enlightening-guided Recursive Refinement

对于低光照图像,退化模型可以混合使用,

本文引入一个可选的去噪block来运行enlightening-guided recursive refinement (RF)启发引导递归细化。

本文采用 F F D N e t FFDNet FFDNet作为去噪block,并将一个格外的noise level map作为一个指导处理空间变体噪声。

noise level map是每个像素被enlightened的比例,其可以表示噪声的介入程度。

去噪block在本框架中是可选项,不涉及训练过程。

agent在无去噪下学习,用户可以在测试阶段的每个步骤使用 F F D N e t FFDNet FFDNet对增强图像进行去噪处理(这种机制使得训练更加稳定,其可以在测试阶段允许灵活选择去噪器)。

4 Experiments and Results

4.1 Experiments Setting

Dataset

对两种类型的LLIE数据进行实验:

1、带有配对数据的标准数据集

2、没有 g r o u n d t r u t h groundtruth groundtruth的数据集

Baselines:

有监督方法: R e t i n e x − N e Retinex-Ne RetinexNe K i n D KinD KinD

无监督方法: E n l i g h t e n G A N EnlightenGAN EnlightenGAN Z e r o − D C E Zero-DCE ZeroDCE

zero-shot方法:LIME和Kar

传统zero-shot:使用学习过的模型来处理看不见的类别图像。

本文zero-shot:模型在训练过程中只能观察单个图像。

Implementation details:

使用pytorch实现两个版本ReLLI,用于无监督和zero-shot设置。

无监督学习:

采用七层神经网络作为policy agent,

zero-shot:

采用四层神经网络作为policy agent

无监督和zero-shot超参数相同,损失系数 W s p a = 1 W_{spa}=1 Wspa=1 W w x p = 100 W_{wxp}=100 Wwxp=100 W c r l = 20 W_{crl}=20 Wcrl=20 W t v A = 200 W_{tvA}=200 WtvA=200

在CDMU中, w C D w_{CD} wCD=0.2,对于agent学习,折扣因子 γ = 0.05 \gamma=0.05 γ=0.05,learning rate = 0.001

训练迭代次数在无监督和zero-shot分别为20000和1000次,所有实验在GTX 1080Ti GPU上运行。

4.2 Quantitative Comparsion

采用峰值信噪比Peak Signal-to-Noise Ratio (PSNR, dB)、结构相似度Structural Similarity(SSM)和学习感知图像贴片相似度Learned Perceptual Image Patch Similarity (LPIPS)
在这里插入图片描述

图1:总结ReLLIE和Baseline在LOL Dataset的性能,在监督学习(有配对数据)的指导下,KinD性能最好,ReLLIE在无监督和zero-shot下由于其他baseline,证明了DRL对于LLIE任务的有效性。
在这里插入图片描述

图5,展示zero-shot LLIE的结果,第一行显示ReLLIE保存了更多的上下文信息,具有更好的对比,第二行显示了ReLLIE避免了存在所有baseline中的artifacts。更多细节用红色box进一步比较。

4.3 Visual Quality Comparison

在这里插入图片描述
在这里插入图片描述

图4和图5比较了低光照图像的视觉质量。

图4显示了ground truth可用的无监督LLIE,本文ReLLIE提供的图像增强在没有明显噪声和色差时具有视觉效果,ReLLIE结果清晰,保留更多细节。
在这里插入图片描述

图8,本文采用N=6的情况(可以根据用户偏好更改N)对于一些图像,N=6可能不是最好选择,但还可以获得较好的结果。

4.4 Visualization of Customized LLIE

在这里插入图片描述
在这里插入图片描述

图8,ReLLIE在zero-shot场景下提供的特定增强图像。

图6,显示了不同N时,SSIM和PNSR。给定一个低光照图像,用固定的步数训练一个随机初始化的agent,N=8,进行1000次迭代,直到收敛。

ReLLIE是自定义的,以固定步数训练一个随机初始化的agent,例如:N=8,进行1000次迭代,直到收敛。

4.5 Ablation Study

在这里插入图片描述

通过添加CRL、CDMU、RF,PSNR从7.76dB提高到19.52dB

5 Conclusion

提出基于非参考DRL的框架ReLLIE,可以高效、robust、定制地进行低光照增强。

ReLLIE通过学习随机的图像平移策略,而不是一对一的平移模型,提供了不同的图像增强候选对象,以满足不同个体的偏好。

提出了一系列学习模块,包括CRL、CDMU和RF,以增强LLIE方法的鲁棒性。

验证了ReLLIE在无监督/零镜头LLIE场景下相对于现有方法的优越性。

1000次迭代,直到收敛。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

St-sun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值