文章目录
ReLLIE Deep Reinforcement Learning for Customized Low-Light Image Enhancement
0 Abstract and Introduction
ReLLIE:将LLIE建模成一个马尔科夫过程(依次和递归地估计像素级图像特定曲线)
可以处理各种低光照测量,灵活应用不同时间的策略,提出定制的增强输出。
通过 a plug-and-play降噪器,增强图像中的混合干扰。
低光照图像建模: S l o w = R ○ I l o w + n a d d S_{low} = R ○ I_{low} + n_{add} Slow=R○Ilow+nadd
S l o w S_{low} Slow为低光照图像, R R R为底层反射率, I l o w I_{low} Ilow是照光不足, n a d d n_{add} nadd是附加噪声, ○ ○ ○为元素乘法。
LLIE从观察到的低光照图像 S l o w S_{low} Slow中恢复最佳光照 I o p t I_{opt} Iopt,同时保持一致反射率 R R R和抑制噪声 n a d d n_{add} nadd,
S l o w S_{low} Slow和 I o p t I_{opt} Iopt对于不同人或应用可能不同,这导致LLIE在实践时很复杂。
将LLIE方法增加自定义,其可以处理不同程度的输入 S l o w S_{low} Slow,也可以提供不同主观的 I o p t I_{opt} Iopt输出。用于满足不同用户偏好。
R e L L I E ReLLIE ReLLIE将LLIE定义为序列图像特定曲线估计问题。其以低光照或中间图像作为输入,在每一步都按照学习的策略产生二阶曲线作为输出,该策略由一个轻量级的全卷积网络参数化,并使用一组专门为LLIE设计的非参考损耗函数进行训练。 R e L L I E ReLLIE ReLLIE采用了一种循环的方式,利用图像特定的曲线来实现稳健和精确的动态范围调整。
R e L L I E ReLLIE ReLLIE学习一种随机策略,可以处理不同低光照的输入,提供特定的增强输出。增强步骤数量可由用户决定。
R e L L I E ReLLIE ReLLIE采用非参考损失函数作为奖励函数,在训练过程不需要成对或不成对的数据。
Contribution:
1.提出了一个基于DRL的轻量级框架,即ReLLIE,以实现更定制的LLIE方案
2.提出了一种新的非参考LLIE损耗(信道比恒常性损耗(CRL))和一种新的信道依赖动量更新(CDMU)模块,用于训练更robust的LLIE模型。 提出了增强引导细化(RF)模块来处理LLIE场景中的附加噪声。
3.大量实验表明,所提出的ReLLIE算法可以有效地应用于zero-shot和无监督的LLIE基准。
2 Approach
2.1 LLIE via Curve Adjustment
LLIE可由人类专家通过应用照片编辑软件中的曲线调整来实现,其中自适应曲线参数仅依赖于输入的图像。 具有挑战性的弱光图像的最佳曲线通常是非常高的阶数。
每一步应用了二阶光增强曲线(LEC),它可以表示为:
L E ( 𝐼 ( x ) ; A ( x ) ) = 𝐼 ( x ) + A ( x ) 𝐼 ( x ) ( 1 − 𝐼 ( x ) ) LE(𝐼(x); A(x)) = 𝐼(x) + A(x)𝐼(x) (1 − 𝐼(x)) LE(I(x);A(x))=I(x)+A(x)I(x)(1−I(x))
I I I是输入微光图像, x x x表示像素坐标, L E ( I ( x ) ; A ( x ) ) LE(I(x);A(x)) LE(I(x);A(x))在x处,使用学习特征参数A(x),输出与图像相同大小的增强图像。
LE多次应用于高级LEC近似,在第t步骤,增强的输出为:
L E 𝑡 ( x ) = L E 𝑡 − 1 ( x ) + A 𝑡 ( x ) L E 𝑡 − 1 ( x ) ( 1 − L E 𝑡 − 1 ( x ) ) LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x)) LEt(x)=LEt−1(x)+At(x)LEt−1(x)(1−LEt−1(x))
在每个步骤t中,找到最佳像素参数map A t ( x ) A_t(x) At(x)
2.2 LLIE as Markov Decision Process
在 L E 𝑡 ( x ) = L E 𝑡 − 1 ( x ) + A 𝑡 ( x ) L E 𝑡 − 1 ( x ) ( 1 − L E 𝑡 − 1 ( x ) ) LE_𝑡 (x) = LE_{𝑡−1}(x) + A_𝑡 (x)LE_{𝑡−1}(x) (1 − LE_{𝑡−1}(x)) LEt(x)=LEt−1(x)+At(x)LEt−1(x)(1−LEt−1(x))基础上,证明LLIE可以被描述为一个有特定任务状态,行动和奖励组成的马尔科夫决策过程。
state:在每t步骤,低光照图片 I t ∈ R I_t ∈ R It∈R 是状态( s t ∈ S s_t∈S st∈S),t=0表示原始输入的初始状态,t ≥ 1表示上一步图像部分增强的中间状态。
action:行动 s t s_t st为LEC的每个像素选择一个参数 a t ( x ) a_t(x) at(x), a t ( x ) a_t(x) at(x)被限制在预定义的范围A中,所有的 a t a_t at构成一个参数map A t ( x ) A_t(x) At(x)。
将一系列的参数映射应用到输入的原始图像中,会得到一个状态和动作的轨迹𝑇:
𝑇 = ( 𝑠 0 , A 0 , 𝑠 1 , A 1 , ⋅ ⋅ ⋅ , 𝑠 𝑁 − 1 , A 𝑁 − 1 , 𝑠 𝑁 , A 𝑁 ) 𝑇 = (𝑠_0, A_0, 𝑠_1, A_1, · · · , 𝑠_{𝑁 −1}, A_{𝑁 −1}, 𝑠_𝑁 , A_𝑁 ) T=(s0,A0,s1,A1,⋅⋅⋅,sN−1,AN−1,sN,AN)
N是步骤数, S N S_N SN是停止状态,
reward:S × A --> R评估给定状态下的动作。
在MDP期间,实现最大限度提高累积收益的policy π。
采用随机策略agent,参数是 π θ ( A t ∣ s t ) \pi_\theta(A_t|s_t) πθ(At∣st),这里 θ \theta θ是可训练参数。
policy π θ \pi_\theta πθ:S–>P(A)将当前状态 s t ∈ S s_t ∈ S st∈S映射到动作的概率密度集P(A),即 P ( A t ∣ s t ) P(A_t|s_t) P(At∣st)
综上所述,当agent进入一个状态,其会根据概率密度函数对一个动作进行采样,然后收到奖励,然后转到下一个状态。
给定一个轨迹
T
T
T,返回的是
s
k
s_k
sk之后的折扣回报的总和
r
k
γ
r_k^\gamma
rkγ:
r
k
γ
=
∑
k
′
=
0
N
−
k
γ
k
′
r
(
s
k
+
k
′
,
A
k
+
k
′
)
r^\gamma_k=\sum^{N-k}_{k'=0}\gamma^{k'}r(s_{k+k'},A_{k+k'})
rkγ=∑k′=0N−kγk′r(sk+k′,Ak+k′)
γ
∈
[
0
,
1
]
\gamma ∈[0,1]
γ∈[0,1]是折扣因子,更重视近期的回报。
使用 J ( π θ ) = E s 0 ∼ S 0 [ r 0 γ ∣ π θ ] J(\pi_\theta)=E_ {s_0\sim S_0}[r^\gamma_0|\pi_\theta] J(πθ)=Es0∼S0[r0γ∣πθ]评估policy, s 0 s_0 s0是输入图像, S 0 S_0 S0为输入分布, J ( π θ ) = E s 0 ∼ S 0 [ r 0 γ ∣ π θ ] J(\pi_\theta) =E_{s_0\sim S_0}[r^\gamma_0|\pi_\theta] J(πθ)=Es0∼S0[r0γ∣πθ]引发了所有可能轨迹的预期回报。agent目标是最大化目标$𝐽 (𝜋_𝜃) $,这与被反馈r定义的最终图像质量有关,因为质量越高的图像(状态)得到的奖励越多。
3 Proposed RELLIE
3.1 Agent
本论文采用全卷积(FCNs)网络异步actor-critic(A3C)作为随机policy agent,ReLLIE总框架如图2所示。
在A3C中,使用了一个策略网络 π θ \pi _ \theta πθ和一个网络 V θ v V_{\theta_v} Vθv用于使DRL训练正常稳定。
基于FCN的编码器 E F C N E_{FCN} EFCN提取输入图像 I t I_t It,这时输出 s t s_t st,t为状态。
E F C N E_{FCN} EFCN由于 π θ \pi_{\theta} πθ和 V θ v V_{\theta_v} Vθv共享,使用 s t s_t st,policy网络输出概率 P ( A t ∣ s t , θ π ) P(A_t | s_t, \theta_\pi) P(At∣st,θπ),从中参数map A t ( x ) A_t (x) At(x)被采样。
价值网络输出 V θ v ( s t ) V_{\theta_v}(s_t) Vθv(st),是对长期折扣回报的估计。
V θ v ( s t ) = E s 0 = s t [ r 0 γ ] V_{\theta_v}(s_t) = E_{s_0=s_t}[r^\gamma_0] Vθv(st)=Es0=st[r0γ]
在ReLLIE中加入skip链接用于使得输入图片 I t I_t It更新为原始输入图像 I 0 I_0 I0并增强图像的加权和。
更新过程为 I t = w L E t ( x ) + ( 1 − w ) I 0 I_t = wLE_t (x) + (1 − w)I_0 It=wLEt(x)+(1−w)I0,w是一个可调参数,经验设置为0.8。
在颜色增强之后,本框架包含了一个可选的去噪模块。
两个网络 θ π θ v \theta_\pi\ \theta_v θπ θv的参数梯度被计算:
r t γ = r t + γ V ( s t + 1 ) r^\gamma_t= r_t + \gamma^V (s_t+1) rtγ=rt+γV(st+1)
d θ v = ∇ θ v ( r t γ − V θ v ( s t ) ) 2 d\theta_v = ∇_{\theta_v}(r^\gamma_t−V_{\theta_v}(s_t))^2 dθv=∇θv(rtγ−Vθv(st))2
d θ π = − ∇ θ π l o g P ( A t ∣ s t , θ π ) ( r t γ − V θ v ( s t ) ) d\theta_\pi = −∇\theta_\pi log P (A_t|s_t, \theta_\pi ) (r^\gamma_t−V_{\theta_v}(s^t)) dθπ=−∇θπlogP(At∣st,θπ)(rtγ−Vθv(st))
Action space:
对于一个像素的LEC,状态 s t s_t st 的动作选择参数是一个参数 a t ( x ) a_t(x) at(x) , a t ( x ) a_t(x) at(x)被限制在一个预定范围A内,所有 a t a_t at构成参数映射 A t ( x ) A_t(x) At(x)。
范围A是对agent很重要,小范围导致增强被限制,大范围导致搜索空间巨大,将A经验地设为[-0.3,1],刻度为0.05。
设置要求:
1、每个像素都在[0,1]的归一化范围内
2、LEC单调
降低搜索合适LEC用于低光照图像增强的成本。
在图3中,对于不同N,LEC可以在建议的action space设置中有效覆盖像素空间。
Reward:
采用四个非参考损耗(空间一致性损失、曝光控制损失、光照平滑损失、通道比恒常性损耗)来评估增强后的图像,并使用它们的负权重和作为训练agent的reward。
非参考损耗的使用摆脱了对成对数据收集的需要。
不同非参考损耗的加权和为用户偏好提供了更大的灵活性。
3.2 Non-Reference Losses
对于零参考LLIE,采用了空间一致性损失、曝光控制损失和光照平滑损失。
本文提出一种新的非参考损耗(通道比恒常性损耗/channel-ratio constancy loss/CRL)。
Spatial consistency loss:
空间一致性损失 L s p a L_{spa} Lspa鼓励在增强过程中保留相邻区域之间的差异。
𝐿 𝑠 𝑝 𝑎 = 1 𝐾 ∑ 𝑖 = 1 K ∑ 𝑗 ∈ Ω ( 𝑖 ) ( ∣ 𝑌 𝑖 − 𝑌 𝑗 ∣ − ∣ 𝐼 𝑖 − 𝐼 𝑗 ∣ ) 2 𝐿_{𝑠𝑝𝑎} =\frac{1}{𝐾}\sum^K_{𝑖=1}\sum_{𝑗 ∈Ω(𝑖)}(|𝑌_𝑖 − 𝑌_𝑗| − |𝐼_𝑖 − 𝐼_𝑗|)^2 Lspa=K1∑i=1K∑j∈Ω(i)(∣Yi−Yj∣−∣Ii−Ij∣)2
K K K是局域区域的数量
Ω ( i ) Ω(i) Ω(i)是四个相邻区域(上、下、左、右)
Y Y Y表示增强版本中局部区域的平均强度值
I I I表示输入图像中局部区域的平均强度值
Exposure control loss:
曝光控制损失 L e x p L_{exp} Lexp测量局部区域平均强度值到一个预定义的良好曝光水平 E E E的距离,即 R G B RGB RGB颜色空间中的灰度: 𝐿 𝑒 𝑥 𝑝 = 1 𝑀 ∑ 𝑘 = 1 𝑀 ∣ 𝑌 𝑚 − 𝐸 ∣ 𝐿_{𝑒𝑥𝑝} =\frac{1}{𝑀}\sum^𝑀_{𝑘=1}|𝑌𝑚 − 𝐸| Lexp=M1∑k=1M∣Ym−E∣。
M M M表示大小为16*16的非重叠局域区域个数。
Y m Y_m Ym是增强图像中一个局域区域m的平均强度值。
E E E被设置为0.6。
Illumination smoothness loss:
防止相邻像素之间的距离发生强烈变化,采用光照平滑损失来控制每个状态下的曲线参数map A:
L t v A = 1 N ∑ t = 1 N ∑ c ∈ ϵ ( ∣ ∇ x A t c ∣ + ∣ ∇ y A t c ∣ ) 2 , ϵ = R , G , B L_{tvA} =\frac{1}{N} \sum^N_{t=1}\sum_{c ∈ \epsilon}(|∇_xA^c_t| + |∇_yA^c_t|)^2, \epsilon = R,G, B LtvA=N1∑t=1N∑c∈ϵ(∣∇xAtc∣+∣∇yAtc∣)2,ϵ=R,G,B
N N N为迭代次数
∇ x ∇_x ∇x为水平梯度计算
∇ y ∇_y ∇y为垂直梯度计算
Channel-ratio constancy loss:
提出一种通道比恒常性损耗 L c r l L_{crl} Lcrl来约束通道之间的比例,防止增强图像中可能出现的颜色偏差:
𝐿 𝑐 𝑟 𝑙 = ∑ ( ∣ 𝐼 𝑅 𝐼 𝐺 − 𝑌 𝑅 𝑌 𝐺 ∣ + ∣ 𝐼 𝑅 𝐼 𝐵 − 𝑌 𝑅 𝑌 𝐵 ∣ + ∣ 𝐼 𝐺 𝐼 𝐵 − 𝑌 𝐺 𝑌 𝐵 ∣ ) 2 𝐿_{𝑐𝑟𝑙} =\sum(| \frac{𝐼_𝑅}{𝐼_𝐺}−\frac{𝑌_𝑅}{𝑌_𝐺}| + |\frac{𝐼_𝑅}{𝐼_𝐵}−\frac{𝑌_𝑅}{𝑌_𝐵}| + | \frac{𝐼_𝐺}{𝐼_𝐵}−\frac{𝑌_𝐺}{𝑌_𝐵}|)^2 Lcrl=∑(∣IGIR−YGYR∣+∣IBIR−YBYR∣+∣IBIG−YBYG∣)2
𝐼 𝑅 𝐼 𝐺 \frac{𝐼_𝑅}{𝐼_𝐺} IGIR表示输入图像 I I I的 R R R通道和 G G G通道之间的像素比。
𝑌 𝑅 𝑌 𝐺 \frac{𝑌_𝑅}{𝑌_𝐺} YGYR表示增强后图像 Y Y Y的 R R R通道与 G G G通道的像素比。
∑ \sum ∑表示所有比率的总和。
𝐿 𝑐 𝑟 l 𝐿_{𝑐𝑟l} Lcrl约束输入图像的通道之间的固有比率来避免颜色偏移。
Agent reward
总的学习目标是:
𝐿 𝑡 𝑜 𝑡 𝑎 𝑙 = 𝑊 𝑠 𝑝 𝑎 𝐿 𝑠 𝑝 𝑎 + 𝑊 𝑒 𝑥 𝑝 𝐿 𝑒 𝑥 𝑝 + 𝑊 𝑡 𝑣 𝐴 𝐿 𝑡 𝑣 𝐴 + 𝑊 𝑐 𝑟 𝑙 𝐿 𝑐 𝑟 l 𝐿_{𝑡𝑜𝑡𝑎𝑙} = 𝑊_{𝑠𝑝𝑎}𝐿_{𝑠𝑝𝑎} +𝑊_{𝑒𝑥𝑝}𝐿_{𝑒𝑥𝑝} +𝑊_{𝑡𝑣𝐴}𝐿_{𝑡𝑣𝐴} +𝑊_{𝑐𝑟𝑙}𝐿_{𝑐𝑟l} Ltotal=WspaLspa+WexpLexp+WtvALtvA+WcrlLcrl
𝑊 𝑠 𝑝 A 𝑊_{𝑠𝑝A} WspA、 W e x p W_exp Wexp、 W t v A W_{tvA} WtvA和 W c r l W_{crl} Wcrl是调和参数(能根据用户进行调整),
对于给定的增强图像,在特定状态 s t s_t st下reward r r r:
𝑟 ( 𝑠 𝑡 , A 𝑡 ) = − 𝐿 𝑡 𝑜 𝑡 𝑎 𝑙 ( 𝑠 𝑡 + 1 ) 𝑟(𝑠_𝑡, A_𝑡) = −𝐿_{𝑡𝑜𝑡𝑎𝑙}(𝑠_{𝑡+1}) r(st,At)=−Ltotal(st+1)
3.3 Channel Dependent Momentum Update
提出一种基于通道的动量更新算法(CDMU)。
在每个状态下,agent分别输出不同的通道像素 A R ( x ) A_R(x) AR(x), A G ( x ) A_G(x) AG(x), A B ( x ) A_B(x) AB(x)。
实参数映射到每个通道上 A R ∗ ( x ) A^*_R(x) AR∗(x), A G ∗ ( x ) A^*_G(x) AG∗(x)和 A B ∗ ( x ) A^*_B(x) AB∗(x),
A 𝑅 ∗ ( x ) = A 𝑅 ( x ) A^∗_𝑅(x) = A_𝑅 (x) AR∗(x)=AR(x)
A G ∗ ( x ) = w C D A G ( x ) + ( 1 − w C D ) A R ( x ) A^∗_G(x) = w_{CD}A_G (x) + (1 − w_{CD})A_R(x) AG∗(x)=wCDAG(x)+(1−wCD)AR(x)
A B ∗ ( x ) = w C D A B ( x ) + ( 1 − w C D ) A R ( x ) A^∗_B(x) = w_{CD}A_B (x) + (1 − w_{CD})A_R (x) AB∗(x)=wCDAB(x)+(1−wCD)AR(x)
w C D w_{CD} wCD是个可调参数,用于控制通道之间的依赖关系。
不同通道之间执行 C D M U CDMU CDMU,因为natural 图像中RGB通道通常相互关联。这样的更新避免在单个通道上激进的修改,这可能导致不平衡的风格性能。
3.4 Enlightening-guided Recursive Refinement
对于低光照图像,退化模型可以混合使用,
本文引入一个可选的去噪block来运行enlightening-guided recursive refinement (RF)启发引导递归细化。
本文采用 F F D N e t FFDNet FFDNet作为去噪block,并将一个格外的noise level map作为一个指导处理空间变体噪声。
noise level map是每个像素被enlightened的比例,其可以表示噪声的介入程度。
去噪block在本框架中是可选项,不涉及训练过程。
agent在无去噪下学习,用户可以在测试阶段的每个步骤使用 F F D N e t FFDNet FFDNet对增强图像进行去噪处理(这种机制使得训练更加稳定,其可以在测试阶段允许灵活选择去噪器)。
4 Experiments and Results
4.1 Experiments Setting
Dataset
对两种类型的LLIE数据进行实验:
1、带有配对数据的标准数据集
2、没有 g r o u n d t r u t h groundtruth groundtruth的数据集
Baselines:
有监督方法: R e t i n e x − N e Retinex-Ne Retinex−Ne和 K i n D KinD KinD
无监督方法: E n l i g h t e n G A N EnlightenGAN EnlightenGAN和 Z e r o − D C E Zero-DCE Zero−DCE
zero-shot方法:LIME和Kar
传统zero-shot:使用学习过的模型来处理看不见的类别图像。
本文zero-shot:模型在训练过程中只能观察单个图像。
Implementation details:
使用pytorch实现两个版本ReLLI,用于无监督和zero-shot设置。
无监督学习:
采用七层神经网络作为policy agent,
zero-shot:
采用四层神经网络作为policy agent
无监督和zero-shot超参数相同,损失系数 W s p a = 1 W_{spa}=1 Wspa=1, W w x p = 100 W_{wxp}=100 Wwxp=100, W c r l = 20 W_{crl}=20 Wcrl=20, W t v A = 200 W_{tvA}=200 WtvA=200。
在CDMU中, w C D w_{CD} wCD=0.2,对于agent学习,折扣因子 γ = 0.05 \gamma=0.05 γ=0.05,learning rate = 0.001
训练迭代次数在无监督和zero-shot分别为20000和1000次,所有实验在GTX 1080Ti GPU上运行。
4.2 Quantitative Comparsion
采用峰值信噪比Peak Signal-to-Noise Ratio (PSNR, dB)、结构相似度Structural Similarity(SSM)和学习感知图像贴片相似度Learned Perceptual Image Patch Similarity (LPIPS)
图1:总结ReLLIE和Baseline在LOL Dataset的性能,在监督学习(有配对数据)的指导下,KinD性能最好,ReLLIE在无监督和zero-shot下由于其他baseline,证明了DRL对于LLIE任务的有效性。
图5,展示zero-shot LLIE的结果,第一行显示ReLLIE保存了更多的上下文信息,具有更好的对比,第二行显示了ReLLIE避免了存在所有baseline中的artifacts。更多细节用红色box进一步比较。
4.3 Visual Quality Comparison
图4和图5比较了低光照图像的视觉质量。
图4显示了ground truth可用的无监督LLIE,本文ReLLIE提供的图像增强在没有明显噪声和色差时具有视觉效果,ReLLIE结果清晰,保留更多细节。
图8,本文采用N=6的情况(可以根据用户偏好更改N)对于一些图像,N=6可能不是最好选择,但还可以获得较好的结果。
4.4 Visualization of Customized LLIE
图8,ReLLIE在zero-shot场景下提供的特定增强图像。
图6,显示了不同N时,SSIM和PNSR。给定一个低光照图像,用固定的步数训练一个随机初始化的agent,N=8,进行1000次迭代,直到收敛。
ReLLIE是自定义的,以固定步数训练一个随机初始化的agent,例如:N=8,进行1000次迭代,直到收敛。
4.5 Ablation Study
通过添加CRL、CDMU、RF,PSNR从7.76dB提高到19.52dB
5 Conclusion
提出基于非参考DRL的框架ReLLIE,可以高效、robust、定制地进行低光照增强。
ReLLIE通过学习随机的图像平移策略,而不是一对一的平移模型,提供了不同的图像增强候选对象,以满足不同个体的偏好。
提出了一系列学习模块,包括CRL、CDMU和RF,以增强LLIE方法的鲁棒性。
验证了ReLLIE在无监督/零镜头LLIE场景下相对于现有方法的优越性。
1000次迭代,直到收敛。