Self-supervised Image Enhancement Network: Training with Low Light Images Only
论文传送门:https://arxiv.org/abs/2002.11300
代码传送门:https://github.com/hitzhangyu/Self-supervised-Image-Enhancement-Network-Training-With-Low-Light-Images-Only
创新点:信息熵最大的retinex模型;自监督学习,仅利用低照度图像就可以完成训练;分钟级训练;仅利用一张底照图像就可以完成训练。
先放一张效果图:
( a )低照度图像,( b ) 用其他多张低照度图像训练网络的结果. ( c ) 是仅用a图训练网络的增强效果. ( d )参考图像
作者团队来自于哈工大,按照论文的说法,认为在检测识别等high-level的处理任务中各种深度学习算法发展较快的是因为在这些任务中可以提供清晰明确的监督;而在图像增强,复原这些low-level的图像处理任务中无法获取真实的退化-参考图像对,因此在这些任务的发展并没有这么迅速。这些任务的解决必然依赖于自监督或无监督的方法以及合理的模型。
作者受信息熵和retinex模型的影响,提出了信息熵最大的retinex模型:他们提出了一个假设,即增强后图像的最大值通道符合低照度图像的最大值通道,且信息熵最大;利用该假设及变分retinex模型提出信息熵最大的retinex模型。
retinex模型:
S
=
R
∘
I
S=R\circ I
S=R∘I
S为低照度图,R为反射图,I为照度(光照)。retinex模型中就是已知S求R。
此时根据贝叶斯公式该问题可以转换为:
p
(
R
,
I
∣
S
)
∝
p
(
S
∣
R
,
I
)
p
(
R
)
p
(
I
)
p(R,I\mid S)\propto p(S\mid R,I)p(R)p(I)
p(R,I∣S)∝p(S∣R,I)p(R)p(I)
(一般假设正态或拉普拉斯分布,取负对数后对应L2或L1损失)对公式左右两端求取负对数可以将增强问题转换为三个距离项:
m
i
n
R
,
S
l
r
c
o
n
+
λ
1
l
R
+
λ
2
l
I
\underset{R,S}{min} l_{rcon}+\lambda_{1}l_{R}+\lambda_{2}l_{I}
R,Sminlrcon+λ1lR+λ2lI
分别表示重建损失,反射图损失和照度图损失
根据retinex模型,重建损失表示为
l
r
c
o
n
=
∥
S
−
R
∘
I
∥
1
l_{rcon}=\left \| S-R\circ I \right \|_{1}
lrcon=∥S−R∘I∥1
反射图损失
l
R
=
∥
m
a
x
c
∈
R
,
G
,
B
R
c
−
F
(
m
a
x
c
∈
R
,
G
,
B
S
c
)
∥
1
+
λ
∥
△
R
∥
1
l_{R}=\left \| \underset{c\in{R,G,B}}{max} R^{c} - F(\underset{c\in{R,G,B}}{max}S^{c}) \right \|_{1} + \lambda \left \|\bigtriangleup R \right \|_{1}
lR=∥∥∥∥c∈R,G,BmaxRc−F(c∈R,G,BmaxSc)∥∥∥∥1+λ∥△R∥1
第一项是作者提出的假设,第二项为噪声抑制项
根据照度平滑假设,照度损失表示为:
l
I
=
∥
△
I
∘
e
x
p
(
−
λ
3
△
R
)
∥
1
l_{I}=\left \| \bigtriangleup I\circ exp\left ( -\lambda_{3}\bigtriangleup R \right ) \right \|_{1}
lI=∥△I∘exp(−λ3△R)∥1
照度图损失来源于retinexnet
三项加起来就构成了信息熵最大的retinex模型。
不同于之前利用变分法迭代求解的方法,作者提出利用深度学习求解该模型,输入低照度图像和最大值通道,输出增强后图像(反射图)和照度图:
多张数据,不包含测试图,进行不同训练次数带来的影响:
多次重复实现的指标变化(ps,感觉很少有深度学习的文章给出多次重复实验结果的,一般选最好的):
多次重复实现的效果
与其他方法的对比(结果来自一次随机的实验):
单帧图像训练网络:不同训练次数影响
单帧数据训练的网络在其他数据上的测试: