这是BMVC2022的论文,提出了一个轻量化的局部全局双支路的低光照图像质量增强网络,有监督。
- 思路是先用encoder f ( ⋅ ) f(\cdot) f(⋅)转到raw-RGB域,再用decoder g t ( ⋅ ) g_t(\cdot) gt(⋅)模拟ISP过程转到sRGB域。虽然文章好像没有明确指出,但我看 g t ( ⋅ ) g_t(\cdot) gt(⋅)过于简单,应该是在 f ( ⋅ ) f(\cdot) f(⋅)就已经进行增强了。也就是说, f ( ⋅ ) f(\cdot) f(⋅)先把暗图的sRGB转成亮图的raw-RGB,再转到sRGB域。
- g t ( ⋅ ) = ( m a x ( ∑ c j W c i . c j ( ⋅ ) , ϵ ) ) γ , c i , c j ∈ { r , g , b } g_t(\cdot)=(max(\sum_{c_j}W_{c_i. c_j}(\cdot),\epsilon))^\gamma,c_i,c_j\in\{r,g,b\} gt(⋅)=(max(∑cjWci.cj(⋅),ϵ))γ,ci,cj∈{r,g,b}
- 从公式可以看出,decoder是一个3x3的矩阵 W W W,这是一个简化的ISP过程,用3x3的矩阵来模拟ISP的白平衡过程,用 ϵ \epsilon ϵ作为下限阈值的 γ \gamma γ校正来模拟ISP的非线性映射过程
- f ( I i ) = I i ⊙ M + A f(I_i)=I_i\odot M+A f(Ii)=Ii⊙M+A
- 从公式可以看出,encoder用element-wise的乘和加来实现逆ISP的过程,并同时对图像进行增强。
- 网络结构如下图所示:
- 网络结构就不详细展开了,结果而言就是通过网络来预测上面公式中的 M , A , W , γ M,A,W,\gamma M,A,W,γ,来实现增强
- 给出了几种实验结果,一是在LOL和fivek数据集上的对比
- 二是在(Learning multi-scale photo exposure correction(CVPR2021))提出的 exposure correction dataset 上对比:
- 三是在高层视觉任务上对三个黑暗图像数据集进行对比
- appendix里面给出了一些有意思的分析,和我在研究的方向几乎一致。
- 文章提出,直接对暗图进行增强后用训练在正常光照图像上的目标检测模型去检测会存在“target inconsistency(human vision v.s. machine vision)”,因此应该将两个网络联合训练
- 这一实验结果显示,用预训练好的网络进行joint training是更有效的方式。也就是说先在增强数据集上训练好增强网络,再和预训练好的目标检测模型一起在黑暗图像目标检测数据集上联合训练能够得到更好的结果。而我此前之所以出现不好的结果是因为我的网络是无监督网络,从而我会试图在联合训练时也为增强网络提供增强任务的损失,而文章的网络是有监督网络,它无法实现这点,但却得到了好的结果,说明联合训练时不应该提供增强任务的损失。