HLA-Face: Joint High-Low Adaptation for Low Light Face Detection 论文阅读笔记
这是去年7月读这篇文章的笔记了,今年由于忘记了,又有需要,就又读了一次,发现去年完全没读懂这篇文章,也漏了很多重点和细节,这是今年7月读这篇文章的笔记,时隔一年阅读笔记的差距:http://t.csdn.cn/mzPbi
-
文章认为,一个黑暗图像的数据集和正常光照图像的数据集,存在着两个方面的差距,一个方面为low-level的像素差距,主要指黑暗图像与正常图像在对比度、像素值等像素层次上的差距;一个方面为high-level的特征差距,主要指黑暗图像数据集和正常图像数据集在语义上的差距,比如目标分布/有无标注/包含的目标类别不同等。想要把正常光照图像的目标检测模型用在黑暗图像上,就得做这两方面的adaptation。
-
现有方法通常分为几种,包括只进行了low-level的adaptation的darkening方法和enhancement方法与进行了low-level和high-level的feature adaption方法。darkening方法是指将正常光照的有标注数据集转化为黑暗的有标注数据集,再用普通的目标检测器去训练;enhancement方法指先将黑暗图像增强为光照图像,再用普通的目标检测器去检测;feature adaption方法指将黑暗图像的特征转化到正常有标注数据集的目标检测特征上,个人觉得大概就是指YOLO in the Dark那样的模型吧。
-
文章希望分别从low-level和high-level着手进行adaptation。首先是low-level的adaptation,现有的low-level adaptation要么可能在把黑暗图像转为正常图像时,把光源生成到了人上,要么在将正常图像转为黑暗图像时,生成的图像不够暗。为了解决这些问题文章提出了bidirectional low-level adaptation scheme
bidirectional low-level adaptation scheme
- 文章认为,从正常图像到黑暗图像与三个降质因素有关——亮度、噪声、颜色偏移。将暗图的亮图调高容易,但是降噪和恢复颜色偏移不容易。因此将正常图片进行加噪和颜色偏移得到降质的图片D(H),再用网络转化为调亮后的黑暗图像E(L),这样网络所需要做的事情就变少,也变容易了:
- 具体的三个转化细节如下:
- 增亮:用的是这篇文章的模型 “Zero-reference deep curve estimation for low-light image enhancement,” 但是该文章为了避免引入过多噪声,迭代次数较少,增亮程度不够,本文使用了双倍的迭代次数,而因此引入的过量噪声交由Noise Synthesis来拟合,即只需考虑亮度即可。
- 加噪:先将增量后的带噪声图像E(L)进行模糊化(双边滤波),得到一个降噪模糊图像Eblur(L),然后用这样的图像对E(L) --> Eblur(L)训练一个加噪+去模糊模型(用的是pix2pix)。然后同样对正常图像进行模糊化,然后利用上面训练的模型把模糊的正常图像转成带噪声去模糊的图像D(H)。
- 颜色偏移:统计E(L)的亮度、对比度、饱和度、色调后,将D(H)的图像调整转化到E(L)的区间内。
Multi-Task High-Level Adaptation
- High-Level上是希望将D(H),H和E(L)的特征进行adaptation,拉近距离。
- 其中之一是利用 “Domain generalization by solving jigsaw puzzles,” 中所提方法,拉近E(L)与H的语义特征距离。
- H和D(H)的距离拉近我看不懂,用的是一个叫contrastive learning的东西
- 同时还用了contrastive learning来增强E(L)的特征,我也不是很懂
- 最终的high level loss如下:包括上述的loss和目标检测的loss: