<Trash to Treasure: Low-Light Object Detction via Decomposition-and-Aggeration>论文阅读

Abstract

        低光场景的目标检测在过去几年引起了广泛的关注,一种主流且具有代表性的方案是引入增强子作为常规检测器的预处理。然而,由于增强子和探测子在任务目标上的差异,该范式无法发挥其最佳能力。在这项工作中,我们试图激发enhancer+detector的潜力。与现有的工作不同,我们扩展了基于光照的增强子(我们新设计的或现有的)作为场景分解模块,其去除的光照被用作检测器中的辅助,以提取有利于检测的特征。然后使用语义聚合模块在上下文空间中进一步整合多尺度场景相关的语义信息。实际上,我们构建的方案成功地将"垃圾" (即探测器中被忽略的照度)转化为探测器的"宝藏"。我们进行了大量的实验,以揭示我们相对于其他先进方法的优越性。如果该代码被接受,则该代码将公开。

Introduction

        正常光照下的目标检测已经取得了非常大的成功,而在低光下性能会急剧退化,这种退化可能是由于噪声、低对比度和光照不足等因素造成的,这些因素会降低物体的可见度,使其难以被检测。

Proposed Method

        在这一部分,我们通过分析enhancer和detector潜在的关系提出我们的motivation,然后基于Retinex模型构建了一个感知能力相关的enhancer,最终我们引入了一个聚合模块去增强特征表示。整体流程如图2所示。

Two Key Challenges of Enhancer+Detector

        和在正常光照下的目标检测不同,低光物体检测的主要挑战是可见度差的退化观测严重影响特征提取,导致精度急剧下降。常规的方式撒通过改善视觉质量去生成新的可见效果好的图片。它被广泛应用于 UG2+ 挑战赛(弱光人脸检测的里程碑)诞生的多个冠军解决方案中。其中,实验探索表明,采用视觉质量较差的经典增强器(例如MSRCR(Jobson,Rahman和Woodell 1997))比最新的高级增强器更有效。结论视觉质量越高越有利于检测不能得到满足

        究其原因,一方面,这两个任务有不同的目标,即像素级对人眼视觉友好(增强器)和语义级感知对机器友好(检测器)。换句话说,直接级联模式旨在提高检测精度,增强器旨在迎合视觉质量,而不是检测所需的高质量数据。另一方面,增强器确实改善了视觉质量,但它不可避免地破坏了与自然图像保持相同情况的固有分布,导致增强后的数据与常规捕获的数据(可能是弱光,可能是正常的)保持明显的信息差异。光),这严重限制了特征提取。通过以上分析,我们对enhancer+detector的范式总结出了两个关键挑战:

1、What kind of data acquired from the enhancer is required for the detector in low-light scenes?

2、How to narrow down the information discrepancy between enhanced results and regular data?

        为了解决这两个挑战,接下来,我们构建了一个场景分解模块,使基于 Retinex 的增强器能够超越视觉质量来生成检测所需的数据。然后,我们构建了一个语义聚合模块,以充分利用分解的场景相关特征来减少信息差异。

Scene Decomposition Module

        在这一部分中,通过重新思考检测增强,我们解释了利用移除的照明的必要性。本质上,我们建立了一个场景分解模块来获取分解后的组件。

Rethinking Illumination-based Enhancer

        现有的很多低光图像增强技术是基于Retinex的,L=R\otimes I,其中⊗表示逐元素乘法),该原理描述了低光观察L可以分解为正常光图像R(也称为反射率)和去除的照明I。从这个模型中我们可以发现一个基本事实,即增强结果需要去除弱光观察的光照。这意味着增强后的结果不能保持与原始观测相同的信息容量,并且丢失的内容正是基于信息守恒去除的照明。从这个角度来看,增强器可以放弃照明(只需要聚焦于正常光图像),但应该将其用于检测器,以最大程度地提高信息利用率。

Decomposing Scene for Detection

        如上所述,我们知道移除的照明对于检测至关重要,也就是说,来自弱光观察的两个分解成分对于检测来说同等重要,而不是仅仅关注增强器中单个成分的视觉质量。一般来说,弱光观测反映了包括物体和背景在内的场景信息。执行Retinex理论后,这两个组件仍然包含场景信息。因此,我们将生成两个分解组件的模块称为场景分解模块(SDM)。这里我们为SDM提供了一个简单的设置,它由三个残差块组成,每个残差块包括两个Conv-BN-ReLU层。 1×1卷积层用于在输入和输出时调整特征图的通道数。值得注意的是,我们想强调 SDM 可以通过现有的基于 Retinex 的增强器 2 进行初始化。

Semantic Aggergation Module

        先前的部分通过scene decomposition生成了两个分解组件,下一个问题是如何将它们用于检测器。在这里,我们构建了一个语义聚合模块,由权重共享特征提取器和多尺度特征聚合器组成。

Weights-Sharing Feature Extractor

        先前定义的SDM模块生成了两个分解的组件,虽然它们是基于弱光图像增强的知识获得的,但它们的输出状态应该与检测精度相关。这里采用VGG16作为基本组件,使用weight-sharing backbone网络去提取两个分解后的组件的特征。

Multi-Scale Feature Aggregator

        我们知道,特征金字塔网络(Lin et al. 2017)是检测器常用的结构,它可以提高检测精度,尤其是极小的物体。通过我们上面构建的权重共享特征提取器,我们可以获得上下文空间中的两组多尺度场景相关的语义特征。为了有效地整合它们,我们通过将 Retinex 知识引入特征金字塔网络来定义多尺度特征聚合器。这一过程用公式1表示,3 \leq a \leq7 ,b \in (2,3).F I 和 F R 分别表示特征提取器根据光照和反射率生成的特征。 Fa(b)表示第a个卷积块中的第b个卷积层中生成的特征。我们使用六层特征:F3(3)、F4(3)、F5(3)、F6(2)、F7(2) 和 F8(2)。 (·)↑代表上采样操作。聚合运算被定义为逐元素乘法⊗。这是因为乘法与场景分解中使用的除法完全对应。换句话说,这种方式重建了原始弱光观察中存在的原始场景信息。具体计算流程见图3。

Training Loss

        在训练阶段,我们使用多任务损失函数。

Discussion

        在这一部分中,我们从两个方面进行详细讨论,以深入认识我们提出的方法。

        (1) The illumination is a treasure not trash for the detector. 在表1中进行了大量的实验去进行研究,对比了RUAS、SCI在SSD上的性能。微调后的detector和联合训练方法不能获得好的检测结果,引入检测器照明(即 RUAS++ 和 SCI++)后,这两个增强器的检测精度都实现了显着提升(参见中第三行和最后一行右下角的红色粗体文本)。性能的提升得益于对场景信息的整体表达。总之,实验充分验证了探测器引入照明的必要性。与现有方式相比,我们可以得出这样的结论:“照明对于探测器来说是宝而不是垃圾”。

        (2) Our T2 realizeds the detection-oriented enhancement.在我们设计的算法中,场景分解模块是基于物理知识(即Retinex理论)构建的,用于低光图像增强。尽管我们在训练阶段没有定义与视觉质量相关的损失函数,但该模块仍然隐含着增强图像质量的倾向。为了验证这一点,我们分别展示了低光场景下不同方法(大多数方法来自表1)的分解成分。

Experiments

Implementation Details

        我们使用 DARK FACE 数据集进行实验,该数据集包含在现实环境中捕获的 6000 张低光图像。这些图像的分辨率为 1080×720,包含可变数量的面孔,通常范围从 1 到 20。标记的面孔表现出广泛的尺度,从 1×2 到 335×296。在我们的实验中,我们随机选择了 1000 张图像进行测试,其余图像用于训练。为了评估我们方法的性能,我们采用平均精度(mAP)作为评估指标。

定性分析:我们选择了三个有代表性的场景来展示我们的检测精度和视觉效果。图6展示了DARK FACE数据集上的四组视觉和检测结果比较。我们可以观察到,与这些竞争对手相比,我们的方法具有两个明显的优势。首先,我们的方法可以有效地从光照中提取有效的语义信息进行检测,并实现高精度(例如,每组示例中远处的人)。其次,受益于后续检测的指导,我们的方法可以分解更合适的照明以保持检测性能。相比之下,我们的方法在检测中的噪声干扰较少。因此,通过利用分解和聚合,所提出的方法实际上实现了代表性特征的提取和利用,同时可以提供更好的场景理解。

Evaluation on the ExDark dataset

       选择6626张低光图像进行训练,737张作为验证。 将我们的方法与“增强器+检测器”检测模式进行了比较,该模式将低光图像增强视为一种预处理方法(Ma et al. 2022b)。表2(分数阈值=0.5)报告了特定类别的检测结果。可以很容易地观察到我们的方法明显优于其他方法。此外,图 7 提供了 ExDark 数据集上不同方法之间的视觉比较,我们的方法检测到了更正确的对象并产生了更少的错误。mAP提升到了59.74.

Conclusion

        在这项工作中,我们提出了一种新的低光物体检测器,由场景分解和语义聚合模块组成。我们首先分析了增强器和检测器之间的潜在关系,明确指出了两个关键挑战。然后我们构建了一个场景分解模块来呈现场景特征。提出了一种由权重共享特征提取器和多尺度特征聚合器组成的语义聚合来整合特征空间中的场景信息。最后,进行了大量的实验来揭示我们的优势。

        更广泛的影响。如何有效地表征场景信息是我们设计方法的一个内在诉求。它实际上是各种不利条件的普遍研究焦点。分解图像空间中的场景并聚合特征空间中的场景是我们提出的 T2 的关键措施。这种方式为理解和处理增强子+检测器的模式提供了新的视角,这将重新燃起研究不利条件下检测任务的热情。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值