论文阅读＜TogetherNet:Bridging Image Restoration and Object Detection Together via Dynamic Enhancement L＞

yrhzmu

已于 2023-12-23 12:26:38 修改

阅读量1.1k

点赞数 13

分类专栏：目标检测文章标签：论文阅读 yolo

于 2023-12-22 16:37:16 首次发布

本文链接：https://blog.csdn.net/yrhzmu/article/details/135139662

版权

目标检测专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/2209.01373.pdf

代码链接：GitHub - yz-wang/TogetherNet: Code for TogetherNet: Bridging Image Restoration and Object Detection Together via Dynamic Enhancement Learning

在正常光照下训练好的detector，在雨雪雾等天气下的图片上进行检测性能会急剧下降，这可以用天气变化引起了图像可见度和对比度显著下降进而降低了目标检测器性能解释。虽然现有的去雾方法作为预处理步骤可以视觉上一定程度实现去雾，但是作为预处理步骤进行去雾后损失了图像大量的细节，未必有益于下游检测任务。这篇文章的主要思路就是基于检测任务进行图像增强，通过动态增强学习把这两个子任务连接起来。

Abstract

Motivation

Method

3.1 Overview of Togethernet

3.2 Restoration Network

3.3 Dynamic Transformer Feature Enhancement Module

Experiment

4.1 Dataset

4.3 Comparison with State-of-the-arts

4.7 Limations

Abstract

雾霾、雨、雪等恶劣天气条件往往会降低采集图像的质量，导致在正常图像上训练的检测网络在这些场景中泛化性较差。在本文中，我们提出了一个有趣的问题- -如果将图像复原和目标检测相结合，可以提高尖端检测器在恶劣天气条件下的性能。为了回答这个问题，我们提出了一个有效但统一的检测范式，通过动态增强学习将这两个子任务连接起来，以识别不利天气条件下的物体，称为"联合网络"。与现有的直接将图像去雾/去雨作为预处理步骤的工作不同，我们考虑了多任务联合学习问题。

Motivation

如果简单把图像去雾网络和检测网络级联连接，会增加计算开销，降低推理时间，这在资源受限的应用中是不可取的，通过动态增强学习把这两个子任务连接起来，以端到端的方式训练联合网络，同时学习图像恢复和目标检测。这样就可以恢复隐藏在退化图像中的潜在信息，从而有利于检测任务；反之，检测任务的训练有助于backbone提取更深层的结构和细节特征，从而有利于图像恢复任务。

Method

3.1 Overview of Togethernet

下图描述了提出的同网络的总体框架，和现有的检测工作不同，考虑从以下3个方面克服检测任务：1）我们使用图像复原模块来减轻天气特定信息对检测任务的影响。2）开发了多任务联合学习范式，鼓励低级的图像复原和高级的目标检测任务相互协作，相互促进。3）利用特征增强模块提高模型的特征提取能力和表征能力，使得更多的潜在特征能够从退化图像中显现出来。

DTFE是一种新颖的特征增强模块，通过自适应形状来扩大感受野，增强模型的特征表示能力，以进行更好地检测和图像复原，之后把提取到的特征同时传输给复原模块和neck模块，从而去执行不同的任务。通过这样的方式，可以从联合学习框架中收益，其中恢复模块产生的干净特征可以共享，从而再检测网络中学习更好的目标检测能力。此外引入了self-calibrated convolution和focal loss。

注意，本文的工作主要在训练阶段激活图像恢复模块，测试时没有使用，这样可以保持原有的算法推理速度。

3.2 Restoration Network

使用backbone来提取隐藏在输入图像中的复杂和潜在的特征，以便同时学习图像恢复和目标检测。backbone提取到的特征可能会被天气特有的信息影响。如上图所示，为了恢复干净的图像特征，采用了个反卷积、一个上采样操作和一个Tanh激活函数来产生最终的干净图像，还采用跳跃连接避免梯度消失。

使用MSE损失来估计预测出的图像和Ground Truth Image差别，使用更复杂的网络架构或损失函数能够增强当前模型的去雾性能，但是这里倾向于使用简单的基于CNN的网络和MSE损失来实现更好的参数和性能的权衡。

为了更好地理解所提出的恢复网络的有效性，我们对主干模块(有/没有恢复损失)中最后一层的特征进行了可视化。如图3所示，具有恢复损失的特征在一定程度上缓解了天气信息对它们的影响，并且仍然能够聚焦于包含对象(见图3中红色区域)的区域，从而能够更好地执行检测任务。

3.3 Dynamic Transformer Feature Enhancement Module

网络的特征提取能力和表征能力直接决定了模型的性能，有两种方法可以减少恶劣天气退化对检测任务的影响：1）扩大网络的感受野，帮助模型融合更多的空间结构信息；2）增强网络的特征提取能力，使物体可以从这些能见度较差的区域中检测出来。设计了Dynamic Transformer Feature Enhancement(DTFE)以提高模型的特征提取和表示能力，以便更好地进行图像恢复和目标检测。

DTFE由动态特征变换网络(DFT)和基于Transformer的特征增强网络(TFE)组成。DFT使用两个可变形卷积(Deformable convolutions)使网络能够以自适应的形状扩大模型的感受野，提高模型的变换能力。TFE使用Vison Transformer Block去探索自注意力机制在提升模型特征表示能力方面的潜能。

DFT使用Deformable convolutions扩大感受野，提高模型的变换能力，更关注受天气特定信息影响较小的区域，从而减少了天气退化对检测精度的影响。TFE引入了VIT模块它使主干网络能够在输入特征之间建立复杂的、长距离的空间依赖关系，从而提高了我们的联合网络的检测能力。

3.4 Self-calibrated Convolutions

Self-calibrated convolutions 可以在每个空间位置周围构建长距离空间和通道间依赖关系，因此，可以扩大每个卷积层的感受野，增强卷积神经网络的特征提取能力。有鉴于此，我们考虑采用自校准卷积网络作为多尺度特征提取模块，以应对检测任务中的天气退化问题，并提高协同卷积网络的检测性能。下图是 Self-calibrated convolutions的网络结构，给定输入通道数为C的输入X，把其划分为通道数为 $C/2$ 的特征 $X_{1}$ 和 $X_{2}$ 。 $X_{1}$ 送入Self-calibrated 分支进行特征变换和融合。在这个分支中，有三个用于提取特征的filter( $K_{2},K_{3},K_{4}$ )，最终得到输出 $Y_{2}$ ， $X_{1}$ 得到输出 $Y_{1}$ ，拼接 $Y_{1}$ 和 $Y_{2}$ 得到最终的输出Y。在YOLO的三个解耦头不前方使用Self-calibrated convolutions以扩大卷积层的感受野，并提取多尺度特征，以更好地进行目标检测(见图2)。通过这种方式，我们的协同网络可以很好地应对在恶劣天气条件下识别对象的挑战。

总损失如下，λ取值为5，

$L_{Total}=L_{de}+L_{re}$

$L_{de}=\lambda L_{IoU}+L_{Cls}+L_{Focal}$

Experiment

4.1 Dataset

基于VOC构建了VOC-FOG，使用大气散射模型对图像添加雾。测试数据集包括一个合成的(VOC-FOG-test)和两个真实的(Foggy Driving dataset and RTTS)。

VOC-FOG-test包含VOC数据集中由干净图像合成的2129幅有雾图像。与上述VOC - FOG训练集不同的是，为了进一步验证本文提出的协同网络的泛化能力，我们将大气散射参数β设置为更大范围来模拟极端雾天气情况。具体来说，β的值随机设置在0.05到0.14之间，以适应不同的雾水平。

Foggy Driving dataset是一个用于目标检测和语义分割的真实世界的雾天数据集。该方法涉及466个车辆实例(即小汽车、公共汽车、火车、卡车、自行车和摩托车)和269个人体实例(即人和骑车人)，它们从101张真实雾天图像中标注。进一步地，虽然雾天驾驶数据集中有8个标注的目标类，但为了保证训练和测试的一致性，我们只选取上述5个目标类进行检测。

RTTS是一个在自然雾天条件下可用的相对全面的数据集，该数据集包括4322张真实世界的雾天图像，具有五个注释的对象类。考虑到现实世界中模糊/干净的图像对难以甚至无法捕捉，Li等人提出了RTTS数据集，从任务驱动的角度评估去雾算法在现实场景中的泛化能力。

4.3 Comparison with State-of-the-arts

4.7 Limations

尽管在合成数据集和真实雾天数据集上，我们的模型都取得了令人鼓舞的结果，但是对于雾天严重的场景，我们的模型并不十分稳健。我们在图9中提供了两个典型的失效案例。可以看出，强浓雾降低了各种目标探测器的性能。即使是人类也很难辨别出这些具有挑战性的图像中的物体。这种局限性可以通过在我们的网络中引入更有效的特征增强模块来解决。在不久的将来，我们将努力解决这一局限。