SCRDet++ Detection for Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising and Rotation Loss Smoothing
论文地址:https://arxiv.org/abs/2004.13316
文章目录
摘要
目标检测已经成为计算机视觉的组成部分。虽然已经取得了相当大的进展,但是对于尺寸小、方向任意、分布密集的物体仍然存在挑战。除了自然图像之外,这些问题对于非常重要的航空图像尤其突出。
本文提出了一种适用于小而杂乱和旋转物体的多类别旋转检测器—— SCRDet++。具体而言,针对小目标问题,设计了一个采样融合网络(sf-net),融合多层特征和有效的锚定采样,以提高对小目标的敏感性。噪声背景(小而杂乱):建立一个有监督的多维注意网络(mda-net) ,该网络由像素注意网络和信道注意网络组成,用于抑制噪声和突出前景。旋转估计:在Smooth L1损失的基础上增加了一个新的IoU常数因子来解决这个长期存在的边界问题。
数据集:大型航空影像:dota、 nwpu vhr-10 自然图像数据集 coco、 voc2007 场景文本数据库ICDAR2015
创新点
- 将去噪思想引入到目标检测中。在目标检测的情况下提出了实例级噪声的概念,并在feature map中设计新颖的实例级降噪(InLD)模块。这是通过有监督分割来实现的。该模型有效地解决了检测尺寸小、方向任意、分布密集目标时计算量小、参数增加少的问题。
- 针对任意旋转物体的鲁棒处理,通过增加IoU常数因子,设计了改进的Smooth L1损失,该常数因子专门用于解决旋转边界盒回归的边界问题。
- 创建并发布一个真实世界的交通灯数据集:S2TLD。它包含5786张图片,14130个交通灯实例,分为五个类别:红、绿、黄、关和等待。它进一步验证了InLD的有效性。数据集地址:https://github.com/Thinklab-SJTU/S2TLD
SCRDet主要的四个模块
一、SF-Net
二、MAD-Net
三、InLD
为了消除实例级噪声,一般可以参考注意力机制的思想,将其作为卷积响应映射重新加权的一种常用方法,以突出重要部分,并抑制非信息性部分。关键是将不同目标类别的特征分离到各自的通道中,同时在空间域中分别增强和减弱物体和背景的特征。因此,我们的新公式如下所示,其中考虑了对象类别的总数 I,并为背景增加了一个类别:
Y
=
D
I
n
L
D
(
X
)
⊙
X
=
W
I
n
L
D
⊙
X
=
⋃
i
=
1
I
+
1
W
I
n
L
D
i
⊙
X
i
=
⋃
i
=
1
I
+
1
⋃
j
=
1
C
i
w
j
i
⊙
x
j
i
\begin{aligned} \mathbf{Y} &=\mathcal{D}_{I n L D}(\mathbf{X}) \odot \mathbf{X} \\ &=\mathbf{W}_{I n L D} \odot \mathbf{X} \\ &=\bigcup_{i=1}^{I+1} \mathbf{W}_{I n L D}^{i} \odot \mathbf{X}^{i} \\ &=\bigcup_{i=1}^{I+1} \bigcup_{j=1}^{C_{i}} \mathbf{w}_{j}^{i} \odot \mathbf{x}_{j}^{i} \end{aligned}
Y=DInLD(X)⊙X=WInLD⊙X=i=1⋃I+1WInLDi⊙Xi=i=1⋃I+1j=1⋃Ciwji⊙xji
Y
=
D
InLD
(
X
)
⊙
X
=
⋃
i
=
1
I
+
1
A
i
(
X
i
)
⊙
X
i
\begin{aligned} \mathbf{Y} &=\mathcal{D}_{\operatorname{InLD}}(\mathbf{X}) \odot \mathbf{X} \\ &=\bigcup_{i=1}^{I+1} \mathcal{A}^{i}\left(\mathbf{X}^{i}\right) \odot \mathbf{X}^{i} \end{aligned}
Y=DInLD(X)⊙X=i=1⋃I+1Ai(Xi)⊙Xi
在不失一般性的前提下,考虑一个包含属于第一个
I
0
(
I
0
≤
I
)
I_{0}\left(I_{0} \leq I\right)
I0(I0≤I)类别的对象的图像。在本文中,我们目的是将上述公式分解为相互连接的三个部分
对于背景和图像中不可见的类别,理想情况下,通过我们设计的降噪模块将响应过滤得尽可能小。从这个角度来看,Eq.4可以进一步解释为Eq.5:
四、IoU-Smooth L1 Loss
边界框的回归公式为:
SCRDet是采用的opencv 表示法。在当前常用的旋转检测框的角度定义下,由于存在旋转角度的边界问题,会产生不必要的损失,如下图所示:
最理想的角度回归路线是由蓝色框逆时针旋转到红色框,但由于角度的周期性,导致按照这个回归方式的损失非常大(参见上图右边的Example)。此时模型必须以更复杂的形式回归(例如蓝色框顺时针旋转,同时缩放w和h),增加了回归的难度。为了更好地解决这个问题,我们在传统的smooth L1 损失函数中引入了IoU常数因子。在边界情况下,新的损失函数近似等于0,消除了损失的突增。新的回归损失可分为两部分,smooth L1回归损失函数取单位向量确定梯度传播的方向,而IoU表示梯度的大小,这样loss函数就变得连续。此外,使用IoU优化回归任务与评估方法的度量标准保持一致,这比坐标回归更直接和有效。IoU-Smooth L1 loss公式如下:
总结
- 提出实例级去噪的概念,并特征图中设计实例级去噪模块。
- 提出了一种改进SmoothL1损失,更好地解决任意旋转目标的鲁棒性。
- 创建并发布一个真实的交通灯数据集:S2TLD。这是由5786张图片和14130个红绿灯实例组成,涵盖了红、绿、黄、关、等5个类别。
- InLD模块可以容易嵌入到现在架构中,改进不同任务的检测。
相关学习引用地址:
https://blog.csdn.net/mary_0830/article/details/105993398
https://blog.csdn.net/dujuancao11/article/details/121590324
https://blog.csdn.net/qq_45782891/article/details/106340058
作者解读