SCRDet++

SCRDet++ Detection for Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising and Rotation Loss Smoothing

论文地址:https://arxiv.org/abs/2004.13316

代码:https://github.com/Thinklab-SJTU/R3Det_Tensorflow

项目页面:https://yangxue0827.github.io/SCRDet++.html


摘要

目标检测已经成为计算机视觉的组成部分。虽然已经取得了相当大的进展,但是对于尺寸小、方向任意、分布密集的物体仍然存在挑战。除了自然图像之外,这些问题对于非常重要的航空图像尤其突出。
本文提出了一种适用于小而杂乱和旋转物体的多类别旋转检测器—— SCRDet++。具体而言,针对小目标问题,设计了一个采样融合网络(sf-net),融合多层特征和有效的锚定采样,以提高对小目标的敏感性。噪声背景(小而杂乱):建立一个有监督的多维注意网络(mda-net) ,该网络由像素注意网络和信道注意网络组成,用于抑制噪声和突出前景。旋转估计:在Smooth L1损失的基础上增加了一个新的IoU常数因子来解决这个长期存在的边界问题。
数据集:大型航空影像:dota、 nwpu vhr-10 自然图像数据集 coco、 voc2007 场景文本数据库ICDAR2015
在这里插入图片描述


创新点

  1. 将去噪思想引入到目标检测中。在目标检测的情况下提出了实例级噪声的概念,并在feature map中设计新颖的实例级降噪(InLD)模块。这是通过有监督分割来实现的。该模型有效地解决了检测尺寸小、方向任意、分布密集目标时计算量小、参数增加少的问题。
  2. 针对任意旋转物体的鲁棒处理,通过增加IoU常数因子,设计了改进的Smooth L1损失,该常数因子专门用于解决旋转边界盒回归的边界问题。
  3. 创建并发布一个真实世界的交通灯数据集:S2TLD。它包含5786张图片,14130个交通灯实例,分为五个类别:红、绿、黄、关和等待。它进一步验证了InLD的有效性。数据集地址:https://github.com/Thinklab-SJTU/S2TLD

SCRDet主要的四个模块

在这里插入图片描述

一、SF-Net

在这里插入图片描述

二、MAD-Net

在这里插入图片描述
在这里插入图片描述


三、InLD

为了消除实例级噪声,一般可以参考注意力机制的思想,将其作为卷积响应映射重新加权的一种常用方法,以突出重要部分,并抑制非信息性部分。关键是将不同目标类别的特征分离到各自的通道中,同时在空间域中分别增强和减弱物体和背景的特征。因此,我们的新公式如下所示,其中考虑了对象类别的总数 I,并为背景增加了一个类别:
Y = D I n L D ( X ) ⊙ X = W I n L D ⊙ X = ⋃ i = 1 I + 1 W I n L D i ⊙ X i = ⋃ i = 1 I + 1 ⋃ j = 1 C i w j i ⊙ x j i \begin{aligned} \mathbf{Y} &=\mathcal{D}_{I n L D}(\mathbf{X}) \odot \mathbf{X} \\ &=\mathbf{W}_{I n L D} \odot \mathbf{X} \\ &=\bigcup_{i=1}^{I+1} \mathbf{W}_{I n L D}^{i} \odot \mathbf{X}^{i} \\ &=\bigcup_{i=1}^{I+1} \bigcup_{j=1}^{C_{i}} \mathbf{w}_{j}^{i} \odot \mathbf{x}_{j}^{i} \end{aligned} Y=DInLD(X)X=WInLDX=i=1I+1WInLDiXi=i=1I+1j=1Ciwjixji
在这里插入图片描述
在这里插入图片描述
Y = D InLD ⁡ ( X ) ⊙ X = ⋃ i = 1 I + 1 A i ( X i ) ⊙ X i \begin{aligned} \mathbf{Y} &=\mathcal{D}_{\operatorname{InLD}}(\mathbf{X}) \odot \mathbf{X} \\ &=\bigcup_{i=1}^{I+1} \mathcal{A}^{i}\left(\mathbf{X}^{i}\right) \odot \mathbf{X}^{i} \end{aligned} Y=DInLD(X)X=i=1I+1Ai(Xi)Xi
在不失一般性的前提下,考虑一个包含属于第一个 I 0 ( I 0 ≤ I ) I_{0}\left(I_{0} \leq I\right) I0(I0I)类别的对象的图像。在本文中,我们目的是将上述公式分解为相互连接的三个部分
在这里插入图片描述
对于背景和图像中不可见的类别,理想情况下,通过我们设计的降噪模块将响应过滤得尽可能小。从这个角度来看,Eq.4可以进一步解释为Eq.5:
在这里插入图片描述

四、IoU-Smooth L1 Loss

边界框的回归公式为:
在这里插入图片描述
在这里插入图片描述

SCRDet是采用的opencv 表示法。在当前常用的旋转检测框的角度定义下,由于存在旋转角度的边界问题,会产生不必要的损失,如下图所示:
在这里插入图片描述
最理想的角度回归路线是由蓝色框逆时针旋转到红色框,但由于角度的周期性,导致按照这个回归方式的损失非常大(参见上图右边的Example)。此时模型必须以更复杂的形式回归(例如蓝色框顺时针旋转,同时缩放w和h),增加了回归的难度。为了更好地解决这个问题,我们在传统的smooth L1 损失函数中引入了IoU常数因子。在边界情况下,新的损失函数近似等于0,消除了损失的突增。新的回归损失可分为两部分,smooth L1回归损失函数取单位向量确定梯度传播的方向,而IoU表示梯度的大小,这样loss函数就变得连续。此外,使用IoU优化回归任务与评估方法的度量标准保持一致,这比坐标回归更直接和有效。IoU-Smooth L1 loss公式如下:
在这里插入图片描述

总结

  1. 提出实例级去噪的概念,并特征图中设计实例级去噪模块。
  2. 提出了一种改进SmoothL1损失,更好地解决任意旋转目标的鲁棒性。
  3. 创建并发布一个真实的交通灯数据集:S2TLD。这是由5786张图片和14130个红绿灯实例组成,涵盖了红、绿、黄、关、等5个类别。
  4. InLD模块可以容易嵌入到现在架构中,改进不同任务的检测。

相关学习引用地址:
https://blog.csdn.net/mary_0830/article/details/105993398
https://blog.csdn.net/dujuancao11/article/details/121590324
https://blog.csdn.net/qq_45782891/article/details/106340058
作者解读

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值