论文阅读 Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

Re-赟

已于 2023-07-19 11:20:12 修改

阅读量375

点赞数

文章标签：论文阅读目标检测人工智能

于 2023-07-05 15:16:59 首次发布

本文链接：https://blog.csdn.net/weixin_45935290/article/details/131540739

版权

本文提出了一种新的面向对象检测方法，针对航空图像中任意方向的对象。通过检测中心关键点和边界感知向量（BBAVectors），解决了基于锚点检测器的不平衡问题。实验表明，这种方法在捕获定向边界框方面优于直接学习宽度、高度和角度的方法。

摘要由CSDN通过智能技术生成

文章目录

- Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors

Abstract

航空图像中的面向对象检测是一项具有挑战性的任务，因为航空图像中的对象以任意方向显示，并且通常密集堆积。当前的面向对象检测方法主要依赖于两阶段的基于锚点的检测器。然而，基于锚点的检测器通常在正负锚框之间存在严重的不平衡问题。

为此，我们首先检测对象的中心关键点，然后基于这些关键点回归边界感知向量（BBAVectors），边界感知向量在笛卡尔坐标系的四个象限中分布，适用于任意方向的对象。实验证明，学习边界感知向量优于直接预测面向边界框的宽度、高度和角度。

1. INTRODUCTION

在航空图像中检测对象是一项具有挑战性的任务，因为对象通常具有不同的尺度和纹理，并且背景复杂。此外，对象通常密集堆积并以任意方向显示。

当前的oriented object detection方法主要源自于两阶段 anchor-based的检测器。值得注意的是，它们使用中心点、宽度、高度和角度来描述面向边界框。角度参数可以在第一阶段或第二阶段学习。这些oriented object detection方法与anchor-based的检测器存在相同的缺点。例如，锚框的设计复杂；需要仔细调整锚框的宽高比和大小。此外，正负锚框之间的极端不平衡会导致训练缓慢。

最近，基于keypoint-based的检测器已经被开发出来，以克服上述缺点。具体而言，这些方法检测边界框的角点（corner points），然后通过比较点的嵌入距离（embedding distances）或中心距离（center distances）来分组这些点。但其中一个弱点是分组过程耗时。为了解决这个问题，CenterNet 建议直接检测对象的中心并回归边界框的宽度（w）和高度（h），以实现更快的速度和可比较的准确性。

在本文中，我们不是在中心点回归w、h和θ，而是学习边界感知向量（BBAVectors），我们的贡献如下：

我们提出了边界感知向量（BBAVectors）来描述边界框（OBB），边界感知向量在同一个笛卡尔坐标系中测量所有任意定向的对象
我们将基于center keypoint-based的检测器扩展到oriented object detection任务中

2. RELATED WORK

略过

3. Method

3.1 Architecture

在这里插入图片描述

我们使用ResNet101 Conv1-5 作为骨干网络，在骨干网络的顶部，我们对特征图进行上采样，并输出一个比输入图像小4倍的特征图。

在上采样过程中，首先通过双线性插值将深层上采样到与浅层相同的大小。上采样特征图通过一个3×3卷积层进行精化。然后将精化的特征图与浅层连接，接着通过一个1×1卷积层来精化特征。

设输入的RGB图像是3×H×W，其中H和W分别是图像的高度和宽度。输出的特征图C× H/s × W/s（本文中C = 256）然后被转换为四个分支，heatmap（K× H/s × W/s）、offset（2× H/s × W/s）、box parameter（10× H/s × W/s）和orientation map（1× H/s × W/s），其中K是数据集类别数，s = 4表示尺度。

3.2 Heatmap

热图通常用于定位输入图像中的特定关键点，我们使用热图来检测航空图像中任意oriented objects的center points，具体而言，本工作中使用的热图K× H/s × W/s 具有K个通道，每个通道对应一个对象类别，每个通道经过一个sigmoid函数，特定中心点处预测的热图值被视为object detection的置信度。

Groundtruth 假设c = (cx, cy)是obb的中心点，每个c周围放置一个2D高斯分布来形成groundtruth热图，其中σ是一个自适应于边界框大小的标准差，点pˆ = (px, py)用来索引Pˆ上的像素点。
在这里插入图片描述
Training Loss在训练热图时，只有中心点c被视为正样本，而包括高斯波峰中的点在内的其他点都被视为负样本，由于正负样本之间的不平衡问题，直接学习正样本中心点将会很困难。为了解决这个问题，我们减少了高斯波峰内部点的惩罚，并使用变种的focal loss来训练热图：
在这里插入图片描述
其中，pˆ 和 p 分别表示真实值和预测值的热图数值，i表示特征图上的像素位置，N表示对象的数量，α和β是控制每个点贡献度的超参数。我们经验性地选择 α = 2 和 β = 4。

3.3. Offset

在 inference 阶段，从预测的热图P中提取 peak points作为对象的中心点位置。这些中心点c是整数值。然而，将一个点从输入图像缩放到输出热图会生成一个浮点数。为了补偿量化的浮点中心点与整数中心点之间的差异，我们预测了一个偏移矩阵。给定输入图像上的真实中心点c= (cx, cy)，缩放后的浮点中心点与量化中心点之间的偏移量为：

在这里插入图片描述

3.4. Box Parameters

为了捕捉obb，种自然且直接的方法是从中心点检测OBB的宽度w、高度h和角度θ，我们将这种基准方法称为Center+wh+θ。

在这里插入图片描述

该方法存在几个缺点。首先，在训练中，角度变化较小对总损失的影响很小，但可能导致预测框与真实框之间的IOU差异较大。其次，对于每个对象，其OBB的宽度w和高度h在一个以y轴为基准的旋转坐标系中测量。因此，对网络来说，同时学习所有对象的框参数是具有挑战性的。

本文中，我们提出使用BBAVectors来描述OBB。BBAVectors包含来自对象中心点的顶部t、右侧r、底部b和左侧l向量。在我们的设计中，这四种类型的向量分布在笛卡尔坐标系的四个象限中。所有任意方向的对象共享相同的坐标系，这有助于传递相互信息。我们有意设计了四个向量，而不是两个向量（即t和b，或r和l），以便在某些局部特征模糊和较弱时能够共享更多的相互信息。

box parameters被定义为b = [t, r, b, l, we, he]，其中t、r、b、l是BBAVectors，we和he是OBB的外部水平框大小，we和he的详细信息在第3.5节中解释。总之，box parameters B ∈ 10× H/s × W/s 具有10个通道，其中包括2 × 4向量和2个external size parameters。我们还使用平滑的L1损失来回归中心点的框参数：
在这里插入图片描述

3.5. Orientation

在实际应用中，我们观察到当物体几乎与xy轴对齐时，检测会失败。原因是在象限的边界上，向量的类型很难区分，为了解决这个问题，在这项工作中我们将OBB分为两个类别并分别处理。具体而言，这两种类型的框是HBB和RBB，其中RBB包括除水平框以外的所有旋转框。这种分类策略的好处在于将角落情况转化为水平情况，这样可以更容易地处理。当网络遇到corner cases时，we和he可以帮助网络捕捉到精确的OBB。

我们将方向图定义为α 1× H/s × W/s。最终的输出图经过sigmoid函数处理。为了创建方向类别α的ground-truth，我们定义：
在这里插入图片描述
方向类别使用二元交叉熵损失进行训练：

4. Experiments

略过部分

4.2. Implementation Details

在训练和测试阶段，我们将输入图像调整为 608 × 608 的大小，从而得到输出分辨率为 152 × 152。骨干网络的权重是在ImageNet数据集上进行预训练的。其他权重在PyTorch的默认设置下进行初始化。在训练过程中，我们对图像采用标准的数据增强方法，包括随机翻转和在尺度范围[0.9, 1.1]内进行随机裁剪。我们使用Adam优化器[8]，初始学习率为1.25 × 10^(-4)，优化总损失L = Lh + Lo + Lb + Lα。我们在DOTA数据集上进行了大约40个epoch的训练，在HRSC2016数据集上进行了100个epoch的训练。

4.3. Testing Details

为了提取中心点，我们通过一个3x3的最大池化层对输出的heatmaps应用非最大抑制（NMS）。我们从heatmaps图中选择排名前500的中心点，并获取每个中心点（c）处的offsets（o）、box parameters（b）和 orientation class（α）。heatmaps的值被用作检测的置信度得分。

首先，我们通过添加偏移量来调整中心点的位置：c˜ = c + o。然后，我们通过缩放因子s = 4将获得的整数中心点重新映射到heatmaps上，得到缩放后的中心点c¯ = sc˜ 。如果α > 0.5，则表示得到旋转边界框（RBB），否则得到水平边界框（HBB）。我们使用边界框的左上角（tl）、右上角（tr）、右下角（br）和左下角（bl）作为最终解码的点。具体而言，对于一个中心点c¯，解码的RBB点如下计算：
在这里插入图片描述

对于HBB：
在这里插入图片描述

5. Conclusion

In this paper, we propose a new oriented object detection method based on box boundary-aware vectors and center points detection. The proposed method is single-stage and is free of anchor boxes. The proposed box boundary-aware vectors perform better in capturing the oriented bounding boxes than the baseline method that directly learns the width, height, and angle of the oriented bounding box. The results on the HRSC2016 and DOTA datasets demonstrate the superiority of the proposed method over the state-of-thearts.