CornerNet-Lite: Efficient Keypoint-Based Object Detection 论文笔记

最新推荐文章于 2021-10-25 15:09:54 发布

Tianchao龙虾

最新推荐文章于 2021-10-25 15:09:54 发布

阅读量167

点赞数

分类专栏： 2D目标检测论文笔记文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/118055260

版权

2D目标检测论文笔记专栏收录该内容

19 篇文章 5 订阅

订阅专栏

CornerNet-Lite: Efficient Keypoint-Based Object Detection

论文链接： https://arxiv.org/abs/1904.08900

一、 Problem Statement

CornerNet的推理速度太慢，提升CornerNet效率。

二、 Direction

reducing the number of pixels processed --减少处理的像素数量
reducing the amount of processing per pixel-- 减少每个像素的处理量

根据上面两个方向，提出了两个CornerNet:

CornerNet-Saccade
CornerNet-Squeeze

三、 Method

先来看一下网络框架:

1. CornerNet-Saccade

CornerNet-Saccade的第一部分类似于region proposal，在图片上获取可能的目标位置。第二部分继续进行检测。首先它会把原图resize到长边为255,短边为192。然后短边192进行padding到255。使用downsized image的两个理由:

这一部分不应该成为推理速度的瓶颈。
这一部分应该容易利用环境信息来预测attention maps。

(1). Generating object location

怎么样生成目标位置呢。也就是输入downsized image，如生生成attention maps。

CornerNet-Saccade会生成三个attention maps，分别对应小，中，大目标。bounding box的长边少于32个像素，则认为是小目标。32-96个像素则认为是中目标，大于96个像素，则认为是大目标。分别预测不同物体大小的位置可以让CornerNet-Saccade更好地控制每个位置的应该放大多少。作者利用feature maps在不同尺度上预测注意图。feature maps来自于第一个hourglass network backbone 的upsampling layers。 这一部分会生成目标的位置，然后进行排序，取前top-k个边框。

(2). Detecting Objects

给定了top-k个location proposals，如果直接从downsized image中裁剪目标，小目标可能很难检测的精准。因此，作者进行了扩大，按照 $s_s=4, s_m=2, s_l=1$ 的比例。在每一个可能的位置 $(x, y)$ ，作者按照上面的比例扩大downsided image,扩大后的downsided image映射回原输入图，以 $(x, y)$ 为中心点，截取255x255大小的区域。这些区域作为接下来两个hourglass network的输入，得到最终预测的精确的边框坐标。这些bounding boxes会用soft-NMS进行处理，移除冗余的Bounding boxes，得到最终的结果。

(3). Backbone

新的Backbone 是Hourglass-54，包括三个hourglass modules，深度为54。而之前CornerNet只有2 hourglass modules，深度为104。第一个hourglass network 用来生成proposals和attention maps，后面两个和CornerNet一样，用来做检测。

2. CornerNet-Squeeze

减少每个像素的处理量是这个模型的主旨。在CornerNet中，大部分计算都集中在hourglass network-104中，因此作者借鉴了SqueezeNet 和 MobileNets，设计了一个新的backbone。

SqueezeNet提出了三点降低网络复杂度:

使用1x1卷积核代替3x3 卷积核
减少输入3x3卷积核的通道数
降采样延后

在SqueezeNet中提出了fire modules，包含了 squeeze layer和 expand layer。这个module符合前面两点。因此在CornerNet-Squeeze中使用了这个fire module，而不是residual block。

MobileNet中，把3x3的标准卷积改为了3x3深度可分离卷积，提高推理速度。下面是改变的对比图:

上面的第三点，延迟降采样，会导致在上采样的时候有更大分辨率的feature maps，而使用大分辨率的feature maps会使得速度变慢。因此没有采用SqueezeNet的第三点。

作者的做法是:在hourglass模块之前增加了一个下采样层，以此降低hourglass模块特征图的最大分辨率，并且在每个hourglass模块内去掉了一个下采样层。CornerNet-Squeeze 在hourglass模块前相应地将图像尺寸缩小了 3 倍，但是 CornerNet 仅将图像尺寸缩小了 2 倍。在 CornerNet的预测模块中，将 3×3卷积替换为 1×1卷积。最后，将hourglass网络中的nearest neighbor上采样替换为了 4×4卷积核的反卷积 (transpose convolution)。

四、 Conclusion

对CornerNet的一个提升。但不能把它们两个融合在一起，因为:
saccade can only help if the attention maps are sufficiently accurate. Due to its ultra-compact architecture, CornerNetSqueeze-Saccade does not have enough capacity to detect objects and predict attention maps simultaneously. Furthermore, CornerNet-Squeeze only operates on single scale images, which provides much less room for CornerNet-Squeeze-Saccade to save. CornerNetSqueeze-Saccade may process more number of pixels than CornerNet-Squeeze, slowing down the inference time.

五、 Reference

https://blog.csdn.net/qq_38109843/article/details/90898710

Tianchao龙虾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CornerNet-Lite: Efficient Keypoint-Based Object Detection 论文笔记

CornerNet-Lite: Efficient Keypoint-Based Object Detection论文链接： https://arxiv.org/abs/1904.08900一、 Problem StatementCornerNet的推理速度太慢，提升CornerNet效率。二、 Directionreducing the number of pixels processed --减少处理的像素数量reducing the amount of processing per p
复制链接

扫一扫

专栏目录