CornerNet-Lite: Efficient Keypoint-Based Object Detection 论文笔记

CornerNet-Lite: Efficient Keypoint-Based Object Detection

论文链接: https://arxiv.org/abs/1904.08900

一、 Problem Statement

CornerNet的推理速度太慢,提升CornerNet效率。

二、 Direction

  1. reducing the number of pixels processed --减少处理的像素数量
  2. reducing the amount of processing per pixel-- 减少每个像素的处理量

根据上面两个方向,提出了两个CornerNet:

  1. CornerNet-Saccade
  2. CornerNet-Squeeze

三、 Method

先来看一下网络框架:

1. CornerNet-Saccade

CornerNet-Saccade的第一部分类似于region proposal,在图片上获取可能的目标位置。第二部分继续进行检测。首先它会把原图resize到长边为255,短边为192。然后短边192进行padding到255。使用downsized image的两个理由:

  • 这一部分不应该成为推理速度的瓶颈。
  • 这一部分应该容易利用环境信息来预测attention maps。
(1). Generating object location

怎么样生成目标位置呢。也就是输入downsized image,如生生成attention maps。

CornerNet-Saccade会生成三个attention maps,分别对应小,中,大目标。bounding box的长边少于32个像素,则认为是小目标。32-96个像素则认为是中目标,大于96个像素,则认为是大目标。分别预测不同物体大小的位置可以让CornerNet-Saccade更好地控制每个位置的应该放大多少。作者利用feature maps在不同尺度上预测注意图。feature maps来自于第一个hourglass network backbone 的upsampling layers。 这一部分会生成目标的位置,然后进行排序,取前top-k个边框。

(2). Detecting Objects

给定了top-k个location proposals,如果直接从downsized image中裁剪目标,小目标可能很难检测的精准。因此,作者进行了扩大,按照 s s = 4 , s m = 2 , s l = 1 s_s=4, s_m=2, s_l=1 ss=4,sm=2,sl=1的比例。在每一个可能的位置 ( x , y ) (x,y) (x,y),作者按照上面的比例扩大downsided image,扩大后的downsided image映射回原输入图,以 ( x , y ) (x,y) (x,y)为中心点,截取255x255大小的区域。这些区域作为接下来两个hourglass network的输入,得到最终预测的精确的边框坐标。这些bounding boxes会用soft-NMS进行处理,移除冗余的Bounding boxes,得到最终的结果。

(3). Backbone

新的Backbone 是Hourglass-54,包括三个hourglass modules,深度为54。而之前CornerNet只有2 hourglass modules,深度为104。第一个hourglass network 用来生成proposals和attention maps,后面两个和CornerNet一样,用来做检测。

2. CornerNet-Squeeze

减少每个像素的处理量是这个模型的主旨。在CornerNet中,大部分计算都集中在hourglass network-104中,因此作者借鉴了SqueezeNet 和 MobileNets,设计了一个新的backbone。

SqueezeNet提出了三点降低网络复杂度:

  • 使用1x1卷积核代替3x3 卷积核
  • 减少输入3x3卷积核的通道数
  • 降采样延后

在SqueezeNet中提出了fire modules,包含了 squeeze layer和 expand layer。这个module符合前面两点。因此在CornerNet-Squeeze中使用了这个fire module,而不是residual block。

MobileNet中,把3x3的标准卷积改为了3x3深度可分离卷积,提高推理速度。下面是改变的对比图:

上面的第三点,延迟降采样,会导致在上采样的时候有更大分辨率的feature maps,而使用大分辨率的feature maps会使得速度变慢。因此没有采用SqueezeNet的第三点。

作者的做法是:在hourglass模块之前增加了一个下采样层,以此降低hourglass模块特征图的最大分辨率,并且在每个hourglass模块内去掉了一个下采样层。CornerNet-Squeeze 在hourglass模块前相应地将图像尺寸缩小了 3 倍,但是 CornerNet 仅将图像尺寸缩小了 2 倍。在 CornerNet的预测模块中,将 3×3卷积替换为 1×1卷积。最后,将hourglass网络中的nearest neighbor上采样替换为了 4×4卷积核的反卷积 (transpose convolution)。

四、 Conclusion

对CornerNet的一个提升。但不能把它们两个融合在一起,因为:
saccade can only help if the attention maps are sufficiently accurate. Due to its ultra-compact architecture, CornerNetSqueeze-Saccade does not have enough capacity to detect objects and predict attention maps simultaneously. Furthermore, CornerNet-Squeeze only operates on single scale images, which provides much less room for CornerNet-Squeeze-Saccade to save. CornerNetSqueeze-Saccade may process more number of pixels than CornerNet-Squeeze, slowing down the inference time.

五、 Reference

  1. https://blog.csdn.net/qq_38109843/article/details/90898710
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值