HyperNet: 走向特征融合，提高小物体检测精度

最新推荐文章于 2024-07-22 18:00:06 发布

心之所向521

最新推荐文章于 2024-07-22 18:00:06 发布

阅读量3.7k

点赞数 11

分类专栏：深度学习算法目标检测走向轻量化文章标签：深度学习计算机视觉 cnn 神经网络人工智能

本文链接：https://blog.csdn.net/weixin_45564943/article/details/121977833

版权

深度学习算法同时被 3 个专栏收录

34 篇文章 9 订阅

订阅专栏

目标检测

17 篇文章 4 订阅

订阅专栏

走向轻量化

6 篇文章 1 订阅

订阅专栏

1.背景：

卷积神经网络的特点是，深层的特征体现了强语义特征，有利于进行分类与识别，而浅层的特征分辨率高，有利于进行目标的定位。原始的Faster RCNN方法仅仅利用了单层的feature map（例如VGGNet的conv5-3），对于小尺度目标的检测较差，同时高IoU阈值时，边框定位的精度也不高。在2016 CVPR上发表的HyperNet方法认为单独一个feature map层的特征不足以覆盖RoI的全部特性，因此提出了一个精心设计的网络结构，融合了浅、中、深3个层次的特征，取长补短，在处理好区域生成的同时，实现了较好的物体检测效果。

论文地址：

HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection (cv-foundation.org)

2.结构图：

核心部分结构图：

HyperNet提出的特征提取网络结构如上图所示，以VGGNet作为基础网络，分别从第1、3、5个卷积组后提取出特征，这3个特征分别对应着浅层、中层与深层的信息。然后，对浅层的特征进行最大值池化，对深层的特征进行反卷积，使得二者的分辨率都为原图大小的1/4，与中层的分辨率相同，方便进行融合。得到3个特征图后，再接一个5×5的卷积以减少特征通道数，得到通道数为42的特征。在三层的特征融合前，需要先经过一个LRN（Local Response Normalization）处理，LRN层借鉴了神经生物学中的侧抑制概念，即激活的神经元抑制周围的神经元，在此的作用是增加泛化能力，做平滑处理。 最后将特征沿着通道数维度拼接到一起。3个通道数为42的特征拼接一起后形成通道数为126的特征，作为最终输出。

3.优点

HyperNet融合了多层特征的网络有如下3点好处：

深层、中层、浅层的特征融合到一起，优势互补，利于提升检测精度。
特征图分辨率为1/4，特征细节更丰富，利于检测小物体。
在区域生成与后续预测前计算好了特征，没有任何的冗余计算。

4.加速策略：

说明：

如上图，上边的图中两个空白矩形框，第一个是 ROI Pooling的输出，第二个是 3×3卷积的输出。

下边的图中，3×3卷积的输出用了一个立方体，后面那个白色矩形框是ROI Pooling的输出。

在生成region proposals 时，将卷积层放在 ROI Pooling层之后，可以实现加速。

先卷积降低了通道数量（由126降到4）；
大量 proposal 的conv操作移至前方，实现计算共享；
ROI Pooling 后面分类器的结构变成了全连接层，简化结构，之前是卷积层＋全连接层。

使用这个策略获得了 40倍的加速。

5.产生优异效果：

Figure4说明：

上图衡量的是不同的IOU 阈值对 recall的影响。再说明一下，这个recall不是最终的detection recall。而是region proposals recall。 IOU 阈值越大，条件越严苛，recall势必会下降。对比几条不同方法的结果，HyperNet下降的最慢，比其他方法recall也高。

Figure5说明：

上图衡量的是不同的proposals 数量对 recall的影响。再说明一下，这个recall不是最终的detection recall。而是region proposals recall。 proposals数量越少,条件越严苛,recall势必会下降。对比几条曲线，HyperNet下降的最慢，比其他方法recall也高。

6.轻量化方法：

HyperNet实现了一个轻量化网络来实现候选区域生成。具体方法是，首先在特征图上生成3万个不同大小与宽高的候选框，经过RoI Pooling获得候选框的特征，再接卷积及相应的分类回归网络，进而可以得到预测值，结合标签就可以筛选出合适的Proposal。可以看出，这里的实现方法与Faster RCNN的RPN方法很相似，只不过先进行了RoI Pooling，再选择候选区域。 HyperNet后续的网络与Faster RCNN也基本相同，接入全连接网络完成最后的分类与回归。不同的地方是，HyperNet先使用了一个卷积降低通道数，并且Dropout的比例从0.5调整到了0.25。由于提前使用了RoI Pooling，导致众多候选框特征都要经过一遍此Pooling层，计算量较大，为了加速，可以在Pooling前使用一个3×3卷积降低通道数为4，这种方法在大幅度降低计算量的前提下，基本没有精度的损失。总体来看，HyperNet最大的特点还是提出了多层融合的特征，因此，其检测小物体的能力更加出色，并且由于特征图分辨率较大，物体的定位也更精准。此外，由于其出色的特征提取，HyperNet的Proposal的质量很高，前100个Proposal就可以实现97%的召回率。值得注意，HyperNet使用到了反卷积来实现上采样，以扩大尺寸。通常来讲，上采样可以有3种实现方法：双线性插值、反池化（Unpooling）与反卷积。反卷积也叫转置卷积，可以参考我的一片博客对于反卷积的详细讲解（两种特殊卷积：转置卷积和空洞卷积_心之所向521的博客-CSDN博客）但并非正常卷积的完全可逆过程。 具体实现过程是，先按照一定的比例在特征图上补充0，然后旋转卷积核，再进行正向的卷积。反卷积方法经常被用在图像分割中，以扩大特征图尺寸。