目标检测-Matrix Nets

最新推荐文章于 2024-07-29 09:11:11 发布

沙雅云

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量2k

点赞数

分类专栏：目标检测

原文链接：https://arxiv.org/pdf/1908.04646.pdf

版权

目标检测专栏收录该内容

48 篇文章 5 订阅

订阅专栏

仅适用此模型一半的参数量就可以实现47.8%的MAP，高于任何其他的单步检测，另外，xnets的训练速度是目前第二号的框架的3倍
使用的主要方法就是将目标的尺度和宽高比映射到不同的层中，使得每层目标的大小和宽高几乎满足统一的条件，是一种考虑目标尺度和宽高比的框架。

目标检测	方法
两步检测	faster rcnn，mask rcnn
单步检测基于锚点的，基于关键点的检测	基于锚点的就是包含很多的锚框，然后预测每个模板的偏移量和类别，最著名的是RetinaNet，提出了基于焦点损失韩式来解决正负样本不平衡的问题，性能最高的是FAFA（feature selective anchor-free 无锚点特征选择模型）FSFA将基于锚点的输出与无锚的输出头集成，以进一步提高性能基于关键点的检测会预测左上角和右下角的热图，并使用特征嵌入将他们匹配在一起，最初的基于关键点的检测构架是CornerNet，他利用特殊的Corner pooling layer（这个是一个新型的池化层，可以帮助网络更好的定位corner）来精确的检测不同大小的物体。从那以后，cornernet通过预测对象中心河角落，大大改善了CornerNet架构。

目标检测

方法

两步检测

faster rcnn，mask rcnn

单步检测基于锚点的，基于关键点的检测

基于锚点的就是包含很多的锚框，然后预测每个模板的偏移量和类别，最著名的是RetinaNet，提出了基于焦点损失韩式来解决正负样本不平衡的问题，性能最高的是FAFA（feature selective anchor-free 无锚点特征选择模型）FSFA将基于锚点的输出与无锚的输出头集成，以进一步提高性能基于关键点的检测会预测左上角和右下角的热图，并使用特征嵌入将他们匹配在一起，最初的基于关键点的检测构架是CornerNet，他利用特殊的Corner pooling layer（这个是一个新型的池化层，可以帮助网络更好的定位corner）来精确的检测不同大小的物体。从那以后，cornernet通过预测对象中心河角落，大大改善了CornerNet架构。

识别不同大小的物体是目标检测的一个主要挑战。Lin等人介绍的特征金字塔网络（FPNs ：Feature Pyramid Networks）是规模感知架构（ scale aware architectures）最大的进步之一。通过使多个层具有不同感受野来使得对象被映射到具有相关感受野的层上，FPNs实现了尺度不变。小目标对象映射到金字塔中的较上层，大目标对象映射到下面的层。相对于层的下采样的对象的大小在金字塔层上保持几乎是统一的，因此可以在所有层上共享单个输出子网。尽管FPNs为处理不同大小的对象提供了一种优雅的方式，但它们并没有为不同宽高比的对象提供任何解决方案。高塔，长颈鹿或刀子为FPN带来了设计难度：是否根据宽度或高度将这些物体映射到层？

根据大小来给目标对象分层将会导致由于积极的下采样而沿较小维度丢失信息，反之亦然。为了解决这个问题，引入了Matrix
Networks，一种新的大小和宽高比感知CNN架构。xNets 如图2所示

图2：（a）显示了原始FPN架构，其中在每个比例下分配了不同的输出层。请注意，为简单起见，不显示跳过连接。（b）显示MatrixNet架构，其中5个FPN层被视为矩阵中的对角线层。通过对这些层进行下采样来填充矩阵的其余部分。

xNets具有几个矩阵层，每个层都处理特定大小和宽高比的对象。xNets将不同大小和宽高比的对象分配给各层，使得其指定层内的对象大小接近均匀。这让方形输出卷积内核同等地收集关于所有宽高比和大小的对象的信息。xNets可以应用于任何骨干网络（backbone），类似于FPNs。通过在骨干上加“-X”来表示这一点，即ResNet50-X。

xNets使用于基于关键点的目标检测。虽然基于关键点的单步检测是当前最先进的，但由于使用单个输出层，它们有两个局限：它们需要非常大的，计算量大的骨干网络，以及特殊的池化层模型收敛。其次，它们难以精确匹配左上角和右下角。为了解决这些局限性，引入关键点矩阵网(KP-xNet)架构，该架构用ResNet-50，Resnet-101和ResNeXt-101主干来使xNet达到最先进的结果。

xNets使用不同的矩阵层检测不同大小和宽高比的对象的角落点（corners），并通过完全移除嵌入层（embedding layer）并直接进行目标对象角落点回归来简化匹配过程。KP-xNet在MS COCO基准测试中实现了47.8％的mAP，优于所有现有的单步检测。
在这里插入图片描述