anchor free dection简介

最新推荐文章于 2023-07-20 18:36:57 发布

所向披靡的张大刀

最新推荐文章于 2023-07-20 18:36:57 发布

阅读量308

点赞数

文章标签：网络计算机视觉

本文链接：https://blog.csdn.net/zqwwwm/article/details/105198587

版权

1. background

目标检测从开始的two_stage时代到 one_stage时代，从anchor basic到anchor free，越来越精细化。从18年CornerNet开始，anchor free 论文喷颈式爆发，宣告开始进入anchor free时代。

2. Network

2.1 DenseBox

本文工作：

证明了单纯的FCN网络只要设计合理可以用来检测不同尺度和严重遮挡下的目标。
提出新的FCN模型，DENSEBOX，不需要区域提议，可被用于训练端到段网络。
结合了landmark localization的多任务学习使得densebox近一步提高了精度。

网络架构：以vggNet为backbone网络，input picture（m * n * 3） -> conv ->bilinear upsample -> threshold and NMS -> output(m/4 * n/4 * 5)，
1）首先设计出一套端对端的多任务全卷积模型，直接回归物体出现的置信度以及它的相对位置。
2）同时为了能够更好地处理遮挡严重的物体，提高小物体的召回率，他在检测的网络中引入了上采样层，并融合浅层网络得到的特征，得到更大尺寸的输出层。
3）为了对训练样本进行筛选，保证正负样本均衡化，降低误检，他还率先使用了Online Hard Negative Mining的策略，及难例分析。
4）每个像素点都被转换为置信度和到目标边界框的bbox四个距离，然后进行NMS。

在FCN结构中添加少量层能够实现landmark localization，然后通过融合landmark heatmaps和score map可以进一步提升检测结果。

2.2 YOLOV1

YOLOV1作为anchor free的代表作（YOLOV2及V3都是带anchor框的网络架构）
在这里插入图片描述

输入图像为448x448x3的彩色图像，经过GoogLeNet的前20层进行卷积输出14x14x1024的特征图
然后经过四个卷积层和2个全连接层，最后经过重新排序成一个7x7x30的矩阵（张量）

如上图所示，经过层层卷积，输出的7730的矩阵相当于将原图像划分成7x7=49个框，每个框由一个30维的向量构成30维向量，前10个特征分别预测了两个bbox（BoundingBox回归框），一个横向框，一个列向框，每个框5个特征。框后边接着类别，共20个类。特征分别是每个目标属于某个类的概率预测的两个框中，每个框的5个特征，分别是：(1)bbox中心x相对于grid cell（图中小红框）的坐标(2)bbox中心y相对于grid cell的y坐标(3)bbox的宽(4)bbox的高(5)是否存在目标，存在目标则为 1xIoU的值，否则 0xIoU的值
预测的x,y,w,h的取值范围全都划到（0，1）开区间内，转换方式如下图所示

对划分的7*7的49个单元格，都会存在一个30维的向量
每个单元格只对单个目标负责，如果两个或多个目标的中心同时存在于一个单元格中，那么单元格中只保存概率最高的类别

LOSS计算

2.3 CornerNet

整体网络架构：backbone为hourglass网络，后加上两个预测模块。

精简化下：

1.1 hourglass网络
原理类似于resNet网络，及在前期通过卷积下采样，与后来上采样的值进行融合，获得不同尺度的特征图，。用于后续的pooling.
1.2 corner pooling

两张feature map，取同一个位置，对第一个feature map上的这个位置的像素点取这一列做max pooling；对第二个feature map上的这个位置的像素点，从它开始向右这一行的最大值（max pooling+1），将这两个最大值相加，就是这个位置的输出。对所有位置进行这个操作，得到一个完整的output，这就是一个完整top-left corner pooling。同理，bottom-right corner pooling就是向上看取最大值，向左看取最大值，然后加起来。
1.3 预测模块
每个预测模块的输出分为Heatmaps，Embedding，和offsets三个部分，他们分别的作用是指出角点的位置，角点配对，偏差矫正。
heatmap：有C个chanel，C是目标类别数。没有背景chanel。每个chanel都是二进制掩模，用于表示角点的位置，是的，就是我们的终极目标找到点。
Embedding：用于角点配对。你有一堆top-left corners，又有一堆bottom-right corners，那你哪儿知道谁该跟谁是一对儿画框框。这里是用了人体姿态估计中，配对关节点的思想，为每个角点配一个Embedding，就把它当成是一个身份牌。每个对象的身份牌颜色都不一样，拿到同一种颜色身份牌的就是一家子了。这里就是embedding值最相近的top-left corner和bottom-right corner配成一对去画框框。
offset：偏移。为什么要计算这个东西呢。作者的实验里，输入是511∗511（好像我记得），但是heatmap是128∗128。把输入上的点(x,y)(x,y)(x,y)隐射到heatmap上，就得是([x∗128/511],[y∗128/511])，先甭管人家算出来结果是多少，看到取整符号就知道要损失精度，再把heatmap上找到的位置映射回去的时候，那肯定就不准了呀，于是就有了offset（128∗128∗2，x，y1281282，x，y128∗128∗2，x，y两个方向的偏移）。
具体操作为：先对heatmap非极大值抑制，然后取top 100 的top-left和top 100 的bottom-right的角点，然后用offset矫正这些角点的位置。随后计算top-left和bottom-right角点Embedding的L1距离，距离大于0.5或者包含不同类别的角点不配携手走进婚姻的殿堂。能走进婚姻殿堂的就领证结婚，这一对就可以用来画框框了。
1.4 loss函数

再续===================================

2.4 FSAF

2.5 FCOS

2.6 FoveaBox

所向披靡的张大刀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
anchor free dection简介

1. background目标检测从开始的two_stage时代到 one_stage时代，从anchor basic到anchor free，越来越精细化。从18年CornerNet开始，anchor free 论文喷颈式爆发，宣告开始进入anchor free时代。2. Network2.1 DenseBox本文工作：证明了单纯的FCN网络只要设计合理可以用来检测不同尺度和严重遮...
复制链接

扫一扫