[论文阅读]YOLOF:You Only Look One-level Feature

最新推荐文章于 2022-04-17 00:09:37 发布

一碗白开水一

最新推荐文章于 2022-04-17 00:09:37 发布

阅读量216

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/weixin_43859829/article/details/118081656

版权

论文阅读专栏收录该内容

32 篇文章 0 订阅

订阅专栏

题目：You Only Look One-level Feature
作者：

motivation:
作者想分析下FPN为什么对模型效果影响很大，理论创新性还是蛮大的。

methods:
这是一个新的只使用32倍下采样的C5特征图的目标检测框架。
主要贡献：
1）作者分析了MiMo（多进多出）、单进多出（SiMo）、多进单出（MiSo）和单进单出（SiSo）编码器的收益，并发现IDEAR
2）作者首先对编码器的结构进行了适当的设计，以提取不同尺度目标的多尺度上下文特征，弥补多尺度特征的不足；
3）然后，作者采用均衡匹配机制来解决单特征图中稀疏anchor引起的正样本不平衡问题。

FPN主要有两个核心的收益：一方面，FPN可以进行多尺度特征融合，它将多个尺度的特征图融合在一起获得更好的表示；另一方面，它又是一种分治策略，依据目标的不同尺度在不同级别的特征图上检测目标。

在这里插入图片描述

作者在RetinaNet的基础上通过解耦多尺度特征融合和分治功能设计了实验。具体而言，将FPN视作一个多进多出（Multiple-in-Multiple-out，MiMo）编码器，它从骨干网络编码多尺度特征并且为解码器即检测head提供特征表示。作者对MiMo（多进多出）、单进多出（SiMo）、多进单出（MiSo）和单进单出（SiSo）编码器进行了对比实验，结果如下图。

在这里插入图片描述
这些实验结果表明两个事实：第一，C5特征图上其实就包含了检测各种尺度目标的足够的上下文信息，这就导致SiMo编码器可以获得相当不错的效果；第二，多尺度特征融合带来的收益要远远小于分治策略带来的收益，因此多尺度特征融合在FPN不是最关键的功能。

将原始特征图和扩大感受野的特征图加到一起，就能得到覆盖所有目标尺度的特征图了，这个过程其实可以通过残差连接构造膨胀模块实现，称为Dilated Encoder。
在这里插入图片描述
基于上面的讨论，作者设计了如上图所示的SiSo结构，名为Dilated Encoder。它包含先后两个组件，分别是Projector和Residual Blocks。投影层首先应用一个1×1的卷积层来降低通道维数，然后添加一个3×3卷积层来细化上下文语义信息，这与FPN一致。然后，叠加连续4个卷积核膨胀率不同的残差块，生成具有多个感受野的输出特征，覆盖所有对象的尺度。

大GT框比小GT框会产生更多的正anchor，从而造成了正anchor的不平衡问题。这会导致检测器只关注大目标的训练，而忽略小目标检测的优化。
在这里插入图片描述
因此，作者设计了一个均衡匹配（Uniform Matching）策略，即对每个GT框而言，只采用最接近的k个anchor作为正anchor，这就能如上图一样保证每个GT框不论尺寸大小都有相同数目的正anchor。平衡的正样本确保所有的GT框平等地参与训练。同样，作者也设置阈值来过滤大IoU的负样本和小IoU的正样本。

experiments:
还是直接上图哈
在这里插入图片描述

【完结】

一碗白开水一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]YOLOF:You Only Look One-level Feature

题目：作者：motivation:YOLOF虽然和YOLO没啥关系，针对FPN做的一个工作，理论创新性还是蛮大的methods:experiments:
复制链接

扫一扫