目录
1.关于目标检测
2.多尺度问题的解决方案——FPN
3.FPN架构
1.关于目标检测
目标检测也就是输入一张图片,输出多个标注框,以及对应物体的分类标签。
目标检测的主要问题有2个
其一,物体的姿态是不一样的,比如图中的猫猫,有躺着的有侧对的,但是我们需要准确的识别到正的歪的倒的都是猫猫。
其二,物体的大小根据里摄像头的远近是有差别的,远的猫猫开起来小,近的猫猫看起来大,我们需要识别到大的小的都是猫猫。
图像特征金字塔的提出就是为了解决物体大小识别的尺度问题。
金字塔通过降采样将图像特征缩放到不同的维度,在金字塔的顶层预测大物体,在金字塔的底层预测小物体,这种方式的缺点在于计算复杂度变高了。
FPN的核心思想是让语义特征从顶层向底层传播,让每一层都有丰富的语义特征可以进行预测。
FPN的结构可以分为3个部分:
1、自下而上:逐层卷积形成特征金字塔,得到多尺度特征图
2、横向连接:将所有特征图的通道减小到一定大小,方便合并
3、自上而下:将顶部的语义特征传播到底部
自下而上的路径按照一定的缩放因子逐级提取语义特征,下图以2016CVPR提出的残差网络为例
2、横向连接
横向连接形成统一维度的方法是采用1*1的卷积核
统一维度以后,和采用插值实现升维的特征图相加综合语义信息