目标检测作为计算机视觉的一个分支,随着深度学习模型与检测任务的结合以及GPU计算能力的提升,它在学术和工业界得到广泛的研究和应用,如人脸识别、行人检测、自动驾驶等领域。
目标检测领域,尺度的变化问题一直是个挑战,它直接影响着检测精度。在检测任务中,数据集中目标的尺度范围变化较大。小尺度目标经过卷积神经网络后,由于感受野的增大造成特征的丢失。因此,神经网络需对不同尺度的目标都可以很好地提取特征。Faster-RCNN[1-2]作为两阶段目标检测算法的大成之作,它提出的使用区域建议网络代替选择性搜索(selective-search)提取候选框,多尺度锚框的使用减少了选取候选框的时间,取得更高的精度和更短的训练时间。但Faster-RCNN (faster region convolutional neural network)只利用神经网络的最后一层特征进行预测,缺乏处理多尺度目标的能力。针对多尺度目标需要多尺度特征预测的问题,SNIP[3- 4](scale normalization for image pyramids)使用图像金字塔将原始图直接进行不同尺度的缩放变化,利用不同分辨率的图片来检测不同尺度的物体,在尺度变化的问题上取得不错的成效。这种尺度变化的方式虽然有效,但也大大增加了检测的时间复杂度。另一种尺度变化的思想是利用特征金字塔(feature pyramid)来近似图像金字塔,FPN[5](feature pyramid network)利用对高层语义信息上采样,以自上而下的方式增强低层特征,FPN在YOLOv3[6]中具有很好的多尺度表现。但FPN中只是将不同分辨率的特征对齐后堆叠,忽略了低层特征包含较多局部位置信息,高层特征包含更多全局语义信息,而忽略这些特