目标检测作为计算机视觉的一个分支,随着深度学习模型与检测任务的结合以及GPU计算能力的提升,它在学术和工业界得到广泛的研究和应用,如人脸识别、行人检测、自动驾驶等领域。
目标检测领域,尺度的变化问题一直是个挑战,它直接影响着检测精度。在检测任务中,数据集中目标的尺度范围变化较大。小尺度目标经过卷积神经网络后,由于感受野的增大造成特征的丢失。因此,神经网络需对不同尺度的目标都可以很好地提取特征。Faster-RCNN[1-2]作为两阶段目标检测算法的大成之作,它提出的使用区域建议网络代替选择性搜索(selective-search)提取候选框,多尺度锚框的使用减少了选取候选框的时间,取得更高的精度和更短的训练时间。但Faster-RCNN (faster region convolutional neural network)只利用神经网络的最后一层特征进行预测,缺乏处理多尺度目标的能力。针对多尺度目标需要多尺度特征预测的问题,SNIP[3- 4](scale normalization for image pyramids)使用图像金字塔将原始图直接进行不同尺度的缩放变化,利用不同分辨率的图片来检测不同尺度的物体,在尺度变化的问题上取得不错的成效。这种尺度变化的方式虽然有效,但也大大增加了检测的时间复杂度。另一种尺度变化的思想是利用特征金字塔(feature pyra