yolov3借鉴残差网络思想,将darknet53作为主干网络,精度与resnet101、resnet152差不多,还有着更快的速度。
网络特征如下:
- 使用大量残差跳层连接;
- 使用步长为2的卷积实现下采样,并舍弃池化;
- 引入了类似FPN的多尺度特征融合,加强了小目标检测能力;
- concat操作将特征图经过上采样后与前面层的输出进行融合,提高小目标检测精度;
- 输出为置信度、坐标信息,分类信息三个部分。
整个框架可划分为3个部分:分别为Darknet-53结构、特征层融合结构(上图concat部分)、以及分类检测结构(上图未画出)。
网络过程如下:
给一张图像x(大小:416×416)输入到Darkenet-53的backbone网络结构,进行一系列的卷积以及残差网络提取特征,分别得到原图像1/8(大小:52×52)、1/16(大小:16×26)、1/32的特征图(即feature map);接下来将3个特征图进行特征融合(concat),以获得更强的特征表现力,从而达到更好的效果;最后,为了使特征图变成相同大小,中间需要进行上采样及下采样,然后进行堆叠、融合机相应的卷积等操作后,得到最终的3个特征层,即13×13×255(Y1)、26×26×255(Y2)、52×52×255(Y3),这3个特征图恰好分别为原图像x的1/32、1/16、1/8.