YOLOv3
YOLOv3仅使用卷积层,使其成为一个全卷积网络(FCN),提出一个新的特征提取网络:Darknet-53。
Key Knowledgeable:
输入416×416图像,先使用DBL(Conv+BN+Leaky RELU)和1、2、8、8、4个残差块提取特征,在每层之间进行2倍下采样(步长为2的卷积),最后得到3个scale的52×52、28×28、13×13的特征图(Stride分别为32、16、8)
每个scale的特征图进行预测:
- 对13×13的特征图的每一个cell预测3个box,每个box85个信息(坐标偏移xywh+框置信度+80个分类的概率):1313385=1313*255
- 对26×26的特征图与13×13的特征图上采样之后拼接然后每一个cell预测3个box:2626255
- 对52×52的特征图与26×26的特征图上采样之后拼接然后每一个cell预测3个box:5252255
为不同scale的特征图cell设定的anchor先验框(kmean聚类得到):
边界框维度变换:网络输出的tx,ty,tw,th与anchor结合得到预测的框
输出处理:通过阈值过滤、NMS在生成的10647((5252+2626+13*13)*3)框选择分数最高的框作为对应类别的结果。
YOLO与SSD类似的地方:都是不断卷积,获得不同尺度的特征图,对不各个特征图设置anchor box,然后预测偏移量与类别概率。而与Fatser R-CNN的固定尺寸feature map使用滑动窗口设置anchor在核心思路还是有着明显的不同的。
而YOLOv3与SSD也是有着不同:SSD直接使用正常卷积生成多尺度feature maps只在每个feature map做预测实现多尺度预测,而YOLOv3通过多个残差块实现深层卷积,并且每个小尺度的feature map也会做上采样与大尺度的feature map进行连接。