YOLO V4
网络结构
在论文的3,4章中介绍了YOLO V4的具体结构:
- Backbone:CSPDarknet53
- Neck:SPP,PAN
- HEAD:YOLOv3
CSPDarknet53
相较于YOLOv3,YOLOv4在Darknet53中融入了CSP结构,优点是可以增强CNN的学习能力,移除计算瓶颈,减少显存的使用。
CSP结构的思想是对于输入的特征层,通过两个11的卷积层划分为两部分part 1和part 2。在part 2后通过一系列的block,然后再通过11的卷积层(transition),接着将两个part的信息在通道方向进行Concat拼接,最后再通过1*1的卷积层进一步融合(图中最底层的transition)。
SPP
Spatial Pyramid Pooling(SPP)将输入的特征层依次通过一个池化核大小为55,99,13*13的最大池化下采样层,最后输出的特征层大小和输入的特征层大小包括shape和channel都是相同的,然后将三个模块的输出以及原输入在通道方向进行Concat拼接,这样能够在一定程度上解决目标多尺度问题。
PAN
Path Aggregation Network(PAN) 的结构其实就是在FPN的基础上增加了从底到顶的信息融合。
如上图所示,(a)部分为backbone+FPN模块,将高层的语义信息往低层融合;(b)部分则与FPN相反,将低层的语义信息往高层融合;两部分结合就是PAN。
需要注意的是,如下图所示,(a)为原始论文中的融合方式(相加),而(b)为YOLO V4的融合方式(Concat)将两个特征层在深度方向拼接。
下图便是YOLO V4网络的一个示例图
由于YOLO V4网络的结构较复杂,且其中包含了不少模块如CSPDarknet53等,因此其网络结构细节及其相关优化策略仍在学习中,将会对其进行进一步解析。