faster rcnn是通过RPN层提取ROIs,然后把ROIs从feature map上crop下来,再resize到固定大小(7*7)输入全连接层做分类。并在RPN层把前景和背景比例做成1:3,总共大概100~300个ROIs。
YOLO v3是图片经过骨干网络后,feature map上面每个点的不同通道表示bounding box的中心和宽高、前景置信度、类别。feature map上每个点有三个bounding box框。由于有大量的背景参与置信度计算loss,前景比较少,不像faster rcnn中比例在1:3左右,所以YOLO v3使用focal loss来平衡前景和背景的损失。
focal loss会把比较容易分类的背景anchor的损失取平方,降低比较容易被分类为背景的anchor的损失。