YOLOv3: An Incremental Improvement
摘要
(1)比V2体积更大,精度更高,但是速度仍有保障
(2)输入320*320的图片后,v3能在22ms内处理完成,并取得28.2mAP,精度和SSD相当,但速度快上3倍。
介绍
更新
2.1边框预测
V3用逻辑回归预测每个边界框的objective score。如果当前预测的边界框比之前的更好的与ground truth对象重合,那他的分数就是1,如果当前的预测不是最好的但是和ground truth重合到了一定的阈值以上,神经网络会忽略这个预测。我们使用的阈值是0.5.
我们的系统只为每个ground truth分配一个边界框。如果先验的边界框并没有分配给相应的对象,那他只是检测错了对象,而不会对坐标和分类预测造成影响
(是否逻辑回归网络,将预测出的边框中的张量送进分类网络)
2.2分类预测
每个边界框都会使用多标记分类来预测框中可能包含的类别。
不使用softmax,而是用单独的逻辑分类器,因为我们发现前者对于网络性能提升并没有什么用,在训练过程中使用二元交叉熵损失来预测类别,有助于我们把YOLO用于更加复杂的领域(例如数据集中包含大量重叠的标签)
2.3 跨尺度预测
yolov3预测三种不同尺寸的边框,系统使用和特征金