YOLOv2——论文整理

最新推荐文章于 2024-07-11 02:54:28 发布

必修居士

最新推荐文章于 2024-07-11 02:54:28 发布

阅读量938

点赞数

分类专栏： # 机器人视觉文章标签：计算机视觉神经网络 YOLO 目标检测人工智能

本文链接：https://blog.csdn.net/weixin_43746266/article/details/117304276

版权

8 篇文章 0 订阅

订阅专栏

YOLO做的是，是将目标检测的包围盒预测和类别预测做成一个统一的过程，更快，效果也不错；但是定位不准，小物体检测效果不佳。

Abstract

【多尺度训练的方法可以借鉴，更好的权衡，YOLO9000主要是预测的类别多，对我们的作用似乎不大】

所以希望在保持分类准确率的基础上，优化定位误差和召回率。【这里需要补充召回率之类的量化指标】

Batch Normalization：加速收敛，添加到卷积层中，可以提高mAP，去掉dropout还可以防止过拟合
High Resolution Classifier(高分辨率分类器)：原本的YOLO是在224 * 224上面训练，然后更改增加为448 * 448用于检测，需要学会检测的同时适应输入分辨率的变化，最后在448*448进行了10个epoch的微调训练
Convolutional With Anchor Boxes：去掉全连接层，用anchorbox预测包围盒。mMP下降，召回率变大。
YOLO直接通过全连接网络预测包围盒坐标，FastRCnn使用的是 hand-picked priors，他利用region proposal network所在的卷积层预测anchor boxes的偏移和置信度（需要补充anchorbox的基本概念），简化，方便学习。
Dimension Clusters：anchorbox的大小是通过人工设置，最开始选择的priors影响很大。采用kmeans算法自动选择好的priors
Direct location prediction：模型不稳定的问题，预测包围盒的xy坐标。还是直接预测相对的坐标而不是偏移。
Fine-Grained Features：好像是对特征图的一些分辨率进行了操作
Multi-Scale Training：每训练十次，重新选一个输入维度，之后可以通过分辨率与准确率进行权衡。
效果很好

想要又准有更快，YOLO使用的网络架构是基于googlenet，比VGG-16块，但是准确率差了一点。
提出了一种新的网络架构Darknet-19，表现很好，又快又准，训练大概用160epoches。
在这里插入图片描述

提出了一种对分类和检测数据进行联合训练的机制。
存在的问题是，大多数分类数据集采用的是softmax；来预测类别，不同类别之间是互相排斥的。
解决方法：

简化地构建分层词汇树，然后预测条件概率

分类是是默认Pr(physical object)=1,
而目标检测则是预测出Pr(physical object)的数值。
将数据集与Wordtree结合
联合训练

YOLOv2是最先进的，在各种检测数据集上比其他检测系统更快。此外，它可以在各种图像大小下运行，以在速度和精度之间提供平滑的折衷。
YOLO9000是一个实时框架，通过联合优化检测和分类，可检测9000多个对象类别。我们使用WordTree合并来自不同来源的数据，并使用我们的联合优化技术在ImageNet和CoCo上同时进行训练。【半监督学习】

YOLO利用全连接层直接预测包围盒的坐标和置信度等信息
FastRcnn使用RPN网络预测anchorbox的偏移，因为预测层是卷积的，所以可在特征图上进行预测
YOLOv2将448大小的照片先变成416【为了将featuremap改成奇数，可以保证物体的中心落在其中心】，每个网格的大小为32 * 32，划分成13 * 13个网格，不仅预测了偏移，还预测了置信度和类别，利用这个方法可以提高召回率