深度学习物体检测（六）——YOLO

最新推荐文章于 2024-09-11 22:42:49 发布

zchang81

最新推荐文章于 2024-09-11 22:42:49 发布

阅读量4.8k

点赞数

分类专栏：目标检测文章标签：深度学习对象 YOLO

本文链接：https://blog.csdn.net/zchang81/article/details/69949151

版权

目标检测专栏收录该内容

22 篇文章 4 订阅

订阅专栏

传统目标检测系统采用deformable parts models (DPM)方法，通过滑动框方法提出目标区域，然后采用分类器来实现识别。
R-CNN类方法采用region proposal methods，首先生成潜在的bounding boxes，然后采用分类器识别这些bounding boxes区域。最后通过post-processing来去除重复bounding boxes来进行优化。
YOLO（You Only Look Once）是一种新的目标检测方法，该方法的特点是实现快速检测的同时还达到较高的准确率。作者将目标检测任务看作目标区域预测和类别预测的回归问题。该方法采用单个神经网络直接预测物品边界和类别概率，实现端到端的物品检测。同时，该方法检测速非常快，基础版可以达到45帧/s的实时检测；FastYOLO可以达到155帧/s。与当前最好系统相比，YOLO目标区域定位误差更大，但是背景预测的假阳性优于当前最好的方法。

YOLO的核心思想

利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别；

faster-RCNN也利用整张图作为网络的输入，整体采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了。

 
 
  
  YOLO的实现方法
  
  每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。 
  
  每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。则SxS个网格，每个网格要预测B个bounding box还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。 
  
  例如: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。 
  
  在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score: 
  
  得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS处理，就得到最终的检测结果。
  
  YOLO的实现细节
  
  每个网格有30维，这30维中，8维是回归box的坐标，2维是box的confidence，20维是类别。 
  
  在实现中，最主要的就是怎么设计损失函数，让这个三个方面得到很好的平衡。作者简单粗暴的全部采用了sum-squared error loss来做这件事。 
  
  对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。 
  
  一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。
  
  YOLO的缺点
  
  YOLO对相互靠的很近的物体，还有很小的群体 检测效果不好，这是因为一个网格中只预测了两个框，并且只属于一类。 
  
  对测试图像中，同一类物体出现的新的不常见的长宽比和其他情况是。泛化能力偏弱。
  
  由于损失函数的问题，定位误差是影响检测效果的主要原因。尤其是大小物体的处理上，还有待加强。