YOLO学习笔记

最新推荐文章于 2024-09-15 22:33:50 发布

yyangzhenjie

最新推荐文章于 2024-09-15 22:33:50 发布

阅读量367

点赞数

分类专栏：深度学习_学习笔记

本文链接：https://blog.csdn.net/yyangzhenjie/article/details/90669109

版权

本文介绍了YOLO（You Only Look Once）目标检测算法，从基础知识开始，包括滑动窗口技术和全卷积网络。YOLO将图像分割成小方块，每个方块预测几个边界框及其类别概率。文章讨论了YOLOv1的局限性，如对紧密相邻物体和小物体的检测不足，以及YOLOv2和YOLOv3的改进，如Batch Normalization、Anchor Boxes和多尺度训练，提高了检测性能和泛化能力。

摘要由CSDN通过智能技术生成

检测的基础知识：
在介绍Yolo算法之前，首先先介绍一下滑动窗口技术，这对我们理解Yolo算法是有帮助的。采用滑动窗口的目标检测算法思路非常简单，它将检测问题转化为了图像分类问题。其基本原理就是采用不同大小和比例（宽高比）的窗口在整张图片上以一定的步长进行滑动，然后对这些窗口对应的区域做图像分类，这样就可以实现对整张图片的检测了，如下图3所示，如DPM就是采用这种思路。但是这个方法有致命的缺点，就是你并不知道要检测的目标大小是什么规模，所以你要设置不同大小和比例的窗口去滑动，而且还要选取合适的步长。但是这样会产生很多的子区域，并且都要经过分类器去做预测，这需要很大的计算量，所以你的分类器不能太复杂，因为要保证速度。解决思路之一就是减少要分类的子区域，这就是R-CNN的一个改进策略，其采用了selective search方法来找到最有可能包含目标的子区域（Region Proposal），其实可以看成采用启发式方法过滤掉很多子区域，这会提升效率。

结合卷积运算的特点，我们可以使用CNN实现更高效的滑动窗口方法。这里要介绍的是一种全卷积的方法，简单来说就是网络中用卷积层代替了全连接层，如图4所示。输入图片大小是16x16，经过一系列卷积操作，提取了2x2的特征图，但是这个2x2的图上每个元素都是和原图是一一对应的，如图上蓝色的格子对应蓝色的区域，这不就是相当于在原图上做大小为14x14的窗口滑动，且步长为2，共产生4个字区域。最终输出的通道数为4，可以看成4个类别的预测概率值，这样一次CNN计算就可以实现窗口滑动的所有子区域的分类预测。这其实是overfeat算法的思路。之所可以CNN可以实现这样的效果是因为卷积操作的特性，就是图片的空间位置信息的不变性，尽管卷积过程中图片大小减少，但是位置对应关系还是保存的。这个思路也被R