YOLO目标检测基本思想

最新推荐文章于 2024-07-19 13:44:40 发布

小于没秃

最新推荐文章于 2024-07-19 13:44:40 发布

阅读量979

点赞数 18

文章标签： YOLO 目标检测目标跟踪深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58753296/article/details/134918828

版权

本文详细介绍了YOLO目标检测技术，包括其工作原理（一次性预测所有格子中的目标），多尺度融合（处理不同大小目标）以及锚框机制。还涉及了非极大抑制用于筛选预测框和损失函数的设计，如分类、定位和置信度损失的综合应用。

摘要由CSDN通过智能技术生成

个人理解有关YOLO目标检测技术的实现基本思想。

YOLO简介

YOLO

首先，YOLO的全称是YOU ONLY LOOK ONCE：只需要浏览一次就可以识别出图中的物体的类别和位置，也被称为Region-free方法。

图片经过深度学习神经网络，颈部（FPN,PANet...）多尺度特征融合，头部（密集预测<YOLO>/稀疏预测）

其将特征图划分为S×S的格子（grid cell），每个格子对落入其中的目标进行检测，一次性预测所有格子所含目标的边界框，定位置信度，所有类别概率向量。

类别置信度得分既和分类置信度有关也和定位置信度有关。

条件类别概率×框置信度得分=类别置信度得分

预测和格子之间的区别在于，预测通常是基于过去的数据和模型进行推测未来的趋势或结果，可能涉及到对多种因素的分析和考虑。而格子则更多地关注于当前时刻或瞬间的状态，通常只需要关注一个特定的区域或场景。

1/图片进行缩放

2/经过卷积网络

3/进行非极大抑制

截的图

上图可见检测出了人，狗，马三个类别。

预测时从预测的特征图出发，检测的格子的一些属性包括边界框的坐标，目标性得分，和分类得分（比如coco数据集有80个类别，得到80个类别的得分），有多少个不同尺度的边界框的预测。

多尺度融合

其实可以简单的理解为把一个图片变成不同尺寸的图像，然后进行采样，下采样倍数小（一般是浅层）的特征感受野小，适合处理小目标。

可以理解为，提取出来的特征图越小（分辨率越低），就适合处理较大目标的实例分析结果。分辨率越高的，就做小目标的，因为特征图小的无法提供必要的分辨率信息。

具体就是，会将一个图片分成不同大小的网格，如果图片大小是416×416的话，那么分成13×13的网格特征图是一定会比分成52×52的特征图大的，那么越大的特征图他输出的目标就越简单，可能会导致部分大目标信息被分散到多个特征点上，从而增加了大目标识别的难度，就适合小目标。

截的图

低分辨率（越小）的特征图可以将大目标的信息集中在一个或少数几个特征点上就适合来处理较大的目标，但同时他在进行处理的时候有很多小目标的信息或许就会丢失，所以小目标要结合分别率高的特征图处理。

但具体操作还是需要结合具体任务和目标来进行选择。

其有两种网络结构，第一种是并行多分支网络，第二种是串行的跳层连接结构。

具体可见大佬的：多尺度融合介绍 - 知乎 (zhihu.com)

锚框（Anchor）机制

是一组提前预定义的边框，这些框的宽高和数据集中目标物体的宽高大体是一致的。我们在检测之前确定的一系列候选框。我们默认，图片上会出现的所有物体，都会被我们设定的anchor boxes所覆盖。不然计算量会很大。

据说在YOLOV1上没有这个东西，所以早期训练导致框乱飞，V2生成之后框就在预测的范围内偏移就好了。

YOLO算法的基本思想

YOLOV3/V4：某个目标的中心坐标坐落在哪个格子中，就由它来预测该目标，每个格子都会预测3个不同尺度的边界框。

YOLOV5：可以跨层预测，匹配数范围可以是3~9个。

预测到的特征图有三个维度，其中两个就是上文说的13×13（52×52等），还有一个维度是B×（5+C），其中B是边界框数量（V3/V4就是3），C表示边界框的类别数，对于VOC数据集是20（coco就是80），5表示的是四个坐标信息和一个目标性得分。

非极大抑制

找到局部极大值，并筛除（抑制）邻域内其余的值。

简单说就是我们在测试时会出现比较多的预测框，比较IOU做非极大抑制。得到一个比较合适的预测框。将其他的不是很好的预测框筛掉。（为了提高Recall）

名词不懂可以见上一篇

损失函数

评估模型预测结果与真实结果之间差异的函数，通常被用作优化目标，即用于调整模型参数以最小化预测结果的误差。

其中我们研究的包括：

分类损失

定位损失（预测框边界和GT之间的误差）

置信度损失（框的目标性等）

总的损失函数就是其中三个相加，或许还会与一些损失因子相关，具体分析吧。

参考视频：最适合新手入门的【YOLOV5目标实战】教程！基于Pytorch搭建YOLOV5目标检测平台！环境部署+项目实战（深度学习/计算机视觉）_哔哩哔哩_bilibili

关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小于没秃 CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

135万+: 周排名

19万+: 总排名

4824: 访问

: 等级

110: 积分

57: 粉丝

60: 获赞

3: 评论

73: 收藏

私信

关注

热门文章

最新评论

复现github深度学习代码产生问题①
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
复现github深度学习代码产生问题①
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
YOLOV5学习日记：目标检测性能指标
CSDN-Ada助手: 很高兴看到你继续写下一篇关于YOLOV5学习日记的博客！你的文章标题和摘要令人期待，让读者对目标检测的性能指标有了初步的认识。继续保持创作的激情！除了标题和摘要中提到的性能指标，你可以考虑扩展介绍一些与目标检测相关的知识和技能。例如，你可以探讨不同的评估指标，如准确率、召回率和F1得分，以及如何解释它们的意义。另外，你还可以深入讨论目标检测模型中的非极大值抑制（NMS）算法，以及如何使用它来提高检测结果的精确度。此外，你还可以介绍一些目标检测中常用的数据集，如COCO、PASCAL VOC和KITTI，以及它们在评估模型性能方面的作用。对于读者来说，了解这些数据集可以帮助他们更好地理解性能指标与实际应用的关系。希望这些建议对你有所帮助！期待看到你在下一篇博客中的精彩内容。继续努力，保持谦虚的态度，你一定会取得更多的进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
学习记录：drop_last
CSDN-Ada助手: 恭喜你开始博客创作！标题“学习记录：drop_last”引人瞩目，你已经向读者展示了你在学习过程中积累的知识和经验。对于下一步的创作建议，我谦虚地建议你可以进一步展开，分享drop_last的具体用法和实践经验，或者提供一些示例来帮助读者更好地理解和应用这个函数。期待看到你未来更多精彩的博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。