YOLOV3算法详解——设计思想以及候选区域选择

最新推荐文章于 2024-08-21 08:59:30 发布

MarDino

最新推荐文章于 2024-08-21 08:59:30 发布

阅读量5.2k

点赞数 14

分类专栏：深度学习飞桨框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44106928/article/details/104060274

版权

本文详细介绍了YOLOV3目标检测算法的设计思想，包括目标检测的基本概念，如边界框、锚框和IOU。重点讨论了YOLOV3如何生成候选区域，解释了为何选择sigmoid函数和指数运算，并阐述了对候选区域的标注过程。通过理解这些关键点，可以更好地掌握YOLOV3的工作原理。

摘要由CSDN通过智能技术生成

本篇博文是笔者结合百度paddle公开课的一个AI识虫项目对YOLOV3算法做的一个解析
完整项目可参考https://aistudio.baidu.com/aistudio/projectdetail/250211

什么是目标检测?

相信有一定基础的深度学习开发者经常能听到目标检测这个词，那什么任务是目标检测呢。

简单地来说目标检测就是让计算机识别出图片里面对应的物体，并标上边界框

在这里插入图片描述
对于分类任务，我只需要识别这种图片是不是动物的图片即可
而对于目标检测任务，我并不是对整张图片做一个分类，而是对图片里的部分区域做一个分类，并绘制一个目标框标记物体

目标检测算法发展历程

既然图片分类是对整张图片进行分类，我们能不能从原图里“抠”下不同区域的图片进行分类呢？

答案当然是可以的，而这也是最初目标检测算法的思路

我们将目标检测任务进行拆分成两个任务，分别是产生候选区域，对候选区域进行分类。而这也引入了算法的区别，我们常听到的一阶段目标检测算法，就是用一个网络同时产生候选区域并进行预测。而二阶段目标检测算法，则是分别进行候选区域产生和分类任务。

最初产生的候选区域方法比较“笨”，更准确地来说应该称其为穷举法，也就是将图片中每个像素都遍历一遍，再遍历其右下方的像素。两个像素就能确定一个区域，穷举法的好处就是思想简单，产生的候选区域都遍布整张图片，但它带来的计算量实在是过于庞大

假设图片长宽分别为W, H
则其候选区域的数量约为: （WWH*H)/4
这种计算量放在当今的硬件条件上也是很不现实的。

当今图像分类已经发展地较为成熟，目标检测的工作更多的是放在如何更smart地产生候选区域上面

其中目标检测算法中具有代表性的就是R-CNN系列，SSD，YOLO这几种经典算法

其中YOLO算法是较为常用的一种算法，它推理速度快的同时也能保证一定的精度

目标检测中涉及的基础概念

边界框bounding-box

我们对目标进行标注的时候采用的就是边界框，也就是bounding-box。

最低0.47元/天解锁文章

关注

14
点赞
踩
43

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

MarDino CSDN认证博客专家 CSDN认证企业博客

码龄6年

114: 原创

23万+: 周排名

223万+: 总排名

28万+: 访问

: 等级

3496: 积分

129: 粉丝

288: 获赞

122: 评论

1120: 收藏

私信

关注

热门文章

分类专栏

MXNET 7篇
深度学习 24篇
飞桨框架 4篇
LeetCode 27篇
数据结构 16篇
面试 23篇
Pytorch 4篇
开发 1篇
C++ 6篇
Keras 4篇
Opencv 1篇
安全 5篇
Python 37篇
爬虫 8篇
机器学习 22篇

最新评论

小米手机安装charles证书
洋_奕: 我是通过微信将证书发到手机的，和数据线传输有问题吗？我的app抓不到
1X1卷积核的理解
犬薇: 不理解，看不明白，为啥就升维或者降维了
Vision transformer
二月剪刀: 有一个问题self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, dim))，那么把position_embedding加入到输入x里面论文中说是直接相加嘛，那为什么x += self.pos_embedding[:, :(n + 1)]这个地方要取列的索引，取前n+1列这个索引一直没懂，我的理解是不应该加全部吗，拼接完cls_token后x的shape是（b,n+1,d）嘛（b即batch，n即patch数，d即flatten后的维度），这里pos_embedding的shape是（n+1,d)，那么直接广播相加就行了啊，为什么还要取一个列的n+1索引一直没想明白
小米手机安装charles证书
qq_43158931: 求助，redmi note 11型号，miui14.0.2系统版本安装抓包怎么整
卷积神经网络的可视化——热力图Grad CAM
weixin_62025716: 如何换成自己的模型呢

大家在看

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。