目标检测系列1——yolo系列的基本思想

1 目标分类和目标检测

目标分类一学就会,目标检测一学就废
目标检测你感觉就是目标和预测不是对应的,实际上并不是这样的,
在这里插入图片描述
如果让它一、一对应了,可不可以,就像上图那样,
答案是不可以的,因为目标检测不止有一个目标,一个目标的时候可以,如果是多个目标呢?
那就有很多个(x,y,w,h,class),仅仅五个数是不够的
在这里插入图片描述

2 改进

如何改进呢?
直接输出多个框,直接来全卷积,比如输出20个框,如果有1个目标,那其余19个都是0就可以了
在这里插入图片描述
比如下面输出5个通道的2×2特征图,那比如只有一个目标,
在这里插入图片描述
这就是yolo系列的基本思想

最根本的就是利用全连接层把各个需要的值放到对应d 通道上,加上下面yolov1的讲解,多看几遍很好理解。
https://blog.csdn.net/xiaotiig/article/details/111772945

3输入输出理解

输入就是一张图片
输出是什么呢?一个个框,那这个框怎么用数字表示呢?这些数字就可以组成一个向量。
框的表示最少有下面4种:
(1)x,y,w,h,左上角坐标+宽+高
(2)Cx,Cy,w,h, 中心点坐标+宽+高
(3)P1(x,y),P2(x,y),P3(x,y),P4(x,y),4个角的坐标8个数
(4)Cx,Cy,d1,d2,d3,d4,中心点坐标+距4个边的距离

4 检测方法

4.1 滑动窗口的方法

使用不同大小尺寸的窗口从左到右依次截取出图片做分类:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 输出x,y,w,h和c的向量

在这里插入图片描述

和目录1中的描述一样了,这样就解决了传统方法的问题
但是一个图片只能输出1个结果,那如果有多个目标呢?

4.3 输出多个目标

在这里插入图片描述
经过一系列,比如有两个目标,就输出两个向量

在这里插入图片描述
多输出进行空间排列,每个像素负责一个区域

4.4 如何训练呢?

在这里插入图片描述
损失值的第一项是置信度的损失值,范围0-1,而后面的4项范围是0-416,所以后面的值太大,就把置信度给淹没了,需要给置信度的值加个放大的权重,后面4项可以加个小的权重,抑制4项后面的值。
加根号是因为:如果不加根号,公式算出来的值主要受大目标影响,小目标的影响就很小,导致最后出来的结果主要是检测大目标,小目标的检测效果很差,用加根号的方法来稍微解决一下,还有其它方法。

4.5 NMS非极大值抑制

下面这个过程必须会,就是根据置信度去除冗余框,原理就是重合度越高的框越可能检测的是同一个目标。
使用NMS必须要用置信度,而置信度是根据IOU来得到的。

在这里插入图片描述
在这里插入图片描述

4.6 总结

分类、检测、分割的区别就是最后的输出不一样,还有训练样本不一样,前面的主干网络都一样。
分类就输出one hot 类别
检测就输出坐标值+one hot 类别
分割就输出一个通道的特征图

在这里插入图片描述
检测的目标想多的话,就增加输出的宽和高,增加框
检测的类别想多的话,就增加通道数

参考下面视频:
原理讲的很清楚
https://www.bilibili.com/video/BV1FK4y1v7nB?from=search&seid=2530366646981018850

https://www.bilibili.com/video/BV12y4y1v7L6

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晓码bigdata

如果文章给您带来帮助,感谢打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值