YOLO目标检测算法

实时的不能用Mask-Rcnn来做,速度为5FPS,达不到实时的要求。速度越快,效果越差。

mPA值 :效果是好还是差 

FPS值:速度是快还是慢

单看精度和recall不太行,可能在一次检测中,精度高,recall就低了,这两个指标矛盾。

Ground truth:真实值

Prediction:预测值

Area of Overlap:Ground truth 与 Prediction的交集

Area of Union:Ground truth 与 Prediction的并集

IoU:交集与并集的比例,越高越好

Precision:精确率(查准率)

Recall:召回率(查全率),让模型预测到所有想要被预测到的样本

TP -->  True positive 正确的你把它判断正例了 即把女生当成女生拿出来了

FP--> False positive 错误的你把它判断正例了 说明本身是负例 即把男生当成女生拿出来了

FN--> False negatives 错误的把它判断成负例了 说明本身是正例 即把女生当做男生拿出来了 

TN--> True negatives 正确的把它判断成负例了 说明本身就是负例 即把男生判断成男生

T是做对了,F是做错了

P是正例,N是负例

补充资料:

MAP值是在设定不同阈值之中综合考虑所有的P和R的情况,综合得到的一个指标值。

每个格子要预测置信度,置信度高的(大于阈值的)可能是物体,才对物体中的候选框进行筛选

每个格子产生两种候选框,候选框和真实值的IoU,谁的IoU大来微调谁

回归,什么时候h和w最合适

输入输出大小不能变了,必须是448×448×3,对输入数据进行多次卷积,得到一个7×7×1024的特征图,特征图通过几次全连接层,得到一个7×7×30的特征,表示7×7的格子,每个格子具有30个值。

最终预测结果:(S*S)*(B*5+C)  -->(7*7)*(2*5+20)

损失函数该如何定义

(x,y,w,h)是预测值,制定个损失函数,使预测值跟真实值误差最小

根号解决小物体偏移量不敏感的问题,前面加上权重项

除了位置之外,还有置信度

希望前景的置信度为1,背景的置信度为0

问题:1.重合在一起的东西很难检测;2.小物体检测不到;3.多标签的物体不能检测

但凡有卷积网络,都要加上BN,即归一化处理

最终目的就是提取特征。

所有的层都是卷积来做的,没有全连接层,因为全连接层容易过拟合,且全连接层由于参数过多,训练慢。所以在YOLO-V2中进行了改进,不要全连接层,都用卷积来实现。

Maxpool表示降采样,一共进行了五次,进行一次降采样,变成原来的1/2,5次,则h,w变为h/32和w/32。

问:为什么不是448*448?

因为要进行五次降采样,一定要能被32整除才好算。

卷积大小只有两种,一种是3×3,一种是1×1,3×3借鉴了VGG的思想,比较小的卷积核做卷积,会使得参数小;小卷积堆叠使用,模型的非线性表达能力更好;小卷积核堆叠使用,还能使模型的计算量减少;小卷积核堆叠使用可以达到和大卷积核一样的探测面积,还更能提取到有用特征,不会丢失重要特征。

DarkNet有更专业的名字,为DarkNet19,表示有19个卷积层

K=5,用K-Means聚类分析将候选框分为5类,候选框长宽就是聚类中心点的h和w

提到了一种新的距离定义,不是直接拿欧式距离来做的,利用1-IoU来表明两者之间距离。

虽然当前候选框变多了,但不能保证每个候选框都能做好,所以mPA值没有太大变化

召回率recall变高了

越大的感受野,能关注原始图像的信息就越多,就能识别越大的物体;越大的感受野,越能考虑一个整体、一个图形。

越大的感受野,适合捕捉大目标、当感受野太大时,小目标可能丢失

将前一层的特征图拆分,再进行拼接,拼接完之后再叠加上1024的特征图,3072=1024+512*4

感受野我们既要大的也要小的

 

13×13感受野大,专门预测大目标的,26×26感受野中等,专门预测中等目标的,52×52预测小目标,设置了三种不同大小的特征图,每种特征图检测不同大小的目标,每一个特征图产生三种候选框,一共9种候选框。

不选择图像金字塔,因为速度慢

当预测大目标时,13×13单独进行处理,当预测中目标时,将13×13进行上采样(上采样(UnSampling) 和 下采样(DownSampling)是啥? - 知乎 (zhihu.com)),得到26×26的,再跟中间26×26的进行融合,拼接在一起;预测小目标时,将26×26进行上采样,得到52×52的,再跟原来52×52的进行融合,拼接在一起,一起处理小目标。

有两条路进行选择,一个是在原有基础上再进行两次卷积,另一条路是原封不动的保留开始的结果,将两条路的结果进行加法操作,让网络自己选择哪个路更好,达到的效果是不会比原来差。

池化最直观的作用就是降维

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值