YoloV1——总结

一个又帅又正直的人

已于 2022-05-13 15:24:33 修改

阅读量5.7k

点赞数

文章标签：深度学习神经网络计算机视觉

于 2022-03-14 19:25:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44384491/article/details/123330706

版权

YoloV1是一款快速、简洁的目标检测模型，以其超过45fps的运行速度和端到端的架构著称。然而，它在目标定位精度和小目标检测方面存在不足。网络由24个卷积层和2个全连接层构成，每个网格单元格预测2个边界框和相关概率。训练过程中涉及预训练、参数调整和损失函数优化。损失函数考虑了预测框的偏差和坐标预测，以提高检测效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.概述

YoloV1是一个快速、准确的目标检测网络，优缺点如下：

优点：

1.具备实时性，网络运行速度超过45fps

3.网络结构简单，端到端

4.可用于多种对象的检测

缺点：

1.目标定位较粗糙

2.对小目标检测不太好

3.每个cell只能生成2个框，并且只能有一个类

2.网络结构

说明：网络有24个卷积层，然后是2个完全连接的层。交替的1×1个卷积层减少了前一层的特征空间。

3.检测过程中的参数

1.输入一张图片

2.系统将图片分割为一个 $S\times S$ 的网格，如果一个对象的中心落入一个网格单元格中，则该网格单元格负责检测该对象。

3.每个网格单元格预测边界框和这些边界框的置信度分数。这些置信度分数反映了模型对边界框包含物体的信心，也反映了它认为盒子预测的准确性。

$confience=Pr(Object)*IOU_{truth}^{pred}$

注：如果单元格中不包含对象则 $Pr(Object)=0$ ，包含对象 $Pr(Object)=1$ 。

4.每个单元格2个预测框，每个框里面有六个参数，分别是 $x,y,w,h,confidence$ ， $(x,y)$ 是预测框的中心坐标， $w,h$ 分别是预测框的宽和高， $confidence$ 是置信度。此外，每个单元格还有一个参数 $C$ ，其是某几类对象的概率集合。

5.Yolov1最终会将一张图片编码成一个如下张量：

$S\times S\times \left ( B*5+C \right )$

其中B是每个单元格的预测框数量。

在论文中， $S=7,B=2,C=20$

6.计算每个预测框的得分：

$Score=confidence*C$

用这个得分去做后续的非极大值抑制处理（NMS）。最后保留下来的结果，就是网络的最终预测输出。

4.训练

1.作者先在ImageNet1000上预训练前20层卷积层加一个平均池化层和一个全连接层。

2.然后作者又在20层卷积层后面加了4层卷积层和随机初始化权值的完全连接层。

3.作者还把网络的输入从 $224\times 224$ 增加到了 $448\times 448$ 。

4.作者还基于图像的大小，把预测框的 $w,h$ 缩放到了0到1之间。

5.网络的最后一层使用的是线性激活函数：

$\phi (x)=\left\{\begin{matrix} x, ifx>0\\ 0.1x,otherwise \end{matrix}\right.$

6.在每个图像中，许多网格单元格不包含任何对象。这将这些细胞的 $confidence$ 分数推向零，通常超过了确实包含物体的细胞的梯度。这可能导致模型不稳定，导致训练在早期出现分歧。为了解决这一点，作者增加了边界框坐标预测的损失，并减少了不包含对象的框的一致性预测的损失。

7.误差度量应该反映大预测框的小偏差比预测框的小偏差小。为了部分解决这个问题，我们预测边界框宽度和高度的平方根，而不是直接预测宽度和高度。

5.损失函数

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。