yolo_v1学习笔记

最新推荐文章于 2024-08-15 07:00:00 发布

weixin_43700045

最新推荐文章于 2024-08-15 07:00:00 发布

阅读量196

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/weixin_43700045/article/details/102967724

版权

2 篇文章 0 订阅

订阅专栏

注：第一次学习目标检测神经网络，目标检测训练数据的标签与分类任务的不同，有框的位置及大小置信度等参数，不只是简单的类别。

将物体检测方法看作一个回归问题，来预测空间分离的边界框和相关类别的概率。
将图片隐式(理论处理上)的分为S*S个网格。
物体的中心落在哪个网格内，哪个网格就负责预测这个物体。
每个网格要预测B个框，C个类别。
这种预测方式导致网格内出现两个物体的中心时，只能预测出其中一个；一个网格内包含很多小物体，如一群鸟时，只能检测出一类或者一个。即对靠的很近的物体和小目标群体检测效果不是很好。
每个框包含了位置信息和置信度（x,y,w,h,confidence）
x,y为中心点坐标，w,h为框的宽度(均经过归一化，值0-1)，confidence是置信度，所以一张图预测的信息一共有：SS(B*5+C)。

$confidence=Pr(Object)*IOU^{truth}_{pred}$
第一项为物体先验概率，如果框内包含物体值为1，否则为0；第二项为预测框与真实框的交并比（0-1），所以Confidence的取值范围为0-1。

发给对方给

在这里插入图片描述

中心点损失
宽高损失
置信度损失
类别损失
损失函数分析：对于每张图片，大多数格点单元不包含目标，其对应的置信度得分为0。目标存在与不存在框的比例失衡（前景与背景失衡），将会影响最后loss的计算，从而影响包含目标的格点单元的梯度，导致模型不稳定，训练容易过早收敛甚至发散。
因此，模型中增加bounding box坐标对应的loss，同时对于不包含目标的box，降低其置信度对应的loss。文中用 $\lambda_{coord}$ 和 $\lambda_{noobj}$ 来实现这一功能。
对于不同大小的bbox预测中，相比于大bbox预测偏一点，小box预测偏一点更不能忍受。而平方误差损失对同样的偏移loss是一样的。文中将box的width和height取平方根代替原本的height和width。