YOLO学习笔记(模型结构及算法解析)

  整体流程:首先系统将输入图像的大小调整为448 × 448,然后在图像上运行单个卷积网络,最后通过模型的置信度对结果检测进行阈值。如下图

   具体实现细节为,将一张图像分成S×S个网格,如果一个物体的中心落在一个网格单元中,这个网格单元负责检测这个物体。每个网格单元预测B个边界框和这些框的置信度得分。这些置信度分数反映了模型对边界框里有一个物体有多大概率,以及它认为盒子里有一个物体的预测有多准确。

  每个边界框由5个预测组成:x, y, w, h和置信度。(x;y)坐标表示相对于网格单元边界的框的中心。宽度和高度是相对于整个图像预测的。最后,置信度预测表示预测框与任何真实框之间的IOU。每个网格单元还预测C个条件类概率。

如图,将一张图片为分成7×7的网格,每个网格生成两个预测框。系统将检测建模为回归问题。它将图像划分为S × S网格,并为每个网格单元预测B个边界框、这些框的置信度和C类概率。这些预测被编码为S × S × (B * 5 + C)张量。

举个例子:为了评估PASCAL VOC上的YOLO,我们使用S = 7, B = 2。PASCAL VOC有20个标签类,所以C = 20。我们最终的预测是一个7 × 7 × 30张量。

  如上图,是该模型的网络结构,网络有24个卷积层,后面是2个全连接层。 网络的最终输出是7 × 7 × 30的预测张量。

总结:

优势在于速度快,定位与分类同时进行。

劣势在于空间约束大,并且每个网格只能预测两个边界框,因此对小目标等容易出现漏检。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值