目标检测（5）—— YOLO系列V1

最新推荐文章于 2024-03-08 17:13:50 发布

莫听穿林打叶声@

最新推荐文章于 2024-03-08 17:13:50 发布

阅读量576

点赞数

分类专栏：目标检测文章标签：深度学习神经网络人工智能计算机视觉目标检测

本文链接：https://blog.csdn.net/weixin_45703331/article/details/127716491

版权

目标检测专栏收录该内容

9 篇文章 7 订阅

订阅专栏

一、YOLO系列V1

经典的one-stage方法，You Only Look Once
将检测问题转化成回归问题，一个CNN搞定
可以对视频进行实时监测

YOLO系列的速度更快，我们检测的物体很简单，进行取舍，舍弃了一些精度。

在这里插入图片描述

V1核心思想

现在要预测一张图片中有哪些物体，左边的图像上有狗、自行车、面包车。
输入s×s的图片，假设7×7个格子，每个格子都负责预测落在自己位置上的是什么东西。格子上的中心点进行预测。
现在这个红色的点进行预测，它也不知道狗长什么样子，长宽是多少，所以先给一些经验值，就是图上黄色的两个框（h1,w1;h2,w2）。（YOLOV1给了两个）。经验值不准，但是也可以参考，将经验好的框进行微调，相当于一个回归任务，h怎么变，w怎么变。初始的点在哪（V1的版本初始点是中心点）。

在这里插入图片描述

总结：有了输入数据，分成很多的小格子，每个小格子产生两种的候选框B值（V1版本），看看两种候选框和真实值匹配的怎么样，算IOU的值，哪个大，哪个候选框就好，就微调谁。会计算出来很多很多的候选框（因为每一个格子都要计算）。计算出bounding box和confidence，即为我们在预测的时候不仅要预测x，y，w，h，还要confidence（当前这个小格子预测出物体的概率）。置信度小的过滤掉。
输入s×s的图片
对置信度高的框、IOU高的框进行微调