YOLO v3目标检测

最新推荐文章于 2024-07-30 10:54:41 发布

不务正业的程序媛

最新推荐文章于 2024-07-30 10:54:41 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：卷积 python 计算机视觉神经网络

本文链接：https://blog.csdn.net/weixin_43903564/article/details/107237572

版权

本文详细介绍了YOLO v3目标检测的工作原理，包括全卷积网络、残差块、跳跃连接、上采样、锚框、边界框回归、IoU、非极大值抑制等关键概念。通过深入探讨网络结构和输出处理，揭示了YOLO v3如何高效检测图像中的物体。

摘要由CSDN通过智能技术生成

工作原理描述

相关概念

在了解YOLO之前，需要清除一些知识盲区，这里给出了相关概念讲解的博客链接。

YOLO

YOLO是You Only Look Once的缩写。它是一种使用深卷积神经网络学习的特征来检测物体的目标检测器。

残差块（Residual Blocks）

如图1所示，x 表示输入，F(x) 表示残差块在第二层激活函数之前的输出，即 F(x)=W2σ(W1x)，其中 W1 和 W2 表示第一层和第二层的权重，σ 表示 ReLU 激活函数。（这里省略了 bias。）最后残差块的输出是 σ(F(x)+x)。详见：https://blog.csdn.net/hejin_some/article/details/100979887
在这里插入图片描述

图1 残差块

跳跃连接（skip connections）

skip connections中文翻译叫跳跃连接，通常用于残差网络中。它的作用是：在比较深的网络中，解决在训练的过程中梯度爆炸和梯度消失问题。

上采样（Upsampling）

缩小图像（或称为下采样（subsampled）或降采样（downsampled））的主要目的有两个：使得图像符合显示区域的大小；生成对应图像的缩略图。
放大图像（或称为上采样（upsampling）或图像插值（interpolating））的主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上。对图像的缩放操作并不能带来更多关于该图像的信息，因此图像的质量将不可避免地受到影响。然而，确实有一些缩放方法能够增加图像的信息，从而使得缩放后的图像质量超过原图质量的。详见：https://blog.csdn.net/stf1065716904/article/details/78450997

目标检测

分类任务我们已经熟悉了，就是算法对其中的对象进行分类。而今天我们要了解构建神经网络的另一个问题，即目标检测问题。这意味着，我们不仅要用算法判断图片中是不是一辆汽车，还要在图片中标记出它的位置，用边框或红色方框把汽车圈起来，这就是目标检测问题。其中“定位”的意思是判断汽车在图片中的具体位置。

边界框回归(Bounding Box Regression)

对于窗口一般使用四维向量(x,y,w,h)来表示，分别表示窗口的中心点坐标和宽高。对于图 2, 红色的框 P 代表原始的Proposal, 绿色的框 G 代表目标的 Ground Truth，我们的目标是寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^。
在这里插入图片描述

图2 边界框回归

边框回归的目的：给定(Px,Py,Pw,Ph)寻找一种映射f，使得f(Px,Py,Pw,Ph)=(Gx^,Gy^,Gw^,Gh^)并且(Gx^,Gy^,Gw^,Gh^)≈(Gx,Gy,Gw,Gh)。详见：https://blog.csdn.net/zijin0802034/article/details/7