【目标检测算法】--YOLOv3学习笔记

最新推荐文章于 2022-11-01 10:55:31 发布

roy_blue

最新推荐文章于 2022-11-01 10:55:31 发布

阅读量378

点赞数

分类专栏： # TensorFlow深度学习笔记文章标签： yolov3

本文链接：https://blog.csdn.net/wxq_1993/article/details/95100381

版权

TensorFlow深度学习笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

一、yolov3的网络结构：

如上图所示：

（1）卷积层：

layer filters size input output

0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x 416 x 32 0.299 BFLOPs

（2）输入层：

输入：像素为416*416，通道数为3的的图片（开启random参数的话可以自适应以32为基础的变化，）

BN操作：对输入进行BN操作（这里未显示）。

卷积操作：32层卷积核（filters），每个卷积核大小为3*3，步伐为1（每个卷积窗口逐步进行卷积）。

输出：32个通道的416*416大小的feature map

（3）res层（shortcut操作）：

layer filters size input output

4 res 1 208 x 208 x 64 -> 208 x 208 x 64

输入与输出：输入与输出一般保持一致，并且不进行其他操作，只是求差。

处理操作：res层来源于resnet，为了解决网络的梯度弥散或者梯度爆炸的现象，提出将深层神经网络的逐层训练改为逐阶段训练，将深层神经网络分为若干个子段，每个小段包含比较浅的网络层数，然后用shortcut的连接方式使得每个小段对于残差进行训练，每一个小段学习总差（总的损失）的一部分，最终达到总体较小的loss，同时，很好的控制梯度的传播，避免出现梯度消失或者爆炸等不利于训练的情形。

二、yolo层分析：

darknet-53:

从第0层一直到74层，一共有53个卷积层，其余为res层。这就是Joseph Redmon大神提出的darknet-53经典的卷积层了。作为yolov3特征提取的主要网络结构。预训练（以imagenet数据集为训练基础）的权重文件可以通过官网下载。该结构使用一系列的3*3和1*1的卷积的卷积层。这些卷积层是从各个主流网络结构选取性能比较好的卷积层进行整合得到。它比darknet-19效果好很多，同时，它在效果更好的情况下，是resnet-101效率的1.5倍，几乎与resnet-152的效果相同的情况下，保持2倍于resnet-152的效率。

YOLO层部分

从75到105层我为yolo网络的特征交互层，分为三个尺度，每个尺度内，通过卷积核的方式实现局部的特征交互，作用类似于全连接层但是是通过卷积核（3*3和1*1）的方式实现feature map之间的局部特征（fc层实现的是全局的特征交互）交互。

如下图所示：

多尺度预测

每种尺度预测3个box, anchor的设计方式仍然使用聚类,得到9个聚类中心,将其按照大小均分给3中尺度.

尺度1: 在基础网络之后添加一些卷积层再输出box信息.
尺度2: 从尺度1中的倒数第二层的卷积层上采样(x2)再与最后一个16x16大小的特征图相加,再次通过多个卷积后输出box信息.相比尺度1变大两倍.
尺度3: 与尺度2类似,使用了32x32大小的特征图.

小尺度yolo层：

输入：13*13的feature map ，一共1024个通道。

操作：一系列的卷积操作，feature map的大小不变，但是通道数最后减少为75个。

输出；直接从卷积层输出预测结果，小的featur-map可以预测大的检测框anchor-box。

输出13*13大小的feature map，75个通道，在此基础上进行分类和位置回归。

中尺度yolo层：

输入：将79层的13*13、512通道的feature map进行卷积操作，生成13*13、256通道的feature map，然后进行上采样，生成26*26、256通道的feature map，同时于61层的26*26、512通道的中尺度的feature map合并。再进行一系列卷积操作，

操作：一系列的卷积操作，feature map的大小不变，但是通道数最后减少为75个。

输出：26*26大小的feature map，75个通道，然后在此进行分类和位置回归。

大尺度的yolo层：

输入：将91层的26*26、256通道的feature map进行卷积操作，生成26*26、128通道的feature map，然后进行上采样生成52*52、128通道的feature map，同时于36层的52*52、256通道的中尺度的feature map合并。再进行一系列卷积操作，

操作：一系列的卷积操作，feature map的大小不变，但是通道数最后减少为75个。

输出：该层的feature_map较大，预测较小的anchor_box

52*52大小的feature map，75个通道，然后在此进行分类和位置回归。

参考：1.https://www.cnblogs.com/makefile/p/YOLOv3.html

2.https://blog.csdn.net/chandanyan8568/article/details/81089083

roy_blue

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【目标检测算法】--YOLOv3学习笔记

一、yolov3的网络结构：如上图所示：（1）卷积层：layer filters size input output0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x 416 x 32 0.299 BFLOPs（2）输入层：输入：像素为416*416，通道数为3的的图片（开启random参数的话可以自适应以32为基础的变化，）...
复制链接

扫一扫