YOLOv5系列(三) 解析配置文件yolov5s.yaml(详尽)

小酒馆燃着灯

已于 2024-01-26 10:25:03 修改

阅读量3.3k

点赞数 27

分类专栏： YOLOv5 机器学习深度学习文章标签： YOLO 人工智能深度学习目标检测

于 2023-11-28 19:59:06 首次发布

本文链接：https://blog.csdn.net/weixin_44302770/article/details/134675399

版权

深度学习同时被 3 个专栏收录

204 篇文章 36 订阅

订阅专栏

机器学习

117 篇文章 2 订阅

订阅专栏

YOLOv5

51 篇文章 12 订阅

订阅专栏

前言

在YOLOv5中网络结构采用yaml作为配置文件，之前我们也介绍过，YOLOv5配置了4种不同大小的网络模型，分别是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x，这几个模型的结构基本一样，不同的是depth_multiple模型深度和width_multiple模型宽度这两个参数。就和我们买衣服的尺码大小排序一样，YOLOv5s网络是YOLOv5系列中深度最小，特征图的宽度最小的网络。其他的三种都是在此基础上不断加深，不断加宽。所以，这篇文章我们就以yolov5s.yaml为例来介绍。

yaml这个文件在models文件夹下，我们了解这个文件还是很重要的，如果未来我们想改进算法的网络结构，需要通过yaml这种形式定义模型结构，也就是说需要先修改该文件中的相关参数，然后再修改common.py与yolo.py中的相关代码。（这两个文件下一篇会具体介绍噢~）

源码下载地址：mirrors / ultralytics / yolov5 · GitCode

一、什么是YAML

YAML，即**“ YAML Ain’t a Markup Language（YAML 不是一种标记语言）”**的递归缩写。YAML真实意思是 “Yet Another Markup Language（仍是一种标记语言）”。是专门用来写配置文件的语言，能很好的与当下的编程语言的一些任务相互协作，非常简洁和强大。

官网上的解释是：

“YAML is a human-friendly data serialization language for all programming languages.”

翻译：YAML 是一种适用于所有编程语言的人性化数据序列化语言。

提到数据序列化语言，我们之前可能比较熟悉的是JSON 和 XML ，YAML与它们类似，但它主要强调这种语言是以数据为中心，而不是以标记为中心，像 XML 语言就使用了大量的标记。并且远比这俩方便和更具可读性。

YAML的使用：

YAML的使用包括了两部分：一个是YAML数据的定义，一个是它在其他程序里如何被使用。

YAML 的基础语法：

大小写敏感
使用缩进表示层级关系
不允许使用tab，只允许空格
缩进的空格数量不重要，只要层级相同的元素左对齐即可
‘#’ 表示注释

二、参数配置

# 1、参数配置

# Parameters
nc: 80  # 所判断目标类别的种类，此处80类
depth_multiple: 0.33  # 模型层数因子 控制模型的深度（BottleneckCSP个数）
width_multiple: 0.50  # 模型通道数因子 控制Conv通道channel个数（卷积核数量）

这段代码有三个参数：

nc： 数据集类别个数
depth_multiple： 用于控制层的重复的次数（深度）。通过深度参数 depth gain 在搭建每一层的时候，子模块数量=int(number*depth)，这样就可以起到一个动态调整模型深度的作用。
width_multiple： 用于控制输出特征图的通道数（宽度）。在模型中间层的每一层的卷积核的数量=int(number*width)，这样也可以起到一个动态调整模型宽度的作用。

这三个参数，我们会在模型搭建 yolo.py 文件介绍中见到，先混个眼熟吧：

三、先验框配置

# 2、先验框配置

# anchors
anchors: # 9个anchor，其中P表示特征图的层级，P3/8该层特征图缩放为1/8,是第3层特征

  - [10,13, 16,30, 33,23]  # P3/8 FPN接主干网络下采样8倍后的anchor大小,检测小目标,10,13是一组尺寸，总共三组检测小目标
  - [30,61, 62,45, 59,119]  # P4/16 FPN接主干网络下采样4倍后的anchor大小,检测中目标，共三组
  - [116,90, 156,198, 373,326]  # P5/32 FPN接主干网络下采样2倍后的anchor大小,检测大目标，共三组

YOLOv5使用k-means聚类法来初始化了9个anchors，任意地选择了9个聚类和3个尺度，然后在各个尺度上均匀地划分聚类。在COCO数据集上，这9个聚类是(10 × 13)，(16 × 30)，(33 × 23)，(30 × 61)，(62 × 45)，(59 × 119)，(116 × 90)，(156 × 198)，(373 × 326)。

这9个anchor分别在三个Detect层的feature map中使用，每个feature map的每个grid_cell 都有三个anchor进行预测。

尺度越大的freature map分辨率越大，相对于原图的下采样越小，其感受野也就越小，那么设置的anchors自然越小，如[10,13, 16,30, 33,23]，因此对原始图像中的小物体预测较好；
尺度越小的freature map分辨率越小，相对于原图的下采样越大，其感受野越大，设置的anchors自然也就越大，如[116, 90, 156,198, 373,326]，因此对原始图像中的大物体预测较好。

如下图所示：

四、backbone部分

# 3、backbone部分

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2   [3, 32, 6, 2, 2]
   [-1, 1, Conv, [128, 3, 2]],    # 1-P2/4   [32, 64, 3, 2]
   [-1, 3, C3, [128]],            # 2        [64, 64, 1]
   [-1, 1, Conv, [256, 3, 2]],    # 3-P3/8   [64, 128, 3, 2]
   [-1, 6, C3, [256]],            # 4        [128, 128, 2]
   [-1, 1, Conv, [512, 3, 2]],    # 5-P4/16  [128, 256, 3, 2]
   [-1, 9, C3, [512]],            # 6        [256, 256, 3]
   [-1, 1, Conv, [1024, 3, 2]],   # 7-P5/32  [256, 512, 3, 2]
   [-1, 3, C3, [1024]],           # 8        [512, 512, 1]
   [-1, 1, SPPF, [1024, 5]],      # 9        [512, 512, 5]
  ]

这段代码是YOLOv5s的backbone部分，首先介绍四个参数：

[from, number, module, args]

from ： 表示当前模块的输入来自那一层的输出，-1表示将上一层的输出当做自己的输入（第0层的-1表示输入的图像）。
number： 表示当前模块的重复次数，实际的重复次数还要由上面的参数depth_multiple共同决定，决定网络模型的深度。
module： 表示该层模块的名称，这些模块写在common.py中，进行模块化的搭建网络。
args： 表示类的初始化参数，用于解析作为 moudle 的传入参数，会在网络搭建过程中根据不同层进行改变，我们后面具体分析。

另外，注释中的**#0-P1/2**表示该层为第0层，输出后会变成原图的1/2

我们来解释一下每个层参数含义以及图片变化：

原始输入图片： 6406403

第0层：Conv层 [-1, 1, Conv, [64, 6, 2, 2]]

-1: 输入是图片
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[64, 6, 2, 2]：

Conv层的四个参数
- **64：**channel=64
- **6：**kernel_size=6
- **2：**padding=2
- **2：**stride=2
**输出图片：**32032064

第1层：Conv层 [-1, 1, Conv, [128, 3, 2]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[128, 3, 2]：

Conv层的三个参数
- **128：**channel=128
- **3：**kernel_size=3
- **2：**stride=2
**输出图片：**160160128

第2层：C3层 [-1, 3, C3, [128]]

-1: 输入是上一层的输出
**3：**网络模块数量为3
C3: 该层的网络层名字是C3
[128]：

C3层的参数
- **128：**channel=128
**输出图片：**160160128

第3层：Conv层 [-1, 1, Conv, [256, 3, 2]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[256, 3, 2]：

Conv层的三个参数
- **256：**channel=256
- **3：**kernel_size=3
- **2：**stride=2
**图片变化：**8080256

第4层：C3层 [-1, 6, C3, [256]]

-1: 输入是上一层的输出
**6：**网络模块数量为6
C3: 该层的网络层名字是C3
[256]：

C3层的参数
- **256：**channel=256
**图片变化：**8080256

第5层：Conv层 [-1, 1, Conv, [512, 3, 2]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[512, 3, 2]：

Conv层的三个参数
- **512：**channel=512
- **3：**kernel_size=3
- **2：**stride=2
**输出图片：**4040512

第6层：C3层 [-1, 9, C3, [512]]

-1: 输入是上一层的输出
**9：**网络模块数量为9
C3: 该层的网络层名字是C3
[512]：

C3层的参数
- **512：**channel=512
**输出图片：**4040512

第7层：Conv层 [-1, 1, Conv, [1024, 3, 2]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[1024, 3, 2]：

Conv层的三个参数
- **1024：**channel=1024
- **3：**kernel_size=3
- **2：**stride=2
**输出图片：**20201024

第8层：C3层 [-1, 3, C3, [1024]]

-1: 输入是上一层的输出
**3：**网络模块数量为3
C3: 该层的网络层名字是C3
[1024]：

C3层的参数
- **1024：**channel=1024
**输出图片：**20201024

第9层：SPPF层 [-1, 1, SPPF, [1024, 5]]

主要是对不同尺度特征图的融合
-1: 输入是上一层的输出
**1：**网络模块数量为1
SPPF: 该层的网络层名字是SPPF
[1024, 5]：

SPPF层的两个参数
- **1024：**channel=1024
- **5：**kernel_size=5
**输出图片：**20201024

到第9层为止，backbone部分就结束了**，**这个部分会形成三个接口：

**第4层的输出：**8080256
**第6层的输出：**4040512
**第9层的输出：**20201024

结构示意图如下：

五、Head部分

# 4、head部分

# YOLOv5 v6.0 head

head:
  # 前两个阶段是向上concat
  [[-1, 1, Conv, [512, 1, 1]],    # 10                 [512, 256, 1, 1]
   # nn.upsample不改变channel但是会把图片宽和高都变为2倍
   [-1, 1, nn.Upsample, [None, 2, 'nearest']], # 11    [None, 2, 'nearest']
   # 与上面backbone中的 P4阶段的最后一个输出做一个concat
   # 进行concat的两层必须大小相同、通道数相同 concat之后通道翻倍
   [[-1, 6], 1, Concat, [1]],  # 12 cat backbone P4    [1]
   [-1, 3, C3, [512, False]],  # 13                    [512, 256, 1, False]
   [-1, 1, Conv, [256, 1, 1]], # 14                    [256, 128, 1, 1]
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],   #15   [None, 2, 'nearest']
   [[-1, 4], 1, Concat, [1]],  # 16 cat backbone P3    [1]
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)       [256, 128, 1, False]

 

   # 后两个阶段是向下concat
   [-1, 1, Conv, [256, 3, 2]],  # 18                   [128, 128, 3, 2]
   [[-1, 14], 1, Concat, [1]],  # 19 cat head P4       [1]
   [-1, 3, C3, [512, False]],   # 20 (P4/16-medium)    [256, 256, 1, False]
   [-1, 1, Conv, [512, 3, 2]],  # 21                   [256, 256, 3, 2]
   [[-1, 10], 1, Concat, [1]],  # 22 cat head P5       [1]
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)     [512, 512, 1, False]

   # 有三个检测层，分别是在17层下面、20层下面、23层下面
   [[17, 20, 23], 1, Detect, [nc, anchors]],  # 24     [80，[[10，13，16，30，33，23]，[30，61.[128.256.512]1

  ]

YOLOv5中的Head包括Neck和Detect两部分。

Neck采用了FPN+PAN结构，Detect结构和YOLOv3中的Head一样。其中BottleNeckCSP带有False，说明没有使用残差结构，而是采用的backbone中的Conv。

四个参数和上面backbone一样就不再解释了，我们来继续解释一下每个层参数含义以及图片变化：

**上一个阶段输出大小：**20201024

首先前两个阶段是向上concat

第10层：Conv层 [-1, 1, Conv, [512, 1, 1]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[512, 1, 1]：

Conv层的三个参数
- **512：**channel=512
- **1：**kernel_size=1
- **1：**stride=1
**输出图片：**2020512

第11层：Upsample层 [-1, 1, nn.Upsample, [None, 2, ‘nearest’]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
nn.Upsample: 该层的网络层名字是Upsample
[None, 2, ‘nearest’]：

Upsample

层的三个参数
- **None：**size=None（指定输出的尺寸大小）
- **2：**scale_factor=2（指定输出的尺寸是输入尺寸的倍数）
- **‘nearest’：**mode=‘nearest’（默认: ‘nearest’）
**输出图片：通过该层之后特征图不改变通道数，**特征图的长和宽会增加一倍——4040512

第12层：Concat层 [[-1, 6], 1, Concat, [1]]

[-1, 6]: 输入是上一层和第6层的输出
**1：**网络模块数量为1
Concat: 该层的网络层名字是Concat
[1]： Concat层的参数
- **[1]：**拼接的维度=1
**输出图片：**通过该层之后特征图与第6层（p4阶段）的输出进行特征图的融合——40401024（即输出40×40×512contact40×40×512=40×40×1024）

第13层：C3层 [-1, 3, C3, [512, False]]

-1: 输入是上一层的输出
**3：**网络模块数量为3
C3: 该层的网络层名字是C3
[512, False]：

C3层的两个参数
- **512：**channel=512
- **False：**没有残差模块
**输出图片：**4040512

第14层：Conv层 [-1, 1, Conv, [256, 1, 1]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[256, 1, 1]：

Conv层的三个参数
- **256：**channel=256
- **1：**kernel_size=1
- **1：**stride=1
**输出图片：**4040256

第15层：Upsample层 [-1, 1, nn.Upsample, [None, 2, ‘nearest’]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
nn.Upsample: 该层的网络层名字是Upsample
[None, 2, ‘nearest’]：

Upsample

层的三个参数
- **None：**size=None（指定输出的尺寸大小）
- **2：**scale_factor=2（指定输出的尺寸是输入尺寸的倍数）
- **‘nearest’：**mode=‘nearest’（默认: ‘nearest’）
**输出图片：通过该层之后特征图不改变通道数，**特征图的长和宽会增加一倍——8080256

第16层：Concat层 [[-1, 4], 1, Concat, [1]]

[-1, 4]: 输入是上一层和第4层的输出
**1：**网络模块数量为1
Concat: 该层的网络层名字是Concat
[1]： Concat层的参数
- **[1]：**拼接的维度=1
**输出图片：**通过该层之后特征图与第4层（p3阶段）的输出进行特征图的融合——8080512（即输出80×80×256contact80×80×256=80×80×512）

第17层：C3层 [-1, 3, C3, [256, False]]

-1: 输入是上一层的输出
**3：**网络模块数量为1
C3: 该层的网络层名字是Conv
[256, False]：

C3层的两个参数
- **256：**channel=256
- **False：**没有残差模块
**输出图片：**8080256

后两个阶段是向下concat

第18层：Conv层 [-1, 1, Conv, [256, 3, 2]]

-1: 输入是上一层的输出
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[256, 1, 1]：

Conv层的三个参数
- **256：**channel=256
- **3：**kernel_size=3
- **2：**stride=2
**输出图片：**4040256

第19层：Concat层 [[-1, 14], 1, Concat, [1]]

[-1, 14]: 输入是上一层和第14层的输出
**1：**网络模块数量为1
Concat: 该层的网络层名字是Concat
[1]： Concat层的参数
- **[1]：**拼接的维度=1
**输出图片：**通过该层之后特征图与第14层的输出进行特征图的融合——4040512（即输出40×40×256contact40×40×256=40×40×512）

第20层：C3层 [-1, 3, C3, [512, False]]

-1: 输入是上一层的输出
**3：**网络模块数量为3
C3: 该层的网络层名字是C3
[512, False]：

C3层的两个参数
- **512：**channel=512
- **False：**没有残差模块
**输出图片：**4040512

第21层：Conv层 [-1, 1, Conv, [512, 3, 2]]

-1: 输入是图片
**1：**网络模块数量为1
Conv: 该层的网络层名字是Conv
[512, 3, 2]：

Conv层的三个参数
- **512：**channel=512
- **3：**kernel_size=3
- **2：**stride=2
**输出图片：**2020512

第22层：Concat层 [[-1, 10], 1, Concat, [1]]

[-1, 10]: 输入是上一层和第10层的输出
**1：**网络模块数量为1
Concat: 该层的网络层名字是Concat
[1]： Concat层的参数
- **[1]：**拼接的维度=1
**输出图片：**通过该层之后特征图与第10层的输出进行特征图的融合——20201024（即输出20×20×512contact20×20×512=20×20×1024）

第23层：C3层 [-1, 3, C3, [1024, False]]

-1: 输入是上一层的输出
**3：**网络模块数量为3
C3: 该层的网络层名字是C3
[1024, False]：

C3层的两个参数
- **1024：**channel=1024
- **False：**没有残差模块
**输出图片：**20201024

第24层：Detect层 [[17, 20, 23], 1, Detect, [nc, anchors]]

[17, 20, 23]: 表示把第17、20和23三层作为Detect模块的输入
**1：**网络模块数量为1
Detect: 该层的网络层名字是Detect
[nc, anchors]：

初始化Detect模块的参数
- **nc：**类别个数
- anchors**：**超参数 anchors的值
**输出图片：**20201024

结构示意图如下：

六、整体模型

七、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x对比

精确度对比

配置对比

	YOLOv5s	YOLOv5m	YOLOv5l	YOLOv5x
depth_multiple	0.33	0.67	1.0	1.33
width_multiple	0.50	0.75	1.0	1.25
BottleneckCSP数BCSPn(True)	1，3，3	2，6，6	3，9，9	4，12，12
BottleneckCSP数BCSPn(False)	1	2	3	4
Conv卷积核数量	32,64,128,256,512	48,96,192,384,768	64,128,256,512,1024	80,160,320,640,1280

深度对比

宽度对比

小酒馆燃着灯

关注

27
点赞
踩
69

收藏

觉得还不错? 一键收藏
打赏
2
评论
YOLOv5系列(三) 解析配置文件yolov5s.yaml(详尽)

在YOLOv5中网络结构采用yaml作为配置文件，之前我们也介绍过，YOLOv5配置了4种不同大小的网络模型，分别是，这几个模型的结构基本一样，不同的是depth_multiple模型深度和width_multiple模型宽度这两个参数。就和我们买衣服的尺码大小排序一样，YOLOv5s网络是YOLOv5系列中深度最小，特征图的宽度最小的网络。其他的三种都是在此基础上不断加深，不断加宽。所以，这篇文章我们就以为例来介绍。yaml这个文件在models文件夹下。
复制链接

扫一扫