物体检测-系列教程21：YOLOV5 源码解析11 （模型创建：parse_model函数）

机器学习杨卓越

已于 2024-03-03 17:11:47 修改

阅读量993

点赞数 22

分类专栏： yolo物体检测系列文章标签： YOLO 深度学习人工智能计算机视觉目标检测 pytorch

于 2024-03-02 23:46:02 首次发布

本文链接：https://blog.csdn.net/weixin_50592077/article/details/136424648

版权

yolo物体检测系列专栏收录该内容

28 篇文章 5 订阅

订阅专栏

😎😎😎物体检测-系列教程总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传
点我下载源码

15、parse_model函数

位置：yolov5/models/yolo.py/parse_model函数
parse_model函数是根据一个配置字典d和输入通道数ch解析并构建一个模型实例。这个过程包括解析模型配置（如锚点、类别数、深度和宽度倍数等），创建模型的各个层，并最终将它们组合成一个序列模型

这个配置文件，就是前面我们讲的 物体检测-系列教程18：YOLOV5 源码解析8 （配置文件：yolov5s.yaml）这部分的内容

在这段代码中，每次走到了那一层，需要在debug模式中才可以看到，但是所有的层可以在配置文件中看，也可以在onnx格式的模型文件中使用netron工具查看

def parse_model(d, ch):  # model_dict, input_channels(3)
    logger.info('\n%3s%18s%3s%10s  %-40s%-30s' % ('', 'from', 'n', 'params', 'module', 'arguments'))
    anchors, nc, gd, gw = d['anchors'], d['nc'], d['depth_multiple'], d['width_multiple']
    na = (len(anchors[0]) // 2) if isinstance(anchors, list) else anchors  # number of anchors
    no = na * (nc + 5)  # number of outputs = anchors * (classes + 5)
    layers, save, c2 = [], [], ch[-1]  # layers, savelist, ch out
    for i, (f, n, m, args) in enumerate(d['backbone'] + d['head']):  # from, number, module, args
        m = eval(m) if isinstance(m, str) else m  # eval strings
        for j, a in enumerate(args):
            try:
                args[j] = eval(a) if isinstance(a, str) else a  # eval strings
            except:
                pass
        n = max(round(n * gd), 1) if n > 1 else n  # depth gain
        if m in [nn.Conv2d, Conv, Bottleneck, SPP, DWConv, MixConv2d, Focus, CrossConv, BottleneckCSP, C3]:
            c1, c2 = ch[f], args[0]
            c2 = make_divisible(c2 * gw, 8) if c2 != no else c2
            args = [c1, c2, *args[1:]]
            if m in [BottleneckCSP, C3]:
                args.insert(2, n)
                n = 1
        elif m is nn.BatchNorm2d:
            args = [ch[f]]
        elif m is Concat:
            c2 = sum([ch[-1 if x == -1 else x + 1] for x in f])
        elif m is Detect:
            args.append([ch[x + 1] for x in f])
            if isinstance(args[1], int):  # number of anchors
                args[1] = [list(range(args[1] * 2))] * len(f)
        else:
            c2 = ch[f]
        m_ = nn.Sequential(*[m(*args) for _ in range(n)]) if n > 1 else m(*args)  # module
        t = str(m)[8:-2].replace('__main__.', '')  # module type
        np = sum([x.numel() for x in m_.parameters()])  # number params
        m_.i, m_.f, m_.type, m_.np = i, f, t, np  # attach index, 'from' index, type, number params
        logger.info('%3s%18s%3s%10.0f  %-40s%-30s' % (i, f, n, np, t, args))  # print
        save.extend(x % i for x in ([f] if isinstance(f, int) else f) if x != -1)  # append to savelist
        layers.append(m_)
        ch.append(c2)
    return nn.Sequential(*layers), sorted(save)

定义函数，接收两个参数：d即model_dict包含模型配置信息的字典，ch即input_channels是输入通道数的list
使用日志记录器logger打印一行标题，说明后续打印信息的格式，包括层的来源（from）、数量（n）、参数数（params）、模块类型（module）和参数（arguments）
anchors, nc, gd, gw，从模型配置字典d中提取锚点anchors、类别数nc、深度倍数gd、宽度倍数gw
na，计算锚点的数量。如果anchors是一个list，则取第一个元素的长度除以2；否则，直接使用anchors的值
no，计算模型输出值的个数，分类类别数nc+检测框的坐标值4+置信度1，这个结果再乘以物体数na，
layers, save, c2，初始化三个变量：layers用于存储模型的所有层，save用于记录需要保存的层的索引，c2初始化为输入通道数列表的最后一个元素，代表最近一层的输出通道数
遍历模型配置中的backbone（主干网络）和head（头网络）部分，i是索引，(f, n, m, args)分别代表层的来源索引、重复次数、模块类型和参数
m，如果模块类型m是字符串，则使用eval函数将其解析为Python对象；否则直接使用m
遍历模块的参数args，j为遍历的索引，a为遍历到的参数值
try
如果a是字符串，使用eval函数解析a；如果不是，直接使用a。然后将其赋值给args[j]
except
pass
n，如果n大于1，则将其乘以深度倍数gd，四舍五入后取其与1的最大值，以此调整层的重复次数；否则直接使用n，这在之前的配置文件的解析中提到过
判断当前遍历的模型，是否在给到的列表中
c1，c2，根据当前的索引获取当前层的输入通道数c1；输出通道数c2
c2，如果c2（预期的输出通道数）不等于模型输出层的通道数no，则调用make_divisible函数通过乘以宽度倍数gw并确保结果能被8整除来调整c2。这是为了适应硬件对通道数的特定要求，以提高效率。在前面我们已经介绍了在配置文件中怎么使用这些系数。
更新模块的参数列表，将调整后的输入和输出通道数放在列表前面，后跟原始参数列表中除了第一个参数之外的所有参数
如果当前模块是BottleneckCSP或者C3，需要进行特殊处理
对于BottleneckCSP或C3类型的模块，将重复次数n插入到参数列表的第三个位置
对于BottleneckCSP或C3类型的模块，将重复次数n设置为1，因为这些模块内部已经处理了重复逻辑
如果当前模块是批归一化
对于批归一化层，参数列表仅包含一个元素，即该层的输入通道数
如果当前模块是拼接特征模块
c2，对于拼接操作，计算所有输入层的输出通道数之和作为c2
如果是检测层
向Detect层的参数列表中添加一个元素，包含所有输入层的输出通道数
将锚点数量转换为每个输入层对应的锚点索引列表
如果是其他类型的模块
直接使用来源层的输出通道数作为c2
m_，根据重复次数n创建模块实例。如果n大于1，则创建一个Sequential容器包含重复的模块；否则，直接创建单个模块实例
t，获取模块类型的字符串表示，并移除可能的__main__.前缀，以便于打印和记录
np，计算当前模块实例中所有参数的总数量
将当前模块的索引i、来源索引f、模块类型t和参数数量np作为属性附加到模块实例上，以便后续引用
使用日志记录器logger打印当前模块的详细信息，包括索引、来源索引、重复次数、参数数量、模块类型和参数列表
将当前层的索引添加到save列表中，以便保存模型的关键层。这里处理了f可能为单个整数或整数列表的情况，并排除了值为-1的情况
当前构建的模块实例m_添加到layers列表中
更新ch列表，追加当前层的输出通道数c2
返回一个包含所有层的序列模块nn.Sequential和一个排序后的需要保存层索引的列表

parse_model函数通过解析给定的配置字典d，动态地构建一个深度学习模型。这个过程包括解析基本配置（如锚点、类别数等），根据配置调整层的深度和宽度，处理各种层类型的特殊逻辑（如卷积层、批归一化层、拼接操作和检测层），并最终将所有层组装成一个完整的模型。这种动态构建模型的方法提供了极高的灵活性，允许通过简单修改配置字典来调整模型结构，非常适用于复杂模型的实验和开发，如目标检测模型