YOLOv5中autoanchor.py的def metric(k)的r = wh[:, None] / k[None]的理解

Taylor不想被展开

已于 2022-03-12 17:00:52 修改

阅读量807

点赞数 4

分类专栏： YOLOv5代码细节解析文章标签： python

于 2022-03-12 16:41:40 首次发布

本文链接：https://blog.csdn.net/weixin_44808161/article/details/123446066

版权

YOLOv5代码细节解析专栏收录该内容

2 篇文章 2 订阅

订阅专栏

check_anchors()内metric()函数

def check_anchors(dataset, model, thr=4.0, imgsz=640):
    """在train.py中调用，计算BPR确定是否需要改变anchors 需要就调用K-means重新计算anchors
       args: dataset -> 自定义数据集LoadImagesAndLabels返回的数据集
             model -> 初始化的模型
             thr -> 超参数，界定anchor与label匹配程度的阈值，anchor与标签框的比例范围为(1/thr, thr)，在此范围内算是满足要求
             imgsz -> 输入图片尺寸，默认640"""
    # Check anchor fit to data, recompute if necessary

    # 打印字符串：autoanchor:Analyzing anchors...
    prefix = colorstr('autoanchor: ')
    print(f'\n{prefix}Analyzing anchors... ', end='')

    # 取出模型最后一层，即Detect层
    m = model.module.model[-1] if hasattr(model, 'module') else model.model[-1]  # Detect()
    # dataset.shapes.max(1, keepdims=True) = 每张图片的较长边
    # shapes: 将数据集图片的最长边缩放到img_size, 较小边相应缩放，得到新的所有数据集图片
    shapes = imgsz * dataset.shapes / dataset.shapes.max(1, keepdims=True)
    # 产生随机数scale [2501, 1]
    scale = np.random.uniform(0.9, 1.1, size=(shapes.shape[0], 1))  # augment scale
    # 将GT的归一化坐标缩放为基于图片大小为shapes * scale的坐标
    wh = torch.tensor(np.concatenate([l[:, 3:5] * s for s, l in zip(shapes * scale, dataset.labels)])).float()  # wh

    def metric(k):  # compute metric
        """根据wh计算anchor是否满足要求，即anchor与标签框的比值要在(1/thr, thr)
           args：k -> 一般传入的是anchors的宽高 [M, 2]，也可传入GT的宽高wh: [N, 2]，M为anchor的数量，作者M取9，N为GT的数量
           return：bpr -> best possible recall 最多能被召回(通过thr)的gt框数量/所有gt框数量，小于0.98 才会用k-means计算anchor
                   aat -> anchors above threshold 每个target平均有多少个anchors
        """
        r = wh[:, None] / k[None]
        # x：高宽比和宽高比的最小值，无论r大于1，还是小于等于1，最后统一结果都要小于1   [N, M]
        x = torch.min(r, 1. / r).min(2)[0]  # ratio metric
        best = x.max(1)[0]  # best_x
        aat = (x > 1. / thr).float().sum(1).mean()  # anchors above threshold
        bpr = (best > 1. / thr).float().mean()  # best possible recall
        return bpr, aat

None用以添加维度，所有GT的wh[:, None]，[N, 2]->[N, 1, 2]，所有anchor的wh k[None] [M, 2]->[1, M, 2]

r: GT的宽高与anchor的宽高的比值，即h/h_a, w/w_a，r.shape=(N, M, 2)，r中元素有可能大于1，也可能小于等于1

为什么要添加维度：原来的维度是[N, 2]、[M, 2]，无法相除，因为不满足广播机制，但是增加维度后就可以满足了广播原则的条件

Taylor不想被展开

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
YOLOv5中autoanchor.py的def metric(k)的r = wh[:, None] / k[None]的理解

None用以添加维度，所有GT的wh[:, None]，[N, 2]->[N, 1, 2]，所有anchor的wh k[None] [M, 2]->[1, M, 2]r: GT的宽高与anchor的宽高的比值，即h/h_a, w/w_a，r.shape=(N, M, 2)，r中元素有可能大于1，也可能小于等于1为什么要添加维度：原来的维度是[N, 2]、[M, 2]，无法相除，因为不满足广播机制，但是增加维度后就可以满足了广播原则的条件...
复制链接

扫一扫