YOLO4解读，边框聚类

最新推荐文章于 2023-01-15 16:57:24 发布

weixin_44457930

最新推荐文章于 2023-01-15 16:57:24 发布

阅读量512

点赞数 1

分类专栏： YOLO 文章标签： YOLO4解读系列

本文链接：https://blog.csdn.net/weixin_44457930/article/details/120302685

版权

YOLO 专栏收录该内容

4 篇文章 6 订阅

订阅专栏

在这里插入图片描述

交集面积如何计算？
先求cluster和box宽的较小值（图中为Wc），再求cluster和box的高的较小值（图中为Hb），然后再让两个较小值相乘

下面是边框聚类的代码及注释：

#-------------------------------------------------------------------------------------------------#
#   kmeans虽然会对数据集中的框进行聚类，但是很多数据集由于框的大小相近，聚类出来的9个框相差不大，
#   这样的框反而不利于模型的训练。因为不同的特征层适合不同大小的先验框，越浅的特征层适合越大的先验框
#   原始网络的先验框已经按大中小比例分配好了，不进行聚类也会有非常好的效果。
#-------------------------------------------------------------------------------------------------#
# 假如我不知道先验框的大小，或者我想建立几个适合自己任务的先验框，
# 那么就可以用这个程序，从自己的数据集中，聚类出几个先验框来
import glob
import xml.etree.ElementTree as ET

import numpy as np

def cas_iou(box,cluster):
    # box和cluster中记录的是边框的高和宽
    # box的shape是(2, ), cluster的shape是（9，2）
    # 该方法是计算box与9个cluster的交并比
    # 这里求IOU，假设各个边框的中心是重合的，也就是说，不考虑中心点坐标位置差异

    # x,y是交集的宽和高
    x = np.minimum(cluster[:,0],box[0])
    y = np.minimum(cluster[:,1],box[1])

    # 计算box和9个聚类中心的交集，下面的命令读不懂，可以看这个链接：https://blog.csdn.net/weixin_44457930/article/details/120302685
    intersection = x * y

    area1 = box[0] * box[1]                 # 边框1的面积
    area2 = cluster[:,0] * cluster[:,1]     # 边框2（聚类中心）的面积

    # 计算交并比
    iou = intersection / (area1 + area2 -intersection)

    return iou

def avg_iou(box,cluster):
    # cas_iou(box[i],cluster)表示计算第i个边框与9个聚类中心框的iou，返回的shape为（9，)
    # np.max(cas_iou(box[i],cluster))表示从9个iou中，选择最大的
    # 接着使用列表推导式得到列表，列表的每个元素表示每个边框与9个iou的最大值，
    # iou越大，说明距离越小，如果iou为1，则说明完全重合，
    # 如果用聚类中心（cluster1）来代替其他边框（假设为box1），那么可以用iou来表示其准确度
    # 最后对列表取均值，表示平均准确度
    return np.mean([np.max(cas_iou(box[i],cluster)) for i in range(box.shape[0])])

def kmeans(box,k):
    # box是待分类的边框, shape为(m, 2)，m是边框数目
    # 返回的是k个聚类中心的高宽，即返回的shape是(k,2)

    # 取出一共有多少框
    row = box.shape[0]
    
    # 每个框与9个聚类中心的“距离”
    distance = np.empty((row,k))
    
    # 最后的聚类位置
    last_clu = np.zeros((row,))

    # 设置种子
    np.random.seed()

    # 随机选k个框当聚类中心
    # 下面这条命令表示从row个数中随机选取k个，replace表示是否重复
    centers = np.random.choice(row,k,replace = False)

    # 获得聚类中心
    cluster = box[centers]
    # cluster = random.sample(row, k)

    while True:
        # 计算box中每一行与9个聚类中心的距离，这里的距离，用1-IOU来衡量。
        for i in range(row):
            distance[i] = 1 - cas_iou(box[i],cluster)
        
        # 取出每一行的最小值索引，可以得到与每个box距离自小的聚类中心，即分类结果
        near = np.argmin(distance,axis=1)

        # 如果连续两次的分类结果一致，则退出循环
        if (last_clu == near).all():    # last_clu是上一次分类的结果
            break
        
        # 更新聚类中心
        for j in range(k):
            # 计算每个聚类中心高宽的中位数
            cluster[j] = np.median(box[near == j],axis=0)

        last_clu = near     # 将本次的分类结果保存到 last_clu

    return cluster  # 将9个聚类中心的高宽返回

def load_data(path):
    # 将path目录下的所有注释文件依次解析，逐个获得里面的目标信息
    # 返回一个numpy数组，该数组的shape为(m, 2)，
    # 其中m是数据中所有目标框的总数，一张图片可能包含多个目标，也可能没有目标
    # 2是因为收集了高和宽，所以是(m, 2)

    data = []
    # 对于每一个xml都寻找box
    for xml_file in glob.glob('{}/*xml'.format(path)):
        # 解析xml文件
        tree = ET.parse(xml_file)

        # 获取图片的高和宽
        height = int(tree.findtext('./size/height'))
        width = int(tree.findtext('./size/width'))

        # 检测数据是否有问题
        if height<=0 or width<=0:
            continue
        
        # 对于每一个目标都获得它的宽高，并归一化
        for obj in tree.iter('object'):

            # 注释文件中的边框信息是左上角和右下角的顶点坐标
            xmin = int(float(obj.findtext('bndbox/xmin'))) / width
            ymin = int(float(obj.findtext('bndbox/ymin'))) / height
            xmax = int(float(obj.findtext('bndbox/xmax'))) / width
            ymax = int(float(obj.findtext('bndbox/ymax'))) / height

            xmin = np.float64(xmin)
            ymin = np.float64(ymin)
            xmax = np.float64(xmax)
            ymax = np.float64(ymax)

            # 得到宽高
            data.append([xmax-xmin,ymax-ymin])

    return np.array(data)


if __name__ == '__main__':
    # 运行该程序会计算'./VOCdevkit/VOC2007/Annotations'的xml
    # 会生成./yolo_anchors.txt

    SIZE = 416              # 图片的高和宽
    anchors_num = 9         # anchor数量

    # 标签目录，即xml所在目录
    path = r'./VOCdevkit/VOC2007/Annotations'
    
    # 载入所有的xml
    # 存储格式为转化为归一化后的width,height
    data = load_data(path)
    
    # 使用k聚类算法获得聚类中心
    out = kmeans(data,anchors_num)  # 返回的数组shape为（9,2）

    # 将聚类中心按照高进行排序
    out = out[np.argsort(out[:,0])]

    # 求用聚类边框表示其他边框的平均准确度，详见avg_iou()中的注释
    print('acc:{:.2f}%'.format(avg_iou(data,out) * 100))

    # 在提取边框的高宽时，由于进行了归一化，因此需要乘以图片的尺寸
    # 原来的图片，未必是416，这里我们将其调整到416，这样边框的高和宽则是在416大小的图片中的具体值
    print(out*SIZE)
    data = out*SIZE

    # 将聚类后的边框的高和宽写入 yolo_anchors.txt
    f = open("yolo_anchors.txt", 'w')
    row = np.shape(data)[0]
    for i in range(row):
        if i == 0:
            x_y = "%d,%d" % (data[i][0], data[i][1])
        else:
            x_y = ", %d,%d" % (data[i][0], data[i][1])
        f.write(x_y)
    f.close()